SlideShare uma empresa Scribd logo
1 de 20
Baixar para ler offline
De Scikit-Learn para MLLib
CLASSIFICAÇÃO EM LARGA ESCALA
Agenda
● O quê: Spark
● O quê: MLlib
● Exemplo KMeans em "Toy Dataset"
● DataFrames
● Classificação de Spam em Produção
● Por quê?
Quem Somos
● Computação genérica distribuída
● Até 10 a 100x mais rápido que Hadoop MapReduce
O Quê: Spark
O Quê: Spark
O Quê: Spark
● Machine Learning escalável
● Construído em cima do Spark
O Quê: MLLib
● Clustering [KMeans, LDA]
● Classificação [SVM, Naïve Bayes, Random Forests]
● Regressão
● Extração de características
● Recomendação, timização de parâmetros, avaliação de
modelos...
Algoritmos
KMeans Toy Example
DataFrames
● Schema definido
● Formato tabular
● Operações, queries otimizadas
● Pipelines
Pipelines
● Transformer
○ Gera um DF a partir de outro DF
● Estimator
○ Abstrai o conceito de um algoritmo que é treinado sob um
conjunto
Classificação de Spam em Produção
Classificação de Spam em Produção
Classificação de Spam em Produção
Por que MLlib?
Por que MLlib?
Por que MLlib?
Por que MLlib?
Desenvolvimento ~== Produção
Por que MLlib?
/in/guilhermepeixoto
guilherme.peixoto@inlocomedia.com
@gppeixoto

Mais conteúdo relacionado

Destaque

From the Big Bang to Ecommerce, a journey in making sense of Big Data
From the Big Bang to Ecommerce, a journey in making sense of Big DataFrom the Big Bang to Ecommerce, a journey in making sense of Big Data
From the Big Bang to Ecommerce, a journey in making sense of Big DataPatrick Deglon
 
Fluent Refactoring (Cascadia Ruby Conf 2013)
Fluent Refactoring (Cascadia Ruby Conf 2013)Fluent Refactoring (Cascadia Ruby Conf 2013)
Fluent Refactoring (Cascadia Ruby Conf 2013)Sam Livingston-Gray
 
DEFINICIÓN SOBRE EL AMOR
DEFINICIÓN SOBRE EL AMORDEFINICIÓN SOBRE EL AMOR
DEFINICIÓN SOBRE EL AMORAlquimista Aula
 
1. prepare usb installer
1.  prepare usb installer1.  prepare usb installer
1. prepare usb installerkris harden
 
Training & workshop lesson plan medea ocotber 21st 2014
Training & workshop lesson plan  medea ocotber 21st 2014 Training & workshop lesson plan  medea ocotber 21st 2014
Training & workshop lesson plan medea ocotber 21st 2014 Mr Bounab Samir
 
Bahasa Mandarin Dasar
Bahasa Mandarin DasarBahasa Mandarin Dasar
Bahasa Mandarin DasarDevy Riani
 

Destaque (10)

From the Big Bang to Ecommerce, a journey in making sense of Big Data
From the Big Bang to Ecommerce, a journey in making sense of Big DataFrom the Big Bang to Ecommerce, a journey in making sense of Big Data
From the Big Bang to Ecommerce, a journey in making sense of Big Data
 
Information Mapping (1)
Information Mapping (1)Information Mapping (1)
Information Mapping (1)
 
Fluent Refactoring (Cascadia Ruby Conf 2013)
Fluent Refactoring (Cascadia Ruby Conf 2013)Fluent Refactoring (Cascadia Ruby Conf 2013)
Fluent Refactoring (Cascadia Ruby Conf 2013)
 
DEFINICIÓN SOBRE EL AMOR
DEFINICIÓN SOBRE EL AMORDEFINICIÓN SOBRE EL AMOR
DEFINICIÓN SOBRE EL AMOR
 
Dilasa
DilasaDilasa
Dilasa
 
Affiches de la famille
Affiches de la familleAffiches de la famille
Affiches de la famille
 
1. prepare usb installer
1.  prepare usb installer1.  prepare usb installer
1. prepare usb installer
 
Training & workshop lesson plan medea ocotber 21st 2014
Training & workshop lesson plan  medea ocotber 21st 2014 Training & workshop lesson plan  medea ocotber 21st 2014
Training & workshop lesson plan medea ocotber 21st 2014
 
Bmw museum
Bmw museumBmw museum
Bmw museum
 
Bahasa Mandarin Dasar
Bahasa Mandarin DasarBahasa Mandarin Dasar
Bahasa Mandarin Dasar
 

Semelhante a Scikit-Learn para MLLib: Machine Learning em Larga Escala

Curso de Performance and Tuning - Linux
Curso de Performance and Tuning - LinuxCurso de Performance and Tuning - Linux
Curso de Performance and Tuning - LinuxDell Technologies
 
[DTC21] Raphael Castilho - Começando com Inteligência Artificial e Machine Le...
[DTC21] Raphael Castilho - Começando com Inteligência Artificial e Machine Le...[DTC21] Raphael Castilho - Começando com Inteligência Artificial e Machine Le...
[DTC21] Raphael Castilho - Começando com Inteligência Artificial e Machine Le...Deep Tech Brasil
 
Construindo Data Lakes e Analytics na AWS - BDA301 - Sao Paulo Summit
Construindo Data Lakes e Analytics na AWS -  BDA301 - Sao Paulo SummitConstruindo Data Lakes e Analytics na AWS -  BDA301 - Sao Paulo Summit
Construindo Data Lakes e Analytics na AWS - BDA301 - Sao Paulo SummitAmazon Web Services
 
Mineração de dados com RapidMiner + WEKA - Clusterização
Mineração de dados com RapidMiner + WEKA - ClusterizaçãoMineração de dados com RapidMiner + WEKA - Clusterização
Mineração de dados com RapidMiner + WEKA - ClusterizaçãoJoão Gabriel Lima
 
Eiti Kimura - Analisador de dados automatizado utilizando machine learning
Eiti Kimura - Analisador de dados automatizado utilizando machine learningEiti Kimura - Analisador de dados automatizado utilizando machine learning
Eiti Kimura - Analisador de dados automatizado utilizando machine learningDevCamp Campinas
 
Construindo um Data Warehouse moderno com Amazon Redshift
Construindo um Data Warehouse moderno com Amazon RedshiftConstruindo um Data Warehouse moderno com Amazon Redshift
Construindo um Data Warehouse moderno com Amazon RedshiftAmazon Web Services LATAM
 
Rodando a BlackFriday do seu eCommerce na nuvem
Rodando a BlackFriday do seu eCommerce na nuvemRodando a BlackFriday do seu eCommerce na nuvem
Rodando a BlackFriday do seu eCommerce na nuvemAmazon Web Services LATAM
 
[DTC21] André Marques - Jornada do Engenheiro de Dados
[DTC21] André Marques - Jornada do Engenheiro de Dados[DTC21] André Marques - Jornada do Engenheiro de Dados
[DTC21] André Marques - Jornada do Engenheiro de DadosDeep Tech Brasil
 
[DTC21] Lucas Gomes - Do 0 ao 100 no Big Data
[DTC21] Lucas Gomes - Do 0 ao 100 no Big Data[DTC21] Lucas Gomes - Do 0 ao 100 no Big Data
[DTC21] Lucas Gomes - Do 0 ao 100 no Big DataDeep Tech Brasil
 
Desmistificando Otimização de JVM
Desmistificando Otimização de JVMDesmistificando Otimização de JVM
Desmistificando Otimização de JVMSergio Lopes
 
Bancos de Dados em “Clouds”
Bancos de Dados em “Clouds”Bancos de Dados em “Clouds”
Bancos de Dados em “Clouds”elliando dias
 
Path to the future #5 - Melhores práticas de data warehouse no Amazon Redshift
Path to the future #5 - Melhores práticas de data warehouse no Amazon RedshiftPath to the future #5 - Melhores práticas de data warehouse no Amazon Redshift
Path to the future #5 - Melhores práticas de data warehouse no Amazon RedshiftAmazon Web Services LATAM
 
Capacity planning - Projetando o seu cluster de Elasticsearch
Capacity planning - Projetando o seu cluster de ElasticsearchCapacity planning - Projetando o seu cluster de Elasticsearch
Capacity planning - Projetando o seu cluster de ElasticsearchThiago Barradas
 
Olap (PROCESSAMENTO ANALÍTICO ONLINE)
Olap (PROCESSAMENTO ANALÍTICO ONLINE)Olap (PROCESSAMENTO ANALÍTICO ONLINE)
Olap (PROCESSAMENTO ANALÍTICO ONLINE)EderPereira33
 
Aplicando uma Estratégia de Banco de Dados AWS Personalizada: Encontre o Banc...
Aplicando uma Estratégia de Banco de Dados AWS Personalizada: Encontre o Banc...Aplicando uma Estratégia de Banco de Dados AWS Personalizada: Encontre o Banc...
Aplicando uma Estratégia de Banco de Dados AWS Personalizada: Encontre o Banc...Amazon Web Services
 

Semelhante a Scikit-Learn para MLLib: Machine Learning em Larga Escala (20)

Curso de Performance and Tuning - Linux
Curso de Performance and Tuning - LinuxCurso de Performance and Tuning - Linux
Curso de Performance and Tuning - Linux
 
[DTC21] Raphael Castilho - Começando com Inteligência Artificial e Machine Le...
[DTC21] Raphael Castilho - Começando com Inteligência Artificial e Machine Le...[DTC21] Raphael Castilho - Começando com Inteligência Artificial e Machine Le...
[DTC21] Raphael Castilho - Começando com Inteligência Artificial e Machine Le...
 
Construindo Data Lakes e Analytics na AWS - BDA301 - Sao Paulo Summit
Construindo Data Lakes e Analytics na AWS -  BDA301 - Sao Paulo SummitConstruindo Data Lakes e Analytics na AWS -  BDA301 - Sao Paulo Summit
Construindo Data Lakes e Analytics na AWS - BDA301 - Sao Paulo Summit
 
Mineração de dados com RapidMiner + WEKA - Clusterização
Mineração de dados com RapidMiner + WEKA - ClusterizaçãoMineração de dados com RapidMiner + WEKA - Clusterização
Mineração de dados com RapidMiner + WEKA - Clusterização
 
Eiti Kimura - Analisador de dados automatizado utilizando machine learning
Eiti Kimura - Analisador de dados automatizado utilizando machine learningEiti Kimura - Analisador de dados automatizado utilizando machine learning
Eiti Kimura - Analisador de dados automatizado utilizando machine learning
 
Construindo um Data Warehouse moderno com Amazon Redshift
Construindo um Data Warehouse moderno com Amazon RedshiftConstruindo um Data Warehouse moderno com Amazon Redshift
Construindo um Data Warehouse moderno com Amazon Redshift
 
OLAP
OLAPOLAP
OLAP
 
Rodando a BlackFriday do seu eCommerce na nuvem
Rodando a BlackFriday do seu eCommerce na nuvemRodando a BlackFriday do seu eCommerce na nuvem
Rodando a BlackFriday do seu eCommerce na nuvem
 
[DTC21] André Marques - Jornada do Engenheiro de Dados
[DTC21] André Marques - Jornada do Engenheiro de Dados[DTC21] André Marques - Jornada do Engenheiro de Dados
[DTC21] André Marques - Jornada do Engenheiro de Dados
 
Apresentacao secot
Apresentacao secotApresentacao secot
Apresentacao secot
 
[DTC21] Lucas Gomes - Do 0 ao 100 no Big Data
[DTC21] Lucas Gomes - Do 0 ao 100 no Big Data[DTC21] Lucas Gomes - Do 0 ao 100 no Big Data
[DTC21] Lucas Gomes - Do 0 ao 100 no Big Data
 
Desmistificando Otimização de JVM
Desmistificando Otimização de JVMDesmistificando Otimização de JVM
Desmistificando Otimização de JVM
 
Bancos de Dados em “Clouds”
Bancos de Dados em “Clouds”Bancos de Dados em “Clouds”
Bancos de Dados em “Clouds”
 
B Ds Clouds
B Ds CloudsB Ds Clouds
B Ds Clouds
 
OLAP, BI, EIS
OLAP, BI, EISOLAP, BI, EIS
OLAP, BI, EIS
 
Path to the future #5 - Melhores práticas de data warehouse no Amazon Redshift
Path to the future #5 - Melhores práticas de data warehouse no Amazon RedshiftPath to the future #5 - Melhores práticas de data warehouse no Amazon Redshift
Path to the future #5 - Melhores práticas de data warehouse no Amazon Redshift
 
Capacity planning - Projetando o seu cluster de Elasticsearch
Capacity planning - Projetando o seu cluster de ElasticsearchCapacity planning - Projetando o seu cluster de Elasticsearch
Capacity planning - Projetando o seu cluster de Elasticsearch
 
Olap (PROCESSAMENTO ANALÍTICO ONLINE)
Olap (PROCESSAMENTO ANALÍTICO ONLINE)Olap (PROCESSAMENTO ANALÍTICO ONLINE)
Olap (PROCESSAMENTO ANALÍTICO ONLINE)
 
Ementa curso de dados
Ementa curso de dadosEmenta curso de dados
Ementa curso de dados
 
Aplicando uma Estratégia de Banco de Dados AWS Personalizada: Encontre o Banc...
Aplicando uma Estratégia de Banco de Dados AWS Personalizada: Encontre o Banc...Aplicando uma Estratégia de Banco de Dados AWS Personalizada: Encontre o Banc...
Aplicando uma Estratégia de Banco de Dados AWS Personalizada: Encontre o Banc...
 

Scikit-Learn para MLLib: Machine Learning em Larga Escala