Scikit-Learn para MLLib: Machine Learning em Larga Escala

•

0 gostou•105 visualizações

A apresentação discute a migração de modelos de classificação do Scikit-Learn para o MLlib do Apache Spark, incluindo uma demonstração de KMeans em um conjunto de dados pequeno, o uso de DataFrames e pipelines para classificação de spam em produção, e as vantagens do MLlib em relação ao Scikit-Learn para análise em larga escala.

Software

De Scikit-Learn para MLLib
CLASSIFICAÇÃO EM LARGA ESCALA

Agenda
● O quê: Spark
● O quê: MLlib
● Exemplo KMeans em "Toy Dataset"
● DataFrames
● Classificação de Spam em Produção
● Por quê?

● Computação genérica distribuída
● Até 10 a 100x mais rápido que Hadoop MapReduce
O Quê: Spark

● Machine Learning escalável
● Construído em cima do Spark
O Quê: MLLib

● Clustering [KMeans, LDA]
● Classificação [SVM, Naïve Bayes, Random Forests]
● Regressão
● Extração de características
● Recomendação, timização de parâmetros, avaliação de
modelos...
Algoritmos

DataFrames
● Schema definido
● Formato tabular
● Operações, queries otimizadas
● Pipelines

Pipelines
● Transformer
○ Gera um DF a partir de outro DF
● Estimator
○ Abstrai o conceito de um algoritmo que é treinado sob um
conjunto

Desenvolvimento ~== Produção
Por que MLlib?

/in/guilhermepeixoto
guilherme.peixoto@inlocomedia.com
@gppeixoto

Mais conteúdo relacionado

Destaque

From the Big Bang to Ecommerce, a journey in making sense of Big DataPatrick Deglon

Information Mapping (1)Sujatha Narayanan

Fluent Refactoring (Cascadia Ruby Conf 2013)Sam Livingston-Gray

DEFINICIÓN SOBRE EL AMORAlquimista Aula

DilasaLalit Agrawal

Affiches de la familleAlquimista Aula

1. prepare usb installerkris harden

Training & workshop lesson plan medea ocotber 21st 2014 Mr Bounab Samir

Bmw museumMarta Martín

Bahasa Mandarin DasarDevy Riani

Destaque (10)

From the Big Bang to Ecommerce, a journey in making sense of Big Data

Information Mapping (1)

Fluent Refactoring (Cascadia Ruby Conf 2013)

DEFINICIÓN SOBRE EL AMOR

Dilasa

Affiches de la famille

1. prepare usb installer

Training & workshop lesson plan medea ocotber 21st 2014

Bmw museum

Bahasa Mandarin Dasar

Semelhante a Scikit-Learn para MLLib: Machine Learning em Larga Escala

Curso de Performance and Tuning - LinuxDell Technologies

[DTC21] Raphael Castilho - Começando com Inteligência Artificial e Machine Le...Deep Tech Brasil

Construindo Data Lakes e Analytics na AWS - BDA301 - Sao Paulo SummitAmazon Web Services

Mineração de dados com RapidMiner + WEKA - ClusterizaçãoJoão Gabriel Lima

Eiti Kimura - Analisador de dados automatizado utilizando machine learningDevCamp Campinas

Construindo um Data Warehouse moderno com Amazon RedshiftAmazon Web Services LATAM

OLAPEder E. Pereira

Rodando a BlackFriday do seu eCommerce na nuvemAmazon Web Services LATAM

[DTC21] André Marques - Jornada do Engenheiro de DadosDeep Tech Brasil

Apresentacao secotBetalabs Tecnologia Ltda.

[DTC21] Lucas Gomes - Do 0 ao 100 no Big DataDeep Tech Brasil

Desmistificando Otimização de JVMSergio Lopes

Bancos de Dados em “Clouds”elliando dias

B Ds Cloudselliando dias

OLAP, BI, EISNetalva - Joel Alvarenga

Path to the future #5 - Melhores práticas de data warehouse no Amazon RedshiftAmazon Web Services LATAM

Capacity planning - Projetando o seu cluster de ElasticsearchThiago Barradas

Olap (PROCESSAMENTO ANALÍTICO ONLINE)EderPereira33

Ementa curso de dadosDaniel Lavieri

Aplicando uma Estratégia de Banco de Dados AWS Personalizada: Encontre o Banc...Amazon Web Services

Semelhante a Scikit-Learn para MLLib: Machine Learning em Larga Escala (20)

Curso de Performance and Tuning - Linux

[DTC21] Raphael Castilho - Começando com Inteligência Artificial e Machine Le...

Construindo Data Lakes e Analytics na AWS - BDA301 - Sao Paulo Summit

Mineração de dados com RapidMiner + WEKA - Clusterização

Eiti Kimura - Analisador de dados automatizado utilizando machine learning

Construindo um Data Warehouse moderno com Amazon Redshift

OLAP

Rodando a BlackFriday do seu eCommerce na nuvem

[DTC21] André Marques - Jornada do Engenheiro de Dados

Apresentacao secot

[DTC21] Lucas Gomes - Do 0 ao 100 no Big Data

Desmistificando Otimização de JVM

Bancos de Dados em “Clouds”

B Ds Clouds

OLAP, BI, EIS

Path to the future #5 - Melhores práticas de data warehouse no Amazon Redshift

Capacity planning - Projetando o seu cluster de Elasticsearch

Olap (PROCESSAMENTO ANALÍTICO ONLINE)

Ementa curso de dados

Aplicando uma Estratégia de Banco de Dados AWS Personalizada: Encontre o Banc...

Scikit-Learn para MLLib: Machine Learning em Larga Escala

1. De Scikit-Learn para MLLib CLASSIFICAÇÃO EM LARGA ESCALA

2. Agenda ● O quê: Spark ● O quê: MLlib ● Exemplo KMeans em "Toy Dataset" ● DataFrames ● Classificação de Spam em Produção ● Por quê?

3. Quem Somos

4. ● Computação genérica distribuída ● Até 10 a 100x mais rápido que Hadoop MapReduce O Quê: Spark

5. O Quê: Spark

6. O Quê: Spark

7. ● Machine Learning escalável ● Construído em cima do Spark O Quê: MLLib

8. ● Clustering [KMeans, LDA] ● Classificação [SVM, Naïve Bayes, Random Forests] ● Regressão ● Extração de características ● Recomendação, timização de parâmetros, avaliação de modelos... Algoritmos

9. KMeans Toy Example

10. DataFrames ● Schema definido ● Formato tabular ● Operações, queries otimizadas ● Pipelines

11. Pipelines ● Transformer ○ Gera um DF a partir de outro DF ● Estimator ○ Abstrai o conceito de um algoritmo que é treinado sob um conjunto

12. Classificação de Spam em Produção

13. Classificação de Spam em Produção

14. Classificação de Spam em Produção

15. Por que MLlib?

16. Por que MLlib?

17. Por que MLlib?

18. Por que MLlib?

19. Desenvolvimento ~== Produção Por que MLlib?

20. /in/guilhermepeixoto guilherme.peixoto@inlocomedia.com @gppeixoto