SlideShare uma empresa Scribd logo
1 de 50
Baixar para ler offline
1
Joel Pinho Lucas
@joelplucas
Tecnologias e Casos de Uso de Big Data e
Ciência de Dados no Mercado
2
• Big Data: contexto e conceitos
• Caso do Gameverse (Mobjoy)
• Caso de Publicidade Digital na Tail
• Perfis Profissionais na Área de Dados no Mercado
Roteiro
3
Oportunidades
4
• “80% das informações que a companhia possui estão
completamente desestruturadas” (Jeff Jones, IBM - 2016)
•
5
“Recomendações são responsáveis por 75% dos vídeos assistidos na plataforma”
https://medium.com/netflix-techblog/
Big Data - 3Vs
6
Fonte: http://www.datasciencecentral.com
7
?Escalabilidade Vertical vs. Escalabilidade Horizontal
NoSQL
8
?
“Termo genérico para uma classe definida de banco de dados
não-relacionais que rompe uma longa história de banco de
dados relacionais com propriedades ACID”
Fonte: Grolinger, K.; Higashino, W. A. (2013). Data management in cloud environments: NoSQL and NewSQL data stores.
NoSQL
9
Quando a Consistência Eventual é tolerável?
vs.
10
Relacional NoSQL
post
- title
- content
- status
- create_time
- update_time
- author_name
Comment[ ]
- content
- status
- create_time
- author_name
- email
- url
Tags[ ]
user
username
password
salt
email
profile
vs.
11
• Promove escalabilidade horizontal em “hardware de
comodity”
• Abrange o HDFS (Hadoop Distributed File System) -
conceito de “write-once, read-many-times”
• Framework baseado em MapReduce
• Concebido a partir dos papers de MapReduce e
GoogleFS (GFS) do Google
• Foco para processamento em batch
12
Map Reduce
Fonte: M . Capitão, O. Pereira.Tese: Mediator Framework for Inserting Data into Hadoop
13
Fonte: S. Fries, B. Boden - Fast Access to Complex Data
Map Reduce
14
• Framework para processamento construído com foco em
velocidade e facilidade de uso e também análise de dados
• Foi desenvolvido na Universidade da Califórnia e
repassado para a Apache
• Possui bibliotecas que dão suporte a streaming e análises
complexas de dados
• Pode rodar em cima de um cluster Hadoop utilizando
HDFS como sistema de arquivos
15
• API em Java, Scala, Python, R
• Diversas implementações eficientes de algoritmos
http://spark.apache.org/mllib/
• Processamento mais eficiente que o do Hadoop
• Lazy evaluation
• Armazenamento em memória nas operações
16
Experiência na Mobjoy
17
18
Gameverse - Desafios de Tecnologia
• Ovelha Negra
• Primeiro Rating (early-rater)
• Dispersão de dados (sparsity): média de 1% de itens avaliados
• Potencial de crescimento exponencial de usuários
• Falsos Positivos x Falsos Negativos
19
Gameverse - Recomendações
20
Gameverse (RIP)
21
Experiência na Tail
Big Data: Caso da Tail
• 3 bilhões novos registros ao dia
• 440 milhões de perfis anônimos na América Latina
• 148 categorias comportamentais e demográficas
Ex: TV, Futebol, Política, Beleza,Viagem,Adulto, Jovem, etc.
• CTR (ClickThrough Rate) 50% maior
• 132 instancias de máquinas
22
Formação dos perfis da Base de Dados da Tail
23
Tag
u=1507000A8451375B184024E
LOG
24
Formação dos perfis da Base de Dados da Tail
Personalização de Conteúdo
25
Banner
Banner
?
??
• Como utilizar infraestrutura para processar estes dados
de forma barata e eficiente?
• Como utilizar algoritmos de Machine Learning em Big
Data?
26
27
Formação dos perfis da Base de Dados da Tail
Texto
Relevante
Extrator de Texto
Crawling
Representação de um link web:
1 15749 aluguel
2 12208 casa
3 11456 julho
4 10272 dia
5 9232 sao paulo
6 9177 procurar
7 8958 vender
8 8779 imóvel
9 8664 praia
10 8191 garagem
11 7626 carro
12 7580 preço
13 7453 quarto
14 7246 construção
…….
n
Extrator de Termos
Frequentes
Interesse Classificador
28
Classificação das páginas Web
Classificador
Finanças
1 12946 investimento
2 12555 cotação
3 12443 renda
4 11762 câmbio
5 10642 lucro
6 9110 salário
7 8783 bolsa
8 8661 brasil
9 8562 imóvel
10 8388 bolso
11 8217 real
12 8067 economia
13 8016 moeda
15 7742 renda
Futebol
1 26682 gol
2 25256 jogo
3 19407 brasileirão
4 17268 time
5 15354 brasil
6 15297 copa
7 15117 jogador
8 15057 mundial
9 14425 atlético
10 14181 futebol
11 13081 partida
12 13042 vitória
13 12603 seleção
14 12301 bola
Saúde
1 20385 idoso
2 18449 remédio
3 12278 farmácia
4 11094 doença
5 10228 receita
6 10027 grave
7 9701 médico
8 9203 vida
9 8266 aposentadoria
10 7371 oral
11 7331 saúde
12 6901 pílula
13 6840 bula
14 6619 inss
Moda
1 42811 verão
2 37103 look
3 33971 desfile
4 28767 vestido
5 28149 moda
6 26167 março
7 26075 dia
8 23060 coleção
9 22901 modelo
10 21431 inverno
11 20444 bonita
12 19834 fashion
13 19353 festa
14 18471 peça
…
MODELO
Conjunto de
Treino
29
Feature Engineering
B. Filtrar Stop Words da língua em questão. Ex: eu, ao, para, é, etc. (Português)
A. Estrutura de dados onde as freqüência das palavras no texto sejam as
features (bag of words). Ex:
30
C. Stemming de texto
Palavra Stem
computador comput
computadores comput
computar comput
bebezinho bebe
bebe bebe
bebezinhos bebe
bebezinha bebe
Feature Engineering
31
E. Preparar o input baseado em TF*IDF (Term Frequency * Inverse Document Frequency)
Palavra TF IDF TF*IDF
gol 5 1,217 6,085
dia 8 0,142 1,136
brasil 3 0,987 2,961
trave 3 1,681 5,043
Feature Engineering
32
Treinamento do Algoritmo
Problema: corridosblindados.org classificado como CorridaDeAventura
Estratégia: Inserir sites de “música narco” nas sementes de música
Profissional de Dados no
Mercado
33
34
DataMites Team - Data Scientist – Where to Start?:
https://datamites.com/blog/data-scientist-where-to-start/
Oportunidades
35
• “Até 2020 serão criados 4.8 milhões de empregos
para suportar as iniciativas de Big Data (2.1 milhões
nos EUA)” (Gartner, Inc. - 2018)
mas… quais vagas?
36
37
1. Requisitos exageradamente abrangentes
1. demanda existe e precisa de único profissional para resolver tudo
2. demanda não existe porque foi super estimada pela empresa
2. Na verdade a demanda é um analista de dados / BI
3. Pequena empresa / start-up implementando cultura de dados
4. Fazer parte de uma equipe de ciência de dados (time unicórnio)
Tipos comuns de vagas em Ciência de
Dados
Thor Olavsrud - Don't look for unicorns, build a data science team:
https://www.cio.com/article/3011648/dont-look-for-unicorns-build-a-data-science-team.html
“o papel de um Cientista de Dados vai morrer da
mesma forma que o de um webmaster nos anos
90?”
38
Clint Chegin - There’s No Such Thing as a Data Scientist:
https://medium.com/indeed-engineering/theres-no-such-thing-as-a-data-scientist-8dae923c14e3
Perfis Profissionais na Área de Dados
39
Ciência de Dados x Engenharia de Dados
40
Engenharia de Dados x Ciência de Dados
Fonte: DataCamp blog
Tecnologias
41
Engenharia de Dados x Ciência de Dados
Fonte: DataCamp blog
42
Principais Títulos de Vagas Recentes
• Cientista de Dados
• Engenheiro(a) de Dados
• Analista de Dados
• Arquiteto(a) de Big Data
• Profissional deVisualização de Dados
• Engenheiro(a) de Machine Learning
Diego Toledo - The rise of the machine learning engineer:
https://towardsdatascience.com/the-rise-of-the-machine-learning-engineer-b53c91a9cbef
Demanda por Cientista de Dados nos EUA
43
44
The Best Jobs in the U.S.:
http://blog.indeed.com/2019/03/14/best-jobs-2019/
45
Como Entrar no Mercado?
Spoiler: Estudar muito!
Cursos MOOCS
46
✓Coursera
• Introduction to Data Science
• Recommender Systems (Grouplens)
• Basic Statistics (Univ. Amsterdam)
• Machine Learning (Andrew Ng)
✓MongoDB University:
https://education.mongodb.com/
✓Amazon EMR Training:
http://aws.amazon.com/elasticmapreduce/training/
✓DataCamp? Udemy?
Blogs/Medium
47
✓Netflix Tech Blog: https://medium.com/netflix-techblog
✓Booking.com Tech Blog: https://blog.booking.com/
✓Spotify Labs Blog: https://labs.spotify.com/
✓Dataquest: https://www.dataquest.io/blog/
✓Datacamp Blog: https://www.datacamp.com/community/blog
✓Twitter…
Eventos
48
Hands on: Kaggle
49
Contato
‣ Linkedin: http://br.linkedin.com/in/joelplucas/
‣ Email: joelpl@gmail.com
50

Mais conteúdo relacionado

Semelhante a Casos de Uso de Big Data e Ciência de Dados no Mercado

Contexto de Big Data, Ciência de Dados e KDD - Pós Graduação em Big Data
Contexto de Big Data, Ciência de Dados e KDD - Pós Graduação em Big DataContexto de Big Data, Ciência de Dados e KDD - Pós Graduação em Big Data
Contexto de Big Data, Ciência de Dados e KDD - Pós Graduação em Big DataFabrício Barth
 
Descomplicando a Ciência de Dados por Adelson Lovatto (IBM)
Descomplicando a Ciência de Dados por Adelson Lovatto (IBM)Descomplicando a Ciência de Dados por Adelson Lovatto (IBM)
Descomplicando a Ciência de Dados por Adelson Lovatto (IBM)Joao Galdino Mello de Souza
 
Estudo sobre a Copa do Mundo no Brasil - Instituto i3G
Estudo sobre a Copa do Mundo no Brasil - Instituto i3GEstudo sobre a Copa do Mundo no Brasil - Instituto i3G
Estudo sobre a Copa do Mundo no Brasil - Instituto i3GInstituto i3G
 
Apresentacao ForumRNP 2015 - Daniela Brauner
Apresentacao ForumRNP 2015 - Daniela BraunerApresentacao ForumRNP 2015 - Daniela Brauner
Apresentacao ForumRNP 2015 - Daniela BraunerDaniela Brauner
 
Um novo "ABC" das TICs: (A)nalytics + (B)ig Data + (C)loud Computing
Um novo "ABC" das TICs: (A)nalytics + (B)ig Data + (C)loud ComputingUm novo "ABC" das TICs: (A)nalytics + (B)ig Data + (C)loud Computing
Um novo "ABC" das TICs: (A)nalytics + (B)ig Data + (C)loud ComputingJosé Carlos Cavalcanti
 
1º Seminário CICTEC - Um Novo ABC das TICs - José Carlos Cavalcanti 22 05 13
1º Seminário CICTEC - Um Novo ABC das TICs - José Carlos Cavalcanti 22 05 131º Seminário CICTEC - Um Novo ABC das TICs - José Carlos Cavalcanti 22 05 13
1º Seminário CICTEC - Um Novo ABC das TICs - José Carlos Cavalcanti 22 05 13cictec
 
Data Developer - Engenharia de Dados em um time de Data Science - Uai python2015
Data Developer - Engenharia de Dados em um time de Data Science - Uai python2015Data Developer - Engenharia de Dados em um time de Data Science - Uai python2015
Data Developer - Engenharia de Dados em um time de Data Science - Uai python2015Bruno Rocha
 
Big Data Analytics - Data Science - Aplicação e Tecnologia
Big Data Analytics - Data Science - Aplicação e TecnologiaBig Data Analytics - Data Science - Aplicação e Tecnologia
Big Data Analytics - Data Science - Aplicação e TecnologiaHélio Silva
 
Palestra Ciência de Dados
Palestra Ciência de DadosPalestra Ciência de Dados
Palestra Ciência de Dadoscardoso80
 
Big data e Inteligência Artificial
Big data e Inteligência ArtificialBig data e Inteligência Artificial
Big data e Inteligência ArtificialJoão Gabriel Lima
 
The Data Science Workflow
The Data Science WorkflowThe Data Science Workflow
The Data Science WorkflowRenzo Ziegler
 
Big Data e oportunidades de negócios
Big Data e oportunidades de negóciosBig Data e oportunidades de negócios
Big Data e oportunidades de negóciosLaboratorium
 
Demonstrações de análises de dados para social media e jornalismo
Demonstrações de análises de dados para social media e jornalismoDemonstrações de análises de dados para social media e jornalismo
Demonstrações de análises de dados para social media e jornalismoRafa Spoladore
 
Data Science - A arte de estudar e analisar dados
Data Science - A arte de estudar e analisar dadosData Science - A arte de estudar e analisar dados
Data Science - A arte de estudar e analisar dadosDayane Cristine Leite
 
Ciência de Dados: a revolução na tomada de decisões
Ciência de Dados: a revolução na tomada de decisõesCiência de Dados: a revolução na tomada de decisões
Ciência de Dados: a revolução na tomada de decisõesMarlesson Santana
 

Semelhante a Casos de Uso de Big Data e Ciência de Dados no Mercado (20)

Contexto de Big Data, Ciência de Dados e KDD - Pós Graduação em Big Data
Contexto de Big Data, Ciência de Dados e KDD - Pós Graduação em Big DataContexto de Big Data, Ciência de Dados e KDD - Pós Graduação em Big Data
Contexto de Big Data, Ciência de Dados e KDD - Pós Graduação em Big Data
 
Descomplicando a Ciência de Dados por Adelson Lovatto (IBM)
Descomplicando a Ciência de Dados por Adelson Lovatto (IBM)Descomplicando a Ciência de Dados por Adelson Lovatto (IBM)
Descomplicando a Ciência de Dados por Adelson Lovatto (IBM)
 
Estudo sobre a Copa do Mundo no Brasil - Instituto i3G
Estudo sobre a Copa do Mundo no Brasil - Instituto i3GEstudo sobre a Copa do Mundo no Brasil - Instituto i3G
Estudo sobre a Copa do Mundo no Brasil - Instituto i3G
 
BigData
BigDataBigData
BigData
 
Apresentacao ForumRNP 2015 - Daniela Brauner
Apresentacao ForumRNP 2015 - Daniela BraunerApresentacao ForumRNP 2015 - Daniela Brauner
Apresentacao ForumRNP 2015 - Daniela Brauner
 
Um novo "ABC" das TICs: (A)nalytics + (B)ig Data + (C)loud Computing
Um novo "ABC" das TICs: (A)nalytics + (B)ig Data + (C)loud ComputingUm novo "ABC" das TICs: (A)nalytics + (B)ig Data + (C)loud Computing
Um novo "ABC" das TICs: (A)nalytics + (B)ig Data + (C)loud Computing
 
1º Seminário CICTEC - Um Novo ABC das TICs - José Carlos Cavalcanti 22 05 13
1º Seminário CICTEC - Um Novo ABC das TICs - José Carlos Cavalcanti 22 05 131º Seminário CICTEC - Um Novo ABC das TICs - José Carlos Cavalcanti 22 05 13
1º Seminário CICTEC - Um Novo ABC das TICs - José Carlos Cavalcanti 22 05 13
 
Psi capitulo1 eb (1)
Psi capitulo1 eb (1)Psi capitulo1 eb (1)
Psi capitulo1 eb (1)
 
Data Developer - Engenharia de Dados em um time de Data Science - Uai python2015
Data Developer - Engenharia de Dados em um time de Data Science - Uai python2015Data Developer - Engenharia de Dados em um time de Data Science - Uai python2015
Data Developer - Engenharia de Dados em um time de Data Science - Uai python2015
 
Big Data Analytics - Data Science - Aplicação e Tecnologia
Big Data Analytics - Data Science - Aplicação e TecnologiaBig Data Analytics - Data Science - Aplicação e Tecnologia
Big Data Analytics - Data Science - Aplicação e Tecnologia
 
BIG DATA
BIG DATABIG DATA
BIG DATA
 
Palestra Ciência de Dados
Palestra Ciência de DadosPalestra Ciência de Dados
Palestra Ciência de Dados
 
Bigadata casese opotunidades
Bigadata casese opotunidadesBigadata casese opotunidades
Bigadata casese opotunidades
 
Big data e Inteligência Artificial
Big data e Inteligência ArtificialBig data e Inteligência Artificial
Big data e Inteligência Artificial
 
The Data Science Workflow
The Data Science WorkflowThe Data Science Workflow
The Data Science Workflow
 
Big data, e eu com isso?
Big data, e eu com isso?Big data, e eu com isso?
Big data, e eu com isso?
 
Big Data e oportunidades de negócios
Big Data e oportunidades de negóciosBig Data e oportunidades de negócios
Big Data e oportunidades de negócios
 
Demonstrações de análises de dados para social media e jornalismo
Demonstrações de análises de dados para social media e jornalismoDemonstrações de análises de dados para social media e jornalismo
Demonstrações de análises de dados para social media e jornalismo
 
Data Science - A arte de estudar e analisar dados
Data Science - A arte de estudar e analisar dadosData Science - A arte de estudar e analisar dados
Data Science - A arte de estudar e analisar dados
 
Ciência de Dados: a revolução na tomada de decisões
Ciência de Dados: a revolução na tomada de decisõesCiência de Dados: a revolução na tomada de decisões
Ciência de Dados: a revolução na tomada de decisões
 

Mais de Joel Pinho Lucas

Engajando usuários nos portais de conteúdo digital da Globo através de Sistem...
Engajando usuários nos portais de conteúdo digital da Globo através de Sistem...Engajando usuários nos portais de conteúdo digital da Globo através de Sistem...
Engajando usuários nos portais de conteúdo digital da Globo através de Sistem...Joel Pinho Lucas
 
Boas práticas de desenvolvimento para Jupyter Notebooks
Boas práticas de desenvolvimento para Jupyter NotebooksBoas práticas de desenvolvimento para Jupyter Notebooks
Boas práticas de desenvolvimento para Jupyter NotebooksJoel Pinho Lucas
 
Discovering Lookalike audiences at scale for digital publishing with Spark MLlib
Discovering Lookalike audiences at scale for digital publishing with Spark MLlibDiscovering Lookalike audiences at scale for digital publishing with Spark MLlib
Discovering Lookalike audiences at scale for digital publishing with Spark MLlibJoel Pinho Lucas
 
Building machine learning applications locally with spark
Building machine learning applications locally with sparkBuilding machine learning applications locally with spark
Building machine learning applications locally with sparkJoel Pinho Lucas
 
Utilizando Machine Learning e Java para classificar o conteúdo de páginas Web
Utilizando Machine Learning e Java para classificar o conteúdo de páginas WebUtilizando Machine Learning e Java para classificar o conteúdo de páginas Web
Utilizando Machine Learning e Java para classificar o conteúdo de páginas WebJoel Pinho Lucas
 
Conceitos e práticas em Sistemas de Recomendação
Conceitos e práticas em Sistemas de RecomendaçãoConceitos e práticas em Sistemas de Recomendação
Conceitos e práticas em Sistemas de RecomendaçãoJoel Pinho Lucas
 

Mais de Joel Pinho Lucas (6)

Engajando usuários nos portais de conteúdo digital da Globo através de Sistem...
Engajando usuários nos portais de conteúdo digital da Globo através de Sistem...Engajando usuários nos portais de conteúdo digital da Globo através de Sistem...
Engajando usuários nos portais de conteúdo digital da Globo através de Sistem...
 
Boas práticas de desenvolvimento para Jupyter Notebooks
Boas práticas de desenvolvimento para Jupyter NotebooksBoas práticas de desenvolvimento para Jupyter Notebooks
Boas práticas de desenvolvimento para Jupyter Notebooks
 
Discovering Lookalike audiences at scale for digital publishing with Spark MLlib
Discovering Lookalike audiences at scale for digital publishing with Spark MLlibDiscovering Lookalike audiences at scale for digital publishing with Spark MLlib
Discovering Lookalike audiences at scale for digital publishing with Spark MLlib
 
Building machine learning applications locally with spark
Building machine learning applications locally with sparkBuilding machine learning applications locally with spark
Building machine learning applications locally with spark
 
Utilizando Machine Learning e Java para classificar o conteúdo de páginas Web
Utilizando Machine Learning e Java para classificar o conteúdo de páginas WebUtilizando Machine Learning e Java para classificar o conteúdo de páginas Web
Utilizando Machine Learning e Java para classificar o conteúdo de páginas Web
 
Conceitos e práticas em Sistemas de Recomendação
Conceitos e práticas em Sistemas de RecomendaçãoConceitos e práticas em Sistemas de Recomendação
Conceitos e práticas em Sistemas de Recomendação
 

Casos de Uso de Big Data e Ciência de Dados no Mercado

  • 1. 1 Joel Pinho Lucas @joelplucas Tecnologias e Casos de Uso de Big Data e Ciência de Dados no Mercado
  • 2. 2 • Big Data: contexto e conceitos • Caso do Gameverse (Mobjoy) • Caso de Publicidade Digital na Tail • Perfis Profissionais na Área de Dados no Mercado Roteiro
  • 3. 3
  • 4. Oportunidades 4 • “80% das informações que a companhia possui estão completamente desestruturadas” (Jeff Jones, IBM - 2016) •
  • 5. 5 “Recomendações são responsáveis por 75% dos vídeos assistidos na plataforma” https://medium.com/netflix-techblog/
  • 6. Big Data - 3Vs 6 Fonte: http://www.datasciencecentral.com
  • 7. 7 ?Escalabilidade Vertical vs. Escalabilidade Horizontal
  • 8. NoSQL 8 ? “Termo genérico para uma classe definida de banco de dados não-relacionais que rompe uma longa história de banco de dados relacionais com propriedades ACID” Fonte: Grolinger, K.; Higashino, W. A. (2013). Data management in cloud environments: NoSQL and NewSQL data stores.
  • 9. NoSQL 9 Quando a Consistência Eventual é tolerável? vs.
  • 10. 10 Relacional NoSQL post - title - content - status - create_time - update_time - author_name Comment[ ] - content - status - create_time - author_name - email - url Tags[ ] user username password salt email profile vs.
  • 11. 11 • Promove escalabilidade horizontal em “hardware de comodity” • Abrange o HDFS (Hadoop Distributed File System) - conceito de “write-once, read-many-times” • Framework baseado em MapReduce • Concebido a partir dos papers de MapReduce e GoogleFS (GFS) do Google • Foco para processamento em batch
  • 12. 12 Map Reduce Fonte: M . Capitão, O. Pereira.Tese: Mediator Framework for Inserting Data into Hadoop
  • 13. 13 Fonte: S. Fries, B. Boden - Fast Access to Complex Data Map Reduce
  • 14. 14 • Framework para processamento construído com foco em velocidade e facilidade de uso e também análise de dados • Foi desenvolvido na Universidade da Califórnia e repassado para a Apache • Possui bibliotecas que dão suporte a streaming e análises complexas de dados • Pode rodar em cima de um cluster Hadoop utilizando HDFS como sistema de arquivos
  • 15. 15 • API em Java, Scala, Python, R • Diversas implementações eficientes de algoritmos http://spark.apache.org/mllib/ • Processamento mais eficiente que o do Hadoop • Lazy evaluation • Armazenamento em memória nas operações
  • 17. 17
  • 18. 18 Gameverse - Desafios de Tecnologia • Ovelha Negra • Primeiro Rating (early-rater) • Dispersão de dados (sparsity): média de 1% de itens avaliados • Potencial de crescimento exponencial de usuários • Falsos Positivos x Falsos Negativos
  • 22. Big Data: Caso da Tail • 3 bilhões novos registros ao dia • 440 milhões de perfis anônimos na América Latina • 148 categorias comportamentais e demográficas Ex: TV, Futebol, Política, Beleza,Viagem,Adulto, Jovem, etc. • CTR (ClickThrough Rate) 50% maior • 132 instancias de máquinas 22
  • 23. Formação dos perfis da Base de Dados da Tail 23 Tag u=1507000A8451375B184024E LOG
  • 24. 24 Formação dos perfis da Base de Dados da Tail
  • 26. • Como utilizar infraestrutura para processar estes dados de forma barata e eficiente? • Como utilizar algoritmos de Machine Learning em Big Data? 26
  • 27. 27 Formação dos perfis da Base de Dados da Tail Texto Relevante Extrator de Texto Crawling Representação de um link web: 1 15749 aluguel 2 12208 casa 3 11456 julho 4 10272 dia 5 9232 sao paulo 6 9177 procurar 7 8958 vender 8 8779 imóvel 9 8664 praia 10 8191 garagem 11 7626 carro 12 7580 preço 13 7453 quarto 14 7246 construção ……. n Extrator de Termos Frequentes Interesse Classificador
  • 28. 28 Classificação das páginas Web Classificador Finanças 1 12946 investimento 2 12555 cotação 3 12443 renda 4 11762 câmbio 5 10642 lucro 6 9110 salário 7 8783 bolsa 8 8661 brasil 9 8562 imóvel 10 8388 bolso 11 8217 real 12 8067 economia 13 8016 moeda 15 7742 renda Futebol 1 26682 gol 2 25256 jogo 3 19407 brasileirão 4 17268 time 5 15354 brasil 6 15297 copa 7 15117 jogador 8 15057 mundial 9 14425 atlético 10 14181 futebol 11 13081 partida 12 13042 vitória 13 12603 seleção 14 12301 bola Saúde 1 20385 idoso 2 18449 remédio 3 12278 farmácia 4 11094 doença 5 10228 receita 6 10027 grave 7 9701 médico 8 9203 vida 9 8266 aposentadoria 10 7371 oral 11 7331 saúde 12 6901 pílula 13 6840 bula 14 6619 inss Moda 1 42811 verão 2 37103 look 3 33971 desfile 4 28767 vestido 5 28149 moda 6 26167 março 7 26075 dia 8 23060 coleção 9 22901 modelo 10 21431 inverno 11 20444 bonita 12 19834 fashion 13 19353 festa 14 18471 peça … MODELO Conjunto de Treino
  • 29. 29 Feature Engineering B. Filtrar Stop Words da língua em questão. Ex: eu, ao, para, é, etc. (Português) A. Estrutura de dados onde as freqüência das palavras no texto sejam as features (bag of words). Ex:
  • 30. 30 C. Stemming de texto Palavra Stem computador comput computadores comput computar comput bebezinho bebe bebe bebe bebezinhos bebe bebezinha bebe Feature Engineering
  • 31. 31 E. Preparar o input baseado em TF*IDF (Term Frequency * Inverse Document Frequency) Palavra TF IDF TF*IDF gol 5 1,217 6,085 dia 8 0,142 1,136 brasil 3 0,987 2,961 trave 3 1,681 5,043 Feature Engineering
  • 32. 32 Treinamento do Algoritmo Problema: corridosblindados.org classificado como CorridaDeAventura Estratégia: Inserir sites de “música narco” nas sementes de música
  • 33. Profissional de Dados no Mercado 33
  • 34. 34 DataMites Team - Data Scientist – Where to Start?: https://datamites.com/blog/data-scientist-where-to-start/
  • 35. Oportunidades 35 • “Até 2020 serão criados 4.8 milhões de empregos para suportar as iniciativas de Big Data (2.1 milhões nos EUA)” (Gartner, Inc. - 2018)
  • 37. 37 1. Requisitos exageradamente abrangentes 1. demanda existe e precisa de único profissional para resolver tudo 2. demanda não existe porque foi super estimada pela empresa 2. Na verdade a demanda é um analista de dados / BI 3. Pequena empresa / start-up implementando cultura de dados 4. Fazer parte de uma equipe de ciência de dados (time unicórnio) Tipos comuns de vagas em Ciência de Dados Thor Olavsrud - Don't look for unicorns, build a data science team: https://www.cio.com/article/3011648/dont-look-for-unicorns-build-a-data-science-team.html
  • 38. “o papel de um Cientista de Dados vai morrer da mesma forma que o de um webmaster nos anos 90?” 38 Clint Chegin - There’s No Such Thing as a Data Scientist: https://medium.com/indeed-engineering/theres-no-such-thing-as-a-data-scientist-8dae923c14e3
  • 39. Perfis Profissionais na Área de Dados 39 Ciência de Dados x Engenharia de Dados
  • 40. 40 Engenharia de Dados x Ciência de Dados Fonte: DataCamp blog Tecnologias
  • 41. 41 Engenharia de Dados x Ciência de Dados Fonte: DataCamp blog
  • 42. 42 Principais Títulos de Vagas Recentes • Cientista de Dados • Engenheiro(a) de Dados • Analista de Dados • Arquiteto(a) de Big Data • Profissional deVisualização de Dados • Engenheiro(a) de Machine Learning Diego Toledo - The rise of the machine learning engineer: https://towardsdatascience.com/the-rise-of-the-machine-learning-engineer-b53c91a9cbef
  • 43. Demanda por Cientista de Dados nos EUA 43
  • 44. 44 The Best Jobs in the U.S.: http://blog.indeed.com/2019/03/14/best-jobs-2019/
  • 45. 45 Como Entrar no Mercado? Spoiler: Estudar muito!
  • 46. Cursos MOOCS 46 ✓Coursera • Introduction to Data Science • Recommender Systems (Grouplens) • Basic Statistics (Univ. Amsterdam) • Machine Learning (Andrew Ng) ✓MongoDB University: https://education.mongodb.com/ ✓Amazon EMR Training: http://aws.amazon.com/elasticmapreduce/training/ ✓DataCamp? Udemy?
  • 47. Blogs/Medium 47 ✓Netflix Tech Blog: https://medium.com/netflix-techblog ✓Booking.com Tech Blog: https://blog.booking.com/ ✓Spotify Labs Blog: https://labs.spotify.com/ ✓Dataquest: https://www.dataquest.io/blog/ ✓Datacamp Blog: https://www.datacamp.com/community/blog ✓Twitter…