Diante do crescente volume de dados e da cada vez maior diversidade de conteúdos na Web, faz-se necessário entender o comportamento de navegação dos usuários para desenvolver e utilizar técnicas de personalização de conteúdo. Dentro deste contexto, esta palestra dará uma visão geral de tecnologias utilizadas atualmente em Big Data, onde também serão debatidos tipos de perfis profissionais e competências técnicas exigidas para trabalhar na área de dados dentro da indústria. O palestrante também compartilhará a experiência no desenvolvimento de algumas arquiteturas de dados ao longo de sua carreira, destacando o desenvolvimento de um sistema de recomendação em uma startup de games e o de uma ferramenta de inteligência de dados aplicada a publicidade digital dentro de uma das maiores bases da dados da América Latina.
2. 2
• Big Data: contexto e conceitos
• Caso do Gameverse (Mobjoy)
• Caso de Publicidade Digital na Tail
• Perfis Profissionais na Área de Dados no Mercado
Roteiro
8. NoSQL
8
?
“Termo genérico para uma classe definida de banco de dados
não-relacionais que rompe uma longa história de banco de
dados relacionais com propriedades ACID”
Fonte: Grolinger, K.; Higashino, W. A. (2013). Data management in cloud environments: NoSQL and NewSQL data stores.
10. 10
Relacional NoSQL
post
- title
- content
- status
- create_time
- update_time
- author_name
Comment[ ]
- content
- status
- create_time
- author_name
- email
- url
Tags[ ]
user
username
password
salt
email
profile
vs.
11. 11
• Promove escalabilidade horizontal em “hardware de
comodity”
• Abrange o HDFS (Hadoop Distributed File System) -
conceito de “write-once, read-many-times”
• Framework baseado em MapReduce
• Concebido a partir dos papers de MapReduce e
GoogleFS (GFS) do Google
• Foco para processamento em batch
12. 12
Map Reduce
Fonte: M . Capitão, O. Pereira.Tese: Mediator Framework for Inserting Data into Hadoop
14. 14
• Framework para processamento construído com foco em
velocidade e facilidade de uso e também análise de dados
• Foi desenvolvido na Universidade da Califórnia e
repassado para a Apache
• Possui bibliotecas que dão suporte a streaming e análises
complexas de dados
• Pode rodar em cima de um cluster Hadoop utilizando
HDFS como sistema de arquivos
15. 15
• API em Java, Scala, Python, R
• Diversas implementações eficientes de algoritmos
http://spark.apache.org/mllib/
• Processamento mais eficiente que o do Hadoop
• Lazy evaluation
• Armazenamento em memória nas operações
18. 18
Gameverse - Desafios de Tecnologia
• Ovelha Negra
• Primeiro Rating (early-rater)
• Dispersão de dados (sparsity): média de 1% de itens avaliados
• Potencial de crescimento exponencial de usuários
• Falsos Positivos x Falsos Negativos
22. Big Data: Caso da Tail
• 3 bilhões novos registros ao dia
• 440 milhões de perfis anônimos na América Latina
• 148 categorias comportamentais e demográficas
Ex: TV, Futebol, Política, Beleza,Viagem,Adulto, Jovem, etc.
• CTR (ClickThrough Rate) 50% maior
• 132 instancias de máquinas
22
23. Formação dos perfis da Base de Dados da Tail
23
Tag
u=1507000A8451375B184024E
LOG
26. • Como utilizar infraestrutura para processar estes dados
de forma barata e eficiente?
• Como utilizar algoritmos de Machine Learning em Big
Data?
26
27. 27
Formação dos perfis da Base de Dados da Tail
Texto
Relevante
Extrator de Texto
Crawling
Representação de um link web:
1 15749 aluguel
2 12208 casa
3 11456 julho
4 10272 dia
5 9232 sao paulo
6 9177 procurar
7 8958 vender
8 8779 imóvel
9 8664 praia
10 8191 garagem
11 7626 carro
12 7580 preço
13 7453 quarto
14 7246 construção
…….
n
Extrator de Termos
Frequentes
Interesse Classificador
28. 28
Classificação das páginas Web
Classificador
Finanças
1 12946 investimento
2 12555 cotação
3 12443 renda
4 11762 câmbio
5 10642 lucro
6 9110 salário
7 8783 bolsa
8 8661 brasil
9 8562 imóvel
10 8388 bolso
11 8217 real
12 8067 economia
13 8016 moeda
15 7742 renda
Futebol
1 26682 gol
2 25256 jogo
3 19407 brasileirão
4 17268 time
5 15354 brasil
6 15297 copa
7 15117 jogador
8 15057 mundial
9 14425 atlético
10 14181 futebol
11 13081 partida
12 13042 vitória
13 12603 seleção
14 12301 bola
Saúde
1 20385 idoso
2 18449 remédio
3 12278 farmácia
4 11094 doença
5 10228 receita
6 10027 grave
7 9701 médico
8 9203 vida
9 8266 aposentadoria
10 7371 oral
11 7331 saúde
12 6901 pílula
13 6840 bula
14 6619 inss
Moda
1 42811 verão
2 37103 look
3 33971 desfile
4 28767 vestido
5 28149 moda
6 26167 março
7 26075 dia
8 23060 coleção
9 22901 modelo
10 21431 inverno
11 20444 bonita
12 19834 fashion
13 19353 festa
14 18471 peça
…
MODELO
Conjunto de
Treino
29. 29
Feature Engineering
B. Filtrar Stop Words da língua em questão. Ex: eu, ao, para, é, etc. (Português)
A. Estrutura de dados onde as freqüência das palavras no texto sejam as
features (bag of words). Ex:
31. 31
E. Preparar o input baseado em TF*IDF (Term Frequency * Inverse Document Frequency)
Palavra TF IDF TF*IDF
gol 5 1,217 6,085
dia 8 0,142 1,136
brasil 3 0,987 2,961
trave 3 1,681 5,043
Feature Engineering
32. 32
Treinamento do Algoritmo
Problema: corridosblindados.org classificado como CorridaDeAventura
Estratégia: Inserir sites de “música narco” nas sementes de música
34. 34
DataMites Team - Data Scientist – Where to Start?:
https://datamites.com/blog/data-scientist-where-to-start/
35. Oportunidades
35
• “Até 2020 serão criados 4.8 milhões de empregos
para suportar as iniciativas de Big Data (2.1 milhões
nos EUA)” (Gartner, Inc. - 2018)
37. 37
1. Requisitos exageradamente abrangentes
1. demanda existe e precisa de único profissional para resolver tudo
2. demanda não existe porque foi super estimada pela empresa
2. Na verdade a demanda é um analista de dados / BI
3. Pequena empresa / start-up implementando cultura de dados
4. Fazer parte de uma equipe de ciência de dados (time unicórnio)
Tipos comuns de vagas em Ciência de
Dados
Thor Olavsrud - Don't look for unicorns, build a data science team:
https://www.cio.com/article/3011648/dont-look-for-unicorns-build-a-data-science-team.html
38. “o papel de um Cientista de Dados vai morrer da
mesma forma que o de um webmaster nos anos
90?”
38
Clint Chegin - There’s No Such Thing as a Data Scientist:
https://medium.com/indeed-engineering/theres-no-such-thing-as-a-data-scientist-8dae923c14e3
42. 42
Principais Títulos de Vagas Recentes
• Cientista de Dados
• Engenheiro(a) de Dados
• Analista de Dados
• Arquiteto(a) de Big Data
• Profissional deVisualização de Dados
• Engenheiro(a) de Machine Learning
Diego Toledo - The rise of the machine learning engineer:
https://towardsdatascience.com/the-rise-of-the-machine-learning-engineer-b53c91a9cbef