Objetivo
Recomendação de conteúdo
Em 2010...
Arquitetura tradicional
Artesanato de paralelismo
página visitada Papalog
página visitada Papalog
página visitada Papalog
Artesanato de paralelismo
página visitada
Globo
Social
página visitada
Globo
Social
Machine Learning
Revolução industrial
yarn
Abstração: Foco no valor
df.groupBy(df("user"), df("object"))
.agg(first("user"), first("object"), max("scroll"))
.where(d...
Coleta de atividades
página visitada
tempo assistindo video
compartilhamento
comentário
tempo lendo matéria
Horizon
Gatewa...
Iterativo e incremental
Resultados
Globo Esporte
BUG :(
Globo Esporte
GShow
75% a mais de
conversão em mobile
que outras ofertas
automáticas
173% a mais de
conversão em
desktop que outras
ofertas au...
TechTudo
TechTudo
+195%
na partipação na
retenção do usuário
em 2014
TechTudo: Home
TechTudo: Home
50% a mais de
conversão em
mobile que outras
ofertas automáticas
32% a mais de
conversão em
desktop que out...
GlobosatPlay
GlobosatPlay
45% de melhoria
de conversão
Data Science
@timotta
Algoritmos de Machine Learning
Content based
Preferências do usuário
TF-IDF
Importância do termo no documento
Quão incomum é o termo no acervo
Entidades semânticas
Encontrando a notícia certa
+BBB
+Edredon
Notícia c
Notícia B
Notícia A
Usuário
User based
Collaborative filtering
Matriz de preferências
Preferências implícitas
Porcentagem de scroll
Temo de página visivel
Matriz de preferências implícitas
0,9 0,8
0,8
Fatores latentes
Previsão n-dimensional
Duas dimensões:
f(x) = a + bx
Três dimensões:
f(x) = a + bx'1 + cx'2
N dimensões:
f(x) = a + bx'1 +...
Validação
Cross validation
K-fold cross validation
Força bruta
for (maxIter <- Array(5, 10, 15, 20)) {
for (feature <- Array(10, 20, 30, 40)) {
for (alpha <- Array(0.01, 0.1...
Root mean square error
Precision and recall
Quanto dos documentos recomendados acertamos
Quanto dos documentos relevantes acertamos
F-measure
Métricas por algoritmo
Baseada em testes AB
@timotta
Big data
Próximos SlideShares
Carregando em…5
×

Big data

461 visualizações

Publicada em

Palestra ministrada no curso de pós graduação Web Intelligence & Data Analitycs da UFRJ.

Publicada em: Tecnologia
0 comentários
2 gostaram
Estatísticas
Notas
  • Seja o primeiro a comentar

Sem downloads
Visualizações
Visualizações totais
461
No SlideShare
0
A partir de incorporações
0
Número de incorporações
9
Ações
Compartilhamentos
0
Downloads
1
Comentários
0
Gostaram
2
Incorporações 0
Nenhuma incorporação

Nenhuma nota no slide

Big data

  1. 1. Objetivo
  2. 2. Recomendação de conteúdo
  3. 3. Em 2010...
  4. 4. Arquitetura tradicional
  5. 5. Artesanato de paralelismo página visitada Papalog página visitada Papalog página visitada Papalog
  6. 6. Artesanato de paralelismo página visitada Globo Social página visitada Globo Social
  7. 7. Machine Learning
  8. 8. Revolução industrial yarn
  9. 9. Abstração: Foco no valor df.groupBy(df("user"), df("object")) .agg(first("user"), first("object"), max("scroll")) .where(df("scroll") > 50)
  10. 10. Coleta de atividades página visitada tempo assistindo video compartilhamento comentário tempo lendo matéria Horizon Gateway porcentagem de scroll
  11. 11. Iterativo e incremental
  12. 12. Resultados
  13. 13. Globo Esporte
  14. 14. BUG :( Globo Esporte
  15. 15. GShow
  16. 16. 75% a mais de conversão em mobile que outras ofertas automáticas 173% a mais de conversão em desktop que outras ofertas automáticas GShow
  17. 17. TechTudo
  18. 18. TechTudo +195% na partipação na retenção do usuário em 2014
  19. 19. TechTudo: Home
  20. 20. TechTudo: Home 50% a mais de conversão em mobile que outras ofertas automáticas 32% a mais de conversão em desktop que outras ofertas automáticas
  21. 21. GlobosatPlay
  22. 22. GlobosatPlay 45% de melhoria de conversão
  23. 23. Data Science
  24. 24. @timotta
  25. 25. Algoritmos de Machine Learning
  26. 26. Content based
  27. 27. Preferências do usuário
  28. 28. TF-IDF Importância do termo no documento Quão incomum é o termo no acervo
  29. 29. Entidades semânticas
  30. 30. Encontrando a notícia certa +BBB +Edredon Notícia c Notícia B Notícia A Usuário
  31. 31. User based
  32. 32. Collaborative filtering
  33. 33. Matriz de preferências
  34. 34. Preferências implícitas Porcentagem de scroll Temo de página visivel
  35. 35. Matriz de preferências implícitas 0,9 0,8 0,8
  36. 36. Fatores latentes
  37. 37. Previsão n-dimensional Duas dimensões: f(x) = a + bx Três dimensões: f(x) = a + bx'1 + cx'2 N dimensões: f(x) = a + bx'1 + cx'1 + … nx'n
  38. 38. Validação
  39. 39. Cross validation
  40. 40. K-fold cross validation
  41. 41. Força bruta for (maxIter <- Array(5, 10, 15, 20)) { for (feature <- Array(10, 20, 30, 40)) { for (alpha <- Array(0.01, 0.1, 0, 1, 10, 100)) { for (regParam <- Array(0.01, 0.1, 0, 1, 10, 100)) {
  42. 42. Root mean square error
  43. 43. Precision and recall Quanto dos documentos recomendados acertamos Quanto dos documentos relevantes acertamos
  44. 44. F-measure
  45. 45. Métricas por algoritmo
  46. 46. Baseada em testes AB
  47. 47. @timotta

×