Big data

497 visualizações

Publicada em

Palestra ministrada no curso de pós graduação Web Intelligence & Data Analitycs da UFRJ.

Publicada em: Tecnologia
0 comentários
2 gostaram
Estatísticas
Notas
  • Seja o primeiro a comentar

Sem downloads
Visualizações
Visualizações totais
497
No SlideShare
0
A partir de incorporações
0
Número de incorporações
9
Ações
Compartilhamentos
0
Downloads
2
Comentários
0
Gostaram
2
Incorporações 0
Nenhuma incorporação

Nenhuma nota no slide

Big data

  1. 1. Objetivo
  2. 2. Recomendação de conteúdo
  3. 3. Em 2010...
  4. 4. Arquitetura tradicional
  5. 5. Artesanato de paralelismo página visitada Papalog página visitada Papalog página visitada Papalog
  6. 6. Artesanato de paralelismo página visitada Globo Social página visitada Globo Social
  7. 7. Machine Learning
  8. 8. Revolução industrial yarn
  9. 9. Abstração: Foco no valor df.groupBy(df("user"), df("object")) .agg(first("user"), first("object"), max("scroll")) .where(df("scroll") > 50)
  10. 10. Coleta de atividades página visitada tempo assistindo video compartilhamento comentário tempo lendo matéria Horizon Gateway porcentagem de scroll
  11. 11. Iterativo e incremental
  12. 12. Resultados
  13. 13. Globo Esporte
  14. 14. BUG :( Globo Esporte
  15. 15. GShow
  16. 16. 75% a mais de conversão em mobile que outras ofertas automáticas 173% a mais de conversão em desktop que outras ofertas automáticas GShow
  17. 17. TechTudo
  18. 18. TechTudo +195% na partipação na retenção do usuário em 2014
  19. 19. TechTudo: Home
  20. 20. TechTudo: Home 50% a mais de conversão em mobile que outras ofertas automáticas 32% a mais de conversão em desktop que outras ofertas automáticas
  21. 21. GlobosatPlay
  22. 22. GlobosatPlay 45% de melhoria de conversão
  23. 23. Data Science
  24. 24. @timotta
  25. 25. Algoritmos de Machine Learning
  26. 26. Content based
  27. 27. Preferências do usuário
  28. 28. TF-IDF Importância do termo no documento Quão incomum é o termo no acervo
  29. 29. Entidades semânticas
  30. 30. Encontrando a notícia certa +BBB +Edredon Notícia c Notícia B Notícia A Usuário
  31. 31. User based
  32. 32. Collaborative filtering
  33. 33. Matriz de preferências
  34. 34. Preferências implícitas Porcentagem de scroll Temo de página visivel
  35. 35. Matriz de preferências implícitas 0,9 0,8 0,8
  36. 36. Fatores latentes
  37. 37. Previsão n-dimensional Duas dimensões: f(x) = a + bx Três dimensões: f(x) = a + bx'1 + cx'2 N dimensões: f(x) = a + bx'1 + cx'1 + … nx'n
  38. 38. Validação
  39. 39. Cross validation
  40. 40. K-fold cross validation
  41. 41. Força bruta for (maxIter <- Array(5, 10, 15, 20)) { for (feature <- Array(10, 20, 30, 40)) { for (alpha <- Array(0.01, 0.1, 0, 1, 10, 100)) { for (regParam <- Array(0.01, 0.1, 0, 1, 10, 100)) {
  42. 42. Root mean square error
  43. 43. Precision and recall Quanto dos documentos recomendados acertamos Quanto dos documentos relevantes acertamos
  44. 44. F-measure
  45. 45. Métricas por algoritmo
  46. 46. Baseada em testes AB
  47. 47. @timotta

×