Recomendação na Globo.com

1.169 visualizações

Publicada em

Apresentação feita no evento Mobile Conf 2015 sobre o sistema de recomendação da Globo.com: Arquitetura, algoritmos e resultados.

Publicada em: Internet
0 comentários
7 gostaram
Estatísticas
Notas
  • Seja o primeiro a comentar

Sem downloads
Visualizações
Visualizações totais
1.169
No SlideShare
0
A partir de incorporações
0
Número de incorporações
27
Ações
Compartilhamentos
0
Downloads
8
Comentários
0
Gostaram
7
Incorporações 0
Nenhuma incorporação

Nenhuma nota no slide
  • Referências em recomendação. Netflix e Amazon as mais reconhecidas pelo sucesso comercial.
  • Explicar aqui o histórico, como começou lá em 2010 em webmedia, e diversas iniciativas de recomendação não personalizada e social.
  • Apache recebe pageview e grava o log em um filer. Esse log é lido pelo papalog e as informações são consolidadas no redis.
  • Explicar como coletamos atividades dos usuário através do horizon e as guardamos em nosso cluster hadoop. Informações que já trackeamos: pageviews, videoviews (todos plays, pauses e seeks), informações de scroll, tempo de leitura. Mencionar Parquet que é um formato de dados baseado no paper de bigquery do google.
  • Exemplo de query no parquet com groupBy aggregação e filtro. Busca o maior scroll de cada usuario/objeto que seja mais de 50%
  • Jobs spark fazem queries no parquet e gravam resultados no hbase e redis
  • Explicar como funciona a extração do TF-IDF por documento
  • Mostrar a importância de semantica e boa anotação de conteúdo para gerar um perfil relevante sobre usuário.
  • Explicar casos entre programas de diversos produtos (Exemplo: Quem gosta de The Voice, gostaria de Top TVZ?) Novamente a importância da integração.
  • Explicar casos entre programas de diversos produtos (Exemplo: Quem gosta de The Voice, gostaria de Top TVZ?) Novamente a importância da integração.
  • Explicar como o objetivo da recomendação é prever o comportamento do usuário, iniciar por previsões simples como descobrir custo de uma casa de acordo com área. Depois em tres dimensões, custo dela de acordo com a área e a idade. Depois em n-dimensões… Mostrar como isso se aplica aos gostos do usuário. Falar da técnica de gradient descent para encontrar o erro minimo e a equação correta.
  • ALS - Alternating leasts squares resolve as matrizes de usuarios e itens usando uma para gerar a outra alternadamente até alcançar o menor erro.
  • O RMSE serve para verificar o quão erradas estão as preferências previstas pelo nosso algoritmo. Como nosso intuito na recomendação não é acertar esse valor, talvez essa métrica sirva mais para identificar underfittings e overfittings.
  • Com o fscore podemos comparar qual melhor algoritmo de acordo com a precisão e a sensibilidade. Essa equação resolve dois problemas, se eu retornasse todos documentos, ou se um usuario viu muitos documentos.
  • Explicar como a recomendação de cada produto é acompanhada diariamente e melhorada em novos experimentos
  • Na aba pra você do globo esporte
  • Na home desktop e na home mobile
  • Na lateral da matéria do TechTudo
  • Na lateral da matéria do TechTudo
  • Na home e na página de vídeos
  • Recomendação na Globo.com

    1. 1. Recomendação
    2. 2. Recomendação de conteúdo
    3. 3. Em 2010...
    4. 4. Por dentro
    5. 5. Coleta de atividades antes página visitada Papalog página visitada Papalog página visitada Papalog
    6. 6. Coleta de atividades atual página visitada tempo assistindo video compartilhamento comentário tempo lendo matéria Horizon Gateway porcentagem de scroll
    7. 7. Parquet e Spark SQL df.groupBy(df("user"), df("object")) .agg(first("user"), first("object"), max("scroll")) .where(df("scroll") > 50)
    8. 8. Processamento paralelo yarn
    9. 9. Tipos de algoritmos ● Content based ● User based ● Cold start
    10. 10. Content based
    11. 11. Conceito BBB Edredon A B C
    12. 12. TF-IDF Importância do termo no documento Quão incomum é o termo no acervo
    13. 13. Entidades semânticas
    14. 14. User based
    15. 15. Collaborative filtering
    16. 16. Matriz de preferências
    17. 17. Preferências implícitas
    18. 18. Previsão n-dimensional Duas dimensões: f(x) = a + bx Três dimensões: f(x) = a + bx'1 + cx'2 N dimensões: f(x) = a + bx'1 + cx'1 + … nx'n
    19. 19. Fatores latentes
    20. 20. Validação
    21. 21. Cross validation
    22. 22. K-fold cross validation
    23. 23. Força bruta for (maxIter <- Array(5, 10, 15, 20)) { for (feature <- Array(10, 20, 30, 40)) { for (alpha <- Array(0.01, 0.1, 0, 1, 10, 100)) { for (regParam <- Array(0.01, 0.1, 0, 1, 10, 100)) {
    24. 24. Root mean square error
    25. 25. F-Score
    26. 26. Métricas por algoritmo
    27. 27. Baseada em testes AB
    28. 28. Resultados
    29. 29. Globo Esporte
    30. 30. BUG :( Globo Esporte
    31. 31. GShow
    32. 32. 75% a mais de conversão em mobile que outras ofertas automáticas 173% a mais de conversão em desktop que outras ofertas automáticas GShow
    33. 33. TechTudo
    34. 34. TechTudo +195% na partipação na retenção do usuário em 2014
    35. 35. TechTudo: Home
    36. 36. TechTudo: Home 50% a mais de conversão em mobile que outras ofertas automáticas 32% a mais de conversão em desktop que outras ofertas automáticas
    37. 37. Globosatplay
    38. 38. GlobosatPlay 45% de melhoria de conversão
    39. 39. @timotta

    ×