Ciro Cavani 
Personalização 
Globo.com 
Plataforma de BigData da Globo. 
com (Sistema de Recomendação) 
Experiência de des...
Sobre mim... 
● Final da Geração X 
● Engenharia de Computação no ITA 
● Startup Mercado Financeiro, PeixeUrbano 
● Globo....
Globo.com e BigData? 
BigData é a tecnologia que permite tratar um grande volume de dados para 
produção de valor, conheci...
Agenda 
1. Recomendação 
(problema) 
2. Plataforma de Dados 
(solução) 
3. Produção de Valor 
(visão)
Agenda 
1. Recomendação 
(problema) 
2. Plataforma de Dados 
(solução) 
3. Produção de Valor 
(visão)
Expectativa 
Aumentar a permanência do usuário no site, aumentar o 
número de páginas consumidas, aumentar o engajamento 
...
Recomendação 
Filtrar o que é relevante para o Usuário. 
Modelagem de Usuário, Conteúdo, Contexto. 
Avaliação da Recomenda...
Usuário 
Identidade. 
Conhecimento sobre o Usuário. 
Gostos, Interesses, Mudanças. 
O que é relevante para um Usuário?
Conteúdo 
Jornalismo, Esporte, Pessoas, Eventos, 
Vídeos, Filmes, Publicidade… 
Qual a dinâmica desse conteúdo? Quais 
car...
Recomendação é BigData? 
Dados sobre milhões de Usuários com acessos 
diários (implícito e explícito), histórico. 
Dados s...
Agenda 
1. Recomendação 
(problema) 
2. Plataforma de Dados 
(solução) 
3. Produção de Valor 
(visão)
Plataforma de Dados 
Como armazenar grande quantidade de dados e ainda 
fazer processamento intensivo com esses dados? 
Co...
Hadoop 
Hadoop2 é dois sistemas: 
● HDFS, sistema de 
arquivos distribuído; 
● YARN, sistema de 
execução distribuído. 
HB...
Kafka 
Cluster de distribuição de 
mensagens (bilhões de 
mensagens por dia) criado 
pelo LinkedIn. 
O Kafka se destaca em...
AB 
Teste A/B, Monitoramento 
de desempenho dos 
algoritmos em Produção
MOE 
MOE (Metric Optimization Engine) is 
an efficient way to optimize a system’s 
parameters, when evaluating 
parameters...
Agenda 
1. Recomendação 
(problema) 
2. Plataforma de Dados 
(solução) 
3. Produção de Valor 
(visão)
Produção de Valor 
Agora que você existe, me fale dos seus 
problemas? 
Compartilhando a Plataforma de BigData 
Consulta A...
Hadoop como Serviço 
Isolamento entre 
Aplicações 
Consulta interativa a 
Dados 
Front-end Amigável 
(Não-programadores) 
...
Spark 
http://spark.apache.org/ 
Apache Spark is a fast and general-purpose cluster 
computing system. It provides high-le...
Mais Dados 
Data science is the study of the generalizable 
extraction of knowledge from data, yet the key 
word is scienc...
Globo.com 
Gostou? 
Quer Trabalhar na Globo.com? 
Estamos Contratando 
https://github.com/globocom/IWantToWorkAtGloboCom 
...
Plataforma de BigData da Globo.com (Sistema de Recomendação) @ Rio BigData Meetup, Out2014
Plataforma de BigData da Globo.com (Sistema de Recomendação) @ Rio BigData Meetup, Out2014
Plataforma de BigData da Globo.com (Sistema de Recomendação) @ Rio BigData Meetup, Out2014
Plataforma de BigData da Globo.com (Sistema de Recomendação) @ Rio BigData Meetup, Out2014
Plataforma de BigData da Globo.com (Sistema de Recomendação) @ Rio BigData Meetup, Out2014
Próximos SlideShares
Carregando em…5
×

Plataforma de BigData da Globo.com (Sistema de Recomendação) @ Rio BigData Meetup, Out2014

1.758 visualizações

Publicada em

A proposta dessa palestra é fundamentar alguns conceitos de BigData e explorar a dinâmica de como tratar um grande volume de dados para extrair valor. A ideia é apresentar a solução de dados na Plataforma de BigData da Globo.com usada pelo Sistema de Recomendação e comentar a experiência do seu desenvolvimento.

Publicada em: Dados e análise

Plataforma de BigData da Globo.com (Sistema de Recomendação) @ Rio BigData Meetup, Out2014

  1. 1. Ciro Cavani Personalização Globo.com Plataforma de BigData da Globo. com (Sistema de Recomendação) Experiência de desenvolvimento Rio BigData Meetup 21/10/2014
  2. 2. Sobre mim... ● Final da Geração X ● Engenharia de Computação no ITA ● Startup Mercado Financeiro, PeixeUrbano ● Globo.com, Personalização ● PUC-RJ
  3. 3. Globo.com e BigData? BigData é a tecnologia que permite tratar um grande volume de dados para produção de valor, conhecimento. A Globo.com tem os maiores portais do Brasil (G1, Globo Esporte, GShow e Vídeos) e presta serviço para TV Globo e outras empresas do Grupo. Todo dia, milhões de usuários navegam nos sites ou consomem produtos do Grupo. O time de Personalização desenvolve a Plataforma de BigData usada no Sistema de Recomendação para captura de dados e analise do perfil dos usuários. BigData agora é uma prioridade na Globo.com como uma nova área da empresa que deve crescer e desenvolver novos Produtos de Dados.
  4. 4. Agenda 1. Recomendação (problema) 2. Plataforma de Dados (solução) 3. Produção de Valor (visão)
  5. 5. Agenda 1. Recomendação (problema) 2. Plataforma de Dados (solução) 3. Produção de Valor (visão)
  6. 6. Expectativa Aumentar a permanência do usuário no site, aumentar o número de páginas consumidas, aumentar o engajamento do usuário (comentários, compartilhamentos, …) Ser capaz de personalizar o conteúdo da Globo.com em diversos Produtos, de forma contextualizada. Como a gente resolve esse problema? é BigData?
  7. 7. Recomendação Filtrar o que é relevante para o Usuário. Modelagem de Usuário, Conteúdo, Contexto. Avaliação da Recomendação. Inspiração Netflix, Google News, New York Times, LinkedIn, Amazon
  8. 8. Usuário Identidade. Conhecimento sobre o Usuário. Gostos, Interesses, Mudanças. O que é relevante para um Usuário?
  9. 9. Conteúdo Jornalismo, Esporte, Pessoas, Eventos, Vídeos, Filmes, Publicidade… Qual a dinâmica desse conteúdo? Quais características são mais relevantes? Como usar esse conhecimento?
  10. 10. Recomendação é BigData? Dados sobre milhões de Usuários com acessos diários (implícito e explícito), histórico. Dados sobre milhares de Documentos produzidos todo dia, metadados. Algoritmos de Recomendação cruzando grande parte desses dados, produzindo modelos.
  11. 11. Agenda 1. Recomendação (problema) 2. Plataforma de Dados (solução) 3. Produção de Valor (visão)
  12. 12. Plataforma de Dados Como armazenar grande quantidade de dados e ainda fazer processamento intensivo com esses dados? Como capturar cada interação que os milhões de usuários fazem nos sites e ainda reagir ‘instantaneamente’? Como validar e ter ‘certeza’ de que as mudanças estão melhorando as métricas?
  13. 13. Hadoop Hadoop2 é dois sistemas: ● HDFS, sistema de arquivos distribuído; ● YARN, sistema de execução distribuído. HBase, Pig, Mahout, Solr imagem: http://hortonworks.com/hadoop/yarn/
  14. 14. Kafka Cluster de distribuição de mensagens (bilhões de mensagens por dia) criado pelo LinkedIn. O Kafka se destaca em: Performance - alto throughput (recebimento, consumo); Escalabilidade - muitos consumidores, isolamento entre consumidores; Mensagens pequenas, não estruturadas / opacas (bytes). image: http://hortonworks.com/hadoop/kafka/
  15. 15. AB Teste A/B, Monitoramento de desempenho dos algoritmos em Produção
  16. 16. MOE MOE (Metric Optimization Engine) is an efficient way to optimize a system’s parameters, when evaluating parameters is time-consuming or expensive. How does MOE work? 1. Build a Gaussian Process (GP) with the historical data 2. Optimize the hyperparameters of the Gaussian Process 3. Find the point(s) of highest Expected Improvement (EI) 4. Return the point(s) to sample, then repeat image: http://yelp.github.io/MOE
  17. 17. Agenda 1. Recomendação (problema) 2. Plataforma de Dados (solução) 3. Produção de Valor (visão)
  18. 18. Produção de Valor Agora que você existe, me fale dos seus problemas? Compartilhando a Plataforma de BigData Consulta Ad-hoc e Interativa aos Dados Fomentando Novos Produtos de Dados
  19. 19. Hadoop como Serviço Isolamento entre Aplicações Consulta interativa a Dados Front-end Amigável (Não-programadores) imagem: http://gethue.com/
  20. 20. Spark http://spark.apache.org/ Apache Spark is a fast and general-purpose cluster computing system. It provides high-level APIs in Java, Scala and Python, and an optimized engine that supports general execution graphs. It also supports a rich set of higher-level tools including Spark SQL for SQL and structured data processing, MLlib for machine learning, GraphX for graph processing, and Spark Streaming.
  21. 21. Mais Dados Data science is the study of the generalizable extraction of knowledge from data, yet the key word is science. It incorporates varying elements and builds on techniques and theories from many fields(...) with the goal of extracting meaning from data and creating data products. The subject is not restricted to only big data, although the fact that data is scaling up makes big data an important aspect of data science. fonte: http://en.wikipedia.org/wiki/Data_science
  22. 22. Globo.com Gostou? Quer Trabalhar na Globo.com? Estamos Contratando https://github.com/globocom/IWantToWorkAtGloboCom ciro.cavani@corp.globo.com https://www.linkedin.com/in/cirocavani

×