Ciro Cavani 
Personalização 
Globo.com 
Plataforma de BigData da Globo. 
com (Sistema de Recomendação) 
Experiência de desenvolvimento 
Rio BigData Meetup 21/10/2014
Sobre mim... 
● Final da Geração X 
● Engenharia de Computação no ITA 
● Startup Mercado Financeiro, PeixeUrbano 
● Globo.com, Personalização 
● PUC-RJ
Globo.com e BigData? 
BigData é a tecnologia que permite tratar um grande volume de dados para 
produção de valor, conhecimento. 
A Globo.com tem os maiores portais do Brasil (G1, Globo Esporte, GShow e 
Vídeos) e presta serviço para TV Globo e outras empresas do Grupo. Todo 
dia, milhões de usuários navegam nos sites ou consomem produtos do Grupo. 
O time de Personalização desenvolve a Plataforma de BigData usada no 
Sistema de Recomendação para captura de dados e analise do perfil dos 
usuários. 
BigData agora é uma prioridade na Globo.com como uma nova área da 
empresa que deve crescer e desenvolver novos Produtos de Dados.
Agenda 
1. Recomendação 
(problema) 
2. Plataforma de Dados 
(solução) 
3. Produção de Valor 
(visão)
Agenda 
1. Recomendação 
(problema) 
2. Plataforma de Dados 
(solução) 
3. Produção de Valor 
(visão)
Expectativa 
Aumentar a permanência do usuário no site, aumentar o 
número de páginas consumidas, aumentar o engajamento 
do usuário (comentários, compartilhamentos, …) 
Ser capaz de personalizar o conteúdo da Globo.com em 
diversos Produtos, de forma contextualizada. 
Como a gente resolve esse problema? é BigData?
Recomendação 
Filtrar o que é relevante para o Usuário. 
Modelagem de Usuário, Conteúdo, Contexto. 
Avaliação da Recomendação. 
Inspiração 
Netflix, Google News, New York Times, LinkedIn, Amazon
Usuário 
Identidade. 
Conhecimento sobre o Usuário. 
Gostos, Interesses, Mudanças. 
O que é relevante para um Usuário?
Conteúdo 
Jornalismo, Esporte, Pessoas, Eventos, 
Vídeos, Filmes, Publicidade… 
Qual a dinâmica desse conteúdo? Quais 
características são mais relevantes? Como 
usar esse conhecimento?
Recomendação é BigData? 
Dados sobre milhões de Usuários com acessos 
diários (implícito e explícito), histórico. 
Dados sobre milhares de Documentos 
produzidos todo dia, metadados. 
Algoritmos de Recomendação cruzando 
grande parte desses dados, produzindo 
modelos.
Agenda 
1. Recomendação 
(problema) 
2. Plataforma de Dados 
(solução) 
3. Produção de Valor 
(visão)
Plataforma de Dados 
Como armazenar grande quantidade de dados e ainda 
fazer processamento intensivo com esses dados? 
Como capturar cada interação que os milhões de 
usuários fazem nos sites e ainda reagir 
‘instantaneamente’? 
Como validar e ter ‘certeza’ de que as mudanças 
estão melhorando as métricas?
Hadoop 
Hadoop2 é dois sistemas: 
● HDFS, sistema de 
arquivos distribuído; 
● YARN, sistema de 
execução distribuído. 
HBase, Pig, Mahout, Solr 
imagem: http://hortonworks.com/hadoop/yarn/
Kafka 
Cluster de distribuição de 
mensagens (bilhões de 
mensagens por dia) criado 
pelo LinkedIn. 
O Kafka se destaca em: 
Performance - alto throughput 
(recebimento, consumo); 
Escalabilidade - muitos 
consumidores, isolamento 
entre consumidores; 
Mensagens pequenas, não 
estruturadas / opacas (bytes). 
image: http://hortonworks.com/hadoop/kafka/
AB 
Teste A/B, Monitoramento 
de desempenho dos 
algoritmos em Produção
MOE 
MOE (Metric Optimization Engine) is 
an efficient way to optimize a system’s 
parameters, when evaluating 
parameters is time-consuming or 
expensive. 
How does MOE work? 
1. Build a Gaussian Process (GP) 
with the historical data 
2. Optimize the hyperparameters 
of the Gaussian Process 
3. Find the point(s) of highest 
Expected Improvement (EI) 
4. Return the point(s) to sample, 
then repeat 
image: http://yelp.github.io/MOE
Agenda 
1. Recomendação 
(problema) 
2. Plataforma de Dados 
(solução) 
3. Produção de Valor 
(visão)
Produção de Valor 
Agora que você existe, me fale dos seus 
problemas? 
Compartilhando a Plataforma de BigData 
Consulta Ad-hoc e Interativa aos Dados 
Fomentando Novos Produtos de Dados
Hadoop como Serviço 
Isolamento entre 
Aplicações 
Consulta interativa a 
Dados 
Front-end Amigável 
(Não-programadores) 
imagem: http://gethue.com/
Spark 
http://spark.apache.org/ 
Apache Spark is a fast and general-purpose cluster 
computing system. It provides high-level APIs in Java, 
Scala and Python, and an optimized engine that supports 
general execution graphs. It also supports a rich set of 
higher-level tools including Spark SQL for SQL and 
structured data processing, MLlib for machine 
learning, GraphX for graph processing, and Spark 
Streaming.
Mais Dados 
Data science is the study of the generalizable 
extraction of knowledge from data, yet the key 
word is science. It incorporates varying 
elements and builds on techniques and theories 
from many fields(...) with the goal of extracting 
meaning from data and creating data products. 
The subject is not restricted to only big data, 
although the fact that data is scaling up makes 
big data an important aspect of data science. 
fonte: http://en.wikipedia.org/wiki/Data_science
Globo.com 
Gostou? 
Quer Trabalhar na Globo.com? 
Estamos Contratando 
https://github.com/globocom/IWantToWorkAtGloboCom 
ciro.cavani@corp.globo.com 
https://www.linkedin.com/in/cirocavani

Plataforma de BigData da Globo.com (Sistema de Recomendação) @ Rio BigData Meetup, Out2014

  • 1.
    Ciro Cavani Personalização Globo.com Plataforma de BigData da Globo. com (Sistema de Recomendação) Experiência de desenvolvimento Rio BigData Meetup 21/10/2014
  • 2.
    Sobre mim... ●Final da Geração X ● Engenharia de Computação no ITA ● Startup Mercado Financeiro, PeixeUrbano ● Globo.com, Personalização ● PUC-RJ
  • 3.
    Globo.com e BigData? BigData é a tecnologia que permite tratar um grande volume de dados para produção de valor, conhecimento. A Globo.com tem os maiores portais do Brasil (G1, Globo Esporte, GShow e Vídeos) e presta serviço para TV Globo e outras empresas do Grupo. Todo dia, milhões de usuários navegam nos sites ou consomem produtos do Grupo. O time de Personalização desenvolve a Plataforma de BigData usada no Sistema de Recomendação para captura de dados e analise do perfil dos usuários. BigData agora é uma prioridade na Globo.com como uma nova área da empresa que deve crescer e desenvolver novos Produtos de Dados.
  • 9.
    Agenda 1. Recomendação (problema) 2. Plataforma de Dados (solução) 3. Produção de Valor (visão)
  • 10.
    Agenda 1. Recomendação (problema) 2. Plataforma de Dados (solução) 3. Produção de Valor (visão)
  • 11.
    Expectativa Aumentar apermanência do usuário no site, aumentar o número de páginas consumidas, aumentar o engajamento do usuário (comentários, compartilhamentos, …) Ser capaz de personalizar o conteúdo da Globo.com em diversos Produtos, de forma contextualizada. Como a gente resolve esse problema? é BigData?
  • 12.
    Recomendação Filtrar oque é relevante para o Usuário. Modelagem de Usuário, Conteúdo, Contexto. Avaliação da Recomendação. Inspiração Netflix, Google News, New York Times, LinkedIn, Amazon
  • 13.
    Usuário Identidade. Conhecimentosobre o Usuário. Gostos, Interesses, Mudanças. O que é relevante para um Usuário?
  • 14.
    Conteúdo Jornalismo, Esporte,Pessoas, Eventos, Vídeos, Filmes, Publicidade… Qual a dinâmica desse conteúdo? Quais características são mais relevantes? Como usar esse conhecimento?
  • 15.
    Recomendação é BigData? Dados sobre milhões de Usuários com acessos diários (implícito e explícito), histórico. Dados sobre milhares de Documentos produzidos todo dia, metadados. Algoritmos de Recomendação cruzando grande parte desses dados, produzindo modelos.
  • 16.
    Agenda 1. Recomendação (problema) 2. Plataforma de Dados (solução) 3. Produção de Valor (visão)
  • 17.
    Plataforma de Dados Como armazenar grande quantidade de dados e ainda fazer processamento intensivo com esses dados? Como capturar cada interação que os milhões de usuários fazem nos sites e ainda reagir ‘instantaneamente’? Como validar e ter ‘certeza’ de que as mudanças estão melhorando as métricas?
  • 18.
    Hadoop Hadoop2 édois sistemas: ● HDFS, sistema de arquivos distribuído; ● YARN, sistema de execução distribuído. HBase, Pig, Mahout, Solr imagem: http://hortonworks.com/hadoop/yarn/
  • 19.
    Kafka Cluster dedistribuição de mensagens (bilhões de mensagens por dia) criado pelo LinkedIn. O Kafka se destaca em: Performance - alto throughput (recebimento, consumo); Escalabilidade - muitos consumidores, isolamento entre consumidores; Mensagens pequenas, não estruturadas / opacas (bytes). image: http://hortonworks.com/hadoop/kafka/
  • 20.
    AB Teste A/B,Monitoramento de desempenho dos algoritmos em Produção
  • 21.
    MOE MOE (MetricOptimization Engine) is an efficient way to optimize a system’s parameters, when evaluating parameters is time-consuming or expensive. How does MOE work? 1. Build a Gaussian Process (GP) with the historical data 2. Optimize the hyperparameters of the Gaussian Process 3. Find the point(s) of highest Expected Improvement (EI) 4. Return the point(s) to sample, then repeat image: http://yelp.github.io/MOE
  • 22.
    Agenda 1. Recomendação (problema) 2. Plataforma de Dados (solução) 3. Produção de Valor (visão)
  • 23.
    Produção de Valor Agora que você existe, me fale dos seus problemas? Compartilhando a Plataforma de BigData Consulta Ad-hoc e Interativa aos Dados Fomentando Novos Produtos de Dados
  • 24.
    Hadoop como Serviço Isolamento entre Aplicações Consulta interativa a Dados Front-end Amigável (Não-programadores) imagem: http://gethue.com/
  • 25.
    Spark http://spark.apache.org/ ApacheSpark is a fast and general-purpose cluster computing system. It provides high-level APIs in Java, Scala and Python, and an optimized engine that supports general execution graphs. It also supports a rich set of higher-level tools including Spark SQL for SQL and structured data processing, MLlib for machine learning, GraphX for graph processing, and Spark Streaming.
  • 26.
    Mais Dados Datascience is the study of the generalizable extraction of knowledge from data, yet the key word is science. It incorporates varying elements and builds on techniques and theories from many fields(...) with the goal of extracting meaning from data and creating data products. The subject is not restricted to only big data, although the fact that data is scaling up makes big data an important aspect of data science. fonte: http://en.wikipedia.org/wiki/Data_science
  • 27.
    Globo.com Gostou? QuerTrabalhar na Globo.com? Estamos Contratando https://github.com/globocom/IWantToWorkAtGloboCom ciro.cavani@corp.globo.com https://www.linkedin.com/in/cirocavani