Transformando
a Web com dados
Apoio:
•  Pesquisa Cientifica (LHC, Genética, Meteorologia)
•  Mercado Financeiro
•  Cultura (Literatura,Jornais, Netflix)
•  Pro...
3 de 21
Hum?
•  O usuário realiza ações em um site.
•  Ações podem indicar preferências
•  Entender ações dos usuários aum...
4 de 21
•  Volume de dados gigante
•  Dados indicam informações sobre os usuários
•  Faz tempo que existe uma avanlanche de dados,...
•  Toda informação do usuário é logada
•  Se um dado gera informações que mudam ao longo do tempo, o log
é versionado por ...
Fonte: Maplink - 7 de 21
•  Não é necessário um volume absurdo de dados
•  Operações complexas podem necessitar um grande parque
computacional mesm...
•  HPC (clusters, GPU, etc)
•  Map Reduce (Hadoop, Disco, etc)
9 de 21
Como fazer Big Data?
Processamento:
Armazenamento:
...
“Estou na Campus Party”
“Campus Party esse mês”
“O campus da USP é no Butanta”
Estou 1
na 1
Campus 1
Party 1
Campus 2
Part...
Dados
Saída
Master Node
Worker
Worker
Worker
11 de 21
•  Facilmente escalável (embarrassingly parallel) a milhares de TB.
•  Baixo custo de escalabilidade: clusters com milhare...
•  Programação de baixo nível de abstração.
•  Nem todo algorítmo pode ser escrito como uma única tarefa de
MapReduce.
•  ...
•  Projeto Apache
•  Framework de MapReduce
•  Sistema de arquivos distribuido entre todas as máquinas do cluster
(HDFS)
•...
•  Apenas os dados não trazem soluções dos problemas.
•  Modelos estatísticos trazem intuição teórica sobre o que estamos
...
Vamos construir um e-commerce com um sistema
de recomendação e descontos personalizados:
16 de 21
Como assim modelo?
“Que item devo recomendar ao meu usuário?
Devo dar um desconto? Que valor de desconto eu
posso dar?”
•  O que conheço do u...
Pid	
  	
  descrição	
   categoria	
   preço	
  
1	
   Notebook	
  Pear	
   Informa(ca	
   	
  R$3000.00	
  	
  
2	
   Not...
•  O que conheço do usuário?
Compras efetuadas no passado
Dados de Navegação (user agent, produtos visualizados no passado...
20 de 21
21 de 21
Teorema de Bayes:
Qual conjunto de produto recomendado e desconto oferecido
maximizam o ganho esperado da venda?
...
21 de 21
Teorema de Bayes:
brigado!
É possível estimar as probabilidades a partir dos dados de transações
passadas se fize...
Próximos SlideShares
Carregando em…5
×

Transformando a Web com Dados

385 visualizações

Publicada em

Nesta apresentação mostramos como podemos utilizar técnicas de Big Data para descobrir mais informações sobre os usuários de um site, bem como utilizar essa informação para trazer informações personalizadas.

Publicada em: Tecnologia
0 comentários
2 gostaram
Estatísticas
Notas
  • Seja o primeiro a comentar

Sem downloads
Visualizações
Visualizações totais
385
No SlideShare
0
A partir de incorporações
0
Número de incorporações
1
Ações
Compartilhamentos
0
Downloads
23
Comentários
0
Gostaram
2
Incorporações 0
Nenhuma incorporação

Nenhuma nota no slide
  • FERRAMENTA!!!!
  • FERRAMENTA!!!!
  • Transformando a Web com Dados

    1. 1. Transformando a Web com dados Apoio:
    2. 2. •  Pesquisa Cientifica (LHC, Genética, Meteorologia) •  Mercado Financeiro •  Cultura (Literatura,Jornais, Netflix) •  Processos industrias •  … e a internet! Alguns números: -  LHC gera 70 TB/dia de dados -  NYSE gera 1 TB/dia de trading data -  Facebook: 1.5 bilhão de likes em marcas por mês -  Apontador: 50 milhões de pageviews por mês -  Maplink: 1.8 bilhões de coordenadas processadas por mês 2 de 21 Dados e dados…Por toda parte! Fontes: - http://en.wikipedia.org/wiki/Large_Hadron_Collider - http://marciaconner.com/blog/data-on-big-data/
    3. 3. 3 de 21 Hum? •  O usuário realiza ações em um site. •  Ações podem indicar preferências •  Entender ações dos usuários aumenta o grau de informação sobre ele. •  Customização e experiência do usuário.
    4. 4. 4 de 21
    5. 5. •  Volume de dados gigante •  Dados indicam informações sobre os usuários •  Faz tempo que existe uma avanlanche de dados, que eram em geral sumarizados. •  Hoje existem ferramentas que permitem armazenar e processar esses dados em sua forma bruta. 5 de 21 BIG Data
    6. 6. •  Toda informação do usuário é logada •  Se um dado gera informações que mudam ao longo do tempo, o log é versionado por usuário 6 de 21 Metodologia Big Data Buscas, clicks, mouse hoover, movimentos no mapa
    7. 7. Fonte: Maplink - 7 de 21
    8. 8. •  Não é necessário um volume absurdo de dados •  Operações complexas podem necessitar um grande parque computacional mesmo para uma pequena quantidade de dados •  Sistemas com pequena quantidade de dados podem se benificiar da Metodologia big data 8 de 21 Small-Big-Medium Data
    9. 9. •  HPC (clusters, GPU, etc) •  Map Reduce (Hadoop, Disco, etc) 9 de 21 Como fazer Big Data? Processamento: Armazenamento: •  Banco de dados escaláveis (noSQL): MongoDB, Cassandra, Dynamo..
    10. 10. “Estou na Campus Party” “Campus Party esse mês” “O campus da USP é no Butanta” Estou 1 na 1 Campus 1 Party 1 Campus 2 Party 2 esse 2 mês 2 O 3 campus 3 da 3 USP 3 é 3 no 3 Butanta 3 Estou 1 na 1 Campus 1,2,3 Party 1,2 esse 2 Mes 2 o 3 da 3 USP 3 e 3 no 3 butanta 3 10 de 21 Exemplo Map Reduce
    11. 11. Dados Saída Master Node Worker Worker Worker 11 de 21
    12. 12. •  Facilmente escalável (embarrassingly parallel) a milhares de TB. •  Baixo custo de escalabilidade: clusters com milhares de nós, commodity servers •  Facil correção de problemas on the fly. 12 de 21 Vantagens do Map Reduce
    13. 13. •  Programação de baixo nível de abstração. •  Nem todo algorítmo pode ser escrito como uma única tarefa de MapReduce. •  Representação de algorítimos matemáticos complexos depende de diversas tarefas de Map e Reduce. 13 de 21 Desvantagens do Map Reduce
    14. 14. •  Projeto Apache •  Framework de MapReduce •  Sistema de arquivos distribuido entre todas as máquinas do cluster (HDFS) •  Hbase, Hive, PIG, Mahout •  Yelp, Yahoo, Facebook, Amazon, Netflix, Apontador & Maplink 14 de 21 E o Hadoop? O que é?
    15. 15. •  Apenas os dados não trazem soluções dos problemas. •  Modelos estatísticos trazem intuição teórica sobre o que estamos estudando. •  Dados processados com suposições teóricas equivocadas podem levar a conclusões erradas. 15 de 21 Só Hadoop resolve meu problema?
    16. 16. Vamos construir um e-commerce com um sistema de recomendação e descontos personalizados: 16 de 21 Como assim modelo?
    17. 17. “Que item devo recomendar ao meu usuário? Devo dar um desconto? Que valor de desconto eu posso dar?” •  O que conheço do usuário? Compras efetuadas no passado Dados de Navegação (user agent, produtos visualizados no passado, ...) Descontos efetuados no passado Dados pessoais (idade, sexo, ...) Que produto o usuário está visualizando agora •  O que eu quer saber? Que produto recomendar? Que desconto oferecer? 17 de 21 Sr David steps, dono da loja virtual VelhoGeek:
    18. 18. Pid    descrição   categoria   preço   1   Notebook  Pear   Informa(ca    R$3000.00     2   Notebook  HAL   Informa(ca    R$2000.00     3   Celular  Pear  youPhone   Telefonia    R$1800.00     4   Celular  Blue  Robot   Telefonia    R$1600.00     5   Celular  youClone  com  8  chips   Telefonia    R$800.00     6   Celular  EscritórioFone  for  Businessmen   Telefonia    R$1000.00     7   Tênis  Mike   Roupas  e  Acessórios    R$300.00     8   Tênis  Rei   Roupas  e  Acessórios    R$150.00     9   Fone  de  Ouvido  youPhone  original   Acessórios  de  Informá(ca    R$90.00     10   Mouse  CheapJunk  Systems   Acessórios  de  Informá(ca    R$5.00     11   Mouse  MacroHard  sem  fio   Acessórios  de  Informá(ca    R$90.00     12   CD:  Boy  Band  do  Ano  "Live  AcusXco"   Música    R$25.00     13   CD:  Cool  Jazz  CollecXon     Música    R$25.00     14   Fraldas  Pimpolho  -­‐  200  unidades   Bebê    R$50.00     15   Carrinho  de  Bebê     Bebê    R$150.00     16   Cerveja  -­‐  6  pack   Alimentos    R$12.00     21   Vinho  -­‐  "Chateau  PeXt  Verdot"  bordeaux  grand  cru  classé   Alimentos    R$120.00     18   Jogo  de  Videogame  -­‐  God  of  Ba`le   Jogos    R$50.00     19   Livro:  "Receitas  para  Solteiros"   Livros    R$25.00     20   Livro:  "God  of  Ba`le  -­‐  Estratégias  para  Ganhar"   Livros    R$25.00     21   Livro:  "Como  Não  Matar  o  Seu  Bebê:  a  Arte  da  Guerra  para  Pais  Solteiros"   Livros    R$25.00     22   Livro:  "Espeleologia  Comparada:  Introdução  ao  Cálculo  Setorial  MulXplexado"   Livros    R$55.00     18 de 21
    19. 19. •  O que conheço do usuário? Compras efetuadas no passado Dados de Navegação (user agent, produtos visualizados no passado, ...) Descontos efetuados no passado Dados pessoais (idade, sexo, ...) Que produto o usuário está visualizando agora •  O que eu quer saber? Que produto recomendar? Que desconto oferecer? 19 de 21 COMO descobrir isso?
    20. 20. 20 de 21
    21. 21. 21 de 21 Teorema de Bayes: Qual conjunto de produto recomendado e desconto oferecido maximizam o ganho esperado da venda? É possível estimar as probabilidades a partir dos dados de transações passadas se fizermos algumas hipóteses estatísticas. Exemplo - hipótese de naïve Bayes - features afetam independentemente a probabilidade da compra ser realizada. O MODELO estatístico Prob(Usuario comprar|caracteristicas do usuario) Prob(caracteristicas do usuario|Usuario comprar)Prob(realizar una compra) Prob(caracter´ıstica do usuario)
    22. 22. 21 de 21 Teorema de Bayes: brigado! É possível estimar as probabilidades a partir dos dados de transações passadas se fizermos algumas hipóteses estatísticas. Exemplo - hipótese de naïve Bayes - features afetam independentemente a probabilidade da compra ser realizada. O MODELO statístico Prob(Usuario comprar|caracteristicas do usuario) Prob(caracteristicas do usuario|Usuario comprar)Prob(realizar una compra) Prob(caracter´ıstica do usuario) Caio C. Gomes Diretor de Pesquisa e Data Mining caio.gomes@apontador.com Rafael S. Calsaverini Data Scientist rafael.calsaverini@apontador.com

    ×