SlideShare uma empresa Scribd logo
1 de 22
Baixar para ler offline
Transformando
a Web com dados
Apoio:
•  Pesquisa Cientifica (LHC, Genética, Meteorologia)
•  Mercado Financeiro
•  Cultura (Literatura,Jornais, Netflix)
•  Processos industrias
•  … e a internet!
Alguns números:
-  LHC gera 70 TB/dia de dados
-  NYSE gera 1 TB/dia de trading data
-  Facebook: 1.5 bilhão de likes em marcas por mês
-  Apontador: 50 milhões de pageviews por mês
-  Maplink: 1.8 bilhões de coordenadas processadas por mês
2 de 21
Dados e dados…Por toda parte!
Fontes:
- http://en.wikipedia.org/wiki/Large_Hadron_Collider
- http://marciaconner.com/blog/data-on-big-data/
3 de 21
Hum?
•  O usuário realiza ações em um site.
•  Ações podem indicar preferências
•  Entender ações dos usuários aumenta o grau de informação sobre
ele.
•  Customização e experiência do usuário.
4 de 21
•  Volume de dados gigante
•  Dados indicam informações sobre os usuários
•  Faz tempo que existe uma avanlanche de dados, que eram em
geral sumarizados.
•  Hoje existem ferramentas que permitem armazenar e processar
esses dados em sua forma bruta.
5 de 21
BIG Data
•  Toda informação do usuário é logada
•  Se um dado gera informações que mudam ao longo do tempo, o log
é versionado por usuário
6 de 21
Metodologia Big Data
Buscas, clicks, mouse hoover, movimentos no mapa
Fonte: Maplink - 7 de 21
•  Não é necessário um volume absurdo de dados
•  Operações complexas podem necessitar um grande parque
computacional mesmo para uma pequena quantidade de dados
•  Sistemas com pequena quantidade de dados podem se benificiar da
Metodologia big data
8 de 21
Small-Big-Medium Data
•  HPC (clusters, GPU, etc)
•  Map Reduce (Hadoop, Disco, etc)
9 de 21
Como fazer Big Data?
Processamento:
Armazenamento:
•  Banco de dados escaláveis (noSQL): MongoDB, Cassandra,
Dynamo..
“Estou na Campus Party”
“Campus Party esse mês”
“O campus da USP é no Butanta”
Estou 1
na 1
Campus 1
Party 1
Campus 2
Party 2
esse 2
mês 2
O 3
campus 3
da 3
USP 3
é 3
no 3
Butanta 3
Estou 1
na 1
Campus 1,2,3
Party 1,2
esse 2
Mes 2
o 3
da 3
USP 3
e 3
no 3
butanta 3
10 de 21
Exemplo Map Reduce
Dados
Saída
Master Node
Worker
Worker
Worker
11 de 21
•  Facilmente escalável (embarrassingly parallel) a milhares de TB.
•  Baixo custo de escalabilidade: clusters com milhares de nós,
commodity servers
•  Facil correção de problemas on the fly.
12 de 21
Vantagens do Map Reduce
•  Programação de baixo nível de abstração.
•  Nem todo algorítmo pode ser escrito como uma única tarefa de
MapReduce.
•  Representação de algorítimos matemáticos complexos depende de
diversas tarefas de Map e Reduce.
13 de 21
Desvantagens do Map Reduce
•  Projeto Apache
•  Framework de MapReduce
•  Sistema de arquivos distribuido entre todas as máquinas do cluster
(HDFS)
•  Hbase, Hive, PIG, Mahout
•  Yelp, Yahoo, Facebook, Amazon, Netflix, Apontador & Maplink
14 de 21
E o Hadoop? O que é?
•  Apenas os dados não trazem soluções dos problemas.
•  Modelos estatísticos trazem intuição teórica sobre o que estamos
estudando.
•  Dados processados com suposições teóricas equivocadas podem
levar a conclusões erradas.
15 de 21
Só Hadoop resolve meu problema?
Vamos construir um e-commerce com um sistema
de recomendação e descontos personalizados:
16 de 21
Como assim modelo?
“Que item devo recomendar ao meu usuário?
Devo dar um desconto? Que valor de desconto eu
posso dar?”
•  O que conheço do usuário?
Compras efetuadas no passado
Dados de Navegação (user agent, produtos visualizados no passado, ...)
Descontos efetuados no passado
Dados pessoais (idade, sexo, ...)
Que produto o usuário está visualizando agora
•  O que eu quer saber?
Que produto recomendar?
Que desconto oferecer?
17 de 21
Sr David steps, dono da loja virtual VelhoGeek:
Pid	
  	
  descrição	
   categoria	
   preço	
  
1	
   Notebook	
  Pear	
   Informa(ca	
   	
  R$3000.00	
  	
  
2	
   Notebook	
  HAL	
   Informa(ca	
   	
  R$2000.00	
  	
  
3	
   Celular	
  Pear	
  youPhone	
   Telefonia	
   	
  R$1800.00	
  	
  
4	
   Celular	
  Blue	
  Robot	
   Telefonia	
   	
  R$1600.00	
  	
  
5	
   Celular	
  youClone	
  com	
  8	
  chips	
   Telefonia	
   	
  R$800.00	
  	
  
6	
   Celular	
  EscritórioFone	
  for	
  Businessmen	
   Telefonia	
   	
  R$1000.00	
  	
  
7	
   Tênis	
  Mike	
   Roupas	
  e	
  Acessórios	
   	
  R$300.00	
  	
  
8	
   Tênis	
  Rei	
   Roupas	
  e	
  Acessórios	
   	
  R$150.00	
  	
  
9	
   Fone	
  de	
  Ouvido	
  youPhone	
  original	
   Acessórios	
  de	
  Informá(ca	
   	
  R$90.00	
  	
  
10	
   Mouse	
  CheapJunk	
  Systems	
   Acessórios	
  de	
  Informá(ca	
   	
  R$5.00	
  	
  
11	
   Mouse	
  MacroHard	
  sem	
  fio	
   Acessórios	
  de	
  Informá(ca	
   	
  R$90.00	
  	
  
12	
   CD:	
  Boy	
  Band	
  do	
  Ano	
  "Live	
  AcusXco"	
   Música	
   	
  R$25.00	
  	
  
13	
   CD:	
  Cool	
  Jazz	
  CollecXon	
  	
   Música	
   	
  R$25.00	
  	
  
14	
   Fraldas	
  Pimpolho	
  -­‐	
  200	
  unidades	
   Bebê	
   	
  R$50.00	
  	
  
15	
   Carrinho	
  de	
  Bebê	
  	
   Bebê	
   	
  R$150.00	
  	
  
16	
   Cerveja	
  -­‐	
  6	
  pack	
   Alimentos	
   	
  R$12.00	
  	
  
21	
   Vinho	
  -­‐	
  "Chateau	
  PeXt	
  Verdot"	
  bordeaux	
  grand	
  cru	
  classé	
   Alimentos	
   	
  R$120.00	
  	
  
18	
   Jogo	
  de	
  Videogame	
  -­‐	
  God	
  of	
  Ba`le	
   Jogos	
   	
  R$50.00	
  	
  
19	
   Livro:	
  "Receitas	
  para	
  Solteiros"	
   Livros	
   	
  R$25.00	
  	
  
20	
   Livro:	
  "God	
  of	
  Ba`le	
  -­‐	
  Estratégias	
  para	
  Ganhar"	
   Livros	
   	
  R$25.00	
  	
  
21	
   Livro:	
  "Como	
  Não	
  Matar	
  o	
  Seu	
  Bebê:	
  a	
  Arte	
  da	
  Guerra	
  para	
  Pais	
  Solteiros"	
   Livros	
   	
  R$25.00	
  	
  
22	
   Livro:	
  "Espeleologia	
  Comparada:	
  Introdução	
  ao	
  Cálculo	
  Setorial	
  MulXplexado"	
   Livros	
   	
  R$55.00	
  	
  
18 de 21
•  O que conheço do usuário?
Compras efetuadas no passado
Dados de Navegação (user agent, produtos visualizados no passado, ...)
Descontos efetuados no passado
Dados pessoais (idade, sexo, ...)
Que produto o usuário está visualizando agora
•  O que eu quer saber?
Que produto recomendar?
Que desconto oferecer?
19 de 21
COMO descobrir isso?
20 de 21
21 de 21
Teorema de Bayes:
Qual conjunto de produto recomendado e desconto oferecido
maximizam o ganho esperado da venda?
É possível estimar as probabilidades a partir dos dados de transações
passadas se fizermos algumas hipóteses estatísticas.
Exemplo - hipótese de naïve Bayes - features afetam independentemente a
probabilidade da compra ser realizada.
O MODELO estatístico
Prob(Usuario comprar|caracteristicas do usuario)
Prob(caracteristicas do usuario|Usuario comprar)Prob(realizar una compra)
Prob(caracter´ıstica do usuario)
21 de 21
Teorema de Bayes:
brigado!
É possível estimar as probabilidades a partir dos dados de transações
passadas se fizermos algumas hipóteses estatísticas.
Exemplo - hipótese de naïve Bayes - features afetam independentemente a
probabilidade da compra ser realizada.
O MODELO statístico
Prob(Usuario comprar|caracteristicas do usuario)
Prob(caracteristicas do usuario|Usuario comprar)Prob(realizar una compra)
Prob(caracter´ıstica do usuario)
Caio C. Gomes
Diretor de Pesquisa e Data Mining
caio.gomes@apontador.com
Rafael S. Calsaverini
Data Scientist
rafael.calsaverini@apontador.com

Mais conteúdo relacionado

Semelhante a Transformando a Web com análise de dados

Gamification e Big Data
Gamification e Big DataGamification e Big Data
Gamification e Big DataCaio Gomes
 
Governança de Dados e Big Data_v02
Governança de Dados e Big Data_v02Governança de Dados e Big Data_v02
Governança de Dados e Big Data_v02Carlos Barbieri
 
Governança de Dados e Big Data
Governança de Dados e Big DataGovernança de Dados e Big Data
Governança de Dados e Big DataCarlos Barbieri
 
aula1 - Bigdata.pdf
aula1 - Bigdata.pdfaula1 - Bigdata.pdf
aula1 - Bigdata.pdfCyberboy11
 
Big Data Analytics - Data Science - Aplicação e Tecnologia
Big Data Analytics - Data Science - Aplicação e TecnologiaBig Data Analytics - Data Science - Aplicação e Tecnologia
Big Data Analytics - Data Science - Aplicação e TecnologiaHélio Silva
 
Big Data e Data Science - Tecnologia e Mercado
Big Data e Data Science - Tecnologia e MercadoBig Data e Data Science - Tecnologia e Mercado
Big Data e Data Science - Tecnologia e MercadoHélio Silva
 
Python: a arma secreta do Cientista de Dados
Python: a arma secreta do Cientista de DadosPython: a arma secreta do Cientista de Dados
Python: a arma secreta do Cientista de DadosRodrigo Senra
 
Casos de Uso de Big Data e Ciência de Dados no Mercado
 Casos de Uso de Big Data e Ciência de Dados no Mercado Casos de Uso de Big Data e Ciência de Dados no Mercado
Casos de Uso de Big Data e Ciência de Dados no MercadoJoel Pinho Lucas
 
Big Data, o que é isso?
Big Data, o que é isso?Big Data, o que é isso?
Big Data, o que é isso?Ambiente Livre
 
Palestra garimpando com pentaho data mining latinoware
Palestra garimpando com pentaho data mining latinowarePalestra garimpando com pentaho data mining latinoware
Palestra garimpando com pentaho data mining latinowareMarcos Vinicius Fidelis
 
Big data - Uma visão geral da coisa...
Big data - Uma visão geral da coisa...Big data - Uma visão geral da coisa...
Big data - Uma visão geral da coisa...Arthur Souza
 
Uma breve introdução ao Big Data e Inteligência Artificial.pptx
Uma breve introdução ao Big Data e Inteligência Artificial.pptxUma breve introdução ao Big Data e Inteligência Artificial.pptx
Uma breve introdução ao Big Data e Inteligência Artificial.pptxAlessandro Binhara
 
TDC 2014 - Hadoop Hands ON
TDC 2014 - Hadoop Hands ONTDC 2014 - Hadoop Hands ON
TDC 2014 - Hadoop Hands ONThiago Santiago
 
Big Ideas, small Data
Big Ideas, small DataBig Ideas, small Data
Big Ideas, small DataDigital House
 
Palestra Ciência de Dados
Palestra Ciência de DadosPalestra Ciência de Dados
Palestra Ciência de Dadoscardoso80
 
TDC 2017 - Borg até o Prometheus: Site Reliability Engineering
TDC 2017 - Borg até o Prometheus: Site Reliability EngineeringTDC 2017 - Borg até o Prometheus: Site Reliability Engineering
TDC 2017 - Borg até o Prometheus: Site Reliability EngineeringFelipe Klerk Signorini
 

Semelhante a Transformando a Web com análise de dados (20)

Gamification e Big Data
Gamification e Big DataGamification e Big Data
Gamification e Big Data
 
Governança de Dados e Big Data_v02
Governança de Dados e Big Data_v02Governança de Dados e Big Data_v02
Governança de Dados e Big Data_v02
 
Governança de Dados e Big Data
Governança de Dados e Big DataGovernança de Dados e Big Data
Governança de Dados e Big Data
 
aula1 - Bigdata.pdf
aula1 - Bigdata.pdfaula1 - Bigdata.pdf
aula1 - Bigdata.pdf
 
Big Data Analytics - Data Science - Aplicação e Tecnologia
Big Data Analytics - Data Science - Aplicação e TecnologiaBig Data Analytics - Data Science - Aplicação e Tecnologia
Big Data Analytics - Data Science - Aplicação e Tecnologia
 
Hackathon UOL
Hackathon  UOL Hackathon  UOL
Hackathon UOL
 
Big Data e Data Science - Tecnologia e Mercado
Big Data e Data Science - Tecnologia e MercadoBig Data e Data Science - Tecnologia e Mercado
Big Data e Data Science - Tecnologia e Mercado
 
Python: a arma secreta do Cientista de Dados
Python: a arma secreta do Cientista de DadosPython: a arma secreta do Cientista de Dados
Python: a arma secreta do Cientista de Dados
 
Casos de Uso de Big Data e Ciência de Dados no Mercado
 Casos de Uso de Big Data e Ciência de Dados no Mercado Casos de Uso de Big Data e Ciência de Dados no Mercado
Casos de Uso de Big Data e Ciência de Dados no Mercado
 
Big data e data science
Big data e data scienceBig data e data science
Big data e data science
 
Big Data, o que é isso?
Big Data, o que é isso?Big Data, o que é isso?
Big Data, o que é isso?
 
Bigadata casese opotunidades
Bigadata casese opotunidadesBigadata casese opotunidades
Bigadata casese opotunidades
 
Treinamento hadoop - dia1
Treinamento hadoop - dia1Treinamento hadoop - dia1
Treinamento hadoop - dia1
 
Palestra garimpando com pentaho data mining latinoware
Palestra garimpando com pentaho data mining latinowarePalestra garimpando com pentaho data mining latinoware
Palestra garimpando com pentaho data mining latinoware
 
Big data - Uma visão geral da coisa...
Big data - Uma visão geral da coisa...Big data - Uma visão geral da coisa...
Big data - Uma visão geral da coisa...
 
Uma breve introdução ao Big Data e Inteligência Artificial.pptx
Uma breve introdução ao Big Data e Inteligência Artificial.pptxUma breve introdução ao Big Data e Inteligência Artificial.pptx
Uma breve introdução ao Big Data e Inteligência Artificial.pptx
 
TDC 2014 - Hadoop Hands ON
TDC 2014 - Hadoop Hands ONTDC 2014 - Hadoop Hands ON
TDC 2014 - Hadoop Hands ON
 
Big Ideas, small Data
Big Ideas, small DataBig Ideas, small Data
Big Ideas, small Data
 
Palestra Ciência de Dados
Palestra Ciência de DadosPalestra Ciência de Dados
Palestra Ciência de Dados
 
TDC 2017 - Borg até o Prometheus: Site Reliability Engineering
TDC 2017 - Borg até o Prometheus: Site Reliability EngineeringTDC 2017 - Borg até o Prometheus: Site Reliability Engineering
TDC 2017 - Borg até o Prometheus: Site Reliability Engineering
 

Transformando a Web com análise de dados

  • 1. Transformando a Web com dados Apoio:
  • 2. •  Pesquisa Cientifica (LHC, Genética, Meteorologia) •  Mercado Financeiro •  Cultura (Literatura,Jornais, Netflix) •  Processos industrias •  … e a internet! Alguns números: -  LHC gera 70 TB/dia de dados -  NYSE gera 1 TB/dia de trading data -  Facebook: 1.5 bilhão de likes em marcas por mês -  Apontador: 50 milhões de pageviews por mês -  Maplink: 1.8 bilhões de coordenadas processadas por mês 2 de 21 Dados e dados…Por toda parte! Fontes: - http://en.wikipedia.org/wiki/Large_Hadron_Collider - http://marciaconner.com/blog/data-on-big-data/
  • 3. 3 de 21 Hum? •  O usuário realiza ações em um site. •  Ações podem indicar preferências •  Entender ações dos usuários aumenta o grau de informação sobre ele. •  Customização e experiência do usuário.
  • 5. •  Volume de dados gigante •  Dados indicam informações sobre os usuários •  Faz tempo que existe uma avanlanche de dados, que eram em geral sumarizados. •  Hoje existem ferramentas que permitem armazenar e processar esses dados em sua forma bruta. 5 de 21 BIG Data
  • 6. •  Toda informação do usuário é logada •  Se um dado gera informações que mudam ao longo do tempo, o log é versionado por usuário 6 de 21 Metodologia Big Data Buscas, clicks, mouse hoover, movimentos no mapa
  • 8. •  Não é necessário um volume absurdo de dados •  Operações complexas podem necessitar um grande parque computacional mesmo para uma pequena quantidade de dados •  Sistemas com pequena quantidade de dados podem se benificiar da Metodologia big data 8 de 21 Small-Big-Medium Data
  • 9. •  HPC (clusters, GPU, etc) •  Map Reduce (Hadoop, Disco, etc) 9 de 21 Como fazer Big Data? Processamento: Armazenamento: •  Banco de dados escaláveis (noSQL): MongoDB, Cassandra, Dynamo..
  • 10. “Estou na Campus Party” “Campus Party esse mês” “O campus da USP é no Butanta” Estou 1 na 1 Campus 1 Party 1 Campus 2 Party 2 esse 2 mês 2 O 3 campus 3 da 3 USP 3 é 3 no 3 Butanta 3 Estou 1 na 1 Campus 1,2,3 Party 1,2 esse 2 Mes 2 o 3 da 3 USP 3 e 3 no 3 butanta 3 10 de 21 Exemplo Map Reduce
  • 12. •  Facilmente escalável (embarrassingly parallel) a milhares de TB. •  Baixo custo de escalabilidade: clusters com milhares de nós, commodity servers •  Facil correção de problemas on the fly. 12 de 21 Vantagens do Map Reduce
  • 13. •  Programação de baixo nível de abstração. •  Nem todo algorítmo pode ser escrito como uma única tarefa de MapReduce. •  Representação de algorítimos matemáticos complexos depende de diversas tarefas de Map e Reduce. 13 de 21 Desvantagens do Map Reduce
  • 14. •  Projeto Apache •  Framework de MapReduce •  Sistema de arquivos distribuido entre todas as máquinas do cluster (HDFS) •  Hbase, Hive, PIG, Mahout •  Yelp, Yahoo, Facebook, Amazon, Netflix, Apontador & Maplink 14 de 21 E o Hadoop? O que é?
  • 15. •  Apenas os dados não trazem soluções dos problemas. •  Modelos estatísticos trazem intuição teórica sobre o que estamos estudando. •  Dados processados com suposições teóricas equivocadas podem levar a conclusões erradas. 15 de 21 Só Hadoop resolve meu problema?
  • 16. Vamos construir um e-commerce com um sistema de recomendação e descontos personalizados: 16 de 21 Como assim modelo?
  • 17. “Que item devo recomendar ao meu usuário? Devo dar um desconto? Que valor de desconto eu posso dar?” •  O que conheço do usuário? Compras efetuadas no passado Dados de Navegação (user agent, produtos visualizados no passado, ...) Descontos efetuados no passado Dados pessoais (idade, sexo, ...) Que produto o usuário está visualizando agora •  O que eu quer saber? Que produto recomendar? Que desconto oferecer? 17 de 21 Sr David steps, dono da loja virtual VelhoGeek:
  • 18. Pid    descrição   categoria   preço   1   Notebook  Pear   Informa(ca    R$3000.00     2   Notebook  HAL   Informa(ca    R$2000.00     3   Celular  Pear  youPhone   Telefonia    R$1800.00     4   Celular  Blue  Robot   Telefonia    R$1600.00     5   Celular  youClone  com  8  chips   Telefonia    R$800.00     6   Celular  EscritórioFone  for  Businessmen   Telefonia    R$1000.00     7   Tênis  Mike   Roupas  e  Acessórios    R$300.00     8   Tênis  Rei   Roupas  e  Acessórios    R$150.00     9   Fone  de  Ouvido  youPhone  original   Acessórios  de  Informá(ca    R$90.00     10   Mouse  CheapJunk  Systems   Acessórios  de  Informá(ca    R$5.00     11   Mouse  MacroHard  sem  fio   Acessórios  de  Informá(ca    R$90.00     12   CD:  Boy  Band  do  Ano  "Live  AcusXco"   Música    R$25.00     13   CD:  Cool  Jazz  CollecXon     Música    R$25.00     14   Fraldas  Pimpolho  -­‐  200  unidades   Bebê    R$50.00     15   Carrinho  de  Bebê     Bebê    R$150.00     16   Cerveja  -­‐  6  pack   Alimentos    R$12.00     21   Vinho  -­‐  "Chateau  PeXt  Verdot"  bordeaux  grand  cru  classé   Alimentos    R$120.00     18   Jogo  de  Videogame  -­‐  God  of  Ba`le   Jogos    R$50.00     19   Livro:  "Receitas  para  Solteiros"   Livros    R$25.00     20   Livro:  "God  of  Ba`le  -­‐  Estratégias  para  Ganhar"   Livros    R$25.00     21   Livro:  "Como  Não  Matar  o  Seu  Bebê:  a  Arte  da  Guerra  para  Pais  Solteiros"   Livros    R$25.00     22   Livro:  "Espeleologia  Comparada:  Introdução  ao  Cálculo  Setorial  MulXplexado"   Livros    R$55.00     18 de 21
  • 19. •  O que conheço do usuário? Compras efetuadas no passado Dados de Navegação (user agent, produtos visualizados no passado, ...) Descontos efetuados no passado Dados pessoais (idade, sexo, ...) Que produto o usuário está visualizando agora •  O que eu quer saber? Que produto recomendar? Que desconto oferecer? 19 de 21 COMO descobrir isso?
  • 21. 21 de 21 Teorema de Bayes: Qual conjunto de produto recomendado e desconto oferecido maximizam o ganho esperado da venda? É possível estimar as probabilidades a partir dos dados de transações passadas se fizermos algumas hipóteses estatísticas. Exemplo - hipótese de naïve Bayes - features afetam independentemente a probabilidade da compra ser realizada. O MODELO estatístico Prob(Usuario comprar|caracteristicas do usuario) Prob(caracteristicas do usuario|Usuario comprar)Prob(realizar una compra) Prob(caracter´ıstica do usuario)
  • 22. 21 de 21 Teorema de Bayes: brigado! É possível estimar as probabilidades a partir dos dados de transações passadas se fizermos algumas hipóteses estatísticas. Exemplo - hipótese de naïve Bayes - features afetam independentemente a probabilidade da compra ser realizada. O MODELO statístico Prob(Usuario comprar|caracteristicas do usuario) Prob(caracteristicas do usuario|Usuario comprar)Prob(realizar una compra) Prob(caracter´ıstica do usuario) Caio C. Gomes Diretor de Pesquisa e Data Mining caio.gomes@apontador.com Rafael S. Calsaverini Data Scientist rafael.calsaverini@apontador.com

Notas do Editor

  1. FERRAMENTA!!!!
  2. FERRAMENTA!!!!