Data Science
e Físicos
Apoio:
•  Pesquisa Cientifica
•  Mercado Financeiro
•  Programação
•  Industria
•  Farmácia
físicos… por toda parte!
•  Pesquisa Cientifica
•  Mercado Financeiro
•  Internet
físicos… por toda parte!
•  Pesquisa Cientifica (LHC, Genética, Meteorologia)
•  Mercado Financeiro
•  Cultura (Literatura,Jornais, Netflix)
•  Processos industriais
•  … e a internet!
Alguns números:
-  LHC: 70 TB/dia de dados
-  NYSE: 1 TB/dia de trading data
-  Facebook: 1.5 bilhão de likes em marcas por mês
-  Apontador: 50 milhões de pageviews por mês
-  Maplink: 1.8 bilhões de coordenadas processadas por mês
dados e dados… por toda parte!
Fontes:
- http://en.wikipedia.org/wiki/Large_Hadron_Collider
- http://marciaconner.com/blog/data-on-big-data/
hum?
•  O usuário realiza ações em um site.
•  Ações podem indicar preferências
•  Entender ações dos usuários aumenta o grau de informação sobre
ele.
•  Customização e experiência do usuário.
•  HPC (clusters, GPU, etc)
• Problemas: custos inicial, desenvolvimento exclusivo, manutenção
em longo prazo, extensibilidade
como processar terabytes?
•  Baixa do preço do Teraflop
• Criação do MapReduce
o que é Big Data?
Processamento:
Armazenamento:
•  Baixa do preço do MB
• Invenção do NoSQL
•  Volume de dados gigante
•  Dados indicam informações sobre os usuários
•  Faz tempo que existe uma avalanche de dados, que eram em geral
sumarizados.
•  Hoje existem ferramentas que permitem armazenar e processar
esses dados em sua forma bruta.
BIG Data
•  Dados são armazenados de maneira estruturada
•  Uma pequena parcela dos dados são armazenados
o que foi feito até hoje
•  Toda informação do usuário é logada
•  Se um dado gera informações que mudam ao longo do tempo, o log
é versionado por usuário
metodologia big data
Buscas, clicks, mouse hoover, movimentos no mapa
Fonte: Maplink -
•  Não é necessário um volume absurdo de dados
•  Operações complexas podem necessitar um grande parque
computacional mesmo para uma pequena quantidade de dados
•  Sistemas com pequena quantidade de dados podem se benificiar da
Metodologia big data
Small-Big-Medium Data
“Estou na Campus Party”
“Campus Party esse mês”
“O campus da USP é no Butanta”
Estou 1
na 1
Campus 1
Party 1
Campus 2
Party 2
esse 2
mês 2
O 3
campus 3
da 3
USP 3
é 3
no 3
Butanta 3
Estou 1
na 1
Campus 1,2,3
Party 1,2
esse 2
Mes 2
o 3
da 3
USP 3
e 3
no 3
butanta 3
10 de 21
Exemplo Map Reduce
Dados
Saída
Master Node
Worker
Worker
Worker
11 de 21
•  Facilmente escalável (embarrassingly parallel) a milhares de TB.
•  Baixo custo de escalabilidade: clusters com milhares de nós,
commodity servers
•  Facil correção de problemas on the fly.
12 de 21
Vantagens do Map Reduce
•  Programação de baixo nível de abstração.
•  Nem todo algorítmo pode ser escrito como uma única tarefa de
MapReduce.
•  Representação de algorítimos matemáticos complexos depende de
diversas tarefas de Map e Reduce.
13 de 21
Desvantagens do Map Reduce
enfim a data science. estatística?
Não sabemos toda a informação sobre o usuário
No total das opções, um usuário preencheu uma pequena parte
Mesmo para pessoas bem conhecidas, as decisões não são
determinísticas
Cassino: Qual a probabilidade de uma moeda ser coroa?
a estatística bayesiana
Metereologia: Qual a probabilidade de chover hoje?
Freqüencia
XEvidência
A estatística BAYESIANA
`
Filho, Filho Filho, Filha
Filha, Filho Filha, Filha
porque ela é importante
•  Data Scientist pode trazer conhecimento externo
•  eg: características dos usuários
•  eg: Crianças e bebidas alcoólicas
•  Introduzir daos do BI
•  eg: homens e produtos para gravidez
•  eg: acordos comerciais
•  Furacão Francis
Classificar quais itens serão mais vendidos e determinar a quantidade que
devo estocar
•  O que eu quero saber?
Compras relizadas em ultimos furacões
Época do ano e o que foi vendido
Quanto eles gastam?
Dos meus clientes, quais ficarão? (classificação)
furacão francis
•  Operadora de cartão
Minimizar probabilidade de default dos clientes
Ou ainda: quanto risco quero correr com a carteira de clientes
•  O que posso usar?
Histórico de pagamentos
O que usuários parecidos com esse fizeram (clustering)
precificação do cartão de crédito
•  Medidas de trânsito
Veiculos enviam informação a cada instante.
•  O que eu quer saber?
Estado da via (classificação)
Tipo de veículos (clustering)
Como eles dirigem? (clustering)
Velocidade da via (regressão)
19 de 21
estimativa de trânsito
SOBRE O ROTEIRIZADOR
o que recebemos
<Route><Category>1</Category><DateTime>0001-01-01T00:00:00</
DateTime><Destination xmlns:a="http://schemas.datacontract.org/
2004/07/SwissKnife.Spatial"><a:Lat>-8.150483</
a:Lat><a:Lng>-35.420284</a:Lng></Destination><Origin
xmlns:a="http://schemas.datacontract.org/2004/07/
SwissKnife.Spatial"><a:Lat>-8.149973</a:Lat><a:Lng>-35.41825</
a:Lng></Origin>
SOBRE O ROTEIRIZADOR
o padrão da marginal pinheiros
“Que item devo recomendar ao meu usuário?
Devo dar um desconto? Que valor de desconto eu
posso dar?”
•  O que conheço do usuário?
Compras efetuadas no passado
Dados de Navegação (user agent, produtos visualizados no passado, ...)
Descontos efetuados no passado
Dados pessoais (idade, sexo, ...)
Que produto o usuário está visualizando agora
•  O que quero saber?
Que produto recomendar?
Que desconto oferecer?
sr david steps, dono da loja virtual velhogeek:
Pid	
  	
  descrição	
   categoria	
   preço	
  
1	
   Notebook	
  Pear	
   Informa(ca	
   	
  R$3000.00	
  	
  
2	
   Notebook	
  HAL	
   Informa(ca	
   	
  R$2000.00	
  	
  
3	
   Celular	
  Pear	
  youPhone	
   Telefonia	
   	
  R$1800.00	
  	
  
4	
   Celular	
  Blue	
  Robot	
   Telefonia	
   	
  R$1600.00	
  	
  
5	
   Celular	
  youClone	
  com	
  8	
  chips	
   Telefonia	
   	
  R$800.00	
  	
  
6	
   Celular	
  EscritórioFone	
  for	
  Businessmen	
   Telefonia	
   	
  R$1000.00	
  	
  
7	
   Tênis	
  Mike	
   Roupas	
  e	
  Acessórios	
   	
  R$300.00	
  	
  
8	
   Tênis	
  Rei	
   Roupas	
  e	
  Acessórios	
   	
  R$150.00	
  	
  
9	
   Fone	
  de	
  Ouvido	
  youPhone	
  original	
   Acessórios	
  de	
  Informá(ca	
   	
  R$90.00	
  	
  
10	
   Mouse	
  CheapJunk	
  Systems	
   Acessórios	
  de	
  Informá(ca	
   	
  R$5.00	
  	
  
11	
   Mouse	
  MacroHard	
  sem	
  fio	
   Acessórios	
  de	
  Informá(ca	
   	
  R$90.00	
  	
  
12	
   CD:	
  Boy	
  Band	
  do	
  Ano	
  "Live	
  AcusXco"	
   Música	
   	
  R$25.00	
  	
  
13	
   CD:	
  Cool	
  Jazz	
  CollecXon	
  	
   Música	
   	
  R$25.00	
  	
  
14	
   Fraldas	
  Pimpolho	
  -­‐	
  200	
  unidades	
   Bebê	
   	
  R$50.00	
  	
  
15	
   Carrinho	
  de	
  Bebê	
  	
   Bebê	
   	
  R$150.00	
  	
  
16	
   Cerveja	
  -­‐	
  6	
  pack	
   Alimentos	
   	
  R$12.00	
  	
  
21	
   Vinho	
  -­‐	
  "Chateau	
  PeXt	
  Verdot"	
  bordeaux	
  grand	
  cru	
  classé	
   Alimentos	
   	
  R$120.00	
  	
  
18	
   Jogo	
  de	
  Videogame	
  -­‐	
  God	
  of	
  Ba`le	
   Jogos	
   	
  R$50.00	
  	
  
19	
   Livro:	
  "Receitas	
  para	
  Solteiros"	
   Livros	
   	
  R$25.00	
  	
  
20	
   Livro:	
  "God	
  of	
  Ba`le	
  -­‐	
  Estratégias	
  para	
  Ganhar"	
   Livros	
   	
  R$25.00	
  	
  
21	
   Livro:	
  "Como	
  Não	
  Matar	
  o	
  Seu	
  Bebê:	
  a	
  Arte	
  da	
  Guerra	
  para	
  Pais	
  Solteiros"	
   Livros	
   	
  R$25.00	
  	
  
22	
   Livro:	
  "Espeleologia	
  Comparada:	
  Introdução	
  ao	
  Cálculo	
  Setorial	
  MulXplexado"	
   Livros	
   	
  R$55.00	
  	
  
live demo!
Nosso objetivo: aumentar vendas
um simples exemplo de recomendação
como descobrir isso?
•  O que conheço do usuário?
Compras efetuadas no passado
Dados de Navegação (user agent, produtos visualizados no passado, ...)
Descontos efetuados no passado
Dados pessoais (idade, sexo, ...)
Que produto o usuário está visualizando agora
•  O que eu quer saber?
Que produto recomendar?
Que desconto oferecer?
um simples exemplo de recomendação
Idéia: promoção direcionada ao usuário
p(i)Prob(comprari|comprari, caracJ ) + p(k)Prob(comprark|comprari, caracJ )
p(i) + p(k)Prob(comprark|comprari, caracJ )
Prob(comprark|comprari, caracJ ) =
Prob(comprari, caracJ |comprark)
Prob(comprari, caracJ )
Prob(comprark)
Prob(comprari, caracJ |comprark)
Prob(comprari, caracJ )
=
Prob(comprari|comprark)Prob(caracJ |comprark)
Prob(comprari)Prob(caracJ )
Oferecer um segundo produto que maximize a esperança!
um simples exemplo de recomendação
Idéia: promoção direcionada ao usuário
Prob(comprark|comprari, caracJ ) =
Prob(caracJ |comprark)
Prob(caracJ )
Prob(comprark)
p(i) + p(k)
Prob(caracJ |comprark)
Prob(caracJ )
Prob(comprark)
um simples exemplo de recomendação
Idéia: promoção direcionada ao usuário
Caracteristicas: sexo, idade, classe de renda, educacao
p(i) + p(k)
Prob(caracJ |comprark)
Prob(caracJ )
Prob(comprark)
Prob(sexo|comprark)Prob(renda|comprark)Prob(edu|comprark)
Prob(idade, sexo, renca, edu|comprark) = Prob(idade|comprark)
21 de 21
Teorema de Bayes:
brigado!
É possível estimar as probabilidades a partir dos dados de transações
passadas se fizermos algumas hipóteses estatísticas.
Exemplo - hipótese de naïve Bayes - features afetam independentemente a
probabilidade da compra ser realizada.
O MODELO statístico
Prob(Usuario comprar|caracteristicas do usuario)
Prob(caracteristicas do usuario|Usuario comprar)Prob(realizar una compra)
Prob(caracter´ıstica do usuario)
Caio C. Gomes
Diretor Big Data e Inovação
caio.gomes@apontador.com

Data science e os físicos

  • 1.
  • 2.
    •  Pesquisa Cientifica • Mercado Financeiro •  Programação •  Industria •  Farmácia físicos… por toda parte!
  • 3.
    •  Pesquisa Cientifica • Mercado Financeiro •  Internet físicos… por toda parte!
  • 7.
    •  Pesquisa Cientifica(LHC, Genética, Meteorologia) •  Mercado Financeiro •  Cultura (Literatura,Jornais, Netflix) •  Processos industriais •  … e a internet! Alguns números: -  LHC: 70 TB/dia de dados -  NYSE: 1 TB/dia de trading data -  Facebook: 1.5 bilhão de likes em marcas por mês -  Apontador: 50 milhões de pageviews por mês -  Maplink: 1.8 bilhões de coordenadas processadas por mês dados e dados… por toda parte! Fontes: - http://en.wikipedia.org/wiki/Large_Hadron_Collider - http://marciaconner.com/blog/data-on-big-data/
  • 10.
    hum? •  O usuáriorealiza ações em um site. •  Ações podem indicar preferências •  Entender ações dos usuários aumenta o grau de informação sobre ele. •  Customização e experiência do usuário.
  • 12.
    •  HPC (clusters,GPU, etc) • Problemas: custos inicial, desenvolvimento exclusivo, manutenção em longo prazo, extensibilidade como processar terabytes?
  • 13.
    •  Baixa dopreço do Teraflop • Criação do MapReduce o que é Big Data? Processamento: Armazenamento: •  Baixa do preço do MB • Invenção do NoSQL
  • 14.
    •  Volume dedados gigante •  Dados indicam informações sobre os usuários •  Faz tempo que existe uma avalanche de dados, que eram em geral sumarizados. •  Hoje existem ferramentas que permitem armazenar e processar esses dados em sua forma bruta. BIG Data
  • 15.
    •  Dados sãoarmazenados de maneira estruturada •  Uma pequena parcela dos dados são armazenados o que foi feito até hoje
  • 16.
    •  Toda informaçãodo usuário é logada •  Se um dado gera informações que mudam ao longo do tempo, o log é versionado por usuário metodologia big data Buscas, clicks, mouse hoover, movimentos no mapa
  • 17.
  • 18.
    •  Não énecessário um volume absurdo de dados •  Operações complexas podem necessitar um grande parque computacional mesmo para uma pequena quantidade de dados •  Sistemas com pequena quantidade de dados podem se benificiar da Metodologia big data Small-Big-Medium Data
  • 19.
    “Estou na CampusParty” “Campus Party esse mês” “O campus da USP é no Butanta” Estou 1 na 1 Campus 1 Party 1 Campus 2 Party 2 esse 2 mês 2 O 3 campus 3 da 3 USP 3 é 3 no 3 Butanta 3 Estou 1 na 1 Campus 1,2,3 Party 1,2 esse 2 Mes 2 o 3 da 3 USP 3 e 3 no 3 butanta 3 10 de 21 Exemplo Map Reduce
  • 20.
  • 21.
    •  Facilmente escalável(embarrassingly parallel) a milhares de TB. •  Baixo custo de escalabilidade: clusters com milhares de nós, commodity servers •  Facil correção de problemas on the fly. 12 de 21 Vantagens do Map Reduce
  • 22.
    •  Programação debaixo nível de abstração. •  Nem todo algorítmo pode ser escrito como uma única tarefa de MapReduce. •  Representação de algorítimos matemáticos complexos depende de diversas tarefas de Map e Reduce. 13 de 21 Desvantagens do Map Reduce
  • 23.
    enfim a datascience. estatística? Não sabemos toda a informação sobre o usuário No total das opções, um usuário preencheu uma pequena parte Mesmo para pessoas bem conhecidas, as decisões não são determinísticas
  • 24.
    Cassino: Qual aprobabilidade de uma moeda ser coroa? a estatística bayesiana Metereologia: Qual a probabilidade de chover hoje? Freqüencia XEvidência
  • 25.
    A estatística BAYESIANA ` Filho,Filho Filho, Filha Filha, Filho Filha, Filha
  • 26.
    porque ela éimportante •  Data Scientist pode trazer conhecimento externo •  eg: características dos usuários •  eg: Crianças e bebidas alcoólicas •  Introduzir daos do BI •  eg: homens e produtos para gravidez •  eg: acordos comerciais
  • 27.
    •  Furacão Francis Classificarquais itens serão mais vendidos e determinar a quantidade que devo estocar •  O que eu quero saber? Compras relizadas em ultimos furacões Época do ano e o que foi vendido Quanto eles gastam? Dos meus clientes, quais ficarão? (classificação) furacão francis
  • 28.
    •  Operadora decartão Minimizar probabilidade de default dos clientes Ou ainda: quanto risco quero correr com a carteira de clientes •  O que posso usar? Histórico de pagamentos O que usuários parecidos com esse fizeram (clustering) precificação do cartão de crédito
  • 29.
    •  Medidas detrânsito Veiculos enviam informação a cada instante. •  O que eu quer saber? Estado da via (classificação) Tipo de veículos (clustering) Como eles dirigem? (clustering) Velocidade da via (regressão) 19 de 21 estimativa de trânsito
  • 31.
    SOBRE O ROTEIRIZADOR oque recebemos <Route><Category>1</Category><DateTime>0001-01-01T00:00:00</ DateTime><Destination xmlns:a="http://schemas.datacontract.org/ 2004/07/SwissKnife.Spatial"><a:Lat>-8.150483</ a:Lat><a:Lng>-35.420284</a:Lng></Destination><Origin xmlns:a="http://schemas.datacontract.org/2004/07/ SwissKnife.Spatial"><a:Lat>-8.149973</a:Lat><a:Lng>-35.41825</ a:Lng></Origin>
  • 32.
    SOBRE O ROTEIRIZADOR opadrão da marginal pinheiros
  • 33.
    “Que item devorecomendar ao meu usuário? Devo dar um desconto? Que valor de desconto eu posso dar?” •  O que conheço do usuário? Compras efetuadas no passado Dados de Navegação (user agent, produtos visualizados no passado, ...) Descontos efetuados no passado Dados pessoais (idade, sexo, ...) Que produto o usuário está visualizando agora •  O que quero saber? Que produto recomendar? Que desconto oferecer? sr david steps, dono da loja virtual velhogeek:
  • 34.
    Pid    descrição   categoria   preço   1   Notebook  Pear   Informa(ca    R$3000.00     2   Notebook  HAL   Informa(ca    R$2000.00     3   Celular  Pear  youPhone   Telefonia    R$1800.00     4   Celular  Blue  Robot   Telefonia    R$1600.00     5   Celular  youClone  com  8  chips   Telefonia    R$800.00     6   Celular  EscritórioFone  for  Businessmen   Telefonia    R$1000.00     7   Tênis  Mike   Roupas  e  Acessórios    R$300.00     8   Tênis  Rei   Roupas  e  Acessórios    R$150.00     9   Fone  de  Ouvido  youPhone  original   Acessórios  de  Informá(ca    R$90.00     10   Mouse  CheapJunk  Systems   Acessórios  de  Informá(ca    R$5.00     11   Mouse  MacroHard  sem  fio   Acessórios  de  Informá(ca    R$90.00     12   CD:  Boy  Band  do  Ano  "Live  AcusXco"   Música    R$25.00     13   CD:  Cool  Jazz  CollecXon     Música    R$25.00     14   Fraldas  Pimpolho  -­‐  200  unidades   Bebê    R$50.00     15   Carrinho  de  Bebê     Bebê    R$150.00     16   Cerveja  -­‐  6  pack   Alimentos    R$12.00     21   Vinho  -­‐  "Chateau  PeXt  Verdot"  bordeaux  grand  cru  classé   Alimentos    R$120.00     18   Jogo  de  Videogame  -­‐  God  of  Ba`le   Jogos    R$50.00     19   Livro:  "Receitas  para  Solteiros"   Livros    R$25.00     20   Livro:  "God  of  Ba`le  -­‐  Estratégias  para  Ganhar"   Livros    R$25.00     21   Livro:  "Como  Não  Matar  o  Seu  Bebê:  a  Arte  da  Guerra  para  Pais  Solteiros"   Livros    R$25.00     22   Livro:  "Espeleologia  Comparada:  Introdução  ao  Cálculo  Setorial  MulXplexado"   Livros    R$55.00    
  • 35.
  • 36.
    Nosso objetivo: aumentarvendas um simples exemplo de recomendação como descobrir isso? •  O que conheço do usuário? Compras efetuadas no passado Dados de Navegação (user agent, produtos visualizados no passado, ...) Descontos efetuados no passado Dados pessoais (idade, sexo, ...) Que produto o usuário está visualizando agora •  O que eu quer saber? Que produto recomendar? Que desconto oferecer?
  • 37.
    um simples exemplode recomendação Idéia: promoção direcionada ao usuário p(i)Prob(comprari|comprari, caracJ ) + p(k)Prob(comprark|comprari, caracJ ) p(i) + p(k)Prob(comprark|comprari, caracJ ) Prob(comprark|comprari, caracJ ) = Prob(comprari, caracJ |comprark) Prob(comprari, caracJ ) Prob(comprark) Prob(comprari, caracJ |comprark) Prob(comprari, caracJ ) = Prob(comprari|comprark)Prob(caracJ |comprark) Prob(comprari)Prob(caracJ ) Oferecer um segundo produto que maximize a esperança!
  • 38.
    um simples exemplode recomendação Idéia: promoção direcionada ao usuário Prob(comprark|comprari, caracJ ) = Prob(caracJ |comprark) Prob(caracJ ) Prob(comprark) p(i) + p(k) Prob(caracJ |comprark) Prob(caracJ ) Prob(comprark)
  • 39.
    um simples exemplode recomendação Idéia: promoção direcionada ao usuário Caracteristicas: sexo, idade, classe de renda, educacao p(i) + p(k) Prob(caracJ |comprark) Prob(caracJ ) Prob(comprark) Prob(sexo|comprark)Prob(renda|comprark)Prob(edu|comprark) Prob(idade, sexo, renca, edu|comprark) = Prob(idade|comprark)
  • 40.
    21 de 21 Teoremade Bayes: brigado! É possível estimar as probabilidades a partir dos dados de transações passadas se fizermos algumas hipóteses estatísticas. Exemplo - hipótese de naïve Bayes - features afetam independentemente a probabilidade da compra ser realizada. O MODELO statístico Prob(Usuario comprar|caracteristicas do usuario) Prob(caracteristicas do usuario|Usuario comprar)Prob(realizar una compra) Prob(caracter´ıstica do usuario) Caio C. Gomes Diretor Big Data e Inovação caio.gomes@apontador.com