O Futuro
do Big Data
age of data
•
•
•
•
•

O Futuro
do Big Data

Pesquisa Cientifica (LHC, Genética, Meteorologia)
Mercado Financeiro
Cultura (Literatura,Jornais, Netflix)
Processos industriais
… e a internet!

!

Alguns números:
LHC: 70 TB/dia de dados
NYSE: 1 TB/dia de trading data
Facebook: 1.5 bilhão de likes em marcas por mês
Apontador: 50 milhões de pageviews por mês
Maplink: 1.8 bilhões de coordenadas processadas por mês

:

BIG Data
•  Volume de dados gigante
•  Grande parque computacional
•  Marketing
•  Internet
mas porque agora?
Processamento:
•  Baixa do preço do Teraflop
•  Criação do MapReduce

Armazenamento:
•  Baixa do preço do MB
•  Invenção do NoSQL
Onde foi usado até agora?
Publicidade:
•  Google AdSense
•  Criteo (remarketing)

Vendas online:
•  recomendação (Amazon)

Redes Sociaos
•  Recomendação de amigos, posts, likes, jogos.
furacão francis
•  Furacão Francis
Classificar quais itens serão mais vendidos e determinar a quantidade que
devo estocar

•  O que eu quero saber?
Compras relizadas em ultimos furacões
Época do ano e o que foi vendido
Quanto eles gastam?
Dos meus clientes, quais ficarão? (classificação)
precificação do cartão de crédito
•  Operadora de cartão
Minimizar probabilidade de default dos clientes
Ou ainda: quanto risco quero correr com a carteira de clientes

•  O que posso usar?
Histórico de pagamentos
O que usuários parecidos com esse fizeram (clustering)
seguro de colheitas
•  Seguradora
Qual vai ser a qualidade da colheita? Quantas toneladas serão coletadas?
Lugar, Clima, Preço

•  O que posso usar?
Histórico do clima no mundo
Histórico de colheitas
Informações de solo, localização
Vantagens do Map Reduce

•  Facilmente escalável (embarrassingly parallel) a milhares de TB.
•  Baixo custo de escalabilidade: clusters com milhares de nós,
commodity servers
•  Facil correção de problemas on the fly.

12 de 21
Desvantagens do Map Reduce

•  Programação de baixo nível de abstração.
•  Nem todo algorítmo pode ser escrito como uma única tarefa de
MapReduce.
•  Representação de algorítimos matemáticos complexos depende de
diversas tarefas de Map e Reduce.
• Solução em Batch

13 de 21
estimativa de trânsito
•  Medidas de trânsito
Veiculos enviam informação a cada instante.

•  O que eu quer saber?
Estado da via (classificação)
Tipo de veículos (clustering)
Como eles dirigem? (clustering)
Velocidade da via (regressão)

19 de 21
o padrão de transito - marginal pinheiros
SOBRE O ROTEIRIZADOR

o padrão da marginal pinheiros
SOBRE O ROTEIRIZADOR

o que recebemos

<Route><Category>1</Category><DateTime>2013-02-01T15:32:27</
DateTime><Position xmlns:a="http://schemas.datacontract.org/
2004/07/Spatial"><a:Lat>-8.150483</a:Lat><a:Lng>-35.420284</
a:Lng></Position></Route>
BRASIL

snapshot veículos rastreados, 14 nov 2012, 15:00
ESTIMAÇÃO ONLINE DE VELOCIDADES
Centro	
  de	
  cálculo	
  MapLink	
  na	
  nuvem	
  
posições	
  
mapas	
  
balanceador	
  
de	
  cargas	
  

rotas	
  

posições	
  
Disposi&vos	
  	
  
móveis	
  

índices	
  
cálculo	
  
de	
  rotas	
  
es&mação	
  
de	
  velocidades	
  
velocidade	
  
tempo	
  
servidores	
  
de	
  trânsito	
  
veículos	
  
SOBRE O ROTEIRIZADOR

transformando posições em velocidades
SOBRE O ROTEIRIZADOR

segmentando os dados
Carros, motos, caminhões

Como diferenciar?
SOBRE O ROTEIRIZADOR

diferentes usos entre categorias
Velocidade moto => velocidade carro
SOBRE O ROTEIRIZADOR

e a velocidade da via?
SOBRE O ROTEIRIZADOR

o que recebemos

- Cada update é independente e já traz novas informações
-  Previsões dependem da situação global
-  Resultado dos modelos
-  Altamente interligado
SOBRE O ROTEIRIZADOR
o futuro
•  Adoção em novos setores
Industria, Agronomia, Medicina

•  Inclusão de fatores de tempo real
Trânsito, Energia

•  Tecnologia
Hadoop? Hadoop2 + Yarn? Spark?
RealTime? Storm? Kinesis?

19 de 21
O MODELO statístico
brigado!

P rob(Usuario comprar|caracteristicas do usuario)
Teorema de Bayes:

P rob(caracteristicas do usuario|Usuario comprar)P rob(realizar una compra)
P rob(caracter´
ıstica do usuario)
É possível estimar as probabilidades a partir dos dados de transações
passadas se fizermos algumasGomes
Caio C. hipóteses estatísticas.
Diretor Big Data e Inovação
caio.gomes@apontador.com
Exemplo - hipótese de naïve Bayes - features afetam independentemente a
probabilidade da compra ser realizada.

21 de 21

O futuro do big data

  • 1.
  • 3.
    age of data • • • • • OFuturo do Big Data Pesquisa Cientifica (LHC, Genética, Meteorologia) Mercado Financeiro Cultura (Literatura,Jornais, Netflix) Processos industriais … e a internet! ! Alguns números: LHC: 70 TB/dia de dados NYSE: 1 TB/dia de trading data Facebook: 1.5 bilhão de likes em marcas por mês Apontador: 50 milhões de pageviews por mês Maplink: 1.8 bilhões de coordenadas processadas por mês :

  • 4.
    BIG Data •  Volumede dados gigante •  Grande parque computacional •  Marketing •  Internet
  • 8.
    mas porque agora? Processamento: • Baixa do preço do Teraflop •  Criação do MapReduce Armazenamento: •  Baixa do preço do MB •  Invenção do NoSQL
  • 9.
    Onde foi usadoaté agora? Publicidade: •  Google AdSense •  Criteo (remarketing) Vendas online: •  recomendação (Amazon) Redes Sociaos •  Recomendação de amigos, posts, likes, jogos.
  • 10.
    furacão francis •  FuracãoFrancis Classificar quais itens serão mais vendidos e determinar a quantidade que devo estocar •  O que eu quero saber? Compras relizadas em ultimos furacões Época do ano e o que foi vendido Quanto eles gastam? Dos meus clientes, quais ficarão? (classificação)
  • 11.
    precificação do cartãode crédito •  Operadora de cartão Minimizar probabilidade de default dos clientes Ou ainda: quanto risco quero correr com a carteira de clientes •  O que posso usar? Histórico de pagamentos O que usuários parecidos com esse fizeram (clustering)
  • 12.
    seguro de colheitas • Seguradora Qual vai ser a qualidade da colheita? Quantas toneladas serão coletadas? Lugar, Clima, Preço •  O que posso usar? Histórico do clima no mundo Histórico de colheitas Informações de solo, localização
  • 13.
    Vantagens do MapReduce •  Facilmente escalável (embarrassingly parallel) a milhares de TB. •  Baixo custo de escalabilidade: clusters com milhares de nós, commodity servers •  Facil correção de problemas on the fly. 12 de 21
  • 14.
    Desvantagens do MapReduce •  Programação de baixo nível de abstração. •  Nem todo algorítmo pode ser escrito como uma única tarefa de MapReduce. •  Representação de algorítimos matemáticos complexos depende de diversas tarefas de Map e Reduce. • Solução em Batch 13 de 21
  • 15.
    estimativa de trânsito • Medidas de trânsito Veiculos enviam informação a cada instante. •  O que eu quer saber? Estado da via (classificação) Tipo de veículos (clustering) Como eles dirigem? (clustering) Velocidade da via (regressão) 19 de 21
  • 16.
    o padrão detransito - marginal pinheiros
  • 17.
    SOBRE O ROTEIRIZADOR opadrão da marginal pinheiros
  • 18.
    SOBRE O ROTEIRIZADOR oque recebemos <Route><Category>1</Category><DateTime>2013-02-01T15:32:27</ DateTime><Position xmlns:a="http://schemas.datacontract.org/ 2004/07/Spatial"><a:Lat>-8.150483</a:Lat><a:Lng>-35.420284</ a:Lng></Position></Route>
  • 19.
  • 20.
    ESTIMAÇÃO ONLINE DEVELOCIDADES Centro  de  cálculo  MapLink  na  nuvem   posições   mapas   balanceador   de  cargas   rotas   posições   Disposi&vos     móveis   índices   cálculo   de  rotas   es&mação   de  velocidades   velocidade   tempo   servidores   de  trânsito   veículos  
  • 21.
    SOBRE O ROTEIRIZADOR transformandoposições em velocidades
  • 22.
    SOBRE O ROTEIRIZADOR segmentandoos dados Carros, motos, caminhões Como diferenciar?
  • 23.
    SOBRE O ROTEIRIZADOR diferentesusos entre categorias Velocidade moto => velocidade carro
  • 24.
    SOBRE O ROTEIRIZADOR ea velocidade da via?
  • 25.
    SOBRE O ROTEIRIZADOR oque recebemos - Cada update é independente e já traz novas informações -  Previsões dependem da situação global -  Resultado dos modelos -  Altamente interligado
  • 26.
  • 27.
    o futuro •  Adoçãoem novos setores Industria, Agronomia, Medicina •  Inclusão de fatores de tempo real Trânsito, Energia •  Tecnologia Hadoop? Hadoop2 + Yarn? Spark? RealTime? Storm? Kinesis? 19 de 21
  • 28.
    O MODELO statístico brigado! Prob(Usuario comprar|caracteristicas do usuario) Teorema de Bayes: P rob(caracteristicas do usuario|Usuario comprar)P rob(realizar una compra) P rob(caracter´ ıstica do usuario) É possível estimar as probabilidades a partir dos dados de transações passadas se fizermos algumasGomes Caio C. hipóteses estatísticas. Diretor Big Data e Inovação caio.gomes@apontador.com Exemplo - hipótese de naïve Bayes - features afetam independentemente a probabilidade da compra ser realizada. 21 de 21