O documento discute o futuro do Big Data, abordando como os dados em grande volume estão sendo usados em diversas áreas como pesquisa científica, mercado financeiro e redes sociais. Também apresenta como o barateamento do processamento e armazenamento permitiu novas aplicações em publicidade, vendas online e análise de tráfego.
3. age of data
•
•
•
•
•
O Futuro
do Big Data
Pesquisa Cientifica (LHC, Genética, Meteorologia)
Mercado Financeiro
Cultura (Literatura,Jornais, Netflix)
Processos industriais
… e a internet!
!
Alguns números:
LHC: 70 TB/dia de dados
NYSE: 1 TB/dia de trading data
Facebook: 1.5 bilhão de likes em marcas por mês
Apontador: 50 milhões de pageviews por mês
Maplink: 1.8 bilhões de coordenadas processadas por mês
:
4. BIG Data
• Volume de dados gigante
• Grande parque computacional
• Marketing
• Internet
5.
6.
7.
8. mas porque agora?
Processamento:
• Baixa do preço do Teraflop
• Criação do MapReduce
Armazenamento:
• Baixa do preço do MB
• Invenção do NoSQL
9. Onde foi usado até agora?
Publicidade:
• Google AdSense
• Criteo (remarketing)
Vendas online:
• recomendação (Amazon)
Redes Sociaos
• Recomendação de amigos, posts, likes, jogos.
10. furacão francis
• Furacão Francis
Classificar quais itens serão mais vendidos e determinar a quantidade que
devo estocar
• O que eu quero saber?
Compras relizadas em ultimos furacões
Época do ano e o que foi vendido
Quanto eles gastam?
Dos meus clientes, quais ficarão? (classificação)
11. precificação do cartão de crédito
• Operadora de cartão
Minimizar probabilidade de default dos clientes
Ou ainda: quanto risco quero correr com a carteira de clientes
• O que posso usar?
Histórico de pagamentos
O que usuários parecidos com esse fizeram (clustering)
12. seguro de colheitas
• Seguradora
Qual vai ser a qualidade da colheita? Quantas toneladas serão coletadas?
Lugar, Clima, Preço
• O que posso usar?
Histórico do clima no mundo
Histórico de colheitas
Informações de solo, localização
13. Vantagens do Map Reduce
• Facilmente escalável (embarrassingly parallel) a milhares de TB.
• Baixo custo de escalabilidade: clusters com milhares de nós,
commodity servers
• Facil correção de problemas on the fly.
12 de 21
14. Desvantagens do Map Reduce
• Programação de baixo nível de abstração.
• Nem todo algorítmo pode ser escrito como uma única tarefa de
MapReduce.
• Representação de algorítimos matemáticos complexos depende de
diversas tarefas de Map e Reduce.
• Solução em Batch
13 de 21
15. estimativa de trânsito
• Medidas de trânsito
Veiculos enviam informação a cada instante.
• O que eu quer saber?
Estado da via (classificação)
Tipo de veículos (clustering)
Como eles dirigem? (clustering)
Velocidade da via (regressão)
19 de 21
18. SOBRE O ROTEIRIZADOR
o que recebemos
<Route><Category>1</Category><DateTime>2013-02-01T15:32:27</
DateTime><Position xmlns:a="http://schemas.datacontract.org/
2004/07/Spatial"><a:Lat>-8.150483</a:Lat><a:Lng>-35.420284</
a:Lng></Position></Route>
20. ESTIMAÇÃO ONLINE DE VELOCIDADES
Centro
de
cálculo
MapLink
na
nuvem
posições
mapas
balanceador
de
cargas
rotas
posições
Disposi&vos
móveis
índices
cálculo
de
rotas
es&mação
de
velocidades
velocidade
tempo
servidores
de
trânsito
veículos
25. SOBRE O ROTEIRIZADOR
o que recebemos
- Cada update é independente e já traz novas informações
- Previsões dependem da situação global
- Resultado dos modelos
- Altamente interligado
27. o futuro
• Adoção em novos setores
Industria, Agronomia, Medicina
• Inclusão de fatores de tempo real
Trânsito, Energia
• Tecnologia
Hadoop? Hadoop2 + Yarn? Spark?
RealTime? Storm? Kinesis?
19 de 21
28. O MODELO statístico
brigado!
P rob(Usuario comprar|caracteristicas do usuario)
Teorema de Bayes:
P rob(caracteristicas do usuario|Usuario comprar)P rob(realizar una compra)
P rob(caracter´
ıstica do usuario)
É possível estimar as probabilidades a partir dos dados de transações
passadas se fizermos algumasGomes
Caio C. hipóteses estatísticas.
Diretor Big Data e Inovação
caio.gomes@apontador.com
Exemplo - hipótese de naïve Bayes - features afetam independentemente a
probabilidade da compra ser realizada.
21 de 21