O futuro do big data

948 visualizações

Publicada em

My impressions about the next years future for Big Data and Data Science. Next few years we're going to see an increase in Real Time techniques, with new industries starting to use Big Data techniques.

Apresentação dada para o evento de finalização do curso de Big Data da FIA. Nele falo sobre minhas impressões sobre o futuro do Big Data, e como vamos ver o aumento de técnicas de Real Time, como novas industrias no Brasil adotando técnicas de Big Data.

Publicada em: Tecnologia
0 comentários
1 gostou
Estatísticas
Notas
  • Seja o primeiro a comentar

Sem downloads
Visualizações
Visualizações totais
948
No SlideShare
0
A partir de incorporações
0
Número de incorporações
17
Ações
Compartilhamentos
0
Downloads
25
Comentários
0
Gostaram
1
Incorporações 0
Nenhuma incorporação

Nenhuma nota no slide

O futuro do big data

  1. 1. O Futuro do Big Data
  2. 2. age of data • • • • • O Futuro do Big Data Pesquisa Cientifica (LHC, Genética, Meteorologia) Mercado Financeiro Cultura (Literatura,Jornais, Netflix) Processos industriais … e a internet! ! Alguns números: LHC: 70 TB/dia de dados NYSE: 1 TB/dia de trading data Facebook: 1.5 bilhão de likes em marcas por mês Apontador: 50 milhões de pageviews por mês Maplink: 1.8 bilhões de coordenadas processadas por mês :

  3. 3. BIG Data •  Volume de dados gigante •  Grande parque computacional •  Marketing •  Internet
  4. 4. mas porque agora? Processamento: •  Baixa do preço do Teraflop •  Criação do MapReduce Armazenamento: •  Baixa do preço do MB •  Invenção do NoSQL
  5. 5. Onde foi usado até agora? Publicidade: •  Google AdSense •  Criteo (remarketing) Vendas online: •  recomendação (Amazon) Redes Sociaos •  Recomendação de amigos, posts, likes, jogos.
  6. 6. furacão francis •  Furacão Francis Classificar quais itens serão mais vendidos e determinar a quantidade que devo estocar •  O que eu quero saber? Compras relizadas em ultimos furacões Época do ano e o que foi vendido Quanto eles gastam? Dos meus clientes, quais ficarão? (classificação)
  7. 7. precificação do cartão de crédito •  Operadora de cartão Minimizar probabilidade de default dos clientes Ou ainda: quanto risco quero correr com a carteira de clientes •  O que posso usar? Histórico de pagamentos O que usuários parecidos com esse fizeram (clustering)
  8. 8. seguro de colheitas •  Seguradora Qual vai ser a qualidade da colheita? Quantas toneladas serão coletadas? Lugar, Clima, Preço •  O que posso usar? Histórico do clima no mundo Histórico de colheitas Informações de solo, localização
  9. 9. Vantagens do Map Reduce •  Facilmente escalável (embarrassingly parallel) a milhares de TB. •  Baixo custo de escalabilidade: clusters com milhares de nós, commodity servers •  Facil correção de problemas on the fly. 12 de 21
  10. 10. Desvantagens do Map Reduce •  Programação de baixo nível de abstração. •  Nem todo algorítmo pode ser escrito como uma única tarefa de MapReduce. •  Representação de algorítimos matemáticos complexos depende de diversas tarefas de Map e Reduce. • Solução em Batch 13 de 21
  11. 11. estimativa de trânsito •  Medidas de trânsito Veiculos enviam informação a cada instante. •  O que eu quer saber? Estado da via (classificação) Tipo de veículos (clustering) Como eles dirigem? (clustering) Velocidade da via (regressão) 19 de 21
  12. 12. o padrão de transito - marginal pinheiros
  13. 13. SOBRE O ROTEIRIZADOR o padrão da marginal pinheiros
  14. 14. SOBRE O ROTEIRIZADOR o que recebemos <Route><Category>1</Category><DateTime>2013-02-01T15:32:27</ DateTime><Position xmlns:a="http://schemas.datacontract.org/ 2004/07/Spatial"><a:Lat>-8.150483</a:Lat><a:Lng>-35.420284</ a:Lng></Position></Route>
  15. 15. BRASIL snapshot veículos rastreados, 14 nov 2012, 15:00
  16. 16. ESTIMAÇÃO ONLINE DE VELOCIDADES Centro  de  cálculo  MapLink  na  nuvem   posições   mapas   balanceador   de  cargas   rotas   posições   Disposi&vos     móveis   índices   cálculo   de  rotas   es&mação   de  velocidades   velocidade   tempo   servidores   de  trânsito   veículos  
  17. 17. SOBRE O ROTEIRIZADOR transformando posições em velocidades
  18. 18. SOBRE O ROTEIRIZADOR segmentando os dados Carros, motos, caminhões Como diferenciar?
  19. 19. SOBRE O ROTEIRIZADOR diferentes usos entre categorias Velocidade moto => velocidade carro
  20. 20. SOBRE O ROTEIRIZADOR e a velocidade da via?
  21. 21. SOBRE O ROTEIRIZADOR o que recebemos - Cada update é independente e já traz novas informações -  Previsões dependem da situação global -  Resultado dos modelos -  Altamente interligado
  22. 22. SOBRE O ROTEIRIZADOR
  23. 23. o futuro •  Adoção em novos setores Industria, Agronomia, Medicina •  Inclusão de fatores de tempo real Trânsito, Energia •  Tecnologia Hadoop? Hadoop2 + Yarn? Spark? RealTime? Storm? Kinesis? 19 de 21
  24. 24. O MODELO statístico brigado! P rob(Usuario comprar|caracteristicas do usuario) Teorema de Bayes: P rob(caracteristicas do usuario|Usuario comprar)P rob(realizar una compra) P rob(caracter´ ıstica do usuario) É possível estimar as probabilidades a partir dos dados de transações passadas se fizermos algumasGomes Caio C. hipóteses estatísticas. Diretor Big Data e Inovação caio.gomes@apontador.com Exemplo - hipótese de naïve Bayes - features afetam independentemente a probabilidade da compra ser realizada. 21 de 21

×