Big data em real time

802 visualizações

Publicada em

Apresentacao para a Campus Party 2014.
Nela apresento a técnicas de Big Data em tempo real, junto com os novos sistemas de processamento de stream, como kineses e storm.
Também falo sobre os novos algoritmos que devem substituir o map reduce no caso de processamento de streams.
----------------------------
Presentation at 2014 Campus Party São Paulo.

This presentation I present some new techniques for real time processing, and how we can construct algorithms fitted for streams of data.

Publicada em: Tecnologia
0 comentários
2 gostaram
Estatísticas
Notas
  • Seja o primeiro a comentar

Sem downloads
Visualizações
Visualizações totais
802
No SlideShare
0
A partir de incorporações
0
Número de incorporações
11
Ações
Compartilhamentos
0
Downloads
14
Comentários
0
Gostaram
2
Incorporações 0
Nenhuma incorporação

Nenhuma nota no slide

Big data em real time

  1. 1. Big Data em tempo real Caio Gomes / @caiocgomes 0
  2. 2. Pesquisa Cientifica (LHC, Genética, Metereologia, Medicina ...) Mercado Financeiro Cultura (livros,revistas, jornais, filmes) Industria Governo
  3. 3. LHC: PB de dados anuais NYSE: 2‐3 TB por dia Facebook: 500 TB por dia!!!
  4. 4. processamento baixa do custo de processamento descoberta de novos métodos de paralelismo armazenamento baixa do custo do GB armazenado novos formatos de bancos de dados
  5. 5. o famigerado mapreduce
  6. 6. funciona? Map vllsIfrain:Ls[] a itnomto itA vlf:A= B a > vlmp:Ls[]={ a a itB fr(ifrain< lsIfrain o nomto - itnomto) yedfifrain il (nomto) } Reduce vllsIfrain:Ls[] a itnomto itA vlf:(,)= A a AA > / / /fauuao nv eeet) /(cmld, oo lmno / / vlmp:Ls[]={ a a itB vlauuao=Nl a cmld i fr(ifrain< lsIfrain o nomto - itnomto) auuao=fauuaoifrain cmld (cmld,nomto) }
  7. 7. EMBARASSING PARALLEL
  8. 8. lógica de controle única acesso de arquivos recuperação de falhas controle de dependencia
  9. 9. separável paralelizavel threads máquinas extensivel despadronizado
  10. 10. "dado a quantidade de veículos, quanto tempo devo deixar o farol?"
  11. 11. acontecimentos nas ações influência das outras ações noticias políticas
  12. 12. impossivel pré‐calcular! condições do momento influênciam o momento!
  13. 13. analisar com facilidade dados em tempo real construir sistema mesmas liberdades mapreduce e hadoop?
  14. 14. 1. Como: Desacomplamento 2. O atual: Storm/Kinesis 3. A ciência: Métodos online
  15. 15. Servidor/Cliente
  16. 16. cliente conhece o servidor servidor conhece o cliente a mensagem é enviada especificamente
  17. 17. acomplamento do programa dificuldade de escalabilidade
  18. 18. Servidor/Observador
  19. 19. observador se coloca numa lista de 'escuta' servidor ignora a existencia de clientes quando resultado é atingido, servidor envia para todos escritos na lista desacoplamento das partes permite que o número de trabalhadores mude
  20. 20. Tolerancia a erros Controle de carga
  21. 21. 1. Como: Desacomplamento 2. O atual: Storm/Kinesis 3. A ciência: Métodos online
  22. 22. Streams de dados
  23. 23. Batch: banco de dados que permita receber todos esses dados tempo real: forma de envio que aguente um fluxo constante de mensagens de diversos tamanhos
  24. 24. agnosticidade de linguagem controle de falhas controle de en trega
  25. 25. 1. Como: Desacomplamento 2. O atual: Storm/Kinesis 3. A ciência: Métodos online
  26. 26. como calcular? "para minha loja, quero saber qual a taxa de venda de cada produto" Produto Game of Thrones PS4 Wii U Livro de romance X Livro de romance X Hora de venda 11:24:12 11:26:22 ano passado 11:23:12 11:23:33
  27. 27. 6 Milhões de arcos 5 pontos por minuto 4.5 BILHÕES de pontos
  28. 28. tempo real leva a necessidade de novos modelos online: não há a necessidade de memorizar todos estados anteriores t x) 1( + ) ;1 t x (A M E = ) ; t x(A ME
  29. 29. 6 Milhões de arcos 2 por arco 12 milhões de pontos
  30. 30. obrigado!! Caio Gomes Diretor de Inovação e Big Data caio.gomes@apontador.com @caiocgomes

×