O documento discute os desafios e soluções para análise de Big Data em tempo real, incluindo o processamento e armazenamento de grandes volumes de dados, frameworks como Storm e Kinesis, e métodos online para lidar com fluxos contínuos de dados.
1. Big Data em tempo real
Caio Gomes / @caiocgomes
0
2.
3. Pesquisa Cientifica (LHC, Genética, Metereologia, Medicina ...)
Mercado Financeiro
Cultura (livros,revistas, jornais, filmes)
Industria
Governo
4. LHC: PB de dados anuais
NYSE: 2‐3 TB por dia
Facebook: 500 TB por dia!!!
5.
6. processamento
baixa do custo de processamento
descoberta de novos métodos de paralelismo
armazenamento
baixa do custo do GB armazenado
novos formatos de bancos de dados
10. funciona?
Map
vllsIfrain:Ls[]
a itnomto
itA
vlf:A= B
a
>
vlmp:Ls[]={
a a
itB
fr(ifrain< lsIfrain
o
nomto - itnomto)
yedfifrain
il (nomto)
}
Reduce
vllsIfrain:Ls[]
a itnomto
itA
vlf:(,)= A
a
AA >
/
/
/fauuao nv eeet)
/(cmld, oo lmno
/
/
vlmp:Ls[]={
a a
itB
vlauuao=Nl
a cmld
i
fr(ifrain< lsIfrain
o
nomto - itnomto)
auuao=fauuaoifrain
cmld
(cmld,nomto)
}
25. observador se coloca numa lista de 'escuta'
servidor ignora a existencia de clientes
quando resultado é atingido, servidor envia para todos escritos na lista
desacoplamento das partes permite que o número de trabalhadores
mude
29. Batch: banco de dados que permita receber todos esses dados
tempo real: forma de envio que aguente um fluxo constante de
mensagens de diversos tamanhos
33. como calcular?
"para minha loja, quero saber qual a taxa de venda
de cada produto"
Produto
Game of Thrones
PS4
Wii U
Livro de romance X
Livro de romance X
Hora de venda
11:24:12
11:26:22
ano passado
11:23:12
11:23:33
34.
35. 6 Milhões de arcos
5 pontos por minuto
4.5
BILHÕES
de pontos
36. tempo real leva a necessidade de novos modelos
online: não há a necessidade de memorizar todos estados anteriores
t x)
1( +
)
;1
t x (A M E
= )
; t x(A ME
37. 6 Milhões de arcos
2 por arco
12
milhões
de pontos