Big Data em tempo real

Caio Gomes / @caiocgomes

0
Pesquisa Cientifica (LHC, Genética, Metereologia, Medicina ...)
Mercado Financeiro
Cultura (livros,revistas, jornais, filmes)
Industria
Governo
LHC: PB de dados anuais
NYSE: 2‐3 TB por dia
Facebook: 500 TB por dia!!!
processamento
baixa do custo de processamento
descoberta de novos métodos de paralelismo

armazenamento
baixa do custo do GB armazenado
novos formatos de bancos de dados
o famigerado mapreduce
funciona?
Map
vllsIfrain:Ls[]
a itnomto
itA
vlf:A= B
a
>
vlmp:Ls[]={
a a
itB
fr(ifrain< lsIfrain
o
nomto - itnomto)
yedfifrain
il (nomto)
}

Reduce
vllsIfrain:Ls[]
a itnomto
itA
vlf:(,)= A
a
AA >
/
/
/fauuao nv eeet)
/(cmld, oo lmno
/
/
vlmp:Ls[]={
a a
itB
vlauuao=Nl
a cmld
i
fr(ifrain< lsIfrain
o
nomto - itnomto)
auuao=fauuaoifrain
cmld
(cmld,nomto)
}
EMBARASSING PARALLEL
lógica de controle única
acesso de arquivos
recuperação de falhas
controle de dependencia
separável
paralelizavel
threads
máquinas
extensivel
despadronizado
"dado a quantidade de veículos, quanto tempo devo
deixar o farol?"
acontecimentos nas ações
influência das outras ações
noticias políticas
impossivel pré‐calcular!
condições do momento influênciam o momento!
analisar com facilidade dados em tempo real
construir sistema mesmas liberdades mapreduce e hadoop?
1. Como: Desacomplamento
2. O atual: Storm/Kinesis
3. A ciência: Métodos online
Servidor/Cliente
cliente conhece o servidor
servidor conhece o cliente
a mensagem é enviada especificamente
acomplamento do programa
dificuldade de escalabilidade
Servidor/Observador
observador se coloca numa lista de 'escuta'
servidor ignora a existencia de clientes
quando resultado é atingido, servidor envia para todos escritos na lista
desacoplamento das partes permite que o número de trabalhadores
mude
Tolerancia a erros
Controle de carga
1. Como: Desacomplamento
2. O atual: Storm/Kinesis
3. A ciência: Métodos online
Streams de dados
Batch: banco de dados que permita receber todos esses dados
tempo real: forma de envio que aguente um fluxo constante de
mensagens de diversos tamanhos
agnosticidade de linguagem
controle de falhas
controle de en trega
1. Como: Desacomplamento
2. O atual: Storm/Kinesis
3. A ciência: Métodos online
como calcular?
"para minha loja, quero saber qual a taxa de venda
de cada produto"
Produto
Game of Thrones
PS4
Wii U
Livro de romance X
Livro de romance X

Hora de venda
11:24:12
11:26:22
ano passado
11:23:12
11:23:33
6 Milhões de arcos
5 pontos por minuto

4.5
BILHÕES
de pontos
tempo real leva a necessidade de novos modelos
online: não há a necessidade de memorizar todos estados anteriores

t x)

1( +

)

;1

t x (A M E

= )

; t x(A ME
6 Milhões de arcos
2 por arco

12
milhões
de pontos
obrigado!!
Caio Gomes
Diretor de Inovação e Big Data
caio.gomes@apontador.com
@caiocgomes

Big data em real time