SlideShare uma empresa Scribd logo
1 de 39
Baixar para ler offline
Big Data em tempo real

Caio Gomes / @caiocgomes

0
Pesquisa Cientifica (LHC, Genética, Metereologia, Medicina ...)
Mercado Financeiro
Cultura (livros,revistas, jornais, filmes)
Industria
Governo
LHC: PB de dados anuais
NYSE: 2‐3 TB por dia
Facebook: 500 TB por dia!!!
processamento
baixa do custo de processamento
descoberta de novos métodos de paralelismo

armazenamento
baixa do custo do GB armazenado
novos formatos de bancos de dados
o famigerado mapreduce
funciona?
Map
vllsIfrain:Ls[]
a itnomto
itA
vlf:A= B
a
>
vlmp:Ls[]={
a a
itB
fr(ifrain< lsIfrain
o
nomto - itnomto)
yedfifrain
il (nomto)
}

Reduce
vllsIfrain:Ls[]
a itnomto
itA
vlf:(,)= A
a
AA >
/
/
/fauuao nv eeet)
/(cmld, oo lmno
/
/
vlmp:Ls[]={
a a
itB
vlauuao=Nl
a cmld
i
fr(ifrain< lsIfrain
o
nomto - itnomto)
auuao=fauuaoifrain
cmld
(cmld,nomto)
}
EMBARASSING PARALLEL
lógica de controle única
acesso de arquivos
recuperação de falhas
controle de dependencia
separável
paralelizavel
threads
máquinas
extensivel
despadronizado
"dado a quantidade de veículos, quanto tempo devo
deixar o farol?"
acontecimentos nas ações
influência das outras ações
noticias políticas
impossivel pré‐calcular!
condições do momento influênciam o momento!
analisar com facilidade dados em tempo real
construir sistema mesmas liberdades mapreduce e hadoop?
1. Como: Desacomplamento
2. O atual: Storm/Kinesis
3. A ciência: Métodos online
Servidor/Cliente
cliente conhece o servidor
servidor conhece o cliente
a mensagem é enviada especificamente
acomplamento do programa
dificuldade de escalabilidade
Servidor/Observador
observador se coloca numa lista de 'escuta'
servidor ignora a existencia de clientes
quando resultado é atingido, servidor envia para todos escritos na lista
desacoplamento das partes permite que o número de trabalhadores
mude
Tolerancia a erros
Controle de carga
1. Como: Desacomplamento
2. O atual: Storm/Kinesis
3. A ciência: Métodos online
Streams de dados
Batch: banco de dados que permita receber todos esses dados
tempo real: forma de envio que aguente um fluxo constante de
mensagens de diversos tamanhos
agnosticidade de linguagem
controle de falhas
controle de en trega
1. Como: Desacomplamento
2. O atual: Storm/Kinesis
3. A ciência: Métodos online
como calcular?
"para minha loja, quero saber qual a taxa de venda
de cada produto"
Produto
Game of Thrones
PS4
Wii U
Livro de romance X
Livro de romance X

Hora de venda
11:24:12
11:26:22
ano passado
11:23:12
11:23:33
6 Milhões de arcos
5 pontos por minuto

4.5
BILHÕES
de pontos
tempo real leva a necessidade de novos modelos
online: não há a necessidade de memorizar todos estados anteriores

t x)

1( +

)

;1

t x (A M E

= )

; t x(A ME
6 Milhões de arcos
2 por arco

12
milhões
de pontos
obrigado!!
Caio Gomes
Diretor de Inovação e Big Data
caio.gomes@apontador.com
@caiocgomes

Mais conteúdo relacionado

Semelhante a Big data em real time

Data stream mining - TDC POA 2018 (Data Science)
Data stream mining - TDC POA 2018 (Data Science)Data stream mining - TDC POA 2018 (Data Science)
Data stream mining - TDC POA 2018 (Data Science)Andre Nunes
 
TDC18 (POA) Data Science - data stream mining
TDC18 (POA) Data Science - data stream miningTDC18 (POA) Data Science - data stream mining
TDC18 (POA) Data Science - data stream miningAndré Luís Nunes
 
Tudo que você sempre quis saber e sempre teve medo de perguntar, sobre Perfor...
Tudo que você sempre quis saber e sempre teve medo de perguntar, sobre Perfor...Tudo que você sempre quis saber e sempre teve medo de perguntar, sobre Perfor...
Tudo que você sempre quis saber e sempre teve medo de perguntar, sobre Perfor...Joao Galdino Mello de Souza
 
O que você acha que sabe sobre banco de dados
O que você acha que sabe sobre banco de dadosO que você acha que sabe sobre banco de dados
O que você acha que sabe sobre banco de dadosMatheus de Oliveira
 
TDC 2014 - Hadoop Hands ON
TDC 2014 - Hadoop Hands ONTDC 2014 - Hadoop Hands ON
TDC 2014 - Hadoop Hands ONThiago Santiago
 
Dev para Engenheiro de Dados (From Dev to Data Engineer)
Dev para Engenheiro de Dados (From Dev to Data Engineer)Dev para Engenheiro de Dados (From Dev to Data Engineer)
Dev para Engenheiro de Dados (From Dev to Data Engineer)Renan Moreira de Oliveira
 
Data Science, Machine Learning and Big Data
Data Science, Machine Learning and Big DataData Science, Machine Learning and Big Data
Data Science, Machine Learning and Big DataFabrício Barth
 
Palestra arquitetura de processamento em tempo real
Palestra arquitetura de processamento em tempo realPalestra arquitetura de processamento em tempo real
Palestra arquitetura de processamento em tempo realCampus Party Brasil
 
Primeiros passos com o Cassandra
 Primeiros passos com o Cassandra  Primeiros passos com o Cassandra
Primeiros passos com o Cassandra Otávio Santana
 
Informática para concursos públicos completa
Informática para concursos públicos completaInformática para concursos públicos completa
Informática para concursos públicos completaCDIM Daniel
 
Data science e os físicos
Data science e os físicosData science e os físicos
Data science e os físicosCaio Gomes
 
QConSP 2014 SambaTech Analytics: Arquiteturas e tecnologias por trás da análi...
QConSP 2014 SambaTech Analytics: Arquiteturas e tecnologias por trás da análi...QConSP 2014 SambaTech Analytics: Arquiteturas e tecnologias por trás da análi...
QConSP 2014 SambaTech Analytics: Arquiteturas e tecnologias por trás da análi...Samba Tech
 

Semelhante a Big data em real time (14)

Big Data na Globo.com - Dev Version - 2016
Big Data na Globo.com - Dev Version - 2016Big Data na Globo.com - Dev Version - 2016
Big Data na Globo.com - Dev Version - 2016
 
Data stream mining - TDC POA 2018 (Data Science)
Data stream mining - TDC POA 2018 (Data Science)Data stream mining - TDC POA 2018 (Data Science)
Data stream mining - TDC POA 2018 (Data Science)
 
TDC18 (POA) Data Science - data stream mining
TDC18 (POA) Data Science - data stream miningTDC18 (POA) Data Science - data stream mining
TDC18 (POA) Data Science - data stream mining
 
Tudo que você sempre quis saber e sempre teve medo de perguntar, sobre Perfor...
Tudo que você sempre quis saber e sempre teve medo de perguntar, sobre Perfor...Tudo que você sempre quis saber e sempre teve medo de perguntar, sobre Perfor...
Tudo que você sempre quis saber e sempre teve medo de perguntar, sobre Perfor...
 
O que você acha que sabe sobre banco de dados
O que você acha que sabe sobre banco de dadosO que você acha que sabe sobre banco de dados
O que você acha que sabe sobre banco de dados
 
TDC 2014 - Hadoop Hands ON
TDC 2014 - Hadoop Hands ONTDC 2014 - Hadoop Hands ON
TDC 2014 - Hadoop Hands ON
 
2015-CBQEE-I
2015-CBQEE-I2015-CBQEE-I
2015-CBQEE-I
 
Dev para Engenheiro de Dados (From Dev to Data Engineer)
Dev para Engenheiro de Dados (From Dev to Data Engineer)Dev para Engenheiro de Dados (From Dev to Data Engineer)
Dev para Engenheiro de Dados (From Dev to Data Engineer)
 
Data Science, Machine Learning and Big Data
Data Science, Machine Learning and Big DataData Science, Machine Learning and Big Data
Data Science, Machine Learning and Big Data
 
Palestra arquitetura de processamento em tempo real
Palestra arquitetura de processamento em tempo realPalestra arquitetura de processamento em tempo real
Palestra arquitetura de processamento em tempo real
 
Primeiros passos com o Cassandra
 Primeiros passos com o Cassandra  Primeiros passos com o Cassandra
Primeiros passos com o Cassandra
 
Informática para concursos públicos completa
Informática para concursos públicos completaInformática para concursos públicos completa
Informática para concursos públicos completa
 
Data science e os físicos
Data science e os físicosData science e os físicos
Data science e os físicos
 
QConSP 2014 SambaTech Analytics: Arquiteturas e tecnologias por trás da análi...
QConSP 2014 SambaTech Analytics: Arquiteturas e tecnologias por trás da análi...QConSP 2014 SambaTech Analytics: Arquiteturas e tecnologias por trás da análi...
QConSP 2014 SambaTech Analytics: Arquiteturas e tecnologias por trás da análi...
 

Mais de Caio Gomes

Novos desafios para big data
Novos desafios para big dataNovos desafios para big data
Novos desafios para big dataCaio Gomes
 
Gamification e Big Data
Gamification e Big DataGamification e Big Data
Gamification e Big DataCaio Gomes
 
Big Data e suas aplicações a analises de Transito
Big Data e suas aplicações a analises de TransitoBig Data e suas aplicações a analises de Transito
Big Data e suas aplicações a analises de TransitoCaio Gomes
 
Transformando a Web com Dados
Transformando a Web com DadosTransformando a Web com Dados
Transformando a Web com DadosCaio Gomes
 

Mais de Caio Gomes (6)

Novos desafios para big data
Novos desafios para big dataNovos desafios para big data
Novos desafios para big data
 
Vaga maplink
Vaga maplinkVaga maplink
Vaga maplink
 
Vaga Maplink
Vaga MaplinkVaga Maplink
Vaga Maplink
 
Gamification e Big Data
Gamification e Big DataGamification e Big Data
Gamification e Big Data
 
Big Data e suas aplicações a analises de Transito
Big Data e suas aplicações a analises de TransitoBig Data e suas aplicações a analises de Transito
Big Data e suas aplicações a analises de Transito
 
Transformando a Web com Dados
Transformando a Web com DadosTransformando a Web com Dados
Transformando a Web com Dados
 

Big data em real time