SlideShare uma empresa Scribd logo
O Futuro
do Big Data
age of data
•
•
•
•
•

O Futuro
do Big Data

Pesquisa Cientifica (LHC, Genética, Meteorologia)
Mercado Financeiro
Cultura (Literatura,Jornais, Netflix)
Processos industriais
… e a internet!

!

Alguns números:
LHC: 70 TB/dia de dados
NYSE: 1 TB/dia de trading data
Facebook: 1.5 bilhão de likes em marcas por mês
Apontador: 50 milhões de pageviews por mês
Maplink: 1.8 bilhões de coordenadas processadas por mês

:

BIG Data
•  Volume de dados gigante
•  Grande parque computacional
•  Marketing
•  Internet
mas porque agora?
Processamento:
•  Baixa do preço do Teraflop
•  Criação do MapReduce

Armazenamento:
•  Baixa do preço do MB
•  Invenção do NoSQL
Onde foi usado até agora?
Publicidade:
•  Google AdSense
•  Criteo (remarketing)

Vendas online:
•  recomendação (Amazon)

Redes Sociaos
•  Recomendação de amigos, posts, likes, jogos.
furacão francis
•  Furacão Francis
Classificar quais itens serão mais vendidos e determinar a quantidade que
devo estocar

•  O que eu quero saber?
Compras relizadas em ultimos furacões
Época do ano e o que foi vendido
Quanto eles gastam?
Dos meus clientes, quais ficarão? (classificação)
precificação do cartão de crédito
•  Operadora de cartão
Minimizar probabilidade de default dos clientes
Ou ainda: quanto risco quero correr com a carteira de clientes

•  O que posso usar?
Histórico de pagamentos
O que usuários parecidos com esse fizeram (clustering)
seguro de colheitas
•  Seguradora
Qual vai ser a qualidade da colheita? Quantas toneladas serão coletadas?
Lugar, Clima, Preço

•  O que posso usar?
Histórico do clima no mundo
Histórico de colheitas
Informações de solo, localização
Vantagens do Map Reduce

•  Facilmente escalável (embarrassingly parallel) a milhares de TB.
•  Baixo custo de escalabilidade: clusters com milhares de nós,
commodity servers
•  Facil correção de problemas on the fly.

12 de 21
Desvantagens do Map Reduce

•  Programação de baixo nível de abstração.
•  Nem todo algorítmo pode ser escrito como uma única tarefa de
MapReduce.
•  Representação de algorítimos matemáticos complexos depende de
diversas tarefas de Map e Reduce.
• Solução em Batch

13 de 21
estimativa de trânsito
•  Medidas de trânsito
Veiculos enviam informação a cada instante.

•  O que eu quer saber?
Estado da via (classificação)
Tipo de veículos (clustering)
Como eles dirigem? (clustering)
Velocidade da via (regressão)

19 de 21
o padrão de transito - marginal pinheiros
SOBRE O ROTEIRIZADOR

o padrão da marginal pinheiros
SOBRE O ROTEIRIZADOR

o que recebemos

<Route><Category>1</Category><DateTime>2013-02-01T15:32:27</
DateTime><Position xmlns:a="http://schemas.datacontract.org/
2004/07/Spatial"><a:Lat>-8.150483</a:Lat><a:Lng>-35.420284</
a:Lng></Position></Route>
BRASIL

snapshot veículos rastreados, 14 nov 2012, 15:00
ESTIMAÇÃO ONLINE DE VELOCIDADES
Centro	
  de	
  cálculo	
  MapLink	
  na	
  nuvem	
  
posições	
  
mapas	
  
balanceador	
  
de	
  cargas	
  

rotas	
  

posições	
  
Disposi&vos	
  	
  
móveis	
  

índices	
  
cálculo	
  
de	
  rotas	
  
es&mação	
  
de	
  velocidades	
  
velocidade	
  
tempo	
  
servidores	
  
de	
  trânsito	
  
veículos	
  
SOBRE O ROTEIRIZADOR

transformando posições em velocidades
SOBRE O ROTEIRIZADOR

segmentando os dados
Carros, motos, caminhões

Como diferenciar?
SOBRE O ROTEIRIZADOR

diferentes usos entre categorias
Velocidade moto => velocidade carro
SOBRE O ROTEIRIZADOR

e a velocidade da via?
SOBRE O ROTEIRIZADOR

o que recebemos

- Cada update é independente e já traz novas informações
-  Previsões dependem da situação global
-  Resultado dos modelos
-  Altamente interligado
SOBRE O ROTEIRIZADOR
o futuro
•  Adoção em novos setores
Industria, Agronomia, Medicina

•  Inclusão de fatores de tempo real
Trânsito, Energia

•  Tecnologia
Hadoop? Hadoop2 + Yarn? Spark?
RealTime? Storm? Kinesis?

19 de 21
O MODELO statístico
brigado!

P rob(Usuario comprar|caracteristicas do usuario)
Teorema de Bayes:

P rob(caracteristicas do usuario|Usuario comprar)P rob(realizar una compra)
P rob(caracter´
ıstica do usuario)
É possível estimar as probabilidades a partir dos dados de transações
passadas se fizermos algumasGomes
Caio C. hipóteses estatísticas.
Diretor Big Data e Inovação
caio.gomes@apontador.com
Exemplo - hipótese de naïve Bayes - features afetam independentemente a
probabilidade da compra ser realizada.

21 de 21

Mais conteúdo relacionado

Destaque

Big Data e suas aplicações a analises de Transito
Big Data e suas aplicações a analises de TransitoBig Data e suas aplicações a analises de Transito
Big Data e suas aplicações a analises de Transito
Caio Gomes
 
BIG DATA - UNASP - EC - 08/06/2015
BIG DATA - UNASP - EC - 08/06/2015BIG DATA - UNASP - EC - 08/06/2015
BIG DATA - UNASP - EC - 08/06/2015
rcdbarros
 
NoSQL e Big Data na Nuvem
NoSQL e Big Data na NuvemNoSQL e Big Data na Nuvem
NoSQL e Big Data na Nuvem
Jose Papo, MSc
 
Banco de Dados - NoSQL
Banco de Dados - NoSQLBanco de Dados - NoSQL
Banco de Dados - NoSQL
Marcos Luiz Lins Filho
 
Big Data e Data Science - GBG - Google Business Group
Big Data e Data Science - GBG - Google Business GroupBig Data e Data Science - GBG - Google Business Group
Big Data e Data Science - GBG - Google Business Group
Diego Nogare
 
Data Science e Python: entendendo e aplicando
Data Science e Python: entendendo e aplicandoData Science e Python: entendendo e aplicando
Data Science e Python: entendendo e aplicando
Ricardo Wendell Rodrigues da Silveira
 
Desmistificando NoSQL e Novas Tecnologias de Bancos de Dados
Desmistificando NoSQL e Novas Tecnologias de Bancos de DadosDesmistificando NoSQL e Novas Tecnologias de Bancos de Dados
Desmistificando NoSQL e Novas Tecnologias de Bancos de Dados
Fabíola Fernandes
 
Modelos NoSQL e a Persistência Poliglota
Modelos NoSQL e a Persistência PoliglotaModelos NoSQL e a Persistência Poliglota
Modelos NoSQL e a Persistência Poliglota
Glaucio Scheibel
 
NoSQL - Por que e quando usar?
NoSQL - Por que e quando usar?NoSQL - Por que e quando usar?
NoSQL - Por que e quando usar?
Nico Steppat
 

Destaque (9)

Big Data e suas aplicações a analises de Transito
Big Data e suas aplicações a analises de TransitoBig Data e suas aplicações a analises de Transito
Big Data e suas aplicações a analises de Transito
 
BIG DATA - UNASP - EC - 08/06/2015
BIG DATA - UNASP - EC - 08/06/2015BIG DATA - UNASP - EC - 08/06/2015
BIG DATA - UNASP - EC - 08/06/2015
 
NoSQL e Big Data na Nuvem
NoSQL e Big Data na NuvemNoSQL e Big Data na Nuvem
NoSQL e Big Data na Nuvem
 
Banco de Dados - NoSQL
Banco de Dados - NoSQLBanco de Dados - NoSQL
Banco de Dados - NoSQL
 
Big Data e Data Science - GBG - Google Business Group
Big Data e Data Science - GBG - Google Business GroupBig Data e Data Science - GBG - Google Business Group
Big Data e Data Science - GBG - Google Business Group
 
Data Science e Python: entendendo e aplicando
Data Science e Python: entendendo e aplicandoData Science e Python: entendendo e aplicando
Data Science e Python: entendendo e aplicando
 
Desmistificando NoSQL e Novas Tecnologias de Bancos de Dados
Desmistificando NoSQL e Novas Tecnologias de Bancos de DadosDesmistificando NoSQL e Novas Tecnologias de Bancos de Dados
Desmistificando NoSQL e Novas Tecnologias de Bancos de Dados
 
Modelos NoSQL e a Persistência Poliglota
Modelos NoSQL e a Persistência PoliglotaModelos NoSQL e a Persistência Poliglota
Modelos NoSQL e a Persistência Poliglota
 
NoSQL - Por que e quando usar?
NoSQL - Por que e quando usar?NoSQL - Por que e quando usar?
NoSQL - Por que e quando usar?
 

Semelhante a O futuro do big data

Hackathon UOL
Hackathon  UOL Hackathon  UOL
Hackathon UOL
Regina Cantele
 
Gamification e Big Data
Gamification e Big DataGamification e Big Data
Gamification e Big Data
Caio Gomes
 
Robson Motta - Computer on the beach 2014
Robson Motta - Computer on the beach 2014Robson Motta - Computer on the beach 2014
Robson Motta - Computer on the beach 2014
Robson Motta
 
Chaordic - BigData e MapReduce - Robson Motta
Chaordic - BigData e MapReduce - Robson Motta Chaordic - BigData e MapReduce - Robson Motta
Chaordic - BigData e MapReduce - Robson Motta
Chaordic
 
Planejamento de Capacidade Técnicas e Ferramentas
Planejamento de Capacidade Técnicas e FerramentasPlanejamento de Capacidade Técnicas e Ferramentas
Planejamento de Capacidade Técnicas e Ferramentas
luanrjesus
 
7 av tecnol. inform._2013_demo_p&b - sefaz-ms
7 av tecnol. inform._2013_demo_p&b - sefaz-ms7 av tecnol. inform._2013_demo_p&b - sefaz-ms
7 av tecnol. inform._2013_demo_p&b - sefaz-ms
Kurte Wagner
 
TDC2017 - Misturando dados com Pentaho para insights mais significativos
TDC2017 - Misturando dados com Pentaho para insights mais significativosTDC2017 - Misturando dados com Pentaho para insights mais significativos
TDC2017 - Misturando dados com Pentaho para insights mais significativos
Ambiente Livre
 
Métricas e Otimização - Intercon 2009
Métricas e Otimização - Intercon 2009Métricas e Otimização - Intercon 2009
Métricas e Otimização - Intercon 2009
Leonardo Naressi
 
Oficina técnica da Infraestrutura Nacional de Dados Abertos - INDA
Oficina técnica da Infraestrutura Nacional de Dados Abertos - INDAOficina técnica da Infraestrutura Nacional de Dados Abertos - INDA
Oficina técnica da Infraestrutura Nacional de Dados Abertos - INDA
nitaibezerra
 
Bigadata casese opotunidades
Bigadata casese opotunidadesBigadata casese opotunidades
Bigadata casese opotunidades
Alessandro Binhara
 
Planejamento e Gerenciamento de Capacidade para Sistemas Distribuídos
Planejamento e Gerenciamento de Capacidade para Sistemas DistribuídosPlanejamento e Gerenciamento de Capacidade para Sistemas Distribuídos
Planejamento e Gerenciamento de Capacidade para Sistemas Distribuídos
luanrjesus
 
Construindo um sistema distribuido usando rest
Construindo um sistema distribuido usando restConstruindo um sistema distribuido usando rest
Construindo um sistema distribuido usando rest
David Robert Camargo de Campos
 
Big Data
Big DataBig Data
Big Data
Sandro Servino
 
Aplicações não convencionais de grafos
Aplicações não convencionais de grafosAplicações não convencionais de grafos
Aplicações não convencionais de grafos
pichiliani
 
Palestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
Palestra big data_e_mineracao_dedados_5agosto13-versaoslidesharePalestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
Palestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
pccdias
 
Sparsi big data
Sparsi big dataSparsi big data
Sparsi big data
sparsi
 
Portal de Informações Geo-Referenciadas - Carlos Alberto Peres Krykhtine
Portal de Informações Geo-Referenciadas - Carlos Alberto Peres KrykhtinePortal de Informações Geo-Referenciadas - Carlos Alberto Peres Krykhtine
Portal de Informações Geo-Referenciadas - Carlos Alberto Peres Krykhtine
Rio Info
 
Transformar Estratégia em Resultados - TI como ferramenta de Gestão
Transformar Estratégia em Resultados - TI como ferramenta de GestãoTransformar Estratégia em Resultados - TI como ferramenta de Gestão
Transformar Estratégia em Resultados - TI como ferramenta de Gestão
Agrosys Tecnologia
 
TCC - Comparativo de ORMs e Acesso Nativo
TCC - Comparativo de ORMs e Acesso NativoTCC - Comparativo de ORMs e Acesso Nativo
TCC - Comparativo de ORMs e Acesso Nativo
Israel Ben Guilherme Fonseca
 
24HoP 2012 - E você, está preparado para a era BigData?
24HoP 2012 - E você, está preparado para a era BigData?24HoP 2012 - E você, está preparado para a era BigData?
24HoP 2012 - E você, está preparado para a era BigData?
Diego Nogare
 

Semelhante a O futuro do big data (20)

Hackathon UOL
Hackathon  UOL Hackathon  UOL
Hackathon UOL
 
Gamification e Big Data
Gamification e Big DataGamification e Big Data
Gamification e Big Data
 
Robson Motta - Computer on the beach 2014
Robson Motta - Computer on the beach 2014Robson Motta - Computer on the beach 2014
Robson Motta - Computer on the beach 2014
 
Chaordic - BigData e MapReduce - Robson Motta
Chaordic - BigData e MapReduce - Robson Motta Chaordic - BigData e MapReduce - Robson Motta
Chaordic - BigData e MapReduce - Robson Motta
 
Planejamento de Capacidade Técnicas e Ferramentas
Planejamento de Capacidade Técnicas e FerramentasPlanejamento de Capacidade Técnicas e Ferramentas
Planejamento de Capacidade Técnicas e Ferramentas
 
7 av tecnol. inform._2013_demo_p&b - sefaz-ms
7 av tecnol. inform._2013_demo_p&b - sefaz-ms7 av tecnol. inform._2013_demo_p&b - sefaz-ms
7 av tecnol. inform._2013_demo_p&b - sefaz-ms
 
TDC2017 - Misturando dados com Pentaho para insights mais significativos
TDC2017 - Misturando dados com Pentaho para insights mais significativosTDC2017 - Misturando dados com Pentaho para insights mais significativos
TDC2017 - Misturando dados com Pentaho para insights mais significativos
 
Métricas e Otimização - Intercon 2009
Métricas e Otimização - Intercon 2009Métricas e Otimização - Intercon 2009
Métricas e Otimização - Intercon 2009
 
Oficina técnica da Infraestrutura Nacional de Dados Abertos - INDA
Oficina técnica da Infraestrutura Nacional de Dados Abertos - INDAOficina técnica da Infraestrutura Nacional de Dados Abertos - INDA
Oficina técnica da Infraestrutura Nacional de Dados Abertos - INDA
 
Bigadata casese opotunidades
Bigadata casese opotunidadesBigadata casese opotunidades
Bigadata casese opotunidades
 
Planejamento e Gerenciamento de Capacidade para Sistemas Distribuídos
Planejamento e Gerenciamento de Capacidade para Sistemas DistribuídosPlanejamento e Gerenciamento de Capacidade para Sistemas Distribuídos
Planejamento e Gerenciamento de Capacidade para Sistemas Distribuídos
 
Construindo um sistema distribuido usando rest
Construindo um sistema distribuido usando restConstruindo um sistema distribuido usando rest
Construindo um sistema distribuido usando rest
 
Big Data
Big DataBig Data
Big Data
 
Aplicações não convencionais de grafos
Aplicações não convencionais de grafosAplicações não convencionais de grafos
Aplicações não convencionais de grafos
 
Palestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
Palestra big data_e_mineracao_dedados_5agosto13-versaoslidesharePalestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
Palestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
 
Sparsi big data
Sparsi big dataSparsi big data
Sparsi big data
 
Portal de Informações Geo-Referenciadas - Carlos Alberto Peres Krykhtine
Portal de Informações Geo-Referenciadas - Carlos Alberto Peres KrykhtinePortal de Informações Geo-Referenciadas - Carlos Alberto Peres Krykhtine
Portal de Informações Geo-Referenciadas - Carlos Alberto Peres Krykhtine
 
Transformar Estratégia em Resultados - TI como ferramenta de Gestão
Transformar Estratégia em Resultados - TI como ferramenta de GestãoTransformar Estratégia em Resultados - TI como ferramenta de Gestão
Transformar Estratégia em Resultados - TI como ferramenta de Gestão
 
TCC - Comparativo de ORMs e Acesso Nativo
TCC - Comparativo de ORMs e Acesso NativoTCC - Comparativo de ORMs e Acesso Nativo
TCC - Comparativo de ORMs e Acesso Nativo
 
24HoP 2012 - E você, está preparado para a era BigData?
24HoP 2012 - E você, está preparado para a era BigData?24HoP 2012 - E você, está preparado para a era BigData?
24HoP 2012 - E você, está preparado para a era BigData?
 

Mais de Caio Gomes

Campus Party - Teoria de cordas
Campus Party - Teoria de cordasCampus Party - Teoria de cordas
Campus Party - Teoria de cordas
Caio Gomes
 
Ciencia dos filmes
Ciencia dos filmesCiencia dos filmes
Ciencia dos filmes
Caio Gomes
 
Novos desafios para big data
Novos desafios para big dataNovos desafios para big data
Novos desafios para big data
Caio Gomes
 
Vaga maplink
Vaga maplinkVaga maplink
Vaga maplink
Caio Gomes
 
Vaga Maplink
Vaga MaplinkVaga Maplink
Vaga Maplink
Caio Gomes
 
Big data em real time
Big data em real timeBig data em real time
Big data em real time
Caio Gomes
 
AWS Summit - Case Apontador & Maplink
AWS Summit - Case Apontador & MaplinkAWS Summit - Case Apontador & Maplink
AWS Summit - Case Apontador & Maplink
Caio Gomes
 

Mais de Caio Gomes (7)

Campus Party - Teoria de cordas
Campus Party - Teoria de cordasCampus Party - Teoria de cordas
Campus Party - Teoria de cordas
 
Ciencia dos filmes
Ciencia dos filmesCiencia dos filmes
Ciencia dos filmes
 
Novos desafios para big data
Novos desafios para big dataNovos desafios para big data
Novos desafios para big data
 
Vaga maplink
Vaga maplinkVaga maplink
Vaga maplink
 
Vaga Maplink
Vaga MaplinkVaga Maplink
Vaga Maplink
 
Big data em real time
Big data em real timeBig data em real time
Big data em real time
 
AWS Summit - Case Apontador & Maplink
AWS Summit - Case Apontador & MaplinkAWS Summit - Case Apontador & Maplink
AWS Summit - Case Apontador & Maplink
 

Último

Manual-de-Credenciamento ANATER 2023.pdf
Manual-de-Credenciamento ANATER 2023.pdfManual-de-Credenciamento ANATER 2023.pdf
Manual-de-Credenciamento ANATER 2023.pdf
WELITONNOGUEIRA3
 
Certificado Jornada Python Da Hashtag.pdf
Certificado Jornada Python Da Hashtag.pdfCertificado Jornada Python Da Hashtag.pdf
Certificado Jornada Python Da Hashtag.pdf
joaovmp3
 
DESENVOLVIMENTO DE SOFTWARE I_aula1-2.pdf
DESENVOLVIMENTO DE SOFTWARE I_aula1-2.pdfDESENVOLVIMENTO DE SOFTWARE I_aula1-2.pdf
DESENVOLVIMENTO DE SOFTWARE I_aula1-2.pdf
Momento da Informática
 
Logica de Progamacao - Aula (1) (1).pptx
Logica de Progamacao - Aula (1) (1).pptxLogica de Progamacao - Aula (1) (1).pptx
Logica de Progamacao - Aula (1) (1).pptx
Momento da Informática
 
TOO - TÉCNICAS DE ORIENTAÇÃO A OBJETOS aula 1.pdf
TOO - TÉCNICAS DE ORIENTAÇÃO A OBJETOS aula 1.pdfTOO - TÉCNICAS DE ORIENTAÇÃO A OBJETOS aula 1.pdf
TOO - TÉCNICAS DE ORIENTAÇÃO A OBJETOS aula 1.pdf
Momento da Informática
 
História da Rádio- 1936-1970 século XIX .2.pptx
História da Rádio- 1936-1970 século XIX   .2.pptxHistória da Rádio- 1936-1970 século XIX   .2.pptx
História da Rádio- 1936-1970 século XIX .2.pptx
TomasSousa7
 

Último (6)

Manual-de-Credenciamento ANATER 2023.pdf
Manual-de-Credenciamento ANATER 2023.pdfManual-de-Credenciamento ANATER 2023.pdf
Manual-de-Credenciamento ANATER 2023.pdf
 
Certificado Jornada Python Da Hashtag.pdf
Certificado Jornada Python Da Hashtag.pdfCertificado Jornada Python Da Hashtag.pdf
Certificado Jornada Python Da Hashtag.pdf
 
DESENVOLVIMENTO DE SOFTWARE I_aula1-2.pdf
DESENVOLVIMENTO DE SOFTWARE I_aula1-2.pdfDESENVOLVIMENTO DE SOFTWARE I_aula1-2.pdf
DESENVOLVIMENTO DE SOFTWARE I_aula1-2.pdf
 
Logica de Progamacao - Aula (1) (1).pptx
Logica de Progamacao - Aula (1) (1).pptxLogica de Progamacao - Aula (1) (1).pptx
Logica de Progamacao - Aula (1) (1).pptx
 
TOO - TÉCNICAS DE ORIENTAÇÃO A OBJETOS aula 1.pdf
TOO - TÉCNICAS DE ORIENTAÇÃO A OBJETOS aula 1.pdfTOO - TÉCNICAS DE ORIENTAÇÃO A OBJETOS aula 1.pdf
TOO - TÉCNICAS DE ORIENTAÇÃO A OBJETOS aula 1.pdf
 
História da Rádio- 1936-1970 século XIX .2.pptx
História da Rádio- 1936-1970 século XIX   .2.pptxHistória da Rádio- 1936-1970 século XIX   .2.pptx
História da Rádio- 1936-1970 século XIX .2.pptx
 

O futuro do big data

  • 2.
  • 3. age of data • • • • • O Futuro do Big Data Pesquisa Cientifica (LHC, Genética, Meteorologia) Mercado Financeiro Cultura (Literatura,Jornais, Netflix) Processos industriais … e a internet! ! Alguns números: LHC: 70 TB/dia de dados NYSE: 1 TB/dia de trading data Facebook: 1.5 bilhão de likes em marcas por mês Apontador: 50 milhões de pageviews por mês Maplink: 1.8 bilhões de coordenadas processadas por mês :

  • 4. BIG Data •  Volume de dados gigante •  Grande parque computacional •  Marketing •  Internet
  • 5.
  • 6.
  • 7.
  • 8. mas porque agora? Processamento: •  Baixa do preço do Teraflop •  Criação do MapReduce Armazenamento: •  Baixa do preço do MB •  Invenção do NoSQL
  • 9. Onde foi usado até agora? Publicidade: •  Google AdSense •  Criteo (remarketing) Vendas online: •  recomendação (Amazon) Redes Sociaos •  Recomendação de amigos, posts, likes, jogos.
  • 10. furacão francis •  Furacão Francis Classificar quais itens serão mais vendidos e determinar a quantidade que devo estocar •  O que eu quero saber? Compras relizadas em ultimos furacões Época do ano e o que foi vendido Quanto eles gastam? Dos meus clientes, quais ficarão? (classificação)
  • 11. precificação do cartão de crédito •  Operadora de cartão Minimizar probabilidade de default dos clientes Ou ainda: quanto risco quero correr com a carteira de clientes •  O que posso usar? Histórico de pagamentos O que usuários parecidos com esse fizeram (clustering)
  • 12. seguro de colheitas •  Seguradora Qual vai ser a qualidade da colheita? Quantas toneladas serão coletadas? Lugar, Clima, Preço •  O que posso usar? Histórico do clima no mundo Histórico de colheitas Informações de solo, localização
  • 13. Vantagens do Map Reduce •  Facilmente escalável (embarrassingly parallel) a milhares de TB. •  Baixo custo de escalabilidade: clusters com milhares de nós, commodity servers •  Facil correção de problemas on the fly. 12 de 21
  • 14. Desvantagens do Map Reduce •  Programação de baixo nível de abstração. •  Nem todo algorítmo pode ser escrito como uma única tarefa de MapReduce. •  Representação de algorítimos matemáticos complexos depende de diversas tarefas de Map e Reduce. • Solução em Batch 13 de 21
  • 15. estimativa de trânsito •  Medidas de trânsito Veiculos enviam informação a cada instante. •  O que eu quer saber? Estado da via (classificação) Tipo de veículos (clustering) Como eles dirigem? (clustering) Velocidade da via (regressão) 19 de 21
  • 16. o padrão de transito - marginal pinheiros
  • 17. SOBRE O ROTEIRIZADOR o padrão da marginal pinheiros
  • 18. SOBRE O ROTEIRIZADOR o que recebemos <Route><Category>1</Category><DateTime>2013-02-01T15:32:27</ DateTime><Position xmlns:a="http://schemas.datacontract.org/ 2004/07/Spatial"><a:Lat>-8.150483</a:Lat><a:Lng>-35.420284</ a:Lng></Position></Route>
  • 20. ESTIMAÇÃO ONLINE DE VELOCIDADES Centro  de  cálculo  MapLink  na  nuvem   posições   mapas   balanceador   de  cargas   rotas   posições   Disposi&vos     móveis   índices   cálculo   de  rotas   es&mação   de  velocidades   velocidade   tempo   servidores   de  trânsito   veículos  
  • 21. SOBRE O ROTEIRIZADOR transformando posições em velocidades
  • 22. SOBRE O ROTEIRIZADOR segmentando os dados Carros, motos, caminhões Como diferenciar?
  • 23. SOBRE O ROTEIRIZADOR diferentes usos entre categorias Velocidade moto => velocidade carro
  • 24. SOBRE O ROTEIRIZADOR e a velocidade da via?
  • 25. SOBRE O ROTEIRIZADOR o que recebemos - Cada update é independente e já traz novas informações -  Previsões dependem da situação global -  Resultado dos modelos -  Altamente interligado
  • 27. o futuro •  Adoção em novos setores Industria, Agronomia, Medicina •  Inclusão de fatores de tempo real Trânsito, Energia •  Tecnologia Hadoop? Hadoop2 + Yarn? Spark? RealTime? Storm? Kinesis? 19 de 21
  • 28. O MODELO statístico brigado! P rob(Usuario comprar|caracteristicas do usuario) Teorema de Bayes: P rob(caracteristicas do usuario|Usuario comprar)P rob(realizar una compra) P rob(caracter´ ıstica do usuario) É possível estimar as probabilidades a partir dos dados de transações passadas se fizermos algumasGomes Caio C. hipóteses estatísticas. Diretor Big Data e Inovação caio.gomes@apontador.com Exemplo - hipótese de naïve Bayes - features afetam independentemente a probabilidade da compra ser realizada. 21 de 21