SlideShare uma empresa Scribd logo
1 de 28
Baixar para ler offline
O Futuro
do Big Data
age of data
•
•
•
•
•

O Futuro
do Big Data

Pesquisa Cientifica (LHC, Genética, Meteorologia)
Mercado Financeiro
Cultura (Literatura,Jornais, Netflix)
Processos industriais
… e a internet!

!

Alguns números:
LHC: 70 TB/dia de dados
NYSE: 1 TB/dia de trading data
Facebook: 1.5 bilhão de likes em marcas por mês
Apontador: 50 milhões de pageviews por mês
Maplink: 1.8 bilhões de coordenadas processadas por mês

:

BIG Data
•  Volume de dados gigante
•  Grande parque computacional
•  Marketing
•  Internet
mas porque agora?
Processamento:
•  Baixa do preço do Teraflop
•  Criação do MapReduce

Armazenamento:
•  Baixa do preço do MB
•  Invenção do NoSQL
Onde foi usado até agora?
Publicidade:
•  Google AdSense
•  Criteo (remarketing)

Vendas online:
•  recomendação (Amazon)

Redes Sociaos
•  Recomendação de amigos, posts, likes, jogos.
furacão francis
•  Furacão Francis
Classificar quais itens serão mais vendidos e determinar a quantidade que
devo estocar

•  O que eu quero saber?
Compras relizadas em ultimos furacões
Época do ano e o que foi vendido
Quanto eles gastam?
Dos meus clientes, quais ficarão? (classificação)
precificação do cartão de crédito
•  Operadora de cartão
Minimizar probabilidade de default dos clientes
Ou ainda: quanto risco quero correr com a carteira de clientes

•  O que posso usar?
Histórico de pagamentos
O que usuários parecidos com esse fizeram (clustering)
seguro de colheitas
•  Seguradora
Qual vai ser a qualidade da colheita? Quantas toneladas serão coletadas?
Lugar, Clima, Preço

•  O que posso usar?
Histórico do clima no mundo
Histórico de colheitas
Informações de solo, localização
Vantagens do Map Reduce

•  Facilmente escalável (embarrassingly parallel) a milhares de TB.
•  Baixo custo de escalabilidade: clusters com milhares de nós,
commodity servers
•  Facil correção de problemas on the fly.

12 de 21
Desvantagens do Map Reduce

•  Programação de baixo nível de abstração.
•  Nem todo algorítmo pode ser escrito como uma única tarefa de
MapReduce.
•  Representação de algorítimos matemáticos complexos depende de
diversas tarefas de Map e Reduce.
• Solução em Batch

13 de 21
estimativa de trânsito
•  Medidas de trânsito
Veiculos enviam informação a cada instante.

•  O que eu quer saber?
Estado da via (classificação)
Tipo de veículos (clustering)
Como eles dirigem? (clustering)
Velocidade da via (regressão)

19 de 21
o padrão de transito - marginal pinheiros
SOBRE O ROTEIRIZADOR

o padrão da marginal pinheiros
SOBRE O ROTEIRIZADOR

o que recebemos

<Route><Category>1</Category><DateTime>2013-02-01T15:32:27</
DateTime><Position xmlns:a="http://schemas.datacontract.org/
2004/07/Spatial"><a:Lat>-8.150483</a:Lat><a:Lng>-35.420284</
a:Lng></Position></Route>
BRASIL

snapshot veículos rastreados, 14 nov 2012, 15:00
ESTIMAÇÃO ONLINE DE VELOCIDADES
Centro	
  de	
  cálculo	
  MapLink	
  na	
  nuvem	
  
posições	
  
mapas	
  
balanceador	
  
de	
  cargas	
  

rotas	
  

posições	
  
Disposi&vos	
  	
  
móveis	
  

índices	
  
cálculo	
  
de	
  rotas	
  
es&mação	
  
de	
  velocidades	
  
velocidade	
  
tempo	
  
servidores	
  
de	
  trânsito	
  
veículos	
  
SOBRE O ROTEIRIZADOR

transformando posições em velocidades
SOBRE O ROTEIRIZADOR

segmentando os dados
Carros, motos, caminhões

Como diferenciar?
SOBRE O ROTEIRIZADOR

diferentes usos entre categorias
Velocidade moto => velocidade carro
SOBRE O ROTEIRIZADOR

e a velocidade da via?
SOBRE O ROTEIRIZADOR

o que recebemos

- Cada update é independente e já traz novas informações
-  Previsões dependem da situação global
-  Resultado dos modelos
-  Altamente interligado
SOBRE O ROTEIRIZADOR
o futuro
•  Adoção em novos setores
Industria, Agronomia, Medicina

•  Inclusão de fatores de tempo real
Trânsito, Energia

•  Tecnologia
Hadoop? Hadoop2 + Yarn? Spark?
RealTime? Storm? Kinesis?

19 de 21
O MODELO statístico
brigado!

P rob(Usuario comprar|caracteristicas do usuario)
Teorema de Bayes:

P rob(caracteristicas do usuario|Usuario comprar)P rob(realizar una compra)
P rob(caracter´
ıstica do usuario)
É possível estimar as probabilidades a partir dos dados de transações
passadas se fizermos algumasGomes
Caio C. hipóteses estatísticas.
Diretor Big Data e Inovação
caio.gomes@apontador.com
Exemplo - hipótese de naïve Bayes - features afetam independentemente a
probabilidade da compra ser realizada.

21 de 21

Mais conteúdo relacionado

Destaque

Big Data e suas aplicações a analises de Transito
Big Data e suas aplicações a analises de TransitoBig Data e suas aplicações a analises de Transito
Big Data e suas aplicações a analises de TransitoCaio Gomes
 
BIG DATA - UNASP - EC - 08/06/2015
BIG DATA - UNASP - EC - 08/06/2015BIG DATA - UNASP - EC - 08/06/2015
BIG DATA - UNASP - EC - 08/06/2015rcdbarros
 
NoSQL e Big Data na Nuvem
NoSQL e Big Data na NuvemNoSQL e Big Data na Nuvem
NoSQL e Big Data na NuvemJose Papo, MSc
 
Big Data e Data Science - GBG - Google Business Group
Big Data e Data Science - GBG - Google Business GroupBig Data e Data Science - GBG - Google Business Group
Big Data e Data Science - GBG - Google Business GroupDiego Nogare
 
Desmistificando NoSQL e Novas Tecnologias de Bancos de Dados
Desmistificando NoSQL e Novas Tecnologias de Bancos de DadosDesmistificando NoSQL e Novas Tecnologias de Bancos de Dados
Desmistificando NoSQL e Novas Tecnologias de Bancos de DadosFabíola Fernandes
 
Modelos NoSQL e a Persistência Poliglota
Modelos NoSQL e a Persistência PoliglotaModelos NoSQL e a Persistência Poliglota
Modelos NoSQL e a Persistência PoliglotaGlaucio Scheibel
 
NoSQL - Por que e quando usar?
NoSQL - Por que e quando usar?NoSQL - Por que e quando usar?
NoSQL - Por que e quando usar?Nico Steppat
 

Destaque (9)

Big Data e suas aplicações a analises de Transito
Big Data e suas aplicações a analises de TransitoBig Data e suas aplicações a analises de Transito
Big Data e suas aplicações a analises de Transito
 
BIG DATA - UNASP - EC - 08/06/2015
BIG DATA - UNASP - EC - 08/06/2015BIG DATA - UNASP - EC - 08/06/2015
BIG DATA - UNASP - EC - 08/06/2015
 
NoSQL e Big Data na Nuvem
NoSQL e Big Data na NuvemNoSQL e Big Data na Nuvem
NoSQL e Big Data na Nuvem
 
Banco de Dados - NoSQL
Banco de Dados - NoSQLBanco de Dados - NoSQL
Banco de Dados - NoSQL
 
Big Data e Data Science - GBG - Google Business Group
Big Data e Data Science - GBG - Google Business GroupBig Data e Data Science - GBG - Google Business Group
Big Data e Data Science - GBG - Google Business Group
 
Data Science e Python: entendendo e aplicando
Data Science e Python: entendendo e aplicandoData Science e Python: entendendo e aplicando
Data Science e Python: entendendo e aplicando
 
Desmistificando NoSQL e Novas Tecnologias de Bancos de Dados
Desmistificando NoSQL e Novas Tecnologias de Bancos de DadosDesmistificando NoSQL e Novas Tecnologias de Bancos de Dados
Desmistificando NoSQL e Novas Tecnologias de Bancos de Dados
 
Modelos NoSQL e a Persistência Poliglota
Modelos NoSQL e a Persistência PoliglotaModelos NoSQL e a Persistência Poliglota
Modelos NoSQL e a Persistência Poliglota
 
NoSQL - Por que e quando usar?
NoSQL - Por que e quando usar?NoSQL - Por que e quando usar?
NoSQL - Por que e quando usar?
 

Semelhante a O futuro do big data

Gamification e Big Data
Gamification e Big DataGamification e Big Data
Gamification e Big DataCaio Gomes
 
Robson Motta - Computer on the beach 2014
Robson Motta - Computer on the beach 2014Robson Motta - Computer on the beach 2014
Robson Motta - Computer on the beach 2014Robson Motta
 
Chaordic - BigData e MapReduce - Robson Motta
Chaordic - BigData e MapReduce - Robson Motta Chaordic - BigData e MapReduce - Robson Motta
Chaordic - BigData e MapReduce - Robson Motta Chaordic
 
Planejamento de Capacidade Técnicas e Ferramentas
Planejamento de Capacidade Técnicas e FerramentasPlanejamento de Capacidade Técnicas e Ferramentas
Planejamento de Capacidade Técnicas e Ferramentasluanrjesus
 
7 av tecnol. inform._2013_demo_p&b - sefaz-ms
7 av tecnol. inform._2013_demo_p&b - sefaz-ms7 av tecnol. inform._2013_demo_p&b - sefaz-ms
7 av tecnol. inform._2013_demo_p&b - sefaz-msKurte Wagner
 
TDC2017 - Misturando dados com Pentaho para insights mais significativos
TDC2017 - Misturando dados com Pentaho para insights mais significativosTDC2017 - Misturando dados com Pentaho para insights mais significativos
TDC2017 - Misturando dados com Pentaho para insights mais significativosAmbiente Livre
 
Métricas e Otimização - Intercon 2009
Métricas e Otimização - Intercon 2009Métricas e Otimização - Intercon 2009
Métricas e Otimização - Intercon 2009Leonardo Naressi
 
Oficina técnica da Infraestrutura Nacional de Dados Abertos - INDA
Oficina técnica da Infraestrutura Nacional de Dados Abertos - INDAOficina técnica da Infraestrutura Nacional de Dados Abertos - INDA
Oficina técnica da Infraestrutura Nacional de Dados Abertos - INDAnitaibezerra
 
Planejamento e Gerenciamento de Capacidade para Sistemas Distribuídos
Planejamento e Gerenciamento de Capacidade para Sistemas DistribuídosPlanejamento e Gerenciamento de Capacidade para Sistemas Distribuídos
Planejamento e Gerenciamento de Capacidade para Sistemas Distribuídosluanrjesus
 
Aplicações não convencionais de grafos
Aplicações não convencionais de grafosAplicações não convencionais de grafos
Aplicações não convencionais de grafospichiliani
 
Palestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
Palestra big data_e_mineracao_dedados_5agosto13-versaoslidesharePalestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
Palestra big data_e_mineracao_dedados_5agosto13-versaoslidesharepccdias
 
Sparsi big data
Sparsi big dataSparsi big data
Sparsi big datasparsi
 
Portal de Informações Geo-Referenciadas - Carlos Alberto Peres Krykhtine
Portal de Informações Geo-Referenciadas - Carlos Alberto Peres KrykhtinePortal de Informações Geo-Referenciadas - Carlos Alberto Peres Krykhtine
Portal de Informações Geo-Referenciadas - Carlos Alberto Peres KrykhtineRio Info
 
Transformar Estratégia em Resultados - TI como ferramenta de Gestão
Transformar Estratégia em Resultados - TI como ferramenta de GestãoTransformar Estratégia em Resultados - TI como ferramenta de Gestão
Transformar Estratégia em Resultados - TI como ferramenta de GestãoAgrosys Tecnologia
 
24HoP 2012 - E você, está preparado para a era BigData?
24HoP 2012 - E você, está preparado para a era BigData?24HoP 2012 - E você, está preparado para a era BigData?
24HoP 2012 - E você, está preparado para a era BigData?Diego Nogare
 

Semelhante a O futuro do big data (20)

Hackathon UOL
Hackathon  UOL Hackathon  UOL
Hackathon UOL
 
Gamification e Big Data
Gamification e Big DataGamification e Big Data
Gamification e Big Data
 
Robson Motta - Computer on the beach 2014
Robson Motta - Computer on the beach 2014Robson Motta - Computer on the beach 2014
Robson Motta - Computer on the beach 2014
 
Chaordic - BigData e MapReduce - Robson Motta
Chaordic - BigData e MapReduce - Robson Motta Chaordic - BigData e MapReduce - Robson Motta
Chaordic - BigData e MapReduce - Robson Motta
 
Planejamento de Capacidade Técnicas e Ferramentas
Planejamento de Capacidade Técnicas e FerramentasPlanejamento de Capacidade Técnicas e Ferramentas
Planejamento de Capacidade Técnicas e Ferramentas
 
7 av tecnol. inform._2013_demo_p&b - sefaz-ms
7 av tecnol. inform._2013_demo_p&b - sefaz-ms7 av tecnol. inform._2013_demo_p&b - sefaz-ms
7 av tecnol. inform._2013_demo_p&b - sefaz-ms
 
TDC2017 - Misturando dados com Pentaho para insights mais significativos
TDC2017 - Misturando dados com Pentaho para insights mais significativosTDC2017 - Misturando dados com Pentaho para insights mais significativos
TDC2017 - Misturando dados com Pentaho para insights mais significativos
 
Métricas e Otimização - Intercon 2009
Métricas e Otimização - Intercon 2009Métricas e Otimização - Intercon 2009
Métricas e Otimização - Intercon 2009
 
Oficina técnica da Infraestrutura Nacional de Dados Abertos - INDA
Oficina técnica da Infraestrutura Nacional de Dados Abertos - INDAOficina técnica da Infraestrutura Nacional de Dados Abertos - INDA
Oficina técnica da Infraestrutura Nacional de Dados Abertos - INDA
 
Bigadata casese opotunidades
Bigadata casese opotunidadesBigadata casese opotunidades
Bigadata casese opotunidades
 
Planejamento e Gerenciamento de Capacidade para Sistemas Distribuídos
Planejamento e Gerenciamento de Capacidade para Sistemas DistribuídosPlanejamento e Gerenciamento de Capacidade para Sistemas Distribuídos
Planejamento e Gerenciamento de Capacidade para Sistemas Distribuídos
 
Construindo um sistema distribuido usando rest
Construindo um sistema distribuido usando restConstruindo um sistema distribuido usando rest
Construindo um sistema distribuido usando rest
 
Big Data
Big DataBig Data
Big Data
 
Aplicações não convencionais de grafos
Aplicações não convencionais de grafosAplicações não convencionais de grafos
Aplicações não convencionais de grafos
 
Palestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
Palestra big data_e_mineracao_dedados_5agosto13-versaoslidesharePalestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
Palestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
 
Sparsi big data
Sparsi big dataSparsi big data
Sparsi big data
 
Portal de Informações Geo-Referenciadas - Carlos Alberto Peres Krykhtine
Portal de Informações Geo-Referenciadas - Carlos Alberto Peres KrykhtinePortal de Informações Geo-Referenciadas - Carlos Alberto Peres Krykhtine
Portal de Informações Geo-Referenciadas - Carlos Alberto Peres Krykhtine
 
Transformar Estratégia em Resultados - TI como ferramenta de Gestão
Transformar Estratégia em Resultados - TI como ferramenta de GestãoTransformar Estratégia em Resultados - TI como ferramenta de Gestão
Transformar Estratégia em Resultados - TI como ferramenta de Gestão
 
TCC - Comparativo de ORMs e Acesso Nativo
TCC - Comparativo de ORMs e Acesso NativoTCC - Comparativo de ORMs e Acesso Nativo
TCC - Comparativo de ORMs e Acesso Nativo
 
24HoP 2012 - E você, está preparado para a era BigData?
24HoP 2012 - E você, está preparado para a era BigData?24HoP 2012 - E você, está preparado para a era BigData?
24HoP 2012 - E você, está preparado para a era BigData?
 

Mais de Caio Gomes

Campus Party - Teoria de cordas
Campus Party - Teoria de cordasCampus Party - Teoria de cordas
Campus Party - Teoria de cordasCaio Gomes
 
Ciencia dos filmes
Ciencia dos filmesCiencia dos filmes
Ciencia dos filmesCaio Gomes
 
Novos desafios para big data
Novos desafios para big dataNovos desafios para big data
Novos desafios para big dataCaio Gomes
 
Big data em real time
Big data em real timeBig data em real time
Big data em real timeCaio Gomes
 
AWS Summit - Case Apontador & Maplink
AWS Summit - Case Apontador & MaplinkAWS Summit - Case Apontador & Maplink
AWS Summit - Case Apontador & MaplinkCaio Gomes
 

Mais de Caio Gomes (7)

Campus Party - Teoria de cordas
Campus Party - Teoria de cordasCampus Party - Teoria de cordas
Campus Party - Teoria de cordas
 
Ciencia dos filmes
Ciencia dos filmesCiencia dos filmes
Ciencia dos filmes
 
Novos desafios para big data
Novos desafios para big dataNovos desafios para big data
Novos desafios para big data
 
Vaga maplink
Vaga maplinkVaga maplink
Vaga maplink
 
Vaga Maplink
Vaga MaplinkVaga Maplink
Vaga Maplink
 
Big data em real time
Big data em real timeBig data em real time
Big data em real time
 
AWS Summit - Case Apontador & Maplink
AWS Summit - Case Apontador & MaplinkAWS Summit - Case Apontador & Maplink
AWS Summit - Case Apontador & Maplink
 

Último

ATIVIDADE 1 - ESTRUTURA DE DADOS II - 52_2024.docx
ATIVIDADE 1 - ESTRUTURA DE DADOS II - 52_2024.docxATIVIDADE 1 - ESTRUTURA DE DADOS II - 52_2024.docx
ATIVIDADE 1 - ESTRUTURA DE DADOS II - 52_2024.docx2m Assessoria
 
Boas práticas de programação com Object Calisthenics
Boas práticas de programação com Object CalisthenicsBoas práticas de programação com Object Calisthenics
Boas práticas de programação com Object CalisthenicsDanilo Pinotti
 
ATIVIDADE 1 - LOGÍSTICA EMPRESARIAL - 52_2024.docx
ATIVIDADE 1 - LOGÍSTICA EMPRESARIAL - 52_2024.docxATIVIDADE 1 - LOGÍSTICA EMPRESARIAL - 52_2024.docx
ATIVIDADE 1 - LOGÍSTICA EMPRESARIAL - 52_2024.docx2m Assessoria
 
ATIVIDADE 1 - CUSTOS DE PRODUÇÃO - 52_2024.docx
ATIVIDADE 1 - CUSTOS DE PRODUÇÃO - 52_2024.docxATIVIDADE 1 - CUSTOS DE PRODUÇÃO - 52_2024.docx
ATIVIDADE 1 - CUSTOS DE PRODUÇÃO - 52_2024.docx2m Assessoria
 
Programação Orientada a Objetos - 4 Pilares.pdf
Programação Orientada a Objetos - 4 Pilares.pdfProgramação Orientada a Objetos - 4 Pilares.pdf
Programação Orientada a Objetos - 4 Pilares.pdfSamaraLunas
 
ATIVIDADE 1 - GCOM - GESTÃO DA INFORMAÇÃO - 54_2024.docx
ATIVIDADE 1 - GCOM - GESTÃO DA INFORMAÇÃO - 54_2024.docxATIVIDADE 1 - GCOM - GESTÃO DA INFORMAÇÃO - 54_2024.docx
ATIVIDADE 1 - GCOM - GESTÃO DA INFORMAÇÃO - 54_2024.docx2m Assessoria
 
Luís Kitota AWS Discovery Day Ka Solution.pdf
Luís Kitota AWS Discovery Day Ka Solution.pdfLuís Kitota AWS Discovery Day Ka Solution.pdf
Luís Kitota AWS Discovery Day Ka Solution.pdfLuisKitota
 
Padrões de Projeto: Proxy e Command com exemplo
Padrões de Projeto: Proxy e Command com exemploPadrões de Projeto: Proxy e Command com exemplo
Padrões de Projeto: Proxy e Command com exemploDanilo Pinotti
 

Último (8)

ATIVIDADE 1 - ESTRUTURA DE DADOS II - 52_2024.docx
ATIVIDADE 1 - ESTRUTURA DE DADOS II - 52_2024.docxATIVIDADE 1 - ESTRUTURA DE DADOS II - 52_2024.docx
ATIVIDADE 1 - ESTRUTURA DE DADOS II - 52_2024.docx
 
Boas práticas de programação com Object Calisthenics
Boas práticas de programação com Object CalisthenicsBoas práticas de programação com Object Calisthenics
Boas práticas de programação com Object Calisthenics
 
ATIVIDADE 1 - LOGÍSTICA EMPRESARIAL - 52_2024.docx
ATIVIDADE 1 - LOGÍSTICA EMPRESARIAL - 52_2024.docxATIVIDADE 1 - LOGÍSTICA EMPRESARIAL - 52_2024.docx
ATIVIDADE 1 - LOGÍSTICA EMPRESARIAL - 52_2024.docx
 
ATIVIDADE 1 - CUSTOS DE PRODUÇÃO - 52_2024.docx
ATIVIDADE 1 - CUSTOS DE PRODUÇÃO - 52_2024.docxATIVIDADE 1 - CUSTOS DE PRODUÇÃO - 52_2024.docx
ATIVIDADE 1 - CUSTOS DE PRODUÇÃO - 52_2024.docx
 
Programação Orientada a Objetos - 4 Pilares.pdf
Programação Orientada a Objetos - 4 Pilares.pdfProgramação Orientada a Objetos - 4 Pilares.pdf
Programação Orientada a Objetos - 4 Pilares.pdf
 
ATIVIDADE 1 - GCOM - GESTÃO DA INFORMAÇÃO - 54_2024.docx
ATIVIDADE 1 - GCOM - GESTÃO DA INFORMAÇÃO - 54_2024.docxATIVIDADE 1 - GCOM - GESTÃO DA INFORMAÇÃO - 54_2024.docx
ATIVIDADE 1 - GCOM - GESTÃO DA INFORMAÇÃO - 54_2024.docx
 
Luís Kitota AWS Discovery Day Ka Solution.pdf
Luís Kitota AWS Discovery Day Ka Solution.pdfLuís Kitota AWS Discovery Day Ka Solution.pdf
Luís Kitota AWS Discovery Day Ka Solution.pdf
 
Padrões de Projeto: Proxy e Command com exemplo
Padrões de Projeto: Proxy e Command com exemploPadrões de Projeto: Proxy e Command com exemplo
Padrões de Projeto: Proxy e Command com exemplo
 

O futuro do big data

  • 2.
  • 3. age of data • • • • • O Futuro do Big Data Pesquisa Cientifica (LHC, Genética, Meteorologia) Mercado Financeiro Cultura (Literatura,Jornais, Netflix) Processos industriais … e a internet! ! Alguns números: LHC: 70 TB/dia de dados NYSE: 1 TB/dia de trading data Facebook: 1.5 bilhão de likes em marcas por mês Apontador: 50 milhões de pageviews por mês Maplink: 1.8 bilhões de coordenadas processadas por mês :

  • 4. BIG Data •  Volume de dados gigante •  Grande parque computacional •  Marketing •  Internet
  • 5.
  • 6.
  • 7.
  • 8. mas porque agora? Processamento: •  Baixa do preço do Teraflop •  Criação do MapReduce Armazenamento: •  Baixa do preço do MB •  Invenção do NoSQL
  • 9. Onde foi usado até agora? Publicidade: •  Google AdSense •  Criteo (remarketing) Vendas online: •  recomendação (Amazon) Redes Sociaos •  Recomendação de amigos, posts, likes, jogos.
  • 10. furacão francis •  Furacão Francis Classificar quais itens serão mais vendidos e determinar a quantidade que devo estocar •  O que eu quero saber? Compras relizadas em ultimos furacões Época do ano e o que foi vendido Quanto eles gastam? Dos meus clientes, quais ficarão? (classificação)
  • 11. precificação do cartão de crédito •  Operadora de cartão Minimizar probabilidade de default dos clientes Ou ainda: quanto risco quero correr com a carteira de clientes •  O que posso usar? Histórico de pagamentos O que usuários parecidos com esse fizeram (clustering)
  • 12. seguro de colheitas •  Seguradora Qual vai ser a qualidade da colheita? Quantas toneladas serão coletadas? Lugar, Clima, Preço •  O que posso usar? Histórico do clima no mundo Histórico de colheitas Informações de solo, localização
  • 13. Vantagens do Map Reduce •  Facilmente escalável (embarrassingly parallel) a milhares de TB. •  Baixo custo de escalabilidade: clusters com milhares de nós, commodity servers •  Facil correção de problemas on the fly. 12 de 21
  • 14. Desvantagens do Map Reduce •  Programação de baixo nível de abstração. •  Nem todo algorítmo pode ser escrito como uma única tarefa de MapReduce. •  Representação de algorítimos matemáticos complexos depende de diversas tarefas de Map e Reduce. • Solução em Batch 13 de 21
  • 15. estimativa de trânsito •  Medidas de trânsito Veiculos enviam informação a cada instante. •  O que eu quer saber? Estado da via (classificação) Tipo de veículos (clustering) Como eles dirigem? (clustering) Velocidade da via (regressão) 19 de 21
  • 16. o padrão de transito - marginal pinheiros
  • 17. SOBRE O ROTEIRIZADOR o padrão da marginal pinheiros
  • 18. SOBRE O ROTEIRIZADOR o que recebemos <Route><Category>1</Category><DateTime>2013-02-01T15:32:27</ DateTime><Position xmlns:a="http://schemas.datacontract.org/ 2004/07/Spatial"><a:Lat>-8.150483</a:Lat><a:Lng>-35.420284</ a:Lng></Position></Route>
  • 20. ESTIMAÇÃO ONLINE DE VELOCIDADES Centro  de  cálculo  MapLink  na  nuvem   posições   mapas   balanceador   de  cargas   rotas   posições   Disposi&vos     móveis   índices   cálculo   de  rotas   es&mação   de  velocidades   velocidade   tempo   servidores   de  trânsito   veículos  
  • 21. SOBRE O ROTEIRIZADOR transformando posições em velocidades
  • 22. SOBRE O ROTEIRIZADOR segmentando os dados Carros, motos, caminhões Como diferenciar?
  • 23. SOBRE O ROTEIRIZADOR diferentes usos entre categorias Velocidade moto => velocidade carro
  • 24. SOBRE O ROTEIRIZADOR e a velocidade da via?
  • 25. SOBRE O ROTEIRIZADOR o que recebemos - Cada update é independente e já traz novas informações -  Previsões dependem da situação global -  Resultado dos modelos -  Altamente interligado
  • 27. o futuro •  Adoção em novos setores Industria, Agronomia, Medicina •  Inclusão de fatores de tempo real Trânsito, Energia •  Tecnologia Hadoop? Hadoop2 + Yarn? Spark? RealTime? Storm? Kinesis? 19 de 21
  • 28. O MODELO statístico brigado! P rob(Usuario comprar|caracteristicas do usuario) Teorema de Bayes: P rob(caracteristicas do usuario|Usuario comprar)P rob(realizar una compra) P rob(caracter´ ıstica do usuario) É possível estimar as probabilidades a partir dos dados de transações passadas se fizermos algumasGomes Caio C. hipóteses estatísticas. Diretor Big Data e Inovação caio.gomes@apontador.com Exemplo - hipótese de naïve Bayes - features afetam independentemente a probabilidade da compra ser realizada. 21 de 21