SlideShare uma empresa Scribd logo
1 de 23
Big Data?!
Sandro Servino
Da teoria a prática:
Dá mesmo para
fazer algo prático
com o
Big Data?1
Como tudo
começou?
Qual o
Problema?
NECESSITAVA:
• Gravar grandes volumes de dados não-estruturados (páginas HTML);
• Processar essas páginas para buscar os links e o PageRank dessas páginas
de acordo com as citações dos links;
• Criar um mecanismo de busca que utilizasse regras de busca textual (TF-IDF)
mas que, ao mesmo tempo, aceitasse uma espécie de score boosting nas
páginas com maior PageRank.
PERCEBEU:
• Informações NÃO CABIAM em um ÚNICO SERVIDOR;
• Servidores quebram eventualmente (Lei de Murphy);
• Necessidade de mecanismos que pudessem processar dados não-
estruturadas transformando-os em informações corporativas.
CRIOU / FEZ:
• GFS - Google File System: sistema de arquivo distribuído entre vários
servidores que dividia os arquivos em blocos e, posteriormente, gravava cada
bloco repetido em 3 máquinas diferentes para diminuir a chance de perda de
dados;
• MapReduce: criou um framework que facilitava aos desenvolvedores extrair
informações de dados armazenados no GFS - Google File System, de forma
paralelizada para aumentar a velocidade.
• Em 2003 e 2004 os Engenheiros do Google publicaram artigos sobre o GFS e
sobre o MapReduce.
CONCORRÊNCIA:
• Em 2005, o Yahoo! Enfrentava forte concorrência e resolve criar o próprio
mecanismo de busca.
• Desenvolve projetos Open Source como o Nutch, um crawler que lê,
armazena e indexa páginas na web.
• Se depara com o mesmo problema do Google: SERVIDORES QUEBRAM!.
• Solução?
• Escrever um novo sistema baseado nos artigos publicados pelos engenheiros
do Google.
• É criado o HADOOP Distributed File System, ou HDFS (HDFS + MapReduce)
• Para fazer o projeto crescer e melhorar rapidamente, o projeto é publicado
com uma licença Open Source da Fundação Apache.
• Surge também um Banco de Dados NoSQL batizado de HBase inspirado em
outro projeto do Google, o BigTable.
hoj
e
Computadores na
Internet
No.
Computadores
196
9
hoj
e
Custo de
Banda
US$por
Mbps
199
8
hoj
e
197
0
US$por
TB Custo de
Armazenagem
1980: Apple $14.000.000
por TB
2010: Barracuda, $70
por TB
hoj
e
196
0
Custo de
CPU
US$por
GFLOPS
1961: IBM 1620,
$1,1Bilhão
2009: AMD Radeon,
$0,59
1998: $1.200 por
Mbps
2010: $5 por
Mbps
ARPAnet
no. 1
na UCLA
2010:
1Bilhão
TRANSFORMAÇÕES
EM 2020 SERÃO
80 BILHÕES DE DISPOSITIVOS
CONECTADOS
EM 2015 SERÃO
18 BILHÕES DE DISPOSITIVOS
CONECTADOS
Mas o que é Big Data?
Terrabytes
Registros
Transações
ArquivosVolume
BURST
Batch
Near Time
Real Time
StreamsVelocidade
Variedade
Estruturados
Não-Estruturados
Semi-Estruturados
Todo tipo de dado
Variedade
Velocidade
Volume Transações +
+ Interação
+ Observação
+ Real time
+ Análise (graph data)
+ Reação (feedback loop)
Big Data=
Veracidade Valor para a
EMPRESA
Como transformar
de modo eficaz,
eficiente e
confiável,
dados relevantes
em informações úteis?
2
Veracidade
Variedade
Velocidade
Volume
VALOR
B.I.
B.A.
E. T. L.
Precisamos
obrigatoriamente
de sistemas
sofisticados para
trabalhar
as informações?
3
• É um framework desenvolvido originalmente em 2007 pelo
FACEBOOK, e agora pertence a APACHE; Base de Dados não
relacional para grandes volumes de dados, aceita os comandos SQL.
• PIG: É uma Plataforma Alto-Nível para criação de programas de
MapReduce com Hadoop
• É um Banco de Dados Distribuído altamente escalável, com arquitetura
do Dynamo da Amazon e modelo de dados BigTable Google
• É a Plataforma de Software JAVA mais utilizada no mercado atualmente (open
source); Possui conectores com grandes ferramentas de BI e Analytics;
• Usada também para processamento semântico;
• Escala horizontalmente para Petabytes de dados;
• Cria novas necessidades de administração e novos perfis de desenvolvedores
ambientados no MapReduce
Criou uma série de data products baseados em Hadoop como:
• “People you may know” (2 pessoas)
• “Year in review email” (1 pessoa, 1 mês)
• “Network updates” (1 pessoa, 3 meses)
• “Skills and Endorsements” (2 pessoas)
• LinkedIn: “Hadoop pode capacitar pequenos times a construir grandes
projetos”.
Mais de 10 data products de:
• Busca (vagas, CVs, Empresas etc)
• Recomendação por e-mail
• Recomendação no site
• Geração de conteúdo
• Mais de 4 milhões de currículos
• Utiliza Solr para os seus aplicativos de busca.
Recomendação de notícias
• Recomendação de notícias personalizada para usuários ou de acordo
com os artigos
• Utiliza Hadoop, Mahout e Solr
• Mais de 100 Gb por dia de log processados
• Um dos maiores sites do Brasil em termos de audiência
• Cliente Semantix de Big Data
Real-Time Big Data Analytics:
• Arquitetura MapReduce não é suficiente por não ser real-time
• Utilizou soluções que armazenam dados em memória para exibir
informações sobre opções “curtir”
• Coloca 80% dos dados em memória (de 100 a 1000x mais rápida);
• Coloca o código onde estão os dados
• Armazena os dados persistentes após serem processados em bancos
como MySQL, HBase e Cassandra
O grande segredo da Amazon: recomendações
• Recomendações por e-mail
• Recomendações no momento da compra
• Compras casadas
• Análise do comportamento dos usuários
Análise da cadeia de suprimentos e de que features colocará em cada
carro
• Comportamento dos usuários
• Comportamento de compra
• Integração com smartphones nos veículos
• Carros melhores com dados analisados
• Natural Language Processing para analisar comentários e
sugestões de usuários
Obama: Eleições EUA
Como a NSA consegue espionar milhões de pessoas
nos EUA?
• A Agência de Segurança Nacional americana montou
um gigantesco esquema para bisbilhotar as
comunicações nos Estados Unidos e em outros
países com vários projetos de Big Data.
Big Data Fases do Projeto
Fase 1: Determine o que Big Data significa para sua organização.
O resultado desta fase é a decisão do Sebrae de levar a cabo uma solução
de BDA. Decisão já tomada – Vamos em frente !!!
Fase 2: Selecionando e priorizando casos de uso.
O resultado desta fase é uma estratégia de BDA, com um roteiro para a
implementação de casos de usos incrementais
Fase 3: Justificando a iniciativa de Big Data.
Nesta fase, a UTIC, buscará soluções tecnológicas e realizará provas de
conceito (POC) como um projeto piloto. Não iremos trabalhar apenas com 1
tecnologia mas sim com um conjunto de tecnologias próprias e Serviços.
A prospecção de tecnologias, já foi iniciada, independente das fases
anteriores objetivado a minimização do tempo de implantação.
Fase 4: Infraestrutura Tecnológica e Pessoal.
O resultado desta fase é a disponibilização de uma sólida infraestrutura de
TIC para armazenamento/processamento de dados estruturados e não
estruturados, em ambientes de nuvem privada e/ou pública;
e/ou disponibilização de soluções como serviço, disponibilização de
ferramentas e respectivos profissionais a serem envolvidos no projeto, bem
como o(s) contrato(s) com parceiros externos.
Fase 5: Monetização da informação.
Benefícios Para o Atendimento
• Conhecimento do mercado - Praça
• Visão total do mercado
• Visão de potencial de mercado
• Referência da região em que a empresa está instalada
• Conhecimento dos concorrências e suas práticas de sucesso
• Conhecimento do mercado - Cliente
• Quem são os clientes?
• Onde estão os clientes?
• Prospecção de novos clientes
• Analíticos com base em Geo-referenciamento
Benefícios Para a Estratégia
• Conhecimento do mercado
• Visão total do mercado
• Variações ao longo do tempo
• Regularidades das empresas
• Potencial do mercado para abertura ou realocações de
pontos de atendimento
• Histórico das empresas (faturamento, número de
funcionários etc)
• Mapeamento de novos clientes (Agentes)
• Analíticos com base em Geo-referenciamento
• E mais...
• Milhares de variáveis para composição de pesquisas
• Integração de dados externos e internos
• Indicação de produtos por mercados

Mais conteúdo relacionado

Mais procurados

Palestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
Palestra big data_e_mineracao_dedados_5agosto13-versaoslidesharePalestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
Palestra big data_e_mineracao_dedados_5agosto13-versaoslidesharepccdias
 
O queo facebook faz com minhas fotos??? E o que o BigData tem haver com isso ???
O queo facebook faz com minhas fotos??? E o que o BigData tem haver com isso ???O queo facebook faz com minhas fotos??? E o que o BigData tem haver com isso ???
O queo facebook faz com minhas fotos??? E o que o BigData tem haver com isso ???Alessandro Binhara
 
Hadoop - Mãos à massa! Qcon2014
Hadoop - Mãos à massa! Qcon2014Hadoop - Mãos à massa! Qcon2014
Hadoop - Mãos à massa! Qcon2014Thiago Santiago
 
Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...
Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...
Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...Ambiente Livre
 
TDC2016POA | Trilha BigData - Orquestrando Hadoop, Cassandra e MongoDB com o ...
TDC2016POA | Trilha BigData - Orquestrando Hadoop, Cassandra e MongoDB com o ...TDC2016POA | Trilha BigData - Orquestrando Hadoop, Cassandra e MongoDB com o ...
TDC2016POA | Trilha BigData - Orquestrando Hadoop, Cassandra e MongoDB com o ...tdc-globalcode
 
TDC2016POA | Trilha BigData - Google BigQuery: Estudo de Caso Globo.com
TDC2016POA | Trilha BigData - Google BigQuery: Estudo de Caso Globo.comTDC2016POA | Trilha BigData - Google BigQuery: Estudo de Caso Globo.com
TDC2016POA | Trilha BigData - Google BigQuery: Estudo de Caso Globo.comtdc-globalcode
 
Big Data: Seus problemas estão apenas começando
Big Data: Seus problemas estão apenas começandoBig Data: Seus problemas estão apenas começando
Big Data: Seus problemas estão apenas começandoThiago Gonzaga
 
Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - Curitiba
Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - CuritibaPalestra: Big Data Open Source com Hadoop - FLISOL 2014 - Curitiba
Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - CuritibaMarcio Junior Vieira
 
Palestra: Cientista de Dados – Dominando o Big Data com Software Livre
Palestra: Cientista de Dados – Dominando o Big Data com Software LivrePalestra: Cientista de Dados – Dominando o Big Data com Software Livre
Palestra: Cientista de Dados – Dominando o Big Data com Software LivreAmbiente Livre
 
Bigdata na pratica: Resolvendo problemas de performance com hadoop
Bigdata na pratica: Resolvendo problemas de performance com hadoopBigdata na pratica: Resolvendo problemas de performance com hadoop
Bigdata na pratica: Resolvendo problemas de performance com hadooptdc-globalcode
 
Big Data Analytics - Data Science - Aplicação e Tecnologia
Big Data Analytics - Data Science - Aplicação e TecnologiaBig Data Analytics - Data Science - Aplicação e Tecnologia
Big Data Analytics - Data Science - Aplicação e TecnologiaHélio Silva
 
Processamento de Eventos Complexos com Spark
Processamento de Eventos Complexos com SparkProcessamento de Eventos Complexos com Spark
Processamento de Eventos Complexos com SparkLeandro Mendes Ferreira
 
XXXI JAI - Apache Hadoop: conceitos teóricos e práticos, evolução e novas pos...
XXXI JAI - Apache Hadoop: conceitos teóricos e práticos, evolução e novas pos...XXXI JAI - Apache Hadoop: conceitos teóricos e práticos, evolução e novas pos...
XXXI JAI - Apache Hadoop: conceitos teóricos e práticos, evolução e novas pos...Ivanilton Polato
 

Mais procurados (20)

Palestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
Palestra big data_e_mineracao_dedados_5agosto13-versaoslidesharePalestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
Palestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
 
Big data Workshop
Big data WorkshopBig data Workshop
Big data Workshop
 
O queo facebook faz com minhas fotos??? E o que o BigData tem haver com isso ???
O queo facebook faz com minhas fotos??? E o que o BigData tem haver com isso ???O queo facebook faz com minhas fotos??? E o que o BigData tem haver com isso ???
O queo facebook faz com minhas fotos??? E o que o BigData tem haver com isso ???
 
Treinamento hadoop - dia1
Treinamento hadoop - dia1Treinamento hadoop - dia1
Treinamento hadoop - dia1
 
Hadoop - Mãos à massa! Qcon2014
Hadoop - Mãos à massa! Qcon2014Hadoop - Mãos à massa! Qcon2014
Hadoop - Mãos à massa! Qcon2014
 
Big Data e seu fiel companheiro Spark
Big Data e seu fiel companheiro SparkBig Data e seu fiel companheiro Spark
Big Data e seu fiel companheiro Spark
 
Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...
Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...
Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...
 
TDC2016POA | Trilha BigData - Orquestrando Hadoop, Cassandra e MongoDB com o ...
TDC2016POA | Trilha BigData - Orquestrando Hadoop, Cassandra e MongoDB com o ...TDC2016POA | Trilha BigData - Orquestrando Hadoop, Cassandra e MongoDB com o ...
TDC2016POA | Trilha BigData - Orquestrando Hadoop, Cassandra e MongoDB com o ...
 
TDC2016POA | Trilha BigData - Google BigQuery: Estudo de Caso Globo.com
TDC2016POA | Trilha BigData - Google BigQuery: Estudo de Caso Globo.comTDC2016POA | Trilha BigData - Google BigQuery: Estudo de Caso Globo.com
TDC2016POA | Trilha BigData - Google BigQuery: Estudo de Caso Globo.com
 
Bigdata gameverse
Bigdata gameverseBigdata gameverse
Bigdata gameverse
 
Big data
Big dataBig data
Big data
 
Treinamento hadoop - dia3
Treinamento hadoop - dia3Treinamento hadoop - dia3
Treinamento hadoop - dia3
 
Big_Data_Juan_C_Adorno
Big_Data_Juan_C_AdornoBig_Data_Juan_C_Adorno
Big_Data_Juan_C_Adorno
 
Big Data: Seus problemas estão apenas começando
Big Data: Seus problemas estão apenas começandoBig Data: Seus problemas estão apenas começando
Big Data: Seus problemas estão apenas começando
 
Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - Curitiba
Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - CuritibaPalestra: Big Data Open Source com Hadoop - FLISOL 2014 - Curitiba
Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - Curitiba
 
Palestra: Cientista de Dados – Dominando o Big Data com Software Livre
Palestra: Cientista de Dados – Dominando o Big Data com Software LivrePalestra: Cientista de Dados – Dominando o Big Data com Software Livre
Palestra: Cientista de Dados – Dominando o Big Data com Software Livre
 
Bigdata na pratica: Resolvendo problemas de performance com hadoop
Bigdata na pratica: Resolvendo problemas de performance com hadoopBigdata na pratica: Resolvendo problemas de performance com hadoop
Bigdata na pratica: Resolvendo problemas de performance com hadoop
 
Big Data Analytics - Data Science - Aplicação e Tecnologia
Big Data Analytics - Data Science - Aplicação e TecnologiaBig Data Analytics - Data Science - Aplicação e Tecnologia
Big Data Analytics - Data Science - Aplicação e Tecnologia
 
Processamento de Eventos Complexos com Spark
Processamento de Eventos Complexos com SparkProcessamento de Eventos Complexos com Spark
Processamento de Eventos Complexos com Spark
 
XXXI JAI - Apache Hadoop: conceitos teóricos e práticos, evolução e novas pos...
XXXI JAI - Apache Hadoop: conceitos teóricos e práticos, evolução e novas pos...XXXI JAI - Apache Hadoop: conceitos teóricos e práticos, evolução e novas pos...
XXXI JAI - Apache Hadoop: conceitos teóricos e práticos, evolução e novas pos...
 

Destaque

Semnews - Euroscipy 2011
Semnews - Euroscipy 2011Semnews - Euroscipy 2011
Semnews - Euroscipy 2011Vincent Michel
 
Chiffres+clés+de+l'audiovisuel 2012
Chiffres+clés+de+l'audiovisuel 2012Chiffres+clés+de+l'audiovisuel 2012
Chiffres+clés+de+l'audiovisuel 2012ChLenoir
 
Cooperativas como estrategias del desarrollo endogeno en las Unidades Educati...
Cooperativas como estrategias del desarrollo endogeno en las Unidades Educati...Cooperativas como estrategias del desarrollo endogeno en las Unidades Educati...
Cooperativas como estrategias del desarrollo endogeno en las Unidades Educati...Aldo M Acuña Naranjo
 
Move Over, Globalization: Community Retail Has Arrived
Move Over, Globalization: Community Retail Has ArrivedMove Over, Globalization: Community Retail Has Arrived
Move Over, Globalization: Community Retail Has ArrivedNational Retail Federation
 
Lingual orthodontics
Lingual orthodonticsLingual orthodontics
Lingual orthodonticsTony Pious
 

Destaque (13)

160210125013
160210125013160210125013
160210125013
 
Sundog Media Toolkit
Sundog Media Toolkit Sundog Media Toolkit
Sundog Media Toolkit
 
Semnews - Euroscipy 2011
Semnews - Euroscipy 2011Semnews - Euroscipy 2011
Semnews - Euroscipy 2011
 
ICON A5
ICON A5ICON A5
ICON A5
 
Chiffres+clés+de+l'audiovisuel 2012
Chiffres+clés+de+l'audiovisuel 2012Chiffres+clés+de+l'audiovisuel 2012
Chiffres+clés+de+l'audiovisuel 2012
 
FINAL LINKED IN
FINAL LINKED INFINAL LINKED IN
FINAL LINKED IN
 
Cooperativas como estrategias del desarrollo endogeno en las Unidades Educati...
Cooperativas como estrategias del desarrollo endogeno en las Unidades Educati...Cooperativas como estrategias del desarrollo endogeno en las Unidades Educati...
Cooperativas como estrategias del desarrollo endogeno en las Unidades Educati...
 
Батьківські збори
Батьківські збориБатьківські збори
Батьківські збори
 
quarrying
quarryingquarrying
quarrying
 
Chef Cookbook Workflow
Chef Cookbook WorkflowChef Cookbook Workflow
Chef Cookbook Workflow
 
Move Over, Globalization: Community Retail Has Arrived
Move Over, Globalization: Community Retail Has ArrivedMove Over, Globalization: Community Retail Has Arrived
Move Over, Globalization: Community Retail Has Arrived
 
Lingual orthodontics
Lingual orthodonticsLingual orthodontics
Lingual orthodontics
 
Contribuciones especiales
Contribuciones especialesContribuciones especiales
Contribuciones especiales
 

Semelhante a Como o Big Data transformou empresas líderes de tecnologia

Big data e mineração de dados
Big data e mineração de dadosBig data e mineração de dados
Big data e mineração de dadosElton Meira
 
Big Data, NoSQL e In Memory Databases
Big Data, NoSQL e In Memory DatabasesBig Data, NoSQL e In Memory Databases
Big Data, NoSQL e In Memory DatabasesCaio Louro
 
Sparsi big data
Sparsi big dataSparsi big data
Sparsi big datasparsi
 
Palestra Big Data SCTI
Palestra Big Data SCTIPalestra Big Data SCTI
Palestra Big Data SCTIBruna Pereira
 
Case RDStation: Construindo DataLakes com Apache Hadoop em cloud agnóstica
Case RDStation: Construindo DataLakes com Apache Hadoop em cloud agnósticaCase RDStation: Construindo DataLakes com Apache Hadoop em cloud agnóstica
Case RDStation: Construindo DataLakes com Apache Hadoop em cloud agnósticaAlessandro Binhara
 
Cientista de Dados – Dominando o Big Data com Software Livre
Cientista de Dados – Dominando o Big Data com Software Livre Cientista de Dados – Dominando o Big Data com Software Livre
Cientista de Dados – Dominando o Big Data com Software Livre Ambiente Livre
 
Qual é o futuro da estratégia de dados?
Qual é o futuro da estratégia de dados?Qual é o futuro da estratégia de dados?
Qual é o futuro da estratégia de dados?Denodo
 
Oficina técnica da Infraestrutura Nacional de Dados Abertos - INDA
Oficina técnica da Infraestrutura Nacional de Dados Abertos - INDAOficina técnica da Infraestrutura Nacional de Dados Abertos - INDA
Oficina técnica da Infraestrutura Nacional de Dados Abertos - INDAnitaibezerra
 
Workshop BigData, Hadoop e Data Science - Cetax x Deal
Workshop BigData, Hadoop e Data Science - Cetax x DealWorkshop BigData, Hadoop e Data Science - Cetax x Deal
Workshop BigData, Hadoop e Data Science - Cetax x DealMarco Garcia
 
Como Implementar a Análise de Dados em Tempo Real
Como Implementar a Análise de Dados em Tempo RealComo Implementar a Análise de Dados em Tempo Real
Como Implementar a Análise de Dados em Tempo RealDenodo
 
PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
PostgreSQL em projetos de Business Analytics e Big Data Analytics com PentahoPostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
PostgreSQL em projetos de Business Analytics e Big Data Analytics com PentahoAmbiente Livre
 
Xen e CoreOS: solução para data mining com NodeJS e ElasticSearch
Xen e CoreOS: solução para data mining com NodeJS e ElasticSearchXen e CoreOS: solução para data mining com NodeJS e ElasticSearch
Xen e CoreOS: solução para data mining com NodeJS e ElasticSearchBernardo Donadio
 
Oficina Técnica da INDA em Belém no Consegi
Oficina Técnica da INDA em Belém no ConsegiOficina Técnica da INDA em Belém no Consegi
Oficina Técnica da INDA em Belém no Conseginitaibezerra
 

Semelhante a Como o Big Data transformou empresas líderes de tecnologia (20)

Big data e mineração de dados
Big data e mineração de dadosBig data e mineração de dados
Big data e mineração de dados
 
Big Data
Big DataBig Data
Big Data
 
Aula BigData.pptx
Aula BigData.pptxAula BigData.pptx
Aula BigData.pptx
 
Big Data, JVM e Redes Sociais
Big Data, JVM e Redes SociaisBig Data, JVM e Redes Sociais
Big Data, JVM e Redes Sociais
 
Big Data, NoSQL e In Memory Databases
Big Data, NoSQL e In Memory DatabasesBig Data, NoSQL e In Memory Databases
Big Data, NoSQL e In Memory Databases
 
Bigadata casese opotunidades
Bigadata casese opotunidadesBigadata casese opotunidades
Bigadata casese opotunidades
 
Sparsi big data
Sparsi big dataSparsi big data
Sparsi big data
 
Big Data Latinoware 2014
Big Data Latinoware 2014Big Data Latinoware 2014
Big Data Latinoware 2014
 
Palestra Big Data SCTI
Palestra Big Data SCTIPalestra Big Data SCTI
Palestra Big Data SCTI
 
Case RDStation: Construindo DataLakes com Apache Hadoop em cloud agnóstica
Case RDStation: Construindo DataLakes com Apache Hadoop em cloud agnósticaCase RDStation: Construindo DataLakes com Apache Hadoop em cloud agnóstica
Case RDStation: Construindo DataLakes com Apache Hadoop em cloud agnóstica
 
Big Data na Nuvem
Big Data na NuvemBig Data na Nuvem
Big Data na Nuvem
 
Cientista de Dados – Dominando o Big Data com Software Livre
Cientista de Dados – Dominando o Big Data com Software Livre Cientista de Dados – Dominando o Big Data com Software Livre
Cientista de Dados – Dominando o Big Data com Software Livre
 
Qual é o futuro da estratégia de dados?
Qual é o futuro da estratégia de dados?Qual é o futuro da estratégia de dados?
Qual é o futuro da estratégia de dados?
 
Oficina técnica da Infraestrutura Nacional de Dados Abertos - INDA
Oficina técnica da Infraestrutura Nacional de Dados Abertos - INDAOficina técnica da Infraestrutura Nacional de Dados Abertos - INDA
Oficina técnica da Infraestrutura Nacional de Dados Abertos - INDA
 
Workshop BigData, Hadoop e Data Science - Cetax x Deal
Workshop BigData, Hadoop e Data Science - Cetax x DealWorkshop BigData, Hadoop e Data Science - Cetax x Deal
Workshop BigData, Hadoop e Data Science - Cetax x Deal
 
Como Implementar a Análise de Dados em Tempo Real
Como Implementar a Análise de Dados em Tempo RealComo Implementar a Análise de Dados em Tempo Real
Como Implementar a Análise de Dados em Tempo Real
 
PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
PostgreSQL em projetos de Business Analytics e Big Data Analytics com PentahoPostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
 
Xen e CoreOS: solução para data mining com NodeJS e ElasticSearch
Xen e CoreOS: solução para data mining com NodeJS e ElasticSearchXen e CoreOS: solução para data mining com NodeJS e ElasticSearch
Xen e CoreOS: solução para data mining com NodeJS e ElasticSearch
 
Big data e a globo.com - 2017
Big data e a globo.com - 2017Big data e a globo.com - 2017
Big data e a globo.com - 2017
 
Oficina Técnica da INDA em Belém no Consegi
Oficina Técnica da INDA em Belém no ConsegiOficina Técnica da INDA em Belém no Consegi
Oficina Técnica da INDA em Belém no Consegi
 

Mais de Sandro Servino

Mais de Sandro Servino (14)

Sandro servino
Sandro servinoSandro servino
Sandro servino
 
Sandro servino
Sandro servinoSandro servino
Sandro servino
 
Sandro servino
Sandro servinoSandro servino
Sandro servino
 
Sandro servino
Sandro servinoSandro servino
Sandro servino
 
Sandro servino
Sandro servinoSandro servino
Sandro servino
 
Sandro servino
Sandro servinoSandro servino
Sandro servino
 
Sandro servino
Sandro servinoSandro servino
Sandro servino
 
Sandro servino
Sandro servinoSandro servino
Sandro servino
 
Sandro servino
Sandro servinoSandro servino
Sandro servino
 
Currículo Sandro Servino (Padrão Europeu)
Currículo Sandro Servino (Padrão Europeu)Currículo Sandro Servino (Padrão Europeu)
Currículo Sandro Servino (Padrão Europeu)
 
Governanca de TI
Governanca de TIGovernanca de TI
Governanca de TI
 
Capitalizando na Complexidade
Capitalizando na ComplexidadeCapitalizando na Complexidade
Capitalizando na Complexidade
 
Estresse em Profissionais de TI
Estresse em Profissionais de TIEstresse em Profissionais de TI
Estresse em Profissionais de TI
 
Inovação Tecnológica
Inovação TecnológicaInovação Tecnológica
Inovação Tecnológica
 

Como o Big Data transformou empresas líderes de tecnologia

  • 2. Da teoria a prática: Dá mesmo para fazer algo prático com o Big Data?1
  • 4. NECESSITAVA: • Gravar grandes volumes de dados não-estruturados (páginas HTML); • Processar essas páginas para buscar os links e o PageRank dessas páginas de acordo com as citações dos links; • Criar um mecanismo de busca que utilizasse regras de busca textual (TF-IDF) mas que, ao mesmo tempo, aceitasse uma espécie de score boosting nas páginas com maior PageRank. PERCEBEU: • Informações NÃO CABIAM em um ÚNICO SERVIDOR; • Servidores quebram eventualmente (Lei de Murphy); • Necessidade de mecanismos que pudessem processar dados não- estruturadas transformando-os em informações corporativas. CRIOU / FEZ: • GFS - Google File System: sistema de arquivo distribuído entre vários servidores que dividia os arquivos em blocos e, posteriormente, gravava cada bloco repetido em 3 máquinas diferentes para diminuir a chance de perda de dados; • MapReduce: criou um framework que facilitava aos desenvolvedores extrair informações de dados armazenados no GFS - Google File System, de forma paralelizada para aumentar a velocidade. • Em 2003 e 2004 os Engenheiros do Google publicaram artigos sobre o GFS e sobre o MapReduce.
  • 5. CONCORRÊNCIA: • Em 2005, o Yahoo! Enfrentava forte concorrência e resolve criar o próprio mecanismo de busca. • Desenvolve projetos Open Source como o Nutch, um crawler que lê, armazena e indexa páginas na web. • Se depara com o mesmo problema do Google: SERVIDORES QUEBRAM!. • Solução? • Escrever um novo sistema baseado nos artigos publicados pelos engenheiros do Google. • É criado o HADOOP Distributed File System, ou HDFS (HDFS + MapReduce) • Para fazer o projeto crescer e melhorar rapidamente, o projeto é publicado com uma licença Open Source da Fundação Apache. • Surge também um Banco de Dados NoSQL batizado de HBase inspirado em outro projeto do Google, o BigTable.
  • 6. hoj e Computadores na Internet No. Computadores 196 9 hoj e Custo de Banda US$por Mbps 199 8 hoj e 197 0 US$por TB Custo de Armazenagem 1980: Apple $14.000.000 por TB 2010: Barracuda, $70 por TB hoj e 196 0 Custo de CPU US$por GFLOPS 1961: IBM 1620, $1,1Bilhão 2009: AMD Radeon, $0,59 1998: $1.200 por Mbps 2010: $5 por Mbps ARPAnet no. 1 na UCLA 2010: 1Bilhão TRANSFORMAÇÕES
  • 7. EM 2020 SERÃO 80 BILHÕES DE DISPOSITIVOS CONECTADOS EM 2015 SERÃO 18 BILHÕES DE DISPOSITIVOS CONECTADOS
  • 8. Mas o que é Big Data?
  • 12. Variedade Velocidade Volume Transações + + Interação + Observação + Real time + Análise (graph data) + Reação (feedback loop) Big Data= Veracidade Valor para a EMPRESA
  • 13. Como transformar de modo eficaz, eficiente e confiável, dados relevantes em informações úteis? 2
  • 16. • É um framework desenvolvido originalmente em 2007 pelo FACEBOOK, e agora pertence a APACHE; Base de Dados não relacional para grandes volumes de dados, aceita os comandos SQL. • PIG: É uma Plataforma Alto-Nível para criação de programas de MapReduce com Hadoop • É um Banco de Dados Distribuído altamente escalável, com arquitetura do Dynamo da Amazon e modelo de dados BigTable Google • É a Plataforma de Software JAVA mais utilizada no mercado atualmente (open source); Possui conectores com grandes ferramentas de BI e Analytics; • Usada também para processamento semântico; • Escala horizontalmente para Petabytes de dados; • Cria novas necessidades de administração e novos perfis de desenvolvedores ambientados no MapReduce
  • 17.
  • 18. Criou uma série de data products baseados em Hadoop como: • “People you may know” (2 pessoas) • “Year in review email” (1 pessoa, 1 mês) • “Network updates” (1 pessoa, 3 meses) • “Skills and Endorsements” (2 pessoas) • LinkedIn: “Hadoop pode capacitar pequenos times a construir grandes projetos”. Mais de 10 data products de: • Busca (vagas, CVs, Empresas etc) • Recomendação por e-mail • Recomendação no site • Geração de conteúdo • Mais de 4 milhões de currículos • Utiliza Solr para os seus aplicativos de busca. Recomendação de notícias • Recomendação de notícias personalizada para usuários ou de acordo com os artigos • Utiliza Hadoop, Mahout e Solr • Mais de 100 Gb por dia de log processados • Um dos maiores sites do Brasil em termos de audiência • Cliente Semantix de Big Data
  • 19. Real-Time Big Data Analytics: • Arquitetura MapReduce não é suficiente por não ser real-time • Utilizou soluções que armazenam dados em memória para exibir informações sobre opções “curtir” • Coloca 80% dos dados em memória (de 100 a 1000x mais rápida); • Coloca o código onde estão os dados • Armazena os dados persistentes após serem processados em bancos como MySQL, HBase e Cassandra O grande segredo da Amazon: recomendações • Recomendações por e-mail • Recomendações no momento da compra • Compras casadas • Análise do comportamento dos usuários Análise da cadeia de suprimentos e de que features colocará em cada carro • Comportamento dos usuários • Comportamento de compra • Integração com smartphones nos veículos • Carros melhores com dados analisados • Natural Language Processing para analisar comentários e sugestões de usuários
  • 20. Obama: Eleições EUA Como a NSA consegue espionar milhões de pessoas nos EUA? • A Agência de Segurança Nacional americana montou um gigantesco esquema para bisbilhotar as comunicações nos Estados Unidos e em outros países com vários projetos de Big Data.
  • 21. Big Data Fases do Projeto Fase 1: Determine o que Big Data significa para sua organização. O resultado desta fase é a decisão do Sebrae de levar a cabo uma solução de BDA. Decisão já tomada – Vamos em frente !!! Fase 2: Selecionando e priorizando casos de uso. O resultado desta fase é uma estratégia de BDA, com um roteiro para a implementação de casos de usos incrementais Fase 3: Justificando a iniciativa de Big Data. Nesta fase, a UTIC, buscará soluções tecnológicas e realizará provas de conceito (POC) como um projeto piloto. Não iremos trabalhar apenas com 1 tecnologia mas sim com um conjunto de tecnologias próprias e Serviços. A prospecção de tecnologias, já foi iniciada, independente das fases anteriores objetivado a minimização do tempo de implantação. Fase 4: Infraestrutura Tecnológica e Pessoal. O resultado desta fase é a disponibilização de uma sólida infraestrutura de TIC para armazenamento/processamento de dados estruturados e não estruturados, em ambientes de nuvem privada e/ou pública; e/ou disponibilização de soluções como serviço, disponibilização de ferramentas e respectivos profissionais a serem envolvidos no projeto, bem como o(s) contrato(s) com parceiros externos. Fase 5: Monetização da informação.
  • 22. Benefícios Para o Atendimento • Conhecimento do mercado - Praça • Visão total do mercado • Visão de potencial de mercado • Referência da região em que a empresa está instalada • Conhecimento dos concorrências e suas práticas de sucesso • Conhecimento do mercado - Cliente • Quem são os clientes? • Onde estão os clientes? • Prospecção de novos clientes • Analíticos com base em Geo-referenciamento
  • 23. Benefícios Para a Estratégia • Conhecimento do mercado • Visão total do mercado • Variações ao longo do tempo • Regularidades das empresas • Potencial do mercado para abertura ou realocações de pontos de atendimento • Histórico das empresas (faturamento, número de funcionários etc) • Mapeamento de novos clientes (Agentes) • Analíticos com base em Geo-referenciamento • E mais... • Milhares de variáveis para composição de pesquisas • Integração de dados externos e internos • Indicação de produtos por mercados