Big Data
O que é Big Data!
Como surgiu isso!
Para que serve?!
Da teoria a prática:!
!
Dá mesmo para !
fazer algo prático !
com o !
Big Data?!1
Como tudo !
começou?!
!
Qual o !
Problema?!
PERCEBEU:!
•  Informações NÃO CABIAM em um ÚNICO SERVIDOR;!
•  Servidores quebram eventualmente (Lei de Murphy);!
•  Não existiam mecanismos que pudessem armazenar informações não-
estruturadas ou estruturadas de forma horizontal.!
NECESSITAVA:!
•  Gravar grandes volumes de dados não-estruturados (páginas HTML);!
•  Processar essas páginas para buscar os links e o PageRank dessas páginas
de acordo com as citações dos links;!
•  Criar um mecanismo de busca que utilizasse regras de busca textual (TF-IDF)
mas que, ao mesmo tempo, aceitasse uma espécie de score boosting nas
páginas com maior PageRank.!
PERCEBEU:!
•  Informações NÃO CABIAM em um ÚNICO SERVIDOR;!
•  Servidores quebram eventualmente (Lei de Murphy);!
•  Não existiam mecanismos que pudessem armazenar informações não-
estruturadas ou estruturadas de forma horizontal.!
NECESSITAVA:!
•  Gravar grandes volumes de dados não-estruturados (páginas HTML);!
•  Processar essas páginas para buscar os links e o PageRank dessas páginas
de acordo com as citações dos links;!
•  Criar um mecanismo de busca que utilizasse regras de busca textual (TF-IDF)
mas que, ao mesmo tempo, aceitasse uma espécie de score boosting nas
páginas com maior PageRank.!
PERCEBEU:!
•  Informações NÃO CABIAM em um ÚNICO SERVIDOR;!
•  Servidores quebram eventualmente (Lei de Murphy);!
•  Não existiam mecanismos que pudessem armazenar informações não-
estruturadas ou estruturadas de forma horizontal.!
CRIOU / FEZ:!
•  GFS - Google File System: sistema de arquivo distribuído entre vários
servidores que dividia os arquivos em blocos e, posteriormente, gravava cada
bloco repetido em 3 máquinas diferentes para diminuir a chance de perda de
dados;!
•  MapReduce: criou um framework que facilitava aos desenvolvedores extrair
informações de dados armazenados no GFS - Google File System, de forma
paralelizada para aumentar a velocidade.!
•  Em 2003 e 2004 os Engenheiros do Google publicaram artigos sobre o GFS e
sobre o MapReduce.!
CONCORRÊNCIA:!
•  Em 2005, o Yahoo! Enfrentava forte concorrência e resolve criar o próprio
mecanismo de busca.!
•  Desenvolve projetos Open Source como o Nutch, um crawler que lê,
armazena e indexa páginas na web.!
•  Se depara com o mesmo problema do Google: SERVIDORES QUEBRAM!.!
•  Solução? !
•  Escrever um novo sistema baseado nos artigos publicados pelos engenheiros
do Google. !
•  É criado o HADOOP Distributed File System, ou HDFS (HDFS + MapReduce) !
•  Para fazer o projeto crescer e melhorar rapidamente, o projeto é publicado
com uma licença Open Source da Fundação Apache.!
•  Surge também um Banco de Dados NoSQL batizado de HBase inspirado em
outro projeto do Google, o BigTable.!
TRANSFORMAÇÕES!
hoje1970
US$porTB
Custo de Armazenagem
1980: Apple $14.000.000 por TB
2010: Barracuda, $70 por TB
TRANSFORMAÇÕES!
hoje1970
US$porTB
Custo de Armazenagem
1980: Apple $14.000.000 por TB
2010: Barracuda, $70 por TB
hoje1960
Custo de CPU
US$porGFLOPS
1961: IBM 1620, $1,1Bilhão
2009: AMD Radeon, $0,59
TRANSFORMAÇÕES!
hoje
Custo de Banda
US$porMbps
1998
hoje1970
US$porTB
Custo de Armazenagem
1980: Apple $14.000.000 por TB
2010: Barracuda, $70 por TB
hoje1960
Custo de CPU
US$porGFLOPS
1961: IBM 1620, $1,1Bilhão
2009: AMD Radeon, $0,59
1998: $1.200 por Mbps
2010: $5 por Mbps
TRANSFORMAÇÕES!
hoje
Computadores na Internet
No.Computadores
1969hoje
Custo de Banda
US$porMbps
1998
hoje1970
US$porTB
Custo de Armazenagem
1980: Apple $14.000.000 por TB
2010: Barracuda, $70 por TB
hoje1960
Custo de CPU
US$porGFLOPS
1961: IBM 1620, $1,1Bilhão
2009: AMD Radeon, $0,59
1998: $1.200 por Mbps
2010: $5 por Mbps ARPAnet no. 1
na UCLA
2010: 1Bilhão
TRANSFORMAÇÕES!
EM 2020 SERÃO
80 BILHÕES DE DISPOSITIVOS
CONECTADOS
EM 2015 FORAM
18 BILHÕES DE DISPOSITIVOS
CONECTADOS
Mas o que é Big Data?!
Terrabytes!
Registros!
Transações!
Arquivos!Volume!
Batch!
Near Time!
Real Time!
Streams!Velocidade!
Variedade!
Estruturados!
Não-Estruturados!
Semi-Estruturados!
Todo tipo de dado!
Variedade!
Velocidade!
Volume! Transações !
+ Interação!
+ Observação!
+ Real time!
+ Análise (graph data)!
+ Reação (feedback loop)!
Big Data!=!
Veracidade! Valor para a
EMPRESA!
Como transformar
de modo eficaz,
eficiente e
confiável,
dados relevantes!
em informações úteis?!
2
Veracidade!
Variedade!
Velocidade!
Volume!
VALOR!
B.I.!
B.A.!
E. T. L.!
Precisamos
obrigatoriamente!
de sistemas
sofisticados para
trabalhar!
as informações?!
3
•  É a Plataforma de Software JAVA mais utilizada no mercado atualmente (open
source); Possui conectores com grandes ferramentas de BI e Analytics;!
•  Usada também para processamento semântico;!
•  Escala horizontalmente para Petabytes de dados;!
•  Cria novas necessidades de administração e novos perfis de desenvolvedores
ambientados no MapReduce!
•  É um framework desenvolvido originalmente em 2007 pelo!
FACEBOOK, e agora pertence a APACHE; Base de Dados não!
relacional para grandes volumes de dados, aceita os comandos SQL.!
•  É a Plataforma de Software JAVA mais utilizada no mercado atualmente (open
source); Possui conectores com grandes ferramentas de BI e Analytics;!
•  Usada também para processamento semântico;!
•  Escala horizontalmente para Petabytes de dados;!
•  Cria novas necessidades de administração e novos perfis de desenvolvedores
ambientados no MapReduce!
•  É um framework desenvolvido originalmente em 2007 pelo!
FACEBOOK, e agora pertence a APACHE; Base de Dados não!
relacional para grandes volumes de dados, aceita os comandos SQL.!
•  É um Banco de Dados Distribuído altamente escalável, com arquitetura!
do Dynamo da Amazon e modelo de dados BigTable Google!
•  É a Plataforma de Software JAVA mais utilizada no mercado atualmente (open
source); Possui conectores com grandes ferramentas de BI e Analytics;!
•  Usada também para processamento semântico;!
•  Escala horizontalmente para Petabytes de dados;!
•  Cria novas necessidades de administração e novos perfis de desenvolvedores
ambientados no MapReduce!
•  É um framework desenvolvido originalmente em 2007 pelo!
FACEBOOK, e agora pertence a APACHE; Base de Dados não!
relacional para grandes volumes de dados, aceita os comandos SQL.!
•  PIG: É uma Plataforma Alto-Nível para criação de programas de!
MapReduce com Hadoop!
•  É um Banco de Dados Distribuído altamente escalável, com arquitetura!
do Dynamo da Amazon e modelo de dados BigTable Google!
•  É a Plataforma de Software JAVA mais utilizada no mercado atualmente (open
source); Possui conectores com grandes ferramentas de BI e Analytics;!
•  Usada também para processamento semântico;!
•  Escala horizontalmente para Petabytes de dados;!
•  Cria novas necessidades de administração e novos perfis de desenvolvedores
ambientados no MapReduce!
Resultados concretos
de uso dessa
grande massa
de dados?
4
(*) Gartner/2013!
Obama: Eleições EUA!
Como a NSA consegue espionar milhões de pessoas
nos EUA?!
•  A Agência de Segurança Nacional americana
montou um gigantesco esquema para bisbilhotar as
comunicações nos Estados Unidos e em outros
países com vários projetos de Big Data.!
CASES E CLIENTES!
5
Case: Veja como a UNESCO utilizando Big Data esta ajudando São Paulo e os esportes.!
Levantamento dos 350 Centros Esportivos de São Paulo;!
Atribuição de Raio de 1km ao redor do Centro Esportivo;!
Apresentação de todas as Escolas, Academias, Universidades, Teatros, Empresas, etc dentro da área!
do raio de atuação;!
Relatório no detalhe de todas as informações das empresas de interesse.!
Case: Veja como a Telebras – uma empresa pública/privada – tem utilizado o Business Analytics e os!
conceitos de Big Data da iOpera para utilizar todo o potencial de consumo de sua infraestrutura!
de rede; onde investir e instalar novas redes para que tipo de público; como utilizar os leads !
altamente qualificados e enviar por meio dos SmartPhones da força de vendas.!
Case: Veja como a Unilever utilizando Big Data e Business Analytics consegue melhorar seu sell-out.!
Entendimento do mercado atual (Market Size);!
Identificação do ICP – perfil ideal de cliente para a Unilever;!
Geração de leads com o perfil ICP Unilever Food Solutions;!
Distribuição e positivação em tempo real;!
Integração com BI e visibilidade em tempo real.!
Case: Como a Ceratti conseguiu dobrar suas vendas (aumento em 115%) num ano difícil como foi 2015.!
Utilizando Big Data e a iOpera, com a geração de leads qualificados a Ceratti superou a crise e!
continua crescendo através de sua força de vendas direta e indireta através de seus distribuidores.!
Case: Geração de Leads Qualificados usando Big Data para a Thomson Reuters – empresa com resultados!
globais de U$ 12,6 Bilhões em 2014 – potencializar ainda mais seus resultados através das soluções!
da iOpera.!
Case: Como a Telefonica conseguiu em 10 meses utilizando o BIG DATA da iOpera aumentar em 23 Milhões!
suas vendas. Vendendo onde consegue entregar em até 24 horas, e fazendo UpSell nos Grupos!
Econômicos onde já possui ao menos um cliente.!
Criou uma série de data products baseados em Hadoop como:!
•  “People you may know” (2 pessoas)!
•  “Year in review email” (1 pessoa, 1 mês)!
•  “Network updates” (1 pessoa, 3 meses)!
•  “Skills and Endorsements” (2 pessoas)!
•  LinkedIn: “Hadoop pode capacitar pequenos times a construir grandes
projetos”.!
Mais de 10 data products de:!
•  Busca (vagas, CVs, Empresas etc)!
•  Recomendação por e-mail!
•  Recomendação no site!
•  Geração de conteúdo!
•  Mais de 4 milhões de currículos!
•  Utiliza Solr para os seus aplicativos de busca.!
Recomendação de notícias!
•  Recomendação de notícias personalizada para usuários ou de acordo
com os artigos!
•  Utiliza Hadoop, Mahout e Solr!
•  Mais de 100 Gb por dia de log processados!
•  Um dos maiores sites do Brasil em termos de audiência!
•  Cliente Semantix de Big Data!
Real-Time Big Data Analytics:!
•  Arquitetura MapReduce não é suficiente por não ser real-time!
•  Utilizou soluções que armazenam dados em memória para exibir
informações sobre opções “curtir”!
•  Coloca 80% dos dados em memória (de 100 a 1000x mais rápida);!
•  Coloca o código onde estão os dados!
•  Armazena os dados persistentes após serem processados em bancos
como MySQL, HBase e Cassandra!
O grande segredo da Amazon: recomendações!
•  Recomendações por e-mail!
•  Recomendações no momento da compra!
•  Compras casadas!
•  Análise do comportamento dos usuários!
Análise da cadeia de suprimentos e de que features colocará em cada
carro!
•  Comportamento dos usuários!
•  Comportamento de compra!
•  Integração com smartphones nos veículos!
•  Carros melhores com dados analisados!
•  Natural Language Processing para analisar comentários e
sugestões de usuários!
É isso o que fazemos na iOpera…
Ajudamos os principais agentes de
transformação das empresas a serem
mais eficientes no processo de decisão!.
Muito Obrigado!
www.iopera.com.br

iOpera artigo o que é big data como surgiu o big data para que serve o big data

  • 1.
    Big Data O queé Big Data! Como surgiu isso! Para que serve?!
  • 3.
    Da teoria aprática:! ! Dá mesmo para ! fazer algo prático ! com o ! Big Data?!1
  • 4.
  • 5.
    PERCEBEU:! •  Informações NÃOCABIAM em um ÚNICO SERVIDOR;! •  Servidores quebram eventualmente (Lei de Murphy);! •  Não existiam mecanismos que pudessem armazenar informações não- estruturadas ou estruturadas de forma horizontal.!
  • 6.
    NECESSITAVA:! •  Gravar grandesvolumes de dados não-estruturados (páginas HTML);! •  Processar essas páginas para buscar os links e o PageRank dessas páginas de acordo com as citações dos links;! •  Criar um mecanismo de busca que utilizasse regras de busca textual (TF-IDF) mas que, ao mesmo tempo, aceitasse uma espécie de score boosting nas páginas com maior PageRank.! PERCEBEU:! •  Informações NÃO CABIAM em um ÚNICO SERVIDOR;! •  Servidores quebram eventualmente (Lei de Murphy);! •  Não existiam mecanismos que pudessem armazenar informações não- estruturadas ou estruturadas de forma horizontal.!
  • 7.
    NECESSITAVA:! •  Gravar grandesvolumes de dados não-estruturados (páginas HTML);! •  Processar essas páginas para buscar os links e o PageRank dessas páginas de acordo com as citações dos links;! •  Criar um mecanismo de busca que utilizasse regras de busca textual (TF-IDF) mas que, ao mesmo tempo, aceitasse uma espécie de score boosting nas páginas com maior PageRank.! PERCEBEU:! •  Informações NÃO CABIAM em um ÚNICO SERVIDOR;! •  Servidores quebram eventualmente (Lei de Murphy);! •  Não existiam mecanismos que pudessem armazenar informações não- estruturadas ou estruturadas de forma horizontal.! CRIOU / FEZ:! •  GFS - Google File System: sistema de arquivo distribuído entre vários servidores que dividia os arquivos em blocos e, posteriormente, gravava cada bloco repetido em 3 máquinas diferentes para diminuir a chance de perda de dados;! •  MapReduce: criou um framework que facilitava aos desenvolvedores extrair informações de dados armazenados no GFS - Google File System, de forma paralelizada para aumentar a velocidade.! •  Em 2003 e 2004 os Engenheiros do Google publicaram artigos sobre o GFS e sobre o MapReduce.!
  • 8.
    CONCORRÊNCIA:! •  Em 2005,o Yahoo! Enfrentava forte concorrência e resolve criar o próprio mecanismo de busca.! •  Desenvolve projetos Open Source como o Nutch, um crawler que lê, armazena e indexa páginas na web.! •  Se depara com o mesmo problema do Google: SERVIDORES QUEBRAM!.! •  Solução? ! •  Escrever um novo sistema baseado nos artigos publicados pelos engenheiros do Google. ! •  É criado o HADOOP Distributed File System, ou HDFS (HDFS + MapReduce) ! •  Para fazer o projeto crescer e melhorar rapidamente, o projeto é publicado com uma licença Open Source da Fundação Apache.! •  Surge também um Banco de Dados NoSQL batizado de HBase inspirado em outro projeto do Google, o BigTable.!
  • 9.
  • 10.
    hoje1970 US$porTB Custo de Armazenagem 1980:Apple $14.000.000 por TB 2010: Barracuda, $70 por TB TRANSFORMAÇÕES!
  • 11.
    hoje1970 US$porTB Custo de Armazenagem 1980:Apple $14.000.000 por TB 2010: Barracuda, $70 por TB hoje1960 Custo de CPU US$porGFLOPS 1961: IBM 1620, $1,1Bilhão 2009: AMD Radeon, $0,59 TRANSFORMAÇÕES!
  • 12.
    hoje Custo de Banda US$porMbps 1998 hoje1970 US$porTB Custode Armazenagem 1980: Apple $14.000.000 por TB 2010: Barracuda, $70 por TB hoje1960 Custo de CPU US$porGFLOPS 1961: IBM 1620, $1,1Bilhão 2009: AMD Radeon, $0,59 1998: $1.200 por Mbps 2010: $5 por Mbps TRANSFORMAÇÕES!
  • 13.
    hoje Computadores na Internet No.Computadores 1969hoje Custode Banda US$porMbps 1998 hoje1970 US$porTB Custo de Armazenagem 1980: Apple $14.000.000 por TB 2010: Barracuda, $70 por TB hoje1960 Custo de CPU US$porGFLOPS 1961: IBM 1620, $1,1Bilhão 2009: AMD Radeon, $0,59 1998: $1.200 por Mbps 2010: $5 por Mbps ARPAnet no. 1 na UCLA 2010: 1Bilhão TRANSFORMAÇÕES!
  • 14.
    EM 2020 SERÃO 80BILHÕES DE DISPOSITIVOS CONECTADOS EM 2015 FORAM 18 BILHÕES DE DISPOSITIVOS CONECTADOS
  • 15.
    Mas o queé Big Data?!
  • 16.
  • 17.
  • 18.
  • 19.
    Variedade! Velocidade! Volume! Transações ! +Interação! + Observação! + Real time! + Análise (graph data)! + Reação (feedback loop)! Big Data!=! Veracidade! Valor para a EMPRESA!
  • 20.
    Como transformar de modoeficaz, eficiente e confiável, dados relevantes! em informações úteis?! 2
  • 21.
  • 22.
  • 24.
    •  É aPlataforma de Software JAVA mais utilizada no mercado atualmente (open source); Possui conectores com grandes ferramentas de BI e Analytics;! •  Usada também para processamento semântico;! •  Escala horizontalmente para Petabytes de dados;! •  Cria novas necessidades de administração e novos perfis de desenvolvedores ambientados no MapReduce!
  • 25.
    •  É umframework desenvolvido originalmente em 2007 pelo! FACEBOOK, e agora pertence a APACHE; Base de Dados não! relacional para grandes volumes de dados, aceita os comandos SQL.! •  É a Plataforma de Software JAVA mais utilizada no mercado atualmente (open source); Possui conectores com grandes ferramentas de BI e Analytics;! •  Usada também para processamento semântico;! •  Escala horizontalmente para Petabytes de dados;! •  Cria novas necessidades de administração e novos perfis de desenvolvedores ambientados no MapReduce!
  • 26.
    •  É umframework desenvolvido originalmente em 2007 pelo! FACEBOOK, e agora pertence a APACHE; Base de Dados não! relacional para grandes volumes de dados, aceita os comandos SQL.! •  É um Banco de Dados Distribuído altamente escalável, com arquitetura! do Dynamo da Amazon e modelo de dados BigTable Google! •  É a Plataforma de Software JAVA mais utilizada no mercado atualmente (open source); Possui conectores com grandes ferramentas de BI e Analytics;! •  Usada também para processamento semântico;! •  Escala horizontalmente para Petabytes de dados;! •  Cria novas necessidades de administração e novos perfis de desenvolvedores ambientados no MapReduce!
  • 27.
    •  É umframework desenvolvido originalmente em 2007 pelo! FACEBOOK, e agora pertence a APACHE; Base de Dados não! relacional para grandes volumes de dados, aceita os comandos SQL.! •  PIG: É uma Plataforma Alto-Nível para criação de programas de! MapReduce com Hadoop! •  É um Banco de Dados Distribuído altamente escalável, com arquitetura! do Dynamo da Amazon e modelo de dados BigTable Google! •  É a Plataforma de Software JAVA mais utilizada no mercado atualmente (open source); Possui conectores com grandes ferramentas de BI e Analytics;! •  Usada também para processamento semântico;! •  Escala horizontalmente para Petabytes de dados;! •  Cria novas necessidades de administração e novos perfis de desenvolvedores ambientados no MapReduce!
  • 28.
    Resultados concretos de usodessa grande massa de dados? 4
  • 29.
  • 31.
    Obama: Eleições EUA! Comoa NSA consegue espionar milhões de pessoas nos EUA?! •  A Agência de Segurança Nacional americana montou um gigantesco esquema para bisbilhotar as comunicações nos Estados Unidos e em outros países com vários projetos de Big Data.! CASES E CLIENTES! 5
  • 32.
    Case: Veja como aUNESCO utilizando Big Data esta ajudando São Paulo e os esportes.! Levantamento dos 350 Centros Esportivos de São Paulo;! Atribuição de Raio de 1km ao redor do Centro Esportivo;! Apresentação de todas as Escolas, Academias, Universidades, Teatros, Empresas, etc dentro da área! do raio de atuação;! Relatório no detalhe de todas as informações das empresas de interesse.! Case: Veja como a Telebras – uma empresa pública/privada – tem utilizado o Business Analytics e os! conceitos de Big Data da iOpera para utilizar todo o potencial de consumo de sua infraestrutura! de rede; onde investir e instalar novas redes para que tipo de público; como utilizar os leads ! altamente qualificados e enviar por meio dos SmartPhones da força de vendas.! Case: Veja como a Unilever utilizando Big Data e Business Analytics consegue melhorar seu sell-out.! Entendimento do mercado atual (Market Size);! Identificação do ICP – perfil ideal de cliente para a Unilever;! Geração de leads com o perfil ICP Unilever Food Solutions;! Distribuição e positivação em tempo real;! Integração com BI e visibilidade em tempo real.! Case: Como a Ceratti conseguiu dobrar suas vendas (aumento em 115%) num ano difícil como foi 2015.! Utilizando Big Data e a iOpera, com a geração de leads qualificados a Ceratti superou a crise e! continua crescendo através de sua força de vendas direta e indireta através de seus distribuidores.! Case: Geração de Leads Qualificados usando Big Data para a Thomson Reuters – empresa com resultados! globais de U$ 12,6 Bilhões em 2014 – potencializar ainda mais seus resultados através das soluções! da iOpera.! Case: Como a Telefonica conseguiu em 10 meses utilizando o BIG DATA da iOpera aumentar em 23 Milhões! suas vendas. Vendendo onde consegue entregar em até 24 horas, e fazendo UpSell nos Grupos! Econômicos onde já possui ao menos um cliente.!
  • 33.
    Criou uma sériede data products baseados em Hadoop como:! •  “People you may know” (2 pessoas)! •  “Year in review email” (1 pessoa, 1 mês)! •  “Network updates” (1 pessoa, 3 meses)! •  “Skills and Endorsements” (2 pessoas)! •  LinkedIn: “Hadoop pode capacitar pequenos times a construir grandes projetos”.! Mais de 10 data products de:! •  Busca (vagas, CVs, Empresas etc)! •  Recomendação por e-mail! •  Recomendação no site! •  Geração de conteúdo! •  Mais de 4 milhões de currículos! •  Utiliza Solr para os seus aplicativos de busca.! Recomendação de notícias! •  Recomendação de notícias personalizada para usuários ou de acordo com os artigos! •  Utiliza Hadoop, Mahout e Solr! •  Mais de 100 Gb por dia de log processados! •  Um dos maiores sites do Brasil em termos de audiência! •  Cliente Semantix de Big Data!
  • 34.
    Real-Time Big DataAnalytics:! •  Arquitetura MapReduce não é suficiente por não ser real-time! •  Utilizou soluções que armazenam dados em memória para exibir informações sobre opções “curtir”! •  Coloca 80% dos dados em memória (de 100 a 1000x mais rápida);! •  Coloca o código onde estão os dados! •  Armazena os dados persistentes após serem processados em bancos como MySQL, HBase e Cassandra! O grande segredo da Amazon: recomendações! •  Recomendações por e-mail! •  Recomendações no momento da compra! •  Compras casadas! •  Análise do comportamento dos usuários! Análise da cadeia de suprimentos e de que features colocará em cada carro! •  Comportamento dos usuários! •  Comportamento de compra! •  Integração com smartphones nos veículos! •  Carros melhores com dados analisados! •  Natural Language Processing para analisar comentários e sugestões de usuários!
  • 35.
    É isso oque fazemos na iOpera… Ajudamos os principais agentes de transformação das empresas a serem mais eficientes no processo de decisão!. Muito Obrigado! www.iopera.com.br