SlideShare uma empresa Scribd logo
1 de 56
5 Vs do Big Data
Como as soluções de Big Data têm
revolucionado o mercado mundial
Sobre a Semantix
• Startup B2B
• Fundada em 2007. Open Source desde 2010.
• Parceira da LucidWorks e da Cloudera
• Possui profissionais certificados Cloudera
– Apenas 12 brasileiros, dos quais 3 vivem fora do
Brasil.
• Especializada em
busca, recomendações, machine
learning, processamento de linguagem natural
e web semântica.
Nossos Serviços
• Treinamento em Solr, Hadoop & Mahout para
empresas e em datas especiais.
• Consultoria Open Source personalizada com
profissionais certificados.
• Implantação de clouds de Big Data com
Hadoop e de sistemas de Search com Solr ou
Elastic Search.
• Revenda das ferramentas LucidWorks
Search, LucidWorks Big Data e Cloudera
Enterprise.
Entre em contato!
Leo Oliveira
CTO & Co-Founder
www.semantix.com.br
loliveira@semantix.com.br
faleconosco@semantix.com.br
Skype: lennydays
Twitter: @SemantixBR
Facebook: www.facebook.com/SemantixBR
LinkedIn: http://www.linkedin.com/in/leonardodias
LinkedIn Semantix: http://www.linkedin.com/company/semantix-brasil
Agenda
Virtude
Volume
Variedade
Velocidade
Valor
Parte 1: Volume
Parte 1: Ponta do Iceberg
99% dos dados
estão “debaixo
d’água” e não
são utilizados
nas empresas
Parte 1: Onde colocar tanta
informação?
Parte 1: Onde colocar tanta
informação?
Parte 1: Onde colocar tanta
informação?
Parte 1: Como processar tanta
informação?
• Em 2007, o Google processava 400 PB de
dados por mês;
• Em 2010, o Facebook processava 100 PB por
mês;
• Tecnologia de Big Data é usada por todos os
grandes players de internet.
• A partir de 2006, empresas de outros ramos
passam a adotar soluções de Big Data nos
EUA.
Parte 1: Como tudo começou?
“We assume page A has pages T1...Tn which point to it (i.e., are citations). The
parameter d is a damping factor which can be set between 0 and 1. We usually set
d to 0.85. There are more details about d in the next section. Also C(A) is defined as
the number of links going out of page A. The PageRank of a page A is given as
follows:
PR(A) = (1-d) + d (PR(T1)/C(T1) + ... + PR(Tn)/C(Tn))
Note that the PageRanks form a probability distribution over web pages, so the
sum of all web pages' PageRanks will be one.”
Parte 1: Como tudo começou?
• Google precisava:
• Gravar grandes volumes de dados não-estruturados (páginas HTML);
• Processar essas páginas para buscar as citações (links) e calcular o
PageRank dessas páginas de acordo com as citações;
• Criar um mecanismo de busca que utilizasse regras de busca textual (TF-
IDF) mas que, ao mesmo tempo, aceitasse uma espécie de score boosting
nas páginas com maior PageRank.
Parte 1: Como tudo começou?
• Google percebeu que:
• Informações não cabiam num único servidor;
• Servidores quebram eventualmente;
• Não existiam mecanismos que pudessem armazenar informações não-
estruturadas ou estruturadas de forma horizontal.
Parte 1: Como tudo começou?
• Google criou:
• Google File System: sistema de arquivo distribuído entre vários servidores
que dividia os arquivos em blocos e, posteriormente, gravava cada bloco
repetido em 3 máquinas diferentes para diminuir bastante a chance de
perda de dados;
• MapReduce: criou um framework que facilitaria para os desenvolvedores
extrair informação de dados armazenados no Google File System, de forma
paralelizada para aumentar a velocidade
• Engenheiros do Google publicaram papers sobre o GFS e sobre o
MapReduce nos anos de 2003 e 2004.
Parte 1: Como tudo começou?
• Em 2005, o Yahoo! Enfrentava forte concorrência e resolve criar o próprio
mecanismo de busca.
• Desenvolve projetos Open Source como o Nutch, um crawler que lê, armazena
e indexa páginas na web.
• Se depara com o mesmo problema do Google: máquinas quebram.
• Solução? Escrever um novo sistema baseado nos papers publicados pelos
engenheiros do Google. É criado o Hadoop Distributed File System, ou HDFS.
• Para fazer o projeto crescer e melhorar rapidamente, o projeto é publicado com
uma licença Open Source da Fundação Apache.
• Surge também uma database NoSQL inspirada em outro projeto do Google, o
BigTable, chamada HBase.
Parte 1: Como tudo começou?
• Não é a única ferramenta de Big Data, mas é a mais utilizada no mercado
atualmente.
• Já possui conectores com grandes ferramentas de BI e analytics
• Usado também para processamento semântico
• Escala horizontalmente para Petabytes de dados
• Cria novas necessidades de administração e novos perfis de desenvolvedores
ambientados no MapReduce
• Novos sistemas de abstração de complexidade do MapReduce, como Hive (SQL)
e Pig.
HDFS + MapReduce = HADOOP
Parte 1: Como tudo começou?
Podemos adicionar à lista também as ferramentas Solr (2006) e
ElasticSearch (2010) como databases NoSQL com modelo de documentos
e voltadas para Search. Também são ferramentas de Big Data.
Parte 2: Variedade
Parte 2: Variedade
Parte 2: Variedade
FILES
WEB LOGS
SOCIAL
MEDIA
TRANSACTIONAL
DATA
SMART
GRIDS
OPERATIONAL DATA
DIGITAL
CONTENT
R&D DATA
AD IMPRESSIONS
Parte 2: Exemplos
• Processar imagens de fotos para encontrar textos e catalogá-los
(MapReduce);
• Fazer um “join” de dados de log do servidor web com tabelas do banco
de dados para fazer uma análise do que cada usuário está navegando
no site (Pig, Hive);
• Buscar em logs de eventos de transações financeiras possíveis
anomalias para detecção de fraude (Pig, Hive, MapReduce);
• Analisar o comportamento de milhões de usuários em um determinado
serviço para construir data products (Pig, Hive, MapReduce, Tableau,
QlikView, R);
• Criar mecanismos de machine learning a partir de avaliações de
usuários feitas a produtos ou serviços para gerar recomendações
inteligentes (Mahout, R, Octave, MatLab, Streaming);
• Fazer consultas semânticas de texto complexas utilizando ferramentas
adequadas e obtendo rápidos resultados tanto para buscas quanto
para recomendações inteligentes (Solr, ElasticSearch, Lucene);
Parte 3: Velocidade
Assumption 3: A data set fits on one machine...
Parte 3: A metáfora da colméia
Parte 3: Novos paradigmas
• Sistemas que utilizam muito memória RAM e logs de transações
para aumentar a performance e garantir a confiabilidade;
• Computação paralelizada
• Escalabilidade de petabytes, em vez de gigabytes
• Armazenamento e processamento distribuído
• Sistemas de Big Data aumentam a capacidade de sistemas
existentes em vez de substituí-los
• Em alguns casos é possível substituir bancos transacionais para
algumas aplicações utilizando bancos de dados NoSQL como
Riak, Voldemort, Hbase, Cassandra, MongoDB, Solr, ElasticSearch
dentre outros
• Cada ferramenta de Big Data tem a sua especialização. É
necessário conhecer mais do que uma para tirar vantagens.
Parte 4: Virtude
Parte 4: Virtude
Simplicidade
Generosidade
Caridade
VontadePrudência
Paciência
Humildade
Parte 4: Virtude
Simplicidade
Generosidade
Caridade
VontadePrudência
Paciência
Humildade
Simplicidade: “É
preciso trabalhar
duro para fazer o
simples.” Steve
Jobs.
Parte 4: Virtude
Simplicidade
Generosidade
Caridade
VontadePrudência
Paciência
Humildade
Generosidade:
investir sem uma
expectativa de
retorno
imediata, mas com
retorno no longo
prazo
Parte 4: Virtude
Simplicidade
Generosidade
Caridade
VontadePrudência
Paciência
Humildade
Caridade:
compaixão, enten
dimento dos
clientes, política
de
privacidade, esclar
ecimento do
público
Parte 4: Virtude
Simplicidade
Generosidade
Caridade
VontadePrudência
Paciência
Humildade
Vontade: os
profissionais
envolvidos devem
ter muita vontade
de manipular
dados. Data
jujutsu.
Parte 4: Virtude
Simplicidade
Generosidade
Caridade
VontadePrudência
Paciência
Humildade
Prudência:
novamente os
limites da ética.
Exemplo do
câncer e da
Angelina Jolie. Big
Data pode mudar
muitas coisas.
Parte 4: Virtude
Simplicidade
Generosidade
Caridade
VontadePrudência
Paciência
Humildade
Paciência: é
preciso paciência.
Desenvolver para
Big Data lidar com
exceções e muito
trabalho amostral
é realizado antes
do final.
Parte 4: Virtude
Simplicidade
Generosidade
Caridade
VontadePrudência
Paciência
Humildade
Humildade: Big
Data é uma forma
de
autoconheciment
o. É necessário ter
humildade para
aceitar o que os
dados mostram.
Parte 5: Valor
Parte 5: Valor
“A vida é a flor da qual o amor é o
mel”.
Victor Hugo
Parte 5: Morgan Stanley
• Análise de Portfolio:
• Sistemas de database e de grid tradicionais não funcionam
• Construíram um sistema baseado em Hadoop com uma infraestrutura barata
• Arquitetura escalável para processar dados ainda maiores
• Detecção de fraude:
• Análise de logs de banco de dados comparada com análise de logs web
• Dados alterados no banco sem correspondência na web ligam um alerta
• Economia de bilhões em fraudes.
Fonte: http://www.forbes.com/sites/tomgroenfeldt/2012/05/30/morgan-stanley-takes-on-big-data-with-hadoop/
Parte 5: Facebook
• Real-Time Big Data Analytics:
• Arquitetura MapReduce não é suficiente por não ser real-time
• Utilizou soluções que armazenam dados em memória para exibir
informações sobre opções “curtir”
• Coloca 80% dos dados em memória
• RAM é 100 a 1000x mais rápida do que disco
• Coloca o código onde estão os dados
• Armazena os dados persistentes após serem processados em bancos como
MySQL, HBase e Cassandra
Fonte: http://www.slideshare.net/giganati/real-time-analytics-for-big-data-a-facebook-casestudy
Parte 5: Crossbow
• Genoma e testes genéticos por menos de 100 dólares
• Arquitetura MapReduce para processar genes
• Michael Schatz desenvolveu o sistema para fazer testes genéticos por menos
de 100 dólares
• Expectativa de uso na ajuda de prevenção de doenças e pesquisa genética
• Técnicas: detecção de padrões, classificação e cálculo de probabilidades.
Fonte: http://www.slideshare.net/giganati/real-time-analytics-for-big-data-a-facebook-casestudy
Parte 5: Netflix
• Série House of Cards
• A partir da análise de navegação e reviews, Netflix percebeu que poderia
criar uma série de sucesso;
• Viu que Kevin Spacey tinha grande aceitação a partir da análise de dados;
• Entendeu que thrillers políticos tinham grande apelo com o seu público;
• Recomendação de filmes
• Utiliza machine learning com técnicas de filtro colaborativo e k-nearest
neighbor.
• Recomenda filmes com precisão com um catálogo gigantesco. No Brasil o
catálogo é menor, mas ainda assim a precisão é muito boa.
Fonte: http://www.fastcodesign.com/1671893/the-secret-sauce-behind-netflixs-hit-house-of-cards-big-data
Parte 5: LinkedIn
• Criou uma série de data products baseados em Hadoop como:
• “People you may know” (2 pessoas)
• “Year in review email” (1 pessoa, 1 mês)
• “Network updates” (1 pessoa, 3 meses)
• “Skills and Endorsements” (2 pessoas)
• LinkedIn: “Hadoop pode capacitar pequenos times a construir grandes
projetos”.
Fonte: http://www.slideshare.net/joseph_adler/how-to-win-friends-and-influence-people-with-hadoop
Parte 5: Amazon
• O grande segredo da Amazon: recomendações
• Recomendações por e-mail
• Recomendações no momento da compra
• Compras casadas
• Análise do comportamento dos usuários
Fonte: http://tech.fortune.cnn.com/2012/07/30/amazon-5/
Parte 5: Obama
• Análise de sentimento no Twitter e exército de apoiadores no Facebook
• Levantamento de dados de mídias sociais
• Análise de sentimento
• Alcançar o eleitor certo na hora certa
• Diversas técnicas de data science sendo utilizadas
Fonte: http://gigaom.com/2012/12/08/how-obamas-data-scientists-built-a-volunteer-army-on-facebook/
Parte 5: Ford
• Análise da cadeia de suprimentos e de que features colocará em cada carro
• Comportamento dos usuários
• Comportamento de compra
• Integração com smartphones nos veículos
• Carros melhores com dados analisados
• Natural Language Processing para analisar comentários e sugestões de
usuários
Fonte: http://gigaom.com/2013/04/26/how-data-is-changing-the-car-game-for-ford/
Parte 5: Aetna
• Plano de saúde está analisando os seus clientes para oferecer mais saúde e prever
doenças
• Resultados de exames
• Consultas médicas (grafo)
• Prevenção de câncer
Fonte: http://gigaom.com/2012/11/20/how-aetna-is-using-big-data-to-improve-patient-health/
Parte 5: Globo.com
• Recomendação de notícias
• Recomendação de notícias personalizada para usuários ou de acordo com os
artigos
• Utiliza Hadoop, Mahout e Solr
• Mais de 100 Gb por dia de log processados
• Um dos maiores sites do Brasil em termos de audiência
• Cliente Semantix de Big Data
Fonte: http://gigaom.com/2012/11/20/how-aetna-is-using-big-data-to-improve-patient-health/
Parte 5: Doinet.com.br
• Busca de documentos
• Mais de 90 milhões de documentos
• Consulta com relevância
• Cada documento podendo conter mais de 1000 páginas de dados
• Formatos variados (PDF, Texto)
• Recomendação de conteúdo.
Fonte: http://gigaom.com/2012/11/20/how-aetna-is-using-big-data-to-improve-patient-health/
Parte 5: Catho
• Mais de 10 data products de:
• Busca (vagas, CVs, Empresas etc)
• Recomendação por e-mail
• Recomendação no site
• Geração de conteúdo
• Mais de 4 milhões de currículos
• Utiliza Solr para os seus aplicativos de busca.
Fonte: http://gigaom.com/2012/11/20/how-aetna-is-using-big-data-to-improve-patient-health/
Parte 5: Como extrair valor?
• Capacitação profissional
• Formação de novos Data Scientists
• Capacitação nas novas tecnologias
• Entendimento das tecnologias para melhor escolha de custo-benefício
• Criação de projetos
• Data Scientists criam Data Products
• Data Analytics (dashboards, análises complexas, dados na íntegra em
vez de amostras)
• Servidores de Busca
• Aplicativos e softwares
• Machine Learning
• Fim dos relatórios “executivos” tradicionais
• Entrega de produtos que podem ser analisados pelos executivos de forma
ad-hoc e não mais os antigos relatórios impressos
• Mudança de cultura em toda a empresa para uma readaptação à nova
realidade.
Parte 5: E a infra?
• Prepare-se para a escalabilidade horizontal.
• Privada
• Custos com data center
• Masters x Slaves
• Masters requerem muita memória, mas pouco disco, com RAID e
gravando dados em NFS para não perder nada.
• Slaves requerem menos memória e CPU e muitos discos. Não vale a
pena usar RAID. O melhor é JBOD: Just a Bunch of Disks.
• Pública
• AWS (EC2 e EMR)
• Azure
• Escalabilidade On-Demand
Parte 5: Sem SQL?
• NoSQL no Hadoop: Impala
• Capacidade de executar queries SQL em Real-Time
• Habilita conservação de dados na memória RAM do Cluster
• Consultas complexas de SQL usando álgebra relacional, em vez de
MapReduce (diferente do Hive)
• Lançado em 2013
Parte 5: Search &
Recommendation
• Solr 4 ou SolrCloud
– Escalabilidade horizontal
– Habilidade e versatilidade em consulta de dados
– Orientada a documentos
– Capaz de alimentar sistemas de análise, pois possui
ótimo sistema de agregação de dados (facets)
– Alta disponibilidade aliada a alto poder de busca
– Foi incorporado pela Cloudera recentemente como
ferramenta para consultar dados em larga escala.
INFINITAS
POSSIBILIDADES
Sobre a Semantix
• Startup B2B
• Fundada em 2007. Open Source desde 2010.
• Parceira da LucidWorks e da Cloudera
• Possui profissionais certificados Cloudera
– Apenas 12 brasileiros, dos quais 3 vivem fora do
Brasil.
• Especializada em
busca, recomendações, machine
learning, processamento de linguagem natural
e web semântica.
Nossos Serviços
• Treinamento em Solr, Hadoop & Mahout para
empresas e em datas especiais.
• Consultoria Open Source personalizada com
profissionais certificados.
• Implantação de clouds de Big Data com
Hadoop e de sistemas de Search com Solr ou
Elastic Search.
• Revenda das ferramentas LucidWorks
Search, LucidWorks Big Data e Cloudera
Enterprise.
Entre em contato!
Leo Oliveira
CTO & Co-Founder
www.semantix.com.br
loliveira@semantix.com.br
faleconosco@semantix.com.br
Skype: lennydays
Twitter: @SemantixBR
Facebook: www.facebook.com/SemantixBR
LinkedIn: http://www.linkedin.com/in/leonardodias
LinkedIn Semantix: http://www.linkedin.com/company/semantix-brasil

Mais conteúdo relacionado

Mais procurados

Big Data e Análise de Dados Massivos
Big Data e Análise de Dados MassivosBig Data e Análise de Dados Massivos
Big Data e Análise de Dados MassivosFrancisco Oliveira
 
Big data: Conceitos e Desafios
Big data: Conceitos e DesafiosBig data: Conceitos e Desafios
Big data: Conceitos e DesafiosFlávio Sousa
 
BIGDATA: Da teoria à Pratica
BIGDATA: Da teoria à PraticaBIGDATA: Da teoria à Pratica
BIGDATA: Da teoria à PraticaDaniel Checchia
 
Big Data, o que é isso?
Big Data, o que é isso?Big Data, o que é isso?
Big Data, o que é isso?Ambiente Livre
 
Big data e mineração de dados
Big data e mineração de dadosBig data e mineração de dados
Big data e mineração de dadosElton Meira
 
Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - Curitiba
Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - CuritibaPalestra: Big Data Open Source com Hadoop - FLISOL 2014 - Curitiba
Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - CuritibaMarcio Junior Vieira
 
Data Science - A arte de estudar e analisar dados
Data Science - A arte de estudar e analisar dadosData Science - A arte de estudar e analisar dados
Data Science - A arte de estudar e analisar dadosDayane Cristine Leite
 
Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...
Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...
Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...Ambiente Livre
 
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...Ambiente Livre
 
Big Data Analytics - Data Science - Aplicação e Tecnologia
Big Data Analytics - Data Science - Aplicação e TecnologiaBig Data Analytics - Data Science - Aplicação e Tecnologia
Big Data Analytics - Data Science - Aplicação e TecnologiaHélio Silva
 
Palestra Big Data SCTI
Palestra Big Data SCTIPalestra Big Data SCTI
Palestra Big Data SCTIBruna Pereira
 
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...Ambiente Livre
 
XXXI JAI - Apache Hadoop: conceitos teóricos e práticos, evolução e novas pos...
XXXI JAI - Apache Hadoop: conceitos teóricos e práticos, evolução e novas pos...XXXI JAI - Apache Hadoop: conceitos teóricos e práticos, evolução e novas pos...
XXXI JAI - Apache Hadoop: conceitos teóricos e práticos, evolução e novas pos...Ivanilton Polato
 

Mais procurados (20)

Big Data e Análise de Dados Massivos
Big Data e Análise de Dados MassivosBig Data e Análise de Dados Massivos
Big Data e Análise de Dados Massivos
 
Big data: Conceitos e Desafios
Big data: Conceitos e DesafiosBig data: Conceitos e Desafios
Big data: Conceitos e Desafios
 
BIGDATA: Da teoria à Pratica
BIGDATA: Da teoria à PraticaBIGDATA: Da teoria à Pratica
BIGDATA: Da teoria à Pratica
 
Palestra Introdução a Big Data
Palestra Introdução a Big DataPalestra Introdução a Big Data
Palestra Introdução a Big Data
 
Big data
Big dataBig data
Big data
 
Big Data, o que é isso?
Big Data, o que é isso?Big Data, o que é isso?
Big Data, o que é isso?
 
Big Data - Conceitos Básicos
Big Data - Conceitos BásicosBig Data - Conceitos Básicos
Big Data - Conceitos Básicos
 
Big data e mineração de dados
Big data e mineração de dadosBig data e mineração de dados
Big data e mineração de dados
 
Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - Curitiba
Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - CuritibaPalestra: Big Data Open Source com Hadoop - FLISOL 2014 - Curitiba
Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - Curitiba
 
Treinamento hadoop - dia1
Treinamento hadoop - dia1Treinamento hadoop - dia1
Treinamento hadoop - dia1
 
Hadoop, Big Data e Cloud Computing
Hadoop, Big Data e Cloud ComputingHadoop, Big Data e Cloud Computing
Hadoop, Big Data e Cloud Computing
 
Data Science - A arte de estudar e analisar dados
Data Science - A arte de estudar e analisar dadosData Science - A arte de estudar e analisar dados
Data Science - A arte de estudar e analisar dados
 
Big Data e NoSQL
Big Data e NoSQLBig Data e NoSQL
Big Data e NoSQL
 
Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...
Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...
Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...
 
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
 
Big Data Analytics - Data Science - Aplicação e Tecnologia
Big Data Analytics - Data Science - Aplicação e TecnologiaBig Data Analytics - Data Science - Aplicação e Tecnologia
Big Data Analytics - Data Science - Aplicação e Tecnologia
 
Palestra Big Data SCTI
Palestra Big Data SCTIPalestra Big Data SCTI
Palestra Big Data SCTI
 
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
 
Big Data, JVM e Redes Sociais
Big Data, JVM e Redes SociaisBig Data, JVM e Redes Sociais
Big Data, JVM e Redes Sociais
 
XXXI JAI - Apache Hadoop: conceitos teóricos e práticos, evolução e novas pos...
XXXI JAI - Apache Hadoop: conceitos teóricos e práticos, evolução e novas pos...XXXI JAI - Apache Hadoop: conceitos teóricos e práticos, evolução e novas pos...
XXXI JAI - Apache Hadoop: conceitos teóricos e práticos, evolução e novas pos...
 

Semelhante a OS CINCO Vs DO BIG DATA

iOpera artigo o que é big data como surgiu o big data para que serve o big data
iOpera artigo o que é big data como surgiu o big data para que serve o big dataiOpera artigo o que é big data como surgiu o big data para que serve o big data
iOpera artigo o que é big data como surgiu o big data para que serve o big dataValêncio Garcia
 
Cientista de Dados – Dominando o Big Data com Software Livre
Cientista de Dados – Dominando o Big Data com Software Livre Cientista de Dados – Dominando o Big Data com Software Livre
Cientista de Dados – Dominando o Big Data com Software Livre Ambiente Livre
 
TDC2016POA | Trilha BigData - Orquestrando Hadoop, Cassandra e MongoDB com o ...
TDC2016POA | Trilha BigData - Orquestrando Hadoop, Cassandra e MongoDB com o ...TDC2016POA | Trilha BigData - Orquestrando Hadoop, Cassandra e MongoDB com o ...
TDC2016POA | Trilha BigData - Orquestrando Hadoop, Cassandra e MongoDB com o ...tdc-globalcode
 
Palestra: Cientista de Dados – Dominando o Big Data com Software Livre
Palestra: Cientista de Dados – Dominando o Big Data com Software LivrePalestra: Cientista de Dados – Dominando o Big Data com Software Livre
Palestra: Cientista de Dados – Dominando o Big Data com Software LivreAmbiente Livre
 
Oficina técnica da Infraestrutura Nacional de Dados Abertos - INDA
Oficina técnica da Infraestrutura Nacional de Dados Abertos - INDAOficina técnica da Infraestrutura Nacional de Dados Abertos - INDA
Oficina técnica da Infraestrutura Nacional de Dados Abertos - INDAnitaibezerra
 
PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
PostgreSQL em projetos de Business Analytics e Big Data Analytics com PentahoPostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
PostgreSQL em projetos de Business Analytics e Big Data Analytics com PentahoAmbiente Livre
 
AWS Data Immersion Webinar Week - Planeje e entenda como criar um repositório...
AWS Data Immersion Webinar Week - Planeje e entenda como criar um repositório...AWS Data Immersion Webinar Week - Planeje e entenda como criar um repositório...
AWS Data Immersion Webinar Week - Planeje e entenda como criar um repositório...Amazon Web Services LATAM
 
TDC2017 - Misturando dados com Pentaho para insights mais significativos
TDC2017 - Misturando dados com Pentaho para insights mais significativosTDC2017 - Misturando dados com Pentaho para insights mais significativos
TDC2017 - Misturando dados com Pentaho para insights mais significativosAmbiente Livre
 
Case RDStation: Construindo DataLakes com Apache Hadoop em cloud agnóstica
Case RDStation: Construindo DataLakes com Apache Hadoop em cloud agnósticaCase RDStation: Construindo DataLakes com Apache Hadoop em cloud agnóstica
Case RDStation: Construindo DataLakes com Apache Hadoop em cloud agnósticaAlessandro Binhara
 
Pentaho Hadoop Big Data e Data Lakes
Pentaho Hadoop Big Data e Data LakesPentaho Hadoop Big Data e Data Lakes
Pentaho Hadoop Big Data e Data LakesAmbiente Livre
 
Big Data Open Source com Hadoop
Big Data Open Source com HadoopBig Data Open Source com Hadoop
Big Data Open Source com HadoopAmbiente Livre
 
Big Data, NoSQL e In Memory Databases
Big Data, NoSQL e In Memory DatabasesBig Data, NoSQL e In Memory Databases
Big Data, NoSQL e In Memory DatabasesCaio Louro
 
BigQuery Performance Improvements Storage API
BigQuery Performance Improvements Storage APIBigQuery Performance Improvements Storage API
BigQuery Performance Improvements Storage APIAlvaro Viebrantz
 

Semelhante a OS CINCO Vs DO BIG DATA (20)

Big Data
Big DataBig Data
Big Data
 
iOpera artigo o que é big data como surgiu o big data para que serve o big data
iOpera artigo o que é big data como surgiu o big data para que serve o big dataiOpera artigo o que é big data como surgiu o big data para que serve o big data
iOpera artigo o que é big data como surgiu o big data para que serve o big data
 
Cientista de Dados – Dominando o Big Data com Software Livre
Cientista de Dados – Dominando o Big Data com Software Livre Cientista de Dados – Dominando o Big Data com Software Livre
Cientista de Dados – Dominando o Big Data com Software Livre
 
TDC2016POA | Trilha BigData - Orquestrando Hadoop, Cassandra e MongoDB com o ...
TDC2016POA | Trilha BigData - Orquestrando Hadoop, Cassandra e MongoDB com o ...TDC2016POA | Trilha BigData - Orquestrando Hadoop, Cassandra e MongoDB com o ...
TDC2016POA | Trilha BigData - Orquestrando Hadoop, Cassandra e MongoDB com o ...
 
Big Data
Big DataBig Data
Big Data
 
Palestra: Cientista de Dados – Dominando o Big Data com Software Livre
Palestra: Cientista de Dados – Dominando o Big Data com Software LivrePalestra: Cientista de Dados – Dominando o Big Data com Software Livre
Palestra: Cientista de Dados – Dominando o Big Data com Software Livre
 
Oficina técnica da Infraestrutura Nacional de Dados Abertos - INDA
Oficina técnica da Infraestrutura Nacional de Dados Abertos - INDAOficina técnica da Infraestrutura Nacional de Dados Abertos - INDA
Oficina técnica da Infraestrutura Nacional de Dados Abertos - INDA
 
PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
PostgreSQL em projetos de Business Analytics e Big Data Analytics com PentahoPostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
 
Treinamento hadoop - dia4
Treinamento hadoop - dia4Treinamento hadoop - dia4
Treinamento hadoop - dia4
 
AWS Data Immersion Webinar Week - Planeje e entenda como criar um repositório...
AWS Data Immersion Webinar Week - Planeje e entenda como criar um repositório...AWS Data Immersion Webinar Week - Planeje e entenda como criar um repositório...
AWS Data Immersion Webinar Week - Planeje e entenda como criar um repositório...
 
TDC2017 - Misturando dados com Pentaho para insights mais significativos
TDC2017 - Misturando dados com Pentaho para insights mais significativosTDC2017 - Misturando dados com Pentaho para insights mais significativos
TDC2017 - Misturando dados com Pentaho para insights mais significativos
 
Case RDStation: Construindo DataLakes com Apache Hadoop em cloud agnóstica
Case RDStation: Construindo DataLakes com Apache Hadoop em cloud agnósticaCase RDStation: Construindo DataLakes com Apache Hadoop em cloud agnóstica
Case RDStation: Construindo DataLakes com Apache Hadoop em cloud agnóstica
 
TA1 - Slides Acessibilidade.pdf
TA1 - Slides Acessibilidade.pdfTA1 - Slides Acessibilidade.pdf
TA1 - Slides Acessibilidade.pdf
 
Pentaho Hadoop Big Data e Data Lakes
Pentaho Hadoop Big Data e Data LakesPentaho Hadoop Big Data e Data Lakes
Pentaho Hadoop Big Data e Data Lakes
 
Big Data Open Source com Hadoop
Big Data Open Source com HadoopBig Data Open Source com Hadoop
Big Data Open Source com Hadoop
 
Big Data, NoSQL e In Memory Databases
Big Data, NoSQL e In Memory DatabasesBig Data, NoSQL e In Memory Databases
Big Data, NoSQL e In Memory Databases
 
Hadoop
HadoopHadoop
Hadoop
 
Big data e ecossistema hadoop
Big data e ecossistema hadoopBig data e ecossistema hadoop
Big data e ecossistema hadoop
 
Hadoop
HadoopHadoop
Hadoop
 
BigQuery Performance Improvements Storage API
BigQuery Performance Improvements Storage APIBigQuery Performance Improvements Storage API
BigQuery Performance Improvements Storage API
 

Último

ATIVIDADE 1 - GCOM - GESTÃO DA INFORMAÇÃO - 54_2024.docx
ATIVIDADE 1 - GCOM - GESTÃO DA INFORMAÇÃO - 54_2024.docxATIVIDADE 1 - GCOM - GESTÃO DA INFORMAÇÃO - 54_2024.docx
ATIVIDADE 1 - GCOM - GESTÃO DA INFORMAÇÃO - 54_2024.docx2m Assessoria
 
Padrões de Projeto: Proxy e Command com exemplo
Padrões de Projeto: Proxy e Command com exemploPadrões de Projeto: Proxy e Command com exemplo
Padrões de Projeto: Proxy e Command com exemploDanilo Pinotti
 
ATIVIDADE 1 - ESTRUTURA DE DADOS II - 52_2024.docx
ATIVIDADE 1 - ESTRUTURA DE DADOS II - 52_2024.docxATIVIDADE 1 - ESTRUTURA DE DADOS II - 52_2024.docx
ATIVIDADE 1 - ESTRUTURA DE DADOS II - 52_2024.docx2m Assessoria
 
Boas práticas de programação com Object Calisthenics
Boas práticas de programação com Object CalisthenicsBoas práticas de programação com Object Calisthenics
Boas práticas de programação com Object CalisthenicsDanilo Pinotti
 
ATIVIDADE 1 - CUSTOS DE PRODUÇÃO - 52_2024.docx
ATIVIDADE 1 - CUSTOS DE PRODUÇÃO - 52_2024.docxATIVIDADE 1 - CUSTOS DE PRODUÇÃO - 52_2024.docx
ATIVIDADE 1 - CUSTOS DE PRODUÇÃO - 52_2024.docx2m Assessoria
 
ATIVIDADE 1 - LOGÍSTICA EMPRESARIAL - 52_2024.docx
ATIVIDADE 1 - LOGÍSTICA EMPRESARIAL - 52_2024.docxATIVIDADE 1 - LOGÍSTICA EMPRESARIAL - 52_2024.docx
ATIVIDADE 1 - LOGÍSTICA EMPRESARIAL - 52_2024.docx2m Assessoria
 

Último (6)

ATIVIDADE 1 - GCOM - GESTÃO DA INFORMAÇÃO - 54_2024.docx
ATIVIDADE 1 - GCOM - GESTÃO DA INFORMAÇÃO - 54_2024.docxATIVIDADE 1 - GCOM - GESTÃO DA INFORMAÇÃO - 54_2024.docx
ATIVIDADE 1 - GCOM - GESTÃO DA INFORMAÇÃO - 54_2024.docx
 
Padrões de Projeto: Proxy e Command com exemplo
Padrões de Projeto: Proxy e Command com exemploPadrões de Projeto: Proxy e Command com exemplo
Padrões de Projeto: Proxy e Command com exemplo
 
ATIVIDADE 1 - ESTRUTURA DE DADOS II - 52_2024.docx
ATIVIDADE 1 - ESTRUTURA DE DADOS II - 52_2024.docxATIVIDADE 1 - ESTRUTURA DE DADOS II - 52_2024.docx
ATIVIDADE 1 - ESTRUTURA DE DADOS II - 52_2024.docx
 
Boas práticas de programação com Object Calisthenics
Boas práticas de programação com Object CalisthenicsBoas práticas de programação com Object Calisthenics
Boas práticas de programação com Object Calisthenics
 
ATIVIDADE 1 - CUSTOS DE PRODUÇÃO - 52_2024.docx
ATIVIDADE 1 - CUSTOS DE PRODUÇÃO - 52_2024.docxATIVIDADE 1 - CUSTOS DE PRODUÇÃO - 52_2024.docx
ATIVIDADE 1 - CUSTOS DE PRODUÇÃO - 52_2024.docx
 
ATIVIDADE 1 - LOGÍSTICA EMPRESARIAL - 52_2024.docx
ATIVIDADE 1 - LOGÍSTICA EMPRESARIAL - 52_2024.docxATIVIDADE 1 - LOGÍSTICA EMPRESARIAL - 52_2024.docx
ATIVIDADE 1 - LOGÍSTICA EMPRESARIAL - 52_2024.docx
 

OS CINCO Vs DO BIG DATA

  • 1. 5 Vs do Big Data Como as soluções de Big Data têm revolucionado o mercado mundial
  • 2. Sobre a Semantix • Startup B2B • Fundada em 2007. Open Source desde 2010. • Parceira da LucidWorks e da Cloudera • Possui profissionais certificados Cloudera – Apenas 12 brasileiros, dos quais 3 vivem fora do Brasil. • Especializada em busca, recomendações, machine learning, processamento de linguagem natural e web semântica.
  • 3. Nossos Serviços • Treinamento em Solr, Hadoop & Mahout para empresas e em datas especiais. • Consultoria Open Source personalizada com profissionais certificados. • Implantação de clouds de Big Data com Hadoop e de sistemas de Search com Solr ou Elastic Search. • Revenda das ferramentas LucidWorks Search, LucidWorks Big Data e Cloudera Enterprise.
  • 4. Entre em contato! Leo Oliveira CTO & Co-Founder www.semantix.com.br loliveira@semantix.com.br faleconosco@semantix.com.br Skype: lennydays Twitter: @SemantixBR Facebook: www.facebook.com/SemantixBR LinkedIn: http://www.linkedin.com/in/leonardodias LinkedIn Semantix: http://www.linkedin.com/company/semantix-brasil
  • 7. Parte 1: Ponta do Iceberg 99% dos dados estão “debaixo d’água” e não são utilizados nas empresas
  • 8. Parte 1: Onde colocar tanta informação?
  • 9. Parte 1: Onde colocar tanta informação?
  • 10. Parte 1: Onde colocar tanta informação?
  • 11. Parte 1: Como processar tanta informação? • Em 2007, o Google processava 400 PB de dados por mês; • Em 2010, o Facebook processava 100 PB por mês; • Tecnologia de Big Data é usada por todos os grandes players de internet. • A partir de 2006, empresas de outros ramos passam a adotar soluções de Big Data nos EUA.
  • 12. Parte 1: Como tudo começou? “We assume page A has pages T1...Tn which point to it (i.e., are citations). The parameter d is a damping factor which can be set between 0 and 1. We usually set d to 0.85. There are more details about d in the next section. Also C(A) is defined as the number of links going out of page A. The PageRank of a page A is given as follows: PR(A) = (1-d) + d (PR(T1)/C(T1) + ... + PR(Tn)/C(Tn)) Note that the PageRanks form a probability distribution over web pages, so the sum of all web pages' PageRanks will be one.”
  • 13. Parte 1: Como tudo começou? • Google precisava: • Gravar grandes volumes de dados não-estruturados (páginas HTML); • Processar essas páginas para buscar as citações (links) e calcular o PageRank dessas páginas de acordo com as citações; • Criar um mecanismo de busca que utilizasse regras de busca textual (TF- IDF) mas que, ao mesmo tempo, aceitasse uma espécie de score boosting nas páginas com maior PageRank.
  • 14. Parte 1: Como tudo começou? • Google percebeu que: • Informações não cabiam num único servidor; • Servidores quebram eventualmente; • Não existiam mecanismos que pudessem armazenar informações não- estruturadas ou estruturadas de forma horizontal.
  • 15. Parte 1: Como tudo começou? • Google criou: • Google File System: sistema de arquivo distribuído entre vários servidores que dividia os arquivos em blocos e, posteriormente, gravava cada bloco repetido em 3 máquinas diferentes para diminuir bastante a chance de perda de dados; • MapReduce: criou um framework que facilitaria para os desenvolvedores extrair informação de dados armazenados no Google File System, de forma paralelizada para aumentar a velocidade • Engenheiros do Google publicaram papers sobre o GFS e sobre o MapReduce nos anos de 2003 e 2004.
  • 16. Parte 1: Como tudo começou? • Em 2005, o Yahoo! Enfrentava forte concorrência e resolve criar o próprio mecanismo de busca. • Desenvolve projetos Open Source como o Nutch, um crawler que lê, armazena e indexa páginas na web. • Se depara com o mesmo problema do Google: máquinas quebram. • Solução? Escrever um novo sistema baseado nos papers publicados pelos engenheiros do Google. É criado o Hadoop Distributed File System, ou HDFS. • Para fazer o projeto crescer e melhorar rapidamente, o projeto é publicado com uma licença Open Source da Fundação Apache. • Surge também uma database NoSQL inspirada em outro projeto do Google, o BigTable, chamada HBase.
  • 17. Parte 1: Como tudo começou? • Não é a única ferramenta de Big Data, mas é a mais utilizada no mercado atualmente. • Já possui conectores com grandes ferramentas de BI e analytics • Usado também para processamento semântico • Escala horizontalmente para Petabytes de dados • Cria novas necessidades de administração e novos perfis de desenvolvedores ambientados no MapReduce • Novos sistemas de abstração de complexidade do MapReduce, como Hive (SQL) e Pig. HDFS + MapReduce = HADOOP
  • 18. Parte 1: Como tudo começou? Podemos adicionar à lista também as ferramentas Solr (2006) e ElasticSearch (2010) como databases NoSQL com modelo de documentos e voltadas para Search. Também são ferramentas de Big Data.
  • 21. Parte 2: Variedade FILES WEB LOGS SOCIAL MEDIA TRANSACTIONAL DATA SMART GRIDS OPERATIONAL DATA DIGITAL CONTENT R&D DATA AD IMPRESSIONS
  • 22. Parte 2: Exemplos • Processar imagens de fotos para encontrar textos e catalogá-los (MapReduce); • Fazer um “join” de dados de log do servidor web com tabelas do banco de dados para fazer uma análise do que cada usuário está navegando no site (Pig, Hive); • Buscar em logs de eventos de transações financeiras possíveis anomalias para detecção de fraude (Pig, Hive, MapReduce); • Analisar o comportamento de milhões de usuários em um determinado serviço para construir data products (Pig, Hive, MapReduce, Tableau, QlikView, R); • Criar mecanismos de machine learning a partir de avaliações de usuários feitas a produtos ou serviços para gerar recomendações inteligentes (Mahout, R, Octave, MatLab, Streaming); • Fazer consultas semânticas de texto complexas utilizando ferramentas adequadas e obtendo rápidos resultados tanto para buscas quanto para recomendações inteligentes (Solr, ElasticSearch, Lucene);
  • 23. Parte 3: Velocidade Assumption 3: A data set fits on one machine...
  • 24. Parte 3: A metáfora da colméia
  • 25. Parte 3: Novos paradigmas • Sistemas que utilizam muito memória RAM e logs de transações para aumentar a performance e garantir a confiabilidade; • Computação paralelizada • Escalabilidade de petabytes, em vez de gigabytes • Armazenamento e processamento distribuído • Sistemas de Big Data aumentam a capacidade de sistemas existentes em vez de substituí-los • Em alguns casos é possível substituir bancos transacionais para algumas aplicações utilizando bancos de dados NoSQL como Riak, Voldemort, Hbase, Cassandra, MongoDB, Solr, ElasticSearch dentre outros • Cada ferramenta de Big Data tem a sua especialização. É necessário conhecer mais do que uma para tirar vantagens.
  • 28. Parte 4: Virtude Simplicidade Generosidade Caridade VontadePrudência Paciência Humildade Simplicidade: “É preciso trabalhar duro para fazer o simples.” Steve Jobs.
  • 29. Parte 4: Virtude Simplicidade Generosidade Caridade VontadePrudência Paciência Humildade Generosidade: investir sem uma expectativa de retorno imediata, mas com retorno no longo prazo
  • 30. Parte 4: Virtude Simplicidade Generosidade Caridade VontadePrudência Paciência Humildade Caridade: compaixão, enten dimento dos clientes, política de privacidade, esclar ecimento do público
  • 31. Parte 4: Virtude Simplicidade Generosidade Caridade VontadePrudência Paciência Humildade Vontade: os profissionais envolvidos devem ter muita vontade de manipular dados. Data jujutsu.
  • 32. Parte 4: Virtude Simplicidade Generosidade Caridade VontadePrudência Paciência Humildade Prudência: novamente os limites da ética. Exemplo do câncer e da Angelina Jolie. Big Data pode mudar muitas coisas.
  • 33. Parte 4: Virtude Simplicidade Generosidade Caridade VontadePrudência Paciência Humildade Paciência: é preciso paciência. Desenvolver para Big Data lidar com exceções e muito trabalho amostral é realizado antes do final.
  • 34. Parte 4: Virtude Simplicidade Generosidade Caridade VontadePrudência Paciência Humildade Humildade: Big Data é uma forma de autoconheciment o. É necessário ter humildade para aceitar o que os dados mostram.
  • 36. Parte 5: Valor “A vida é a flor da qual o amor é o mel”. Victor Hugo
  • 37. Parte 5: Morgan Stanley • Análise de Portfolio: • Sistemas de database e de grid tradicionais não funcionam • Construíram um sistema baseado em Hadoop com uma infraestrutura barata • Arquitetura escalável para processar dados ainda maiores • Detecção de fraude: • Análise de logs de banco de dados comparada com análise de logs web • Dados alterados no banco sem correspondência na web ligam um alerta • Economia de bilhões em fraudes. Fonte: http://www.forbes.com/sites/tomgroenfeldt/2012/05/30/morgan-stanley-takes-on-big-data-with-hadoop/
  • 38. Parte 5: Facebook • Real-Time Big Data Analytics: • Arquitetura MapReduce não é suficiente por não ser real-time • Utilizou soluções que armazenam dados em memória para exibir informações sobre opções “curtir” • Coloca 80% dos dados em memória • RAM é 100 a 1000x mais rápida do que disco • Coloca o código onde estão os dados • Armazena os dados persistentes após serem processados em bancos como MySQL, HBase e Cassandra Fonte: http://www.slideshare.net/giganati/real-time-analytics-for-big-data-a-facebook-casestudy
  • 39. Parte 5: Crossbow • Genoma e testes genéticos por menos de 100 dólares • Arquitetura MapReduce para processar genes • Michael Schatz desenvolveu o sistema para fazer testes genéticos por menos de 100 dólares • Expectativa de uso na ajuda de prevenção de doenças e pesquisa genética • Técnicas: detecção de padrões, classificação e cálculo de probabilidades. Fonte: http://www.slideshare.net/giganati/real-time-analytics-for-big-data-a-facebook-casestudy
  • 40. Parte 5: Netflix • Série House of Cards • A partir da análise de navegação e reviews, Netflix percebeu que poderia criar uma série de sucesso; • Viu que Kevin Spacey tinha grande aceitação a partir da análise de dados; • Entendeu que thrillers políticos tinham grande apelo com o seu público; • Recomendação de filmes • Utiliza machine learning com técnicas de filtro colaborativo e k-nearest neighbor. • Recomenda filmes com precisão com um catálogo gigantesco. No Brasil o catálogo é menor, mas ainda assim a precisão é muito boa. Fonte: http://www.fastcodesign.com/1671893/the-secret-sauce-behind-netflixs-hit-house-of-cards-big-data
  • 41. Parte 5: LinkedIn • Criou uma série de data products baseados em Hadoop como: • “People you may know” (2 pessoas) • “Year in review email” (1 pessoa, 1 mês) • “Network updates” (1 pessoa, 3 meses) • “Skills and Endorsements” (2 pessoas) • LinkedIn: “Hadoop pode capacitar pequenos times a construir grandes projetos”. Fonte: http://www.slideshare.net/joseph_adler/how-to-win-friends-and-influence-people-with-hadoop
  • 42. Parte 5: Amazon • O grande segredo da Amazon: recomendações • Recomendações por e-mail • Recomendações no momento da compra • Compras casadas • Análise do comportamento dos usuários Fonte: http://tech.fortune.cnn.com/2012/07/30/amazon-5/
  • 43. Parte 5: Obama • Análise de sentimento no Twitter e exército de apoiadores no Facebook • Levantamento de dados de mídias sociais • Análise de sentimento • Alcançar o eleitor certo na hora certa • Diversas técnicas de data science sendo utilizadas Fonte: http://gigaom.com/2012/12/08/how-obamas-data-scientists-built-a-volunteer-army-on-facebook/
  • 44. Parte 5: Ford • Análise da cadeia de suprimentos e de que features colocará em cada carro • Comportamento dos usuários • Comportamento de compra • Integração com smartphones nos veículos • Carros melhores com dados analisados • Natural Language Processing para analisar comentários e sugestões de usuários Fonte: http://gigaom.com/2013/04/26/how-data-is-changing-the-car-game-for-ford/
  • 45. Parte 5: Aetna • Plano de saúde está analisando os seus clientes para oferecer mais saúde e prever doenças • Resultados de exames • Consultas médicas (grafo) • Prevenção de câncer Fonte: http://gigaom.com/2012/11/20/how-aetna-is-using-big-data-to-improve-patient-health/
  • 46. Parte 5: Globo.com • Recomendação de notícias • Recomendação de notícias personalizada para usuários ou de acordo com os artigos • Utiliza Hadoop, Mahout e Solr • Mais de 100 Gb por dia de log processados • Um dos maiores sites do Brasil em termos de audiência • Cliente Semantix de Big Data Fonte: http://gigaom.com/2012/11/20/how-aetna-is-using-big-data-to-improve-patient-health/
  • 47. Parte 5: Doinet.com.br • Busca de documentos • Mais de 90 milhões de documentos • Consulta com relevância • Cada documento podendo conter mais de 1000 páginas de dados • Formatos variados (PDF, Texto) • Recomendação de conteúdo. Fonte: http://gigaom.com/2012/11/20/how-aetna-is-using-big-data-to-improve-patient-health/
  • 48. Parte 5: Catho • Mais de 10 data products de: • Busca (vagas, CVs, Empresas etc) • Recomendação por e-mail • Recomendação no site • Geração de conteúdo • Mais de 4 milhões de currículos • Utiliza Solr para os seus aplicativos de busca. Fonte: http://gigaom.com/2012/11/20/how-aetna-is-using-big-data-to-improve-patient-health/
  • 49. Parte 5: Como extrair valor? • Capacitação profissional • Formação de novos Data Scientists • Capacitação nas novas tecnologias • Entendimento das tecnologias para melhor escolha de custo-benefício • Criação de projetos • Data Scientists criam Data Products • Data Analytics (dashboards, análises complexas, dados na íntegra em vez de amostras) • Servidores de Busca • Aplicativos e softwares • Machine Learning • Fim dos relatórios “executivos” tradicionais • Entrega de produtos que podem ser analisados pelos executivos de forma ad-hoc e não mais os antigos relatórios impressos • Mudança de cultura em toda a empresa para uma readaptação à nova realidade.
  • 50. Parte 5: E a infra? • Prepare-se para a escalabilidade horizontal. • Privada • Custos com data center • Masters x Slaves • Masters requerem muita memória, mas pouco disco, com RAID e gravando dados em NFS para não perder nada. • Slaves requerem menos memória e CPU e muitos discos. Não vale a pena usar RAID. O melhor é JBOD: Just a Bunch of Disks. • Pública • AWS (EC2 e EMR) • Azure • Escalabilidade On-Demand
  • 51. Parte 5: Sem SQL? • NoSQL no Hadoop: Impala • Capacidade de executar queries SQL em Real-Time • Habilita conservação de dados na memória RAM do Cluster • Consultas complexas de SQL usando álgebra relacional, em vez de MapReduce (diferente do Hive) • Lançado em 2013
  • 52. Parte 5: Search & Recommendation • Solr 4 ou SolrCloud – Escalabilidade horizontal – Habilidade e versatilidade em consulta de dados – Orientada a documentos – Capaz de alimentar sistemas de análise, pois possui ótimo sistema de agregação de dados (facets) – Alta disponibilidade aliada a alto poder de busca – Foi incorporado pela Cloudera recentemente como ferramenta para consultar dados em larga escala.
  • 54. Sobre a Semantix • Startup B2B • Fundada em 2007. Open Source desde 2010. • Parceira da LucidWorks e da Cloudera • Possui profissionais certificados Cloudera – Apenas 12 brasileiros, dos quais 3 vivem fora do Brasil. • Especializada em busca, recomendações, machine learning, processamento de linguagem natural e web semântica.
  • 55. Nossos Serviços • Treinamento em Solr, Hadoop & Mahout para empresas e em datas especiais. • Consultoria Open Source personalizada com profissionais certificados. • Implantação de clouds de Big Data com Hadoop e de sistemas de Search com Solr ou Elastic Search. • Revenda das ferramentas LucidWorks Search, LucidWorks Big Data e Cloudera Enterprise.
  • 56. Entre em contato! Leo Oliveira CTO & Co-Founder www.semantix.com.br loliveira@semantix.com.br faleconosco@semantix.com.br Skype: lennydays Twitter: @SemantixBR Facebook: www.facebook.com/SemantixBR LinkedIn: http://www.linkedin.com/in/leonardodias LinkedIn Semantix: http://www.linkedin.com/company/semantix-brasil

Notas do Editor

  1. Para ter mais mel, você precisa de abelhas maiores ou de mais abelhas?
  2. Qual é a diferença?
  3. Onde encontrar valor?