1. 5 Vs do Big Data
Como as soluções de Big Data têm
revolucionado o mercado mundial
2. Sobre a Semantix
• Startup B2B
• Fundada em 2007. Open Source desde 2010.
• Parceira da LucidWorks e da Cloudera
• Possui profissionais certificados Cloudera
– Apenas 12 brasileiros, dos quais 3 vivem fora do
Brasil.
• Especializada em
busca, recomendações, machine
learning, processamento de linguagem natural
e web semântica.
3. Nossos Serviços
• Treinamento em Solr, Hadoop & Mahout para
empresas e em datas especiais.
• Consultoria Open Source personalizada com
profissionais certificados.
• Implantação de clouds de Big Data com
Hadoop e de sistemas de Search com Solr ou
Elastic Search.
• Revenda das ferramentas LucidWorks
Search, LucidWorks Big Data e Cloudera
Enterprise.
4. Entre em contato!
Leo Oliveira
CTO & Co-Founder
www.semantix.com.br
loliveira@semantix.com.br
faleconosco@semantix.com.br
Skype: lennydays
Twitter: @SemantixBR
Facebook: www.facebook.com/SemantixBR
LinkedIn: http://www.linkedin.com/in/leonardodias
LinkedIn Semantix: http://www.linkedin.com/company/semantix-brasil
11. Parte 1: Como processar tanta
informação?
• Em 2007, o Google processava 400 PB de
dados por mês;
• Em 2010, o Facebook processava 100 PB por
mês;
• Tecnologia de Big Data é usada por todos os
grandes players de internet.
• A partir de 2006, empresas de outros ramos
passam a adotar soluções de Big Data nos
EUA.
12. Parte 1: Como tudo começou?
“We assume page A has pages T1...Tn which point to it (i.e., are citations). The
parameter d is a damping factor which can be set between 0 and 1. We usually set
d to 0.85. There are more details about d in the next section. Also C(A) is defined as
the number of links going out of page A. The PageRank of a page A is given as
follows:
PR(A) = (1-d) + d (PR(T1)/C(T1) + ... + PR(Tn)/C(Tn))
Note that the PageRanks form a probability distribution over web pages, so the
sum of all web pages' PageRanks will be one.”
13. Parte 1: Como tudo começou?
• Google precisava:
• Gravar grandes volumes de dados não-estruturados (páginas HTML);
• Processar essas páginas para buscar as citações (links) e calcular o
PageRank dessas páginas de acordo com as citações;
• Criar um mecanismo de busca que utilizasse regras de busca textual (TF-
IDF) mas que, ao mesmo tempo, aceitasse uma espécie de score boosting
nas páginas com maior PageRank.
14. Parte 1: Como tudo começou?
• Google percebeu que:
• Informações não cabiam num único servidor;
• Servidores quebram eventualmente;
• Não existiam mecanismos que pudessem armazenar informações não-
estruturadas ou estruturadas de forma horizontal.
15. Parte 1: Como tudo começou?
• Google criou:
• Google File System: sistema de arquivo distribuído entre vários servidores
que dividia os arquivos em blocos e, posteriormente, gravava cada bloco
repetido em 3 máquinas diferentes para diminuir bastante a chance de
perda de dados;
• MapReduce: criou um framework que facilitaria para os desenvolvedores
extrair informação de dados armazenados no Google File System, de forma
paralelizada para aumentar a velocidade
• Engenheiros do Google publicaram papers sobre o GFS e sobre o
MapReduce nos anos de 2003 e 2004.
16. Parte 1: Como tudo começou?
• Em 2005, o Yahoo! Enfrentava forte concorrência e resolve criar o próprio
mecanismo de busca.
• Desenvolve projetos Open Source como o Nutch, um crawler que lê, armazena
e indexa páginas na web.
• Se depara com o mesmo problema do Google: máquinas quebram.
• Solução? Escrever um novo sistema baseado nos papers publicados pelos
engenheiros do Google. É criado o Hadoop Distributed File System, ou HDFS.
• Para fazer o projeto crescer e melhorar rapidamente, o projeto é publicado com
uma licença Open Source da Fundação Apache.
• Surge também uma database NoSQL inspirada em outro projeto do Google, o
BigTable, chamada HBase.
17. Parte 1: Como tudo começou?
• Não é a única ferramenta de Big Data, mas é a mais utilizada no mercado
atualmente.
• Já possui conectores com grandes ferramentas de BI e analytics
• Usado também para processamento semântico
• Escala horizontalmente para Petabytes de dados
• Cria novas necessidades de administração e novos perfis de desenvolvedores
ambientados no MapReduce
• Novos sistemas de abstração de complexidade do MapReduce, como Hive (SQL)
e Pig.
HDFS + MapReduce = HADOOP
18. Parte 1: Como tudo começou?
Podemos adicionar à lista também as ferramentas Solr (2006) e
ElasticSearch (2010) como databases NoSQL com modelo de documentos
e voltadas para Search. Também são ferramentas de Big Data.
21. Parte 2: Variedade
FILES
WEB LOGS
SOCIAL
MEDIA
TRANSACTIONAL
DATA
SMART
GRIDS
OPERATIONAL DATA
DIGITAL
CONTENT
R&D DATA
AD IMPRESSIONS
22. Parte 2: Exemplos
• Processar imagens de fotos para encontrar textos e catalogá-los
(MapReduce);
• Fazer um “join” de dados de log do servidor web com tabelas do banco
de dados para fazer uma análise do que cada usuário está navegando
no site (Pig, Hive);
• Buscar em logs de eventos de transações financeiras possíveis
anomalias para detecção de fraude (Pig, Hive, MapReduce);
• Analisar o comportamento de milhões de usuários em um determinado
serviço para construir data products (Pig, Hive, MapReduce, Tableau,
QlikView, R);
• Criar mecanismos de machine learning a partir de avaliações de
usuários feitas a produtos ou serviços para gerar recomendações
inteligentes (Mahout, R, Octave, MatLab, Streaming);
• Fazer consultas semânticas de texto complexas utilizando ferramentas
adequadas e obtendo rápidos resultados tanto para buscas quanto
para recomendações inteligentes (Solr, ElasticSearch, Lucene);
25. Parte 3: Novos paradigmas
• Sistemas que utilizam muito memória RAM e logs de transações
para aumentar a performance e garantir a confiabilidade;
• Computação paralelizada
• Escalabilidade de petabytes, em vez de gigabytes
• Armazenamento e processamento distribuído
• Sistemas de Big Data aumentam a capacidade de sistemas
existentes em vez de substituí-los
• Em alguns casos é possível substituir bancos transacionais para
algumas aplicações utilizando bancos de dados NoSQL como
Riak, Voldemort, Hbase, Cassandra, MongoDB, Solr, ElasticSearch
dentre outros
• Cada ferramenta de Big Data tem a sua especialização. É
necessário conhecer mais do que uma para tirar vantagens.
36. Parte 5: Valor
“A vida é a flor da qual o amor é o
mel”.
Victor Hugo
37. Parte 5: Morgan Stanley
• Análise de Portfolio:
• Sistemas de database e de grid tradicionais não funcionam
• Construíram um sistema baseado em Hadoop com uma infraestrutura barata
• Arquitetura escalável para processar dados ainda maiores
• Detecção de fraude:
• Análise de logs de banco de dados comparada com análise de logs web
• Dados alterados no banco sem correspondência na web ligam um alerta
• Economia de bilhões em fraudes.
Fonte: http://www.forbes.com/sites/tomgroenfeldt/2012/05/30/morgan-stanley-takes-on-big-data-with-hadoop/
38. Parte 5: Facebook
• Real-Time Big Data Analytics:
• Arquitetura MapReduce não é suficiente por não ser real-time
• Utilizou soluções que armazenam dados em memória para exibir
informações sobre opções “curtir”
• Coloca 80% dos dados em memória
• RAM é 100 a 1000x mais rápida do que disco
• Coloca o código onde estão os dados
• Armazena os dados persistentes após serem processados em bancos como
MySQL, HBase e Cassandra
Fonte: http://www.slideshare.net/giganati/real-time-analytics-for-big-data-a-facebook-casestudy
39. Parte 5: Crossbow
• Genoma e testes genéticos por menos de 100 dólares
• Arquitetura MapReduce para processar genes
• Michael Schatz desenvolveu o sistema para fazer testes genéticos por menos
de 100 dólares
• Expectativa de uso na ajuda de prevenção de doenças e pesquisa genética
• Técnicas: detecção de padrões, classificação e cálculo de probabilidades.
Fonte: http://www.slideshare.net/giganati/real-time-analytics-for-big-data-a-facebook-casestudy
40. Parte 5: Netflix
• Série House of Cards
• A partir da análise de navegação e reviews, Netflix percebeu que poderia
criar uma série de sucesso;
• Viu que Kevin Spacey tinha grande aceitação a partir da análise de dados;
• Entendeu que thrillers políticos tinham grande apelo com o seu público;
• Recomendação de filmes
• Utiliza machine learning com técnicas de filtro colaborativo e k-nearest
neighbor.
• Recomenda filmes com precisão com um catálogo gigantesco. No Brasil o
catálogo é menor, mas ainda assim a precisão é muito boa.
Fonte: http://www.fastcodesign.com/1671893/the-secret-sauce-behind-netflixs-hit-house-of-cards-big-data
41. Parte 5: LinkedIn
• Criou uma série de data products baseados em Hadoop como:
• “People you may know” (2 pessoas)
• “Year in review email” (1 pessoa, 1 mês)
• “Network updates” (1 pessoa, 3 meses)
• “Skills and Endorsements” (2 pessoas)
• LinkedIn: “Hadoop pode capacitar pequenos times a construir grandes
projetos”.
Fonte: http://www.slideshare.net/joseph_adler/how-to-win-friends-and-influence-people-with-hadoop
42. Parte 5: Amazon
• O grande segredo da Amazon: recomendações
• Recomendações por e-mail
• Recomendações no momento da compra
• Compras casadas
• Análise do comportamento dos usuários
Fonte: http://tech.fortune.cnn.com/2012/07/30/amazon-5/
43. Parte 5: Obama
• Análise de sentimento no Twitter e exército de apoiadores no Facebook
• Levantamento de dados de mídias sociais
• Análise de sentimento
• Alcançar o eleitor certo na hora certa
• Diversas técnicas de data science sendo utilizadas
Fonte: http://gigaom.com/2012/12/08/how-obamas-data-scientists-built-a-volunteer-army-on-facebook/
44. Parte 5: Ford
• Análise da cadeia de suprimentos e de que features colocará em cada carro
• Comportamento dos usuários
• Comportamento de compra
• Integração com smartphones nos veículos
• Carros melhores com dados analisados
• Natural Language Processing para analisar comentários e sugestões de
usuários
Fonte: http://gigaom.com/2013/04/26/how-data-is-changing-the-car-game-for-ford/
45. Parte 5: Aetna
• Plano de saúde está analisando os seus clientes para oferecer mais saúde e prever
doenças
• Resultados de exames
• Consultas médicas (grafo)
• Prevenção de câncer
Fonte: http://gigaom.com/2012/11/20/how-aetna-is-using-big-data-to-improve-patient-health/
46. Parte 5: Globo.com
• Recomendação de notícias
• Recomendação de notícias personalizada para usuários ou de acordo com os
artigos
• Utiliza Hadoop, Mahout e Solr
• Mais de 100 Gb por dia de log processados
• Um dos maiores sites do Brasil em termos de audiência
• Cliente Semantix de Big Data
Fonte: http://gigaom.com/2012/11/20/how-aetna-is-using-big-data-to-improve-patient-health/
47. Parte 5: Doinet.com.br
• Busca de documentos
• Mais de 90 milhões de documentos
• Consulta com relevância
• Cada documento podendo conter mais de 1000 páginas de dados
• Formatos variados (PDF, Texto)
• Recomendação de conteúdo.
Fonte: http://gigaom.com/2012/11/20/how-aetna-is-using-big-data-to-improve-patient-health/
48. Parte 5: Catho
• Mais de 10 data products de:
• Busca (vagas, CVs, Empresas etc)
• Recomendação por e-mail
• Recomendação no site
• Geração de conteúdo
• Mais de 4 milhões de currículos
• Utiliza Solr para os seus aplicativos de busca.
Fonte: http://gigaom.com/2012/11/20/how-aetna-is-using-big-data-to-improve-patient-health/
49. Parte 5: Como extrair valor?
• Capacitação profissional
• Formação de novos Data Scientists
• Capacitação nas novas tecnologias
• Entendimento das tecnologias para melhor escolha de custo-benefício
• Criação de projetos
• Data Scientists criam Data Products
• Data Analytics (dashboards, análises complexas, dados na íntegra em
vez de amostras)
• Servidores de Busca
• Aplicativos e softwares
• Machine Learning
• Fim dos relatórios “executivos” tradicionais
• Entrega de produtos que podem ser analisados pelos executivos de forma
ad-hoc e não mais os antigos relatórios impressos
• Mudança de cultura em toda a empresa para uma readaptação à nova
realidade.
50. Parte 5: E a infra?
• Prepare-se para a escalabilidade horizontal.
• Privada
• Custos com data center
• Masters x Slaves
• Masters requerem muita memória, mas pouco disco, com RAID e
gravando dados em NFS para não perder nada.
• Slaves requerem menos memória e CPU e muitos discos. Não vale a
pena usar RAID. O melhor é JBOD: Just a Bunch of Disks.
• Pública
• AWS (EC2 e EMR)
• Azure
• Escalabilidade On-Demand
51. Parte 5: Sem SQL?
• NoSQL no Hadoop: Impala
• Capacidade de executar queries SQL em Real-Time
• Habilita conservação de dados na memória RAM do Cluster
• Consultas complexas de SQL usando álgebra relacional, em vez de
MapReduce (diferente do Hive)
• Lançado em 2013
52. Parte 5: Search &
Recommendation
• Solr 4 ou SolrCloud
– Escalabilidade horizontal
– Habilidade e versatilidade em consulta de dados
– Orientada a documentos
– Capaz de alimentar sistemas de análise, pois possui
ótimo sistema de agregação de dados (facets)
– Alta disponibilidade aliada a alto poder de busca
– Foi incorporado pela Cloudera recentemente como
ferramenta para consultar dados em larga escala.
54. Sobre a Semantix
• Startup B2B
• Fundada em 2007. Open Source desde 2010.
• Parceira da LucidWorks e da Cloudera
• Possui profissionais certificados Cloudera
– Apenas 12 brasileiros, dos quais 3 vivem fora do
Brasil.
• Especializada em
busca, recomendações, machine
learning, processamento de linguagem natural
e web semântica.
55. Nossos Serviços
• Treinamento em Solr, Hadoop & Mahout para
empresas e em datas especiais.
• Consultoria Open Source personalizada com
profissionais certificados.
• Implantação de clouds de Big Data com
Hadoop e de sistemas de Search com Solr ou
Elastic Search.
• Revenda das ferramentas LucidWorks
Search, LucidWorks Big Data e Cloudera
Enterprise.
56. Entre em contato!
Leo Oliveira
CTO & Co-Founder
www.semantix.com.br
loliveira@semantix.com.br
faleconosco@semantix.com.br
Skype: lennydays
Twitter: @SemantixBR
Facebook: www.facebook.com/SemantixBR
LinkedIn: http://www.linkedin.com/in/leonardodias
LinkedIn Semantix: http://www.linkedin.com/company/semantix-brasil
Notas do Editor
Para ter mais mel, você precisa de abelhas maiores ou de mais abelhas?