Big Data e Hadoop
O poder da informação
20/10/2016
22
Thiago Santiago
Engenheiro de Soluções Hadoop na Hortonworks, auxiliando os
clientes com as melhores práticas do mercado para extrair
informações valiosas de dados complexos com soluções
escaláveis e confiáveis com BigData.
• 10 anos de experiência profissional de TI em
desenvolvimento e arquitetura e aplicações.
• Experiência em Plataformas DataGrid, Soluções NoSQL e
arquiteturas distribuídas de computação e GoF Design
Patterns
• Experiência em ALM (Application Lifecycle Management) e
CI (Continuous integration)
Projetos em BigData
• Vivo
• TIM
• Banco do Brasil
• B2W (Americanas.com/Submarino.com)
3
4
Buzzword…
5
BigData Implícito…
6
7
O Big Data procura responder a perguntas como: Por quê? E se? O que acontecerá? Como otimizar? E fornecer novas
perguntas e insights
O intuito final é apenas um: dominar a informação!
Big Data é baseado em 3 pilares:
Veracidade e Valor
8
Informação é poder
Turma difícil de lidar…
Um professor belga ameaçou divulgar spoilers da próxima temporada de Game of Thrones
(série da HBO baseada na obra A Song of Fire and Ice de George R.R. Martin)
9
Para provar seu conhecimento, listou todos os personagens mortos na última temporada
10
O que aconteceu?
Professor belga conseguiu a total atenção dos alunos…
Informação é poder!
11
? Quantas vezes Homens e mulheres no Tinder
movem seus dedos para a esquerda e direita nas
telas de seus dispositivos por minuto?
12
Mudança de era…
Anuncio do novo papa
13
8ZB
DATAINTERNET
OF
ANYTHING
44ZB
DATA
2020
13
Byte
Kilobyte (KB)
Megabyte (MB)
Gigabyte (GB)
Terabyte (TB)
Petabyte (PB)
Exabyte (EB)
Zettabyte (ZB)
14
Como analisar essa quantidade de informação?
15
Hadoop
https://pt.wikipedia.org/wiki/Hadoop
Plataforma de software em Java de computação distribuída voltada para clusters e processamento de grandes
massas de dados.
Foi inspirada no MapReduce e no GoogleFS (GFS). Trata-se de um projeto da Apache de alto nível, que vai
sendo construído por uma comunidade de contribuidores Java.
O Yahoo! tem sido o maior contribuidor do projeto, utilizando essa plataforma intensivamente em seus
negócios.
16
O que é
MapReduce?
17
Evolução do Hadoop
18
Ecosistema
19
Players
20
Possibilitar que clientes
consigam extrair informações
valiosas de dados complexos em
soluções escaláveis e confiáveis.
O que fazem os grandes com Hadoop?
Qual a função de uma distribuição hadoop?
21
Apenas um dos vários clusters Hadoop operados pela empresa abrange mais
de 4.000 máquinas.
Facebook Messager no Apache Hadoop HBase platform para suportar bilhões
de mensagens por dia.
Usam Hive para os reports e análise de grandes conjuntos de dados.
22
Foi o primeiro a oferecer a opção “o que outros compraram também”,
obtendo instantaneamente vantagem competitiva com relação a seus
concorrentes;
23
Utiliza Hadoop para sugerir
automaticamente conteúdo a seus
usuários baseado no que foi assistido
anteriormente. Talvez o melhor
exemplo de sucesso de Big Data, o
Netflix passou a não somente oferecer
sugestões de conteúdo similar, mas sim
produzir conteúdo direcionado para as
preferências das massas, de acordo
com o que vem “aprendendo” ao longo
dos anos.
24
“Aprende” sobre a rotina diária das pessoas, e sugere automaticamente meios
de transporte, restaurantes, opções de entretenimento, entre outras coisas,
baseando-se no comportamento individual de cada um.
25
Analisa em tempo real a situação do trânsito das cidades, e sugere o caminho
mais rápido, baseado no feedback dos usuários e de análises de velocidade de
deslocamento informados automaticamente pelos dispositivos conectados;
26
O site de namoro online recentemente atualizou seu ambiente na nuvem,
usando Hadoop e os processadores Intel Xeon E5 para analisar um volume
massivo e variado de dados. A tecnologia ajuda a eHarmony a disponibilizar
novas combinações a milhões de pessoas diariamente. O novo ambiente
cloud acomoda análises mais complexas, criando resultados mais
personalizados e aumentando a chance de sucesso nos relacionamentos.
27
28
Flink
BigData ou Pokemon?
Spark
29
Jirachi
BigData ou Pokemon?
30
Pangol
BigData ou Pokemon?
MapReduce
31
Akiban
BigData ou Pokemon?
Data Base
32
Spoink
BigData ou Pokemon?
33
Seahorse
BigData ou Pokemon?
Spark
34
Summingbird
BigData ou Pokemon?
Storm
35
tsantiago@hortonworks.com
www.linkedin.com/in/thiagosantiago
Obrigado!
(11) 9-9298-9601

BigData & Hadoop - Technology Latinoware 2016

Notas do Editor

  • #2 Introduce yourself.
  • #3 TALK TRACK Os dados do mundo costumavam dobrar a cada século. Agora, eles dobram a cada 2 anos. Isso significa que hoje partiremos de 8 zettabytes de dados para 44 zetabytes até 2020. [NEXT SLIDE] Source: http://www.emc.com/leadership/digital-universe/2014iview/executive-summary.htm
  • #12 What has created this inflection point is the growth and value from the new paradigm data. New data paradigm sources have put tremendous pressure on existing platforms but have also created tremendous opportunities. Exponential Growth. 85% year over year growth. Varied Nature. The incoming data can have little or no structure, or structure that changes too frequently for reliable schema creation at time of ingest. Value at High Volumes. The incoming data can have little or no value as individual, or small groups of, records. But at high volumes and longer historical perspectives can be inspected for patterns and used for advanced analytic applications. This New Data Paradigm opens up the Opportunity for both an architectural and business transformation that applies to virtually every industry.   [NEXT SLIDE]
  • #14 TALK TRACK Os dados do mundo costumavam dobrar a cada século. Agora, eles dobram a cada 2 anos. Isso significa que hoje partiremos de 8 zettabytes de dados para 44 zetabytes até 2020. [NEXT SLIDE] Source: http://www.emc.com/leadership/digital-universe/2014iview/executive-summary.htm