O documento apresenta um resumo sobre Big Data, definindo os conceitos de Volume, Velocidade, Variedade, Veracidade e Valor. Também descreve brevemente como surgiram as primeiras soluções de Big Data na Google e no Hadoop e algumas das principais empresas que utilizam Big Data.
3. Quem sou eu
• Graduando em Engenharia
da Computação (UFAL)
• Bolsista do NTI(UFAL)
• Bolsista da
RIM(Blackberry)
• Desenvolvedor de diversos
projetos acadêmicos em
Java, C++, VB6, HTML5,
AngularJS
• Membro do GDG Luanda
?
f g+ in
?
3
4. O que é Big Data
Volume Velocidade
VariedadeVeracidade
Valor
4
5. O que é Big Data
VariedadeVeracidade
Valor
Velocidade
Volumes extremamente
grandes de dados:
Em 2007 o Google processava
mais de 400PB dados/mês
Usuários do facebook
produzem mais de 300PB
dados/diários
Volume
5
6. O que é Big Data
VariedadeVeracidade
Valor
Velocidade
Informação disponível para
uso em tempo hábil.
Tratamento dos dados em
tempo real.
Empresas que oferecem esse
serviço: Facebook, Amazon,
Google
Volume
6
7. O que é Big Data
Veracidade
Valor
Velocidade
Dados oriundos de diversos
bancos de dados como
PostgreSQL e Oracle.
Dados não estruturados
oriundos de inúmeras fontes:
documentos, vídeos, áudios,
imagens, se não forem
associados uns aos outros
podem se tornar inúteis.
Volume
Variedade
7
8. O que é Big Data
Valor
Velocidade
Volume+Velocidade+Variedade
de nada adianta se os dados
não são confiáveis.
Informação não é só poder,
informação é patrimônio.
Volume
VariedadeVeracidade
8
9. O que é Big Data
Valor
Velocidade
Além de qualquer outro
aspecto visto, uma solução de
Big Data se tornará inviável se
o resultado não trouxer
benefícios significativos e que
compensem o investimento.
Volume
VariedadeVeracidade
9
10. Big Data
Áreas de Aplicação
ciência
governo
saúde
social
finanças
transporte ensino
10
algoritmos genéticos
12. Quem Usa
12
• Análise de sentimento no
Twitter e exército de
apoiadores no Facebook.
• Levantamento de dados de
mídia
• Alcançar o eleitor na hora
certa
14. Como tudo começou
2000 - Jeffrey Dean e Sanjay
Ghemawat (criadores da
tecnologia MapReduce)
http://research.google.com/archive/mapreduce.html
14
Jeffrey Dean
http://research.google.com/
people/jeff/
Sanjay Ghemawat
http://research.google.com/
pubs/SanjayGhemawat.html
15. Como tudo começou
• Dez/2002 - Primeira biblioteca
MapReduce da Google.
• Out/2003 - Artigo sobre GFS.
• Dez/2004 - Artigo sobre
MapReduce.
• Fev/2006 - Hadoop se torna um
projeto oficial da Apache.
• Abr/2007 - Yahoo! roda Hadoop
em um cluster de 1000 nós.
• Jan/2008 - Hadoop se torna no
projeto principal da Apache
15
16. Como tudo começou
• 2005 - Cria próprio
mecanismo de busca
• Nutch é criado
• Mesmos problemas que o
Google (máquinas quebram)
• Criado o HDFS(Hadoop
Distributed File System)
• Surge Hbase NoSQL
baseado no BigTable da
Google
16
19. Soluções Big Data
• Elasticidade
• No ACID (Atomicidade,
Consistência, Isolamento e
Durabilidade)
• NoSQL
• BASE(Basically available, Soft
state, Eventually consistency)
19
23. Sandbox
• Projeto Hortonworks que
torna o Hadoop portátil
permitindo rodar no seu
computador pessoal de
forma simples e ágil.
• Possui fins educacionais
• Ambiente de virtualização
VirtualBox
23
25. Sandbox
• Baixar Cloudera distribuição
linux centOS 6.4 http://
www.cloudera.com/content/cloudera/en/
downloads/quickstart_vms/cdh-5-3-x.html
• Pig http://pig.apache.org
• Hive https://hive.apache.org
25
vs
26. Sandbox
26
vs
SELECT * FROM Tabela
WHERE Campo = “ABC”;
SELECT a.* FROM a
JOIN b
ON (a.id = b.id)
SELECT MARCA, sum(vl_pedido)
Valor_Pedidos
FROM `default.tb_orders`
Group by MARCA
ORDER by Valor_Pedidos DESC
A = LOAD 'tabela' USING
org.apache.hcatalog.pig.HCatLoader();
B = LIMIT A 100;
C = FILTER B BY campo1 == 'Teste';
D = FOREACH C GENERATE symbol, date,
close;
E = DISTINCT D;
F = GROUP E BY (campo1, campo2);
G = ORDER F BY (campo1, campo2);
H = JOIN G BY campo1, F BY campo1;
DUMP C;
A = LOAD 'default.tb_orders' USING
org.apache.hcatalog.pig.HCatLoader();
B = GROUP A BY marca;
X = FOREACH B GENERATE group,
SUM(A.vl_pedido);
DUMP X;