Big Data

17 de Janeiro de 2015
Big Data
1

Big Data
Randy Quindai
2
“É preciso trabalhar duro para fazer o simples”
Steve Jobs

Quem sou eu
• Graduando em Engenharia
da Computação (UFAL)
• Bolsista do NTI(UFAL)
• Bolsista da
RIM(Blackberry)
• Desenvolvedor de diversos
projetos acadêmicos em
Java, C++, VB6, HTML5,
AngularJS
• Membro do GDG Luanda
?
f g+ in
?
3

O que é Big Data
Volume Velocidade
VariedadeVeracidade
Valor
4

O que é Big Data
VariedadeVeracidade
Valor
Velocidade
Volumes extremamente
grandes de dados:
Em 2007 o Google processava
mais de 400PB dados/mês
Usuários do facebook
produzem mais de 300PB
dados/diários
Volume
5

O que é Big Data
VariedadeVeracidade
Valor
Velocidade
Informação disponível para
uso em tempo hábil.
Tratamento dos dados em
tempo real.
Empresas que oferecem esse
serviço: Facebook, Amazon,
Google
Volume
6

O que é Big Data
Veracidade
Valor
Velocidade
Dados oriundos de diversos
bancos de dados como
PostgreSQL e Oracle.
Dados não estruturados
oriundos de inúmeras fontes:
documentos, vídeos, áudios,
imagens, se não forem
associados uns aos outros
podem se tornar inúteis.
Volume
Variedade
7

O que é Big Data
Valor
Velocidade
Volume+Velocidade+Variedade
de nada adianta se os dados
não são conﬁáveis.
Informação não é só poder,
informação é patrimônio.
Volume
VariedadeVeracidade
8

O que é Big Data
Valor
Velocidade
Além de qualquer outro
aspecto visto, uma solução de
Big Data se tornará inviável se
o resultado não trouxer
benefícios signiﬁcativos e que
compensem o investimento.
Volume
VariedadeVeracidade
9

Big Data
Áreas de Aplicação
ciência
governo
saúde
social
ﬁnanças
transporte ensino
10
algoritmos genéticos

Áreas de Aplicação
ciência
governo
saúde
social
ﬁnanças
transporte ensinoO limite é a sua imaginação
11

Quem Usa
12
• Análise de sentimento no
Twitter e exército de
apoiadores no Facebook.
• Levantamento de dados de
mídia
• Alcançar o eleitor na hora
certa

Como tudo começou
PR(A)=(1-d)+d(PR(T1)/C(T1)+…+PR(Tn)/C(Tn)))
Gravar grandes volumes de
dados não estruturados(HTML).
Processar as páginas para
buscar citações(links).
Calcular o PageRank das
páginas segundo o número de
citações.
Criar um mecanismo de busca
textual.
13

Como tudo começou
2000 - Jeffrey Dean e Sanjay
Ghemawat (criadores da
tecnologia MapReduce)
http://research.google.com/archive/mapreduce.html
14
Jeffrey Dean
http://research.google.com/
people/jeff/
Sanjay Ghemawat
http://research.google.com/
pubs/SanjayGhemawat.html

Como tudo começou
• Dez/2002 - Primeira biblioteca
MapReduce da Google.
• Out/2003 - Artigo sobre GFS.
• Dez/2004 - Artigo sobre
MapReduce.
• Fev/2006 - Hadoop se torna um
projeto oﬁcial da Apache.
• Abr/2007 - Yahoo! roda Hadoop
em um cluster de 1000 nós.
• Jan/2008 - Hadoop se torna no
projeto principal da Apache
15

Como tudo começou
• 2005 - Cria próprio
mecanismo de busca
• Nutch é criado
• Mesmos problemas que o
Google (máquinas quebram)
• Criado o HDFS(Hadoop
Distributed File System)
• Surge Hbase NoSQL
baseado no BigTable da
Google
16

Soluções Big Data
• Elasticidade
• No ACID (Atomicidade,
Consistência, Isolamento e
Durabilidade)
• NoSQL
• BASE(Basically available, Soft
state, Eventually consistency)
19

Soluções Big Data
Bancos de dados NoSQL
20

Soluções Big Data
• Open Source
• Tolerante a falhas
• Escalável
• Processamento paralelo
• EMR
• Coerência de dados
21

Sandbox
• Projeto Hortonworks que
torna o Hadoop portátil
permitindo rodar no seu
computador pessoal de
forma simples e ágil.
• Possui ﬁns educacionais
• Ambiente de virtualização
VirtualBox
23

Sandbox
• Baixar SandBox http://
hortonworks.com/products/hortonworks-
sandbox/#install
24

Sandbox
• Baixar Cloudera distribuição
linux centOS 6.4 http://
www.cloudera.com/content/cloudera/en/
downloads/quickstart_vms/cdh-5-3-x.html
• Pig http://pig.apache.org
• Hive https://hive.apache.org
25
vs

Sandbox
26
vs
SELECT * FROM Tabela
WHERE Campo = “ABC”;
SELECT a.* FROM a
JOIN b
ON (a.id = b.id)
SELECT MARCA, sum(vl_pedido)
Valor_Pedidos
FROM `default.tb_orders`
Group by MARCA
ORDER by Valor_Pedidos DESC
A = LOAD 'tabela' USING
org.apache.hcatalog.pig.HCatLoader();
B = LIMIT A 100;
C = FILTER B BY campo1 == 'Teste';
D = FOREACH C GENERATE symbol, date,
close;
E = DISTINCT D;
F = GROUP E BY (campo1, campo2);
G = ORDER F BY (campo1, campo2);
H = JOIN G BY campo1, F BY campo1;
DUMP C;
A = LOAD 'default.tb_orders' USING
org.apache.hcatalog.pig.HCatLoader();
B = GROUP A BY marca;
X = FOREACH B GENERATE group,
SUM(A.vl_pedido);
DUMP X;

• Links Interessantes:
• http://ohundo.tempsite.ws
• http://www.cloudera.com/content/cloudera/en/downloads/quickstart_vms/cdh-5-3-x.html
• https://www.vagrantup.com/downloads.html
• https://www.hashicorp.com
• https://www.virtualbox.org/wiki/Downloads
• http://hortonworks.com/hdp/downloads/
• http://mahout.apache.org/
• https://crunch.apache.org/
• http://avro.apache.org/docs/1.7.7/gettingstartedjava.html
• http://hadoop.apache.org/docs/current/hadoop-yarn/hadoop-yarn-site/YARN.html
• http://bigtop.apache.org/
Big Data
27
Perguntas

Big Data

Recomendados

Recomendados

Mais conteúdo relacionado

Mais procurados

Mais procurados (20)

Semelhante a Big Data

Semelhante a Big Data (20)

Big Data