17 de Janeiro de 2015
Big Data
1
Big Data
Randy Quindai
2
“É preciso trabalhar duro para fazer o simples”
Steve Jobs
Quem sou eu
• Graduando em Engenharia
da Computação (UFAL)
• Bolsista do NTI(UFAL)
• Bolsista da
RIM(Blackberry)
• Desenvolvedor de diversos
projetos acadêmicos em
Java, C++, VB6, HTML5,
AngularJS
• Membro do GDG Luanda
?
f g+ in
?
3
O que é Big Data
Volume Velocidade
VariedadeVeracidade
Valor
4
O que é Big Data
VariedadeVeracidade
Valor
Velocidade
Volumes extremamente
grandes de dados:
Em 2007 o Google processava
mais de 400PB dados/mês
Usuários do facebook
produzem mais de 300PB
dados/diários
Volume
5
O que é Big Data
VariedadeVeracidade
Valor
Velocidade
Informação disponível para
uso em tempo hábil.
Tratamento dos dados em
tempo real.
Empresas que oferecem esse
serviço: Facebook, Amazon,
Google
Volume
6
O que é Big Data
Veracidade
Valor
Velocidade
Dados oriundos de diversos
bancos de dados como
PostgreSQL e Oracle.
Dados não estruturados
oriundos de inúmeras fontes:
documentos, vídeos, áudios,
imagens, se não forem
associados uns aos outros
podem se tornar inúteis.
Volume
Variedade
7
O que é Big Data
Valor
Velocidade
Volume+Velocidade+Variedade
de nada adianta se os dados
não são confiáveis.
Informação não é só poder,
informação é patrimônio.
Volume
VariedadeVeracidade
8
O que é Big Data
Valor
Velocidade
Além de qualquer outro
aspecto visto, uma solução de
Big Data se tornará inviável se
o resultado não trouxer
benefícios significativos e que
compensem o investimento.
Volume
VariedadeVeracidade
9
Big Data
Áreas de Aplicação
ciência
governo
saúde
social
finanças
transporte ensino
10
algoritmos genéticos
Áreas de Aplicação
ciência
governo
saúde
social
finanças
transporte ensinoO limite é a sua imaginação
11
Quem Usa
12
• Análise de sentimento no
Twitter e exército de
apoiadores no Facebook.
• Levantamento de dados de
mídia
• Alcançar o eleitor na hora
certa
Como tudo começou
PR(A)=(1-d)+d(PR(T1)/C(T1)+…+PR(Tn)/C(Tn)))
Gravar grandes volumes de
dados não estruturados(HTML).
Processar as páginas para
buscar citações(links).
Calcular o PageRank das
páginas segundo o número de
citações.
Criar um mecanismo de busca
textual.
13
Como tudo começou
2000 - Jeffrey Dean e Sanjay
Ghemawat (criadores da
tecnologia MapReduce)
http://research.google.com/archive/mapreduce.html
14
Jeffrey Dean
http://research.google.com/
people/jeff/
Sanjay Ghemawat
http://research.google.com/
pubs/SanjayGhemawat.html
Como tudo começou
• Dez/2002 - Primeira biblioteca
MapReduce da Google.
• Out/2003 - Artigo sobre GFS.
• Dez/2004 - Artigo sobre
MapReduce.
• Fev/2006 - Hadoop se torna um
projeto oficial da Apache.
• Abr/2007 - Yahoo! roda Hadoop
em um cluster de 1000 nós.
• Jan/2008 - Hadoop se torna no
projeto principal da Apache
15
Como tudo começou
• 2005 - Cria próprio
mecanismo de busca
• Nutch é criado
• Mesmos problemas que o
Google (máquinas quebram)
• Criado o HDFS(Hadoop
Distributed File System)
• Surge Hbase NoSQL
baseado no BigTable da
Google
16
Quem Usa
17
Soluções Big Data
18
Soluções Big Data
• Elasticidade
• No ACID (Atomicidade,
Consistência, Isolamento e
Durabilidade)
• NoSQL
• BASE(Basically available, Soft
state, Eventually consistency)
19
Soluções Big Data
Bancos de dados NoSQL
20
Soluções Big Data
• Open Source
• Tolerante a falhas
• Escalável
• Processamento paralelo
• EMR
• Coerência de dados
21
Ecossistema Hadoop
22
Sandbox
• Projeto Hortonworks que
torna o Hadoop portátil
permitindo rodar no seu
computador pessoal de
forma simples e ágil.
• Possui fins educacionais
• Ambiente de virtualização
VirtualBox
23
Sandbox
• Baixar SandBox http://
hortonworks.com/products/hortonworks-
sandbox/#install
24
Sandbox
• Baixar Cloudera distribuição
linux centOS 6.4 http://
www.cloudera.com/content/cloudera/en/
downloads/quickstart_vms/cdh-5-3-x.html
• Pig http://pig.apache.org
• Hive https://hive.apache.org
25
vs
Sandbox
26
vs
SELECT * FROM Tabela
WHERE Campo = “ABC”;
SELECT a.* FROM a
JOIN b
ON (a.id = b.id)
SELECT MARCA, sum(vl_pedido)
Valor_Pedidos
FROM `default.tb_orders`
Group by MARCA
ORDER by Valor_Pedidos DESC
A = LOAD 'tabela' USING
org.apache.hcatalog.pig.HCatLoader();
B = LIMIT A 100;
C = FILTER B BY campo1 == 'Teste';
D = FOREACH C GENERATE symbol, date,
close;
E = DISTINCT D;
F = GROUP E BY (campo1, campo2);
G = ORDER F BY (campo1, campo2);
H = JOIN G BY campo1, F BY campo1;
DUMP C;
A = LOAD 'default.tb_orders' USING
org.apache.hcatalog.pig.HCatLoader();
B = GROUP A BY marca;
X = FOREACH B GENERATE group,
SUM(A.vl_pedido);
DUMP X;
• Links Interessantes:
• http://ohundo.tempsite.ws
• http://www.cloudera.com/content/cloudera/en/downloads/quickstart_vms/cdh-5-3-x.html
• https://www.vagrantup.com/downloads.html
• https://www.hashicorp.com
• https://www.virtualbox.org/wiki/Downloads
• http://hortonworks.com/hdp/downloads/
• http://mahout.apache.org/
• https://crunch.apache.org/
• http://avro.apache.org/docs/1.7.7/gettingstartedjava.html
• http://hadoop.apache.org/docs/current/hadoop-yarn/hadoop-yarn-site/YARN.html
• http://bigtop.apache.org/
Big Data
27
Perguntas
Fim
Big Data
28

Big Data

  • 1.
    17 de Janeirode 2015 Big Data 1
  • 2.
    Big Data Randy Quindai 2 “Épreciso trabalhar duro para fazer o simples” Steve Jobs
  • 3.
    Quem sou eu •Graduando em Engenharia da Computação (UFAL) • Bolsista do NTI(UFAL) • Bolsista da RIM(Blackberry) • Desenvolvedor de diversos projetos acadêmicos em Java, C++, VB6, HTML5, AngularJS • Membro do GDG Luanda ? f g+ in ? 3
  • 4.
    O que éBig Data Volume Velocidade VariedadeVeracidade Valor 4
  • 5.
    O que éBig Data VariedadeVeracidade Valor Velocidade Volumes extremamente grandes de dados: Em 2007 o Google processava mais de 400PB dados/mês Usuários do facebook produzem mais de 300PB dados/diários Volume 5
  • 6.
    O que éBig Data VariedadeVeracidade Valor Velocidade Informação disponível para uso em tempo hábil. Tratamento dos dados em tempo real. Empresas que oferecem esse serviço: Facebook, Amazon, Google Volume 6
  • 7.
    O que éBig Data Veracidade Valor Velocidade Dados oriundos de diversos bancos de dados como PostgreSQL e Oracle. Dados não estruturados oriundos de inúmeras fontes: documentos, vídeos, áudios, imagens, se não forem associados uns aos outros podem se tornar inúteis. Volume Variedade 7
  • 8.
    O que éBig Data Valor Velocidade Volume+Velocidade+Variedade de nada adianta se os dados não são confiáveis. Informação não é só poder, informação é patrimônio. Volume VariedadeVeracidade 8
  • 9.
    O que éBig Data Valor Velocidade Além de qualquer outro aspecto visto, uma solução de Big Data se tornará inviável se o resultado não trouxer benefícios significativos e que compensem o investimento. Volume VariedadeVeracidade 9
  • 10.
    Big Data Áreas deAplicação ciência governo saúde social finanças transporte ensino 10 algoritmos genéticos
  • 11.
  • 12.
    Quem Usa 12 • Análisede sentimento no Twitter e exército de apoiadores no Facebook. • Levantamento de dados de mídia • Alcançar o eleitor na hora certa
  • 13.
    Como tudo começou PR(A)=(1-d)+d(PR(T1)/C(T1)+…+PR(Tn)/C(Tn))) Gravargrandes volumes de dados não estruturados(HTML). Processar as páginas para buscar citações(links). Calcular o PageRank das páginas segundo o número de citações. Criar um mecanismo de busca textual. 13
  • 14.
    Como tudo começou 2000- Jeffrey Dean e Sanjay Ghemawat (criadores da tecnologia MapReduce) http://research.google.com/archive/mapreduce.html 14 Jeffrey Dean http://research.google.com/ people/jeff/ Sanjay Ghemawat http://research.google.com/ pubs/SanjayGhemawat.html
  • 15.
    Como tudo começou •Dez/2002 - Primeira biblioteca MapReduce da Google. • Out/2003 - Artigo sobre GFS. • Dez/2004 - Artigo sobre MapReduce. • Fev/2006 - Hadoop se torna um projeto oficial da Apache. • Abr/2007 - Yahoo! roda Hadoop em um cluster de 1000 nós. • Jan/2008 - Hadoop se torna no projeto principal da Apache 15
  • 16.
    Como tudo começou •2005 - Cria próprio mecanismo de busca • Nutch é criado • Mesmos problemas que o Google (máquinas quebram) • Criado o HDFS(Hadoop Distributed File System) • Surge Hbase NoSQL baseado no BigTable da Google 16
  • 17.
  • 18.
  • 19.
    Soluções Big Data •Elasticidade • No ACID (Atomicidade, Consistência, Isolamento e Durabilidade) • NoSQL • BASE(Basically available, Soft state, Eventually consistency) 19
  • 20.
    Soluções Big Data Bancosde dados NoSQL 20
  • 21.
    Soluções Big Data •Open Source • Tolerante a falhas • Escalável • Processamento paralelo • EMR • Coerência de dados 21
  • 22.
  • 23.
    Sandbox • Projeto Hortonworksque torna o Hadoop portátil permitindo rodar no seu computador pessoal de forma simples e ágil. • Possui fins educacionais • Ambiente de virtualização VirtualBox 23
  • 24.
    Sandbox • Baixar SandBoxhttp:// hortonworks.com/products/hortonworks- sandbox/#install 24
  • 25.
    Sandbox • Baixar Clouderadistribuição linux centOS 6.4 http:// www.cloudera.com/content/cloudera/en/ downloads/quickstart_vms/cdh-5-3-x.html • Pig http://pig.apache.org • Hive https://hive.apache.org 25 vs
  • 26.
    Sandbox 26 vs SELECT * FROMTabela WHERE Campo = “ABC”; SELECT a.* FROM a JOIN b ON (a.id = b.id) SELECT MARCA, sum(vl_pedido) Valor_Pedidos FROM `default.tb_orders` Group by MARCA ORDER by Valor_Pedidos DESC A = LOAD 'tabela' USING org.apache.hcatalog.pig.HCatLoader(); B = LIMIT A 100; C = FILTER B BY campo1 == 'Teste'; D = FOREACH C GENERATE symbol, date, close; E = DISTINCT D; F = GROUP E BY (campo1, campo2); G = ORDER F BY (campo1, campo2); H = JOIN G BY campo1, F BY campo1; DUMP C; A = LOAD 'default.tb_orders' USING org.apache.hcatalog.pig.HCatLoader(); B = GROUP A BY marca; X = FOREACH B GENERATE group, SUM(A.vl_pedido); DUMP X;
  • 27.
    • Links Interessantes: •http://ohundo.tempsite.ws • http://www.cloudera.com/content/cloudera/en/downloads/quickstart_vms/cdh-5-3-x.html • https://www.vagrantup.com/downloads.html • https://www.hashicorp.com • https://www.virtualbox.org/wiki/Downloads • http://hortonworks.com/hdp/downloads/ • http://mahout.apache.org/ • https://crunch.apache.org/ • http://avro.apache.org/docs/1.7.7/gettingstartedjava.html • http://hadoop.apache.org/docs/current/hadoop-yarn/hadoop-yarn-site/YARN.html • http://bigtop.apache.org/ Big Data 27 Perguntas
  • 28.