SlideShare uma empresa Scribd logo
1 de 28
Baixar para ler offline
17 de Janeiro de 2015
Big Data
1
Big Data
Randy Quindai
2
“É preciso trabalhar duro para fazer o simples”
Steve Jobs
Quem sou eu
• Graduando em Engenharia
da Computação (UFAL)
• Bolsista do NTI(UFAL)
• Bolsista da
RIM(Blackberry)
• Desenvolvedor de diversos
projetos acadêmicos em
Java, C++, VB6, HTML5,
AngularJS
• Membro do GDG Luanda
?
f g+ in
?
3
O que é Big Data
Volume Velocidade
VariedadeVeracidade
Valor
4
O que é Big Data
VariedadeVeracidade
Valor
Velocidade
Volumes extremamente
grandes de dados:
Em 2007 o Google processava
mais de 400PB dados/mês
Usuários do facebook
produzem mais de 300PB
dados/diários
Volume
5
O que é Big Data
VariedadeVeracidade
Valor
Velocidade
Informação disponível para
uso em tempo hábil.
Tratamento dos dados em
tempo real.
Empresas que oferecem esse
serviço: Facebook, Amazon,
Google
Volume
6
O que é Big Data
Veracidade
Valor
Velocidade
Dados oriundos de diversos
bancos de dados como
PostgreSQL e Oracle.
Dados não estruturados
oriundos de inúmeras fontes:
documentos, vídeos, áudios,
imagens, se não forem
associados uns aos outros
podem se tornar inúteis.
Volume
Variedade
7
O que é Big Data
Valor
Velocidade
Volume+Velocidade+Variedade
de nada adianta se os dados
não são confiáveis.
Informação não é só poder,
informação é patrimônio.
Volume
VariedadeVeracidade
8
O que é Big Data
Valor
Velocidade
Além de qualquer outro
aspecto visto, uma solução de
Big Data se tornará inviável se
o resultado não trouxer
benefícios significativos e que
compensem o investimento.
Volume
VariedadeVeracidade
9
Big Data
Áreas de Aplicação
ciência
governo
saúde
social
finanças
transporte ensino
10
algoritmos genéticos
Áreas de Aplicação
ciência
governo
saúde
social
finanças
transporte ensinoO limite é a sua imaginação
11
Quem Usa
12
• Análise de sentimento no
Twitter e exército de
apoiadores no Facebook.
• Levantamento de dados de
mídia
• Alcançar o eleitor na hora
certa
Como tudo começou
PR(A)=(1-d)+d(PR(T1)/C(T1)+…+PR(Tn)/C(Tn)))
Gravar grandes volumes de
dados não estruturados(HTML).
Processar as páginas para
buscar citações(links).
Calcular o PageRank das
páginas segundo o número de
citações.
Criar um mecanismo de busca
textual.
13
Como tudo começou
2000 - Jeffrey Dean e Sanjay
Ghemawat (criadores da
tecnologia MapReduce)
http://research.google.com/archive/mapreduce.html
14
Jeffrey Dean
http://research.google.com/
people/jeff/
Sanjay Ghemawat
http://research.google.com/
pubs/SanjayGhemawat.html
Como tudo começou
• Dez/2002 - Primeira biblioteca
MapReduce da Google.
• Out/2003 - Artigo sobre GFS.
• Dez/2004 - Artigo sobre
MapReduce.
• Fev/2006 - Hadoop se torna um
projeto oficial da Apache.
• Abr/2007 - Yahoo! roda Hadoop
em um cluster de 1000 nós.
• Jan/2008 - Hadoop se torna no
projeto principal da Apache
15
Como tudo começou
• 2005 - Cria próprio
mecanismo de busca
• Nutch é criado
• Mesmos problemas que o
Google (máquinas quebram)
• Criado o HDFS(Hadoop
Distributed File System)
• Surge Hbase NoSQL
baseado no BigTable da
Google
16
Quem Usa
17
Soluções Big Data
18
Soluções Big Data
• Elasticidade
• No ACID (Atomicidade,
Consistência, Isolamento e
Durabilidade)
• NoSQL
• BASE(Basically available, Soft
state, Eventually consistency)
19
Soluções Big Data
Bancos de dados NoSQL
20
Soluções Big Data
• Open Source
• Tolerante a falhas
• Escalável
• Processamento paralelo
• EMR
• Coerência de dados
21
Ecossistema Hadoop
22
Sandbox
• Projeto Hortonworks que
torna o Hadoop portátil
permitindo rodar no seu
computador pessoal de
forma simples e ágil.
• Possui fins educacionais
• Ambiente de virtualização
VirtualBox
23
Sandbox
• Baixar SandBox http://
hortonworks.com/products/hortonworks-
sandbox/#install
24
Sandbox
• Baixar Cloudera distribuição
linux centOS 6.4 http://
www.cloudera.com/content/cloudera/en/
downloads/quickstart_vms/cdh-5-3-x.html
• Pig http://pig.apache.org
• Hive https://hive.apache.org
25
vs
Sandbox
26
vs
SELECT * FROM Tabela
WHERE Campo = “ABC”;
SELECT a.* FROM a
JOIN b
ON (a.id = b.id)
SELECT MARCA, sum(vl_pedido)
Valor_Pedidos
FROM `default.tb_orders`
Group by MARCA
ORDER by Valor_Pedidos DESC
A = LOAD 'tabela' USING
org.apache.hcatalog.pig.HCatLoader();
B = LIMIT A 100;
C = FILTER B BY campo1 == 'Teste';
D = FOREACH C GENERATE symbol, date,
close;
E = DISTINCT D;
F = GROUP E BY (campo1, campo2);
G = ORDER F BY (campo1, campo2);
H = JOIN G BY campo1, F BY campo1;
DUMP C;
A = LOAD 'default.tb_orders' USING
org.apache.hcatalog.pig.HCatLoader();
B = GROUP A BY marca;
X = FOREACH B GENERATE group,
SUM(A.vl_pedido);
DUMP X;
• Links Interessantes:
• http://ohundo.tempsite.ws
• http://www.cloudera.com/content/cloudera/en/downloads/quickstart_vms/cdh-5-3-x.html
• https://www.vagrantup.com/downloads.html
• https://www.hashicorp.com
• https://www.virtualbox.org/wiki/Downloads
• http://hortonworks.com/hdp/downloads/
• http://mahout.apache.org/
• https://crunch.apache.org/
• http://avro.apache.org/docs/1.7.7/gettingstartedjava.html
• http://hadoop.apache.org/docs/current/hadoop-yarn/hadoop-yarn-site/YARN.html
• http://bigtop.apache.org/
Big Data
27
Perguntas
Fim
Big Data
28

Mais conteúdo relacionado

Mais procurados

Big Data, o que é isso?
Big Data, o que é isso?Big Data, o que é isso?
Big Data, o que é isso?Ambiente Livre
 
Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014
Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014
Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014Marcos Luiz Lins Filho
 
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e PentahoBig Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e PentahoAmbiente Livre
 
Palestra Big Data SCTI
Palestra Big Data SCTIPalestra Big Data SCTI
Palestra Big Data SCTIBruna Pereira
 
BIGDATA: Da teoria à Pratica
BIGDATA: Da teoria à PraticaBIGDATA: Da teoria à Pratica
BIGDATA: Da teoria à PraticaDaniel Checchia
 
Big Data e Análise de Dados Massivos
Big Data e Análise de Dados MassivosBig Data e Análise de Dados Massivos
Big Data e Análise de Dados MassivosFrancisco Oliveira
 
Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - Curitiba
Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - CuritibaPalestra: Big Data Open Source com Hadoop - FLISOL 2014 - Curitiba
Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - CuritibaMarcio Junior Vieira
 
Big data: Conceitos e Desafios
Big data: Conceitos e DesafiosBig data: Conceitos e Desafios
Big data: Conceitos e DesafiosFlávio Sousa
 
Big Data em 8 perguntas - 09.10.2014 - DATANORTE / GOV RN
Big Data em 8 perguntas -  09.10.2014 - DATANORTE / GOV RNBig Data em 8 perguntas -  09.10.2014 - DATANORTE / GOV RN
Big Data em 8 perguntas - 09.10.2014 - DATANORTE / GOV RNMarcos Luiz Lins Filho
 
Big Data para Leigos
Big Data para LeigosBig Data para Leigos
Big Data para LeigosPedro Neto
 
Data Science - A arte de estudar e analisar dados
Data Science - A arte de estudar e analisar dadosData Science - A arte de estudar e analisar dados
Data Science - A arte de estudar e analisar dadosDayane Cristine Leite
 
Big Data e Data Science - Tecnologia e Mercado
Big Data e Data Science - Tecnologia e MercadoBig Data e Data Science - Tecnologia e Mercado
Big Data e Data Science - Tecnologia e MercadoHélio Silva
 
Big Data Analytics - Data Science - Aplicação e Tecnologia
Big Data Analytics - Data Science - Aplicação e TecnologiaBig Data Analytics - Data Science - Aplicação e Tecnologia
Big Data Analytics - Data Science - Aplicação e TecnologiaHélio Silva
 
Ativando Inteligência com Big Data
Ativando Inteligência com Big DataAtivando Inteligência com Big Data
Ativando Inteligência com Big DataHélio Silva
 
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...Ambiente Livre
 

Mais procurados (20)

Big Data, o que é isso?
Big Data, o que é isso?Big Data, o que é isso?
Big Data, o que é isso?
 
Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014
Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014
Big Data - Pós Graduação Arquitetura de Nuvem - UFRN - 2014
 
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e PentahoBig Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
 
Palestra Big Data SCTI
Palestra Big Data SCTIPalestra Big Data SCTI
Palestra Big Data SCTI
 
Treinamento hadoop - dia1
Treinamento hadoop - dia1Treinamento hadoop - dia1
Treinamento hadoop - dia1
 
BIGDATA: Da teoria à Pratica
BIGDATA: Da teoria à PraticaBIGDATA: Da teoria à Pratica
BIGDATA: Da teoria à Pratica
 
Big Data
Big DataBig Data
Big Data
 
Big Data e Análise de Dados Massivos
Big Data e Análise de Dados MassivosBig Data e Análise de Dados Massivos
Big Data e Análise de Dados Massivos
 
Big Data Latinoware 2014
Big Data Latinoware 2014Big Data Latinoware 2014
Big Data Latinoware 2014
 
Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - Curitiba
Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - CuritibaPalestra: Big Data Open Source com Hadoop - FLISOL 2014 - Curitiba
Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - Curitiba
 
Big data: Conceitos e Desafios
Big data: Conceitos e DesafiosBig data: Conceitos e Desafios
Big data: Conceitos e Desafios
 
Big Data em 8 perguntas - 09.10.2014 - DATANORTE / GOV RN
Big Data em 8 perguntas -  09.10.2014 - DATANORTE / GOV RNBig Data em 8 perguntas -  09.10.2014 - DATANORTE / GOV RN
Big Data em 8 perguntas - 09.10.2014 - DATANORTE / GOV RN
 
Big Data para Leigos
Big Data para LeigosBig Data para Leigos
Big Data para Leigos
 
Data Science - A arte de estudar e analisar dados
Data Science - A arte de estudar e analisar dadosData Science - A arte de estudar e analisar dados
Data Science - A arte de estudar e analisar dados
 
Big Data
Big DataBig Data
Big Data
 
Big Data e Data Science - Tecnologia e Mercado
Big Data e Data Science - Tecnologia e MercadoBig Data e Data Science - Tecnologia e Mercado
Big Data e Data Science - Tecnologia e Mercado
 
Big Data Analytics - Data Science - Aplicação e Tecnologia
Big Data Analytics - Data Science - Aplicação e TecnologiaBig Data Analytics - Data Science - Aplicação e Tecnologia
Big Data Analytics - Data Science - Aplicação e Tecnologia
 
Ativando Inteligência com Big Data
Ativando Inteligência com Big DataAtivando Inteligência com Big Data
Ativando Inteligência com Big Data
 
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
 
Treinamento hadoop - dia3
Treinamento hadoop - dia3Treinamento hadoop - dia3
Treinamento hadoop - dia3
 

Semelhante a Big Data

iOpera artigo o que é big data como surgiu o big data para que serve o big data
iOpera artigo o que é big data como surgiu o big data para que serve o big dataiOpera artigo o que é big data como surgiu o big data para que serve o big data
iOpera artigo o que é big data como surgiu o big data para que serve o big dataValêncio Garcia
 
Big Data Open Source com Hadoop
Big Data Open Source com HadoopBig Data Open Source com Hadoop
Big Data Open Source com HadoopAmbiente Livre
 
Pentaho Hadoop Big Data e Data Lakes
Pentaho Hadoop Big Data e Data LakesPentaho Hadoop Big Data e Data Lakes
Pentaho Hadoop Big Data e Data LakesAmbiente Livre
 
Cientista de Dados – Dominando o Big Data com Software Livre
Cientista de Dados – Dominando o Big Data com Software Livre Cientista de Dados – Dominando o Big Data com Software Livre
Cientista de Dados – Dominando o Big Data com Software Livre Ambiente Livre
 
Interoperabilidade com BigData Hadoop para Windows Azure
Interoperabilidade com BigData Hadoop  para Windows AzureInteroperabilidade com BigData Hadoop  para Windows Azure
Interoperabilidade com BigData Hadoop para Windows AzureAlessandro Binhara
 
A importância do ecossistema Java em aplicações baseadas em Big Data
A importância do ecossistema Java em aplicações baseadas em Big DataA importância do ecossistema Java em aplicações baseadas em Big Data
A importância do ecossistema Java em aplicações baseadas em Big DataVinícius Barros
 
Palestra: Cientista de Dados – Dominando o Big Data com Software Livre
Palestra: Cientista de Dados – Dominando o Big Data com Software LivrePalestra: Cientista de Dados – Dominando o Big Data com Software Livre
Palestra: Cientista de Dados – Dominando o Big Data com Software LivreAmbiente Livre
 
Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...
Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...
Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...Ambiente Livre
 
Big Data e suas Vertentes
Big Data e suas VertentesBig Data e suas Vertentes
Big Data e suas VertentesUnicamp
 
Big Data: Seus problemas estão apenas começando
Big Data: Seus problemas estão apenas começandoBig Data: Seus problemas estão apenas começando
Big Data: Seus problemas estão apenas começandoThiago Gonzaga
 
Big data e mineração de dados
Big data e mineração de dadosBig data e mineração de dados
Big data e mineração de dadosElton Meira
 
PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
PostgreSQL em projetos de Business Analytics e Big Data Analytics com PentahoPostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
PostgreSQL em projetos de Business Analytics e Big Data Analytics com PentahoAmbiente Livre
 
Bigdata na pratica: Resolvendo problemas de performance com hadoop
Bigdata na pratica: Resolvendo problemas de performance com hadoopBigdata na pratica: Resolvendo problemas de performance com hadoop
Bigdata na pratica: Resolvendo problemas de performance com hadooptdc-globalcode
 

Semelhante a Big Data (20)

iOpera artigo o que é big data como surgiu o big data para que serve o big data
iOpera artigo o que é big data como surgiu o big data para que serve o big dataiOpera artigo o que é big data como surgiu o big data para que serve o big data
iOpera artigo o que é big data como surgiu o big data para que serve o big data
 
Big Data
Big DataBig Data
Big Data
 
Aula BigData.pptx
Aula BigData.pptxAula BigData.pptx
Aula BigData.pptx
 
Big Data Open Source com Hadoop
Big Data Open Source com HadoopBig Data Open Source com Hadoop
Big Data Open Source com Hadoop
 
Big Data, JVM e Redes Sociais
Big Data, JVM e Redes SociaisBig Data, JVM e Redes Sociais
Big Data, JVM e Redes Sociais
 
Treinamento hadoop - dia4
Treinamento hadoop - dia4Treinamento hadoop - dia4
Treinamento hadoop - dia4
 
Pentaho Hadoop Big Data e Data Lakes
Pentaho Hadoop Big Data e Data LakesPentaho Hadoop Big Data e Data Lakes
Pentaho Hadoop Big Data e Data Lakes
 
Cientista de Dados – Dominando o Big Data com Software Livre
Cientista de Dados – Dominando o Big Data com Software Livre Cientista de Dados – Dominando o Big Data com Software Livre
Cientista de Dados – Dominando o Big Data com Software Livre
 
Interoperabilidade com BigData Hadoop para Windows Azure
Interoperabilidade com BigData Hadoop  para Windows AzureInteroperabilidade com BigData Hadoop  para Windows Azure
Interoperabilidade com BigData Hadoop para Windows Azure
 
A importância do ecossistema Java em aplicações baseadas em Big Data
A importância do ecossistema Java em aplicações baseadas em Big DataA importância do ecossistema Java em aplicações baseadas em Big Data
A importância do ecossistema Java em aplicações baseadas em Big Data
 
Palestra: Cientista de Dados – Dominando o Big Data com Software Livre
Palestra: Cientista de Dados – Dominando o Big Data com Software LivrePalestra: Cientista de Dados – Dominando o Big Data com Software Livre
Palestra: Cientista de Dados – Dominando o Big Data com Software Livre
 
Big Data
Big DataBig Data
Big Data
 
Big data
Big dataBig data
Big data
 
Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...
Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...
Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...
 
Big Data e suas Vertentes
Big Data e suas VertentesBig Data e suas Vertentes
Big Data e suas Vertentes
 
Big Data: Seus problemas estão apenas começando
Big Data: Seus problemas estão apenas começandoBig Data: Seus problemas estão apenas começando
Big Data: Seus problemas estão apenas começando
 
Big data
Big dataBig data
Big data
 
Big data e mineração de dados
Big data e mineração de dadosBig data e mineração de dados
Big data e mineração de dados
 
PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
PostgreSQL em projetos de Business Analytics e Big Data Analytics com PentahoPostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
 
Bigdata na pratica: Resolvendo problemas de performance com hadoop
Bigdata na pratica: Resolvendo problemas de performance com hadoopBigdata na pratica: Resolvendo problemas de performance com hadoop
Bigdata na pratica: Resolvendo problemas de performance com hadoop
 

Big Data

  • 1. 17 de Janeiro de 2015 Big Data 1
  • 2. Big Data Randy Quindai 2 “É preciso trabalhar duro para fazer o simples” Steve Jobs
  • 3. Quem sou eu • Graduando em Engenharia da Computação (UFAL) • Bolsista do NTI(UFAL) • Bolsista da RIM(Blackberry) • Desenvolvedor de diversos projetos acadêmicos em Java, C++, VB6, HTML5, AngularJS • Membro do GDG Luanda ? f g+ in ? 3
  • 4. O que é Big Data Volume Velocidade VariedadeVeracidade Valor 4
  • 5. O que é Big Data VariedadeVeracidade Valor Velocidade Volumes extremamente grandes de dados: Em 2007 o Google processava mais de 400PB dados/mês Usuários do facebook produzem mais de 300PB dados/diários Volume 5
  • 6. O que é Big Data VariedadeVeracidade Valor Velocidade Informação disponível para uso em tempo hábil. Tratamento dos dados em tempo real. Empresas que oferecem esse serviço: Facebook, Amazon, Google Volume 6
  • 7. O que é Big Data Veracidade Valor Velocidade Dados oriundos de diversos bancos de dados como PostgreSQL e Oracle. Dados não estruturados oriundos de inúmeras fontes: documentos, vídeos, áudios, imagens, se não forem associados uns aos outros podem se tornar inúteis. Volume Variedade 7
  • 8. O que é Big Data Valor Velocidade Volume+Velocidade+Variedade de nada adianta se os dados não são confiáveis. Informação não é só poder, informação é patrimônio. Volume VariedadeVeracidade 8
  • 9. O que é Big Data Valor Velocidade Além de qualquer outro aspecto visto, uma solução de Big Data se tornará inviável se o resultado não trouxer benefícios significativos e que compensem o investimento. Volume VariedadeVeracidade 9
  • 10. Big Data Áreas de Aplicação ciência governo saúde social finanças transporte ensino 10 algoritmos genéticos
  • 12. Quem Usa 12 • Análise de sentimento no Twitter e exército de apoiadores no Facebook. • Levantamento de dados de mídia • Alcançar o eleitor na hora certa
  • 13. Como tudo começou PR(A)=(1-d)+d(PR(T1)/C(T1)+…+PR(Tn)/C(Tn))) Gravar grandes volumes de dados não estruturados(HTML). Processar as páginas para buscar citações(links). Calcular o PageRank das páginas segundo o número de citações. Criar um mecanismo de busca textual. 13
  • 14. Como tudo começou 2000 - Jeffrey Dean e Sanjay Ghemawat (criadores da tecnologia MapReduce) http://research.google.com/archive/mapreduce.html 14 Jeffrey Dean http://research.google.com/ people/jeff/ Sanjay Ghemawat http://research.google.com/ pubs/SanjayGhemawat.html
  • 15. Como tudo começou • Dez/2002 - Primeira biblioteca MapReduce da Google. • Out/2003 - Artigo sobre GFS. • Dez/2004 - Artigo sobre MapReduce. • Fev/2006 - Hadoop se torna um projeto oficial da Apache. • Abr/2007 - Yahoo! roda Hadoop em um cluster de 1000 nós. • Jan/2008 - Hadoop se torna no projeto principal da Apache 15
  • 16. Como tudo começou • 2005 - Cria próprio mecanismo de busca • Nutch é criado • Mesmos problemas que o Google (máquinas quebram) • Criado o HDFS(Hadoop Distributed File System) • Surge Hbase NoSQL baseado no BigTable da Google 16
  • 19. Soluções Big Data • Elasticidade • No ACID (Atomicidade, Consistência, Isolamento e Durabilidade) • NoSQL • BASE(Basically available, Soft state, Eventually consistency) 19
  • 20. Soluções Big Data Bancos de dados NoSQL 20
  • 21. Soluções Big Data • Open Source • Tolerante a falhas • Escalável • Processamento paralelo • EMR • Coerência de dados 21
  • 23. Sandbox • Projeto Hortonworks que torna o Hadoop portátil permitindo rodar no seu computador pessoal de forma simples e ágil. • Possui fins educacionais • Ambiente de virtualização VirtualBox 23
  • 24. Sandbox • Baixar SandBox http:// hortonworks.com/products/hortonworks- sandbox/#install 24
  • 25. Sandbox • Baixar Cloudera distribuição linux centOS 6.4 http:// www.cloudera.com/content/cloudera/en/ downloads/quickstart_vms/cdh-5-3-x.html • Pig http://pig.apache.org • Hive https://hive.apache.org 25 vs
  • 26. Sandbox 26 vs SELECT * FROM Tabela WHERE Campo = “ABC”; SELECT a.* FROM a JOIN b ON (a.id = b.id) SELECT MARCA, sum(vl_pedido) Valor_Pedidos FROM `default.tb_orders` Group by MARCA ORDER by Valor_Pedidos DESC A = LOAD 'tabela' USING org.apache.hcatalog.pig.HCatLoader(); B = LIMIT A 100; C = FILTER B BY campo1 == 'Teste'; D = FOREACH C GENERATE symbol, date, close; E = DISTINCT D; F = GROUP E BY (campo1, campo2); G = ORDER F BY (campo1, campo2); H = JOIN G BY campo1, F BY campo1; DUMP C; A = LOAD 'default.tb_orders' USING org.apache.hcatalog.pig.HCatLoader(); B = GROUP A BY marca; X = FOREACH B GENERATE group, SUM(A.vl_pedido); DUMP X;
  • 27. • Links Interessantes: • http://ohundo.tempsite.ws • http://www.cloudera.com/content/cloudera/en/downloads/quickstart_vms/cdh-5-3-x.html • https://www.vagrantup.com/downloads.html • https://www.hashicorp.com • https://www.virtualbox.org/wiki/Downloads • http://hortonworks.com/hdp/downloads/ • http://mahout.apache.org/ • https://crunch.apache.org/ • http://avro.apache.org/docs/1.7.7/gettingstartedjava.html • http://hadoop.apache.org/docs/current/hadoop-yarn/hadoop-yarn-site/YARN.html • http://bigtop.apache.org/ Big Data 27 Perguntas