SlideShare uma empresa Scribd logo
1 de 22
Baixar para ler offline
Introdução
Apache Hadoop
Anne Kelly
Diógenes Peçanha
Glauco Vinicius
16 de Novembro de 2010
Tópicos
Modos de representar dados
O que é NoSQL?
O que é Hadoop?
O modelo de Map/Reduce
Hive
Dúvidas
Modos de representar dados
Hierárquico: 60's ~ 70's
Grafo Orientado: 70's
Relacional: 70's ~ começo 80's
Entidade-Relacionamento: 70's
Relacional Extendido: 80's
Semântico: final de 70's ~ 80's
Orientado a Objetos: final 80's ~ começo
90's
Objeto-Relacional: final 80's ~ começo 90's
Semi-estruturado (XML): final 90's ~ final
00's
???
O que é NoSQL?
Not Only SQL
Bancos de dados não-relacionais
Pressão rumo a escalabilidade horizontal
O que é Hadoop?
Apache Hadoop é uma plataforma de
computação distribuída de código aberto,
voltado para clusters e grandes massas de
dados através de computadores 'commodity'.
Dois principais componentes
HDFS Map/Reduce
Tolerância a falhas
Processamento distribuído
Auto-recuperação
Alto consumo de banda
Armazenamento em cluster
O que torna o Hadoop especial?
Máquinas são confiáveis
Máquinas possuem identidades
Sua análise permanece em
apenas uma máquina
Como isso é possível?
Componentes
NameNode (Servidor de metadados e banco
de dados)
SecondaryNameNode (Assistente do
NameNode)
JobTracker (Agendador)
DataNodes (Blocos de armazenamento)
TaskTrackers (Executores de tarefas)
HDFS
O Modelo de Map/Reduce
Você especifica sua função de map()
Você especifica sua função de reduce()
O framework cuida do restante
Hands on
O que é Hive?
Infraestrutura para data warehouse
Permite consultas adhoc utilizando Hive QL
Permite a criação de maps e reduces
próprios
Ótimo para processamento em lote de
dados imutáveis
O que Hive não é?
Não é um sistema de baixa latência
Não pode ser comparado ao Oracle ou SQL
Server pelo tempo de resposta de datasets
pequenos
Não foi desenhado para OLTP ou real-time
Hive
Tipos de dados suportados: Inteiros,
Booleanos, Ponto Flutuante, Strings, Structs.
Suporte a DDL
Criação de 'Index' (Partitions)
Joins
Agregação
Union
Operações em Arrays
Map/Reduce Scripts Customizados
Hands on
Dúvidas?
Referências
Apache Hadoop: http://hadoop.apache.org/
Cloudera: http://www.cloudera.com/
Obrigado!

Mais conteúdo relacionado

Destaque (19)

Estudo de caso ASP.NET MVC e Silverlight
Estudo de caso ASP.NET MVC e SilverlightEstudo de caso ASP.NET MVC e Silverlight
Estudo de caso ASP.NET MVC e Silverlight
 
Turma 1 E 2 AvaliaçãO Fundamentos Basicos
Turma 1 E 2 AvaliaçãO Fundamentos BasicosTurma 1 E 2 AvaliaçãO Fundamentos Basicos
Turma 1 E 2 AvaliaçãO Fundamentos Basicos
 
C:\Fakepath\Brasil 2005e
C:\Fakepath\Brasil 2005eC:\Fakepath\Brasil 2005e
C:\Fakepath\Brasil 2005e
 
Marketing digital
Marketing digitalMarketing digital
Marketing digital
 
C:\Fakepath\Ex Ne Pe 2005
C:\Fakepath\Ex Ne Pe 2005C:\Fakepath\Ex Ne Pe 2005
C:\Fakepath\Ex Ne Pe 2005
 
Igreja
IgrejaIgreja
Igreja
 
Segredo completo
Segredo completoSegredo completo
Segredo completo
 
Melhorar VP Número 1 abril de 1991
Melhorar VP Número 1 abril de 1991Melhorar VP Número 1 abril de 1991
Melhorar VP Número 1 abril de 1991
 
Suplemento 2010 outubro
Suplemento 2010 outubroSuplemento 2010 outubro
Suplemento 2010 outubro
 
Antoniassi - Promoção Maluca!!
Antoniassi - Promoção Maluca!!Antoniassi - Promoção Maluca!!
Antoniassi - Promoção Maluca!!
 
01 introducao-ao-moodle
01 introducao-ao-moodle01 introducao-ao-moodle
01 introducao-ao-moodle
 
Yves Behar
Yves BeharYves Behar
Yves Behar
 
Influenza A
Influenza AInfluenza A
Influenza A
 
ACT Certification
ACT CertificationACT Certification
ACT Certification
 
Realidad aumentada
Realidad aumentadaRealidad aumentada
Realidad aumentada
 
Polo Ambiental da Zona Leste
Polo Ambiental da Zona LestePolo Ambiental da Zona Leste
Polo Ambiental da Zona Leste
 
Presentes Dia Das CriançAs Scj
Presentes Dia Das CriançAs ScjPresentes Dia Das CriançAs Scj
Presentes Dia Das CriançAs Scj
 
Iosh
Iosh Iosh
Iosh
 
Prece Amélia Rodrigues
Prece Amélia RodriguesPrece Amélia Rodrigues
Prece Amélia Rodrigues
 

Semelhante a Apache Hadoop - Introdução

Big Data – HBase, integrando hadoop, bi e dw; Montando o seu big data Cloude...
Big Data – HBase, integrando hadoop, bi e dw; Montando o seu big data  Cloude...Big Data – HBase, integrando hadoop, bi e dw; Montando o seu big data  Cloude...
Big Data – HBase, integrando hadoop, bi e dw; Montando o seu big data Cloude...Flavio Fonte, PMP, ITIL
 
Introdução ao Apache Hadoop
Introdução ao Apache HadoopIntrodução ao Apache Hadoop
Introdução ao Apache HadoopVinícius Barros
 
Interoperabilidade com BigData Hadoop para Windows Azure
Interoperabilidade com BigData Hadoop  para Windows AzureInteroperabilidade com BigData Hadoop  para Windows Azure
Interoperabilidade com BigData Hadoop para Windows AzureAlessandro Binhara
 
Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...
Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...
Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...Ambiente Livre
 
Hadoop - primeiros passos
Hadoop - primeiros passosHadoop - primeiros passos
Hadoop - primeiros passosrhpinotti
 
Arquitetura para solução Big Data – open source
Arquitetura para solução Big Data – open sourceArquitetura para solução Big Data – open source
Arquitetura para solução Big Data – open sourceFelipe RENZ - MBA TI / Big
 
SQL Saturday 570 - São Paulo - 2016
SQL Saturday 570 - São Paulo - 2016SQL Saturday 570 - São Paulo - 2016
SQL Saturday 570 - São Paulo - 2016Rodrigo Dornel
 
Hadoop - Mãos à massa! Qcon2014
Hadoop - Mãos à massa! Qcon2014Hadoop - Mãos à massa! Qcon2014
Hadoop - Mãos à massa! Qcon2014Thiago Santiago
 
Bigdata - compreendendo Hadoop e seu ecossistema.
Bigdata - compreendendo Hadoop e seu ecossistema. Bigdata - compreendendo Hadoop e seu ecossistema.
Bigdata - compreendendo Hadoop e seu ecossistema. Natalia Raythz
 
Big Data - O que é o hadoop, map reduce, hdfs e hive
Big Data - O que é o hadoop, map reduce, hdfs e hiveBig Data - O que é o hadoop, map reduce, hdfs e hive
Big Data - O que é o hadoop, map reduce, hdfs e hiveFlavio Fonte, PMP, ITIL
 
Bigdata na pratica: Resolvendo problemas de performance com hadoop
Bigdata na pratica: Resolvendo problemas de performance com hadoopBigdata na pratica: Resolvendo problemas de performance com hadoop
Bigdata na pratica: Resolvendo problemas de performance com hadooptdc-globalcode
 
SQLSat 253 - Por Onde Começar no BigData
SQLSat 253 - Por Onde Começar no BigDataSQLSat 253 - Por Onde Começar no BigData
SQLSat 253 - Por Onde Começar no BigDataDiego Nogare
 
Filesystem distribuído com hadoop!!!
Filesystem distribuído com hadoop!!! Filesystem distribuído com hadoop!!!
Filesystem distribuído com hadoop!!! Alessandro Binhara
 
Alinguagem SQL no mundo NOSQL
Alinguagem SQL no mundo NOSQLAlinguagem SQL no mundo NOSQL
Alinguagem SQL no mundo NOSQLpichiliani
 

Semelhante a Apache Hadoop - Introdução (20)

Big Data – HBase, integrando hadoop, bi e dw; Montando o seu big data Cloude...
Big Data – HBase, integrando hadoop, bi e dw; Montando o seu big data  Cloude...Big Data – HBase, integrando hadoop, bi e dw; Montando o seu big data  Cloude...
Big Data – HBase, integrando hadoop, bi e dw; Montando o seu big data Cloude...
 
Introdução ao Apache Hadoop
Introdução ao Apache HadoopIntrodução ao Apache Hadoop
Introdução ao Apache Hadoop
 
Big data e ecossistema hadoop
Big data e ecossistema hadoopBig data e ecossistema hadoop
Big data e ecossistema hadoop
 
Interoperabilidade com BigData Hadoop para Windows Azure
Interoperabilidade com BigData Hadoop  para Windows AzureInteroperabilidade com BigData Hadoop  para Windows Azure
Interoperabilidade com BigData Hadoop para Windows Azure
 
Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...
Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...
Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...
 
Hadoop - primeiros passos
Hadoop - primeiros passosHadoop - primeiros passos
Hadoop - primeiros passos
 
BrunoSQLSaturday424
BrunoSQLSaturday424BrunoSQLSaturday424
BrunoSQLSaturday424
 
Arquitetura para solução Big Data – open source
Arquitetura para solução Big Data – open sourceArquitetura para solução Big Data – open source
Arquitetura para solução Big Data – open source
 
Hbase
HbaseHbase
Hbase
 
SQL Saturday 570 - São Paulo - 2016
SQL Saturday 570 - São Paulo - 2016SQL Saturday 570 - São Paulo - 2016
SQL Saturday 570 - São Paulo - 2016
 
Um LCMS
Um LCMSUm LCMS
Um LCMS
 
Hadoop - Mãos à massa! Qcon2014
Hadoop - Mãos à massa! Qcon2014Hadoop - Mãos à massa! Qcon2014
Hadoop - Mãos à massa! Qcon2014
 
Bigdata - compreendendo Hadoop e seu ecossistema.
Bigdata - compreendendo Hadoop e seu ecossistema. Bigdata - compreendendo Hadoop e seu ecossistema.
Bigdata - compreendendo Hadoop e seu ecossistema.
 
CBIE WRE Lanylldo
CBIE WRE LanylldoCBIE WRE Lanylldo
CBIE WRE Lanylldo
 
Big Data - O que é o hadoop, map reduce, hdfs e hive
Big Data - O que é o hadoop, map reduce, hdfs e hiveBig Data - O que é o hadoop, map reduce, hdfs e hive
Big Data - O que é o hadoop, map reduce, hdfs e hive
 
Bigdata na pratica: Resolvendo problemas de performance com hadoop
Bigdata na pratica: Resolvendo problemas de performance com hadoopBigdata na pratica: Resolvendo problemas de performance com hadoop
Bigdata na pratica: Resolvendo problemas de performance com hadoop
 
SQLSat 253 - Por Onde Começar no BigData
SQLSat 253 - Por Onde Começar no BigDataSQLSat 253 - Por Onde Começar no BigData
SQLSat 253 - Por Onde Começar no BigData
 
Palestra iv-ensol-nosql
Palestra iv-ensol-nosqlPalestra iv-ensol-nosql
Palestra iv-ensol-nosql
 
Filesystem distribuído com hadoop!!!
Filesystem distribuído com hadoop!!! Filesystem distribuído com hadoop!!!
Filesystem distribuído com hadoop!!!
 
Alinguagem SQL no mundo NOSQL
Alinguagem SQL no mundo NOSQLAlinguagem SQL no mundo NOSQL
Alinguagem SQL no mundo NOSQL
 

Apache Hadoop - Introdução

  • 1. Introdução Apache Hadoop Anne Kelly Diógenes Peçanha Glauco Vinicius 16 de Novembro de 2010
  • 2. Tópicos Modos de representar dados O que é NoSQL? O que é Hadoop? O modelo de Map/Reduce Hive Dúvidas
  • 3. Modos de representar dados Hierárquico: 60's ~ 70's Grafo Orientado: 70's Relacional: 70's ~ começo 80's Entidade-Relacionamento: 70's Relacional Extendido: 80's Semântico: final de 70's ~ 80's Orientado a Objetos: final 80's ~ começo 90's Objeto-Relacional: final 80's ~ começo 90's Semi-estruturado (XML): final 90's ~ final 00's ???
  • 4. O que é NoSQL? Not Only SQL Bancos de dados não-relacionais Pressão rumo a escalabilidade horizontal
  • 5. O que é Hadoop? Apache Hadoop é uma plataforma de computação distribuída de código aberto, voltado para clusters e grandes massas de dados através de computadores 'commodity'.
  • 6. Dois principais componentes HDFS Map/Reduce Tolerância a falhas Processamento distribuído Auto-recuperação Alto consumo de banda Armazenamento em cluster
  • 7. O que torna o Hadoop especial?
  • 10. Sua análise permanece em apenas uma máquina
  • 11. Como isso é possível?
  • 12. Componentes NameNode (Servidor de metadados e banco de dados) SecondaryNameNode (Assistente do NameNode) JobTracker (Agendador) DataNodes (Blocos de armazenamento) TaskTrackers (Executores de tarefas)
  • 13. HDFS
  • 14. O Modelo de Map/Reduce Você especifica sua função de map() Você especifica sua função de reduce() O framework cuida do restante
  • 16. O que é Hive? Infraestrutura para data warehouse Permite consultas adhoc utilizando Hive QL Permite a criação de maps e reduces próprios Ótimo para processamento em lote de dados imutáveis
  • 17. O que Hive não é? Não é um sistema de baixa latência Não pode ser comparado ao Oracle ou SQL Server pelo tempo de resposta de datasets pequenos Não foi desenhado para OLTP ou real-time
  • 18. Hive Tipos de dados suportados: Inteiros, Booleanos, Ponto Flutuante, Strings, Structs. Suporte a DDL Criação de 'Index' (Partitions) Joins Agregação Union Operações em Arrays Map/Reduce Scripts Customizados