Apache Hadoop - Introdução

2.512 visualizações

Publicada em

Apresentação realizada na aula de TIN no dia 16 de novembro de 2010.

Publicada em: Tecnologia
0 comentários
0 gostaram
Estatísticas
Notas
  • Seja o primeiro a comentar

  • Seja a primeira pessoa a gostar disto

Sem downloads
Visualizações
Visualizações totais
2.512
No SlideShare
0
A partir de incorporações
0
Número de incorporações
14
Ações
Compartilhamentos
0
Downloads
60
Comentários
0
Gostaram
0
Incorporações 0
Nenhuma incorporação

Nenhuma nota no slide

Apache Hadoop - Introdução

  1. 1. Introdução Apache Hadoop Anne Kelly Diógenes Peçanha Glauco Vinicius 16 de Novembro de 2010
  2. 2. Tópicos Modos de representar dados O que é NoSQL? O que é Hadoop? O modelo de Map/Reduce Hive Dúvidas
  3. 3. Modos de representar dados Hierárquico: 60's ~ 70's Grafo Orientado: 70's Relacional: 70's ~ começo 80's Entidade-Relacionamento: 70's Relacional Extendido: 80's Semântico: final de 70's ~ 80's Orientado a Objetos: final 80's ~ começo 90's Objeto-Relacional: final 80's ~ começo 90's Semi-estruturado (XML): final 90's ~ final 00's ???
  4. 4. O que é NoSQL? Not Only SQL Bancos de dados não-relacionais Pressão rumo a escalabilidade horizontal
  5. 5. O que é Hadoop? Apache Hadoop é uma plataforma de computação distribuída de código aberto, voltado para clusters e grandes massas de dados através de computadores 'commodity'.
  6. 6. Dois principais componentes HDFS Map/Reduce Tolerância a falhas Processamento distribuído Auto-recuperação Alto consumo de banda Armazenamento em cluster
  7. 7. O que torna o Hadoop especial?
  8. 8. Máquinas são confiáveis
  9. 9. Máquinas possuem identidades
  10. 10. Sua análise permanece em apenas uma máquina
  11. 11. Como isso é possível?
  12. 12. Componentes NameNode (Servidor de metadados e banco de dados) SecondaryNameNode (Assistente do NameNode) JobTracker (Agendador) DataNodes (Blocos de armazenamento) TaskTrackers (Executores de tarefas)
  13. 13. HDFS
  14. 14. O Modelo de Map/Reduce Você especifica sua função de map() Você especifica sua função de reduce() O framework cuida do restante
  15. 15. Hands on
  16. 16. O que é Hive? Infraestrutura para data warehouse Permite consultas adhoc utilizando Hive QL Permite a criação de maps e reduces próprios Ótimo para processamento em lote de dados imutáveis
  17. 17. O que Hive não é? Não é um sistema de baixa latência Não pode ser comparado ao Oracle ou SQL Server pelo tempo de resposta de datasets pequenos Não foi desenhado para OLTP ou real-time
  18. 18. Hive Tipos de dados suportados: Inteiros, Booleanos, Ponto Flutuante, Strings, Structs. Suporte a DDL Criação de 'Index' (Partitions) Joins Agregação Union Operações em Arrays Map/Reduce Scripts Customizados
  19. 19. Hands on
  20. 20. Dúvidas?
  21. 21. Referências Apache Hadoop: http://hadoop.apache.org/ Cloudera: http://www.cloudera.com/
  22. 22. Obrigado!

×