O documento discute vários tópicos relacionados a bancos de dados não-relacionais e Hadoop. Ele explica que Hadoop é uma plataforma de código aberto para processamento de grandes volumes de dados distribuídos em clusters, que usa HDFS para armazenamento e MapReduce para processamento paralelo tolerante a falhas. Também descreve o que é NoSQL, Hive e como o modelo MapReduce funciona no Hadoop.
3. Modos de representar dados
Hierárquico: 60's ~ 70's
Grafo Orientado: 70's
Relacional: 70's ~ começo 80's
Entidade-Relacionamento: 70's
Relacional Extendido: 80's
Semântico: final de 70's ~ 80's
Orientado a Objetos: final 80's ~ começo
90's
Objeto-Relacional: final 80's ~ começo 90's
Semi-estruturado (XML): final 90's ~ final
00's
???
4. O que é NoSQL?
Not Only SQL
Bancos de dados não-relacionais
Pressão rumo a escalabilidade horizontal
5. O que é Hadoop?
Apache Hadoop é uma plataforma de
computação distribuída de código aberto,
voltado para clusters e grandes massas de
dados através de computadores 'commodity'.
6. Dois principais componentes
HDFS Map/Reduce
Tolerância a falhas
Processamento distribuído
Auto-recuperação
Alto consumo de banda
Armazenamento em cluster
12. Componentes
NameNode (Servidor de metadados e banco
de dados)
SecondaryNameNode (Assistente do
NameNode)
JobTracker (Agendador)
DataNodes (Blocos de armazenamento)
TaskTrackers (Executores de tarefas)
16. O que é Hive?
Infraestrutura para data warehouse
Permite consultas adhoc utilizando Hive QL
Permite a criação de maps e reduces
próprios
Ótimo para processamento em lote de
dados imutáveis
17. O que Hive não é?
Não é um sistema de baixa latência
Não pode ser comparado ao Oracle ou SQL
Server pelo tempo de resposta de datasets
pequenos
Não foi desenhado para OLTP ou real-time
18. Hive
Tipos de dados suportados: Inteiros,
Booleanos, Ponto Flutuante, Strings, Structs.
Suporte a DDL
Criação de 'Index' (Partitions)
Joins
Agregação
Union
Operações em Arrays
Map/Reduce Scripts Customizados