Hadoop é uma plataforma de código aberto para processamento de grandes volumes de dados distribuídos em clusters. Ele armazena dados no HDFS e executa trabalhos no YARN usando o modelo MapReduce. Os principais componentes do Hadoop são o HDFS, YARN e MapReduce.
2. HADOOP
• Plataforma de computação distribuída voltada para clusters e
processamentos de grandes volumes de dados.
• Código aberto
• Criado por Doug Cutting do Google Labs em 2005
• Criação motivada pelo desafio da escalabilidade para conseguir indexar
bilhões de páginas na web
• Foi projetado para paralelizar o processamento de dados através de nós de
computação, acelerar processamentos e esconder a latência (atraso no
tempo de resposta)
3. MÓDULOS DO HADOOP
• HADOOP HDSF e HADOO YARN:
• Componentes principais que implementam o armazenamento e o processamento
distribuído
• HADOOP DISTRIBUTED FILE SYSTEM (HDFS):
• Sistema de Arquivos distribuído que armazena dados em máquinas dentro do cluster,
sob demanda, permitindo uma largura de banda muito grande em todo o cluster.
Gerencia os dados armazenados em disco no cluster.
• HADOOP YARN:
• Plataforma de Gerenciamento de recursos do cluster. Aloca recursos computacionais
para aplicações que queiram fazer um processamento distribuído.
• HADOOP MAPREDUCE:
• modelo de programação paralela e distribuída para processamento em larga escala.
Todo o MapReduce original está implementado agora no HADOOP YARN.
4. MÓDULOS DO HADOOP
• HADOOP COMMOM
• Contém as bibliotecas e arquivos comuns e necessários para todos os módulos Hadoop.
• HADOOP DISTRIBUTED FILE SYSTEM (HDFS):
• Sistema de Arquivos distribuído que armazena dados em máquinas dentro do cluster, sob
demanda, permitindo uma largura de banda muito grande em todo o cluster. Gerencia os
dados armazenados em disco no cluster.
• HADOOP YARN:
• Plataforma de Gerenciamento de recursos do cluster. Aloca recursos computacionais para
aplicações que queiram fazer um processamento distribuído.
• HADOOP MAPREDUCE:
• modelo de programação paralela e distribuída para processamento em larga escala. Todo
o MapReduce original está implementado agora no HADOOP YARN.
• HADOOP HDSF e HADOO YARN:
• Componentes principais que implementam o armazenamento e o processamento
distribuído
5. HADOOP - INSTALAÇÃO
Formas de instalação e execução da plataforma:
• Modo local ou independente: útil para desenvolver e testar um
aplicativo
• Modo Pseudo distribuído: executa em um único nó em modo
pseudo distribuído (cada instância do processo Hadoop executa
como um processo Java diferente)
• Modo totalmente distribuído: hadoop é configurado em cluster
com máquinas físicas (ou virtualizadas), cada uma com um
endereço IP válido.
6. HADOOP - INSTALAÇÃO
• Windows
• https://cwiki.apache.org/confluence/display/HADOOP2/Hadoop2OnWindows
• Linux
• http://www.apache.org/dyn/closer.cgi/hadoop/common/
• https://www.youtube.com/watch?v=db_-JfTRKxQ
• Virtual Box
• https://www.youtube.com/watch?v=znC8S0H_7QQ
• Cluster de Nó único
• https://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-
common/SingleCluster.html
• Cluster com alguns nós
• Cluster com milhares de nós