Introdução ao Apache Hadoop e seus principais componentes

Apache Hadoop
Primeiros Passos
Rafael Henrique Pinotti
www.benner.com.br

Agenda
● Introdução:
○ Visão geral; Características.
● Módulos - componentes common:
○ HDFS; MapReduce; YARN.
● Principais ferramentas:
○ Zookeeper; HBase; Hive; Pig; Spark;
○ Sqoop; WebHDFS; Flume.
● Comandos no HDFS.
● MapReduce (wordcount).

O que é Hadoop?
● Plataforma Open Source mantida pela fundação Apache.
● Armazenagem e acesso a dados estruturados, semi estruturados e não
estruturados.
● Escrito em linguagem Java, permite integração com outras linguagens
(Python, R, C#, etc.).
● Tecnologia base da infraestrutura de big data.
● Permite obter, armazenar e analisar grandes volumes de dados (big data).
● Processamento distribuído e utilização de máquinas de baixo custo.
● Principais distribuições comerciais: Cloudera e Hortonworks.
● Soluções em nuvem: Microsoft (HDInsight), IBM e Amazon (EMR).

Histórico
● 2002: Iniciado o projeto Nutch.
● 2004: Google publica papers sobre MapReduce e Google File System (GFS).
● 2005: Nutch passa a utilizar uma implementação de MapReduce.
● 2006: Nasce o projeto Hadoop a partir do Nutch.
● 2006: Publicado o paper sobre o Google Bigtable.
● 2007: Pig criado pelo Yahoo! Labs.
● 2008: Yahoo! roda o Hadoop em um cluster de 10.000 nós.
● 2009: Yahoo! usa o Hadoop para ordenar um TB em 62s.
● 2011: Hadoop 1.0.
● 2012: Hadoop 2.0.
● 2017: Hadoop 3.0.

● Hadoop Distributed File System.
● Sistema de arquivos distribuído para armazenamento de big data.
● Tolerante a falhas com recuperação automática.
● Garante a integridade dos arquivos.
● Alto desempenho.
● Divide arquivos grandes em blocos de 64Mb e distribui entre os nós.
● Replica um mesmo bloco em vários nós.
HDFS

MapReduce
● Processamento de grandes volumes de dados em paralelo.
● Separado em duas fases principais: mapeamento e redução.
● Mapeamento: cria uma série de pares chave/valor, aplicando funções em
cada elemento de uma lista.
● Redução: aplicar uma função para cada chave
única encontrada.
● As operações map e reduce podem ser
executadas em paralelo.
● Executar funções em grandes arquivos.
● Tolerante a falhas.

YARN (Hadoop 2.0)
● Yet Another Resource Negotiator.
● Gerenciador da execução das aplicações no cluster.
● Node manager para gerenciar as tarefas (mais flexível e eficiente que o
task tracker), e não se limita a processar somente mapreduce.
● Trabalha com o conceito de
container, criando um para cada
tarefa.

Apache Zookeeper
● Because coordinating distributed systems is a Zoo.
● Serviço centralizado para manutenção de configurações, nomes,
sincronização distribuída e serviços de grupo.
● Gerencia a execução dos jobs ao longo do processo.
● Pré-requisito para alguns componentes do ecossistema.
● Realiza a coordenação de um sistema distribuído.

Apache HBase
● Um dos principais bancos de dados NoSQL do ecossistema hadoop.
● Permite o armazenamento de bilhões de linhas e milhões de colunas.
● Criado a partir do Google Bigtable.
● Roda sobre o HDFS.
● Armazena os dados em sua forma bruta, para posterior análise, limpeza,
preparação e utilização.

Apache Hive
● Solução de data warehouse open source.
● É considerado o banco de dados relacional do Hadoop.
● Facilita a leitura, escrita e manutenção de grandes conjuntos de dados.
● Armazenamento distribuído no HDFS.
● Utiliza linguagem SQL para consultas, o
HiveQL.
● Possui conectores para as principais
ferramentas de BI do mercado.

Apache Pig
● Plataforma para analisar e processar grandes conjuntos de dados (big
data) sem a necessidade de escritas de código Java.
● Executa jobs mapreduce.
● Um dos objetivos é mascarar a complexidade do Java.
● Possui uma linguagem específica que permite a coleta de dados e a
execução de jobs.
● Utiliza linguagem de script própria, o Pig Latin.
● Possui características similares às encontradas em bancos
relacionais, como joins, group, aggregate, etc.

Apache Spark
● Sistema de código aberto para processamento distribuído de dados em
tempo real.
● Diferentemente do hadoop, o Spark armazena as etapas intermediárias
das operações mapreduce em memória.
● Pode rodar sob o ecossistema hadoop ou de forma standalone.

Apache Sqoop
● SQL para Hadoop.
● Movimenta dados de forma bidirecional entre o Hadoop e serviços de
armazenamento estruturados.
● Permite a conexão com diversos bancos de dados relacionais como
Oracle, MySql, DB2, SQL Server, etc.
● Utiliza JDBC para conexão com bancos relacionais.
● Possui integração direta com o Apache Hive.

Apache Flume
● Ferramenta para coletar logs de dados de sistemas distribuídos.
● Os dados são armazenados no HDFS ou HBase.
● Pode ser escalado horizontalmente.
● Muito utilizado para processar logs de transações em servidores de
aplicação e servidores web.

Apache Kafka
● Ferramenta para coletar e processar alto volume de dados de streaming
em tempo real.
● Atua como sistema de mensageria, permitindo um grande número de
publishers e subscribers.
● Armazena grandes quantidades de dados para posterior distribuição.
● Monitora dados para aplicações distribuídas.
● Torna os dados disponíveis para múltiplos assinantes de acordo com seus
interesses.

Outras ferramentas
● WebHDFS: API REST para manipulação de arquivos no HDFS.
● HCatalog: Serviço de metadados para acesso ao Hadoop sem a
necessidade de saber detalhes sobre o armazenamento dos arquivos.
● OOzie: Sistema de agendamento
de fluxo de trabalho para
gerenciar tarefas do Hadoop
(workflow).

Em resumo, o Hadoop...
● É um framework para execução paralela de processamento, realizando o
escalonamento e o balanceamento de carga de forma automática.
● Entrega um recuperação transparente do processamento caso algum nó
da rede falhe durante a execução.
● Possui um grande ecossistema e em constante evolução.
● É provido por diversos fornecedores em nuvem que mantém e escalam
serviços Hadoop.
● Tem uma curva de aprendizado muito grande, mas o uso do ecossistema
traz inúmeros benefícios.

Muito obrigado !!!
rafael.pinotti@benner.com.br
linkedin.com/in/rafael-henrique-pinotti
www.benner.com.br
#benner

Introdução ao Apache Hadoop e seus principais componentes

Recomendados

Recomendados

Mais conteúdo relacionado

Mais procurados

Mais procurados (20)

Semelhante a Introdução ao Apache Hadoop e seus principais componentes

Semelhante a Introdução ao Apache Hadoop e seus principais componentes (20)

Introdução ao Apache Hadoop e seus principais componentes

Notas do Editor