Introdução ao
Apache Hadoop
Quem sou eu?
Vinícius Aires Barros
Ciência da Computação 2016 - UFT
Mestrando em Ciência da Computação - ICMC USP
Laboratório de Sistemas Distribuídos e Programação
Concorrente - LaSDPC
Áreas de Interesse: IoT, Distributed Systems, Big Data (...)
Github: @v4ires
Website: http://viniciusaires.me
Contexto
● Big Data (5V’s)
○ Volume
○ Variedade
○ Velocidade
○ Veracidade
○ Valor
● Internet das Coisas (IoT)
● Grandes Volumes de
Dados
● Programação Distribuída
e Paralela
● Dados Estruturados, Não
Estruturados e
Semiestruturados
● Bancos de Dados SQL e
NoSQL
● MapReduce
● Apache Hadoop
Mas Afinal de Contas o
que é Hadoop?
O Apache Hadoop é um software de código aberto
mantido pela Apache Foundation que tem como
propósito fornecer uma implementação livre do
modelo de programação MapReduce.
Características
❏ Linguagem Java
❏ Arquitetura Mestre Escravo (Master/Slave)
❏ Modelo de Programação MapReduce
❏ Hadoop Distributed File System (HDFS)
❏ Memória Secundária (Disco)
❏ Processamento Distribuído
❏ Escalável
❏ Tolerante a Falhas
O que não é?
❏ Linguagem de Programação
❏ Biblioteca de Machine Learning
❏ Processamento em Tempo Real
❏ Solução Definitiva para Tudo
❏ Hadoop ≠ Spark
Timeline
Nutch Hadoop
(Nutch sub-project)
Hadoop
2.9.0
2002
MapReduce
2003
Google File
System (GFS)
2004 2006 2017
Hadoop 2.2
2010
Quem utiliza?
Hadoop Zoo
Single Node
Getting Started
Multi Node
Documentação Oficial: http://hadoop.apache.org/
CMD’s Básicos
Literatura Básica
Arquitetura
Hadoop Distributed File System (HDFS)
MapReduce
Exemplo (Word Count)
Let’s Coding
https://gist.github.com/v4ires/b4b733d5a76e093265ca553269a50abe
Hadoop Streaming
● Suporte a outras Linguagens de Programação;
● Ex: Python, Ruby, JavaScript, C#, outras;
● Qualquer Linguagem de Programação com
stdin e stdout.
Links úteis
❏ http://hadoop.apache.org/
❏ http://viniciusaires.me/blog/
❏ https://www.casadocodigo.com.br/products
/livro-big-data
❏ https://www.amazon.com.br/Hadoop-Defini
tive-Guide-Tom-White/dp/1449311520
Obrigado!
Dúvidas?
Contatos:
✘ Twitter: @v4ires
✘ E-mail: v4ires@gmail.com

Introdução ao Apache Hadoop