Ivanilton Polato UTFPR Câmpus Campo Mourão Doutorado em Ciência da Computação DINTER IME/USP-UTFPR Janeiro/2012 Introdução ao Apache Hadoop
Motivações atuais! Grandes quantidades (massivas) de dados Não cabem em uma máquina!
Demoram MUITO para processar serialmente! Máquinas individuais falham! Mais máquinas juntas... probabilidade maior!
O número de nós em um cluster não é constante! Computação nas nuvens Disponibilidade de computação e dados Escalabilidade de aplicações Computação sob demanda
Histórico Fonte: Evert Lammerts (SARA.nl) *  http://nutch.apache.org/ **  http://labs.google.com/papers/mapreduce.html http://labs.google.com/papers/gfs.html
Histórico Fev/03 – Primeira biblioteca Map/Reduce na Google
Out/03 – Artigo sobre GFS
Dez/04 – Artigo sobre Map Reduce
Dez/05 – Doug Cutting implementa MR e DFS no Nutch
Fev/06 – Hadoop se torna um projeto oficial da Apache, Doug Cutting é contratado pela Yahoo!, que adota o Hadoop
Abr/07 – Yahoo! roda Hadoop em um cluster de 1000 nós
Jan/08 – Hadoop se transforma em um projeto principal da Apache
Dez/11 – Apache disponibiliza versão 1.0.0
O que é Apache Hadoop? Framework para computação distribuída Usado em clusters/grades computacionais
Milhares de nós
Hardware comum (Commodity cluster computing)
Petabytes de dados Open Source (licença Apache)
Java
Inspirado originalmente pelo GFS e MapReduce da Google
Suposições do Projeto Os dados que serão processados não cabem em um nó
Cada nó é hardware comum
Falhas acontecem Ideias: Sistema de arquivos distribuído Replicação interna Recuperação de falhas automática
Suposições do Projeto Mover dados é caro
Mover computação é barato
Computação distribuída é fácil Ideias: Mover a computação para os dados Escrever programas que são fáceis de se distribuir
Composição do Apache Hadoop Núcleo composto por: Hadoop Common
HDFS: distribui os dados
MapReduce: distribui as aplicações Projetos relacionados: HBase: BD distribuído e escalável
Hive e Pig: infraestrutura de DW Na web: http://hadoop.apache.org/
Possibilidades de uso
Quem usa? Lista completa: http://wiki.apache.org/hadoop/PoweredBy
HDFS Hadoop Distributed File System

Seminário Hadoop