Seminário Hadoop

Ivanilton Polato UTFPR Câmpus Campo Mourão Doutorado em Ciência da Computação DINTER IME/USP-UTFPR Janeiro/2012 Introdução ao Apache Hadoop

Motivações atuais! Grandes quantidades (massivas) de dados Não cabem em uma máquina!

Demoram MUITO para processar serialmente! Máquinas individuais falham! Mais máquinas juntas... probabilidade maior!

O número de nós em um cluster não é constante! Computação nas nuvens Disponibilidade de computação e dados Escalabilidade de aplicações Computação sob demanda

Histórico Fonte: Evert Lammerts (SARA.nl) * http://nutch.apache.org/ ** http://labs.google.com/papers/mapreduce.html http://labs.google.com/papers/gfs.html

Histórico Fev/03 – Primeira biblioteca Map/Reduce na Google

Dez/04 – Artigo sobre Map Reduce

Dez/05 – Doug Cutting implementa MR e DFS no Nutch

Fev/06 – Hadoop se torna um projeto oficial da Apache, Doug Cutting é contratado pela Yahoo!, que adota o Hadoop

Abr/07 – Yahoo! roda Hadoop em um cluster de 1000 nós

Jan/08 – Hadoop se transforma em um projeto principal da Apache

Dez/11 – Apache disponibiliza versão 1.0.0

O que é Apache Hadoop? Framework para computação distribuída Usado em clusters/grades computacionais

Hardware comum (Commodity cluster computing)

Petabytes de dados Open Source (licença Apache)

Inspirado originalmente pelo GFS e MapReduce da Google

Suposições do Projeto Os dados que serão processados não cabem em um nó

Falhas acontecem Ideias: Sistema de arquivos distribuído Replicação interna Recuperação de falhas automática

Suposições do Projeto Mover dados é caro

Computação distribuída é fácil Ideias: Mover a computação para os dados Escrever programas que são fáceis de se distribuir

Composição do Apache Hadoop Núcleo composto por: Hadoop Common

MapReduce: distribui as aplicações Projetos relacionados: HBase: BD distribuído e escalável

Hive e Pig: infraestrutura de DW Na web: http://hadoop.apache.org/

Quem usa? Lista completa: http://wiki.apache.org/hadoop/PoweredBy

HDFS Hadoop Distributed File System

Seminário Hadoop

Mais conteúdo relacionado

Mais procurados

Semelhante a Seminário Hadoop

Seminário Hadoop