Hadoop - TDC FLN 2013

Hadoop: [ Aquele título chato, longo… ]
(aka “Hadoop para DBAs”)
Aldrin Leal, <aldrin@ingenieux.com.br>

Globalcode – Open4education
Agenda
Introdução
Motivação para o Hadoop
Hadoop: Passado Presente e Futuro
Conceituando Hadoop
O Ecosistema Hadoop
Mas e ai?

Introdução
Aldrin Leal
Protroll
Projetos / Experiência em Hadoop
Outras Áreas:
Cloud
ALM

Fontes de Informação Esparsas, não estruturada
Documentos
Recibos
Volume de Coleta de Dados

Aspectos-Chave:
Lei de Moore
Preço
Latência
Largura de Banda
Seek Time

Outros Aspectos-Chave:
Computação Distribuída
Tolerância a Falha

Limitações:
Volume de Dados
Online
Storm / YARN / Impala
Modelo
Sawzall / BigTable

Hadoop: Passado
Presente e Futuro
Doug Cutting
Altavista
Yahoo
Lucene / Solr, e…
Nutch
Papers:
MapReduce
GFS

Hadoop: Passado
Presente e Futuro
Distros Hadoop:
Hortonworks (Microsoft)
Cloudera
Amazon Web Services
Intel
Hadoop as a Service
MRv1 vs YARN
YARN:
Impala
MPICH
Storm

Conceituando Hadoop
Plataforma
Separa funções:
Armazenagem (Namenode, Datanode)
Processamento (Tasktracker)
Coordenação (JobTracker)
Tolerância a Falha:
Fator de Replicação
Task Attempts

Conceituando Hadoop
Otimização
Vários Botões
Execução Especulativa
Divisão de Responsabilidades

Conceituando Hadoop
MapReduce
Mappers
Reducers
Combiners / Partitioners

Conceituando Hadoop

Conceituando Hadoop
Modelo Flexível
Vários Cases Implementáveis (leia a veja!)
“Corrida do Big Data”

Demo
Um pequeno job mapreduce (parte I)
Mapper
Reducer
OutputCollector
Driver, Tool, Configurable
Job, JobConf
FileSystem
sudo (apt-get|yum) install mercurial
&& hg clone
http://bitbucket.org/ingenieux/hadoop-filesystem-
indexer-demo

Ecosistema Hadoop
Distros
Hadoop Streaming (Scripting)
HBase
K/V Distribuído, com SLA
Valores Esparsos, Alta Performance
Hive / Pig / HCatalog
SQL e Perl
Schema Unificado

Demo
Um job mapreduce um pouco maior 

Mas e ai? Como começar
Gestão de Clusters (“Hadoop Operations”)
Whirr
Chef / puppet
OpsWorks
Desenvolvimento (“Hadoop Definitive Guide”)
Scripting
Java / Cascading
Hive / Pig
Ciência de Dados (“Coursera ”)

Conclusão:
É faroeste!
Mas tem uns pontos para se nortear
Muitas mudanças, ritmo rápido
Diversas Oportunidades

Dúvidas?

Obrigado

Hadoop - TDC FLN 2013

Recomendados

Recomendados

Mais conteúdo relacionado

Semelhante a Hadoop - TDC FLN 2013

Semelhante a Hadoop - TDC FLN 2013 (20)

Hadoop - TDC FLN 2013