SlideShare uma empresa Scribd logo
Hadoop: [ Aquele título chato, longo… ]
(aka “Hadoop para DBAs”)
Aldrin Leal, <aldrin@ingenieux.com.br>
Globalcode – Open4education
Agenda
Introdução
Motivação para o Hadoop
Hadoop: Passado Presente e Futuro
Conceituando Hadoop
O Ecosistema Hadoop
Mas e ai?
Globalcode – Open4education
Introdução
Aldrin Leal
Protroll
Projetos / Experiência em Hadoop
Outras Áreas:
Cloud
ALM
Globalcode – Open4education
Motivação para o Hadoop
Fontes de Informação Esparsas, não estruturada
Documentos
Recibos
Volume de Coleta de Dados
Globalcode – Open4education
Motivação para o Hadoop
Aspectos-Chave:
Lei de Moore
Preço
Latência
Largura de Banda
Seek Time
Globalcode – Open4education
Motivação para o Hadoop
Outros Aspectos-Chave:
Computação Distribuída
Tolerância a Falha
Globalcode – Open4education
Motivação para o Hadoop
Limitações:
Volume de Dados
Online
Storm / YARN / Impala
Modelo
Sawzall / BigTable
Globalcode – Open4education
Hadoop: Passado
Presente e Futuro
Doug Cutting
Altavista
Yahoo
Lucene / Solr, e…
Nutch
Papers:
MapReduce
GFS
Globalcode – Open4education
Hadoop: Passado
Presente e Futuro
Distros Hadoop:
Hortonworks (Microsoft)
Cloudera
Amazon Web Services
Intel
Hadoop as a Service
MRv1 vs YARN
YARN:
Impala
MPICH
Storm
Globalcode – Open4education
Conceituando Hadoop
Plataforma
Separa funções:
Armazenagem (Namenode, Datanode)
Processamento (Tasktracker)
Coordenação (JobTracker)
Tolerância a Falha:
Fator de Replicação
Task Attempts
Globalcode – Open4education
Conceituando Hadoop
Otimização
Vários Botões
Execução Especulativa
Divisão de Responsabilidades
Globalcode – Open4education
Conceituando Hadoop
MapReduce
Mappers
Reducers
Combiners / Partitioners
Globalcode – Open4education
Conceituando Hadoop
Globalcode – Open4education
Conceituando Hadoop
Modelo Flexível
Vários Cases Implementáveis (leia a veja!)
“Corrida do Big Data”
Globalcode – Open4education
Demo
Um pequeno job mapreduce (parte I)
Mapper
Reducer
OutputCollector
Driver, Tool, Configurable
Job, JobConf
FileSystem
sudo (apt-get|yum) install mercurial
&& hg clone
http://bitbucket.org/ingenieux/hadoop-filesystem-
indexer-demo
Globalcode – Open4education
Ecosistema Hadoop
Distros
Hadoop Streaming (Scripting)
HBase
K/V Distribuído, com SLA
Valores Esparsos, Alta Performance
Hive / Pig / HCatalog
SQL e Perl
Schema Unificado
Globalcode – Open4education
Demo
Um job mapreduce um pouco maior 
Globalcode – Open4education
Mas e ai? Como começar
Gestão de Clusters (“Hadoop Operations”)
Whirr
Chef / puppet
OpsWorks
Desenvolvimento (“Hadoop Definitive Guide”)
Scripting
Java / Cascading
Hive / Pig
Ciência de Dados (“Coursera ”)
Globalcode – Open4education
Conclusão:
É faroeste!
Mas tem uns pontos para se nortear
Muitas mudanças, ritmo rápido
Diversas Oportunidades
Globalcode – Open4education
Dúvidas?
Globalcode – Open4education
Obrigado

Mais conteúdo relacionado

Semelhante a Hadoop - TDC FLN 2013

Treinamento hadoop - dia3
Treinamento hadoop - dia3Treinamento hadoop - dia3
Treinamento hadoop - dia3
Alexandre Uehara
 
Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - Curitiba
Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - CuritibaPalestra: Big Data Open Source com Hadoop - FLISOL 2014 - Curitiba
Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - Curitiba
Marcio Junior Vieira
 
Qcon Rio 2015 - Data Lakes Workshop
Qcon Rio 2015 - Data Lakes WorkshopQcon Rio 2015 - Data Lakes Workshop
Qcon Rio 2015 - Data Lakes Workshop
João Paulo Leonidas Fernandes Dias da Silva
 
Data Lakes com Hadoop e Spark: Agile Analytics na prática
Data Lakes com Hadoop e Spark: Agile Analytics na práticaData Lakes com Hadoop e Spark: Agile Analytics na prática
Data Lakes com Hadoop e Spark: Agile Analytics na prática
Ricardo Wendell Rodrigues da Silveira
 
Amazon WebServices Architectur
Amazon WebServices ArchitecturAmazon WebServices Architectur
Amazon WebServices Architectur
Rafael Nunes
 
Big Data Open Source com Hadoop
Big Data Open Source com HadoopBig Data Open Source com Hadoop
Big Data Open Source com Hadoop
Ambiente Livre
 
Big Data, JVM e Redes Sociais
Big Data, JVM e Redes SociaisBig Data, JVM e Redes Sociais
Big Data, JVM e Redes Sociais
José Renato Pequeno
 
Instalando arquitetura Lambda com Graphx e Elasticsearch 2.0 em uma aplicação...
Instalando arquitetura Lambda com Graphx e Elasticsearch 2.0 em uma aplicação...Instalando arquitetura Lambda com Graphx e Elasticsearch 2.0 em uma aplicação...
Instalando arquitetura Lambda com Graphx e Elasticsearch 2.0 em uma aplicação...
tdc-globalcode
 
Instanciando a Arquitetura Lambda com GraphX e Elasticsearch 2.0 em uma apl...
Instanciando a Arquitetura Lambda com  GraphX e Elasticsearch 2.0  em uma apl...Instanciando a Arquitetura Lambda com  GraphX e Elasticsearch 2.0  em uma apl...
Instanciando a Arquitetura Lambda com GraphX e Elasticsearch 2.0 em uma apl...
Luiz Henrique Zambom Santana
 
Hadoop
HadoopHadoop
SQL Maniacs - SQL Server 2019 Big Data Clusters
SQL Maniacs - SQL Server 2019 Big Data ClustersSQL Maniacs - SQL Server 2019 Big Data Clusters
SQL Maniacs - SQL Server 2019 Big Data Clusters
Luiz Henrique Garetti Rosário
 
Sql maniacs sql server 2019 Big Data Clusters
Sql maniacs   sql server 2019 Big Data ClustersSql maniacs   sql server 2019 Big Data Clusters
Sql maniacs sql server 2019 Big Data Clusters
Luiz Henrique Garetti Rosário
 
Case RDStation: Construindo DataLakes com Apache Hadoop em cloud agnóstica
Case RDStation: Construindo DataLakes com Apache Hadoop em cloud agnósticaCase RDStation: Construindo DataLakes com Apache Hadoop em cloud agnóstica
Case RDStation: Construindo DataLakes com Apache Hadoop em cloud agnóstica
Alessandro Binhara
 
Big Data - O que é o hadoop, map reduce, hdfs e hive
Big Data - O que é o hadoop, map reduce, hdfs e hiveBig Data - O que é o hadoop, map reduce, hdfs e hive
Big Data - O que é o hadoop, map reduce, hdfs e hive
Flavio Fonte, PMP, ITIL
 
Big Data - Hadoop
Big Data - HadoopBig Data - Hadoop
Big Data - Hadoop
Caio Candido
 
TDC São Paulo Online 2020 - trilha Big Data
TDC São Paulo Online 2020 - trilha Big DataTDC São Paulo Online 2020 - trilha Big Data
TDC São Paulo Online 2020 - trilha Big Data
Eduardo Hahn
 
Turbinando o seu sistema com Redis!
Turbinando o seu sistema com Redis!Turbinando o seu sistema com Redis!
Turbinando o seu sistema com Redis!
Mario Guedes
 
DataOps: da teoria a prática, como realmente se aplica em projetos de BigData
DataOps: da teoria a prática, como realmente se aplica em projetos de BigDataDataOps: da teoria a prática, como realmente se aplica em projetos de BigData
DataOps: da teoria a prática, como realmente se aplica em projetos de BigData
Eduardo Hahn
 
Proposta de arquitetura Hadoop
Proposta de arquitetura HadoopProposta de arquitetura Hadoop
Proposta de arquitetura Hadoop
Adriano Rodrigo Guerreiro Laranjeira
 
Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...
Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...
Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...
Ambiente Livre
 

Semelhante a Hadoop - TDC FLN 2013 (20)

Treinamento hadoop - dia3
Treinamento hadoop - dia3Treinamento hadoop - dia3
Treinamento hadoop - dia3
 
Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - Curitiba
Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - CuritibaPalestra: Big Data Open Source com Hadoop - FLISOL 2014 - Curitiba
Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - Curitiba
 
Qcon Rio 2015 - Data Lakes Workshop
Qcon Rio 2015 - Data Lakes WorkshopQcon Rio 2015 - Data Lakes Workshop
Qcon Rio 2015 - Data Lakes Workshop
 
Data Lakes com Hadoop e Spark: Agile Analytics na prática
Data Lakes com Hadoop e Spark: Agile Analytics na práticaData Lakes com Hadoop e Spark: Agile Analytics na prática
Data Lakes com Hadoop e Spark: Agile Analytics na prática
 
Amazon WebServices Architectur
Amazon WebServices ArchitecturAmazon WebServices Architectur
Amazon WebServices Architectur
 
Big Data Open Source com Hadoop
Big Data Open Source com HadoopBig Data Open Source com Hadoop
Big Data Open Source com Hadoop
 
Big Data, JVM e Redes Sociais
Big Data, JVM e Redes SociaisBig Data, JVM e Redes Sociais
Big Data, JVM e Redes Sociais
 
Instalando arquitetura Lambda com Graphx e Elasticsearch 2.0 em uma aplicação...
Instalando arquitetura Lambda com Graphx e Elasticsearch 2.0 em uma aplicação...Instalando arquitetura Lambda com Graphx e Elasticsearch 2.0 em uma aplicação...
Instalando arquitetura Lambda com Graphx e Elasticsearch 2.0 em uma aplicação...
 
Instanciando a Arquitetura Lambda com GraphX e Elasticsearch 2.0 em uma apl...
Instanciando a Arquitetura Lambda com  GraphX e Elasticsearch 2.0  em uma apl...Instanciando a Arquitetura Lambda com  GraphX e Elasticsearch 2.0  em uma apl...
Instanciando a Arquitetura Lambda com GraphX e Elasticsearch 2.0 em uma apl...
 
Hadoop
HadoopHadoop
Hadoop
 
SQL Maniacs - SQL Server 2019 Big Data Clusters
SQL Maniacs - SQL Server 2019 Big Data ClustersSQL Maniacs - SQL Server 2019 Big Data Clusters
SQL Maniacs - SQL Server 2019 Big Data Clusters
 
Sql maniacs sql server 2019 Big Data Clusters
Sql maniacs   sql server 2019 Big Data ClustersSql maniacs   sql server 2019 Big Data Clusters
Sql maniacs sql server 2019 Big Data Clusters
 
Case RDStation: Construindo DataLakes com Apache Hadoop em cloud agnóstica
Case RDStation: Construindo DataLakes com Apache Hadoop em cloud agnósticaCase RDStation: Construindo DataLakes com Apache Hadoop em cloud agnóstica
Case RDStation: Construindo DataLakes com Apache Hadoop em cloud agnóstica
 
Big Data - O que é o hadoop, map reduce, hdfs e hive
Big Data - O que é o hadoop, map reduce, hdfs e hiveBig Data - O que é o hadoop, map reduce, hdfs e hive
Big Data - O que é o hadoop, map reduce, hdfs e hive
 
Big Data - Hadoop
Big Data - HadoopBig Data - Hadoop
Big Data - Hadoop
 
TDC São Paulo Online 2020 - trilha Big Data
TDC São Paulo Online 2020 - trilha Big DataTDC São Paulo Online 2020 - trilha Big Data
TDC São Paulo Online 2020 - trilha Big Data
 
Turbinando o seu sistema com Redis!
Turbinando o seu sistema com Redis!Turbinando o seu sistema com Redis!
Turbinando o seu sistema com Redis!
 
DataOps: da teoria a prática, como realmente se aplica em projetos de BigData
DataOps: da teoria a prática, como realmente se aplica em projetos de BigDataDataOps: da teoria a prática, como realmente se aplica em projetos de BigData
DataOps: da teoria a prática, como realmente se aplica em projetos de BigData
 
Proposta de arquitetura Hadoop
Proposta de arquitetura HadoopProposta de arquitetura Hadoop
Proposta de arquitetura Hadoop
 
Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...
Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...
Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...
 

Hadoop - TDC FLN 2013