O documento apresenta Hadoop, uma plataforma de armazenamento e processamento de grandes volumes de dados. Apresenta as motivações para Hadoop, como a necessidade de analisar dados não estruturados e em grande volume. Resume a história do Hadoop, seu ecossistema e conceitos-chave como MapReduce. Demonstra um exemplo simples de job MapReduce.
Bigdata na pratica: Resolvendo problemas de performance com hadooptdc-globalcode
O Apache Hadoop tem se tornado o framework padrão para processamento de Big Data. Com ele, podemos processar grandes volumes de dados utilizando hardware de baixo custo de forma paralela e distribuída. Essas características podem ser úteis no cotidiano do desenvolvedor, otimizando a execução de rotinas batch e geração de relatórios, por exemplo. Nesta palestra serão mostrados os passos para desenvolver uma solução utilizando algumas ferramentas que fazem parte do ecossistema do Hadoop: MapReduce, HDFS e HBase.
Bigdata na pratica: Resolvendo problemas de performance com hadooptdc-globalcode
O Apache Hadoop tem se tornado o framework padrão para processamento de Big Data. Com ele, podemos processar grandes volumes de dados utilizando hardware de baixo custo de forma paralela e distribuída. Essas características podem ser úteis no cotidiano do desenvolvedor, otimizando a execução de rotinas batch e geração de relatórios, por exemplo. Nesta palestra serão mostrados os passos para desenvolver uma solução utilizando algumas ferramentas que fazem parte do ecossistema do Hadoop: MapReduce, HDFS e HBase.
This presentation was presented by Ricardo Wendell and I in QCon Rio 2015. Here we talk about data lakes, agile analytics and how to implement it with Hadoop and Spark.
Instalando arquitetura Lambda com Graphx e Elasticsearch 2.0 em uma aplicação...tdc-globalcode
A palestra contém os seguintes tópicos: - Introdução - Histórico: MapReduce e Hadoop (acho que tem um histórico em comum aí) - Buzz atual sobre Spark e Elasticsearch - Visão geral do Spark e GraphX - Visão geral do Elasticsearch 2.0 - Arquitetura Lambda e a aplicação - Código - Conclusões
Case RDStation: Construindo DataLakes com Apache Hadoop em cloud agnósticaAlessandro Binhara
Nem sempre é de interesse das empresas prender suas soluções de bigdata em serviços de cloud. Algumas empresa preferem ter autonomia tecnológica e construir sua solução própria solução de data Lake de forma agnóstica as clouds que utilizam. O objetivo dessa palestra é presentar por que algumas empresas fazem isso, quais os benefícios e desafios a serem enfrentados quando optamos por construir nosso data Lake usando Apache Hadoop. E nada mais interessante do que ter todas essas informações com base em um case real.
Texto sobre Big Data extraído do blog bigdatabrazil.blogspot.com com informações básicas sobre hadoop, mapreduce, hdfs e hive. Contém indicações de livros e links que detalham o assunto.
This presentation was presented by Ricardo Wendell and I in QCon Rio 2015. Here we talk about data lakes, agile analytics and how to implement it with Hadoop and Spark.
Instalando arquitetura Lambda com Graphx e Elasticsearch 2.0 em uma aplicação...tdc-globalcode
A palestra contém os seguintes tópicos: - Introdução - Histórico: MapReduce e Hadoop (acho que tem um histórico em comum aí) - Buzz atual sobre Spark e Elasticsearch - Visão geral do Spark e GraphX - Visão geral do Elasticsearch 2.0 - Arquitetura Lambda e a aplicação - Código - Conclusões
Case RDStation: Construindo DataLakes com Apache Hadoop em cloud agnósticaAlessandro Binhara
Nem sempre é de interesse das empresas prender suas soluções de bigdata em serviços de cloud. Algumas empresa preferem ter autonomia tecnológica e construir sua solução própria solução de data Lake de forma agnóstica as clouds que utilizam. O objetivo dessa palestra é presentar por que algumas empresas fazem isso, quais os benefícios e desafios a serem enfrentados quando optamos por construir nosso data Lake usando Apache Hadoop. E nada mais interessante do que ter todas essas informações com base em um case real.
Texto sobre Big Data extraído do blog bigdatabrazil.blogspot.com com informações básicas sobre hadoop, mapreduce, hdfs e hive. Contém indicações de livros e links que detalham o assunto.
9. Globalcode – Open4education
Hadoop: Passado
Presente e Futuro
Distros Hadoop:
Hortonworks (Microsoft)
Cloudera
Amazon Web Services
Intel
Hadoop as a Service
MRv1 vs YARN
YARN:
Impala
MPICH
Storm
10. Globalcode – Open4education
Conceituando Hadoop
Plataforma
Separa funções:
Armazenagem (Namenode, Datanode)
Processamento (Tasktracker)
Coordenação (JobTracker)
Tolerância a Falha:
Fator de Replicação
Task Attempts
18. Globalcode – Open4education
Mas e ai? Como começar
Gestão de Clusters (“Hadoop Operations”)
Whirr
Chef / puppet
OpsWorks
Desenvolvimento (“Hadoop Definitive Guide”)
Scripting
Java / Cascading
Hive / Pig
Ciência de Dados (“Coursera ”)