O documento apresenta uma introdução ao Hadoop, incluindo seu surgimento, componentes e funcionalidades. Resume os principais tópicos do Big Data, Hadoop, HDFS, MapReduce e o ecossistema Hadoop.
O documento discute o sistema de arquivos distribuído Hadoop para processamento de grandes volumes de dados. Ele explica como o Hadoop permite armazenar e processar petabytes de dados em hardware comum e tolera falhas de forma transparente para as aplicações. Também descreve os principais componentes do Hadoop como HDFS, MapReduce e como eles trabalham juntos para fornecer escalabilidade e confiabilidade.
Abordagem criativa sobre o ecossistema hadoop
No atual mundo captalista, M Bison, dono do maior e-commerce mundial chamado Shadaloo, decide analisar o perfil de todos os seus clientes; não apenas mostrando os dados comuns do BI, mas analisar também:
- Dados de TODOS os sistemas Legados
- Dados de Navegação
- SAC e Midias Sociais.
Dessa forma ele poderia:
- Criar mecanismo de ofertas personalizadas
- Retenção de clientes que realizam reclamações no SAC
- Identificar relação de entre reclamações no SAC e mídias sociais.
- Analisar fluxo de navegação e proporcionar navegação personalizada por tipo de clientes
O documento apresenta um resumo sobre Big Data, definindo os conceitos de Volume, Velocidade, Variedade, Veracidade e Valor. Também descreve brevemente como surgiram as primeiras soluções de Big Data na Google e no Hadoop e algumas das principais empresas que utilizam Big Data.
O documento discute as tendências de escalabilidade e armazenamento de dados, comparando SQL e NoSQL. Ele explica como os volumes de dados estão crescendo rapidamente com a Internet das Coisas e como bancos de dados como chave-valor, grafos e orientados a documentos ou coluna são melhores para Big Data do que SQL puro. O documento também discute serviços em nuvem e híbridos e como profissionais precisam ter habilidades multidisciplinares para lidar com a complexidade crescente.
Bigdata na pratica: Resolvendo problemas de performance com hadooptdc-globalcode
O Apache Hadoop tem se tornado o framework padrão para processamento de Big Data. Com ele, podemos processar grandes volumes de dados utilizando hardware de baixo custo de forma paralela e distribuída. Essas características podem ser úteis no cotidiano do desenvolvedor, otimizando a execução de rotinas batch e geração de relatórios, por exemplo. Nesta palestra serão mostrados os passos para desenvolver uma solução utilizando algumas ferramentas que fazem parte do ecossistema do Hadoop: MapReduce, HDFS e HBase.
O documento discute o sistema de arquivos distribuído Hadoop para processamento de grandes volumes de dados. Ele explica como o Hadoop permite armazenar e processar petabytes de dados em hardware comum e tolera falhas de forma transparente para as aplicações. Também descreve os principais componentes do Hadoop como HDFS, MapReduce e como eles trabalham juntos para fornecer escalabilidade e confiabilidade.
Abordagem criativa sobre o ecossistema hadoop
No atual mundo captalista, M Bison, dono do maior e-commerce mundial chamado Shadaloo, decide analisar o perfil de todos os seus clientes; não apenas mostrando os dados comuns do BI, mas analisar também:
- Dados de TODOS os sistemas Legados
- Dados de Navegação
- SAC e Midias Sociais.
Dessa forma ele poderia:
- Criar mecanismo de ofertas personalizadas
- Retenção de clientes que realizam reclamações no SAC
- Identificar relação de entre reclamações no SAC e mídias sociais.
- Analisar fluxo de navegação e proporcionar navegação personalizada por tipo de clientes
O documento apresenta um resumo sobre Big Data, definindo os conceitos de Volume, Velocidade, Variedade, Veracidade e Valor. Também descreve brevemente como surgiram as primeiras soluções de Big Data na Google e no Hadoop e algumas das principais empresas que utilizam Big Data.
O documento discute as tendências de escalabilidade e armazenamento de dados, comparando SQL e NoSQL. Ele explica como os volumes de dados estão crescendo rapidamente com a Internet das Coisas e como bancos de dados como chave-valor, grafos e orientados a documentos ou coluna são melhores para Big Data do que SQL puro. O documento também discute serviços em nuvem e híbridos e como profissionais precisam ter habilidades multidisciplinares para lidar com a complexidade crescente.
Bigdata na pratica: Resolvendo problemas de performance com hadooptdc-globalcode
O Apache Hadoop tem se tornado o framework padrão para processamento de Big Data. Com ele, podemos processar grandes volumes de dados utilizando hardware de baixo custo de forma paralela e distribuída. Essas características podem ser úteis no cotidiano do desenvolvedor, otimizando a execução de rotinas batch e geração de relatórios, por exemplo. Nesta palestra serão mostrados os passos para desenvolver uma solução utilizando algumas ferramentas que fazem parte do ecossistema do Hadoop: MapReduce, HDFS e HBase.
O documento discute o projeto Sloan Digital Sky Survey (SDSS), que mapeia o céu e mede distâncias e propriedades de objetos celestes. Os dados do SDSS precisam ser processados rapidamente usando Big Data para direcionar telescópios. O framework Hive é usado para armazenar e analisar os dados do SDSS usando a linguagem HiveQL.
O documento discute o uso de PostgreSQL em ambientes de nuvem, mencionando provedores como AWS e Rackspace. Também apresenta exemplos de grandes empresas que usam PostgreSQL em produção, como Yahoo, Sony e a NASA, e discute técnicas como replicação, balanceamento de carga e armazenamento de dados não relacionais em PostgreSQL.
Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - CuritibaMarcio Junior Vieira
Este documento fornece uma introdução ao Big Data e Hadoop. Resume os principais conceitos do Big Data, incluindo os 4V (Volume, Velocidade, Variedade e Valor). Também descreve os principais componentes do ecossistema Hadoop, como HDFS, MapReduce, Hive e HBase, e dá exemplos de como empresas usam Hadoop.
Hadoop é uma plataforma de software de código aberto para processamento distribuído de grandes conjuntos de dados através de clusters de computadores. Ele permite o armazenamento e análise de petabytes de dados em clusters com hardware comum e de baixo custo, e escala horizontalmente conforme os dados e as necessidades de processamento aumentam. Hadoop consiste em HDFS para armazenamento de dados e MapReduce para processamento paralelo e distribuído.
O documento apresenta os conceitos e aplicações de Big Data e Hadoop. Resume os 4 V's de Big Data, descreve as características e componentes do Hadoop como HDFS e MapReduce, e dá exemplos de como empresas usam Hadoop.
Este documento discute como o Java EE 6 e o Java 7 podem ser aplicados para lidar com grandes volumes de dados, ou Big Data. Ele explica brevemente o que é Big Data e como as empresas estão lidando com isso. Também descreve recursos do Java EE 6 e Java 7 como injeção de dependência, NIO2 e melhorias de desempenho que podem ser úteis para processar grandes quantidades de dados. Finalmente, discute várias tecnologias como SQL, NoSQL, cache e grids de dados que podem ser usadas com Java para armazenar e processar Big
Luciano Vargas tem experiência em governança de TI, programação desde os 17 anos, e experiência corporativa em programação, arquitetura, infraestrutura, segurança da informação e gerência de projetos. Ele tem experiência com CVI Refrigerantes, UNIPAMPA e como consultor independente, e tem habilidades em bancos de dados Oracle, SQL Server e MySQL.
Modelos e Sistemas para Computação Distribuída no Hadoop discute os desafios da computação distribuída e como diferentes modelos como MapReduce, BSP, Pregel e Spark abordam esses desafios. O documento também descreve sistemas como Hadoop, Giraph, Impala e Dremel que implementam esses modelos para processamento em batch, grafos e em tempo real.
Queries em Big Data: Bancos de dados em GPUTiago Vinicius
Obter alta performance em consultas em Big Data são um grande desafio. Tecnologias de bancos de dados NoSQL baseados em GPU estão emergindo como uma alternativa promissora para este problema.
Nesta palestra, será apresentado como podemos nos beneficiar do alto poder computacional das GPUs para a execução de consultas de alto desempenho em arquiteturas de Big Data e quais são os desafios relacionados a adoção destas tecnologia.
Apresentação desenvolvida por alunos do curso de Ciências da Computação, da Universidade Federal de Goiás, para a disciplina de Sistemas Distribuídos.
Título: MapReduce
Autores:
Diego Magalhães Cunha
Jorge Luiz de Faria Fernandes
Juliana Paula Félix
O documento discute os desafios e soluções relacionados a Big Data. Apresenta o cenário atual de geração e armazenamento de dados, as características de Big Data (volume, velocidade e variedade), áreas de aplicação, tecnologias envolvidas no processamento e armazenamento de grandes volumes de dados e considerações sobre a adoção de soluções de Big Data.
O documento discute o Hadoop, uma plataforma de software de código aberto para processamento de grandes volumes de dados. Apresenta suas principais características como sistema de arquivos distribuído HDFS, modelo de programação MapReduce e framework YARN para gerenciamento de recursos. Também descreve onde é usado na prática por empresas como Yahoo, Facebook e LinkedIn para análises de big data.
Hadoop é uma plataforma de código aberto para processamento de grandes volumes de dados distribuídos em clusters. Ele armazena dados no HDFS e executa trabalhos no YARN usando o modelo MapReduce. Os principais componentes do Hadoop são o HDFS, YARN e MapReduce.
Fragmentação existe devido à diversidade de tamanhos de tela e fabricantes de dispositivos Android. Desenvolvedores devem usar layouts responsivos com tamanhos relativos e recursos adaptados a diferentes densidades e tamanhos de tela. Ao usar a Support Library e ter o minSdk=8 e targetSdk como a última versão, desenvolvedores podem criar aplicativos compatíveis com a maioria dos dispositivos Android.
Fragmentação no Android: ela existe mesmo? iMasters
Fragmentação existe devido à diversidade de tamanhos de tela e fabricantes de dispositivos Android. Desenvolvedores devem usar layouts responsivos com tamanhos relativos e recursos adaptados a diferentes densidades e tamanhos de tela. Ao usar a Support Library e ter cuidado com as versões mínimas e alvo do SDK, é possível criar aplicativos compatíveis com a maioria dos dispositivos Android.
O documento apresenta uma agenda de um treinamento sobre Hadoop e Big Data, abordando conceitos como MapReduce, HDFS, ferramentas como HBase, Pig e ferramentas relacionadas ao machine learning.
O documento introduz o Apache Hadoop, um framework para computação distribuída em clusters. Ele descreve os principais componentes do Hadoop - HDFS para armazenamento distribuído de dados e MapReduce para processamento paralelo - e explica como eles funcionam juntos para analisar grandes quantidades de dados em clusters.
TDC Conn 2022_ O Esqueleto de um Projeto de Dados (2).pdfFernandoIto8
O documento fornece um guia sobre as etapas, competências e ferramentas essenciais para projetos de ciência de dados. Ele discute planejamento, raspagem, wrangling, pesquisa, modelagem, MLOps, implantação e análise como componentes principais de um projeto de dados, fornecendo exemplos de ferramentas para cada etapa. O documento também fornece um exemplo de como essas etapas podem ser aplicadas para um projeto de análise de sentimento de tweets sobre o Big Brother Brasil.
1) O documento discute Big Data Clusters no SQL Server 2019, que integra o Apache Spark e HDFS para fornecer uma plataforma de dados unificada capaz de lidar com dados estruturados e não estruturados.
2) Big Data Clusters fornecem flexibilidade para interagir com várias fontes de dados através de virtualização e federação via Polybase, além de criação de pipelines de dados e escalabilidade gerenciada por Kubernetes.
3) Uma demonstração é apresentada utilizando dados de políticos, eleitores e vota
1) O documento discute Big Data Clusters no SQL Server 2019, que integra o Apache Spark e HDFS para fornecer uma plataforma de dados unificada capaz de lidar com dados estruturados e não estruturados.
2) Big Data Clusters permite a virtualização e federação de dados através do Polybase, além de criar pipelines de dados e escalar o processamento em cluster gerenciado pelo Kubernetes.
3) Uma demonstração é apresentada utilizando dados de políticos, eleitores e votação armazenados em SQL Server, MongoDB
Cloudera Enabling Native Integration of NoSQL HBase with Cloud Providers.pdfwchevreuil
This document discusses enabling native integration of the NoSQL database HBase with cloud providers. It covers topics like reducing total cost of ownership through automatic scaling and storage optimizations, security simplification using JWT instead of Kerberos, high availability through techniques like multi-availability zones, and benchmark results comparing performance of HBase on cloud storage like S3 versus on-premises block storage. Benchmark results showed higher throughput and lower latencies for most workloads when using cloud storage compared to on-premises block storage. A cost case study also showed monthly costs could be 26.8% lower using cloud storage with ephemeral caches versus block storage for a 50TB read/write workload on AWS.
O documento discute o projeto Sloan Digital Sky Survey (SDSS), que mapeia o céu e mede distâncias e propriedades de objetos celestes. Os dados do SDSS precisam ser processados rapidamente usando Big Data para direcionar telescópios. O framework Hive é usado para armazenar e analisar os dados do SDSS usando a linguagem HiveQL.
O documento discute o uso de PostgreSQL em ambientes de nuvem, mencionando provedores como AWS e Rackspace. Também apresenta exemplos de grandes empresas que usam PostgreSQL em produção, como Yahoo, Sony e a NASA, e discute técnicas como replicação, balanceamento de carga e armazenamento de dados não relacionais em PostgreSQL.
Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - CuritibaMarcio Junior Vieira
Este documento fornece uma introdução ao Big Data e Hadoop. Resume os principais conceitos do Big Data, incluindo os 4V (Volume, Velocidade, Variedade e Valor). Também descreve os principais componentes do ecossistema Hadoop, como HDFS, MapReduce, Hive e HBase, e dá exemplos de como empresas usam Hadoop.
Hadoop é uma plataforma de software de código aberto para processamento distribuído de grandes conjuntos de dados através de clusters de computadores. Ele permite o armazenamento e análise de petabytes de dados em clusters com hardware comum e de baixo custo, e escala horizontalmente conforme os dados e as necessidades de processamento aumentam. Hadoop consiste em HDFS para armazenamento de dados e MapReduce para processamento paralelo e distribuído.
O documento apresenta os conceitos e aplicações de Big Data e Hadoop. Resume os 4 V's de Big Data, descreve as características e componentes do Hadoop como HDFS e MapReduce, e dá exemplos de como empresas usam Hadoop.
Este documento discute como o Java EE 6 e o Java 7 podem ser aplicados para lidar com grandes volumes de dados, ou Big Data. Ele explica brevemente o que é Big Data e como as empresas estão lidando com isso. Também descreve recursos do Java EE 6 e Java 7 como injeção de dependência, NIO2 e melhorias de desempenho que podem ser úteis para processar grandes quantidades de dados. Finalmente, discute várias tecnologias como SQL, NoSQL, cache e grids de dados que podem ser usadas com Java para armazenar e processar Big
Luciano Vargas tem experiência em governança de TI, programação desde os 17 anos, e experiência corporativa em programação, arquitetura, infraestrutura, segurança da informação e gerência de projetos. Ele tem experiência com CVI Refrigerantes, UNIPAMPA e como consultor independente, e tem habilidades em bancos de dados Oracle, SQL Server e MySQL.
Modelos e Sistemas para Computação Distribuída no Hadoop discute os desafios da computação distribuída e como diferentes modelos como MapReduce, BSP, Pregel e Spark abordam esses desafios. O documento também descreve sistemas como Hadoop, Giraph, Impala e Dremel que implementam esses modelos para processamento em batch, grafos e em tempo real.
Queries em Big Data: Bancos de dados em GPUTiago Vinicius
Obter alta performance em consultas em Big Data são um grande desafio. Tecnologias de bancos de dados NoSQL baseados em GPU estão emergindo como uma alternativa promissora para este problema.
Nesta palestra, será apresentado como podemos nos beneficiar do alto poder computacional das GPUs para a execução de consultas de alto desempenho em arquiteturas de Big Data e quais são os desafios relacionados a adoção destas tecnologia.
Apresentação desenvolvida por alunos do curso de Ciências da Computação, da Universidade Federal de Goiás, para a disciplina de Sistemas Distribuídos.
Título: MapReduce
Autores:
Diego Magalhães Cunha
Jorge Luiz de Faria Fernandes
Juliana Paula Félix
O documento discute os desafios e soluções relacionados a Big Data. Apresenta o cenário atual de geração e armazenamento de dados, as características de Big Data (volume, velocidade e variedade), áreas de aplicação, tecnologias envolvidas no processamento e armazenamento de grandes volumes de dados e considerações sobre a adoção de soluções de Big Data.
O documento discute o Hadoop, uma plataforma de software de código aberto para processamento de grandes volumes de dados. Apresenta suas principais características como sistema de arquivos distribuído HDFS, modelo de programação MapReduce e framework YARN para gerenciamento de recursos. Também descreve onde é usado na prática por empresas como Yahoo, Facebook e LinkedIn para análises de big data.
Hadoop é uma plataforma de código aberto para processamento de grandes volumes de dados distribuídos em clusters. Ele armazena dados no HDFS e executa trabalhos no YARN usando o modelo MapReduce. Os principais componentes do Hadoop são o HDFS, YARN e MapReduce.
Fragmentação existe devido à diversidade de tamanhos de tela e fabricantes de dispositivos Android. Desenvolvedores devem usar layouts responsivos com tamanhos relativos e recursos adaptados a diferentes densidades e tamanhos de tela. Ao usar a Support Library e ter o minSdk=8 e targetSdk como a última versão, desenvolvedores podem criar aplicativos compatíveis com a maioria dos dispositivos Android.
Fragmentação no Android: ela existe mesmo? iMasters
Fragmentação existe devido à diversidade de tamanhos de tela e fabricantes de dispositivos Android. Desenvolvedores devem usar layouts responsivos com tamanhos relativos e recursos adaptados a diferentes densidades e tamanhos de tela. Ao usar a Support Library e ter cuidado com as versões mínimas e alvo do SDK, é possível criar aplicativos compatíveis com a maioria dos dispositivos Android.
O documento apresenta uma agenda de um treinamento sobre Hadoop e Big Data, abordando conceitos como MapReduce, HDFS, ferramentas como HBase, Pig e ferramentas relacionadas ao machine learning.
O documento introduz o Apache Hadoop, um framework para computação distribuída em clusters. Ele descreve os principais componentes do Hadoop - HDFS para armazenamento distribuído de dados e MapReduce para processamento paralelo - e explica como eles funcionam juntos para analisar grandes quantidades de dados em clusters.
TDC Conn 2022_ O Esqueleto de um Projeto de Dados (2).pdfFernandoIto8
O documento fornece um guia sobre as etapas, competências e ferramentas essenciais para projetos de ciência de dados. Ele discute planejamento, raspagem, wrangling, pesquisa, modelagem, MLOps, implantação e análise como componentes principais de um projeto de dados, fornecendo exemplos de ferramentas para cada etapa. O documento também fornece um exemplo de como essas etapas podem ser aplicadas para um projeto de análise de sentimento de tweets sobre o Big Brother Brasil.
1) O documento discute Big Data Clusters no SQL Server 2019, que integra o Apache Spark e HDFS para fornecer uma plataforma de dados unificada capaz de lidar com dados estruturados e não estruturados.
2) Big Data Clusters fornecem flexibilidade para interagir com várias fontes de dados através de virtualização e federação via Polybase, além de criação de pipelines de dados e escalabilidade gerenciada por Kubernetes.
3) Uma demonstração é apresentada utilizando dados de políticos, eleitores e vota
1) O documento discute Big Data Clusters no SQL Server 2019, que integra o Apache Spark e HDFS para fornecer uma plataforma de dados unificada capaz de lidar com dados estruturados e não estruturados.
2) Big Data Clusters permite a virtualização e federação de dados através do Polybase, além de criar pipelines de dados e escalar o processamento em cluster gerenciado pelo Kubernetes.
3) Uma demonstração é apresentada utilizando dados de políticos, eleitores e votação armazenados em SQL Server, MongoDB
Cloudera Enabling Native Integration of NoSQL HBase with Cloud Providers.pdfwchevreuil
This document discusses enabling native integration of the NoSQL database HBase with cloud providers. It covers topics like reducing total cost of ownership through automatic scaling and storage optimizations, security simplification using JWT instead of Kerberos, high availability through techniques like multi-availability zones, and benchmark results comparing performance of HBase on cloud storage like S3 versus on-premises block storage. Benchmark results showed higher throughput and lower latencies for most workloads when using cloud storage compared to on-premises block storage. A cost case study also showed monthly costs could be 26.8% lower using cloud storage with ephemeral caches versus block storage for a 50TB read/write workload on AWS.
1. The HDFS client write flow involves the client calling DistributedFileSystem.create() to create a file, which performs an RPC call to the namenode to add the file. A DFSOutputStream is created and a DataStreamer thread is started.
2. The client writes data by filling buffers that are flushed and grouped into packets. Packets are enqueued for asynchronous processing by the DataStreamer thread.
3. The DataStreamer reads packets and writes data to datanodes, which write to local disk and mirrors. If the last packet, a finalize block call is made to the namenode.
Understanding what is a region for HBase, why those transitions, how to troubleshoot and fix potential problems that may arise from this important HBase internal operation.
This is a copy of the NoSQL Day 2019 session presented in Washington D.C on May 2019. It covers a series of the most common HBase issues observed among Cloudera customer base, together with RCA and recipes for recovery.
Within Hbase 2, a new fix tool has been developed with helpful methods for fixing issues within the new AssignmentManager and other additional useful operation. This is a copy of the presentation from HBaseCon Asia 2019 held in Beijing during summer of 2019.
WebHDFS x HttpFS are common source of confusion. This slideset highlights differences and similarities between these two Web interfaces for accessing an HDFS cluster.
Overview of HBase cluster replication feature, covering implementation details as well as monitoring tools and tips for troubleshooting and support of Replication deployments.
This document discusses tuning MapReduce jobs and HBase configurations for a music trending application at Nokia. It provides details on profiling and tuning two MapReduce jobs - Tweets counting and entity ID search. Tuning efforts included applying combiners, optimizing HBase scans, removing unnecessary code, and increasing cache usage. Performance improved from 46 minutes to 20 minutes for Tweets counting and from 1 hour 10 minutes to 6 minutes for entity search after tuning. Refactoring ideas are also proposed like performing entity lookups in a standalone process instead of MapReduce.
O documento discute o surgimento de bancos de dados NoSQL para lidar com grandes volumes de dados (Big Data). Apresenta as limitações dos bancos de dados relacionais tradicionais para armazenar e processar Big Data e introduz os principais modelos e sistemas de gerenciamento de bancos de dados NoSQL, como MongoDB, Cassandra, Voldemort e Redis. Não existe uma solução "bala de prata" e a escolha depende do cenário e requisitos de cada aplicação.
1. Instituto Nokia de Tecnologia
Wellington Ramos Chevreuil
Nokia Institute of Technology
2. Agenda
• Big Data
• Surgimento e Ascensão
• Cenários de BigData
• Trabalhando com BigData
• Hadoop
• Introdução
• Detalhes
• Componentes Principais
• Persistência
• HDFS Design
• MapReduce
• Ecossistema Hadoop
3. Big Data
Surgimento e Ascensão
• Popularização da Internet
• Novos serviços oferecidos
• Buscadores de conteúdo
• Redes Sociais
• Comércio eletrônico (cauda longa)
• Evolução da capacidade de armazenamento
• Menores Custos
• Toda atividade do usuário é persistida
• Resultado: Centenas de TeraBytes, PetaBytes
ou mesmo ExaBytes!!
Nokia Institute of Technology
4. Cenários de BigData
• Recomendações
• Produtos e itens para compra
• Novos amigos em redes sociais
• Novas músicas para serem ouvidas
• Novos investimentos
• Publicidade direcionada
• Classificação de conteúdos
• Busca de páginas
• Localização
• Compras Coletiva
• Exemplos de casos de BigData
• Google, Yahoo, Facebook, Linkedin, Twitter, Nokia,
Navteq, Groupon, AOL Advertising, IBM, JP Morgan
Chase, New York Times
Nokia Institute of Technology
5. Trabalhando com BigData
• Hardware padrão
• Max RAM: 64GB
• Max Disco: 24TB
• Processamento médio do Google/mês: 400PB (2007)
• Média de processamento: 180GB
• Tempo processamento 180GB: 45 minutos
• Leitura/Escrita é muito lenta
• Solução
• Leituras paralelas
• 1 HD = 75MB/segundo
• 1.000 HDs = 75 GB/segundo
• Grids?
• Alto número de leituras/escritas de/para um único dispositivo
não é eficiente
• Implantando um cluster de máquinas: Hadoop Nokia Institute of Technology
6. Hadoop - Introdução
• Sistema de Persistência e Processamento distribuído
• Google GFS
• Google MapReduce
• Apache Software Foundation
• Java
• Linux
• Hardware comódite
• Relativamente barato
• Baixa confiabilidade
• Requisitos
• Suporte a falha parcial
• Suporte a recuperação de dados
• Suporte a recuperação individuais de nós
• Consistência
• Escalável
7. Hadoop em detalhes
• Nós independentes entre si (shared nothing)
• Tolerância a falhas
• Altas taxas de falha (HW comódite)
• Falha de um nó, blocos são replicados para outro nó
• Falha de uma tarefa, uma nova tentativa de execução
é realizada (pelo mesmo nó ou por outro)
• HDFS = Namenode + SecondaryNamenode + Datanodes
• Vários nós de dados (datanodes)
• Arquivos divididos em blocos distribuídos através do
cluster (tamanho padrão: 64 MB)
• Replicação de blocos (padrão: 3 réplicas)
• Poucos arquivos grandes
• Não provê acesso randômico
9. Persistência com Hadoop
HDFS
• Hadoop File System
• Arquivos divididos em
blocos
• Blocos replicados ao
longo do Cluster
• Rack awareness
Nokia Institute of Technology
10. Persistência com Hadoop
Gerenciamento de Dados
• HDFS = Namenode + SecondaryNamenode + Datanodes
• Namenode
• Gerência dos blocos
• Decide sobre replicação
• Aloca nós para os blocos
• Ponto de falha
• Datanode
• Contém os blocos de arquivos
• Responsável pelos dados
• SecondaryNamenode
• Processo auxiliar ao Namenode
• Não é backup do Namenode
Nokia Institute of Technology
13. Processando dados com Hadoop
MapReduce
• MapReduce = JobTracker + TaskTrackers
• Leituras paralelas
• Nós podem ser removidos/adicionados ao cluster
sem necessidade de reinicialização
• Processos sempre executam aonde os dados estão
• Duas fases: Map + Reduce
• Entre o Map e o Reduce: Shuffle and Sort
• Envia os dados do Mapper para o Reducer
• Como o shell do linux:
Nokia Institute of Technology
19. Integrando Hadoop
• Hadoop facts
• Não é Banco de Dados
• Processamento background
• Precisa ser “alimentado” com dados
• Não provê leitura randômica
• API MapReduce Java
• Desafios
• Integração com sistemas
• Ler dados de outros sistemas
• Disponibilizar resultados MapReduces
• Time de BI e desenvolvedores não Java
• Diversas Soluções “em cima” do Hadoop
• Ecossistema Hadoop
20. Ecossistema Hadoop
• Hive
• Converte queries SQL em MapReduces
• Pig
• Criado pelo Yahoo
• Define uma linguagem de script para MapReduces
denominada PigLatin
• Hbase
• “O banco de dados do Hadoop”
• BD NoSQL orientado a colunas que funciona sobre o
HDFS
• Provê acesso randômico de leitura e escrita em
tempo real a grandes quantidades de dados
• Flume
• Sistema de exportação de logs contendo grande
quantidade de dados para o HDFS
21. Ecossistema Hadoop
• Sqoop
• Ferramenta de exportação de dados de SGBDS para o
Hadoop
• Usa JDBC, gera uma classe Java de exportação de
dados pra cada tabela no esquema relacional
• SCM
• Ferramenta de auxílo para instalação e configuração
de clusters Hadoop
• Ganglia
• Monitoramento de Clusters Hadoop
22. Referências
• Hadoop WebSite Oficial
• http://hadoop.apache.org/
• Livros sobre Hadoop
• Hadoop: The Definitive Guide, Tom White, O’Reilly 2009
• Hadoop In Action, Chuck Lam, Manning 2011
• Site da Cloudera - Contém informações, tutoriais e vídeo aulas
sobre Hadoop
• http://www.cloudera.com
• Lista de discussão sobre Hadoop
• mapreduce-user@hadoop.apache.org
• Artigos Técnicos sobre Hadoop:
• Processando Dados com Hadoop – MundoJ ed. 52
• MapReduce Detalhado – MundoJ ed. 53
• Usando o HDFS – MundoJ ed. 54
• Big Data com Hadoop – Java Magazine ed 103