SlideShare uma empresa Scribd logo
1 de 46
Baixar para ler offline
Big Data Open Source com Hadoop
Palestrante: Marcio Junior Vieira
marcio@ambientelivre.com.br
Realização:
   
Marcio Junior Vieira
● 14 anos de experiência em informática, vivência em desenvolvimento e
análise de sistemas de Gestão empresarial.
● Trabalhando com Software Livre desde 2000 com serviços de
consultoria e treinamento.
● Graduado em Tecnologia em Informática(2004) e pós-graduado em
Software Livre(2005) ambos pela UFPR.
● Palestrante em diversos Congressos relacionados a Software Livre tais
como: CONISLI, SOLISC, FISL, LATINOWARE, SFD, JDBR, Campus
Party, Pentaho Day.
● Fundador da Ambiente Livre.
   
Ecosistema Ambiente
Livre
   
Colaborações
   
Big Data - Muito se fala...
   
   
Big Data
● É um novo conceito se consolidando.
● Grande armazenamento de dados e maior
velocidade
   
Os 4 V's
● Velocidade , Volume , Variedade e Valor
   
Volume
● Modelos de Persistência da ordem
de Petabytes, zetabytes
ou yottabyte(YB).
● Geralmente dados não
estruturados.
● Um Zettabyte corresponde a
1.000.000.000.000.000.000.000 (10²¹) ou
1180591620717411303424 (2 elevado a 70)
Bytes.
   
Velocidade
● Processamento de Dados
● Armazenamento
● Analise de Dados
   
Variedade
● Dados semi-estruturados
● Dados não estruturados
● Diferentes fontes
● Diferentes formatos
   
Valor
● Tomada de Decisão
● Benefícios
● Objetivo
do Negócio.
   
O momento é agora
   
Onde podemos utilizar Big
Data ?
?
   
Sistema de Recomendação
● WWW em geral
   
Redes Sociais
   
Analise de Risco
● Crédito
● Seguros
● Mercado Financeiro
   
Dados Espaciais
● Clima
● Imagens
● Trafego
● Monitoramento
   
Big Data X BI
● Big Data e uma evolução do BI, devem
caminhar juntos
● Data Warehouses são necessários para
armazenar dados estruturados
Previsão:
● BI – Casos específicos
● Big Data – Analise geral
   
Profissionais
Novo profissional: Cientista de Dados
   
Competências do Cientista de
dados
● Fonte http://www.datascientist.com.br/Artigo.aspx?ID=Competencia_de_um_cientista_de_dados_um_breve_exemplo_de_uma_analise_de_redes
   
De onde ?
   
Ferramentas de Big Data
   
Hadoop
● O Apache Hadoop é um projeto de software open-source
escrito em Java. Escalável, confiável e com processamento
distribuído.
● Filesystem Distribuido.
● Inspirado Originalmente pelo GFS e MapReduce da Google
( Modelo de programação MapReduce)
● Utiliza-se de Hardware Comum ( Commodity cluster
computing )
● Framework para computação distribuída
● infraestrutura confiável capaz de lidar com falhas ( hardware,
software, rede )
   
Motivações Atuais
● Grande quantidade ( massiva ) de dados
● Dados não cabem em uma máquina
● Demoram muito para processar de forma serial
● Máquinas individuais falham
● Computação nas nuvens
● Escalabilidade de aplicações
● Computação sob demanda
   
A origem do Nome
● Segundo Doug Cutting, criador do Hadoop
“O nome que meu filho deu a um elefante
amarelo de pelúcia. Curto, relativamente fácil
de soletrar e pronunciar, sem sentido, e não
usado em outro lugar: esses são os meus
critérios de nomeação”
   
Ecosistema
   
O que é HDFS
● Hadoop Filesystem
● Um sistema de arquivos distribuído
que funciona em grandes aglomerados de
máquinas de commodities.
   
Características do HDFS
● Inspirado em GFS
● Projetado para trabalhar com arquivos muito
grandes e grandes volumes
● Executado em hardware comum
● Streaming de acesso a dados
● Replicação e localidade
   
HDFS
● Projetado para escalar a petabytes de
armazenamento, e correr em cima dos
sistemas de arquivos do sistema
operacional subjacente.
   
Fonte: http://hadoop.apache.org/docs/r1.2.1/hdfs_design.html
   
HDFS - Replicação
● Dados de entrada é copiado para HDFS é
dividido em blocos e cada blocos de dados é
replicado para várias máquinas
   
MapReduce
● É um modelo de programação desenhado
para processar grandes volumes de dados em
paralelo, dividindo o trabalho em um conjunto
de tarefas independentes
   
Programação Distribuída
   
MapReduce
Você especifica o map (...) e reduce (...)
funções
●
map = (lista (k, v) -> lista (k, v))
● reduce = (k, lista (v) -> k, v)
O Framework faz o resto
● Dividir os dados
●
Execute vários mappers sobre as divisões
● Embaralhar os dados para os redutores
●
Execute vários redutores
● Guarde os resultados finais
   
MapReduce
Map Reduce
   
Modos de Operação
● Standalone ( Local )
● Pseudo-distributed
● Fully-distributed
   
Outros componentes
● PIG - linguagem de fluxo de dados
e ambiente de execução para explorar
grandes conjuntos de dados.Executado no HDFS e grupos
MapReduce.
● Hive - Armazém de dados (datawarehouse) distribuídos.
Gerencia os dados armazenados no HDFS e fornece uma
linguagem de consulta
baseada em SQL para consultar os dados.
● Hbase – Banco de dados orientada
por colunas distribuída. HBase usa o HDFS
por sua subjacente de armazenamento e suporta
os cálculos de estilo lote usando MapReduce e ponto consultas
(leituras aleatórias).
   
Outros componentes
●
ZooKeeper – Serviço de coordenação altamente
disponível e distribuído. Fornece funções de bloqueios
distribuídos que podem ser usados para a construção
de aplicações distribuídas.
● Sqoop – Ferramenta para a movimentação eficiente
de dados entre bancos de dados relacionais e HDFS.
● Mahout - Aprendizagem de máquina
escalável, de fácil uso comercial para
a construção de aplicativos inteligentes
   
Distribuições Hadoop
● Open Source
Apache
● Comercial
Open Source
- Cloudera
- HortoWorks
- MapR
- AWS MapReduce
- Microsoft HDInsight (beta)
   
Possibilidades de Uso
● DataWareHouse
● Business Intelligence
● Aplicações analíticas
● Mídias Sociais
● Sugestão de Compras
● Analise preditiva
● Compras Coletivas
● Recomendações
   
Modelo tradicional de Uso
   
Empresa Usando Hadoop
● Amazon
● Facebook
● Google
● IBM
● Yahoo
● Linkedin
● Joost
● Last.fm
● New York Times
● PowerSet
● Veoh
● Twitter
● Ebay
   
Hadoop no Brasil
   
Contatos
● e-mail:
● marcio @ ambientelivre.com.br
● http://twitter.com/ambientelivre
● @ambientelivre
● @marciojvieira
● Blog
blogs.ambientelivre.com.br/marcio
● Facebook/ambientelivre
   
Convite
● Pentaho Day
17 de Maio – SP
● FTSL - 18 e 19 de Setembro
● Software Freedom Day
20 de Setembro.

Mais conteúdo relacionado

Mais procurados

Big Data – HBase, integrando hadoop, bi e dw; Montando o seu big data Cloude...
Big Data – HBase, integrando hadoop, bi e dw; Montando o seu big data  Cloude...Big Data – HBase, integrando hadoop, bi e dw; Montando o seu big data  Cloude...
Big Data – HBase, integrando hadoop, bi e dw; Montando o seu big data Cloude...
Flavio Fonte, PMP, ITIL
 

Mais procurados (20)

Data Lakes com Hadoop e Spark: Agile Analytics na prática
Data Lakes com Hadoop e Spark: Agile Analytics na práticaData Lakes com Hadoop e Spark: Agile Analytics na prática
Data Lakes com Hadoop e Spark: Agile Analytics na prática
 
Hadoop - Mãos à massa! Qcon2014
Hadoop - Mãos à massa! Qcon2014Hadoop - Mãos à massa! Qcon2014
Hadoop - Mãos à massa! Qcon2014
 
Hadoop
HadoopHadoop
Hadoop
 
Proposta de arquitetura Hadoop
Proposta de arquitetura HadoopProposta de arquitetura Hadoop
Proposta de arquitetura Hadoop
 
A importância do ecossistema Java em aplicações baseadas em Big Data
A importância do ecossistema Java em aplicações baseadas em Big DataA importância do ecossistema Java em aplicações baseadas em Big Data
A importância do ecossistema Java em aplicações baseadas em Big Data
 
Arquiteturas, Tecnologias e Desafios para Análise de BigData
Arquiteturas, Tecnologias e Desafios para Análise de BigDataArquiteturas, Tecnologias e Desafios para Análise de BigData
Arquiteturas, Tecnologias e Desafios para Análise de BigData
 
Explorando os principais implementadores hadoop e o papel que eles exercem no...
Explorando os principais implementadores hadoop e o papel que eles exercem no...Explorando os principais implementadores hadoop e o papel que eles exercem no...
Explorando os principais implementadores hadoop e o papel que eles exercem no...
 
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
 
Big Data, NoSQL e In Memory Databases
Big Data, NoSQL e In Memory DatabasesBig Data, NoSQL e In Memory Databases
Big Data, NoSQL e In Memory Databases
 
Arquitetura do Framework Apache Hadoop 2.6
Arquitetura do Framework Apache Hadoop 2.6Arquitetura do Framework Apache Hadoop 2.6
Arquitetura do Framework Apache Hadoop 2.6
 
Escalabilidade Linear com o Banco de Dados NoSQL Apache Cassandra.
Escalabilidade Linear com o Banco de Dados NoSQL Apache Cassandra.Escalabilidade Linear com o Banco de Dados NoSQL Apache Cassandra.
Escalabilidade Linear com o Banco de Dados NoSQL Apache Cassandra.
 
Conversas sobre Big Data, Hadoop e elefantes amarelos
Conversas sobre Big Data, Hadoop e elefantes amarelosConversas sobre Big Data, Hadoop e elefantes amarelos
Conversas sobre Big Data, Hadoop e elefantes amarelos
 
Machine learning com Apache Spark
Machine learning com Apache SparkMachine learning com Apache Spark
Machine learning com Apache Spark
 
Filesystem distribuído com hadoop!!!
Filesystem distribuído com hadoop!!! Filesystem distribuído com hadoop!!!
Filesystem distribuído com hadoop!!!
 
Indústria 4.0: como a IoT e Big Data mudarão a forma como lidamos com a tecno...
Indústria 4.0: como a IoT e Big Data mudarão a forma como lidamos com a tecno...Indústria 4.0: como a IoT e Big Data mudarão a forma como lidamos com a tecno...
Indústria 4.0: como a IoT e Big Data mudarão a forma como lidamos com a tecno...
 
Big Data
Big DataBig Data
Big Data
 
Big Data – HBase, integrando hadoop, bi e dw; Montando o seu big data Cloude...
Big Data – HBase, integrando hadoop, bi e dw; Montando o seu big data  Cloude...Big Data – HBase, integrando hadoop, bi e dw; Montando o seu big data  Cloude...
Big Data – HBase, integrando hadoop, bi e dw; Montando o seu big data Cloude...
 
Ciclo 4 - Instalação do Hadoop
Ciclo 4 - Instalação do HadoopCiclo 4 - Instalação do Hadoop
Ciclo 4 - Instalação do Hadoop
 
Hadoop
HadoopHadoop
Hadoop
 
Big data Workshop
Big data WorkshopBig data Workshop
Big data Workshop
 

Semelhante a Big Data Open Source com Hadoop

Semelhante a Big Data Open Source com Hadoop (20)

Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...
Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...
Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...
 
Treinamento hadoop - dia3
Treinamento hadoop - dia3Treinamento hadoop - dia3
Treinamento hadoop - dia3
 
Treinamento hadoop - dia4
Treinamento hadoop - dia4Treinamento hadoop - dia4
Treinamento hadoop - dia4
 
Cientista de Dados – Dominando o Big Data com Software Livre
Cientista de Dados – Dominando o Big Data com Software Livre Cientista de Dados – Dominando o Big Data com Software Livre
Cientista de Dados – Dominando o Big Data com Software Livre
 
Palestra: Cientista de Dados – Dominando o Big Data com Software Livre
Palestra: Cientista de Dados – Dominando o Big Data com Software LivrePalestra: Cientista de Dados – Dominando o Big Data com Software Livre
Palestra: Cientista de Dados – Dominando o Big Data com Software Livre
 
Hadoop - primeiros passos
Hadoop - primeiros passosHadoop - primeiros passos
Hadoop - primeiros passos
 
PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
PostgreSQL em projetos de Business Analytics e Big Data Analytics com PentahoPostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
 
Bigdata na pratica: Resolvendo problemas de performance com hadoop
Bigdata na pratica: Resolvendo problemas de performance com hadoopBigdata na pratica: Resolvendo problemas de performance com hadoop
Bigdata na pratica: Resolvendo problemas de performance com hadoop
 
Big data e ecossistema hadoop
Big data e ecossistema hadoopBig data e ecossistema hadoop
Big data e ecossistema hadoop
 
Big Data, JVM e Redes Sociais
Big Data, JVM e Redes SociaisBig Data, JVM e Redes Sociais
Big Data, JVM e Redes Sociais
 
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e PentahoBig Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
 
[DTC21] Lucas Gomes - Do 0 ao 100 no Big Data
[DTC21] Lucas Gomes - Do 0 ao 100 no Big Data[DTC21] Lucas Gomes - Do 0 ao 100 no Big Data
[DTC21] Lucas Gomes - Do 0 ao 100 no Big Data
 
Interoperabilidade com BigData Hadoop para Windows Azure
Interoperabilidade com BigData Hadoop  para Windows AzureInteroperabilidade com BigData Hadoop  para Windows Azure
Interoperabilidade com BigData Hadoop para Windows Azure
 
Pentaho, Hadoop , Big Data e Data Lakes
Pentaho, Hadoop , Big Data e Data LakesPentaho, Hadoop , Big Data e Data Lakes
Pentaho, Hadoop , Big Data e Data Lakes
 
TDC2016SP - Trilha BigData
TDC2016SP - Trilha BigDataTDC2016SP - Trilha BigData
TDC2016SP - Trilha BigData
 
TA1 - Slides Acessibilidade.pdf
TA1 - Slides Acessibilidade.pdfTA1 - Slides Acessibilidade.pdf
TA1 - Slides Acessibilidade.pdf
 
BIG DATA na UFSM
BIG DATA na UFSMBIG DATA na UFSM
BIG DATA na UFSM
 
Pentaho Hadoop Big Data e Data Lakes
Pentaho Hadoop Big Data e Data LakesPentaho Hadoop Big Data e Data Lakes
Pentaho Hadoop Big Data e Data Lakes
 
OS CINCO Vs DO BIG DATA
OS CINCO Vs DO BIG DATAOS CINCO Vs DO BIG DATA
OS CINCO Vs DO BIG DATA
 
Big data para programadores convencionais
Big data para programadores convencionaisBig data para programadores convencionais
Big data para programadores convencionais
 

Mais de Ambiente Livre

Mais de Ambiente Livre (20)

Low Code Data Science with Pentaho Machine Intelligence
Low Code Data Science with Pentaho Machine IntelligenceLow Code Data Science with Pentaho Machine Intelligence
Low Code Data Science with Pentaho Machine Intelligence
 
Orquestrando HBase, Cassandra e MongoDB com o Pentaho Big Data Analytics.
Orquestrando HBase, Cassandra e MongoDB com o Pentaho Big Data Analytics.  Orquestrando HBase, Cassandra e MongoDB com o Pentaho Big Data Analytics.
Orquestrando HBase, Cassandra e MongoDB com o Pentaho Big Data Analytics.
 
Apache Flink a Quarta Geração do Big Data
Apache Flink a Quarta Geração do Big DataApache Flink a Quarta Geração do Big Data
Apache Flink a Quarta Geração do Big Data
 
FISL18 - Open Data Science - Elaborando uma plataforma de Big Data & Analytic...
FISL18 - Open Data Science - Elaborando uma plataforma de Big Data & Analytic...FISL18 - Open Data Science - Elaborando uma plataforma de Big Data & Analytic...
FISL18 - Open Data Science - Elaborando uma plataforma de Big Data & Analytic...
 
AEL - Adaptive Execution Layer on Spark Cluster with Pentaho Data Integration
AEL - Adaptive Execution Layer on Spark Cluster with Pentaho Data Integration AEL - Adaptive Execution Layer on Spark Cluster with Pentaho Data Integration
AEL - Adaptive Execution Layer on Spark Cluster with Pentaho Data Integration
 
O Potencial Competitivo da Ciencia de Dados e da Inteligencia Artificial nas ...
O Potencial Competitivo da Ciencia de Dados e da Inteligencia Artificial nas ...O Potencial Competitivo da Ciencia de Dados e da Inteligencia Artificial nas ...
O Potencial Competitivo da Ciencia de Dados e da Inteligencia Artificial nas ...
 
Metodologia Hacker de Ensino na Ambiente Livre
Metodologia Hacker de Ensino na Ambiente LivreMetodologia Hacker de Ensino na Ambiente Livre
Metodologia Hacker de Ensino na Ambiente Livre
 
Integrando o Drupal com o ECM Alfresco usando CMIS
Integrando o Drupal com o ECM Alfresco usando CMISIntegrando o Drupal com o ECM Alfresco usando CMIS
Integrando o Drupal com o ECM Alfresco usando CMIS
 
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
 
TDC2017 - Misturando dados com Pentaho para insights mais significativos
TDC2017 - Misturando dados com Pentaho para insights mais significativosTDC2017 - Misturando dados com Pentaho para insights mais significativos
TDC2017 - Misturando dados com Pentaho para insights mais significativos
 
SEBRAETEC - Inteligência Empresarial com CRM BI ECM e BPM
SEBRAETEC -  Inteligência Empresarial com CRM BI ECM e BPMSEBRAETEC -  Inteligência Empresarial com CRM BI ECM e BPM
SEBRAETEC - Inteligência Empresarial com CRM BI ECM e BPM
 
Carreira Profissional e Certificação de um Analista de BI Pentaho
Carreira Profissional e Certificação de um Analista de BI PentahoCarreira Profissional e Certificação de um Analista de BI Pentaho
Carreira Profissional e Certificação de um Analista de BI Pentaho
 
Suporte a Geo-Mapping no Pentaho Report
Suporte a Geo-Mapping no Pentaho ReportSuporte a Geo-Mapping no Pentaho Report
Suporte a Geo-Mapping no Pentaho Report
 
Negócios em FLOSS
Negócios em FLOSSNegócios em FLOSS
Negócios em FLOSS
 
Pentaho Data Integration - Integração e Migração de Dados com ETL Open Source...
Pentaho Data Integration - Integração e Migração de Dados com ETL Open Source...Pentaho Data Integration - Integração e Migração de Dados com ETL Open Source...
Pentaho Data Integration - Integração e Migração de Dados com ETL Open Source...
 
Alfresco ECM e Gestão Eletrônica de Documentos Open Source
Alfresco ECM e Gestão Eletrônica de Documentos Open SourceAlfresco ECM e Gestão Eletrônica de Documentos Open Source
Alfresco ECM e Gestão Eletrônica de Documentos Open Source
 
Big Data, o que é isso?
Big Data, o que é isso?Big Data, o que é isso?
Big Data, o que é isso?
 
Moodle - Sistema de Gestão da Aprendizagem Open Source
Moodle - Sistema de Gestão da Aprendizagem Open SourceMoodle - Sistema de Gestão da Aprendizagem Open Source
Moodle - Sistema de Gestão da Aprendizagem Open Source
 
Programação de Macros com LibreOffice Basic
Programação de Macros com LibreOffice BasicProgramação de Macros com LibreOffice Basic
Programação de Macros com LibreOffice Basic
 
Apresentação Executiva do Iguana BI for SugarCRM
Apresentação Executiva do Iguana BI for SugarCRMApresentação Executiva do Iguana BI for SugarCRM
Apresentação Executiva do Iguana BI for SugarCRM
 

Big Data Open Source com Hadoop

  • 1. Big Data Open Source com Hadoop Palestrante: Marcio Junior Vieira marcio@ambientelivre.com.br Realização:
  • 2.     Marcio Junior Vieira ● 14 anos de experiência em informática, vivência em desenvolvimento e análise de sistemas de Gestão empresarial. ● Trabalhando com Software Livre desde 2000 com serviços de consultoria e treinamento. ● Graduado em Tecnologia em Informática(2004) e pós-graduado em Software Livre(2005) ambos pela UFPR. ● Palestrante em diversos Congressos relacionados a Software Livre tais como: CONISLI, SOLISC, FISL, LATINOWARE, SFD, JDBR, Campus Party, Pentaho Day. ● Fundador da Ambiente Livre.
  • 5.     Big Data - Muito se fala...
  • 7.     Big Data ● É um novo conceito se consolidando. ● Grande armazenamento de dados e maior velocidade
  • 8.     Os 4 V's ● Velocidade , Volume , Variedade e Valor
  • 9.     Volume ● Modelos de Persistência da ordem de Petabytes, zetabytes ou yottabyte(YB). ● Geralmente dados não estruturados. ● Um Zettabyte corresponde a 1.000.000.000.000.000.000.000 (10²¹) ou 1180591620717411303424 (2 elevado a 70) Bytes.
  • 10.     Velocidade ● Processamento de Dados ● Armazenamento ● Analise de Dados
  • 11.     Variedade ● Dados semi-estruturados ● Dados não estruturados ● Diferentes fontes ● Diferentes formatos
  • 12.     Valor ● Tomada de Decisão ● Benefícios ● Objetivo do Negócio.
  • 13.     O momento é agora
  • 14.     Onde podemos utilizar Big Data ? ?
  • 15.     Sistema de Recomendação ● WWW em geral
  • 17.     Analise de Risco ● Crédito ● Seguros ● Mercado Financeiro
  • 18.     Dados Espaciais ● Clima ● Imagens ● Trafego ● Monitoramento
  • 19.     Big Data X BI ● Big Data e uma evolução do BI, devem caminhar juntos ● Data Warehouses são necessários para armazenar dados estruturados Previsão: ● BI – Casos específicos ● Big Data – Analise geral
  • 21.     Competências do Cientista de dados ● Fonte http://www.datascientist.com.br/Artigo.aspx?ID=Competencia_de_um_cientista_de_dados_um_breve_exemplo_de_uma_analise_de_redes
  • 24.     Hadoop ● O Apache Hadoop é um projeto de software open-source escrito em Java. Escalável, confiável e com processamento distribuído. ● Filesystem Distribuido. ● Inspirado Originalmente pelo GFS e MapReduce da Google ( Modelo de programação MapReduce) ● Utiliza-se de Hardware Comum ( Commodity cluster computing ) ● Framework para computação distribuída ● infraestrutura confiável capaz de lidar com falhas ( hardware, software, rede )
  • 25.     Motivações Atuais ● Grande quantidade ( massiva ) de dados ● Dados não cabem em uma máquina ● Demoram muito para processar de forma serial ● Máquinas individuais falham ● Computação nas nuvens ● Escalabilidade de aplicações ● Computação sob demanda
  • 26.     A origem do Nome ● Segundo Doug Cutting, criador do Hadoop “O nome que meu filho deu a um elefante amarelo de pelúcia. Curto, relativamente fácil de soletrar e pronunciar, sem sentido, e não usado em outro lugar: esses são os meus critérios de nomeação”
  • 28.     O que é HDFS ● Hadoop Filesystem ● Um sistema de arquivos distribuído que funciona em grandes aglomerados de máquinas de commodities.
  • 29.     Características do HDFS ● Inspirado em GFS ● Projetado para trabalhar com arquivos muito grandes e grandes volumes ● Executado em hardware comum ● Streaming de acesso a dados ● Replicação e localidade
  • 30.     HDFS ● Projetado para escalar a petabytes de armazenamento, e correr em cima dos sistemas de arquivos do sistema operacional subjacente.
  • 32.     HDFS - Replicação ● Dados de entrada é copiado para HDFS é dividido em blocos e cada blocos de dados é replicado para várias máquinas
  • 33.     MapReduce ● É um modelo de programação desenhado para processar grandes volumes de dados em paralelo, dividindo o trabalho em um conjunto de tarefas independentes
  • 35.     MapReduce Você especifica o map (...) e reduce (...) funções ● map = (lista (k, v) -> lista (k, v)) ● reduce = (k, lista (v) -> k, v) O Framework faz o resto ● Dividir os dados ● Execute vários mappers sobre as divisões ● Embaralhar os dados para os redutores ● Execute vários redutores ● Guarde os resultados finais
  • 37.     Modos de Operação ● Standalone ( Local ) ● Pseudo-distributed ● Fully-distributed
  • 38.     Outros componentes ● PIG - linguagem de fluxo de dados e ambiente de execução para explorar grandes conjuntos de dados.Executado no HDFS e grupos MapReduce. ● Hive - Armazém de dados (datawarehouse) distribuídos. Gerencia os dados armazenados no HDFS e fornece uma linguagem de consulta baseada em SQL para consultar os dados. ● Hbase – Banco de dados orientada por colunas distribuída. HBase usa o HDFS por sua subjacente de armazenamento e suporta os cálculos de estilo lote usando MapReduce e ponto consultas (leituras aleatórias).
  • 39.     Outros componentes ● ZooKeeper – Serviço de coordenação altamente disponível e distribuído. Fornece funções de bloqueios distribuídos que podem ser usados para a construção de aplicações distribuídas. ● Sqoop – Ferramenta para a movimentação eficiente de dados entre bancos de dados relacionais e HDFS. ● Mahout - Aprendizagem de máquina escalável, de fácil uso comercial para a construção de aplicativos inteligentes
  • 40.     Distribuições Hadoop ● Open Source Apache ● Comercial Open Source - Cloudera - HortoWorks - MapR - AWS MapReduce - Microsoft HDInsight (beta)
  • 41.     Possibilidades de Uso ● DataWareHouse ● Business Intelligence ● Aplicações analíticas ● Mídias Sociais ● Sugestão de Compras ● Analise preditiva ● Compras Coletivas ● Recomendações
  • 43.     Empresa Usando Hadoop ● Amazon ● Facebook ● Google ● IBM ● Yahoo ● Linkedin ● Joost ● Last.fm ● New York Times ● PowerSet ● Veoh ● Twitter ● Ebay
  • 44.     Hadoop no Brasil
  • 45.     Contatos ● e-mail: ● marcio @ ambientelivre.com.br ● http://twitter.com/ambientelivre ● @ambientelivre ● @marciojvieira ● Blog blogs.ambientelivre.com.br/marcio ● Facebook/ambientelivre
  • 46.     Convite ● Pentaho Day 17 de Maio – SP ● FTSL - 18 e 19 de Setembro ● Software Freedom Day 20 de Setembro.