SlideShare uma empresa Scribd logo
1 de 23
Arquitetura para 
solução Big Data 
OpenSource 
Felipe Renz 
TDC 2014 – Porto Alegre 
fjrenz@gmail.com 
@feliperenz
CAMADAS DA SOLUÇÃO 
Fonte de Dados 
Ingestão 
Infraestrutura do Hadoop 
Armazenamento do Hadoop 
Plataforma de Gestão do Hadoop 
Segurança 
Visualização 
Monitoramento
CAMADA DE FONTE DE DADOS 
Dados Estruturados : 
Banco de dados Relacionais (MySQL, PostgreSQL)… 
Dados Não-Estruturados: 
Imagens, textos, vídeos, sensores, redes sociais…
ARQUITETURA SOLUÇÃO BIG DATA
CAMADA INGESTÃO 
A camada de Ingestão é extremante importante, ela possui a obrigação de limpar os 
ruídos das informações e entregar os dados para a camada de armazenamento.
ARQUITETURA SOLUÇÃO BIG DATA
CAMADA INFRAESTRUTURA DO HADOOP 
• Recursos de Hardware 
• Suporta a camada de Armazenamento 
• Infraestrutura física robusta, barata e confiável para garantir a 
operação e escalabilidade da arquitetura de dados. 
• Baseado em um modelo de computação distribuída. 
Disponibilização dos Recursos: 
• Serviço de Nuvem Virtualizados 
• Cluster de Maquinas;
ARQUITETURA SOLUÇÃO BIG DATA
CAMADA ARMAZENAMENTO DO HADOOP 
• Tolerância a falhas, 
• Paralelização de algoritmos, 
• Processamento distribuído, 
• Larga escala trabalha com Pb de dados . 
NoSQL. 
• Alta velocidade,
CAMADA ARMAZENAMENTO DO HADOOP 
Hadoop não precisa substituir DW. 
Pode atuar como integrador do DW. 
A partir de diferentes fontes, agregando ao HDFS os dados antes de 
transformar e entregar ao DW.
ARQUITETURA SOLUÇÃO BIG DATA
CAMADA DA PLATAFORMA DE GESTÃO DO HADOOP 
Principais problemas a serem resolvidos: 
Processar gigantescas quantidades de dados de maneira eficiente, 
Custo-benefício apropriado, 
Tempo satisfatório. 
Fornece as ferramentas/ linguagens de consulta para acessar os bancos de dados NoSQL, 
Executa consultas e gerencia as camadas inferiores, por meio das linguagens Pig e Hive.
ARQUITETURA SOLUÇÃO BIG DATA
CAMADA DE SEGURANÇA 
Importante + Preocupante = Privacidade 
• Hábitos de compra de clientes. 
• Dados demográficos de doenças genéticas. 
• Histórico médico de pacientes. 
Performance, Escalabilidade e Funcionalidade 
• Autenticar utilizando protocolos seguros 
como o Kerberos, 
• Permitir a criptografia de arquivos por camadas, 
• Garantir que toda a comunicação entre os servidores distribuídos seja segura,
ARQUITETURA SOLUÇÃO BIG DATA
CAMADA DE VISUALIZAÇÃO 
Grande volume pode levar a sobrecarga de informação, 
Deve ser incorporada numa fase inicial do projeto, 
Trabalha com os dados já consolidados nas camadas anteriores, 
Auxiliar os analistas de dados e cientistas a obter insights, 
Analise tempo real deve utilizar motores e arquitetura orientada a eventos. 
http://gephi.github.io/ 
www.r-project.org
CAMADA DE VISUALIZAÇÃO 
http://matplotlib.org/
ARQUITETURA SOLUÇÃO BIG DATA
CAMADA DE MONITORAMENTO 
Grande número de clusters utilizados na solução de Big Data, 
Garantir que os acordos de nível de serviço estejam sendo atendidos, 
Dever ser capaz de lidar com aglomerado distribuído de servidores, 
Suportar diferentes sistemas operacionais, 
Trabalhar com diferentes tipos de hardware, 
Capaz de se comunicar com os protocolos de alto nível como o XML. 
Além do desempenho e paralelismo deve prover o armazenamento e 
visualização de dados do monitoramento.
ARQUITETURA SOLUÇÃO BIG DATA
ARQUITETURA SOLUÇÃO BIG DATA
YARN – YARN significa "Yet Another Resources Negotiator" Sua responsabilidade é prover a redução da dependência do 
MapReduce e outras ferramentas do Hadoop. Criando uma camada de abstração para adicionar ou retirar componentes, 
exemplo interfaces de programação. 
Sqoop – Tem como responsabilidade fornecer a conectividade para mover dados entre bancos de dados relacionais, bando de 
dados de data warehouses e Hadoop. 
MapReduce – Modelo de programação para sistemas distribuídos, com processamento paralelo, o processamento é divido em 
duas etapas, uma chamada Map, que consiste no mapeamento e validação dos dados e a outra chamada Reduce que recebe os 
dados da fase do Map e para gerar o resultado final. 
HBase – Banco de dados NoSQL orientada a coluna construído sobre o HDFS, o HBase tem como responsabilidade prover um 
acesso rápido para leitura / gravação com grandes volume de dados entre diversas ferramentas. 
Hive- Uma linguagem de alto nível SQL-like usado para executar consultas sobre os dados armazenados no Hadoop, o Hive 
permite que desenvolvedores não familiarizados com a forma de escrever em MapReduce possam escrever consultas de dados 
que são traduzidos em trabalhos de MapReduce no Hadoop. Assim como Pig, Hive foi desenvolvido para ser uma camada de 
abstração, orientada para os analistas de banco de dados familiarizados com as linguagens SQL e Java. 
Pig – Uma abstração sobre a complexidade da programação do MapReduce, a plataforma de desenvolvimento Pig possui 
ambiente de execução e uma linguagem de script (Pig Latin) seu compilador traduz Pig Latin em seqüências de programas 
para o MapReduce. 
Mahout – Biblioteca para aprendizado de máquina e mineração de dados que fornece implementações de MapReduce, para 
algoritmos populares incluindo algoritmos de analise preditiva, testes de regressão, e modelagem estatística do serviço 
distribuída do Hadoop. 
Zookepper – Tem como responsabilidade a coordenação Flume – Tem como finalidade validar, limpar, transformar, reduzir, 
sendo capaz de trabalhar com um grande volume de dados oriundo das mais diversas fontes e move-las para dentro do 
Hadoop da forma mais eficiente possível, além de coordernar outros componentes como, exemplos: o Hbase, Hive, Pig, 
Mahout.

Mais conteúdo relacionado

Mais procurados

Arquitetura Cliente-Servidor
Arquitetura Cliente-ServidorArquitetura Cliente-Servidor
Arquitetura Cliente-ServidorIsrael Messias
 
Especificação de Requisitos de Software
Especificação de Requisitos de SoftwareEspecificação de Requisitos de Software
Especificação de Requisitos de SoftwareRalph Rassweiler
 
Aula01 - protocolos da camada de aplicação
Aula01 - protocolos da camada de aplicaçãoAula01 - protocolos da camada de aplicação
Aula01 - protocolos da camada de aplicaçãoCarlos Veiga
 
Microservice Architecture Patterns, by Richard Langlois P. Eng.
Microservice Architecture Patterns, by Richard Langlois P. Eng.Microservice Architecture Patterns, by Richard Langlois P. Eng.
Microservice Architecture Patterns, by Richard Langlois P. Eng.Richard Langlois P. Eng.
 
Chapter1 introduction
Chapter1 introductionChapter1 introduction
Chapter1 introductionDinesh K
 
Introdução a Web Services
Introdução a Web ServicesIntrodução a Web Services
Introdução a Web ServicesFabio Leal
 
Curso de redes de computador Parte 2
Curso de redes de computador Parte 2Curso de redes de computador Parte 2
Curso de redes de computador Parte 2Djayllton Moraes
 
Curso Java Básico - Aula 01
Curso Java Básico - Aula 01Curso Java Básico - Aula 01
Curso Java Básico - Aula 01Natanael Fonseca
 
Aula 05 - Exercício de projeto - Projeto de Redes de Computadores
Aula 05 - Exercício de projeto - Projeto de Redes de ComputadoresAula 05 - Exercício de projeto - Projeto de Redes de Computadores
Aula 05 - Exercício de projeto - Projeto de Redes de ComputadoresDalton Martins
 
Como usar o virtualbox-passo a passo
Como usar o virtualbox-passo a passoComo usar o virtualbox-passo a passo
Como usar o virtualbox-passo a passoDécio Araújo
 
Aula 01 - UML e Padrões de Projeto
Aula 01 - UML e Padrões de ProjetoAula 01 - UML e Padrões de Projeto
Aula 01 - UML e Padrões de ProjetoVinícius de Paula
 
Google Cloud Platform (GCP)
Google Cloud Platform (GCP)Google Cloud Platform (GCP)
Google Cloud Platform (GCP)Chetan Sharma
 
Introduction to PaaS
Introduction to PaaSIntroduction to PaaS
Introduction to PaaSChris Haddad
 
Qualidade de Software: Modelos e normas
Qualidade de Software: Modelos e normasQualidade de Software: Modelos e normas
Qualidade de Software: Modelos e normasAlex Camargo
 
Introdução à Engenharia de Software
Introdução à Engenharia de SoftwareIntrodução à Engenharia de Software
Introdução à Engenharia de SoftwareNécio de Lima Veras
 

Mais procurados (20)

Arquitetura Cliente-Servidor
Arquitetura Cliente-ServidorArquitetura Cliente-Servidor
Arquitetura Cliente-Servidor
 
Tecnologias Atuais de Redes - Aula 5 - VoIP
Tecnologias Atuais de Redes - Aula 5 - VoIPTecnologias Atuais de Redes - Aula 5 - VoIP
Tecnologias Atuais de Redes - Aula 5 - VoIP
 
Especificação de Requisitos de Software
Especificação de Requisitos de SoftwareEspecificação de Requisitos de Software
Especificação de Requisitos de Software
 
Aula01 - protocolos da camada de aplicação
Aula01 - protocolos da camada de aplicaçãoAula01 - protocolos da camada de aplicação
Aula01 - protocolos da camada de aplicação
 
Microservice Architecture Patterns, by Richard Langlois P. Eng.
Microservice Architecture Patterns, by Richard Langlois P. Eng.Microservice Architecture Patterns, by Richard Langlois P. Eng.
Microservice Architecture Patterns, by Richard Langlois P. Eng.
 
Chapter1 introduction
Chapter1 introductionChapter1 introduction
Chapter1 introduction
 
Introdução a Web Services
Introdução a Web ServicesIntrodução a Web Services
Introdução a Web Services
 
Analise de Requisitos Software
Analise de Requisitos SoftwareAnalise de Requisitos Software
Analise de Requisitos Software
 
Curso de redes de computador Parte 2
Curso de redes de computador Parte 2Curso de redes de computador Parte 2
Curso de redes de computador Parte 2
 
Métodos Ágeis
Métodos ÁgeisMétodos Ágeis
Métodos Ágeis
 
Curso Java Básico - Aula 01
Curso Java Básico - Aula 01Curso Java Básico - Aula 01
Curso Java Básico - Aula 01
 
Aula 05 - Exercício de projeto - Projeto de Redes de Computadores
Aula 05 - Exercício de projeto - Projeto de Redes de ComputadoresAula 05 - Exercício de projeto - Projeto de Redes de Computadores
Aula 05 - Exercício de projeto - Projeto de Redes de Computadores
 
Como usar o virtualbox-passo a passo
Como usar o virtualbox-passo a passoComo usar o virtualbox-passo a passo
Como usar o virtualbox-passo a passo
 
SOA
SOASOA
SOA
 
Aula 01 - UML e Padrões de Projeto
Aula 01 - UML e Padrões de ProjetoAula 01 - UML e Padrões de Projeto
Aula 01 - UML e Padrões de Projeto
 
Apache pig
Apache pigApache pig
Apache pig
 
Google Cloud Platform (GCP)
Google Cloud Platform (GCP)Google Cloud Platform (GCP)
Google Cloud Platform (GCP)
 
Introduction to PaaS
Introduction to PaaSIntroduction to PaaS
Introduction to PaaS
 
Qualidade de Software: Modelos e normas
Qualidade de Software: Modelos e normasQualidade de Software: Modelos e normas
Qualidade de Software: Modelos e normas
 
Introdução à Engenharia de Software
Introdução à Engenharia de SoftwareIntrodução à Engenharia de Software
Introdução à Engenharia de Software
 

Destaque

Arquiteturas, Tecnologias e Desafios para Análise de BigData
Arquiteturas, Tecnologias e Desafios para Análise de BigDataArquiteturas, Tecnologias e Desafios para Análise de BigData
Arquiteturas, Tecnologias e Desafios para Análise de BigDataSandro Andrade
 
Ecossistema Hadoop no Magazine Luiza
Ecossistema Hadoop no Magazine LuizaEcossistema Hadoop no Magazine Luiza
Ecossistema Hadoop no Magazine LuizaNelson Forte
 
Tratamento e Atualização de dados cadastrais, Qualificação de banco de dados...
Tratamento e Atualização de dados cadastrais,  Qualificação de banco de dados...Tratamento e Atualização de dados cadastrais,  Qualificação de banco de dados...
Tratamento e Atualização de dados cadastrais, Qualificação de banco de dados...ZipCode
 
Arquitetura do Framework Apache Hadoop 2.6
Arquitetura do Framework Apache Hadoop 2.6Arquitetura do Framework Apache Hadoop 2.6
Arquitetura do Framework Apache Hadoop 2.6Felipe Schimith Batista
 
Hadoop - Primeiros passos
Hadoop - Primeiros passosHadoop - Primeiros passos
Hadoop - Primeiros passosSensedia
 
TDC2016POA | Trilha Education - Jogos na Educação, onde estamos errando?
TDC2016POA | Trilha Education -  Jogos na Educação, onde estamos errando?TDC2016POA | Trilha Education -  Jogos na Educação, onde estamos errando?
TDC2016POA | Trilha Education - Jogos na Educação, onde estamos errando?tdc-globalcode
 
TDC2016POA | Trilha Empreendedorismo - Manual Prático do Empreendedorismo
TDC2016POA | Trilha Empreendedorismo - Manual Prático do EmpreendedorismoTDC2016POA | Trilha Empreendedorismo - Manual Prático do Empreendedorismo
TDC2016POA | Trilha Empreendedorismo - Manual Prático do Empreendedorismotdc-globalcode
 
TDC2016POA | Trilha Education - Robótica Livre nas escolas públicas do RS: a ...
TDC2016POA | Trilha Education - Robótica Livre nas escolas públicas do RS: a ...TDC2016POA | Trilha Education - Robótica Livre nas escolas públicas do RS: a ...
TDC2016POA | Trilha Education - Robótica Livre nas escolas públicas do RS: a ...tdc-globalcode
 
TDC2016POA | Trilha Education - Aprendizagem baseada em projetos: Uma experi...
TDC2016POA | Trilha Education -  Aprendizagem baseada em projetos: Uma experi...TDC2016POA | Trilha Education -  Aprendizagem baseada em projetos: Uma experi...
TDC2016POA | Trilha Education - Aprendizagem baseada em projetos: Uma experi...tdc-globalcode
 
TDC2016POA | Trilha Empreendedorismo - Empreendendo da ideia ao desinvestimento
TDC2016POA | Trilha Empreendedorismo - Empreendendo da ideia ao desinvestimentoTDC2016POA | Trilha Empreendedorismo - Empreendendo da ideia ao desinvestimento
TDC2016POA | Trilha Empreendedorismo - Empreendendo da ideia ao desinvestimentotdc-globalcode
 
TDC2016POA | Trilha Education - Design Thinking na Educação: Como aplicar no...
TDC2016POA | Trilha Education -  Design Thinking na Educação: Como aplicar no...TDC2016POA | Trilha Education -  Design Thinking na Educação: Como aplicar no...
TDC2016POA | Trilha Education - Design Thinking na Educação: Como aplicar no...tdc-globalcode
 
TDC2016POA | Trilha Empreendedorismo - Faça mais, reclame menos.
TDC2016POA | Trilha Empreendedorismo - Faça mais, reclame menos.TDC2016POA | Trilha Empreendedorismo - Faça mais, reclame menos.
TDC2016POA | Trilha Empreendedorismo - Faça mais, reclame menos.tdc-globalcode
 
TDC2016POA | Trilha Empreendedorismo - Tirando idéias do Papel - Quase um Fuc...
TDC2016POA | Trilha Empreendedorismo - Tirando idéias do Papel - Quase um Fuc...TDC2016POA | Trilha Empreendedorismo - Tirando idéias do Papel - Quase um Fuc...
TDC2016POA | Trilha Empreendedorismo - Tirando idéias do Papel - Quase um Fuc...tdc-globalcode
 
TDC2016POA | Trilha Education - Gamificação, realidade aumentada, youtube o ...
TDC2016POA | Trilha Education -  Gamificação, realidade aumentada, youtube o ...TDC2016POA | Trilha Education -  Gamificação, realidade aumentada, youtube o ...
TDC2016POA | Trilha Education - Gamificação, realidade aumentada, youtube o ...tdc-globalcode
 
BIGDATA: Da teoria à Pratica
BIGDATA: Da teoria à PraticaBIGDATA: Da teoria à Pratica
BIGDATA: Da teoria à PraticaDaniel Checchia
 
TDC2016POA | Trilha Infraestrutura - Infra Ágil: Por onde começar?
TDC2016POA |  Trilha Infraestrutura -  Infra Ágil: Por onde começar?TDC2016POA |  Trilha Infraestrutura -  Infra Ágil: Por onde começar?
TDC2016POA | Trilha Infraestrutura - Infra Ágil: Por onde começar?tdc-globalcode
 
TDC2016POA | Trilha Infraestrutura - Garantindo a qualidade de sua infraestr...
TDC2016POA | Trilha Infraestrutura -  Garantindo a qualidade de sua infraestr...TDC2016POA | Trilha Infraestrutura -  Garantindo a qualidade de sua infraestr...
TDC2016POA | Trilha Infraestrutura - Garantindo a qualidade de sua infraestr...tdc-globalcode
 

Destaque (20)

Arquiteturas, Tecnologias e Desafios para Análise de BigData
Arquiteturas, Tecnologias e Desafios para Análise de BigDataArquiteturas, Tecnologias e Desafios para Análise de BigData
Arquiteturas, Tecnologias e Desafios para Análise de BigData
 
Ecossistema Hadoop no Magazine Luiza
Ecossistema Hadoop no Magazine LuizaEcossistema Hadoop no Magazine Luiza
Ecossistema Hadoop no Magazine Luiza
 
Tratamento e Atualização de dados cadastrais, Qualificação de banco de dados...
Tratamento e Atualização de dados cadastrais,  Qualificação de banco de dados...Tratamento e Atualização de dados cadastrais,  Qualificação de banco de dados...
Tratamento e Atualização de dados cadastrais, Qualificação de banco de dados...
 
Arquitetura do Framework Apache Hadoop 2.6
Arquitetura do Framework Apache Hadoop 2.6Arquitetura do Framework Apache Hadoop 2.6
Arquitetura do Framework Apache Hadoop 2.6
 
Hadoop
HadoopHadoop
Hadoop
 
Ingestão de Dados
Ingestão de DadosIngestão de Dados
Ingestão de Dados
 
Proposta de arquitetura Hadoop
Proposta de arquitetura HadoopProposta de arquitetura Hadoop
Proposta de arquitetura Hadoop
 
Hadoop - Primeiros passos
Hadoop - Primeiros passosHadoop - Primeiros passos
Hadoop - Primeiros passos
 
TDC2016POA | Trilha Education - Jogos na Educação, onde estamos errando?
TDC2016POA | Trilha Education -  Jogos na Educação, onde estamos errando?TDC2016POA | Trilha Education -  Jogos na Educação, onde estamos errando?
TDC2016POA | Trilha Education - Jogos na Educação, onde estamos errando?
 
TDC2016POA | Trilha Empreendedorismo - Manual Prático do Empreendedorismo
TDC2016POA | Trilha Empreendedorismo - Manual Prático do EmpreendedorismoTDC2016POA | Trilha Empreendedorismo - Manual Prático do Empreendedorismo
TDC2016POA | Trilha Empreendedorismo - Manual Prático do Empreendedorismo
 
TDC2016POA | Trilha Education - Robótica Livre nas escolas públicas do RS: a ...
TDC2016POA | Trilha Education - Robótica Livre nas escolas públicas do RS: a ...TDC2016POA | Trilha Education - Robótica Livre nas escolas públicas do RS: a ...
TDC2016POA | Trilha Education - Robótica Livre nas escolas públicas do RS: a ...
 
TDC2016POA | Trilha Education - Aprendizagem baseada em projetos: Uma experi...
TDC2016POA | Trilha Education -  Aprendizagem baseada em projetos: Uma experi...TDC2016POA | Trilha Education -  Aprendizagem baseada em projetos: Uma experi...
TDC2016POA | Trilha Education - Aprendizagem baseada em projetos: Uma experi...
 
TDC2016POA | Trilha Empreendedorismo - Empreendendo da ideia ao desinvestimento
TDC2016POA | Trilha Empreendedorismo - Empreendendo da ideia ao desinvestimentoTDC2016POA | Trilha Empreendedorismo - Empreendendo da ideia ao desinvestimento
TDC2016POA | Trilha Empreendedorismo - Empreendendo da ideia ao desinvestimento
 
TDC2016POA | Trilha Education - Design Thinking na Educação: Como aplicar no...
TDC2016POA | Trilha Education -  Design Thinking na Educação: Como aplicar no...TDC2016POA | Trilha Education -  Design Thinking na Educação: Como aplicar no...
TDC2016POA | Trilha Education - Design Thinking na Educação: Como aplicar no...
 
TDC2016POA | Trilha Empreendedorismo - Faça mais, reclame menos.
TDC2016POA | Trilha Empreendedorismo - Faça mais, reclame menos.TDC2016POA | Trilha Empreendedorismo - Faça mais, reclame menos.
TDC2016POA | Trilha Empreendedorismo - Faça mais, reclame menos.
 
TDC2016POA | Trilha Empreendedorismo - Tirando idéias do Papel - Quase um Fuc...
TDC2016POA | Trilha Empreendedorismo - Tirando idéias do Papel - Quase um Fuc...TDC2016POA | Trilha Empreendedorismo - Tirando idéias do Papel - Quase um Fuc...
TDC2016POA | Trilha Empreendedorismo - Tirando idéias do Papel - Quase um Fuc...
 
TDC2016POA | Trilha Education - Gamificação, realidade aumentada, youtube o ...
TDC2016POA | Trilha Education -  Gamificação, realidade aumentada, youtube o ...TDC2016POA | Trilha Education -  Gamificação, realidade aumentada, youtube o ...
TDC2016POA | Trilha Education - Gamificação, realidade aumentada, youtube o ...
 
BIGDATA: Da teoria à Pratica
BIGDATA: Da teoria à PraticaBIGDATA: Da teoria à Pratica
BIGDATA: Da teoria à Pratica
 
TDC2016POA | Trilha Infraestrutura - Infra Ágil: Por onde começar?
TDC2016POA |  Trilha Infraestrutura -  Infra Ágil: Por onde começar?TDC2016POA |  Trilha Infraestrutura -  Infra Ágil: Por onde começar?
TDC2016POA | Trilha Infraestrutura - Infra Ágil: Por onde começar?
 
TDC2016POA | Trilha Infraestrutura - Garantindo a qualidade de sua infraestr...
TDC2016POA | Trilha Infraestrutura -  Garantindo a qualidade de sua infraestr...TDC2016POA | Trilha Infraestrutura -  Garantindo a qualidade de sua infraestr...
TDC2016POA | Trilha Infraestrutura - Garantindo a qualidade de sua infraestr...
 

Semelhante a Arquitetura Big Data OpenSource

Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...
Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...
Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...Ambiente Livre
 
Hadoop - primeiros passos
Hadoop - primeiros passosHadoop - primeiros passos
Hadoop - primeiros passosrhpinotti
 
Big Data - O que é o hadoop, map reduce, hdfs e hive
Big Data - O que é o hadoop, map reduce, hdfs e hiveBig Data - O que é o hadoop, map reduce, hdfs e hive
Big Data - O que é o hadoop, map reduce, hdfs e hiveFlavio Fonte, PMP, ITIL
 
Big Data – HBase, integrando hadoop, bi e dw; Montando o seu big data Cloude...
Big Data – HBase, integrando hadoop, bi e dw; Montando o seu big data  Cloude...Big Data – HBase, integrando hadoop, bi e dw; Montando o seu big data  Cloude...
Big Data – HBase, integrando hadoop, bi e dw; Montando o seu big data Cloude...Flavio Fonte, PMP, ITIL
 
Filesystem distribuído com hadoop!!!
Filesystem distribuído com hadoop!!! Filesystem distribuído com hadoop!!!
Filesystem distribuído com hadoop!!! Alessandro Binhara
 
Bigdata - compreendendo Hadoop e seu ecossistema.
Bigdata - compreendendo Hadoop e seu ecossistema. Bigdata - compreendendo Hadoop e seu ecossistema.
Bigdata - compreendendo Hadoop e seu ecossistema. Natalia Raythz
 
[DTC21] Lucas Gomes - Do 0 ao 100 no Big Data
[DTC21] Lucas Gomes - Do 0 ao 100 no Big Data[DTC21] Lucas Gomes - Do 0 ao 100 no Big Data
[DTC21] Lucas Gomes - Do 0 ao 100 no Big DataDeep Tech Brasil
 
Big Data Open Source com Hadoop
Big Data Open Source com HadoopBig Data Open Source com Hadoop
Big Data Open Source com HadoopAmbiente Livre
 
Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - Curitiba
Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - CuritibaPalestra: Big Data Open Source com Hadoop - FLISOL 2014 - Curitiba
Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - CuritibaMarcio Junior Vieira
 
Cientista de Dados – Dominando o Big Data com Software Livre
Cientista de Dados – Dominando o Big Data com Software Livre Cientista de Dados – Dominando o Big Data com Software Livre
Cientista de Dados – Dominando o Big Data com Software Livre Ambiente Livre
 
Hadoop - Mãos à massa! Qcon2014
Hadoop - Mãos à massa! Qcon2014Hadoop - Mãos à massa! Qcon2014
Hadoop - Mãos à massa! Qcon2014Thiago Santiago
 
Big data e mineração de dados
Big data e mineração de dadosBig data e mineração de dados
Big data e mineração de dadosElton Meira
 
Interoperabilidade com BigData Hadoop para Windows Azure
Interoperabilidade com BigData Hadoop  para Windows AzureInteroperabilidade com BigData Hadoop  para Windows Azure
Interoperabilidade com BigData Hadoop para Windows AzureAlessandro Binhara
 
Tecnologias para mineração de dados nas nuvens
Tecnologias para mineração de dados nas nuvensTecnologias para mineração de dados nas nuvens
Tecnologias para mineração de dados nas nuvensAlessandro Binhara
 
Tecnologias para sistemas distribuidos escalaveis
Tecnologias para sistemas distribuidos escalaveisTecnologias para sistemas distribuidos escalaveis
Tecnologias para sistemas distribuidos escalaveisLuiz Bettega
 
Bigdata na pratica: Resolvendo problemas de performance com hadoop
Bigdata na pratica: Resolvendo problemas de performance com hadoopBigdata na pratica: Resolvendo problemas de performance com hadoop
Bigdata na pratica: Resolvendo problemas de performance com hadooptdc-globalcode
 

Semelhante a Arquitetura Big Data OpenSource (20)

Big data e ecossistema hadoop
Big data e ecossistema hadoopBig data e ecossistema hadoop
Big data e ecossistema hadoop
 
Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...
Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...
Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...
 
Hadoop - primeiros passos
Hadoop - primeiros passosHadoop - primeiros passos
Hadoop - primeiros passos
 
Big Data - O que é o hadoop, map reduce, hdfs e hive
Big Data - O que é o hadoop, map reduce, hdfs e hiveBig Data - O que é o hadoop, map reduce, hdfs e hive
Big Data - O que é o hadoop, map reduce, hdfs e hive
 
Big Data – HBase, integrando hadoop, bi e dw; Montando o seu big data Cloude...
Big Data – HBase, integrando hadoop, bi e dw; Montando o seu big data  Cloude...Big Data – HBase, integrando hadoop, bi e dw; Montando o seu big data  Cloude...
Big Data – HBase, integrando hadoop, bi e dw; Montando o seu big data Cloude...
 
Filesystem distribuído com hadoop!!!
Filesystem distribuído com hadoop!!! Filesystem distribuído com hadoop!!!
Filesystem distribuído com hadoop!!!
 
Bigdata - compreendendo Hadoop e seu ecossistema.
Bigdata - compreendendo Hadoop e seu ecossistema. Bigdata - compreendendo Hadoop e seu ecossistema.
Bigdata - compreendendo Hadoop e seu ecossistema.
 
[DTC21] Lucas Gomes - Do 0 ao 100 no Big Data
[DTC21] Lucas Gomes - Do 0 ao 100 no Big Data[DTC21] Lucas Gomes - Do 0 ao 100 no Big Data
[DTC21] Lucas Gomes - Do 0 ao 100 no Big Data
 
Big Data Open Source com Hadoop
Big Data Open Source com HadoopBig Data Open Source com Hadoop
Big Data Open Source com Hadoop
 
Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - Curitiba
Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - CuritibaPalestra: Big Data Open Source com Hadoop - FLISOL 2014 - Curitiba
Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - Curitiba
 
Cientista de Dados – Dominando o Big Data com Software Livre
Cientista de Dados – Dominando o Big Data com Software Livre Cientista de Dados – Dominando o Big Data com Software Livre
Cientista de Dados – Dominando o Big Data com Software Livre
 
Hadoop - Mãos à massa! Qcon2014
Hadoop - Mãos à massa! Qcon2014Hadoop - Mãos à massa! Qcon2014
Hadoop - Mãos à massa! Qcon2014
 
Big data e mineração de dados
Big data e mineração de dadosBig data e mineração de dados
Big data e mineração de dados
 
Interoperabilidade com BigData Hadoop para Windows Azure
Interoperabilidade com BigData Hadoop  para Windows AzureInteroperabilidade com BigData Hadoop  para Windows Azure
Interoperabilidade com BigData Hadoop para Windows Azure
 
Qcon Rio 2015 - Data Lakes Workshop
Qcon Rio 2015 - Data Lakes WorkshopQcon Rio 2015 - Data Lakes Workshop
Qcon Rio 2015 - Data Lakes Workshop
 
Data Lakes com Hadoop e Spark: Agile Analytics na prática
Data Lakes com Hadoop e Spark: Agile Analytics na práticaData Lakes com Hadoop e Spark: Agile Analytics na prática
Data Lakes com Hadoop e Spark: Agile Analytics na prática
 
Tecnologias para mineração de dados nas nuvens
Tecnologias para mineração de dados nas nuvensTecnologias para mineração de dados nas nuvens
Tecnologias para mineração de dados nas nuvens
 
Tecnologias para sistemas distribuidos escalaveis
Tecnologias para sistemas distribuidos escalaveisTecnologias para sistemas distribuidos escalaveis
Tecnologias para sistemas distribuidos escalaveis
 
Bigdata na pratica: Resolvendo problemas de performance com hadoop
Bigdata na pratica: Resolvendo problemas de performance com hadoopBigdata na pratica: Resolvendo problemas de performance com hadoop
Bigdata na pratica: Resolvendo problemas de performance com hadoop
 
BIG DATA na UFSM
BIG DATA na UFSMBIG DATA na UFSM
BIG DATA na UFSM
 

Arquitetura Big Data OpenSource

  • 1. Arquitetura para solução Big Data OpenSource Felipe Renz TDC 2014 – Porto Alegre fjrenz@gmail.com @feliperenz
  • 2. CAMADAS DA SOLUÇÃO Fonte de Dados Ingestão Infraestrutura do Hadoop Armazenamento do Hadoop Plataforma de Gestão do Hadoop Segurança Visualização Monitoramento
  • 3. CAMADA DE FONTE DE DADOS Dados Estruturados : Banco de dados Relacionais (MySQL, PostgreSQL)… Dados Não-Estruturados: Imagens, textos, vídeos, sensores, redes sociais…
  • 5. CAMADA INGESTÃO A camada de Ingestão é extremante importante, ela possui a obrigação de limpar os ruídos das informações e entregar os dados para a camada de armazenamento.
  • 7. CAMADA INFRAESTRUTURA DO HADOOP • Recursos de Hardware • Suporta a camada de Armazenamento • Infraestrutura física robusta, barata e confiável para garantir a operação e escalabilidade da arquitetura de dados. • Baseado em um modelo de computação distribuída. Disponibilização dos Recursos: • Serviço de Nuvem Virtualizados • Cluster de Maquinas;
  • 9. CAMADA ARMAZENAMENTO DO HADOOP • Tolerância a falhas, • Paralelização de algoritmos, • Processamento distribuído, • Larga escala trabalha com Pb de dados . NoSQL. • Alta velocidade,
  • 10. CAMADA ARMAZENAMENTO DO HADOOP Hadoop não precisa substituir DW. Pode atuar como integrador do DW. A partir de diferentes fontes, agregando ao HDFS os dados antes de transformar e entregar ao DW.
  • 12. CAMADA DA PLATAFORMA DE GESTÃO DO HADOOP Principais problemas a serem resolvidos: Processar gigantescas quantidades de dados de maneira eficiente, Custo-benefício apropriado, Tempo satisfatório. Fornece as ferramentas/ linguagens de consulta para acessar os bancos de dados NoSQL, Executa consultas e gerencia as camadas inferiores, por meio das linguagens Pig e Hive.
  • 14. CAMADA DE SEGURANÇA Importante + Preocupante = Privacidade • Hábitos de compra de clientes. • Dados demográficos de doenças genéticas. • Histórico médico de pacientes. Performance, Escalabilidade e Funcionalidade • Autenticar utilizando protocolos seguros como o Kerberos, • Permitir a criptografia de arquivos por camadas, • Garantir que toda a comunicação entre os servidores distribuídos seja segura,
  • 16. CAMADA DE VISUALIZAÇÃO Grande volume pode levar a sobrecarga de informação, Deve ser incorporada numa fase inicial do projeto, Trabalha com os dados já consolidados nas camadas anteriores, Auxiliar os analistas de dados e cientistas a obter insights, Analise tempo real deve utilizar motores e arquitetura orientada a eventos. http://gephi.github.io/ www.r-project.org
  • 17. CAMADA DE VISUALIZAÇÃO http://matplotlib.org/
  • 19. CAMADA DE MONITORAMENTO Grande número de clusters utilizados na solução de Big Data, Garantir que os acordos de nível de serviço estejam sendo atendidos, Dever ser capaz de lidar com aglomerado distribuído de servidores, Suportar diferentes sistemas operacionais, Trabalhar com diferentes tipos de hardware, Capaz de se comunicar com os protocolos de alto nível como o XML. Além do desempenho e paralelismo deve prover o armazenamento e visualização de dados do monitoramento.
  • 21.
  • 23. YARN – YARN significa "Yet Another Resources Negotiator" Sua responsabilidade é prover a redução da dependência do MapReduce e outras ferramentas do Hadoop. Criando uma camada de abstração para adicionar ou retirar componentes, exemplo interfaces de programação. Sqoop – Tem como responsabilidade fornecer a conectividade para mover dados entre bancos de dados relacionais, bando de dados de data warehouses e Hadoop. MapReduce – Modelo de programação para sistemas distribuídos, com processamento paralelo, o processamento é divido em duas etapas, uma chamada Map, que consiste no mapeamento e validação dos dados e a outra chamada Reduce que recebe os dados da fase do Map e para gerar o resultado final. HBase – Banco de dados NoSQL orientada a coluna construído sobre o HDFS, o HBase tem como responsabilidade prover um acesso rápido para leitura / gravação com grandes volume de dados entre diversas ferramentas. Hive- Uma linguagem de alto nível SQL-like usado para executar consultas sobre os dados armazenados no Hadoop, o Hive permite que desenvolvedores não familiarizados com a forma de escrever em MapReduce possam escrever consultas de dados que são traduzidos em trabalhos de MapReduce no Hadoop. Assim como Pig, Hive foi desenvolvido para ser uma camada de abstração, orientada para os analistas de banco de dados familiarizados com as linguagens SQL e Java. Pig – Uma abstração sobre a complexidade da programação do MapReduce, a plataforma de desenvolvimento Pig possui ambiente de execução e uma linguagem de script (Pig Latin) seu compilador traduz Pig Latin em seqüências de programas para o MapReduce. Mahout – Biblioteca para aprendizado de máquina e mineração de dados que fornece implementações de MapReduce, para algoritmos populares incluindo algoritmos de analise preditiva, testes de regressão, e modelagem estatística do serviço distribuída do Hadoop. Zookepper – Tem como responsabilidade a coordenação Flume – Tem como finalidade validar, limpar, transformar, reduzir, sendo capaz de trabalhar com um grande volume de dados oriundo das mais diversas fontes e move-las para dentro do Hadoop da forma mais eficiente possível, além de coordernar outros componentes como, exemplos: o Hbase, Hive, Pig, Mahout.