SlideShare uma empresa Scribd logo
1 de 20
Slide 1 de 20. 
Proposta para arquitetura Hadoop 
FIAP / 2BDT 
Adriano Laranjeira (RM 46.316) 
Alexandro Romeira (RM 46.452) 
Amarildo Clemente (RM 46.515) 
Caio Deustch (RM 46.418) 
Wellington Silva (RM 46.477)
Slide 2 de 1209. 
Agenda 
 1 INTRODUÇÃO 
 1.1 Business Trigger 
 1.2 O problema 
 1.3 Objetivo da pesquisa 
 1.4 Metodologia 
 2 ESTUDO DE CASO 
 2.1 Arquitetura & Indicadores atuais 
 2.2 Volumetrias 
 2.3 Fluxo atual de dados 
 2.4 Ensaios: 
 2.4.1 Proposta 01: Hadoop como repositório 
 2.4.2 Proposta 02: Hadoop 2 + HBase + Yarn 
 2.4.3 Proposta 03: Hadoop 2 + HBase + Yarn + CrateData 
 3 FINALIZAÇÃO 
 3.1 Conclusões 
 3.2 Sugestão para trabalhos futuros 
 3.3 Referências
Slide 3 de 19. 
Proposta para arquitetura Hadoop 
1 Introdução
Slide 4 de 1209. 
1.1 Business Trigger 
 Um dos objetivos de uma certa empresa de Telecomunicações é a 
expansão de sua rede em ~40%; 
 Esta rede é monitorada por um NOC com capacidade atual de processamento em 
~2.000 rq/s (requisições por segundo); 
 Estas requisições são dados de leitura de status dos 
equipamentos de rede espalhados em todo Brasil.
Slide 5 de 1209. 
1.2 O problema 
 A infraestrutura atual deste NOC atende de forma satisfatória 
mas sem folga; 
 Considerando os objetivos de negócio conclui-se que muito em breve 
ele será incapaz de atender às necessidades de 
monitoração da companhia.
Slide 6 de 1209. 
1.3 Objetivo da pesquisa 
Encontrar uma arquitetura MPP ideal, baseada em 
Hadoop; 
Prover crescimento na capacidade de 
computação, atendendo à necessidade de monitoração da área.
Slide 7 de 1209. 
1.4 Metodologia 
Pesquisa de softwares satélites ao Hadoop 2; 
 Ensaio e experimentação teórica de arquiteturas lógicas para 
atender ao objetivo da pesquisa.
Slide 8 de 19. 
Proposta para arquitetura Hadoop 
2 ESTUDO DE CASO
Slide 9 de 19. 
2.1 Arquitetura & Indicadores atuais 
Cidade 1 
Coletor 
Cidade N 
Coletor 
Consolidador 
Matriz 
 A meta neste processo é que 
85% ou mais das requisições 
sejam processadas com sucesso; 
 A volumetria atual é de ~2.100 
rq/s(1), com sinais claros de que este 
volume está em crescimento; 
 Hoje, a área aponta que 85% a 
90% destas requisições são 
processadas - sinal que qualquer 
aumento significativo no volume de 
equipamentos a ser monitorado vai 
degradar o indicador. 
1 - rq/s = requisições por segundo
Qtde - /5 minutos 
Slide 10 de 1209. 
2.2 Volumetrias 
REQUISIÇÕES DE MONITORAÇÃO 
Monitoração 
Qtde Alvos 
Alvo Item Mínima Máxima 
Ambiente 
Headend CMTS Porta giga 267 267 801 
Headend CMTS CPU 267 267 801 
Headend CMTS Temperatura 267 267 801 
Headend CMTS – Porta UP Tráfego 42720 42720 128160 
Headend CMTS – Porta DOWN Tráfego 10680 10680 32040 
Datacenter Switch CPU 154 154 462 
Datacenter Switch Tráfego na porta 3696 3696 11088 
Datacenter Router CPU 57 57 171 
Datacenter Servidor CPU 228 228 684 
Datacenter Servidor Disco 228 228 684 
Datacenter Servidor Rede 228 228 684 
Totais 58792 58792 176376 
Considerações relevantes: 
 A tabela acima serve apenas para melhorar o entendimento da necessidade. Os dados são confidenciais para a 
companhia por isso os alvos e as respectivas volumetrias foram alterados.
Slide 11 de 19. 
2.3 Fluxo atual de dados 
 Cada cidade gera arquivos do tipo RRD e grava-os localmente em seu coletor; 
 Esses arquivos são transferidos para um servidor consolidador, que lê os 
arquivos com os dados de monitoração permitindo a geração de dados 
consolidados, drill-down e gráficos para acompanhar a disponibilidade dos 
serviços; 
 Lembrando, a frequência deve ser de ~2.000 rq/s. Os dados no consolidador são 
mantidos tanto em RRD como em SQL.
Slide 12 de 1209. 
2.4 Ensaios 
Propostas: 
 2.4.1 - Hadoop como repositório dos arquivos RRD; 
 2.4.2 - Hadoop 2 + HBase + Yarn; 
 2.4.3 - Hadoop 2 + HBase + Yarn + CrateData.
Slide 13 de 1209. 
2.4.1 Proposta 01: Hadoop como repositório 
Cidade 1 Cidade 2 Cidade 3 Cidade N 
Coletor Coletor Coletor Coletor 
HDFS (5 máquinas: 2 namenode + 3 datanode) 
Vantagens 
 Coletor passa a ser só uma unidade de processamento, não armazena mais dados. 
Desvantagens 
 Só melhora disponibilidade dos dados. A melhora no processamento é questionável. 
Consumidores
Consumidores 
Slide 14 de 1209. 
2.4.2 Proposta 02: Hadoop + YARN + HBase 
Cidade 1 
Cidade N 
Vantagens 
Coletor 
Coletor 
RRDs @ HDFS 
 Coletor agora é só uma unidade de processamento, não armazena mais nada; 
 Melhora na capacidade de computação é altamente provável; 
 Aumentar capacidade de computação implicaria apenas em adicionar nós no cluster. 
Desvantagens 
 As aplicações integradas na camada de dados do consolidador teriam que ser reescritas. Hoje elas 
fazem acesso direto ao dado SQL e esta proposta implicaria em alterar sistemas externos; 
 Retrabalho e curva de aprendizado do time para reescrever todos os scripts (shell, Perl e PHP) na 
plataforma YARN com HBase. 
(5 máquinas: 2 namenode + 3 
datanode) 
YARN 
HBase 
Consolidador 
passa a ser 
YARN + HBase.
Consumidores 
Consolidador 
passa a ser YARN 
+ HBase. 
Dados podem ser 
acessados via 
CrateData. 
Slide 15 de 1209. 
2.4.3 Proposta 03: Hadoop + YARN + Hbase + CrateData 
Cidade 1 
Cidade N 
Vantagens 
Coletor 
Coletor 
RRDs @ HDFS 
(5 máquinas: 2 namenode + 3 
datanode) 
YARN 
HBase 
CrateData 
 Coletor agora é só uma unidade de processamento, não armazena mais nada; 
 Melhora na capacidade de computação altamente provável; 
 Aumentar capacidade de computação implicaria apenas em adicionar nós no cluster; 
 Aplicações legadas podem se integrar via SQL pela camada CrateData. 
Desvantagens 
 Retrabalho e curva de aprendizado do time para reescrever todos os scripts (shell, Perl e PHP) na 
plataforma YARN com Hbase, além de projetar/construir as visões materializadas (atualizáveis ou 
não) nos bancos de dados da camada CrateData.
Slide 16 de 19. 
Proposta para arquitetura Hadoop 
3 Finalização
Slide 17 de 1209. 
3.1 Conclusões 
 A arquitetura que traz o menor impacto para a operação é 
a proposta 01; 
 No entanto utiliza-la não traz ganhos em processamento, por isso a 
escolha do grupo é a proposta 03, que além de 
liberar os coletores da tarefa de manter dados, promete ganhos 
significativos através da utilização do YARN, além de não impactar 
os sistemas integrados legados com a solução CrateData.
Slide 18 de 1209. 
3.2 Sugestão para trabalhos futuros 
 Melhorar a arquitetura para prover o conceito de Data Lake (ou Data Service); 
 Aplicar na prática as arquiteturas propostas para extração de métricas e 
apresentar comparações mais precisas; 
 Criar uma camada REST para que as aplicações externas não tenham de 
conhecer a tecnologia aplicada dentro da camada de dados.
Slide 19 de 1209. 
3.3 Referências (1/2) 
 APACHE HADOOP 2.5.1 - YARN. Disponível em: <http://hadoop.apache.org/docs/current/hadoop-yarn/ 
hadoop-yarn-site/YARN.html>. Acesso em 15 de Outubro de 2014. 
 APACHE HADOOP. Disponível em: <http://en.wikipedia.org/wiki/Apache_Hadoop>. Acesso em 13 de 
Outubro de 2014. 
 APACHE HBASE. Disponível em: <http://en.wikipedia.org/wiki/Apache_HBase>. Acesso em 16 de 
Outubro de 2014. 
 CRATE DATA DOCUMENTATION. Disponível em: <https://crate.io/docs/stable/>. Acesso em 10 de 
Outubro de 2014. 
 HADOOP - APACHE HADOOP 2.5.1. Disponível em: <http://hadoop.apache.org/docs/current/>. Acesso 
em 17 de Outubro de 2014. 
 HADOOP DISTRIBUTED FILE SYSTEM (HDFS). Disponível em: 
<http://br.hortonworks.com/hadoop/hdfs/>. Acesso em 11 de Outubro de 2014. 
 HADOOP YARN. Disponível em: <http://br.hortonworks.com/hadoop/yarn/>. Acesso em 15 de Outubro de 
2014.
Slide 20 de 1209. 
3.3 Referências (2/2) 
 HBASE - APACHE HBASE HOME. Disponível em: <http://hbase.apache.org/>. Acesso em 19 de Outubro 
de 2014. 
 HDFS ARCHITECTURE GUIDE. Disponível em: 
<http://hadoop.apache.org/docs/r1.2.1/hdfs_design.html>. Acesso em 21 de Outubro de 2014. 
 MASSIVELY PARALLEL (COMPUTING). Disponível em: 
<http://en.wikipedia.org/wiki/Massively_parallel_%28computing%29>. Acesso em 22 de Outubro de 2014. 
 NETWORK OPERATIONS CENTER. Disponível em: 
<http://en.wikipedia.org/wiki/Network_operations_center>. Acesso em 12 de Outubro de 2014. 
 REPRESENTATIONAL STATE TRANSFER. Disponível em: 
<http://en.wikipedia.org/wiki/Representational_state_transfer>. Acesso em 14 de Outubro de 2014. 
 RRDTOOL - ABOUT RRDTOOL. Disponível em: <http://oss.oetiker.ch/rrdtool/>. Acesso em 15 de Outubro 
de 2014. 
 RRDTOOL. Disponível em: <http://en.wikipedia.org/wiki/RRDtool>. Acesso em 16 de Outubro de 2014.

Mais conteúdo relacionado

Mais procurados

XXXI JAI - Apache Hadoop: conceitos teóricos e práticos, evolução e novas pos...
XXXI JAI - Apache Hadoop: conceitos teóricos e práticos, evolução e novas pos...XXXI JAI - Apache Hadoop: conceitos teóricos e práticos, evolução e novas pos...
XXXI JAI - Apache Hadoop: conceitos teóricos e práticos, evolução e novas pos...Ivanilton Polato
 
BIGDATA: Da teoria à Pratica
BIGDATA: Da teoria à PraticaBIGDATA: Da teoria à Pratica
BIGDATA: Da teoria à PraticaDaniel Checchia
 
Explorando os principais implementadores hadoop e o papel que eles exercem no...
Explorando os principais implementadores hadoop e o papel que eles exercem no...Explorando os principais implementadores hadoop e o papel que eles exercem no...
Explorando os principais implementadores hadoop e o papel que eles exercem no...José Renato Pequeno
 
Bigdata na pratica: Resolvendo problemas de performance com hadoop
Bigdata na pratica: Resolvendo problemas de performance com hadoopBigdata na pratica: Resolvendo problemas de performance com hadoop
Bigdata na pratica: Resolvendo problemas de performance com hadooptdc-globalcode
 
Big Data – HBase, integrando hadoop, bi e dw; Montando o seu big data Cloude...
Big Data – HBase, integrando hadoop, bi e dw; Montando o seu big data  Cloude...Big Data – HBase, integrando hadoop, bi e dw; Montando o seu big data  Cloude...
Big Data – HBase, integrando hadoop, bi e dw; Montando o seu big data Cloude...Flavio Fonte, PMP, ITIL
 
Machine learning com Apache Spark
Machine learning com Apache SparkMachine learning com Apache Spark
Machine learning com Apache SparkSandys Nunes
 
Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...
Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...
Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...Ambiente Livre
 
Hadoop - primeiros passos
Hadoop - primeiros passosHadoop - primeiros passos
Hadoop - primeiros passosrhpinotti
 
Mapreduce - Conceitos e Aplicações
Mapreduce - Conceitos e AplicaçõesMapreduce - Conceitos e Aplicações
Mapreduce - Conceitos e AplicaçõesGuilherme Araújo
 
Greenplum: O banco de dados open source massivamente paralelo baseado em Post...
Greenplum: O banco de dados open source massivamente paralelo baseado em Post...Greenplum: O banco de dados open source massivamente paralelo baseado em Post...
Greenplum: O banco de dados open source massivamente paralelo baseado em Post...PGDay Campinas
 
Modelos de computação distribuída no Hadoop
Modelos de computação distribuída no HadoopModelos de computação distribuída no Hadoop
Modelos de computação distribuída no HadoopBig Data Week São Paulo
 

Mais procurados (20)

Data Lakes com Hadoop e Spark: Agile Analytics na prática
Data Lakes com Hadoop e Spark: Agile Analytics na práticaData Lakes com Hadoop e Spark: Agile Analytics na prática
Data Lakes com Hadoop e Spark: Agile Analytics na prática
 
XXXI JAI - Apache Hadoop: conceitos teóricos e práticos, evolução e novas pos...
XXXI JAI - Apache Hadoop: conceitos teóricos e práticos, evolução e novas pos...XXXI JAI - Apache Hadoop: conceitos teóricos e práticos, evolução e novas pos...
XXXI JAI - Apache Hadoop: conceitos teóricos e práticos, evolução e novas pos...
 
Seminário Hadoop
Seminário HadoopSeminário Hadoop
Seminário Hadoop
 
BIGDATA: Da teoria à Pratica
BIGDATA: Da teoria à PraticaBIGDATA: Da teoria à Pratica
BIGDATA: Da teoria à Pratica
 
Explorando os principais implementadores hadoop e o papel que eles exercem no...
Explorando os principais implementadores hadoop e o papel que eles exercem no...Explorando os principais implementadores hadoop e o papel que eles exercem no...
Explorando os principais implementadores hadoop e o papel que eles exercem no...
 
Treinamento Hadoop - dia2
Treinamento Hadoop - dia2Treinamento Hadoop - dia2
Treinamento Hadoop - dia2
 
Treinamento hadoop - dia3
Treinamento hadoop - dia3Treinamento hadoop - dia3
Treinamento hadoop - dia3
 
Bigdata na pratica: Resolvendo problemas de performance com hadoop
Bigdata na pratica: Resolvendo problemas de performance com hadoopBigdata na pratica: Resolvendo problemas de performance com hadoop
Bigdata na pratica: Resolvendo problemas de performance com hadoop
 
Big Data – HBase, integrando hadoop, bi e dw; Montando o seu big data Cloude...
Big Data – HBase, integrando hadoop, bi e dw; Montando o seu big data  Cloude...Big Data – HBase, integrando hadoop, bi e dw; Montando o seu big data  Cloude...
Big Data – HBase, integrando hadoop, bi e dw; Montando o seu big data Cloude...
 
Treinamento hadoop - dia4
Treinamento hadoop - dia4Treinamento hadoop - dia4
Treinamento hadoop - dia4
 
Machine learning com Apache Spark
Machine learning com Apache SparkMachine learning com Apache Spark
Machine learning com Apache Spark
 
Hadoop
HadoopHadoop
Hadoop
 
Treinamento hadoop - dia1
Treinamento hadoop - dia1Treinamento hadoop - dia1
Treinamento hadoop - dia1
 
Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...
Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...
Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...
 
Hadoop - primeiros passos
Hadoop - primeiros passosHadoop - primeiros passos
Hadoop - primeiros passos
 
Mapreduce - Conceitos e Aplicações
Mapreduce - Conceitos e AplicaçõesMapreduce - Conceitos e Aplicações
Mapreduce - Conceitos e Aplicações
 
Greenplum: O banco de dados open source massivamente paralelo baseado em Post...
Greenplum: O banco de dados open source massivamente paralelo baseado em Post...Greenplum: O banco de dados open source massivamente paralelo baseado em Post...
Greenplum: O banco de dados open source massivamente paralelo baseado em Post...
 
Hadoop
HadoopHadoop
Hadoop
 
Big data e ecossistema hadoop
Big data e ecossistema hadoopBig data e ecossistema hadoop
Big data e ecossistema hadoop
 
Modelos de computação distribuída no Hadoop
Modelos de computação distribuída no HadoopModelos de computação distribuída no Hadoop
Modelos de computação distribuída no Hadoop
 

Destaque

Ecossistema Hadoop no Magazine Luiza
Ecossistema Hadoop no Magazine LuizaEcossistema Hadoop no Magazine Luiza
Ecossistema Hadoop no Magazine LuizaNelson Forte
 
Getting Started with HBase
Getting Started with HBaseGetting Started with HBase
Getting Started with HBaseCarol McDonald
 
Introduction to HBase - Phoenix HUG 5/14
Introduction to HBase - Phoenix HUG 5/14Introduction to HBase - Phoenix HUG 5/14
Introduction to HBase - Phoenix HUG 5/14Jeremy Walsh
 
Apache HBase - Introduction & Use Cases
Apache HBase - Introduction & Use CasesApache HBase - Introduction & Use Cases
Apache HBase - Introduction & Use CasesData Con LA
 
Introduction to Apache HBase, MapR Tables and Security
Introduction to Apache HBase, MapR Tables and SecurityIntroduction to Apache HBase, MapR Tables and Security
Introduction to Apache HBase, MapR Tables and SecurityMapR Technologies
 
HBase: Just the Basics
HBase: Just the BasicsHBase: Just the Basics
HBase: Just the BasicsHBaseCon
 
Intro to HBase Internals & Schema Design (for HBase users)
Intro to HBase Internals & Schema Design (for HBase users)Intro to HBase Internals & Schema Design (for HBase users)
Intro to HBase Internals & Schema Design (for HBase users)alexbaranau
 
HBaseCon 2012 | HBase Schema Design - Ian Varley, Salesforce
HBaseCon 2012 | HBase Schema Design - Ian Varley, SalesforceHBaseCon 2012 | HBase Schema Design - Ian Varley, Salesforce
HBaseCon 2012 | HBase Schema Design - Ian Varley, SalesforceCloudera, Inc.
 

Destaque (10)

Ecossistema Hadoop no Magazine Luiza
Ecossistema Hadoop no Magazine LuizaEcossistema Hadoop no Magazine Luiza
Ecossistema Hadoop no Magazine Luiza
 
Hbase trabalho final
Hbase trabalho finalHbase trabalho final
Hbase trabalho final
 
Getting Started with HBase
Getting Started with HBaseGetting Started with HBase
Getting Started with HBase
 
Introduction to HBase - Phoenix HUG 5/14
Introduction to HBase - Phoenix HUG 5/14Introduction to HBase - Phoenix HUG 5/14
Introduction to HBase - Phoenix HUG 5/14
 
Apache HBase - Introduction & Use Cases
Apache HBase - Introduction & Use CasesApache HBase - Introduction & Use Cases
Apache HBase - Introduction & Use Cases
 
Introduction to Apache HBase, MapR Tables and Security
Introduction to Apache HBase, MapR Tables and SecurityIntroduction to Apache HBase, MapR Tables and Security
Introduction to Apache HBase, MapR Tables and Security
 
HBase: Just the Basics
HBase: Just the BasicsHBase: Just the Basics
HBase: Just the Basics
 
Intro to HBase Internals & Schema Design (for HBase users)
Intro to HBase Internals & Schema Design (for HBase users)Intro to HBase Internals & Schema Design (for HBase users)
Intro to HBase Internals & Schema Design (for HBase users)
 
Intro to HBase
Intro to HBaseIntro to HBase
Intro to HBase
 
HBaseCon 2012 | HBase Schema Design - Ian Varley, Salesforce
HBaseCon 2012 | HBase Schema Design - Ian Varley, SalesforceHBaseCon 2012 | HBase Schema Design - Ian Varley, Salesforce
HBaseCon 2012 | HBase Schema Design - Ian Varley, Salesforce
 

Semelhante a Proposta de arquitetura Hadoop

Alta disponibilidade em ambiente GNU/Linux
Alta disponibilidade em ambiente GNU/LinuxAlta disponibilidade em ambiente GNU/Linux
Alta disponibilidade em ambiente GNU/LinuxMario Bittencourt
 
DevOps containers x86 - Baremetal, Virtual e Cloud (pt_br)
DevOps containers x86 - Baremetal, Virtual e Cloud (pt_br)DevOps containers x86 - Baremetal, Virtual e Cloud (pt_br)
DevOps containers x86 - Baremetal, Virtual e Cloud (pt_br)Caio Candido
 
A PRINCIPAL PLATAFORMA ABERTA, FAÇA MAIS COM MENOS
A PRINCIPAL PLATAFORMA ABERTA, FAÇA MAIS COM MENOSA PRINCIPAL PLATAFORMA ABERTA, FAÇA MAIS COM MENOS
A PRINCIPAL PLATAFORMA ABERTA, FAÇA MAIS COM MENOSRaul Leite
 
Big data para programadores convencionais
Big data para programadores convencionaisBig data para programadores convencionais
Big data para programadores convencionaisRoberto Oliveira
 
Big Data com MATLAB (Tiago Monteiro), Webinar ao vivo
Big Data com MATLAB (Tiago Monteiro), Webinar ao vivoBig Data com MATLAB (Tiago Monteiro), Webinar ao vivo
Big Data com MATLAB (Tiago Monteiro), Webinar ao vivoOpencadd Advanced Technology
 
Melhores práticas de planejamento de capacidade aplicadas num projeto de Tran...
Melhores práticas de planejamento de capacidade aplicadas num projeto de Tran...Melhores práticas de planejamento de capacidade aplicadas num projeto de Tran...
Melhores práticas de planejamento de capacidade aplicadas num projeto de Tran...Joao Galdino Mello de Souza
 
Escalabilidade via Software no Expressov3
Escalabilidade via Software no Expressov3Escalabilidade via Software no Expressov3
Escalabilidade via Software no Expressov3Flávio Lisboa
 
Map reduce novas abordagens para o processo de datamining em grandes volumn...
Map reduce   novas abordagens para o processo de datamining em grandes volumn...Map reduce   novas abordagens para o processo de datamining em grandes volumn...
Map reduce novas abordagens para o processo de datamining em grandes volumn...João Gabriel Lima
 
[DTC21] André Marques - Jornada do Engenheiro de Dados
[DTC21] André Marques - Jornada do Engenheiro de Dados[DTC21] André Marques - Jornada do Engenheiro de Dados
[DTC21] André Marques - Jornada do Engenheiro de DadosDeep Tech Brasil
 
Apresentação em Aplicações Distribuídas – Hadoop MapReduce
Apresentação em Aplicações Distribuídas – Hadoop MapReduceApresentação em Aplicações Distribuídas – Hadoop MapReduce
Apresentação em Aplicações Distribuídas – Hadoop MapReduceMatteus Barbosa
 
QConSP16 - Apache Cassandra Evoluindo Sistemas Distribuídos
QConSP16 - Apache Cassandra Evoluindo Sistemas DistribuídosQConSP16 - Apache Cassandra Evoluindo Sistemas Distribuídos
QConSP16 - Apache Cassandra Evoluindo Sistemas DistribuídosEiti Kimura
 
Filesystem distribuído com hadoop!!!
Filesystem distribuído com hadoop!!! Filesystem distribuído com hadoop!!!
Filesystem distribuído com hadoop!!! Alessandro Binhara
 
Gerência de redes utilizando o cacti
Gerência de redes utilizando o cactiGerência de redes utilizando o cacti
Gerência de redes utilizando o cactiIsraelCunha
 
Datawarehouse - Obtenha insights consistentes para o seu negócio: conheça o n...
Datawarehouse - Obtenha insights consistentes para o seu negócio: conheça o n...Datawarehouse - Obtenha insights consistentes para o seu negócio: conheça o n...
Datawarehouse - Obtenha insights consistentes para o seu negócio: conheça o n...iMasters
 

Semelhante a Proposta de arquitetura Hadoop (20)

Qcon Rio 2015 - Data Lakes Workshop
Qcon Rio 2015 - Data Lakes WorkshopQcon Rio 2015 - Data Lakes Workshop
Qcon Rio 2015 - Data Lakes Workshop
 
SQL Maniacs - SQL Server 2019 Big Data Clusters
SQL Maniacs - SQL Server 2019 Big Data ClustersSQL Maniacs - SQL Server 2019 Big Data Clusters
SQL Maniacs - SQL Server 2019 Big Data Clusters
 
Sql maniacs sql server 2019 Big Data Clusters
Sql maniacs   sql server 2019 Big Data ClustersSql maniacs   sql server 2019 Big Data Clusters
Sql maniacs sql server 2019 Big Data Clusters
 
Alta disponibilidade em ambiente GNU/Linux
Alta disponibilidade em ambiente GNU/LinuxAlta disponibilidade em ambiente GNU/Linux
Alta disponibilidade em ambiente GNU/Linux
 
DevOps containers x86 - Baremetal, Virtual e Cloud (pt_br)
DevOps containers x86 - Baremetal, Virtual e Cloud (pt_br)DevOps containers x86 - Baremetal, Virtual e Cloud (pt_br)
DevOps containers x86 - Baremetal, Virtual e Cloud (pt_br)
 
A PRINCIPAL PLATAFORMA ABERTA, FAÇA MAIS COM MENOS
A PRINCIPAL PLATAFORMA ABERTA, FAÇA MAIS COM MENOSA PRINCIPAL PLATAFORMA ABERTA, FAÇA MAIS COM MENOS
A PRINCIPAL PLATAFORMA ABERTA, FAÇA MAIS COM MENOS
 
Big data para programadores convencionais
Big data para programadores convencionaisBig data para programadores convencionais
Big data para programadores convencionais
 
Big Data com MATLAB (Tiago Monteiro), Webinar ao vivo
Big Data com MATLAB (Tiago Monteiro), Webinar ao vivoBig Data com MATLAB (Tiago Monteiro), Webinar ao vivo
Big Data com MATLAB (Tiago Monteiro), Webinar ao vivo
 
TRIO IT - Resumo
TRIO IT - ResumoTRIO IT - Resumo
TRIO IT - Resumo
 
Melhores práticas de planejamento de capacidade aplicadas num projeto de Tran...
Melhores práticas de planejamento de capacidade aplicadas num projeto de Tran...Melhores práticas de planejamento de capacidade aplicadas num projeto de Tran...
Melhores práticas de planejamento de capacidade aplicadas num projeto de Tran...
 
Escalabilidade via Software no Expressov3
Escalabilidade via Software no Expressov3Escalabilidade via Software no Expressov3
Escalabilidade via Software no Expressov3
 
Map reduce novas abordagens para o processo de datamining em grandes volumn...
Map reduce   novas abordagens para o processo de datamining em grandes volumn...Map reduce   novas abordagens para o processo de datamining em grandes volumn...
Map reduce novas abordagens para o processo de datamining em grandes volumn...
 
Cacti
CactiCacti
Cacti
 
[DTC21] André Marques - Jornada do Engenheiro de Dados
[DTC21] André Marques - Jornada do Engenheiro de Dados[DTC21] André Marques - Jornada do Engenheiro de Dados
[DTC21] André Marques - Jornada do Engenheiro de Dados
 
Apresentação em Aplicações Distribuídas – Hadoop MapReduce
Apresentação em Aplicações Distribuídas – Hadoop MapReduceApresentação em Aplicações Distribuídas – Hadoop MapReduce
Apresentação em Aplicações Distribuídas – Hadoop MapReduce
 
Big Data e seu fiel companheiro Spark
Big Data e seu fiel companheiro SparkBig Data e seu fiel companheiro Spark
Big Data e seu fiel companheiro Spark
 
QConSP16 - Apache Cassandra Evoluindo Sistemas Distribuídos
QConSP16 - Apache Cassandra Evoluindo Sistemas DistribuídosQConSP16 - Apache Cassandra Evoluindo Sistemas Distribuídos
QConSP16 - Apache Cassandra Evoluindo Sistemas Distribuídos
 
Filesystem distribuído com hadoop!!!
Filesystem distribuído com hadoop!!! Filesystem distribuído com hadoop!!!
Filesystem distribuído com hadoop!!!
 
Gerência de redes utilizando o cacti
Gerência de redes utilizando o cactiGerência de redes utilizando o cacti
Gerência de redes utilizando o cacti
 
Datawarehouse - Obtenha insights consistentes para o seu negócio: conheça o n...
Datawarehouse - Obtenha insights consistentes para o seu negócio: conheça o n...Datawarehouse - Obtenha insights consistentes para o seu negócio: conheça o n...
Datawarehouse - Obtenha insights consistentes para o seu negócio: conheça o n...
 

Proposta de arquitetura Hadoop

  • 1. Slide 1 de 20. Proposta para arquitetura Hadoop FIAP / 2BDT Adriano Laranjeira (RM 46.316) Alexandro Romeira (RM 46.452) Amarildo Clemente (RM 46.515) Caio Deustch (RM 46.418) Wellington Silva (RM 46.477)
  • 2. Slide 2 de 1209. Agenda  1 INTRODUÇÃO  1.1 Business Trigger  1.2 O problema  1.3 Objetivo da pesquisa  1.4 Metodologia  2 ESTUDO DE CASO  2.1 Arquitetura & Indicadores atuais  2.2 Volumetrias  2.3 Fluxo atual de dados  2.4 Ensaios:  2.4.1 Proposta 01: Hadoop como repositório  2.4.2 Proposta 02: Hadoop 2 + HBase + Yarn  2.4.3 Proposta 03: Hadoop 2 + HBase + Yarn + CrateData  3 FINALIZAÇÃO  3.1 Conclusões  3.2 Sugestão para trabalhos futuros  3.3 Referências
  • 3. Slide 3 de 19. Proposta para arquitetura Hadoop 1 Introdução
  • 4. Slide 4 de 1209. 1.1 Business Trigger  Um dos objetivos de uma certa empresa de Telecomunicações é a expansão de sua rede em ~40%;  Esta rede é monitorada por um NOC com capacidade atual de processamento em ~2.000 rq/s (requisições por segundo);  Estas requisições são dados de leitura de status dos equipamentos de rede espalhados em todo Brasil.
  • 5. Slide 5 de 1209. 1.2 O problema  A infraestrutura atual deste NOC atende de forma satisfatória mas sem folga;  Considerando os objetivos de negócio conclui-se que muito em breve ele será incapaz de atender às necessidades de monitoração da companhia.
  • 6. Slide 6 de 1209. 1.3 Objetivo da pesquisa Encontrar uma arquitetura MPP ideal, baseada em Hadoop; Prover crescimento na capacidade de computação, atendendo à necessidade de monitoração da área.
  • 7. Slide 7 de 1209. 1.4 Metodologia Pesquisa de softwares satélites ao Hadoop 2;  Ensaio e experimentação teórica de arquiteturas lógicas para atender ao objetivo da pesquisa.
  • 8. Slide 8 de 19. Proposta para arquitetura Hadoop 2 ESTUDO DE CASO
  • 9. Slide 9 de 19. 2.1 Arquitetura & Indicadores atuais Cidade 1 Coletor Cidade N Coletor Consolidador Matriz  A meta neste processo é que 85% ou mais das requisições sejam processadas com sucesso;  A volumetria atual é de ~2.100 rq/s(1), com sinais claros de que este volume está em crescimento;  Hoje, a área aponta que 85% a 90% destas requisições são processadas - sinal que qualquer aumento significativo no volume de equipamentos a ser monitorado vai degradar o indicador. 1 - rq/s = requisições por segundo
  • 10. Qtde - /5 minutos Slide 10 de 1209. 2.2 Volumetrias REQUISIÇÕES DE MONITORAÇÃO Monitoração Qtde Alvos Alvo Item Mínima Máxima Ambiente Headend CMTS Porta giga 267 267 801 Headend CMTS CPU 267 267 801 Headend CMTS Temperatura 267 267 801 Headend CMTS – Porta UP Tráfego 42720 42720 128160 Headend CMTS – Porta DOWN Tráfego 10680 10680 32040 Datacenter Switch CPU 154 154 462 Datacenter Switch Tráfego na porta 3696 3696 11088 Datacenter Router CPU 57 57 171 Datacenter Servidor CPU 228 228 684 Datacenter Servidor Disco 228 228 684 Datacenter Servidor Rede 228 228 684 Totais 58792 58792 176376 Considerações relevantes:  A tabela acima serve apenas para melhorar o entendimento da necessidade. Os dados são confidenciais para a companhia por isso os alvos e as respectivas volumetrias foram alterados.
  • 11. Slide 11 de 19. 2.3 Fluxo atual de dados  Cada cidade gera arquivos do tipo RRD e grava-os localmente em seu coletor;  Esses arquivos são transferidos para um servidor consolidador, que lê os arquivos com os dados de monitoração permitindo a geração de dados consolidados, drill-down e gráficos para acompanhar a disponibilidade dos serviços;  Lembrando, a frequência deve ser de ~2.000 rq/s. Os dados no consolidador são mantidos tanto em RRD como em SQL.
  • 12. Slide 12 de 1209. 2.4 Ensaios Propostas:  2.4.1 - Hadoop como repositório dos arquivos RRD;  2.4.2 - Hadoop 2 + HBase + Yarn;  2.4.3 - Hadoop 2 + HBase + Yarn + CrateData.
  • 13. Slide 13 de 1209. 2.4.1 Proposta 01: Hadoop como repositório Cidade 1 Cidade 2 Cidade 3 Cidade N Coletor Coletor Coletor Coletor HDFS (5 máquinas: 2 namenode + 3 datanode) Vantagens  Coletor passa a ser só uma unidade de processamento, não armazena mais dados. Desvantagens  Só melhora disponibilidade dos dados. A melhora no processamento é questionável. Consumidores
  • 14. Consumidores Slide 14 de 1209. 2.4.2 Proposta 02: Hadoop + YARN + HBase Cidade 1 Cidade N Vantagens Coletor Coletor RRDs @ HDFS  Coletor agora é só uma unidade de processamento, não armazena mais nada;  Melhora na capacidade de computação é altamente provável;  Aumentar capacidade de computação implicaria apenas em adicionar nós no cluster. Desvantagens  As aplicações integradas na camada de dados do consolidador teriam que ser reescritas. Hoje elas fazem acesso direto ao dado SQL e esta proposta implicaria em alterar sistemas externos;  Retrabalho e curva de aprendizado do time para reescrever todos os scripts (shell, Perl e PHP) na plataforma YARN com HBase. (5 máquinas: 2 namenode + 3 datanode) YARN HBase Consolidador passa a ser YARN + HBase.
  • 15. Consumidores Consolidador passa a ser YARN + HBase. Dados podem ser acessados via CrateData. Slide 15 de 1209. 2.4.3 Proposta 03: Hadoop + YARN + Hbase + CrateData Cidade 1 Cidade N Vantagens Coletor Coletor RRDs @ HDFS (5 máquinas: 2 namenode + 3 datanode) YARN HBase CrateData  Coletor agora é só uma unidade de processamento, não armazena mais nada;  Melhora na capacidade de computação altamente provável;  Aumentar capacidade de computação implicaria apenas em adicionar nós no cluster;  Aplicações legadas podem se integrar via SQL pela camada CrateData. Desvantagens  Retrabalho e curva de aprendizado do time para reescrever todos os scripts (shell, Perl e PHP) na plataforma YARN com Hbase, além de projetar/construir as visões materializadas (atualizáveis ou não) nos bancos de dados da camada CrateData.
  • 16. Slide 16 de 19. Proposta para arquitetura Hadoop 3 Finalização
  • 17. Slide 17 de 1209. 3.1 Conclusões  A arquitetura que traz o menor impacto para a operação é a proposta 01;  No entanto utiliza-la não traz ganhos em processamento, por isso a escolha do grupo é a proposta 03, que além de liberar os coletores da tarefa de manter dados, promete ganhos significativos através da utilização do YARN, além de não impactar os sistemas integrados legados com a solução CrateData.
  • 18. Slide 18 de 1209. 3.2 Sugestão para trabalhos futuros  Melhorar a arquitetura para prover o conceito de Data Lake (ou Data Service);  Aplicar na prática as arquiteturas propostas para extração de métricas e apresentar comparações mais precisas;  Criar uma camada REST para que as aplicações externas não tenham de conhecer a tecnologia aplicada dentro da camada de dados.
  • 19. Slide 19 de 1209. 3.3 Referências (1/2)  APACHE HADOOP 2.5.1 - YARN. Disponível em: <http://hadoop.apache.org/docs/current/hadoop-yarn/ hadoop-yarn-site/YARN.html>. Acesso em 15 de Outubro de 2014.  APACHE HADOOP. Disponível em: <http://en.wikipedia.org/wiki/Apache_Hadoop>. Acesso em 13 de Outubro de 2014.  APACHE HBASE. Disponível em: <http://en.wikipedia.org/wiki/Apache_HBase>. Acesso em 16 de Outubro de 2014.  CRATE DATA DOCUMENTATION. Disponível em: <https://crate.io/docs/stable/>. Acesso em 10 de Outubro de 2014.  HADOOP - APACHE HADOOP 2.5.1. Disponível em: <http://hadoop.apache.org/docs/current/>. Acesso em 17 de Outubro de 2014.  HADOOP DISTRIBUTED FILE SYSTEM (HDFS). Disponível em: <http://br.hortonworks.com/hadoop/hdfs/>. Acesso em 11 de Outubro de 2014.  HADOOP YARN. Disponível em: <http://br.hortonworks.com/hadoop/yarn/>. Acesso em 15 de Outubro de 2014.
  • 20. Slide 20 de 1209. 3.3 Referências (2/2)  HBASE - APACHE HBASE HOME. Disponível em: <http://hbase.apache.org/>. Acesso em 19 de Outubro de 2014.  HDFS ARCHITECTURE GUIDE. Disponível em: <http://hadoop.apache.org/docs/r1.2.1/hdfs_design.html>. Acesso em 21 de Outubro de 2014.  MASSIVELY PARALLEL (COMPUTING). Disponível em: <http://en.wikipedia.org/wiki/Massively_parallel_%28computing%29>. Acesso em 22 de Outubro de 2014.  NETWORK OPERATIONS CENTER. Disponível em: <http://en.wikipedia.org/wiki/Network_operations_center>. Acesso em 12 de Outubro de 2014.  REPRESENTATIONAL STATE TRANSFER. Disponível em: <http://en.wikipedia.org/wiki/Representational_state_transfer>. Acesso em 14 de Outubro de 2014.  RRDTOOL - ABOUT RRDTOOL. Disponível em: <http://oss.oetiker.ch/rrdtool/>. Acesso em 15 de Outubro de 2014.  RRDTOOL. Disponível em: <http://en.wikipedia.org/wiki/RRDtool>. Acesso em 16 de Outubro de 2014.