SlideShare uma empresa Scribd logo
1 de 32
Baixar para ler offline
Arquiteturas, Tecnologias e Desafios 
para Análise de BigData 
Sandro S. Andrade 
Instituto Federal de Educação, Ciência e Tecnologia (IFBa) 
Grupo de Pesquisa em Sistemas Distribuídos, Otimização, 
Redes e Tempo-Real (GSORT) 
sandroandrade@ifba.edu.br 
@andradesandro 
Arquiteturas, Tecnologias e Desafios para Análise de BigData – Sandro S. Andrade
Arquiteturas, Tecnologias e Desafios para Análise de BigData – Sandro S. Andrade 
Agenda 
● Motivação 
● O MapReduce 
● O Hadoop 
● Design Patterns para MapReduce 
● Hadoop – Projetos Relacionados 
● Desafios Atuais 
● Conclusão
Motivação 
Arquiteturas, Tecnologias e Desafios para Análise de BigData – Sandro S. Andrade
Motivação 
Arquiteturas, Tecnologias e Desafios para Análise de BigData – Sandro S. Andrade
Motivação 
Arquiteturas, Tecnologias e Desafios para Análise de BigData – Sandro S. Andrade
Motivação 
Arquiteturas, Tecnologias e Desafios para Análise de BigData – Sandro S. Andrade
Motivação 
Arquiteturas, Tecnologias e Desafios para Análise de BigData – Sandro S. Andrade 
● BigData: 
– Termo utilizado para descrever qualquer conjunto de 
dados grande e complexo o suficiente para inviabilizar 
o uso das tecnologias tradicionais de armazenamento 
e processamento 
● Características: 
– Volume 
– Variedade 
– Velocidade 
– Variabilidade 
– Complexidade
Motivação 
● BigData hoje: 
– eBay.com: cluster Hadoop de 40PB para busca, 
recomendações e propaganda 
– Amazon.com: armazenamentos de 7.8, 18.5 e 24.7TB 
– Wallmart: 1 milhão de transações de clientes por hora, 
armazenadas em uma base de 2.5PB 
– Facebook: 50 bilhões de fotos, 600TB de novos dados 
por dia, 684.478 postagens por minuto 
– Youtube: 48h de novos vídeos por minuto 
– Instagram: 3600 novas fotos por minuto 
Arquiteturas, Tecnologias e Desafios para Análise de BigData – Sandro S. Andrade
Motivação 
● BigData hoje: 
– Colisor LHC: 15 PB por ano 
– Radiologia: 69 PB por ano 
– Square Kilometre Array (SKA): 0.5 ZB por ano em 2022 
– Observação da terra: 4PB por ano 
– Análise de dados sísmicos: alguns TB por dia 
Arquiteturas, Tecnologias e Desafios para Análise de BigData – Sandro S. Andrade
Motivação 
● Porque analisar todos estes dados ? 
– Marketing mais efetivo 
– Aumento nos lucros 
– Redução de custos 
– Melhorias nas tamadas de decisão 
– Sistemas de recomendação 
– Análise de risco 
– Smart Cities 
Arquiteturas, Tecnologias e Desafios para Análise de BigData – Sandro S. Andrade
O MapReduce 
● Estilo arquitetural e paradigma de computação 
para processamento distribuído de dados que 
residem em uma grande quantidade de 
computadores 
● Criado pelo Google e popularizado em 2004, no 
artigo “MapReduce: Simplified Data Processing on 
Large Clusters” 
● Logo depois o projeto Hadoop foi criado por Doug 
Cutting, financiado pelo Yahoo! e passou a 
integrar a Apache Foundation 
Arquiteturas, Tecnologias e Desafios para Análise de BigData – Sandro S. Andrade
O MapReduce 
● Visão geral do MapReduce: 
– Dados são armazenados em um sistema de arquivos 
distribuído, implementado em milhares de máquinas 
em um cluster 
– Jobs são implementados como tarefas de map e 
tarefas de reduce que executam em um cluster 
– Cada tarefa processa um pequeno subconjunto dos 
dados, de modo que a carga é dividida entre as 
máquinas do cluster 
Arquiteturas, Tecnologias e Desafios para Análise de BigData – Sandro S. Andrade
O MapReduce 
● Visão geral do MapReduce: 
– A tarefa de map geralmente faz carga, parse, 
transformação e filtragem de dados 
– A tarefa de reduce é responsável por tratar um 
subconjunto dos dados de saída das tarefas de map 
– Dados intermediários são copiados das tarefas map 
para as tarefas reduce, de modo a agregar e agrupar 
os dados de saída 
– Um amplo conjunto de problemas pode ser resolvido 
com este paradigma, desde agregações numéricas 
simples até joins e produtos cartesianos 
Arquiteturas, Tecnologias e Desafios para Análise de BigData – Sandro S. Andrade
O MapReduce 
● Visão geral do MapReduce: 
Arquiteturas, Tecnologias e Desafios para Análise de BigData – Sandro S. Andrade
O MapReduce 
● Visão geral do MapReduce – exemplo de job: 
Arquiteturas, Tecnologias e Desafios para Análise de BigData – Sandro S. Andrade
O Hadoop 
● Framework open source para armazenamento e 
processamento de BigData em larga-escala 
● Serviços: 
– Sistema de arquivos distribuído (HDFS) 
– Framework para execução de aplicações paralelas 
(YARN) 
– MapReduce como um dos modelos de computação 
distribuída suportados no YARN 
● Mantido pela Apache Foundation 
– http://hadoop.apache.org/ 
Arquiteturas, Tecnologias e Desafios para Análise de BigData – Sandro S. Andrade
O Hadoop 
● Excelente escalabilidade e tolerância a falhas 
● Jobs podem ser programados em Java ou em 
outras linguagens (via Hadoop Streaming) 
● Boa escalabilidade horizontal (rebalanceamento) 
● Cerca de 190 parâmetros de configuração 
● Usos atuais: 
– Yahoo!: 42.000 máquinas rodando Hadoop 
– Facebook: 100PB de armazenamento no HDFS, 2.000 
máquinas (8/16 núcleos, 32GB RAM, 12TB HD). 0.5 PB 
de novos dados por dia 
Arquiteturas, Tecnologias e Desafios para Análise de BigData – Sandro S. Andrade
O Hadoop 
● Arquitetura do HDFS: 
Arquiteturas, Tecnologias e Desafios para Análise de BigData – Sandro S. Andrade
O Hadoop 
● Arquitetura do YARN: 
Arquiteturas, Tecnologias e Desafios para Análise de BigData – Sandro S. Andrade
O Hadoop 
● Arquitetura do YARN: 
Arquiteturas, Tecnologias e Desafios para Análise de BigData – Sandro S. Andrade
O Hadoop 
● Arquitetura do YARN: 
Arquiteturas, Tecnologias e Desafios para Análise de BigData – Sandro S. Andrade
O Hadoop 
● YARN - escalonadores: 
– Fair Scheduler: 
● Desenvolvido pelo Facebook 
● Jobs são agrupados em pools 
● Garante-se a cada pool uma disponibilidade mínima de 
recursos 
● O excesso de capacidade é dividido entre os jobs 
– Capacity Scheduler: 
● Desenvolvido pelo Yahoo! 
● Jobs são submetidos a filas, que usam uma fração dos 
recursos 
● Recursos livres podem ser alocados a filas além da sua 
capacidade total 
Arquiteturas, Tecnologias e Desafios para Análise de BigData – Sandro S. Andrade
O Hadoop 
● Exemplo – contador de palavras – main 
public static void main(String[] args) throws Exception { 
Configuration conf = new Configuration(); 
String[] otherArgs = new GenericOptionsParser(conf, args).getRemainingArgs(); 
if (otherArgs.length != 2) { 
System.err.println("Usage: wordcount <in> <out>"); 
System.exit(2); 
} 
Job job = new Job(conf, "word count"); 
job.setJarByClass(WordCount.class); 
job.setMapperClass(TokenizerMapper.class); 
job.setCombinerClass(IntSumReducer.class); 
job.setReducerClass(IntSumReducer.class); 
job.setOutputKeyClass(Text.class); 
job.setOutputValueClass(IntWritable.class); 
FileInputFormat.addInputPath(job, new Path(otherArgs[0])); 
FileOutputFormat.setOutputPath(job, new Path(otherArgs[1])); 
System.exit(job.waitForCompletion(true) ? 0 : 1); 
} 
Arquiteturas, Tecnologias e Desafios para Análise de BigData – Sandro S. Andrade
O Hadoop 
● Exemplo – contador de palavras – mapper 
public static class TokenizerMapper 
extends Mapper<Object, Text, Text, IntWritable>{ 
private final static IntWritable one = new IntWritable(1); 
private Text word = new Text(); 
public void map(Object key, Text value, Context context 
) throws IOException, InterruptedException { 
StringTokenizer itr = new StringTokenizer(value.toString()); 
while (itr.hasMoreTokens()) { 
word.set(itr.nextToken()); 
context.write(word, one); 
} 
} 
} 
Arquiteturas, Tecnologias e Desafios para Análise de BigData – Sandro S. Andrade
O Hadoop 
● Exemplo – contador de palavras – reducer 
public static class IntSumReducer 
extends Reducer<Text,IntWritable,Text,IntWritable> { 
private IntWritable result = new IntWritable(); 
public void reduce(Text key, Iterable<IntWritable> values, 
Context context 
) throws IOException, InterruptedException { 
int sum = 0; 
for (IntWritable val : values) { 
sum += val.get(); 
} 
result.set(sum); 
context.write(key, result); 
} 
} 
Arquiteturas, Tecnologias e Desafios para Análise de BigData – Sandro S. Andrade
Design Patterns para MapReduce 
● Numerical Summarizations 
● Inverted Index Summarizations 
● Counting with Counters 
Arquiteturas, Tecnologias e Desafios para Análise de BigData – Sandro S. Andrade 
● Filtering 
● Top Ten 
● Structured to Hierarchical 
● Reduce Side Join 
● Replicated Join 
● … muitos outros
Hadoop – Projetos Relacionados 
● Ambari: provisionamento, gerenciamento e 
monitoramento de clusters Hadoop 
● Cassandra: banco de dados com escalabilidade 
linear e alta disponibilidade (nenhum ponto único 
de falha) 
● HBase: banco de dados não relacional 
desenvolvido sobre o HDFS 
● Hive: análise de dados através de linguagem SQL-like 
(HiveQL). Desenvolvido pelo Facebook e 
Arquiteturas, Tecnologias e Desafios para Análise de BigData – Sandro S. Andrade 
Netflix
Hadoop – Projetos Relacionados 
● Manout: biblioteca escalável para aprendizado de 
máquina 
● Pig: análise de dados com linguagens de 
alto nível 
● Spark: mapreduce de alto desempenho 
● Tez: processamento de dados com grafos 
direcionados acíclicos 
● ZooKeeper: coordenação e comunicação em grupo 
● Giraph: processamento interativo 
de grafos 
Arquiteturas, Tecnologias e Desafios para Análise de BigData – Sandro S. Andrade
Hadoop – Ecossistema 
● Commits por empresa: 
Arquiteturas, Tecnologias e Desafios para Análise de BigData – Sandro S. Andrade
Desafios Atuais 
● Garantia de QoS em clusters Hadoop 
● Controle e sintonia automática de parâmetros 
● Elasticidade automática 
● Mecanismos de alto nível (próximos ao negócio) 
para análise de dados 
Arquiteturas, Tecnologias e Desafios para Análise de BigData – Sandro S. Andrade
Conclusão 
● Escalabilidade como requisito não-funcional 
primordial 
● Foco na acomodação de falhas de hardware 
● O MapReduce é interessante, mas limita o projeto 
e implementação dos jobs 
● É necessário formação profissional na área de 
sistemas distribuídos, arquitetura de software e 
análise de desempenho 
● Análise de BigData como diferencial competitivo 
nas organizações 
Arquiteturas, Tecnologias e Desafios para Análise de BigData – Sandro S. Andrade
Obrigado ! 
Sandro S. Andrade 
Instituto Federal de Educação, Ciência e Tecnologia (IFBa) 
Grupo de Pesquisa em Sistemas Distribuídos, Otimização, 
Redes e Tempo-Real (GSORT) 
sandroandrade@ifba.edu.br 
@andradesandro 
Arquiteturas, Tecnologias e Desafios para Análise de BigData – Sandro S. Andrade

Mais conteúdo relacionado

Mais procurados

XXXI JAI - Apache Hadoop: conceitos teóricos e práticos, evolução e novas pos...
XXXI JAI - Apache Hadoop: conceitos teóricos e práticos, evolução e novas pos...XXXI JAI - Apache Hadoop: conceitos teóricos e práticos, evolução e novas pos...
XXXI JAI - Apache Hadoop: conceitos teóricos e práticos, evolução e novas pos...Ivanilton Polato
 
BIGDATA: Da teoria à Pratica
BIGDATA: Da teoria à PraticaBIGDATA: Da teoria à Pratica
BIGDATA: Da teoria à PraticaDaniel Checchia
 
Bigdata na pratica: Resolvendo problemas de performance com hadoop
Bigdata na pratica: Resolvendo problemas de performance com hadoopBigdata na pratica: Resolvendo problemas de performance com hadoop
Bigdata na pratica: Resolvendo problemas de performance com hadooptdc-globalcode
 
Explorando os principais implementadores hadoop e o papel que eles exercem no...
Explorando os principais implementadores hadoop e o papel que eles exercem no...Explorando os principais implementadores hadoop e o papel que eles exercem no...
Explorando os principais implementadores hadoop e o papel que eles exercem no...José Renato Pequeno
 
Machine learning com Apache Spark
Machine learning com Apache SparkMachine learning com Apache Spark
Machine learning com Apache SparkSandys Nunes
 
Big Data – HBase, integrando hadoop, bi e dw; Montando o seu big data Cloude...
Big Data – HBase, integrando hadoop, bi e dw; Montando o seu big data  Cloude...Big Data – HBase, integrando hadoop, bi e dw; Montando o seu big data  Cloude...
Big Data – HBase, integrando hadoop, bi e dw; Montando o seu big data Cloude...Flavio Fonte, PMP, ITIL
 
Mapreduce - Conceitos e Aplicações
Mapreduce - Conceitos e AplicaçõesMapreduce - Conceitos e Aplicações
Mapreduce - Conceitos e AplicaçõesGuilherme Araújo
 
Hadoop - primeiros passos
Hadoop - primeiros passosHadoop - primeiros passos
Hadoop - primeiros passosrhpinotti
 
Big data para programadores convencionais
Big data para programadores convencionaisBig data para programadores convencionais
Big data para programadores convencionaisRoberto Oliveira
 
Modelos de computação distribuída no Hadoop
Modelos de computação distribuída no HadoopModelos de computação distribuída no Hadoop
Modelos de computação distribuída no HadoopBig Data Week São Paulo
 
Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...
Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...
Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...Ambiente Livre
 
Greenplum: O banco de dados open source massivamente paralelo baseado em Post...
Greenplum: O banco de dados open source massivamente paralelo baseado em Post...Greenplum: O banco de dados open source massivamente paralelo baseado em Post...
Greenplum: O banco de dados open source massivamente paralelo baseado em Post...PGDay Campinas
 

Mais procurados (20)

Data Lakes com Hadoop e Spark: Agile Analytics na prática
Data Lakes com Hadoop e Spark: Agile Analytics na práticaData Lakes com Hadoop e Spark: Agile Analytics na prática
Data Lakes com Hadoop e Spark: Agile Analytics na prática
 
Seminário Hadoop
Seminário HadoopSeminário Hadoop
Seminário Hadoop
 
XXXI JAI - Apache Hadoop: conceitos teóricos e práticos, evolução e novas pos...
XXXI JAI - Apache Hadoop: conceitos teóricos e práticos, evolução e novas pos...XXXI JAI - Apache Hadoop: conceitos teóricos e práticos, evolução e novas pos...
XXXI JAI - Apache Hadoop: conceitos teóricos e práticos, evolução e novas pos...
 
Treinamento Hadoop - dia2
Treinamento Hadoop - dia2Treinamento Hadoop - dia2
Treinamento Hadoop - dia2
 
BIGDATA: Da teoria à Pratica
BIGDATA: Da teoria à PraticaBIGDATA: Da teoria à Pratica
BIGDATA: Da teoria à Pratica
 
Bigdata na pratica: Resolvendo problemas de performance com hadoop
Bigdata na pratica: Resolvendo problemas de performance com hadoopBigdata na pratica: Resolvendo problemas de performance com hadoop
Bigdata na pratica: Resolvendo problemas de performance com hadoop
 
Treinamento hadoop - dia3
Treinamento hadoop - dia3Treinamento hadoop - dia3
Treinamento hadoop - dia3
 
Explorando os principais implementadores hadoop e o papel que eles exercem no...
Explorando os principais implementadores hadoop e o papel que eles exercem no...Explorando os principais implementadores hadoop e o papel que eles exercem no...
Explorando os principais implementadores hadoop e o papel que eles exercem no...
 
Machine learning com Apache Spark
Machine learning com Apache SparkMachine learning com Apache Spark
Machine learning com Apache Spark
 
Big Data – HBase, integrando hadoop, bi e dw; Montando o seu big data Cloude...
Big Data – HBase, integrando hadoop, bi e dw; Montando o seu big data  Cloude...Big Data – HBase, integrando hadoop, bi e dw; Montando o seu big data  Cloude...
Big Data – HBase, integrando hadoop, bi e dw; Montando o seu big data Cloude...
 
Treinamento hadoop - dia4
Treinamento hadoop - dia4Treinamento hadoop - dia4
Treinamento hadoop - dia4
 
Mapreduce - Conceitos e Aplicações
Mapreduce - Conceitos e AplicaçõesMapreduce - Conceitos e Aplicações
Mapreduce - Conceitos e Aplicações
 
Hadoop - primeiros passos
Hadoop - primeiros passosHadoop - primeiros passos
Hadoop - primeiros passos
 
Big data para programadores convencionais
Big data para programadores convencionaisBig data para programadores convencionais
Big data para programadores convencionais
 
Hadoop
HadoopHadoop
Hadoop
 
Modelos de computação distribuída no Hadoop
Modelos de computação distribuída no HadoopModelos de computação distribuída no Hadoop
Modelos de computação distribuída no Hadoop
 
Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...
Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...
Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...
 
Treinamento hadoop - dia1
Treinamento hadoop - dia1Treinamento hadoop - dia1
Treinamento hadoop - dia1
 
Big data e ecossistema hadoop
Big data e ecossistema hadoopBig data e ecossistema hadoop
Big data e ecossistema hadoop
 
Greenplum: O banco de dados open source massivamente paralelo baseado em Post...
Greenplum: O banco de dados open source massivamente paralelo baseado em Post...Greenplum: O banco de dados open source massivamente paralelo baseado em Post...
Greenplum: O banco de dados open source massivamente paralelo baseado em Post...
 

Destaque

Práticas de Agilidade e QA na Comunidade KDE
Práticas de Agilidade e QA na Comunidade KDEPráticas de Agilidade e QA na Comunidade KDE
Práticas de Agilidade e QA na Comunidade KDESandro Andrade
 
Do Search-Based Approaches Improve the Design of Self-Adaptive Systems ? A Co...
Do Search-Based Approaches Improve the Design of Self-Adaptive Systems ? A Co...Do Search-Based Approaches Improve the Design of Self-Adaptive Systems ? A Co...
Do Search-Based Approaches Improve the Design of Self-Adaptive Systems ? A Co...Sandro Andrade
 
SASO2013 - PechaKucha version
SASO2013 - PechaKucha versionSASO2013 - PechaKucha version
SASO2013 - PechaKucha versionSandro Andrade
 
Palestra do FISL15: QtModeling: Metamodelagem e Model-Driven Software Enginee...
Palestra do FISL15: QtModeling: Metamodelagem e Model-Driven Software Enginee...Palestra do FISL15: QtModeling: Metamodelagem e Model-Driven Software Enginee...
Palestra do FISL15: QtModeling: Metamodelagem e Model-Driven Software Enginee...Sandro Andrade
 
Apresentação no 4o Workshop de Sistemas Distribuídos Autonômicos - WoSiDA 201...
Apresentação no 4o Workshop de Sistemas Distribuídos Autonômicos - WoSiDA 201...Apresentação no 4o Workshop de Sistemas Distribuídos Autonômicos - WoSiDA 201...
Apresentação no 4o Workshop de Sistemas Distribuídos Autonômicos - WoSiDA 201...Sandro Andrade
 
Minuet - the KDE approach to music education
Minuet - the KDE approach to music educationMinuet - the KDE approach to music education
Minuet - the KDE approach to music educationSandro Andrade
 
QtModeling - bringing metamodeling features into the KDE world
QtModeling - bringing metamodeling features into the KDE worldQtModeling - bringing metamodeling features into the KDE world
QtModeling - bringing metamodeling features into the KDE worldSandro Andrade
 
Desenvolvendo Widgets QML para o KDE Plasma
Desenvolvendo Widgets QML para o KDE PlasmaDesenvolvendo Widgets QML para o KDE Plasma
Desenvolvendo Widgets QML para o KDE PlasmaSandro Andrade
 
Ecossistema Hadoop no Magazine Luiza
Ecossistema Hadoop no Magazine LuizaEcossistema Hadoop no Magazine Luiza
Ecossistema Hadoop no Magazine LuizaNelson Forte
 
KDE de 2008 a 2018: Retrospectivas e Perspectivas Técnicas e Sociais
KDE de 2008 a 2018: Retrospectivas e Perspectivas Técnicas e SociaisKDE de 2008 a 2018: Retrospectivas e Perspectivas Técnicas e Sociais
KDE de 2008 a 2018: Retrospectivas e Perspectivas Técnicas e SociaisSandro Andrade
 
Software Livre: Estruturalismo, Impactos no Processo de Ensino-Aprendizagem e...
Software Livre: Estruturalismo, Impactos no Processo de Ensino-Aprendizagem e...Software Livre: Estruturalismo, Impactos no Processo de Ensino-Aprendizagem e...
Software Livre: Estruturalismo, Impactos no Processo de Ensino-Aprendizagem e...Sandro Andrade
 
Architectural Design Spaces for Feedback Control in Self-Adaptive Systems Con...
Architectural Design Spaces for Feedback Control in Self-Adaptive Systems Con...Architectural Design Spaces for Feedback Control in Self-Adaptive Systems Con...
Architectural Design Spaces for Feedback Control in Self-Adaptive Systems Con...Sandro Andrade
 
Software Livre e Novas Formas de Trabalho - InfoUNEB 2016
Software Livre e Novas Formas de Trabalho - InfoUNEB 2016Software Livre e Novas Formas de Trabalho - InfoUNEB 2016
Software Livre e Novas Formas de Trabalho - InfoUNEB 2016Sandro Andrade
 
TDC2016POA | Trilha Empreendedorismo - Empreendendo da ideia ao desinvestimento
TDC2016POA | Trilha Empreendedorismo - Empreendendo da ideia ao desinvestimentoTDC2016POA | Trilha Empreendedorismo - Empreendendo da ideia ao desinvestimento
TDC2016POA | Trilha Empreendedorismo - Empreendendo da ideia ao desinvestimentotdc-globalcode
 
TDC2016POA | Trilha Education - Jogos na Educação, onde estamos errando?
TDC2016POA | Trilha Education -  Jogos na Educação, onde estamos errando?TDC2016POA | Trilha Education -  Jogos na Educação, onde estamos errando?
TDC2016POA | Trilha Education - Jogos na Educação, onde estamos errando?tdc-globalcode
 
TDC2016POA | Trilha Empreendedorismo - Manual Prático do Empreendedorismo
TDC2016POA | Trilha Empreendedorismo - Manual Prático do EmpreendedorismoTDC2016POA | Trilha Empreendedorismo - Manual Prático do Empreendedorismo
TDC2016POA | Trilha Empreendedorismo - Manual Prático do Empreendedorismotdc-globalcode
 
TDC2016POA | Trilha Education - Aprendizagem baseada em projetos: Uma experi...
TDC2016POA | Trilha Education -  Aprendizagem baseada em projetos: Uma experi...TDC2016POA | Trilha Education -  Aprendizagem baseada em projetos: Uma experi...
TDC2016POA | Trilha Education - Aprendizagem baseada em projetos: Uma experi...tdc-globalcode
 
TDC2016POA | Trilha Education - Robótica Livre nas escolas públicas do RS: a ...
TDC2016POA | Trilha Education - Robótica Livre nas escolas públicas do RS: a ...TDC2016POA | Trilha Education - Robótica Livre nas escolas públicas do RS: a ...
TDC2016POA | Trilha Education - Robótica Livre nas escolas públicas do RS: a ...tdc-globalcode
 
TDC2016POA | Trilha Education - Design Thinking na Educação: Como aplicar no...
TDC2016POA | Trilha Education -  Design Thinking na Educação: Como aplicar no...TDC2016POA | Trilha Education -  Design Thinking na Educação: Como aplicar no...
TDC2016POA | Trilha Education - Design Thinking na Educação: Como aplicar no...tdc-globalcode
 

Destaque (20)

Práticas de Agilidade e QA na Comunidade KDE
Práticas de Agilidade e QA na Comunidade KDEPráticas de Agilidade e QA na Comunidade KDE
Práticas de Agilidade e QA na Comunidade KDE
 
Do Search-Based Approaches Improve the Design of Self-Adaptive Systems ? A Co...
Do Search-Based Approaches Improve the Design of Self-Adaptive Systems ? A Co...Do Search-Based Approaches Improve the Design of Self-Adaptive Systems ? A Co...
Do Search-Based Approaches Improve the Design of Self-Adaptive Systems ? A Co...
 
O KDE no mundo
O KDE no mundoO KDE no mundo
O KDE no mundo
 
SASO2013 - PechaKucha version
SASO2013 - PechaKucha versionSASO2013 - PechaKucha version
SASO2013 - PechaKucha version
 
Palestra do FISL15: QtModeling: Metamodelagem e Model-Driven Software Enginee...
Palestra do FISL15: QtModeling: Metamodelagem e Model-Driven Software Enginee...Palestra do FISL15: QtModeling: Metamodelagem e Model-Driven Software Enginee...
Palestra do FISL15: QtModeling: Metamodelagem e Model-Driven Software Enginee...
 
Apresentação no 4o Workshop de Sistemas Distribuídos Autonômicos - WoSiDA 201...
Apresentação no 4o Workshop de Sistemas Distribuídos Autonômicos - WoSiDA 201...Apresentação no 4o Workshop de Sistemas Distribuídos Autonômicos - WoSiDA 201...
Apresentação no 4o Workshop de Sistemas Distribuídos Autonômicos - WoSiDA 201...
 
Minuet - the KDE approach to music education
Minuet - the KDE approach to music educationMinuet - the KDE approach to music education
Minuet - the KDE approach to music education
 
QtModeling - bringing metamodeling features into the KDE world
QtModeling - bringing metamodeling features into the KDE worldQtModeling - bringing metamodeling features into the KDE world
QtModeling - bringing metamodeling features into the KDE world
 
Desenvolvendo Widgets QML para o KDE Plasma
Desenvolvendo Widgets QML para o KDE PlasmaDesenvolvendo Widgets QML para o KDE Plasma
Desenvolvendo Widgets QML para o KDE Plasma
 
Ecossistema Hadoop no Magazine Luiza
Ecossistema Hadoop no Magazine LuizaEcossistema Hadoop no Magazine Luiza
Ecossistema Hadoop no Magazine Luiza
 
KDE de 2008 a 2018: Retrospectivas e Perspectivas Técnicas e Sociais
KDE de 2008 a 2018: Retrospectivas e Perspectivas Técnicas e SociaisKDE de 2008 a 2018: Retrospectivas e Perspectivas Técnicas e Sociais
KDE de 2008 a 2018: Retrospectivas e Perspectivas Técnicas e Sociais
 
Software Livre: Estruturalismo, Impactos no Processo de Ensino-Aprendizagem e...
Software Livre: Estruturalismo, Impactos no Processo de Ensino-Aprendizagem e...Software Livre: Estruturalismo, Impactos no Processo de Ensino-Aprendizagem e...
Software Livre: Estruturalismo, Impactos no Processo de Ensino-Aprendizagem e...
 
Architectural Design Spaces for Feedback Control in Self-Adaptive Systems Con...
Architectural Design Spaces for Feedback Control in Self-Adaptive Systems Con...Architectural Design Spaces for Feedback Control in Self-Adaptive Systems Con...
Architectural Design Spaces for Feedback Control in Self-Adaptive Systems Con...
 
Software Livre e Novas Formas de Trabalho - InfoUNEB 2016
Software Livre e Novas Formas de Trabalho - InfoUNEB 2016Software Livre e Novas Formas de Trabalho - InfoUNEB 2016
Software Livre e Novas Formas de Trabalho - InfoUNEB 2016
 
TDC2016POA | Trilha Empreendedorismo - Empreendendo da ideia ao desinvestimento
TDC2016POA | Trilha Empreendedorismo - Empreendendo da ideia ao desinvestimentoTDC2016POA | Trilha Empreendedorismo - Empreendendo da ideia ao desinvestimento
TDC2016POA | Trilha Empreendedorismo - Empreendendo da ideia ao desinvestimento
 
TDC2016POA | Trilha Education - Jogos na Educação, onde estamos errando?
TDC2016POA | Trilha Education -  Jogos na Educação, onde estamos errando?TDC2016POA | Trilha Education -  Jogos na Educação, onde estamos errando?
TDC2016POA | Trilha Education - Jogos na Educação, onde estamos errando?
 
TDC2016POA | Trilha Empreendedorismo - Manual Prático do Empreendedorismo
TDC2016POA | Trilha Empreendedorismo - Manual Prático do EmpreendedorismoTDC2016POA | Trilha Empreendedorismo - Manual Prático do Empreendedorismo
TDC2016POA | Trilha Empreendedorismo - Manual Prático do Empreendedorismo
 
TDC2016POA | Trilha Education - Aprendizagem baseada em projetos: Uma experi...
TDC2016POA | Trilha Education -  Aprendizagem baseada em projetos: Uma experi...TDC2016POA | Trilha Education -  Aprendizagem baseada em projetos: Uma experi...
TDC2016POA | Trilha Education - Aprendizagem baseada em projetos: Uma experi...
 
TDC2016POA | Trilha Education - Robótica Livre nas escolas públicas do RS: a ...
TDC2016POA | Trilha Education - Robótica Livre nas escolas públicas do RS: a ...TDC2016POA | Trilha Education - Robótica Livre nas escolas públicas do RS: a ...
TDC2016POA | Trilha Education - Robótica Livre nas escolas públicas do RS: a ...
 
TDC2016POA | Trilha Education - Design Thinking na Educação: Como aplicar no...
TDC2016POA | Trilha Education -  Design Thinking na Educação: Como aplicar no...TDC2016POA | Trilha Education -  Design Thinking na Educação: Como aplicar no...
TDC2016POA | Trilha Education - Design Thinking na Educação: Como aplicar no...
 

Semelhante a Arquiteturas, Tecnologias e Desafios para Análise de BigData

Map reduce novas abordagens para o processo de datamining em grandes volumn...
Map reduce   novas abordagens para o processo de datamining em grandes volumn...Map reduce   novas abordagens para o processo de datamining em grandes volumn...
Map reduce novas abordagens para o processo de datamining em grandes volumn...João Gabriel Lima
 
Indústria 4.0: como a IoT e Big Data mudarão a forma como lidamos com a tecno...
Indústria 4.0: como a IoT e Big Data mudarão a forma como lidamos com a tecno...Indústria 4.0: como a IoT e Big Data mudarão a forma como lidamos com a tecno...
Indústria 4.0: como a IoT e Big Data mudarão a forma como lidamos com a tecno...Vinícius Barros
 
[DTC21] Lucas Gomes - Do 0 ao 100 no Big Data
[DTC21] Lucas Gomes - Do 0 ao 100 no Big Data[DTC21] Lucas Gomes - Do 0 ao 100 no Big Data
[DTC21] Lucas Gomes - Do 0 ao 100 no Big DataDeep Tech Brasil
 
Big data e mineração de dados
Big data e mineração de dadosBig data e mineração de dados
Big data e mineração de dadosElton Meira
 
Sparsi big data
Sparsi big dataSparsi big data
Sparsi big datasparsi
 
Palestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
Palestra big data_e_mineracao_dedados_5agosto13-versaoslidesharePalestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
Palestra big data_e_mineracao_dedados_5agosto13-versaoslidesharepccdias
 
Orquestrando HBase, Cassandra e MongoDB com o Pentaho Big Data Analytics.
Orquestrando HBase, Cassandra e MongoDB com o Pentaho Big Data Analytics.  Orquestrando HBase, Cassandra e MongoDB com o Pentaho Big Data Analytics.
Orquestrando HBase, Cassandra e MongoDB com o Pentaho Big Data Analytics. Ambiente Livre
 
Ferramentas e Aplicações em Big Data
Ferramentas e Aplicações em Big DataFerramentas e Aplicações em Big Data
Ferramentas e Aplicações em Big DataAlvaro Viebrantz
 
White Paper - Spider Project
White Paper - Spider ProjectWhite Paper - Spider Project
White Paper - Spider ProjectPeter Mello
 
Cientista de Dados – Dominando o Big Data com Software Livre
Cientista de Dados – Dominando o Big Data com Software Livre Cientista de Dados – Dominando o Big Data com Software Livre
Cientista de Dados – Dominando o Big Data com Software Livre Ambiente Livre
 
Palestra: Cientista de Dados – Dominando o Big Data com Software Livre
Palestra: Cientista de Dados – Dominando o Big Data com Software LivrePalestra: Cientista de Dados – Dominando o Big Data com Software Livre
Palestra: Cientista de Dados – Dominando o Big Data com Software LivreAmbiente Livre
 
Desenvolvendo Aplicações baseadas em Big Data com PySpark
Desenvolvendo Aplicações baseadas em Big Data com PySparkDesenvolvendo Aplicações baseadas em Big Data com PySpark
Desenvolvendo Aplicações baseadas em Big Data com PySparkVinícius Barros
 
Filesystem distribuído com hadoop!!!
Filesystem distribuído com hadoop!!! Filesystem distribuído com hadoop!!!
Filesystem distribuído com hadoop!!! Alessandro Binhara
 
PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
PostgreSQL em projetos de Business Analytics e Big Data Analytics com PentahoPostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
PostgreSQL em projetos de Business Analytics e Big Data Analytics com PentahoAmbiente Livre
 
TDC Conn 2022_ O Esqueleto de um Projeto de Dados (2).pdf
TDC Conn 2022_ O Esqueleto de um Projeto de Dados (2).pdfTDC Conn 2022_ O Esqueleto de um Projeto de Dados (2).pdf
TDC Conn 2022_ O Esqueleto de um Projeto de Dados (2).pdfFernandoIto8
 

Semelhante a Arquiteturas, Tecnologias e Desafios para Análise de BigData (20)

BigData MapReduce
BigData MapReduceBigData MapReduce
BigData MapReduce
 
Map reduce novas abordagens para o processo de datamining em grandes volumn...
Map reduce   novas abordagens para o processo de datamining em grandes volumn...Map reduce   novas abordagens para o processo de datamining em grandes volumn...
Map reduce novas abordagens para o processo de datamining em grandes volumn...
 
Indústria 4.0: como a IoT e Big Data mudarão a forma como lidamos com a tecno...
Indústria 4.0: como a IoT e Big Data mudarão a forma como lidamos com a tecno...Indústria 4.0: como a IoT e Big Data mudarão a forma como lidamos com a tecno...
Indústria 4.0: como a IoT e Big Data mudarão a forma como lidamos com a tecno...
 
MapReduce
MapReduceMapReduce
MapReduce
 
[DTC21] Lucas Gomes - Do 0 ao 100 no Big Data
[DTC21] Lucas Gomes - Do 0 ao 100 no Big Data[DTC21] Lucas Gomes - Do 0 ao 100 no Big Data
[DTC21] Lucas Gomes - Do 0 ao 100 no Big Data
 
Big data e mineração de dados
Big data e mineração de dadosBig data e mineração de dados
Big data e mineração de dados
 
Sparsi big data
Sparsi big dataSparsi big data
Sparsi big data
 
Big Data na Nuvem
Big Data na NuvemBig Data na Nuvem
Big Data na Nuvem
 
Palestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
Palestra big data_e_mineracao_dedados_5agosto13-versaoslidesharePalestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
Palestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
 
Orquestrando HBase, Cassandra e MongoDB com o Pentaho Big Data Analytics.
Orquestrando HBase, Cassandra e MongoDB com o Pentaho Big Data Analytics.  Orquestrando HBase, Cassandra e MongoDB com o Pentaho Big Data Analytics.
Orquestrando HBase, Cassandra e MongoDB com o Pentaho Big Data Analytics.
 
Bigadata casese opotunidades
Bigadata casese opotunidadesBigadata casese opotunidades
Bigadata casese opotunidades
 
Ferramentas e Aplicações em Big Data
Ferramentas e Aplicações em Big DataFerramentas e Aplicações em Big Data
Ferramentas e Aplicações em Big Data
 
White Paper - Spider Project
White Paper - Spider ProjectWhite Paper - Spider Project
White Paper - Spider Project
 
BANCO DE DADOS.pptx
BANCO DE DADOS.pptxBANCO DE DADOS.pptx
BANCO DE DADOS.pptx
 
Cientista de Dados – Dominando o Big Data com Software Livre
Cientista de Dados – Dominando o Big Data com Software Livre Cientista de Dados – Dominando o Big Data com Software Livre
Cientista de Dados – Dominando o Big Data com Software Livre
 
Palestra: Cientista de Dados – Dominando o Big Data com Software Livre
Palestra: Cientista de Dados – Dominando o Big Data com Software LivrePalestra: Cientista de Dados – Dominando o Big Data com Software Livre
Palestra: Cientista de Dados – Dominando o Big Data com Software Livre
 
Desenvolvendo Aplicações baseadas em Big Data com PySpark
Desenvolvendo Aplicações baseadas em Big Data com PySparkDesenvolvendo Aplicações baseadas em Big Data com PySpark
Desenvolvendo Aplicações baseadas em Big Data com PySpark
 
Filesystem distribuído com hadoop!!!
Filesystem distribuído com hadoop!!! Filesystem distribuído com hadoop!!!
Filesystem distribuído com hadoop!!!
 
PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
PostgreSQL em projetos de Business Analytics e Big Data Analytics com PentahoPostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
 
TDC Conn 2022_ O Esqueleto de um Projeto de Dados (2).pdf
TDC Conn 2022_ O Esqueleto de um Projeto de Dados (2).pdfTDC Conn 2022_ O Esqueleto de um Projeto de Dados (2).pdf
TDC Conn 2022_ O Esqueleto de um Projeto de Dados (2).pdf
 

Arquiteturas, Tecnologias e Desafios para Análise de BigData

  • 1. Arquiteturas, Tecnologias e Desafios para Análise de BigData Sandro S. Andrade Instituto Federal de Educação, Ciência e Tecnologia (IFBa) Grupo de Pesquisa em Sistemas Distribuídos, Otimização, Redes e Tempo-Real (GSORT) sandroandrade@ifba.edu.br @andradesandro Arquiteturas, Tecnologias e Desafios para Análise de BigData – Sandro S. Andrade
  • 2. Arquiteturas, Tecnologias e Desafios para Análise de BigData – Sandro S. Andrade Agenda ● Motivação ● O MapReduce ● O Hadoop ● Design Patterns para MapReduce ● Hadoop – Projetos Relacionados ● Desafios Atuais ● Conclusão
  • 3. Motivação Arquiteturas, Tecnologias e Desafios para Análise de BigData – Sandro S. Andrade
  • 4. Motivação Arquiteturas, Tecnologias e Desafios para Análise de BigData – Sandro S. Andrade
  • 5. Motivação Arquiteturas, Tecnologias e Desafios para Análise de BigData – Sandro S. Andrade
  • 6. Motivação Arquiteturas, Tecnologias e Desafios para Análise de BigData – Sandro S. Andrade
  • 7. Motivação Arquiteturas, Tecnologias e Desafios para Análise de BigData – Sandro S. Andrade ● BigData: – Termo utilizado para descrever qualquer conjunto de dados grande e complexo o suficiente para inviabilizar o uso das tecnologias tradicionais de armazenamento e processamento ● Características: – Volume – Variedade – Velocidade – Variabilidade – Complexidade
  • 8. Motivação ● BigData hoje: – eBay.com: cluster Hadoop de 40PB para busca, recomendações e propaganda – Amazon.com: armazenamentos de 7.8, 18.5 e 24.7TB – Wallmart: 1 milhão de transações de clientes por hora, armazenadas em uma base de 2.5PB – Facebook: 50 bilhões de fotos, 600TB de novos dados por dia, 684.478 postagens por minuto – Youtube: 48h de novos vídeos por minuto – Instagram: 3600 novas fotos por minuto Arquiteturas, Tecnologias e Desafios para Análise de BigData – Sandro S. Andrade
  • 9. Motivação ● BigData hoje: – Colisor LHC: 15 PB por ano – Radiologia: 69 PB por ano – Square Kilometre Array (SKA): 0.5 ZB por ano em 2022 – Observação da terra: 4PB por ano – Análise de dados sísmicos: alguns TB por dia Arquiteturas, Tecnologias e Desafios para Análise de BigData – Sandro S. Andrade
  • 10. Motivação ● Porque analisar todos estes dados ? – Marketing mais efetivo – Aumento nos lucros – Redução de custos – Melhorias nas tamadas de decisão – Sistemas de recomendação – Análise de risco – Smart Cities Arquiteturas, Tecnologias e Desafios para Análise de BigData – Sandro S. Andrade
  • 11. O MapReduce ● Estilo arquitetural e paradigma de computação para processamento distribuído de dados que residem em uma grande quantidade de computadores ● Criado pelo Google e popularizado em 2004, no artigo “MapReduce: Simplified Data Processing on Large Clusters” ● Logo depois o projeto Hadoop foi criado por Doug Cutting, financiado pelo Yahoo! e passou a integrar a Apache Foundation Arquiteturas, Tecnologias e Desafios para Análise de BigData – Sandro S. Andrade
  • 12. O MapReduce ● Visão geral do MapReduce: – Dados são armazenados em um sistema de arquivos distribuído, implementado em milhares de máquinas em um cluster – Jobs são implementados como tarefas de map e tarefas de reduce que executam em um cluster – Cada tarefa processa um pequeno subconjunto dos dados, de modo que a carga é dividida entre as máquinas do cluster Arquiteturas, Tecnologias e Desafios para Análise de BigData – Sandro S. Andrade
  • 13. O MapReduce ● Visão geral do MapReduce: – A tarefa de map geralmente faz carga, parse, transformação e filtragem de dados – A tarefa de reduce é responsável por tratar um subconjunto dos dados de saída das tarefas de map – Dados intermediários são copiados das tarefas map para as tarefas reduce, de modo a agregar e agrupar os dados de saída – Um amplo conjunto de problemas pode ser resolvido com este paradigma, desde agregações numéricas simples até joins e produtos cartesianos Arquiteturas, Tecnologias e Desafios para Análise de BigData – Sandro S. Andrade
  • 14. O MapReduce ● Visão geral do MapReduce: Arquiteturas, Tecnologias e Desafios para Análise de BigData – Sandro S. Andrade
  • 15. O MapReduce ● Visão geral do MapReduce – exemplo de job: Arquiteturas, Tecnologias e Desafios para Análise de BigData – Sandro S. Andrade
  • 16. O Hadoop ● Framework open source para armazenamento e processamento de BigData em larga-escala ● Serviços: – Sistema de arquivos distribuído (HDFS) – Framework para execução de aplicações paralelas (YARN) – MapReduce como um dos modelos de computação distribuída suportados no YARN ● Mantido pela Apache Foundation – http://hadoop.apache.org/ Arquiteturas, Tecnologias e Desafios para Análise de BigData – Sandro S. Andrade
  • 17. O Hadoop ● Excelente escalabilidade e tolerância a falhas ● Jobs podem ser programados em Java ou em outras linguagens (via Hadoop Streaming) ● Boa escalabilidade horizontal (rebalanceamento) ● Cerca de 190 parâmetros de configuração ● Usos atuais: – Yahoo!: 42.000 máquinas rodando Hadoop – Facebook: 100PB de armazenamento no HDFS, 2.000 máquinas (8/16 núcleos, 32GB RAM, 12TB HD). 0.5 PB de novos dados por dia Arquiteturas, Tecnologias e Desafios para Análise de BigData – Sandro S. Andrade
  • 18. O Hadoop ● Arquitetura do HDFS: Arquiteturas, Tecnologias e Desafios para Análise de BigData – Sandro S. Andrade
  • 19. O Hadoop ● Arquitetura do YARN: Arquiteturas, Tecnologias e Desafios para Análise de BigData – Sandro S. Andrade
  • 20. O Hadoop ● Arquitetura do YARN: Arquiteturas, Tecnologias e Desafios para Análise de BigData – Sandro S. Andrade
  • 21. O Hadoop ● Arquitetura do YARN: Arquiteturas, Tecnologias e Desafios para Análise de BigData – Sandro S. Andrade
  • 22. O Hadoop ● YARN - escalonadores: – Fair Scheduler: ● Desenvolvido pelo Facebook ● Jobs são agrupados em pools ● Garante-se a cada pool uma disponibilidade mínima de recursos ● O excesso de capacidade é dividido entre os jobs – Capacity Scheduler: ● Desenvolvido pelo Yahoo! ● Jobs são submetidos a filas, que usam uma fração dos recursos ● Recursos livres podem ser alocados a filas além da sua capacidade total Arquiteturas, Tecnologias e Desafios para Análise de BigData – Sandro S. Andrade
  • 23. O Hadoop ● Exemplo – contador de palavras – main public static void main(String[] args) throws Exception { Configuration conf = new Configuration(); String[] otherArgs = new GenericOptionsParser(conf, args).getRemainingArgs(); if (otherArgs.length != 2) { System.err.println("Usage: wordcount <in> <out>"); System.exit(2); } Job job = new Job(conf, "word count"); job.setJarByClass(WordCount.class); job.setMapperClass(TokenizerMapper.class); job.setCombinerClass(IntSumReducer.class); job.setReducerClass(IntSumReducer.class); job.setOutputKeyClass(Text.class); job.setOutputValueClass(IntWritable.class); FileInputFormat.addInputPath(job, new Path(otherArgs[0])); FileOutputFormat.setOutputPath(job, new Path(otherArgs[1])); System.exit(job.waitForCompletion(true) ? 0 : 1); } Arquiteturas, Tecnologias e Desafios para Análise de BigData – Sandro S. Andrade
  • 24. O Hadoop ● Exemplo – contador de palavras – mapper public static class TokenizerMapper extends Mapper<Object, Text, Text, IntWritable>{ private final static IntWritable one = new IntWritable(1); private Text word = new Text(); public void map(Object key, Text value, Context context ) throws IOException, InterruptedException { StringTokenizer itr = new StringTokenizer(value.toString()); while (itr.hasMoreTokens()) { word.set(itr.nextToken()); context.write(word, one); } } } Arquiteturas, Tecnologias e Desafios para Análise de BigData – Sandro S. Andrade
  • 25. O Hadoop ● Exemplo – contador de palavras – reducer public static class IntSumReducer extends Reducer<Text,IntWritable,Text,IntWritable> { private IntWritable result = new IntWritable(); public void reduce(Text key, Iterable<IntWritable> values, Context context ) throws IOException, InterruptedException { int sum = 0; for (IntWritable val : values) { sum += val.get(); } result.set(sum); context.write(key, result); } } Arquiteturas, Tecnologias e Desafios para Análise de BigData – Sandro S. Andrade
  • 26. Design Patterns para MapReduce ● Numerical Summarizations ● Inverted Index Summarizations ● Counting with Counters Arquiteturas, Tecnologias e Desafios para Análise de BigData – Sandro S. Andrade ● Filtering ● Top Ten ● Structured to Hierarchical ● Reduce Side Join ● Replicated Join ● … muitos outros
  • 27. Hadoop – Projetos Relacionados ● Ambari: provisionamento, gerenciamento e monitoramento de clusters Hadoop ● Cassandra: banco de dados com escalabilidade linear e alta disponibilidade (nenhum ponto único de falha) ● HBase: banco de dados não relacional desenvolvido sobre o HDFS ● Hive: análise de dados através de linguagem SQL-like (HiveQL). Desenvolvido pelo Facebook e Arquiteturas, Tecnologias e Desafios para Análise de BigData – Sandro S. Andrade Netflix
  • 28. Hadoop – Projetos Relacionados ● Manout: biblioteca escalável para aprendizado de máquina ● Pig: análise de dados com linguagens de alto nível ● Spark: mapreduce de alto desempenho ● Tez: processamento de dados com grafos direcionados acíclicos ● ZooKeeper: coordenação e comunicação em grupo ● Giraph: processamento interativo de grafos Arquiteturas, Tecnologias e Desafios para Análise de BigData – Sandro S. Andrade
  • 29. Hadoop – Ecossistema ● Commits por empresa: Arquiteturas, Tecnologias e Desafios para Análise de BigData – Sandro S. Andrade
  • 30. Desafios Atuais ● Garantia de QoS em clusters Hadoop ● Controle e sintonia automática de parâmetros ● Elasticidade automática ● Mecanismos de alto nível (próximos ao negócio) para análise de dados Arquiteturas, Tecnologias e Desafios para Análise de BigData – Sandro S. Andrade
  • 31. Conclusão ● Escalabilidade como requisito não-funcional primordial ● Foco na acomodação de falhas de hardware ● O MapReduce é interessante, mas limita o projeto e implementação dos jobs ● É necessário formação profissional na área de sistemas distribuídos, arquitetura de software e análise de desempenho ● Análise de BigData como diferencial competitivo nas organizações Arquiteturas, Tecnologias e Desafios para Análise de BigData – Sandro S. Andrade
  • 32. Obrigado ! Sandro S. Andrade Instituto Federal de Educação, Ciência e Tecnologia (IFBa) Grupo de Pesquisa em Sistemas Distribuídos, Otimização, Redes e Tempo-Real (GSORT) sandroandrade@ifba.edu.br @andradesandro Arquiteturas, Tecnologias e Desafios para Análise de BigData – Sandro S. Andrade