SlideShare uma empresa Scribd logo
1 de 21
Baixar para ler offline
Análise e Caracterização das Novas
Ferramentas para Computação
Distribuída na Nuvem
Otávio M. de Carvalho, Eduardo Roloff,
Marco A. Z. Alves, Philippe O. A. Navaux
Universidade Federal do Rio Grande do Sul
Grupo de Processamento Paralelo e Distribuído
{omcarvalho,eroloff,mazalves,navaux}@inf.ufrgs.br
Motivação
●

●

●

Grande quantidades de dados estão sendo
gerados. Atualmente, já produzimos 2.8 trilhões
de GB. [1]
A produção de dados está crescendo 60% a
cada ano.
Grandes volumes de dados também estão sendo
gerados. A cada 60 segundos, 600 novas
postagens em blogs são feitas, e 34.000
tweets são enviados. [2]
[1] IBM CMO Study 2011
[2] IDC Key Forecast Assumptions for the Worldwide Big Data Technology and Services Market, 2012-2015

2
Objetivos
●

●

●

Buscar as principais iniciativas desenvolvidas
para a evolução do modelo MapReduce
Caracterizar as diferentes iniciativas em
sub-grupos, para melhor compreender as
suas principais distinções
Compreender quais modificações vem sendo
mais bem-sucedidas, ajudando a determinar
quais ferramentas possuem o maior potencial
para estudos mais aprofundados
3
Abordagens para a Computação
Distribuída na Nuvem

4
Abordagens Iniciais

●

Inicialmente, as abordagens eram próximas às dos
bancos de dados clássicos. Sendo caracterizadas
principalmente pela introdução de grandes volumes
dados, nos sistemas de processamento, aguardando
o término do seu processamento após um
determinado período de tempo.
5
Abordagens Atuais
●

Atualmente,
estão
crescendo
as
abordagens que visam
processar dados em
fluxos
contínuos,
aplicando
transformações sobre
o conjunto de dados,
visando
obter
resultados da maneira
mais rápida possível.
6
Classificação das Abordagens

7
Processamento Batch

8
Processamento Interativo

9
Processamento em Tempo Real

10
Caracterização das Novas
Ferramentas para Computação
Distribuída na Nuvem

11
Nome

Ano

Teradata Aster

2013

Pivotal HD

Descrição

Batch

Interativo

Tempo Real

Banco de dados MPP





2013

Conjunto de ferramentas de processamento distribuído





Google Photon

2013

Sistema para o processamento distribuído de fluxos de dados

AMPLab BDAS

2012

Conjunto de ferramentas de processamento distribuído em memória

Google Spanner

2012

Banco de dados distribuído com transações externamente consistentes

Actian ParAccel

2012

Banco de dados MPP

Cloudera Impala

2012

Sistema para o processamento de consultas interativas

StreamBase CEP

2012

Ferramenta comercial de processamento complexo de eventos

Apache Giraph

2012

Ferramenta para o processamento distribuído de grafos

Apache Drill

2012

Ferramenta para o processamento de consultas interativas

Apache Flume

2012

Ferramenta para o processamento de fluxos contínuos de dados

Apache YARN

2011

Evolução do Apache Hadoop

SAP HANA

2011

Banco de dados em memória



Google Megastore

2011

Banco de dados distribuído que precedeu o Google Spanner



Apache Storm

2011

Ferramenta para o processamento de eventos complexos



Apache Kafka

2011

Sistema para o processamento de fluxos contínuos de dados



MapR M5

2011

Conjunto de ferramentas de processamento distribuído







Hortonworks HDP

2011

Conjunto de ferramentas de processamento distribuído







Google Pregel

2010

Sistema distribuído para o processamento de grafos



Google Percolator

2010

Sistema distribuído para processamento incremental



Google Dremel

2010

Ferramenta para a análise interativa de dados

AMPLab Spark

2010

Sistema de processamento de dados em memória

VoltDB

2010

Sistema de banco de dados em memória

Apache S4

2010

Ferramenta para o processamento de fluxos contínuos de dados

HP Vertica

2010

Banco de dados MPP

Apache Hive

2009

Ferramenta para o processamento de consultas interativas

Cloudera CDH

2009

Conjunto de ferramentas de processamento distribuído

Apache Cassandra

2009

Sistema de armazenamento de dados distribuído

Google BigTable

2006

Sistema de armazenamento de dados distribuído

Apache Hadoop

2005

Sistema de processamento de dados distribuído



Google MapReduce

2004

Sistema de processamento distribuído que deu origem ao Hadoop
















































12
Ferramentas de Processamento
Batch
●
●

●

Bancos de Dados MPP
Versões derivadas do Apache Hadoop
inspiradas pelo Google MapReduce
Orientadas ao processamento de grandes
volumes de dados

13
Nome
Teradata Aster
Pivotal HD
AMPLab BDAS
Actian ParAccel
Apache Giraph
Apache YARN
MapR M5
Hortonworks HDP
Google Pregel
Google Percolator
AMPLab Spark
HP Vertica
Cloudera CDH
Apache Hadoop
Google MapReduce

Ano
2013
2013
2012
2012
2012
2011
2011
2011
2010
2010
2010
2010
2009
2005
2004

Batch
















Interativo





Tempo Real

















14
Ferramentas de Processamento
Interativo
●

●

●

Caracterizadas principalmente por Sistemas de
Banco de Dados distribuídos, que utilizam
abstrações do tipo NoSQL ou NewSQL
São voltados para o armazenamento e para o
processamento de consultas interativas sobre
volumes intermediários de dados
Problema: Intersecção com a criação de grandes
conjuntos de ferramentas, que visam oferecer
abordagens para o processamento de diversos
tipos de problemas e tamanhos de consultas
(Apache YARN e AMPLab BDAS, por exemplo)
15
Nome
Teradata Aster
Pivotal HD
AMPLab BDAS
Google Spanner
Actian ParAccel
Cloudera Impala
Apache Drill
Apache YARN
SAP HANA
Google Megastore
MapR M5
Hortonworks HDP
Google Dremel
VoltDB
HP Vertica
Apache Hive
Cloudera CDH
Apache Cassandra
Google BigTable

Ano
2013
2013
2012
2012
2012
2012
2012
2011
2011
2011
2011
2011
2010
2010
2010
2009
2009
2009
2006

Batch













Interativo




















Tempo Real










16
Ferramentas de Processamento em
Tempo Real
●

●

●

●

Ferramentas de CEP e Stream Processing, focadas
em processar dados online em Tempo Real
Geram análises contínuas sobre grandes volumes
de eventos, eliminando a necessidade de
armazenamento antes da realização das consultas
Utilização de heurísticas e algoritmos de
aproximação, aplicando transformações sobre os
dados para obter os resultados
Execução contínua, algoritmos executam até que
não sejam mais necessários
17
Nome
Pivotal HD
Google Photon
AMPLab BDAS
StreamBase CEP
Apache Flume
Apache YARN
Google Megastore
Apache Storm
Apache Kafka
MapR M5
Hortonworks HDP
Apache S4
Cloudera CDH

Ano
2013
2013
2012
2012
2012
2011
2011
2011
2011
2011
2011
2010
2009

Batch


Interativo





















Tempo Real














18
Desafios
●

●

As metodologias para programação desse tipo de
sistemas ainda não estão bem definidas: Os sistemas
Batch apresentam abordagem imperativa; Os sistemas de
Tempo Real se caracterizam predominantemente pela
utilização de linguagens funcionais; Já os os Interativos,
se caracterizam por abordagens baseadas em SQL.
As ferramentas apresentam focos específicos, mas em
diversos casos apresentam possibilidades de utilizar a sua
estrutura para resolver outros tipos de problemas, ainda
que com performance reduzida. O que dificulta a
caracterização desses sistemas de abordagem
heterogênea.
19
Conclusões e Trabalhos Futuros
●

●

●

●

O ambiente de aplicações distribuídas para o processamento na
nuvem não limita-se ao Hadoop, e está sendo constantemente
estendido
A proposta de caracterização, nos três grandes grupos sugeridos,
facilita o processo de seleção das ferramentas e ajuda a determinar
quais apresentam potencial para serem utilizadas por aplicações
distribuídas na nuvem.
Ainda não é possível afirmar se estas implementações convergirão
para grandes sistemas de propósitos gerais, ou se evoluirão para um
conjunto ainda mais heterogêneo de ferramentas para problemas
específicos.
Em nossos trabalhos futuros, iremos selecionar um subconjunto
dessas ferramentas para analisar mais detalhadamente

20
Análise e Caracterização das Novas
Ferramentas para Computação
Distribuída na Nuvem
Otávio M. de Carvalho, Eduardo Roloff,
Marco A. Z. Alves, Philippe O. A. Navaux
Universidade Federal do Rio Grande do Sul
Grupo de Processamento Paralelo e Distribuído
{omcarvalho,eroloff,mazalves,navaux}@inf.ufrgs.br

Mais conteúdo relacionado

Mais procurados

Arquitetura para solução Big Data – open source
Arquitetura para solução Big Data – open sourceArquitetura para solução Big Data – open source
Arquitetura para solução Big Data – open sourceFelipe RENZ - MBA TI / Big
 
Interoperabilidade com BigData Hadoop para Windows Azure
Interoperabilidade com BigData Hadoop  para Windows AzureInteroperabilidade com BigData Hadoop  para Windows Azure
Interoperabilidade com BigData Hadoop para Windows AzureAlessandro Binhara
 
BIGDATA: Da teoria à Pratica
BIGDATA: Da teoria à PraticaBIGDATA: Da teoria à Pratica
BIGDATA: Da teoria à PraticaDaniel Checchia
 
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...Ambiente Livre
 
Palestra: Cientista de Dados – Dominando o Big Data com Software Livre
Palestra: Cientista de Dados – Dominando o Big Data com Software LivrePalestra: Cientista de Dados – Dominando o Big Data com Software Livre
Palestra: Cientista de Dados – Dominando o Big Data com Software LivreAmbiente Livre
 
Pentaho, Hadoop , Big Data e Data Lakes
Pentaho, Hadoop , Big Data e Data LakesPentaho, Hadoop , Big Data e Data Lakes
Pentaho, Hadoop , Big Data e Data LakesAmbiente Livre
 
Big data para programadores convencionais
Big data para programadores convencionaisBig data para programadores convencionais
Big data para programadores convencionaisRoberto Oliveira
 
Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - Curitiba
Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - CuritibaPalestra: Big Data Open Source com Hadoop - FLISOL 2014 - Curitiba
Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - CuritibaMarcio Junior Vieira
 
PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
PostgreSQL em projetos de Business Analytics e Big Data Analytics com PentahoPostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
PostgreSQL em projetos de Business Analytics e Big Data Analytics com PentahoAmbiente Livre
 
TDC 2014 - Hadoop Hands ON
TDC 2014 - Hadoop Hands ONTDC 2014 - Hadoop Hands ON
TDC 2014 - Hadoop Hands ONThiago Santiago
 
Mapreduce - Conceitos e Aplicações
Mapreduce - Conceitos e AplicaçõesMapreduce - Conceitos e Aplicações
Mapreduce - Conceitos e AplicaçõesGuilherme Araújo
 
TDC2017 - Misturando dados com Pentaho para insights mais significativos
TDC2017 - Misturando dados com Pentaho para insights mais significativosTDC2017 - Misturando dados com Pentaho para insights mais significativos
TDC2017 - Misturando dados com Pentaho para insights mais significativosAmbiente Livre
 
CASE: O PostgreSQL em BI: Milhares de operações diárias consolidadas em "near...
CASE: O PostgreSQL em BI: Milhares de operações diárias consolidadas em "near...CASE: O PostgreSQL em BI: Milhares de operações diárias consolidadas em "near...
CASE: O PostgreSQL em BI: Milhares de operações diárias consolidadas em "near...PGDay Campinas
 
NoSQL + SQL = PostgreSQL (PGDay Campinas 2014)
NoSQL + SQL = PostgreSQL (PGDay Campinas 2014)NoSQL + SQL = PostgreSQL (PGDay Campinas 2014)
NoSQL + SQL = PostgreSQL (PGDay Campinas 2014)Fabrízio Mello
 

Mais procurados (20)

Arquitetura para solução Big Data – open source
Arquitetura para solução Big Data – open sourceArquitetura para solução Big Data – open source
Arquitetura para solução Big Data – open source
 
Treinamento hadoop - dia3
Treinamento hadoop - dia3Treinamento hadoop - dia3
Treinamento hadoop - dia3
 
Interoperabilidade com BigData Hadoop para Windows Azure
Interoperabilidade com BigData Hadoop  para Windows AzureInteroperabilidade com BigData Hadoop  para Windows Azure
Interoperabilidade com BigData Hadoop para Windows Azure
 
BIGDATA: Da teoria à Pratica
BIGDATA: Da teoria à PraticaBIGDATA: Da teoria à Pratica
BIGDATA: Da teoria à Pratica
 
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
 
Palestra: Cientista de Dados – Dominando o Big Data com Software Livre
Palestra: Cientista de Dados – Dominando o Big Data com Software LivrePalestra: Cientista de Dados – Dominando o Big Data com Software Livre
Palestra: Cientista de Dados – Dominando o Big Data com Software Livre
 
Pentaho, Hadoop , Big Data e Data Lakes
Pentaho, Hadoop , Big Data e Data LakesPentaho, Hadoop , Big Data e Data Lakes
Pentaho, Hadoop , Big Data e Data Lakes
 
Big data para programadores convencionais
Big data para programadores convencionaisBig data para programadores convencionais
Big data para programadores convencionais
 
Hadoop, Big Data e Cloud Computing
Hadoop, Big Data e Cloud ComputingHadoop, Big Data e Cloud Computing
Hadoop, Big Data e Cloud Computing
 
Treinamento hadoop - dia1
Treinamento hadoop - dia1Treinamento hadoop - dia1
Treinamento hadoop - dia1
 
Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - Curitiba
Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - CuritibaPalestra: Big Data Open Source com Hadoop - FLISOL 2014 - Curitiba
Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - Curitiba
 
BigData MapReduce
BigData MapReduceBigData MapReduce
BigData MapReduce
 
PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
PostgreSQL em projetos de Business Analytics e Big Data Analytics com PentahoPostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
 
TDC 2014 - Hadoop Hands ON
TDC 2014 - Hadoop Hands ONTDC 2014 - Hadoop Hands ON
TDC 2014 - Hadoop Hands ON
 
Mapreduce - Conceitos e Aplicações
Mapreduce - Conceitos e AplicaçõesMapreduce - Conceitos e Aplicações
Mapreduce - Conceitos e Aplicações
 
TDC2017 - Misturando dados com Pentaho para insights mais significativos
TDC2017 - Misturando dados com Pentaho para insights mais significativosTDC2017 - Misturando dados com Pentaho para insights mais significativos
TDC2017 - Misturando dados com Pentaho para insights mais significativos
 
Big data e ecossistema hadoop
Big data e ecossistema hadoopBig data e ecossistema hadoop
Big data e ecossistema hadoop
 
CASE: O PostgreSQL em BI: Milhares de operações diárias consolidadas em "near...
CASE: O PostgreSQL em BI: Milhares de operações diárias consolidadas em "near...CASE: O PostgreSQL em BI: Milhares de operações diárias consolidadas em "near...
CASE: O PostgreSQL em BI: Milhares de operações diárias consolidadas em "near...
 
NoSQL + SQL = PostgreSQL (PGDay Campinas 2014)
NoSQL + SQL = PostgreSQL (PGDay Campinas 2014)NoSQL + SQL = PostgreSQL (PGDay Campinas 2014)
NoSQL + SQL = PostgreSQL (PGDay Campinas 2014)
 
Seminário Hadoop
Seminário HadoopSeminário Hadoop
Seminário Hadoop
 

Semelhante a Análise Ferramentas Computação Distribuída Nuvem

Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e PentahoBig Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e PentahoAmbiente Livre
 
TDC2016POA | Trilha BigData - Orquestrando Hadoop, Cassandra e MongoDB com o ...
TDC2016POA | Trilha BigData - Orquestrando Hadoop, Cassandra e MongoDB com o ...TDC2016POA | Trilha BigData - Orquestrando Hadoop, Cassandra e MongoDB com o ...
TDC2016POA | Trilha BigData - Orquestrando Hadoop, Cassandra e MongoDB com o ...tdc-globalcode
 
OS CINCO Vs DO BIG DATA
OS CINCO Vs DO BIG DATAOS CINCO Vs DO BIG DATA
OS CINCO Vs DO BIG DATALeonardo Dias
 
Pentaho Hadoop Big Data e Data Lakes
Pentaho Hadoop Big Data e Data LakesPentaho Hadoop Big Data e Data Lakes
Pentaho Hadoop Big Data e Data LakesAmbiente Livre
 
TDC2016SP - Trilha BigData
TDC2016SP - Trilha BigDataTDC2016SP - Trilha BigData
TDC2016SP - Trilha BigDatatdc-globalcode
 
iOpera artigo o que é big data como surgiu o big data para que serve o big data
iOpera artigo o que é big data como surgiu o big data para que serve o big dataiOpera artigo o que é big data como surgiu o big data para que serve o big data
iOpera artigo o que é big data como surgiu o big data para que serve o big dataValêncio Garcia
 
[DTC21] Lucas Gomes - Do 0 ao 100 no Big Data
[DTC21] Lucas Gomes - Do 0 ao 100 no Big Data[DTC21] Lucas Gomes - Do 0 ao 100 no Big Data
[DTC21] Lucas Gomes - Do 0 ao 100 no Big DataDeep Tech Brasil
 
Tesi Dados Final
Tesi Dados FinalTesi Dados Final
Tesi Dados Finaljcaroso
 
A importância do ecossistema Java em aplicações baseadas em Big Data
A importância do ecossistema Java em aplicações baseadas em Big DataA importância do ecossistema Java em aplicações baseadas em Big Data
A importância do ecossistema Java em aplicações baseadas em Big DataVinícius Barros
 
Stream Processing - ThoughtWorks Architecture Group - 2017
Stream Processing - ThoughtWorks Architecture Group - 2017Stream Processing - ThoughtWorks Architecture Group - 2017
Stream Processing - ThoughtWorks Architecture Group - 2017Otávio Carvalho
 
Big data e mineração de dados
Big data e mineração de dadosBig data e mineração de dados
Big data e mineração de dadosElton Meira
 
Big Data Week São Paulo 2017
Big Data Week São Paulo 2017 Big Data Week São Paulo 2017
Big Data Week São Paulo 2017 Thiago Santiago
 
Big Data Open Source com Hadoop
Big Data Open Source com HadoopBig Data Open Source com Hadoop
Big Data Open Source com HadoopAmbiente Livre
 
Oficina técnica da Infraestrutura Nacional de Dados Abertos - INDA
Oficina técnica da Infraestrutura Nacional de Dados Abertos - INDAOficina técnica da Infraestrutura Nacional de Dados Abertos - INDA
Oficina técnica da Infraestrutura Nacional de Dados Abertos - INDAnitaibezerra
 
BIG DATA & IoT: Tecnologias e  Aplicações
BIG DATA & IoT: Tecnologias e  AplicaçõesBIG DATA & IoT: Tecnologias e  Aplicações
BIG DATA & IoT: Tecnologias e  AplicaçõesAlessandro Binhara
 
BigData e internte das coisas aplicada a engenharia
BigData e internte das coisas aplicada a engenhariaBigData e internte das coisas aplicada a engenharia
BigData e internte das coisas aplicada a engenhariaAlessandro Binhara
 

Semelhante a Análise Ferramentas Computação Distribuída Nuvem (20)

Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e PentahoBig Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
 
TDC2016POA | Trilha BigData - Orquestrando Hadoop, Cassandra e MongoDB com o ...
TDC2016POA | Trilha BigData - Orquestrando Hadoop, Cassandra e MongoDB com o ...TDC2016POA | Trilha BigData - Orquestrando Hadoop, Cassandra e MongoDB com o ...
TDC2016POA | Trilha BigData - Orquestrando Hadoop, Cassandra e MongoDB com o ...
 
Big Data, JVM e Redes Sociais
Big Data, JVM e Redes SociaisBig Data, JVM e Redes Sociais
Big Data, JVM e Redes Sociais
 
OS CINCO Vs DO BIG DATA
OS CINCO Vs DO BIG DATAOS CINCO Vs DO BIG DATA
OS CINCO Vs DO BIG DATA
 
Pentaho Hadoop Big Data e Data Lakes
Pentaho Hadoop Big Data e Data LakesPentaho Hadoop Big Data e Data Lakes
Pentaho Hadoop Big Data e Data Lakes
 
TDC2016SP - Trilha BigData
TDC2016SP - Trilha BigDataTDC2016SP - Trilha BigData
TDC2016SP - Trilha BigData
 
iOpera artigo o que é big data como surgiu o big data para que serve o big data
iOpera artigo o que é big data como surgiu o big data para que serve o big dataiOpera artigo o que é big data como surgiu o big data para que serve o big data
iOpera artigo o que é big data como surgiu o big data para que serve o big data
 
[DTC21] Lucas Gomes - Do 0 ao 100 no Big Data
[DTC21] Lucas Gomes - Do 0 ao 100 no Big Data[DTC21] Lucas Gomes - Do 0 ao 100 no Big Data
[DTC21] Lucas Gomes - Do 0 ao 100 no Big Data
 
Tesi Dados Final
Tesi Dados FinalTesi Dados Final
Tesi Dados Final
 
A importância do ecossistema Java em aplicações baseadas em Big Data
A importância do ecossistema Java em aplicações baseadas em Big DataA importância do ecossistema Java em aplicações baseadas em Big Data
A importância do ecossistema Java em aplicações baseadas em Big Data
 
Stream Processing - ThoughtWorks Architecture Group - 2017
Stream Processing - ThoughtWorks Architecture Group - 2017Stream Processing - ThoughtWorks Architecture Group - 2017
Stream Processing - ThoughtWorks Architecture Group - 2017
 
Big data e mineração de dados
Big data e mineração de dadosBig data e mineração de dados
Big data e mineração de dados
 
Big Data Week São Paulo 2017
Big Data Week São Paulo 2017 Big Data Week São Paulo 2017
Big Data Week São Paulo 2017
 
Oficina Pentaho
Oficina PentahoOficina Pentaho
Oficina Pentaho
 
Documento SpagoBI
Documento SpagoBIDocumento SpagoBI
Documento SpagoBI
 
Big Data Open Source com Hadoop
Big Data Open Source com HadoopBig Data Open Source com Hadoop
Big Data Open Source com Hadoop
 
Oficina técnica da Infraestrutura Nacional de Dados Abertos - INDA
Oficina técnica da Infraestrutura Nacional de Dados Abertos - INDAOficina técnica da Infraestrutura Nacional de Dados Abertos - INDA
Oficina técnica da Infraestrutura Nacional de Dados Abertos - INDA
 
Bigadata casese opotunidades
Bigadata casese opotunidadesBigadata casese opotunidades
Bigadata casese opotunidades
 
BIG DATA & IoT: Tecnologias e  Aplicações
BIG DATA & IoT: Tecnologias e  AplicaçõesBIG DATA & IoT: Tecnologias e  Aplicações
BIG DATA & IoT: Tecnologias e  Aplicações
 
BigData e internte das coisas aplicada a engenharia
BigData e internte das coisas aplicada a engenhariaBigData e internte das coisas aplicada a engenharia
BigData e internte das coisas aplicada a engenharia
 

Mais de Otávio Carvalho

Non-Kafkaesque Apache Kafka - Yottabyte 2018
Non-Kafkaesque Apache Kafka - Yottabyte 2018Non-Kafkaesque Apache Kafka - Yottabyte 2018
Non-Kafkaesque Apache Kafka - Yottabyte 2018Otávio Carvalho
 
GaruaGeo: Global Scale Data Aggregation in Hybrid Edge and Cloud Computing En...
GaruaGeo: Global Scale Data Aggregation in Hybrid Edge and Cloud Computing En...GaruaGeo: Global Scale Data Aggregation in Hybrid Edge and Cloud Computing En...
GaruaGeo: Global Scale Data Aggregation in Hybrid Edge and Cloud Computing En...Otávio Carvalho
 
IoT Workload Distribution Impact Between Edge and Cloud Computing in a Smart ...
IoT Workload Distribution Impact Between Edge and Cloud Computing in a Smart ...IoT Workload Distribution Impact Between Edge and Cloud Computing in a Smart ...
IoT Workload Distribution Impact Between Edge and Cloud Computing in a Smart ...Otávio Carvalho
 
Stream Processing: Uma visão geral - TDC Porto Alegre / FISL 17
Stream Processing: Uma visão geral - TDC Porto Alegre / FISL 17Stream Processing: Uma visão geral - TDC Porto Alegre / FISL 17
Stream Processing: Uma visão geral - TDC Porto Alegre / FISL 17Otávio Carvalho
 
Apache Kafka - Free Friday
Apache Kafka - Free FridayApache Kafka - Free Friday
Apache Kafka - Free FridayOtávio Carvalho
 
Distributed Near Real-Time Processing of Sensor Network Data Flows for Smart ...
Distributed Near Real-Time Processing of Sensor Network Data Flows for Smart ...Distributed Near Real-Time Processing of Sensor Network Data Flows for Smart ...
Distributed Near Real-Time Processing of Sensor Network Data Flows for Smart ...Otávio Carvalho
 
A Survey of the State-of-the-art in Event Processing
A Survey of the State-of-the-art in Event ProcessingA Survey of the State-of-the-art in Event Processing
A Survey of the State-of-the-art in Event ProcessingOtávio Carvalho
 
Utilização de traços de execução para migração de aplicações para a nuvem
Utilização de traços de execução para migração de aplicações para a nuvemUtilização de traços de execução para migração de aplicações para a nuvem
Utilização de traços de execução para migração de aplicações para a nuvemOtávio Carvalho
 

Mais de Otávio Carvalho (8)

Non-Kafkaesque Apache Kafka - Yottabyte 2018
Non-Kafkaesque Apache Kafka - Yottabyte 2018Non-Kafkaesque Apache Kafka - Yottabyte 2018
Non-Kafkaesque Apache Kafka - Yottabyte 2018
 
GaruaGeo: Global Scale Data Aggregation in Hybrid Edge and Cloud Computing En...
GaruaGeo: Global Scale Data Aggregation in Hybrid Edge and Cloud Computing En...GaruaGeo: Global Scale Data Aggregation in Hybrid Edge and Cloud Computing En...
GaruaGeo: Global Scale Data Aggregation in Hybrid Edge and Cloud Computing En...
 
IoT Workload Distribution Impact Between Edge and Cloud Computing in a Smart ...
IoT Workload Distribution Impact Between Edge and Cloud Computing in a Smart ...IoT Workload Distribution Impact Between Edge and Cloud Computing in a Smart ...
IoT Workload Distribution Impact Between Edge and Cloud Computing in a Smart ...
 
Stream Processing: Uma visão geral - TDC Porto Alegre / FISL 17
Stream Processing: Uma visão geral - TDC Porto Alegre / FISL 17Stream Processing: Uma visão geral - TDC Porto Alegre / FISL 17
Stream Processing: Uma visão geral - TDC Porto Alegre / FISL 17
 
Apache Kafka - Free Friday
Apache Kafka - Free FridayApache Kafka - Free Friday
Apache Kafka - Free Friday
 
Distributed Near Real-Time Processing of Sensor Network Data Flows for Smart ...
Distributed Near Real-Time Processing of Sensor Network Data Flows for Smart ...Distributed Near Real-Time Processing of Sensor Network Data Flows for Smart ...
Distributed Near Real-Time Processing of Sensor Network Data Flows for Smart ...
 
A Survey of the State-of-the-art in Event Processing
A Survey of the State-of-the-art in Event ProcessingA Survey of the State-of-the-art in Event Processing
A Survey of the State-of-the-art in Event Processing
 
Utilização de traços de execução para migração de aplicações para a nuvem
Utilização de traços de execução para migração de aplicações para a nuvemUtilização de traços de execução para migração de aplicações para a nuvem
Utilização de traços de execução para migração de aplicações para a nuvem
 

Análise Ferramentas Computação Distribuída Nuvem

  • 1. Análise e Caracterização das Novas Ferramentas para Computação Distribuída na Nuvem Otávio M. de Carvalho, Eduardo Roloff, Marco A. Z. Alves, Philippe O. A. Navaux Universidade Federal do Rio Grande do Sul Grupo de Processamento Paralelo e Distribuído {omcarvalho,eroloff,mazalves,navaux}@inf.ufrgs.br
  • 2. Motivação ● ● ● Grande quantidades de dados estão sendo gerados. Atualmente, já produzimos 2.8 trilhões de GB. [1] A produção de dados está crescendo 60% a cada ano. Grandes volumes de dados também estão sendo gerados. A cada 60 segundos, 600 novas postagens em blogs são feitas, e 34.000 tweets são enviados. [2] [1] IBM CMO Study 2011 [2] IDC Key Forecast Assumptions for the Worldwide Big Data Technology and Services Market, 2012-2015 2
  • 3. Objetivos ● ● ● Buscar as principais iniciativas desenvolvidas para a evolução do modelo MapReduce Caracterizar as diferentes iniciativas em sub-grupos, para melhor compreender as suas principais distinções Compreender quais modificações vem sendo mais bem-sucedidas, ajudando a determinar quais ferramentas possuem o maior potencial para estudos mais aprofundados 3
  • 4. Abordagens para a Computação Distribuída na Nuvem 4
  • 5. Abordagens Iniciais ● Inicialmente, as abordagens eram próximas às dos bancos de dados clássicos. Sendo caracterizadas principalmente pela introdução de grandes volumes dados, nos sistemas de processamento, aguardando o término do seu processamento após um determinado período de tempo. 5
  • 6. Abordagens Atuais ● Atualmente, estão crescendo as abordagens que visam processar dados em fluxos contínuos, aplicando transformações sobre o conjunto de dados, visando obter resultados da maneira mais rápida possível. 6
  • 11. Caracterização das Novas Ferramentas para Computação Distribuída na Nuvem 11
  • 12. Nome Ano Teradata Aster 2013 Pivotal HD Descrição Batch Interativo Tempo Real Banco de dados MPP   2013 Conjunto de ferramentas de processamento distribuído   Google Photon 2013 Sistema para o processamento distribuído de fluxos de dados AMPLab BDAS 2012 Conjunto de ferramentas de processamento distribuído em memória Google Spanner 2012 Banco de dados distribuído com transações externamente consistentes Actian ParAccel 2012 Banco de dados MPP Cloudera Impala 2012 Sistema para o processamento de consultas interativas StreamBase CEP 2012 Ferramenta comercial de processamento complexo de eventos Apache Giraph 2012 Ferramenta para o processamento distribuído de grafos Apache Drill 2012 Ferramenta para o processamento de consultas interativas Apache Flume 2012 Ferramenta para o processamento de fluxos contínuos de dados Apache YARN 2011 Evolução do Apache Hadoop SAP HANA 2011 Banco de dados em memória  Google Megastore 2011 Banco de dados distribuído que precedeu o Google Spanner  Apache Storm 2011 Ferramenta para o processamento de eventos complexos  Apache Kafka 2011 Sistema para o processamento de fluxos contínuos de dados  MapR M5 2011 Conjunto de ferramentas de processamento distribuído    Hortonworks HDP 2011 Conjunto de ferramentas de processamento distribuído    Google Pregel 2010 Sistema distribuído para o processamento de grafos  Google Percolator 2010 Sistema distribuído para processamento incremental  Google Dremel 2010 Ferramenta para a análise interativa de dados AMPLab Spark 2010 Sistema de processamento de dados em memória VoltDB 2010 Sistema de banco de dados em memória Apache S4 2010 Ferramenta para o processamento de fluxos contínuos de dados HP Vertica 2010 Banco de dados MPP Apache Hive 2009 Ferramenta para o processamento de consultas interativas Cloudera CDH 2009 Conjunto de ferramentas de processamento distribuído Apache Cassandra 2009 Sistema de armazenamento de dados distribuído Google BigTable 2006 Sistema de armazenamento de dados distribuído Apache Hadoop 2005 Sistema de processamento de dados distribuído  Google MapReduce 2004 Sistema de processamento distribuído que deu origem ao Hadoop                               12
  • 13. Ferramentas de Processamento Batch ● ● ● Bancos de Dados MPP Versões derivadas do Apache Hadoop inspiradas pelo Google MapReduce Orientadas ao processamento de grandes volumes de dados 13
  • 14. Nome Teradata Aster Pivotal HD AMPLab BDAS Actian ParAccel Apache Giraph Apache YARN MapR M5 Hortonworks HDP Google Pregel Google Percolator AMPLab Spark HP Vertica Cloudera CDH Apache Hadoop Google MapReduce Ano 2013 2013 2012 2012 2012 2011 2011 2011 2010 2010 2010 2010 2009 2005 2004 Batch                Interativo     Tempo Real            14
  • 15. Ferramentas de Processamento Interativo ● ● ● Caracterizadas principalmente por Sistemas de Banco de Dados distribuídos, que utilizam abstrações do tipo NoSQL ou NewSQL São voltados para o armazenamento e para o processamento de consultas interativas sobre volumes intermediários de dados Problema: Intersecção com a criação de grandes conjuntos de ferramentas, que visam oferecer abordagens para o processamento de diversos tipos de problemas e tamanhos de consultas (Apache YARN e AMPLab BDAS, por exemplo) 15
  • 16. Nome Teradata Aster Pivotal HD AMPLab BDAS Google Spanner Actian ParAccel Cloudera Impala Apache Drill Apache YARN SAP HANA Google Megastore MapR M5 Hortonworks HDP Google Dremel VoltDB HP Vertica Apache Hive Cloudera CDH Apache Cassandra Google BigTable Ano 2013 2013 2012 2012 2012 2012 2012 2011 2011 2011 2011 2011 2010 2010 2010 2009 2009 2009 2006 Batch          Interativo                    Tempo Real        16
  • 17. Ferramentas de Processamento em Tempo Real ● ● ● ● Ferramentas de CEP e Stream Processing, focadas em processar dados online em Tempo Real Geram análises contínuas sobre grandes volumes de eventos, eliminando a necessidade de armazenamento antes da realização das consultas Utilização de heurísticas e algoritmos de aproximação, aplicando transformações sobre os dados para obter os resultados Execução contínua, algoritmos executam até que não sejam mais necessários 17
  • 18. Nome Pivotal HD Google Photon AMPLab BDAS StreamBase CEP Apache Flume Apache YARN Google Megastore Apache Storm Apache Kafka MapR M5 Hortonworks HDP Apache S4 Cloudera CDH Ano 2013 2013 2012 2012 2012 2011 2011 2011 2011 2011 2011 2010 2009 Batch  Interativo             Tempo Real              18
  • 19. Desafios ● ● As metodologias para programação desse tipo de sistemas ainda não estão bem definidas: Os sistemas Batch apresentam abordagem imperativa; Os sistemas de Tempo Real se caracterizam predominantemente pela utilização de linguagens funcionais; Já os os Interativos, se caracterizam por abordagens baseadas em SQL. As ferramentas apresentam focos específicos, mas em diversos casos apresentam possibilidades de utilizar a sua estrutura para resolver outros tipos de problemas, ainda que com performance reduzida. O que dificulta a caracterização desses sistemas de abordagem heterogênea. 19
  • 20. Conclusões e Trabalhos Futuros ● ● ● ● O ambiente de aplicações distribuídas para o processamento na nuvem não limita-se ao Hadoop, e está sendo constantemente estendido A proposta de caracterização, nos três grandes grupos sugeridos, facilita o processo de seleção das ferramentas e ajuda a determinar quais apresentam potencial para serem utilizadas por aplicações distribuídas na nuvem. Ainda não é possível afirmar se estas implementações convergirão para grandes sistemas de propósitos gerais, ou se evoluirão para um conjunto ainda mais heterogêneo de ferramentas para problemas específicos. Em nossos trabalhos futuros, iremos selecionar um subconjunto dessas ferramentas para analisar mais detalhadamente 20
  • 21. Análise e Caracterização das Novas Ferramentas para Computação Distribuída na Nuvem Otávio M. de Carvalho, Eduardo Roloff, Marco A. Z. Alves, Philippe O. A. Navaux Universidade Federal do Rio Grande do Sul Grupo de Processamento Paralelo e Distribuído {omcarvalho,eroloff,mazalves,navaux}@inf.ufrgs.br