Explorando o Paralelismo em Workflows Intensivos em Dados com o Uso de Anotações Semânticas e Informações sobre o Ambiente de Execução

Explorando o Paralelismo em Workﬂows Intensivos em
Dados com o Uso de Anotações Semânticas e
Informações sobre o Ambiente de Execução
Elaine N. Watanabe e Profa Dra Kelly R. Braghetto
Departamento de Ciência da Computação
Instituto de Matemática e Estatística
Universidade de São Paulo, São Paulo, Brasil
{elainew,kellyrb}@ime.usp.br
Escola Regional de Alto Desempenho de São Paulo - 2016

Introdução
Estratégia Proposta para Paralelização
Experimentos e Resultados Obtidos
Considerações Finais
Roteiro
1 Introdução
2 Estratégia Proposta para Paralelização
3 Experimentos e Resultados Obtidos
4 Considerações Finais
ERAD–SP 2016 2 / 16

Introdução
Workﬂows intensivos em dados
Objetivo
Contexto
Aplicação distribuída:
Plataforma de alto desempenho:
Nuvem
Gerenciamento de execução distribuída:
Sistema de Gerenciamento de
Workﬂows (SGWf)
Repositório de dados:
Bancos de dados
A
B C D
E
F
G
ERAD–SP 2016 3 / 16

Introdução
Objetivo
Objetivo
Criar um modelo para a execução paralela das atividades,
de maneira automática, a partir de:
anotações semânticas sobre o modelo do workﬂow
informações sobre o ambiente de execução
ERAD–SP 2016 4 / 16

Introdução
Anotações sobre o Tipo de Processamento
Anotações sobre Atributos dos Objetos de Dados
Reestruturação do workﬂow
Processamento por Objeto (PO):
indica que uma atividade processa cada objeto de dados de
entrada individualmente
Processamento por Grupo de Objetos (PG):
indica que uma atividade processa os objetos de dados de
entrada em grupos; os grupo são deﬁnidos por meio de
atributo(s) agrupador(es)
Estratégias para distribuição dos objetos de dados podem ser
aplicadas conforme as anotações sobre o tipo de processamento
ERAD–SP 2016 5 / 16

Introdução
Seleção de Atributos (SA):
lista de atributos de um objeto de dados necessários
para uma atividade
Ordenação de Objetos (OO):
lista de atributos usados para a ordenação dos objetos de dados
As anotações sobre atributos permitem:
Deﬁnição de índices para ordenação
Seleção somente dos atributos necessários
ERAD–SP 2016 6 / 16

Introdução
...
... F_mF_1 F_2
E_n
G
A
B C D
E_1 E_2
ERAD–SP 2016 7 / 16

Introdução
Ambiente de Execução
Cenários avaliados
Resultados
Ambiente de execução
Total de objetos de dados manipulados: 5,8 milhões
Banco de dados Relacional: PostgreSQL
Banco de dados NoSQL: MongoDB
SGWf: Pegasus WMS
Plataforma de computação: Google Cloud
Total de execuções: 5 vezes
Nível de conﬁança: 95%
ERAD–SP 2016 8 / 16

Introdução
Cenários avaliados
Resultados
Arquitetura de um Cluster MongoDB
ERAD–SP 2016 9 / 16

Introdução
Cenários avaliados
Resultados
Cenários avaliados
Workﬂow SGBD Uso das
anotações
No
Partições
No
Réplicas
No Máq.
SGBD
No Nós
Execução
W-01 PostgreSQL Não 1 1 1 1
W-02 PostgreSQL Não 1 1 1 3
W-03∗ PostgreSQL Sim 1 1 1 3
W-04 MongoDB Não 1 1 1 1
W-06∗ MongoDB Sim 1 1 1 3
∗
Cenário envolvendo o uso de anotações semânticas no workﬂow.
ERAD–SP 2016 10 / 16

Introdução
Cenários avaliados
Resultados
Makespan
0
1
2
3
4
5
6
7
8
9
10
W−01 W−02 W−03 W−04 W−05 W−06 W−07 W−08 W−09 W−10 W−11
Makespan(horas)
PostgreSQL(1Part−1Rp)
MongoDB(1Part−1Rp)
ERAD–SP 2016 11 / 16

Introdução
Cenários avaliados
Resultados
Custo monetário
0
5
10
15
20
25
30
35
W−01 W−02 W−03 W−04 W−05 W−06 W−07 W−08 W−09 W−10 W−11
Customonetário(emdólares)
PostgreSQL(1Part−1Rp)
ERAD–SP 2016 12 / 16

Introdução
Resultados
Estratégia proposta resultou em:
Redução de até 88,4% do makespan em um sistema NoSQL
Redução do makespan de até 74,4% e do custo ﬁnanceiro de
até 10,35% em cenários com as mesmas conﬁgurações e
número de máquinas virtuais.
ERAD–SP 2016 13 / 16

Introdução
Trabalhos futuros
Deﬁnição de novas anotações e estratégias de paralelismo de
dados
Avaliação de outros sistemas NoSQL
Análise do impacto da leitura de réplicas de dados
Experimentos para identiﬁcar relação entre número de
partições e nós de execução
ERAD–SP 2016 14 / 16

Introdução
Muito obrigada!
elainew@ime.usp.br
Essa pesquisa foi ﬁnanciada pela CAPES e pelo NAPSoL-PRP-USP.
Os autores agradecem também ao Google pelos créditos concedidos
para o uso de sua plataforma de nuvem.
ERAD–SP 2016 15 / 16

Bibliografia
Mohammad Islam et. al. Oozie: Towards a Scalable Workflow
Management System for Hadoop. Proceedings of the 1st ACM
SIGMOD Workshop on Scalable Workflow Execution Engines and
Technologie, p. 4:1–4:10, 2012.
C.L. Philip Chen and Chun-Yang Zhang. Data-intensive applications,
challenges, techniques and technologies: A survey on Big Data.
Information Sciences, v.275, p.314-347, 2014.
Douglas E. M. de Oliveira et. al. Avaliação da Localidade de Dados
Intermediários na Execução Paralela de Workflows BigData.
Proceedings of 30th Brazilian Symposium on Databases, p.29-40,
2015.
ERAD–SP 2016 16 / 16

Explorando o Paralelismo em Workflows Intensivos em Dados com o Uso de Anotações Semânticas e Informações sobre o Ambiente de Execução

Recomendados

Recomendados

Mais conteúdo relacionado

Semelhante a Explorando o Paralelismo em Workflows Intensivos em Dados com o Uso de Anotações Semânticas e Informações sobre o Ambiente de Execução

Semelhante a Explorando o Paralelismo em Workflows Intensivos em Dados com o Uso de Anotações Semânticas e Informações sobre o Ambiente de Execução (20)

Mais de Elaine Naomi

Mais de Elaine Naomi (17)

Explorando o Paralelismo em Workflows Intensivos em Dados com o Uso de Anotações Semânticas e Informações sobre o Ambiente de Execução