ERAD 2016
O uso de plataformas de alto desempenho é um requisito para a execução de atividades que lidam com grandes volumes de dados. Um conjunto de atividades interligadas, modeladas como um workflow, pode ter sua execução controlada por um Sistema de Gerenciamento de Workflows (SGWfs). O paralelismo de dados pode diminuir o seu tempo total de execução, contudo, os SGWfs não exploram isso de maneira automática. Este trabalho propõe o uso de anotações semânticas para a criação automática de um modelo paralelo para a execução das atividades. Em experimentos com um workflow que lida com 5,8 milhões de objetos de dados, a paralelização obtida das anotações reduziu em 88,37% o tempo de execução do workflow e em 10,35% o custo financeiro.
Semelhante a Explorando o Paralelismo em Workflows Intensivos em Dados com o Uso de Anotações Semânticas e Informações sobre o Ambiente de Execução (20)
Explorando o Paralelismo em Workflows Intensivos em Dados com o Uso de Anotações Semânticas e Informações sobre o Ambiente de Execução
1. Explorando o Paralelismo em Workflows Intensivos em
Dados com o Uso de Anotações Semânticas e
Informações sobre o Ambiente de Execução
Elaine N. Watanabe e Profa Dra Kelly R. Braghetto
Departamento de Ciência da Computação
Instituto de Matemática e Estatística
Universidade de São Paulo, São Paulo, Brasil
{elainew,kellyrb}@ime.usp.br
Escola Regional de Alto Desempenho de São Paulo - 2016
2. Introdução
Estratégia Proposta para Paralelização
Experimentos e Resultados Obtidos
Considerações Finais
Roteiro
1 Introdução
2 Estratégia Proposta para Paralelização
3 Experimentos e Resultados Obtidos
4 Considerações Finais
ERAD–SP 2016 2 / 16
3. Introdução
Estratégia Proposta para Paralelização
Experimentos e Resultados Obtidos
Considerações Finais
Workflows intensivos em dados
Objetivo
Contexto
Aplicação distribuída:
Workflows intensivos em dados
Plataforma de alto desempenho:
Nuvem
Gerenciamento de execução distribuída:
Sistema de Gerenciamento de
Workflows (SGWf)
Repositório de dados:
Bancos de dados
A
B C D
E
F
G
ERAD–SP 2016 3 / 16
4. Introdução
Estratégia Proposta para Paralelização
Experimentos e Resultados Obtidos
Considerações Finais
Workflows intensivos em dados
Objetivo
Objetivo
Criar um modelo para a execução paralela das atividades,
de maneira automática, a partir de:
anotações semânticas sobre o modelo do workflow
informações sobre o ambiente de execução
ERAD–SP 2016 4 / 16
5. Introdução
Estratégia Proposta para Paralelização
Experimentos e Resultados Obtidos
Considerações Finais
Anotações sobre o Tipo de Processamento
Anotações sobre Atributos dos Objetos de Dados
Reestruturação do workflow
Anotações sobre o Tipo de Processamento
Processamento por Objeto (PO):
indica que uma atividade processa cada objeto de dados de
entrada individualmente
Processamento por Grupo de Objetos (PG):
indica que uma atividade processa os objetos de dados de
entrada em grupos; os grupo são definidos por meio de
atributo(s) agrupador(es)
Estratégias para distribuição dos objetos de dados podem ser
aplicadas conforme as anotações sobre o tipo de processamento
ERAD–SP 2016 5 / 16
6. Introdução
Estratégia Proposta para Paralelização
Experimentos e Resultados Obtidos
Considerações Finais
Anotações sobre o Tipo de Processamento
Anotações sobre Atributos dos Objetos de Dados
Reestruturação do workflow
Anotações sobre Atributos dos Objetos de Dados
Seleção de Atributos (SA):
lista de atributos de um objeto de dados necessários
para uma atividade
Ordenação de Objetos (OO):
lista de atributos usados para a ordenação dos objetos de dados
As anotações sobre atributos permitem:
Definição de índices para ordenação
Seleção somente dos atributos necessários
ERAD–SP 2016 6 / 16
7. Introdução
Estratégia Proposta para Paralelização
Experimentos e Resultados Obtidos
Considerações Finais
Anotações sobre o Tipo de Processamento
Anotações sobre Atributos dos Objetos de Dados
Reestruturação do workflow
Reestruturação do workflow
...
... F_mF_1 F_2
E_n
G
A
B C D
E_1 E_2
ERAD–SP 2016 7 / 16
8. Introdução
Estratégia Proposta para Paralelização
Experimentos e Resultados Obtidos
Considerações Finais
Ambiente de Execução
Cenários avaliados
Resultados
Ambiente de execução
Total de objetos de dados manipulados: 5,8 milhões
Banco de dados Relacional: PostgreSQL
Banco de dados NoSQL: MongoDB
SGWf: Pegasus WMS
Plataforma de computação: Google Cloud
Total de execuções: 5 vezes
Nível de confiança: 95%
ERAD–SP 2016 8 / 16
9. Introdução
Estratégia Proposta para Paralelização
Experimentos e Resultados Obtidos
Considerações Finais
Ambiente de Execução
Cenários avaliados
Resultados
Arquitetura de um Cluster MongoDB
ERAD–SP 2016 9 / 16
10. Introdução
Estratégia Proposta para Paralelização
Experimentos e Resultados Obtidos
Considerações Finais
Ambiente de Execução
Cenários avaliados
Resultados
Cenários avaliados
Workflow SGBD Uso das
anotações
No
Partições
No
Réplicas
No Máq.
SGBD
No Nós
Execução
W-01 PostgreSQL Não 1 1 1 1
W-02 PostgreSQL Não 1 1 1 3
W-03∗ PostgreSQL Sim 1 1 1 3
W-04 MongoDB Não 1 1 1 1
W-05 MongoDB Não 1 1 1 3
W-06∗ MongoDB Sim 1 1 1 3
W-07 MongoDB Não 1 3 9 3
W-08∗ MongoDB Sim 1 3 9 3
W-09 MongoDB Não 3 3 15 9
W-10∗ MongoDB Sim 3 3 15 9
W-11∗ MongoDB Sim 3 3 15 9
∗
Cenário envolvendo o uso de anotações semânticas no workflow.
ERAD–SP 2016 10 / 16
13. Introdução
Estratégia Proposta para Paralelização
Experimentos e Resultados Obtidos
Considerações Finais
Resultados
Estratégia proposta resultou em:
Redução de até 88,4% do makespan em um sistema NoSQL
Redução do makespan de até 74,4% e do custo financeiro de
até 10,35% em cenários com as mesmas configurações e
número de máquinas virtuais.
ERAD–SP 2016 13 / 16
14. Introdução
Estratégia Proposta para Paralelização
Experimentos e Resultados Obtidos
Considerações Finais
Trabalhos futuros
Definição de novas anotações e estratégias de paralelismo de
dados
Avaliação de outros sistemas NoSQL
Análise do impacto da leitura de réplicas de dados
Experimentos para identificar relação entre número de
partições e nós de execução
ERAD–SP 2016 14 / 16
15. Introdução
Estratégia Proposta para Paralelização
Experimentos e Resultados Obtidos
Considerações Finais
Muito obrigada!
elainew@ime.usp.br
Essa pesquisa foi financiada pela CAPES e pelo NAPSoL-PRP-USP.
Os autores agradecem também ao Google pelos créditos concedidos
para o uso de sua plataforma de nuvem.
ERAD–SP 2016 15 / 16
16. Bibliografia
Mohammad Islam et. al. Oozie: Towards a Scalable Workflow
Management System for Hadoop. Proceedings of the 1st ACM
SIGMOD Workshop on Scalable Workflow Execution Engines and
Technologie, p. 4:1–4:10, 2012.
C.L. Philip Chen and Chun-Yang Zhang. Data-intensive applications,
challenges, techniques and technologies: A survey on Big Data.
Information Sciences, v.275, p.314-347, 2014.
Douglas E. M. de Oliveira et. al. Avaliação da Localidade de Dados
Intermediários na Execução Paralela de Workflows BigData.
Proceedings of 30th Brazilian Symposium on Databases, p.29-40,
2015.
ERAD–SP 2016 16 / 16