SlideShare uma empresa Scribd logo
1 de 76
Baixar para ler offline
Um M´etodo para Paralelizac¸ ˜ao Autom´atica de
Workflows Intensivos em Dados
Elaine Naomi Watanabe
elainew@ime.usp.br
Orientadora: Profa. Dra. Kelly Rosa Braghetto
Defesa de Mestrado
Departamento de Ciˆencia da Computac¸ ˜ao
Instituto de Matem´atica e Estat´ıstica
Universidade de S˜ao Paulo
22 de maio de 2017
Este trabalho foi financiado por uma bolsa da CAPES
Introduc¸ ˜ao
Fundamentac¸ ˜ao Te´orica
Trabalhos Relacionados
M´etodo para Paralelizac¸ ˜ao Autom´atica de Workflows
Avaliac¸ ˜ao do M´etodo Proposto
Considerac¸ ˜oes Finais
Motivac¸ ˜ao
Problema
Objetivos
Proposta
Validac¸ ˜ao
Roteiro
1 Introduc¸ ˜ao
Motivac¸ ˜ao
Problema
Objetivos
Proposta
Validac¸ ˜ao
2 Fundamentac¸ ˜ao Te´orica
3 Trabalhos Relacionados
4 M´etodo para Paralelizac¸ ˜ao Autom´atica de Workflows
5 Avaliac¸ ˜ao do M´etodo Proposto
6 Considerac¸ ˜oes Finais
Elaine Naomi Watanabe (IME-USP) Paralelizac¸ ˜ao Autom´atica de Workflows Intensivos em Dados 2 / 51
Introduc¸ ˜ao
Fundamentac¸ ˜ao Te´orica
Trabalhos Relacionados
M´etodo para Paralelizac¸ ˜ao Autom´atica de Workflows
Avaliac¸ ˜ao do M´etodo Proposto
Considerac¸ ˜oes Finais
Motivac¸ ˜ao
Problema
Objetivos
Proposta
Validac¸ ˜ao
Motivac¸ ˜ao
An´alise de GRANDES CONJUNTOS DE DADOS:
Na ciˆencia, ind´ustria, administrac¸ ˜ao p´ublica, etc
Desafio computacional
Elaine Naomi Watanabe (IME-USP) Paralelizac¸ ˜ao Autom´atica de Workflows Intensivos em Dados 3 / 51
Introduc¸ ˜ao
Fundamentac¸ ˜ao Te´orica
Trabalhos Relacionados
M´etodo para Paralelizac¸ ˜ao Autom´atica de Workflows
Avaliac¸ ˜ao do M´etodo Proposto
Considerac¸ ˜oes Finais
Motivac¸ ˜ao
Problema
Objetivos
Proposta
Validac¸ ˜ao
Motivac¸ ˜ao
Fluxos de atividades conectadas para an´alise de dados
Processos como filtragens, transformac¸ ˜oes, agregac¸ ˜oes
Foco em: WORKFLOWS INTENSIVOS EM DADOS
Dependˆencia de uma Plataforma de Alto Desempenho
Elaine Naomi Watanabe (IME-USP) Paralelizac¸ ˜ao Autom´atica de Workflows Intensivos em Dados 4 / 51
Introduc¸ ˜ao
Fundamentac¸ ˜ao Te´orica
Trabalhos Relacionados
M´etodo para Paralelizac¸ ˜ao Autom´atica de Workflows
Avaliac¸ ˜ao do M´etodo Proposto
Considerac¸ ˜oes Finais
Motivac¸ ˜ao
Problema
Objetivos
Proposta
Validac¸ ˜ao
Soluc¸ ˜oes Existentes para Execuc¸ ˜ao de Workflows
Modelos de Programac¸ ˜ao Orientada a Fluxo de Dados
Exige conhecimento de computac¸ ˜ao de alto desempenho
Ex.: MapReduce, Google Dataflow
Sistemas de Gerenciamento de Workflows (SGWfs)
Uso de modelo abstrato para descric¸ ˜ao
Para usu´arios n˜ao-especialistas em computac¸ ˜ao
paralela e distribu´ıda
Elaine Naomi Watanabe (IME-USP) Paralelizac¸ ˜ao Autom´atica de Workflows Intensivos em Dados 5 / 51
Introduc¸ ˜ao
Fundamentac¸ ˜ao Te´orica
Trabalhos Relacionados
M´etodo para Paralelizac¸ ˜ao Autom´atica de Workflows
Avaliac¸ ˜ao do M´etodo Proposto
Considerac¸ ˜oes Finais
Motivac¸ ˜ao
Problema
Objetivos
Proposta
Validac¸ ˜ao
Como melhorar a eficiˆencia da execuc¸ ˜ao de
Workflows Intensivos em Dados?
Agrupamento de atividades para a reduc¸ ˜ao da
transferˆencia de dados [Singh et al., 2008]
Uso de informac¸ ˜oes de localidade dos dados no
escalonamento [de Oliveira et al., 2015]
Modelos para paralelizac¸ ˜ao da execuc¸ ˜ao
[Pautasso and Alonso, 2006]
Elaine Naomi Watanabe (IME-USP) Paralelizac¸ ˜ao Autom´atica de Workflows Intensivos em Dados 6 / 51
Introduc¸ ˜ao
Fundamentac¸ ˜ao Te´orica
Trabalhos Relacionados
M´etodo para Paralelizac¸ ˜ao Autom´atica de Workflows
Avaliac¸ ˜ao do M´etodo Proposto
Considerac¸ ˜oes Finais
Motivac¸ ˜ao
Problema
Objetivos
Proposta
Validac¸ ˜ao
Problema
Em geral, estrutura do workflow define o paralelismo
SGWf desconhece o tipo de processamento do workflow
Execuc¸ ˜ao paralela autom´atica limitada
Usu´ario define a estrutura do workflow (fluxo dos dados)
Estrutura deve fazer uso eficiente do ambiente distribu´ıdo
Tarefa n˜ao-trivial
Como aumentar a paralelizac¸ ˜ao de workflows intensivos em
dados para reduzir seu tempo de execuc¸ ˜ao?
Elaine Naomi Watanabe (IME-USP) Paralelizac¸ ˜ao Autom´atica de Workflows Intensivos em Dados 7 / 51
Introduc¸ ˜ao
Fundamentac¸ ˜ao Te´orica
Trabalhos Relacionados
M´etodo para Paralelizac¸ ˜ao Autom´atica de Workflows
Avaliac¸ ˜ao do M´etodo Proposto
Considerac¸ ˜oes Finais
Motivac¸ ˜ao
Problema
Objetivos
Proposta
Validac¸ ˜ao
Objetivos
Paralelizar de forma autom´atica as atividades de um
workflow, sem a necessidade de um especialista em
computac¸ ˜ao paralela e distribu´ıda.
Melhorar a eficiˆencia de sua execuc¸ ˜ao, aumentando o
processamento distribu´ıdo e o acesso paralelo aos dados
manipulados.
Elaine Naomi Watanabe (IME-USP) Paralelizac¸ ˜ao Autom´atica de Workflows Intensivos em Dados 8 / 51
Introduc¸ ˜ao
Fundamentac¸ ˜ao Te´orica
Trabalhos Relacionados
M´etodo para Paralelizac¸ ˜ao Autom´atica de Workflows
Avaliac¸ ˜ao do M´etodo Proposto
Considerac¸ ˜oes Finais
Motivac¸ ˜ao
Problema
Objetivos
Proposta
Validac¸ ˜ao
M´etodo Proposto
Uso de anotac¸ ˜oes para caracterizar:
A semˆantica do processamento realizado por atividade
A forma de apresentac¸ ˜ao dos dados `as atividades
O banco de dados utilizado
Criac¸ ˜ao autom´atica de estrat´egias para paralelizac¸ ˜ao:
Uso das anotac¸ ˜oes para caracterizac¸ ˜ao do workflow
Uso das informac¸ ˜oes sobre o ambiente de execuc¸ ˜ao
Reestruturac¸ ˜ao do workflow
Modificac¸ ˜oes do banco de dados
Elaine Naomi Watanabe (IME-USP) Paralelizac¸ ˜ao Autom´atica de Workflows Intensivos em Dados 9 / 51
Introduc¸ ˜ao
Fundamentac¸ ˜ao Te´orica
Trabalhos Relacionados
M´etodo para Paralelizac¸ ˜ao Autom´atica de Workflows
Avaliac¸ ˜ao do M´etodo Proposto
Considerac¸ ˜oes Finais
Motivac¸ ˜ao
Problema
Objetivos
Proposta
Validac¸ ˜ao
Validac¸ ˜ao
Prot´otipo implementado: Ferramenta Sciwonc-Dataflow
SGWf: Pegasus
SGBDs avaliados:
PostgreSQL (Relacional) e MongoDB (NoSQL)
Plataforma de execuc¸ ˜ao: Nuvem da AWS
Execuc¸ ˜ao: 21 cen´arios centralizados ou distribu´ıdos
Comparac¸ ˜ao de workflows com e sem o uso do m´etodo
Avaliac¸ ˜ao: Tempo de execuc¸ ˜ao e custo monet´ario
Elaine Naomi Watanabe (IME-USP) Paralelizac¸ ˜ao Autom´atica de Workflows Intensivos em Dados 10 / 51
Introduc¸ ˜ao
Fundamentac¸ ˜ao Te´orica
Trabalhos Relacionados
M´etodo para Paralelizac¸ ˜ao Autom´atica de Workflows
Avaliac¸ ˜ao do M´etodo Proposto
Considerac¸ ˜oes Finais
Caracterizac¸ ˜ao e Execuc¸ ˜ao de Workflows
Sistemas Gerenciadores de Bancos de Dados
Roteiro
1 Introduc¸ ˜ao
2 Fundamentac¸ ˜ao Te´orica
Caracterizac¸ ˜ao e Execuc¸ ˜ao de Workflows
Sistemas Gerenciadores de Bancos de Dados
3 Trabalhos Relacionados
4 M´etodo para Paralelizac¸ ˜ao Autom´atica de Workflows
5 Avaliac¸ ˜ao do M´etodo Proposto
6 Considerac¸ ˜oes Finais
Elaine Naomi Watanabe (IME-USP) Paralelizac¸ ˜ao Autom´atica de Workflows Intensivos em Dados 11 / 51
Introduc¸ ˜ao
Fundamentac¸ ˜ao Te´orica
Trabalhos Relacionados
M´etodo para Paralelizac¸ ˜ao Autom´atica de Workflows
Avaliac¸ ˜ao do M´etodo Proposto
Considerac¸ ˜oes Finais
Caracterizac¸ ˜ao e Execuc¸ ˜ao de Workflows
Sistemas Gerenciadores de Bancos de Dados
Representac¸ ˜ao de um Workflow
Elaine Naomi Watanabe (IME-USP) Paralelizac¸ ˜ao Autom´atica de Workflows Intensivos em Dados 12 / 51
Introduc¸ ˜ao
Fundamentac¸ ˜ao Te´orica
Trabalhos Relacionados
M´etodo para Paralelizac¸ ˜ao Autom´atica de Workflows
Avaliac¸ ˜ao do M´etodo Proposto
Considerac¸ ˜oes Finais
Caracterizac¸ ˜ao e Execuc¸ ˜ao de Workflows
Sistemas Gerenciadores de Bancos de Dados
Representac¸ ˜ao de um Workflow
Elaine Naomi Watanabe (IME-USP) Paralelizac¸ ˜ao Autom´atica de Workflows Intensivos em Dados 12 / 51
Introduc¸ ˜ao
Fundamentac¸ ˜ao Te´orica
Trabalhos Relacionados
M´etodo para Paralelizac¸ ˜ao Autom´atica de Workflows
Avaliac¸ ˜ao do M´etodo Proposto
Considerac¸ ˜oes Finais
Caracterizac¸ ˜ao e Execuc¸ ˜ao de Workflows
Sistemas Gerenciadores de Bancos de Dados
Representac¸ ˜ao de um Workflow
Elaine Naomi Watanabe (IME-USP) Paralelizac¸ ˜ao Autom´atica de Workflows Intensivos em Dados 12 / 51
Introduc¸ ˜ao
Fundamentac¸ ˜ao Te´orica
Trabalhos Relacionados
M´etodo para Paralelizac¸ ˜ao Autom´atica de Workflows
Avaliac¸ ˜ao do M´etodo Proposto
Considerac¸ ˜oes Finais
Caracterizac¸ ˜ao e Execuc¸ ˜ao de Workflows
Sistemas Gerenciadores de Bancos de Dados
Representac¸ ˜ao de um Workflow
Elaine Naomi Watanabe (IME-USP) Paralelizac¸ ˜ao Autom´atica de Workflows Intensivos em Dados 12 / 51
Introduc¸ ˜ao
Fundamentac¸ ˜ao Te´orica
Trabalhos Relacionados
M´etodo para Paralelizac¸ ˜ao Autom´atica de Workflows
Avaliac¸ ˜ao do M´etodo Proposto
Considerac¸ ˜oes Finais
Caracterizac¸ ˜ao e Execuc¸ ˜ao de Workflows
Sistemas Gerenciadores de Bancos de Dados
Representac¸ ˜ao de um Workflow
Elaine Naomi Watanabe (IME-USP) Paralelizac¸ ˜ao Autom´atica de Workflows Intensivos em Dados 12 / 51
Introduc¸ ˜ao
Fundamentac¸ ˜ao Te´orica
Trabalhos Relacionados
M´etodo para Paralelizac¸ ˜ao Autom´atica de Workflows
Avaliac¸ ˜ao do M´etodo Proposto
Considerac¸ ˜oes Finais
Caracterizac¸ ˜ao e Execuc¸ ˜ao de Workflows
Sistemas Gerenciadores de Bancos de Dados
Representac¸ ˜ao de um Workflow
Elaine Naomi Watanabe (IME-USP) Paralelizac¸ ˜ao Autom´atica de Workflows Intensivos em Dados 12 / 51
Introduc¸ ˜ao
Fundamentac¸ ˜ao Te´orica
Trabalhos Relacionados
M´etodo para Paralelizac¸ ˜ao Autom´atica de Workflows
Avaliac¸ ˜ao do M´etodo Proposto
Considerac¸ ˜oes Finais
Caracterizac¸ ˜ao e Execuc¸ ˜ao de Workflows
Sistemas Gerenciadores de Bancos de Dados
Representac¸ ˜ao de um Workflow
Elaine Naomi Watanabe (IME-USP) Paralelizac¸ ˜ao Autom´atica de Workflows Intensivos em Dados 12 / 51
Introduc¸ ˜ao
Fundamentac¸ ˜ao Te´orica
Trabalhos Relacionados
M´etodo para Paralelizac¸ ˜ao Autom´atica de Workflows
Avaliac¸ ˜ao do M´etodo Proposto
Considerac¸ ˜oes Finais
Caracterizac¸ ˜ao e Execuc¸ ˜ao de Workflows
Sistemas Gerenciadores de Bancos de Dados
Sistema de Gerenciamento de Workflows
Elaine Naomi Watanabe (IME-USP) Paralelizac¸ ˜ao Autom´atica de Workflows Intensivos em Dados 13 / 51
Introduc¸ ˜ao
Fundamentac¸ ˜ao Te´orica
Trabalhos Relacionados
M´etodo para Paralelizac¸ ˜ao Autom´atica de Workflows
Avaliac¸ ˜ao do M´etodo Proposto
Considerac¸ ˜oes Finais
Caracterizac¸ ˜ao e Execuc¸ ˜ao de Workflows
Sistemas Gerenciadores de Bancos de Dados
Sistemas Gerenciadores de Bancos de Dados (SGBDs)
SGBDs Relacionais
Soluc¸ ˜ao bem sucedida para gerenciamento de dados
Escalabilidade vertical
Sistemas NoSQL
Escalabilidade horizontal
Replicac¸ ˜ao de dados
Fator de replicac¸ ˜ao
Qu´orum de gravac¸ ˜ao
Preferˆencia de leitura
Fragmentac¸ ˜ao de dados
Distribuic¸ ˜ao baseada em Hashing ou Intervalo
Elaine Naomi Watanabe (IME-USP) Paralelizac¸ ˜ao Autom´atica de Workflows Intensivos em Dados 14 / 51
Introduc¸ ˜ao
Fundamentac¸ ˜ao Te´orica
Trabalhos Relacionados
M´etodo para Paralelizac¸ ˜ao Autom´atica de Workflows
Avaliac¸ ˜ao do M´etodo Proposto
Considerac¸ ˜oes Finais
Roteiro
1 Introduc¸ ˜ao
2 Fundamentac¸ ˜ao Te´orica
3 Trabalhos Relacionados
4 M´etodo para Paralelizac¸ ˜ao Autom´atica de Workflows
5 Avaliac¸ ˜ao do M´etodo Proposto
6 Considerac¸ ˜oes Finais
Elaine Naomi Watanabe (IME-USP) Paralelizac¸ ˜ao Autom´atica de Workflows Intensivos em Dados 15 / 51
Introduc¸ ˜ao
Fundamentac¸ ˜ao Te´orica
Trabalhos Relacionados
M´etodo para Paralelizac¸ ˜ao Autom´atica de Workflows
Avaliac¸ ˜ao do M´etodo Proposto
Considerac¸ ˜oes Finais
Trabalhos Relacionados
Modelo de Programac¸ ˜ao Distribu´ıda
Ex. Hadoop, Oozie
Paralelizac¸ ˜ao de Atividades
Gerenciamento de Dados
Elaine Naomi Watanabe (IME-USP) Paralelizac¸ ˜ao Autom´atica de Workflows Intensivos em Dados 16 / 51
Introduc¸ ˜ao
Fundamentac¸ ˜ao Te´orica
Trabalhos Relacionados
M´etodo para Paralelizac¸ ˜ao Autom´atica de Workflows
Avaliac¸ ˜ao do M´etodo Proposto
Considerac¸ ˜oes Finais
Trabalhos Relacionados
Modelo de Programac¸ ˜ao Distribu´ıda
Paralelizac¸ ˜ao de Atividades
´Algebra para Workflows Cient´ıficos (SciWfA)
[Ogasawara et al., 2011]
Operador foreach do Swift/T
[Wilde et al., 2011, Wozniak et al., 2013]
An´alise do grafo que descreve o modelo do workflow
[Deelman et al., 2015]
Gerenciamento de Dados
Elaine Naomi Watanabe (IME-USP) Paralelizac¸ ˜ao Autom´atica de Workflows Intensivos em Dados 16 / 51
Introduc¸ ˜ao
Fundamentac¸ ˜ao Te´orica
Trabalhos Relacionados
M´etodo para Paralelizac¸ ˜ao Autom´atica de Workflows
Avaliac¸ ˜ao do M´etodo Proposto
Considerac¸ ˜oes Finais
Trabalhos Relacionados
Modelo de Programac¸ ˜ao Distribu´ıda
Paralelizac¸ ˜ao de Atividades
Gerenciamento de Dados
Desempenho e custo monet´ario de sist. de arquivos
distribu´ıdos x sist. de objetos na nuvem [Juve et al., 2012]
PostgreSQL x Cassandra para dados de proveniˆencia
[Ferreira et al., 2014]
Comparac¸ ˜ao do uso do PostgreSQL x HDFS para
armazenamento de grandes volumes de dados
[de Oliveira et al., 2014]
Elaine Naomi Watanabe (IME-USP) Paralelizac¸ ˜ao Autom´atica de Workflows Intensivos em Dados 16 / 51
Introduc¸ ˜ao
Fundamentac¸ ˜ao Te´orica
Trabalhos Relacionados
M´etodo para Paralelizac¸ ˜ao Autom´atica de Workflows
Avaliac¸ ˜ao do M´etodo Proposto
Considerac¸ ˜oes Finais
Anotac¸ ˜oes sobre o Workflow
Transformac¸ ˜oes baseadas na Semˆantica do Workflow
Roteiro
1 Introduc¸ ˜ao
2 Fundamentac¸ ˜ao Te´orica
3 Trabalhos Relacionados
4 M´etodo para Paralelizac¸ ˜ao Autom´atica de Workflows
Anotac¸ ˜oes sobre o Workflow
Transformac¸ ˜oes baseadas na Semˆantica do Workflow
5 Avaliac¸ ˜ao do M´etodo Proposto
6 Considerac¸ ˜oes Finais
Elaine Naomi Watanabe (IME-USP) Paralelizac¸ ˜ao Autom´atica de Workflows Intensivos em Dados 17 / 51
Introduc¸ ˜ao
Fundamentac¸ ˜ao Te´orica
Trabalhos Relacionados
M´etodo para Paralelizac¸ ˜ao Autom´atica de Workflows
Avaliac¸ ˜ao do M´etodo Proposto
Considerac¸ ˜oes Finais
Anotac¸ ˜oes sobre o Workflow
Transformac¸ ˜oes baseadas na Semˆantica do Workflow
ANOTAC¸ ˜OES PROPOSTAS
Elaine Naomi Watanabe (IME-USP) Paralelizac¸ ˜ao Autom´atica de Workflows Intensivos em Dados 18 / 51
Introduc¸ ˜ao
Fundamentac¸ ˜ao Te´orica
Trabalhos Relacionados
M´etodo para Paralelizac¸ ˜ao Autom´atica de Workflows
Avaliac¸ ˜ao do M´etodo Proposto
Considerac¸ ˜oes Finais
Anotac¸ ˜oes sobre o Workflow
Transformac¸ ˜oes baseadas na Semˆantica do Workflow
Para melhor compreens˜ao das anotac¸ ˜oes...
Modelo de workflow fict´ıcio PlayFlow:
An´alise de um log de execuc¸ ˜oes de m´usicas
de um usu´ario
Colec¸ ˜ao LogPlaylist:
(Hor´ario de In´ıcio, Hor´ario de T´ermino,
Usu´ario, M´usica, Artista, Durac¸ ˜ao da M´usica)
Elaine Naomi Watanabe (IME-USP) Paralelizac¸ ˜ao Autom´atica de Workflows Intensivos em Dados 19 / 51
Introduc¸ ˜ao
Fundamentac¸ ˜ao Te´orica
Trabalhos Relacionados
M´etodo para Paralelizac¸ ˜ao Autom´atica de Workflows
Avaliac¸ ˜ao do M´etodo Proposto
Considerac¸ ˜oes Finais
Anotac¸ ˜oes sobre o Workflow
Transformac¸ ˜oes baseadas na Semˆantica do Workflow
Colec¸ ˜oes de Entrada e de Sa´ıda
CE (NomeColec¸ ˜ao, DadosConex˜ao
[, Esquema] [, Particionado] [, PreferˆenciaLeitura] )
CS (NomeColec¸ ˜ao, DadosConex˜ao
[, Esquema][, ConsistˆenciaEscrita] )
Atividade A: Calcula o total de objetos da colec¸ ˜ao LogPlaylist
Salva esse total na colec¸ ˜ao Status
Elaine Naomi Watanabe (IME-USP) Paralelizac¸ ˜ao Autom´atica de Workflows Intensivos em Dados 20 / 51
Introduc¸ ˜ao
Fundamentac¸ ˜ao Te´orica
Trabalhos Relacionados
M´etodo para Paralelizac¸ ˜ao Autom´atica de Workflows
Avaliac¸ ˜ao do M´etodo Proposto
Considerac¸ ˜oes Finais
Anotac¸ ˜oes sobre o Workflow
Transformac¸ ˜oes baseadas na Semˆantica do Workflow
Selec¸ ˜ao de Atributos
SA (ListaAtributos)
Atividade A: Seleciona apenas os atributos Hor´ario de In´ıcio e
Hor´ario de T´ermino dos objetos da colec¸ ˜ao LogPlaylist
Elaine Naomi Watanabe (IME-USP) Paralelizac¸ ˜ao Autom´atica de Workflows Intensivos em Dados 21 / 51
Introduc¸ ˜ao
Fundamentac¸ ˜ao Te´orica
Trabalhos Relacionados
M´etodo para Paralelizac¸ ˜ao Autom´atica de Workflows
Avaliac¸ ˜ao do M´etodo Proposto
Considerac¸ ˜oes Finais
Anotac¸ ˜oes sobre o Workflow
Transformac¸ ˜oes baseadas na Semˆantica do Workflow
Ordenac¸ ˜ao dos Objetos
OO(ListaAtributos)
Atividade B: Identifica as 5 m´usicas mais longas de LogPlaylist
Ordena os objetos pelo atributo Durac¸ ˜ao da M´usica
Salva a lista na colec¸ ˜ao Top5M´usicasMaisLongas
Elaine Naomi Watanabe (IME-USP) Paralelizac¸ ˜ao Autom´atica de Workflows Intensivos em Dados 22 / 51
Introduc¸ ˜ao
Fundamentac¸ ˜ao Te´orica
Trabalhos Relacionados
M´etodo para Paralelizac¸ ˜ao Autom´atica de Workflows
Avaliac¸ ˜ao do M´etodo Proposto
Considerac¸ ˜oes Finais
Anotac¸ ˜oes sobre o Workflow
Transformac¸ ˜oes baseadas na Semˆantica do Workflow
Processamento por Objeto de dados
PO
Atividade C: Para cada objeto, verifica se a m´usica foi executada
at´e o final ou apenas parcialmente
Atividade D: Verifica qual ´e o perfil de execuc¸ ˜ao predominante
a partir dos dados da atividade C
Elaine Naomi Watanabe (IME-USP) Paralelizac¸ ˜ao Autom´atica de Workflows Intensivos em Dados 23 / 51
Introduc¸ ˜ao
Fundamentac¸ ˜ao Te´orica
Trabalhos Relacionados
M´etodo para Paralelizac¸ ˜ao Autom´atica de Workflows
Avaliac¸ ˜ao do M´etodo Proposto
Considerac¸ ˜oes Finais
Anotac¸ ˜oes sobre o Workflow
Transformac¸ ˜oes baseadas na Semˆantica do Workflow
Processamento de Grupos de Objetos
PG (ListaAtributosAgrupadores)
Atividade E: Conta o total de m´usicas por artista
Atividade F: Identifica o artista preferido
Elaine Naomi Watanabe (IME-USP) Paralelizac¸ ˜ao Autom´atica de Workflows Intensivos em Dados 24 / 51
Introduc¸ ˜ao
Fundamentac¸ ˜ao Te´orica
Trabalhos Relacionados
M´etodo para Paralelizac¸ ˜ao Autom´atica de Workflows
Avaliac¸ ˜ao do M´etodo Proposto
Considerac¸ ˜oes Finais
Anotac¸ ˜oes sobre o Workflow
Transformac¸ ˜oes baseadas na Semˆantica do Workflow
Processamento de Janelas de Tempo
PJT(AtributoSeparador, TamanhoJanela, UnidadeTempo)
Atividade G: Conta o total de execuc¸ ˜oes por dia
Atividade H: Calcula a m´edia de execuc¸ ˜oes por dia em um mˆes
Elaine Naomi Watanabe (IME-USP) Paralelizac¸ ˜ao Autom´atica de Workflows Intensivos em Dados 25 / 51
Introduc¸ ˜ao
Fundamentac¸ ˜ao Te´orica
Trabalhos Relacionados
M´etodo para Paralelizac¸ ˜ao Autom´atica de Workflows
Avaliac¸ ˜ao do M´etodo Proposto
Considerac¸ ˜oes Finais
Anotac¸ ˜oes sobre o Workflow
Transformac¸ ˜oes baseadas na Semˆantica do Workflow
Processamento por Valor Distinto
PVD(Atributo)
Atividade I: Identifica a lista de m´usicas ´unicas de LogPlaylist
Atividade J: Conta o total de m´usicas ´unicas
Elaine Naomi Watanabe (IME-USP) Paralelizac¸ ˜ao Autom´atica de Workflows Intensivos em Dados 26 / 51
Introduc¸ ˜ao
Fundamentac¸ ˜ao Te´orica
Trabalhos Relacionados
M´etodo para Paralelizac¸ ˜ao Autom´atica de Workflows
Avaliac¸ ˜ao do M´etodo Proposto
Considerac¸ ˜oes Finais
Anotac¸ ˜oes sobre o Workflow
Transformac¸ ˜oes baseadas na Semˆantica do Workflow
Transformac¸ ˜oes Baseadas nas Anotac¸ ˜oes
REESTRUTURAC¸ ˜AO DO WORKFLOW
Criac¸ ˜ao de r´eplicas de uma atividade anotada como
Processamento por:
Objetos (PO)
Grupos (PG)
Janelas de Tempo (PJT)
Associac¸ ˜ao de subconjuntos de objetos/grupos/janelas a
cada r´eplica
Elaine Naomi Watanabe (IME-USP) Paralelizac¸ ˜ao Autom´atica de Workflows Intensivos em Dados 27 / 51
Introduc¸ ˜ao
Fundamentac¸ ˜ao Te´orica
Trabalhos Relacionados
M´etodo para Paralelizac¸ ˜ao Autom´atica de Workflows
Avaliac¸ ˜ao do M´etodo Proposto
Considerac¸ ˜oes Finais
Anotac¸ ˜oes sobre o Workflow
Transformac¸ ˜oes baseadas na Semˆantica do Workflow
Transformac¸ ˜oes Baseadas nas Anotac¸ ˜oes
Elaine Naomi Watanabe (IME-USP) Paralelizac¸ ˜ao Autom´atica de Workflows Intensivos em Dados 27 / 51
Introduc¸ ˜ao
Fundamentac¸ ˜ao Te´orica
Trabalhos Relacionados
M´etodo para Paralelizac¸ ˜ao Autom´atica de Workflows
Avaliac¸ ˜ao do M´etodo Proposto
Considerac¸ ˜oes Finais
Anotac¸ ˜oes sobre o Workflow
Transformac¸ ˜oes baseadas na Semˆantica do Workflow
Transformac¸ ˜oes Baseadas nas Anotac¸ ˜oes
Elaine Naomi Watanabe (IME-USP) Paralelizac¸ ˜ao Autom´atica de Workflows Intensivos em Dados 27 / 51
Introduc¸ ˜ao
Fundamentac¸ ˜ao Te´orica
Trabalhos Relacionados
M´etodo para Paralelizac¸ ˜ao Autom´atica de Workflows
Avaliac¸ ˜ao do M´etodo Proposto
Considerac¸ ˜oes Finais
Anotac¸ ˜oes sobre o Workflow
Transformac¸ ˜oes baseadas na Semˆantica do Workflow
Transformac¸ ˜oes Baseadas nas Anotac¸ ˜oes
Elaine Naomi Watanabe (IME-USP) Paralelizac¸ ˜ao Autom´atica de Workflows Intensivos em Dados 27 / 51
Introduc¸ ˜ao
Fundamentac¸ ˜ao Te´orica
Trabalhos Relacionados
M´etodo para Paralelizac¸ ˜ao Autom´atica de Workflows
Avaliac¸ ˜ao do M´etodo Proposto
Considerac¸ ˜oes Finais
Anotac¸ ˜oes sobre o Workflow
Transformac¸ ˜oes baseadas na Semˆantica do Workflow
Transformac¸ ˜oes Baseadas nas Anotac¸ ˜oes
MODIFICAC¸ ˜OES NO BANCO DE DADOS
Criac¸ ˜ao de ´ındices de suporte para as anotac¸ ˜oes:
OO (ListaAtributos)
PG (ListaAtributosAgrupadores)
PJT (AtributoSeparador, TamanhoJanela, UnidadeTempo)
PDV (Atributo)
Elaine Naomi Watanabe (IME-USP) Paralelizac¸ ˜ao Autom´atica de Workflows Intensivos em Dados 27 / 51
Introduc¸ ˜ao
Fundamentac¸ ˜ao Te´orica
Trabalhos Relacionados
M´etodo para Paralelizac¸ ˜ao Autom´atica de Workflows
Avaliac¸ ˜ao do M´etodo Proposto
Considerac¸ ˜oes Finais
Anotac¸ ˜oes sobre o Workflow
Transformac¸ ˜oes baseadas na Semˆantica do Workflow
Transformac¸ ˜oes Baseadas nas Anotac¸ ˜oes
MODIFICAC¸ ˜OES NO BANCO DE DADOS
Definic¸ ˜ao do tipo de particionamento de colec¸ ˜oes
intermedi´arias:
An´alise de dependˆencia entre atividades
Anotac¸ ˜oes PO, PG e PJT
Elaine Naomi Watanabe (IME-USP) Paralelizac¸ ˜ao Autom´atica de Workflows Intensivos em Dados 27 / 51
Introduc¸ ˜ao
Fundamentac¸ ˜ao Te´orica
Trabalhos Relacionados
M´etodo para Paralelizac¸ ˜ao Autom´atica de Workflows
Avaliac¸ ˜ao do M´etodo Proposto
Considerac¸ ˜oes Finais
Anotac¸ ˜oes sobre o Workflow
Transformac¸ ˜oes baseadas na Semˆantica do Workflow
Transformac¸ ˜oes Baseadas nas Anotac¸ ˜oes
Elaine Naomi Watanabe (IME-USP) Paralelizac¸ ˜ao Autom´atica de Workflows Intensivos em Dados 27 / 51
Introduc¸ ˜ao
Fundamentac¸ ˜ao Te´orica
Trabalhos Relacionados
M´etodo para Paralelizac¸ ˜ao Autom´atica de Workflows
Avaliac¸ ˜ao do M´etodo Proposto
Considerac¸ ˜oes Finais
Ambiente Experimental
Experimento 1: Workflow para An´alise de Logs
Experimento 2: Workflow para An´alise da Wikip´edia
Roteiro
1 Introduc¸ ˜ao
2 Fundamentac¸ ˜ao Te´orica
3 Trabalhos Relacionados
4 M´etodo para Paralelizac¸ ˜ao Autom´atica de Workflows
5 Avaliac¸ ˜ao do M´etodo Proposto
Ambiente Experimental
Experimento 1: Workflow para An´alise de Logs
Experimento 2: Workflow para An´alise da Wikip´edia
6 Considerac¸ ˜oes Finais
Elaine Naomi Watanabe (IME-USP) Paralelizac¸ ˜ao Autom´atica de Workflows Intensivos em Dados 28 / 51
Introduc¸ ˜ao
Fundamentac¸ ˜ao Te´orica
Trabalhos Relacionados
M´etodo para Paralelizac¸ ˜ao Autom´atica de Workflows
Avaliac¸ ˜ao do M´etodo Proposto
Considerac¸ ˜oes Finais
Ambiente Experimental
Experimento 1: Workflow para An´alise de Logs
Experimento 2: Workflow para An´alise da Wikip´edia
Elaine Naomi Watanabe (IME-USP) Paralelizac¸ ˜ao Autom´atica de Workflows Intensivos em Dados 29 / 51
Introduc¸ ˜ao
Fundamentac¸ ˜ao Te´orica
Trabalhos Relacionados
M´etodo para Paralelizac¸ ˜ao Autom´atica de Workflows
Avaliac¸ ˜ao do M´etodo Proposto
Considerac¸ ˜oes Finais
Ambiente Experimental
Experimento 1: Workflow para An´alise de Logs
Experimento 2: Workflow para An´alise da Wikip´edia
Experimento 1:
Workflow para An´alise de Logs
Elaine Naomi Watanabe (IME-USP) Paralelizac¸ ˜ao Autom´atica de Workflows Intensivos em Dados 30 / 51
Introduc¸ ˜ao
Fundamentac¸ ˜ao Te´orica
Trabalhos Relacionados
M´etodo para Paralelizac¸ ˜ao Autom´atica de Workflows
Avaliac¸ ˜ao do M´etodo Proposto
Considerac¸ ˜oes Finais
Ambiente Experimental
Experimento 1: Workflow para An´alise de Logs
Experimento 2: Workflow para An´alise da Wikip´edia
DataSet Escolhido:
Registros de eventos relativos `a execuc¸ ˜ao de tarefas em
um cluster do Google [Reiss et al., 2011]
Modelo de Workflow Implementado:
Avaliac¸ ˜ao do perfil das tarefas executadas por
tipo de evento
Categorizac¸ ˜ao de tarefa como intensivas em CPU, em
mem´oria ou balanceadas para cada tipo de evento.
Colec¸ ˜ao de entrada: + 2,8 milh˜oes de objetos
Total de objetos manipulados: + 3,5 milh˜oes de objetos.
Elaine Naomi Watanabe (IME-USP) Paralelizac¸ ˜ao Autom´atica de Workflows Intensivos em Dados 31 / 51
Introduc¸ ˜ao
Fundamentac¸ ˜ao Te´orica
Trabalhos Relacionados
M´etodo para Paralelizac¸ ˜ao Autom´atica de Workflows
Avaliac¸ ˜ao do M´etodo Proposto
Considerac¸ ˜oes Finais
Ambiente Experimental
Experimento 1: Workflow para An´alise de Logs
Experimento 2: Workflow para An´alise da Wikip´edia
Elaine Naomi Watanabe (IME-USP) Paralelizac¸ ˜ao Autom´atica de Workflows Intensivos em Dados 32 / 51
Introduc¸ ˜ao
Fundamentac¸ ˜ao Te´orica
Trabalhos Relacionados
M´etodo para Paralelizac¸ ˜ao Autom´atica de Workflows
Avaliac¸ ˜ao do M´etodo Proposto
Considerac¸ ˜oes Finais
Ambiente Experimental
Experimento 1: Workflow para An´alise de Logs
Experimento 2: Workflow para An´alise da Wikip´edia
Elaine Naomi Watanabe (IME-USP) Paralelizac¸ ˜ao Autom´atica de Workflows Intensivos em Dados 32 / 51
Introduc¸ ˜ao
Fundamentac¸ ˜ao Te´orica
Trabalhos Relacionados
M´etodo para Paralelizac¸ ˜ao Autom´atica de Workflows
Avaliac¸ ˜ao do M´etodo Proposto
Considerac¸ ˜oes Finais
Ambiente Experimental
Experimento 1: Workflow para An´alise de Logs
Experimento 2: Workflow para An´alise da Wikip´edia
Makespan (minutos)
Elaine Naomi Watanabe (IME-USP) Paralelizac¸ ˜ao Autom´atica de Workflows Intensivos em Dados 33 / 51
Introduc¸ ˜ao
Fundamentac¸ ˜ao Te´orica
Trabalhos Relacionados
M´etodo para Paralelizac¸ ˜ao Autom´atica de Workflows
Avaliac¸ ˜ao do M´etodo Proposto
Considerac¸ ˜oes Finais
Ambiente Experimental
Experimento 1: Workflow para An´alise de Logs
Experimento 2: Workflow para An´alise da Wikip´edia
Makespan (minutos)
Elaine Naomi Watanabe (IME-USP) Paralelizac¸ ˜ao Autom´atica de Workflows Intensivos em Dados 33 / 51
Introduc¸ ˜ao
Fundamentac¸ ˜ao Te´orica
Trabalhos Relacionados
M´etodo para Paralelizac¸ ˜ao Autom´atica de Workflows
Avaliac¸ ˜ao do M´etodo Proposto
Considerac¸ ˜oes Finais
Ambiente Experimental
Experimento 1: Workflow para An´alise de Logs
Experimento 2: Workflow para An´alise da Wikip´edia
Makespan (minutos)
Elaine Naomi Watanabe (IME-USP) Paralelizac¸ ˜ao Autom´atica de Workflows Intensivos em Dados 33 / 51
Introduc¸ ˜ao
Fundamentac¸ ˜ao Te´orica
Trabalhos Relacionados
M´etodo para Paralelizac¸ ˜ao Autom´atica de Workflows
Avaliac¸ ˜ao do M´etodo Proposto
Considerac¸ ˜oes Finais
Ambiente Experimental
Experimento 1: Workflow para An´alise de Logs
Experimento 2: Workflow para An´alise da Wikip´edia
Makespan (minutos)
Elaine Naomi Watanabe (IME-USP) Paralelizac¸ ˜ao Autom´atica de Workflows Intensivos em Dados 33 / 51
Introduc¸ ˜ao
Fundamentac¸ ˜ao Te´orica
Trabalhos Relacionados
M´etodo para Paralelizac¸ ˜ao Autom´atica de Workflows
Avaliac¸ ˜ao do M´etodo Proposto
Considerac¸ ˜oes Finais
Ambiente Experimental
Experimento 1: Workflow para An´alise de Logs
Experimento 2: Workflow para An´alise da Wikip´edia
Makespan (minutos)
Elaine Naomi Watanabe (IME-USP) Paralelizac¸ ˜ao Autom´atica de Workflows Intensivos em Dados 33 / 51
Introduc¸ ˜ao
Fundamentac¸ ˜ao Te´orica
Trabalhos Relacionados
M´etodo para Paralelizac¸ ˜ao Autom´atica de Workflows
Avaliac¸ ˜ao do M´etodo Proposto
Considerac¸ ˜oes Finais
Ambiente Experimental
Experimento 1: Workflow para An´alise de Logs
Experimento 2: Workflow para An´alise da Wikip´edia
Makespan (minutos)
Elaine Naomi Watanabe (IME-USP) Paralelizac¸ ˜ao Autom´atica de Workflows Intensivos em Dados 33 / 51
Introduc¸ ˜ao
Fundamentac¸ ˜ao Te´orica
Trabalhos Relacionados
M´etodo para Paralelizac¸ ˜ao Autom´atica de Workflows
Avaliac¸ ˜ao do M´etodo Proposto
Considerac¸ ˜oes Finais
Ambiente Experimental
Experimento 1: Workflow para An´alise de Logs
Experimento 2: Workflow para An´alise da Wikip´edia
Custo Monet´ario (d´olares)
Elaine Naomi Watanabe (IME-USP) Paralelizac¸ ˜ao Autom´atica de Workflows Intensivos em Dados 34 / 51
Introduc¸ ˜ao
Fundamentac¸ ˜ao Te´orica
Trabalhos Relacionados
M´etodo para Paralelizac¸ ˜ao Autom´atica de Workflows
Avaliac¸ ˜ao do M´etodo Proposto
Considerac¸ ˜oes Finais
Ambiente Experimental
Experimento 1: Workflow para An´alise de Logs
Experimento 2: Workflow para An´alise da Wikip´edia
Atividade F - PG - Tempo de Execuc¸ ˜ao (minutos)
Elaine Naomi Watanabe (IME-USP) Paralelizac¸ ˜ao Autom´atica de Workflows Intensivos em Dados 35 / 51
Introduc¸ ˜ao
Fundamentac¸ ˜ao Te´orica
Trabalhos Relacionados
M´etodo para Paralelizac¸ ˜ao Autom´atica de Workflows
Avaliac¸ ˜ao do M´etodo Proposto
Considerac¸ ˜oes Finais
Ambiente Experimental
Experimento 1: Workflow para An´alise de Logs
Experimento 2: Workflow para An´alise da Wikip´edia
Atividade G - PO - Tempo de Execuc¸ ˜ao (minutos)
Elaine Naomi Watanabe (IME-USP) Paralelizac¸ ˜ao Autom´atica de Workflows Intensivos em Dados 36 / 51
Introduc¸ ˜ao
Fundamentac¸ ˜ao Te´orica
Trabalhos Relacionados
M´etodo para Paralelizac¸ ˜ao Autom´atica de Workflows
Avaliac¸ ˜ao do M´etodo Proposto
Considerac¸ ˜oes Finais
Ambiente Experimental
Experimento 1: Workflow para An´alise de Logs
Experimento 2: Workflow para An´alise da Wikip´edia
Atividade H - PG - Tempo de Execuc¸ ˜ao (segundos)
Elaine Naomi Watanabe (IME-USP) Paralelizac¸ ˜ao Autom´atica de Workflows Intensivos em Dados 37 / 51
Introduc¸ ˜ao
Fundamentac¸ ˜ao Te´orica
Trabalhos Relacionados
M´etodo para Paralelizac¸ ˜ao Autom´atica de Workflows
Avaliac¸ ˜ao do M´etodo Proposto
Considerac¸ ˜oes Finais
Ambiente Experimental
Experimento 1: Workflow para An´alise de Logs
Experimento 2: Workflow para An´alise da Wikip´edia
Experimento 2:
Workflow para An´alise de
Edic¸ ˜oes da Wikip´edia
Elaine Naomi Watanabe (IME-USP) Paralelizac¸ ˜ao Autom´atica de Workflows Intensivos em Dados 38 / 51
Introduc¸ ˜ao
Fundamentac¸ ˜ao Te´orica
Trabalhos Relacionados
M´etodo para Paralelizac¸ ˜ao Autom´atica de Workflows
Avaliac¸ ˜ao do M´etodo Proposto
Considerac¸ ˜oes Finais
Ambiente Experimental
Experimento 1: Workflow para An´alise de Logs
Experimento 2: Workflow para An´alise da Wikip´edia
DataSet Escolhido:
Registros de edic¸ ˜oes de p´aginas da Wikip´edia
Modelo de Workflow Implementado:
Identificac¸ ˜ao do usu´ario com o maior n´umero de edic¸ ˜oes
por sess˜ao
Workflow baseado no pipeline TopWikipediaSessions do
Google Cloud Dataflow.
Uma sess˜ao ´e um conjunto de edic¸ ˜oes com intervalos
inferiores a uma hora
Colec¸ ˜ao de entrada: + 19,4 milh˜oes de objetos (edic¸ ˜oes)
Total de objetos manipulados: + 20,4 milh˜oes de objetos
Elaine Naomi Watanabe (IME-USP) Paralelizac¸ ˜ao Autom´atica de Workflows Intensivos em Dados 39 / 51
Introduc¸ ˜ao
Fundamentac¸ ˜ao Te´orica
Trabalhos Relacionados
M´etodo para Paralelizac¸ ˜ao Autom´atica de Workflows
Avaliac¸ ˜ao do M´etodo Proposto
Considerac¸ ˜oes Finais
Ambiente Experimental
Experimento 1: Workflow para An´alise de Logs
Experimento 2: Workflow para An´alise da Wikip´edia
Elaine Naomi Watanabe (IME-USP) Paralelizac¸ ˜ao Autom´atica de Workflows Intensivos em Dados 40 / 51
Introduc¸ ˜ao
Fundamentac¸ ˜ao Te´orica
Trabalhos Relacionados
M´etodo para Paralelizac¸ ˜ao Autom´atica de Workflows
Avaliac¸ ˜ao do M´etodo Proposto
Considerac¸ ˜oes Finais
Ambiente Experimental
Experimento 1: Workflow para An´alise de Logs
Experimento 2: Workflow para An´alise da Wikip´edia
Elaine Naomi Watanabe (IME-USP) Paralelizac¸ ˜ao Autom´atica de Workflows Intensivos em Dados 40 / 51
Introduc¸ ˜ao
Fundamentac¸ ˜ao Te´orica
Trabalhos Relacionados
M´etodo para Paralelizac¸ ˜ao Autom´atica de Workflows
Avaliac¸ ˜ao do M´etodo Proposto
Considerac¸ ˜oes Finais
Ambiente Experimental
Experimento 1: Workflow para An´alise de Logs
Experimento 2: Workflow para An´alise da Wikip´edia
Makespan (minutos)
Elaine Naomi Watanabe (IME-USP) Paralelizac¸ ˜ao Autom´atica de Workflows Intensivos em Dados 41 / 51
Introduc¸ ˜ao
Fundamentac¸ ˜ao Te´orica
Trabalhos Relacionados
M´etodo para Paralelizac¸ ˜ao Autom´atica de Workflows
Avaliac¸ ˜ao do M´etodo Proposto
Considerac¸ ˜oes Finais
Ambiente Experimental
Experimento 1: Workflow para An´alise de Logs
Experimento 2: Workflow para An´alise da Wikip´edia
Custo monet´ario (d´olares)
Elaine Naomi Watanabe (IME-USP) Paralelizac¸ ˜ao Autom´atica de Workflows Intensivos em Dados 42 / 51
Introduc¸ ˜ao
Fundamentac¸ ˜ao Te´orica
Trabalhos Relacionados
M´etodo para Paralelizac¸ ˜ao Autom´atica de Workflows
Avaliac¸ ˜ao do M´etodo Proposto
Considerac¸ ˜oes Finais
Ambiente Experimental
Experimento 1: Workflow para An´alise de Logs
Experimento 2: Workflow para An´alise da Wikip´edia
Atividade C - PG - Tempo de Execuc¸ ˜ao (minutos)
Elaine Naomi Watanabe (IME-USP) Paralelizac¸ ˜ao Autom´atica de Workflows Intensivos em Dados 43 / 51
Introduc¸ ˜ao
Fundamentac¸ ˜ao Te´orica
Trabalhos Relacionados
M´etodo para Paralelizac¸ ˜ao Autom´atica de Workflows
Avaliac¸ ˜ao do M´etodo Proposto
Considerac¸ ˜oes Finais
Ambiente Experimental
Experimento 1: Workflow para An´alise de Logs
Experimento 2: Workflow para An´alise da Wikip´edia
Atividade D - PJT - Tempo de Execuc¸ ˜ao (segundos)
Elaine Naomi Watanabe (IME-USP) Paralelizac¸ ˜ao Autom´atica de Workflows Intensivos em Dados 44 / 51
Introduc¸ ˜ao
Fundamentac¸ ˜ao Te´orica
Trabalhos Relacionados
M´etodo para Paralelizac¸ ˜ao Autom´atica de Workflows
Avaliac¸ ˜ao do M´etodo Proposto
Considerac¸ ˜oes Finais
Resumo
Principais Contribuic¸ ˜oes
Pesquisas Futuras
Roteiro
1 Introduc¸ ˜ao
2 Fundamentac¸ ˜ao Te´orica
3 Trabalhos Relacionados
4 M´etodo para Paralelizac¸ ˜ao Autom´atica de Workflows
5 Avaliac¸ ˜ao do M´etodo Proposto
6 Considerac¸ ˜oes Finais
Resumo
Principais Contribuic¸ ˜oes
Pesquisas Futuras
Elaine Naomi Watanabe (IME-USP) Paralelizac¸ ˜ao Autom´atica de Workflows Intensivos em Dados 45 / 51
Introduc¸ ˜ao
Fundamentac¸ ˜ao Te´orica
Trabalhos Relacionados
M´etodo para Paralelizac¸ ˜ao Autom´atica de Workflows
Avaliac¸ ˜ao do M´etodo Proposto
Considerac¸ ˜oes Finais
Resumo
Principais Contribuic¸ ˜oes
Pesquisas Futuras
Resumo
Objetivo: Execuc¸ ˜ao eficiente de workflows intensivos em
dados
Soluc¸ ˜ao mais utilizada: Paralelismo de dados para
reduc¸ ˜ao do makespan
Limitac¸ ˜ao: Exigˆencia de um usu´ario especialista em
computac¸ ˜ao paralela e distribu´ıda
Proposta: Um m´etodo que utiliza a semˆantica do
processamento para paralelizac¸ ˜ao autom´atica
Resultados: Reduc¸ ˜ao de at´e 66,6% do makespan sem
aumentar custo monet´ario
Elaine Naomi Watanabe (IME-USP) Paralelizac¸ ˜ao Autom´atica de Workflows Intensivos em Dados 46 / 51
Introduc¸ ˜ao
Fundamentac¸ ˜ao Te´orica
Trabalhos Relacionados
M´etodo para Paralelizac¸ ˜ao Autom´atica de Workflows
Avaliac¸ ˜ao do M´etodo Proposto
Considerac¸ ˜oes Finais
Resumo
Principais Contribuic¸ ˜oes
Pesquisas Futuras
Aspectos Negativos
Uso do qu´orum majorit´ario
para escrita
Balanceamento de carga do
MongoDB
Desempenho da estrat´egia
aplicada `a anotac¸ ˜ao PJT
Aspectos Positivos
Leitura e escrita de c´opias
prim´arias: consistˆencia
Consistˆencia de escrita em
c´opias prim´arias: sem
impacto no custo monet´ario
Modelos de workflows
avaliados: viabilidade das
anotac¸ ˜oes PO e PG para
paralelizac¸ ˜ao
Elaine Naomi Watanabe (IME-USP) Paralelizac¸ ˜ao Autom´atica de Workflows Intensivos em Dados 47 / 51
Introduc¸ ˜ao
Fundamentac¸ ˜ao Te´orica
Trabalhos Relacionados
M´etodo para Paralelizac¸ ˜ao Autom´atica de Workflows
Avaliac¸ ˜ao do M´etodo Proposto
Considerac¸ ˜oes Finais
Resumo
Principais Contribuic¸ ˜oes
Pesquisas Futuras
Principais Contribuic¸ ˜oes
Proposta de nove anotac¸ ˜oes para caracterizac¸ ˜ao de
modelos de workflows
Um m´etodo para execuc¸ ˜ao mais eficiente de workflows
por meio da paralelizac¸ ˜ao autom´atica baseada na
semˆantica, n˜ao depende de conhecimento espec´ıfico
sobre programac¸ ˜ao paralela.
Implementac¸ ˜ao do m´etodo proposto como uma biblioteca
em Python
Avaliac¸ ˜ao do m´etodo por meio de dois workflows reais
em 21 cen´arios e demonstrac¸ ˜ao de sua eficiˆencia em
cen´arios distribu´ıdos
Elaine Naomi Watanabe (IME-USP) Paralelizac¸ ˜ao Autom´atica de Workflows Intensivos em Dados 48 / 51
Introduc¸ ˜ao
Fundamentac¸ ˜ao Te´orica
Trabalhos Relacionados
M´etodo para Paralelizac¸ ˜ao Autom´atica de Workflows
Avaliac¸ ˜ao do M´etodo Proposto
Considerac¸ ˜oes Finais
Resumo
Principais Contribuic¸ ˜oes
Pesquisas Futuras
Publicac¸ ˜ao dos resultados parciais nos Anais do
XXXI Simp´osio Brasileiro de Banco de Dados
(SBBD 2016)
Apresentac¸ ˜ao do m´etodo na
VII Escola Regional de Alto Desempenho de SP
(ERAD-SP 2016)
Elaine Naomi Watanabe (IME-USP) Paralelizac¸ ˜ao Autom´atica de Workflows Intensivos em Dados 49 / 51
Introduc¸ ˜ao
Fundamentac¸ ˜ao Te´orica
Trabalhos Relacionados
M´etodo para Paralelizac¸ ˜ao Autom´atica de Workflows
Avaliac¸ ˜ao do M´etodo Proposto
Considerac¸ ˜oes Finais
Resumo
Principais Contribuic¸ ˜oes
Pesquisas Futuras
Pesquisas Futuras
Avaliac¸ ˜ao de novos workflows e sistemas NoSQL
Comparac¸ ˜ao entre sistema NoSQL e um relacional
escal´avel (NewSQL)
Experimentos para identificar a relac¸ ˜ao entre o n´umero de
partic¸ ˜oes do banco de dados em func¸ ˜ao do n´umero de n´os
usados para a execuc¸ ˜ao
Avaliac¸ ˜ao da execuc¸ ˜ao em ambientes heterogˆeneos
Heur´ısticas para detecc¸ ˜ao autom´atica da semˆantica de
uma atividade
Elaine Naomi Watanabe (IME-USP) Paralelizac¸ ˜ao Autom´atica de Workflows Intensivos em Dados 50 / 51
Introduc¸ ˜ao
Fundamentac¸ ˜ao Te´orica
Trabalhos Relacionados
M´etodo para Paralelizac¸ ˜ao Autom´atica de Workflows
Avaliac¸ ˜ao do M´etodo Proposto
Considerac¸ ˜oes Finais
Resumo
Principais Contribuic¸ ˜oes
Pesquisas Futuras
Muito obrigada!
elainew@ime.usp.br
Elaine Naomi Watanabe (IME-USP) Paralelizac¸ ˜ao Autom´atica de Workflows Intensivos em Dados 51 / 51
Implementac¸ ˜ao do M´etodo I
Elaine Naomi Watanabe (IME-USP) Paralelizac¸ ˜ao Autom´atica de Workflows Intensivos em Dados 1 / 4
Elaine Naomi Watanabe (IME-USP) Paralelizac¸ ˜ao Autom´atica de Workflows Intensivos em Dados 2 / 4
de Oliveira, D. E. M., Boeres, C., Neto, A. F., and Porto, F. (2015).
Avaliac¸ ˜ao da localidade de dados intermedi´arios na execuc¸ ˜ao paralela de workflows BigData.
In Proceedings of 30th Brazilian Symposium on Databases, SBBD 2015, pages 29–40.
de Oliveira, D. E. M., Boeres, C., and Porto, F. (2014).
An´alise de estrat´egias de acesso a grandes volumes de dados.
In Proceedings of 29th Brazilian Symposium on Databases, pages 27–36.
Deelman, E., Vahi, K., Juve, G., Rynge, M., Callaghan, S., Maechling, P. J., Mayani, R., Chen, W.,
Ferreira da Silva, R., Livny, M., and Wenger, K. (2015).
Pegasus: a workflow management system for science automation.
Future Generation Computer Systems, 46:17–35.
Ferreira, G. R., Jr, C. F., and de Oliveira, D. (2014).
Uso de SGBDs NoSQL na gerˆencia da proveniˆencia distribu´ıda em workflows cient´ıficos.
In Proceedings of the 29th Brazilian Symposium on Databases, SBBD 2014, pages 187–196.
Juve, G., Deelman, E., Berriman, G. B., Berman, B. P., and Maechling, P. (2012).
An evaluation of the cost and performance of scientific workflows on Amazon EC2.
Journal of Grid Computing, 10(1):5–21.
Ogasawara, E., Oliveira, D., Valduriez, P., Dias, J., Porto, F., and Mattoso, M. (2011).
An algebraic approach for data-centric scientific workflows.
Proceedings of the VLDB Endowment, 4(12):1328–1339.
Elaine Naomi Watanabe (IME-USP) Paralelizac¸ ˜ao Autom´atica de Workflows Intensivos em Dados 3 / 4
Pautasso, C. and Alonso, G. (2006).
Parallel computing patterns for grid workflows.
In Proceedings of the 6th Workshop on Workflows in Support of Large-Scale Science, WORKS ’06, pages
1–10.
Reiss, C., Wilkes, J., and Hellerstein, J. L. (2011).
Google cluster-usage traces: format + schema.
Technical report, Google Inc., Mountain View, CA, USA.
Revised 2014-11-17 for version 2.1. Posted at https://github.com/google/cluster-data.
Singh, G., Su, M.-H., Vahi, K., Deelman, E., Berriman, B., Good, J., Katz, D. S., and Mehta, G. (2008).
Workflow task clustering for best effort systems with pegasus.
In Proceedings of the 15th ACM Mardi Gras Conference, MG ’08, pages 9:1–9:8.
Wilde, M., Hategan, M., Wozniak, J. M., Clifford, B., Katz, D. S., and Foster, I. (2011).
Swift: A language for distributed parallel scripting.
Parallel Computing, 37(9):633 – 652.
Wozniak, J. M., Armstrong, T. G., Wilde, M., Katz, D. S., Lusk, E., and Foster, I. T. (2013).
Swift/t: Large-scale application composition via distributed-memory dataflow processing.
In The 13th IEEE/ACM International Symposium on Cluster, Cloud, and Grid Computing, pages 95–102.
Elaine Naomi Watanabe (IME-USP) Paralelizac¸ ˜ao Autom´atica de Workflows Intensivos em Dados 4 / 4

Mais conteúdo relacionado

Semelhante a Um Método para Paralelização Automática de Workflows Intensivos em Dados

Modelagem Analítica para uso em Dados de Atividades Complementares
Modelagem Analítica para uso em Dados de Atividades ComplementaresModelagem Analítica para uso em Dados de Atividades Complementares
Modelagem Analítica para uso em Dados de Atividades ComplementaresProf. Dr. Leandro Augusto
 
Coders On Beer + Ministry Of Testing - Agile Testing
Coders On Beer + Ministry Of Testing - Agile TestingCoders On Beer + Ministry Of Testing - Agile Testing
Coders On Beer + Ministry Of Testing - Agile TestingSamanta Cicilia
 
Um Estudo sobre Gerenciamento de Variabilidade em Linhas de Processo de Software
Um Estudo sobre Gerenciamento de Variabilidade em Linhas de Processo de SoftwareUm Estudo sobre Gerenciamento de Variabilidade em Linhas de Processo de Software
Um Estudo sobre Gerenciamento de Variabilidade em Linhas de Processo de SoftwareEdson Oliveira Junior
 
Katálysis - Webshow - Automação Laboratorial V
Katálysis - Webshow - Automação Laboratorial VKatálysis - Webshow - Automação Laboratorial V
Katálysis - Webshow - Automação Laboratorial VKatálysis Científica
 
Explorando o Paralelismo em Workflows Intensivos em Dados com o Uso de Anotaç...
Explorando o Paralelismo em Workflows Intensivos em Dados com o Uso de Anotaç...Explorando o Paralelismo em Workflows Intensivos em Dados com o Uso de Anotaç...
Explorando o Paralelismo em Workflows Intensivos em Dados com o Uso de Anotaç...Elaine Naomi
 
Apresentação Final
Apresentação FinalApresentação Final
Apresentação Finalbetinho87
 
Microsoft ALM = Produtividade
Microsoft ALM = ProdutividadeMicrosoft ALM = Produtividade
Microsoft ALM = ProdutividadeAdriano Bertucci
 
Refactoring Databases
Refactoring DatabasesRefactoring Databases
Refactoring DatabasesIsmael
 
Planode Aula
Planode AulaPlanode Aula
Planode Aulasofteam
 
Curso excel intermediario
Curso excel intermediarioCurso excel intermediario
Curso excel intermediarioSula Souza
 
Curso excel intermediario
Curso excel intermediarioCurso excel intermediario
Curso excel intermediarioSula Souza
 
Gerenciamento de Configuração
Gerenciamento de ConfiguraçãoGerenciamento de Configuração
Gerenciamento de ConfiguraçãoMarcelo Yamaguti
 
Programação Orientada a Aspectos - PHPDay SERPRO Curitiba
Programação Orientada a Aspectos - PHPDay SERPRO CuritibaProgramação Orientada a Aspectos - PHPDay SERPRO Curitiba
Programação Orientada a Aspectos - PHPDay SERPRO Curitibawesleyklewerton
 
Programação Orientada a Aspectos em PHP
Programação Orientada a Aspectos em PHPProgramação Orientada a Aspectos em PHP
Programação Orientada a Aspectos em PHPPHP Day Curitiba
 
Testes Componentizados: Como esta Técnica pode Aumentar a Produtividade
Testes Componentizados: Como esta Técnica pode Aumentar a ProdutividadeTestes Componentizados: Como esta Técnica pode Aumentar a Produtividade
Testes Componentizados: Como esta Técnica pode Aumentar a ProdutividadeMarcelo Galvão
 
Projetando para WordPress
Projetando para WordPressProjetando para WordPress
Projetando para WordPressHaste Design
 

Semelhante a Um Método para Paralelização Automática de Workflows Intensivos em Dados (20)

Modelagem Analítica para uso em Dados de Atividades Complementares
Modelagem Analítica para uso em Dados de Atividades ComplementaresModelagem Analítica para uso em Dados de Atividades Complementares
Modelagem Analítica para uso em Dados de Atividades Complementares
 
Coders On Beer + Ministry Of Testing - Agile Testing
Coders On Beer + Ministry Of Testing - Agile TestingCoders On Beer + Ministry Of Testing - Agile Testing
Coders On Beer + Ministry Of Testing - Agile Testing
 
Um Estudo sobre Gerenciamento de Variabilidade em Linhas de Processo de Software
Um Estudo sobre Gerenciamento de Variabilidade em Linhas de Processo de SoftwareUm Estudo sobre Gerenciamento de Variabilidade em Linhas de Processo de Software
Um Estudo sobre Gerenciamento de Variabilidade em Linhas de Processo de Software
 
Katálysis - Webshow - Automação Laboratorial V
Katálysis - Webshow - Automação Laboratorial VKatálysis - Webshow - Automação Laboratorial V
Katálysis - Webshow - Automação Laboratorial V
 
Lean agile testing
Lean agile testingLean agile testing
Lean agile testing
 
Explorando o Paralelismo em Workflows Intensivos em Dados com o Uso de Anotaç...
Explorando o Paralelismo em Workflows Intensivos em Dados com o Uso de Anotaç...Explorando o Paralelismo em Workflows Intensivos em Dados com o Uso de Anotaç...
Explorando o Paralelismo em Workflows Intensivos em Dados com o Uso de Anotaç...
 
Excel
ExcelExcel
Excel
 
Apresentação Final
Apresentação FinalApresentação Final
Apresentação Final
 
Microsoft ALM = Produtividade
Microsoft ALM = ProdutividadeMicrosoft ALM = Produtividade
Microsoft ALM = Produtividade
 
Refactoring Databases
Refactoring DatabasesRefactoring Databases
Refactoring Databases
 
Sistemas Workflow
Sistemas WorkflowSistemas Workflow
Sistemas Workflow
 
Planode Aula
Planode AulaPlanode Aula
Planode Aula
 
Curso excel intermediario
Curso excel intermediarioCurso excel intermediario
Curso excel intermediario
 
Curso excel intermediario
Curso excel intermediarioCurso excel intermediario
Curso excel intermediario
 
Gerenciamento de Configuração
Gerenciamento de ConfiguraçãoGerenciamento de Configuração
Gerenciamento de Configuração
 
apresentação do planeamento de um exercício Caf na escola
apresentação do planeamento de um exercício Caf na escolaapresentação do planeamento de um exercício Caf na escola
apresentação do planeamento de um exercício Caf na escola
 
Programação Orientada a Aspectos - PHPDay SERPRO Curitiba
Programação Orientada a Aspectos - PHPDay SERPRO CuritibaProgramação Orientada a Aspectos - PHPDay SERPRO Curitiba
Programação Orientada a Aspectos - PHPDay SERPRO Curitiba
 
Programação Orientada a Aspectos em PHP
Programação Orientada a Aspectos em PHPProgramação Orientada a Aspectos em PHP
Programação Orientada a Aspectos em PHP
 
Testes Componentizados: Como esta Técnica pode Aumentar a Produtividade
Testes Componentizados: Como esta Técnica pode Aumentar a ProdutividadeTestes Componentizados: Como esta Técnica pode Aumentar a Produtividade
Testes Componentizados: Como esta Técnica pode Aumentar a Produtividade
 
Projetando para WordPress
Projetando para WordPressProjetando para WordPress
Projetando para WordPress
 

Mais de Elaine Naomi

Design de aplicações orientadas a objeto
Design de aplicações orientadas a objetoDesign de aplicações orientadas a objeto
Design de aplicações orientadas a objetoElaine Naomi
 
Sobre code smells, refactoring e design: como SOLID pode te ajudar no dia a dia
Sobre code smells, refactoring e design: como SOLID pode te ajudar no dia a diaSobre code smells, refactoring e design: como SOLID pode te ajudar no dia a dia
Sobre code smells, refactoring e design: como SOLID pode te ajudar no dia a diaElaine Naomi
 
Hacking Evening - Liskov Substitution Principle
Hacking Evening - Liskov Substitution PrincipleHacking Evening - Liskov Substitution Principle
Hacking Evening - Liskov Substitution PrincipleElaine Naomi
 
Code Smells: o que eles dizem sobre seu código?
Code Smells: o que eles dizem sobre seu código?Code Smells: o que eles dizem sobre seu código?
Code Smells: o que eles dizem sobre seu código?Elaine Naomi
 
Guru SP: Decodificando o code review
Guru SP: Decodificando o code reviewGuru SP: Decodificando o code review
Guru SP: Decodificando o code reviewElaine Naomi
 
Bootcamp de Rails - CaquiCoders Meetup
Bootcamp de Rails - CaquiCoders MeetupBootcamp de Rails - CaquiCoders Meetup
Bootcamp de Rails - CaquiCoders MeetupElaine Naomi
 
GURU SP - Design de aplicações orientadas a objeto
GURU SP - Design de aplicações orientadas a objetoGURU SP - Design de aplicações orientadas a objeto
GURU SP - Design de aplicações orientadas a objetoElaine Naomi
 
TDC SP 2019 - Decodificando o code review
TDC SP 2019 - Decodificando o code reviewTDC SP 2019 - Decodificando o code review
TDC SP 2019 - Decodificando o code reviewElaine Naomi
 
Além da programação funcional com Elixir e Erlang
Além da programação funcional com Elixir e ErlangAlém da programação funcional com Elixir e Erlang
Além da programação funcional com Elixir e ErlangElaine Naomi
 
Code review: o que isso diz sobre a cultura dos times de desenvolvimento?
Code review: o que isso diz sobre a cultura dos times de desenvolvimento?Code review: o que isso diz sobre a cultura dos times de desenvolvimento?
Code review: o que isso diz sobre a cultura dos times de desenvolvimento?Elaine Naomi
 
Uso de Anotações Semânticas para Exploração de Paralelismo em Workflows Inten...
Uso de Anotações Semânticas para Exploração de Paralelismo em Workflows Inten...Uso de Anotações Semânticas para Exploração de Paralelismo em Workflows Inten...
Uso de Anotações Semânticas para Exploração de Paralelismo em Workflows Inten...Elaine Naomi
 
Dealing with a search engine in your application - a Solr approach for beginners
Dealing with a search engine in your application - a Solr approach for beginnersDealing with a search engine in your application - a Solr approach for beginners
Dealing with a search engine in your application - a Solr approach for beginnersElaine Naomi
 
O que é BIG DATA e como pode influenciar nossas vidas
O que é BIG DATA e como pode influenciar nossas vidasO que é BIG DATA e como pode influenciar nossas vidas
O que é BIG DATA e como pode influenciar nossas vidasElaine Naomi
 
Introdução ao MongoDB
Introdução ao MongoDBIntrodução ao MongoDB
Introdução ao MongoDBElaine Naomi
 
Workflows científicos
Workflows científicosWorkflows científicos
Workflows científicosElaine Naomi
 
Algoritmos para economia de energia no escalonamento de workflows em nuvens c...
Algoritmos para economia de energia no escalonamento de workflows em nuvens c...Algoritmos para economia de energia no escalonamento de workflows em nuvens c...
Algoritmos para economia de energia no escalonamento de workflows em nuvens c...Elaine Naomi
 

Mais de Elaine Naomi (17)

Design de aplicações orientadas a objeto
Design de aplicações orientadas a objetoDesign de aplicações orientadas a objeto
Design de aplicações orientadas a objeto
 
Sobre code smells, refactoring e design: como SOLID pode te ajudar no dia a dia
Sobre code smells, refactoring e design: como SOLID pode te ajudar no dia a diaSobre code smells, refactoring e design: como SOLID pode te ajudar no dia a dia
Sobre code smells, refactoring e design: como SOLID pode te ajudar no dia a dia
 
Hacking Evening - Liskov Substitution Principle
Hacking Evening - Liskov Substitution PrincipleHacking Evening - Liskov Substitution Principle
Hacking Evening - Liskov Substitution Principle
 
Code Smells: o que eles dizem sobre seu código?
Code Smells: o que eles dizem sobre seu código?Code Smells: o que eles dizem sobre seu código?
Code Smells: o que eles dizem sobre seu código?
 
Guru SP: Decodificando o code review
Guru SP: Decodificando o code reviewGuru SP: Decodificando o code review
Guru SP: Decodificando o code review
 
Bootcamp de Rails - CaquiCoders Meetup
Bootcamp de Rails - CaquiCoders MeetupBootcamp de Rails - CaquiCoders Meetup
Bootcamp de Rails - CaquiCoders Meetup
 
GURU SP - Design de aplicações orientadas a objeto
GURU SP - Design de aplicações orientadas a objetoGURU SP - Design de aplicações orientadas a objeto
GURU SP - Design de aplicações orientadas a objeto
 
TDC SP 2019 - Decodificando o code review
TDC SP 2019 - Decodificando o code reviewTDC SP 2019 - Decodificando o code review
TDC SP 2019 - Decodificando o code review
 
Além da programação funcional com Elixir e Erlang
Além da programação funcional com Elixir e ErlangAlém da programação funcional com Elixir e Erlang
Além da programação funcional com Elixir e Erlang
 
Code review: o que isso diz sobre a cultura dos times de desenvolvimento?
Code review: o que isso diz sobre a cultura dos times de desenvolvimento?Code review: o que isso diz sobre a cultura dos times de desenvolvimento?
Code review: o que isso diz sobre a cultura dos times de desenvolvimento?
 
Uso de Anotações Semânticas para Exploração de Paralelismo em Workflows Inten...
Uso de Anotações Semânticas para Exploração de Paralelismo em Workflows Inten...Uso de Anotações Semânticas para Exploração de Paralelismo em Workflows Inten...
Uso de Anotações Semânticas para Exploração de Paralelismo em Workflows Inten...
 
Dealing with a search engine in your application - a Solr approach for beginners
Dealing with a search engine in your application - a Solr approach for beginnersDealing with a search engine in your application - a Solr approach for beginners
Dealing with a search engine in your application - a Solr approach for beginners
 
O que é BIG DATA e como pode influenciar nossas vidas
O que é BIG DATA e como pode influenciar nossas vidasO que é BIG DATA e como pode influenciar nossas vidas
O que é BIG DATA e como pode influenciar nossas vidas
 
Introdução ao MongoDB
Introdução ao MongoDBIntrodução ao MongoDB
Introdução ao MongoDB
 
Workflows científicos
Workflows científicosWorkflows científicos
Workflows científicos
 
Algoritmos para economia de energia no escalonamento de workflows em nuvens c...
Algoritmos para economia de energia no escalonamento de workflows em nuvens c...Algoritmos para economia de energia no escalonamento de workflows em nuvens c...
Algoritmos para economia de energia no escalonamento de workflows em nuvens c...
 
Qt Apresentação
Qt ApresentaçãoQt Apresentação
Qt Apresentação
 

Um Método para Paralelização Automática de Workflows Intensivos em Dados

  • 1. Um M´etodo para Paralelizac¸ ˜ao Autom´atica de Workflows Intensivos em Dados Elaine Naomi Watanabe elainew@ime.usp.br Orientadora: Profa. Dra. Kelly Rosa Braghetto Defesa de Mestrado Departamento de Ciˆencia da Computac¸ ˜ao Instituto de Matem´atica e Estat´ıstica Universidade de S˜ao Paulo 22 de maio de 2017 Este trabalho foi financiado por uma bolsa da CAPES
  • 2. Introduc¸ ˜ao Fundamentac¸ ˜ao Te´orica Trabalhos Relacionados M´etodo para Paralelizac¸ ˜ao Autom´atica de Workflows Avaliac¸ ˜ao do M´etodo Proposto Considerac¸ ˜oes Finais Motivac¸ ˜ao Problema Objetivos Proposta Validac¸ ˜ao Roteiro 1 Introduc¸ ˜ao Motivac¸ ˜ao Problema Objetivos Proposta Validac¸ ˜ao 2 Fundamentac¸ ˜ao Te´orica 3 Trabalhos Relacionados 4 M´etodo para Paralelizac¸ ˜ao Autom´atica de Workflows 5 Avaliac¸ ˜ao do M´etodo Proposto 6 Considerac¸ ˜oes Finais Elaine Naomi Watanabe (IME-USP) Paralelizac¸ ˜ao Autom´atica de Workflows Intensivos em Dados 2 / 51
  • 3. Introduc¸ ˜ao Fundamentac¸ ˜ao Te´orica Trabalhos Relacionados M´etodo para Paralelizac¸ ˜ao Autom´atica de Workflows Avaliac¸ ˜ao do M´etodo Proposto Considerac¸ ˜oes Finais Motivac¸ ˜ao Problema Objetivos Proposta Validac¸ ˜ao Motivac¸ ˜ao An´alise de GRANDES CONJUNTOS DE DADOS: Na ciˆencia, ind´ustria, administrac¸ ˜ao p´ublica, etc Desafio computacional Elaine Naomi Watanabe (IME-USP) Paralelizac¸ ˜ao Autom´atica de Workflows Intensivos em Dados 3 / 51
  • 4. Introduc¸ ˜ao Fundamentac¸ ˜ao Te´orica Trabalhos Relacionados M´etodo para Paralelizac¸ ˜ao Autom´atica de Workflows Avaliac¸ ˜ao do M´etodo Proposto Considerac¸ ˜oes Finais Motivac¸ ˜ao Problema Objetivos Proposta Validac¸ ˜ao Motivac¸ ˜ao Fluxos de atividades conectadas para an´alise de dados Processos como filtragens, transformac¸ ˜oes, agregac¸ ˜oes Foco em: WORKFLOWS INTENSIVOS EM DADOS Dependˆencia de uma Plataforma de Alto Desempenho Elaine Naomi Watanabe (IME-USP) Paralelizac¸ ˜ao Autom´atica de Workflows Intensivos em Dados 4 / 51
  • 5. Introduc¸ ˜ao Fundamentac¸ ˜ao Te´orica Trabalhos Relacionados M´etodo para Paralelizac¸ ˜ao Autom´atica de Workflows Avaliac¸ ˜ao do M´etodo Proposto Considerac¸ ˜oes Finais Motivac¸ ˜ao Problema Objetivos Proposta Validac¸ ˜ao Soluc¸ ˜oes Existentes para Execuc¸ ˜ao de Workflows Modelos de Programac¸ ˜ao Orientada a Fluxo de Dados Exige conhecimento de computac¸ ˜ao de alto desempenho Ex.: MapReduce, Google Dataflow Sistemas de Gerenciamento de Workflows (SGWfs) Uso de modelo abstrato para descric¸ ˜ao Para usu´arios n˜ao-especialistas em computac¸ ˜ao paralela e distribu´ıda Elaine Naomi Watanabe (IME-USP) Paralelizac¸ ˜ao Autom´atica de Workflows Intensivos em Dados 5 / 51
  • 6. Introduc¸ ˜ao Fundamentac¸ ˜ao Te´orica Trabalhos Relacionados M´etodo para Paralelizac¸ ˜ao Autom´atica de Workflows Avaliac¸ ˜ao do M´etodo Proposto Considerac¸ ˜oes Finais Motivac¸ ˜ao Problema Objetivos Proposta Validac¸ ˜ao Como melhorar a eficiˆencia da execuc¸ ˜ao de Workflows Intensivos em Dados? Agrupamento de atividades para a reduc¸ ˜ao da transferˆencia de dados [Singh et al., 2008] Uso de informac¸ ˜oes de localidade dos dados no escalonamento [de Oliveira et al., 2015] Modelos para paralelizac¸ ˜ao da execuc¸ ˜ao [Pautasso and Alonso, 2006] Elaine Naomi Watanabe (IME-USP) Paralelizac¸ ˜ao Autom´atica de Workflows Intensivos em Dados 6 / 51
  • 7. Introduc¸ ˜ao Fundamentac¸ ˜ao Te´orica Trabalhos Relacionados M´etodo para Paralelizac¸ ˜ao Autom´atica de Workflows Avaliac¸ ˜ao do M´etodo Proposto Considerac¸ ˜oes Finais Motivac¸ ˜ao Problema Objetivos Proposta Validac¸ ˜ao Problema Em geral, estrutura do workflow define o paralelismo SGWf desconhece o tipo de processamento do workflow Execuc¸ ˜ao paralela autom´atica limitada Usu´ario define a estrutura do workflow (fluxo dos dados) Estrutura deve fazer uso eficiente do ambiente distribu´ıdo Tarefa n˜ao-trivial Como aumentar a paralelizac¸ ˜ao de workflows intensivos em dados para reduzir seu tempo de execuc¸ ˜ao? Elaine Naomi Watanabe (IME-USP) Paralelizac¸ ˜ao Autom´atica de Workflows Intensivos em Dados 7 / 51
  • 8. Introduc¸ ˜ao Fundamentac¸ ˜ao Te´orica Trabalhos Relacionados M´etodo para Paralelizac¸ ˜ao Autom´atica de Workflows Avaliac¸ ˜ao do M´etodo Proposto Considerac¸ ˜oes Finais Motivac¸ ˜ao Problema Objetivos Proposta Validac¸ ˜ao Objetivos Paralelizar de forma autom´atica as atividades de um workflow, sem a necessidade de um especialista em computac¸ ˜ao paralela e distribu´ıda. Melhorar a eficiˆencia de sua execuc¸ ˜ao, aumentando o processamento distribu´ıdo e o acesso paralelo aos dados manipulados. Elaine Naomi Watanabe (IME-USP) Paralelizac¸ ˜ao Autom´atica de Workflows Intensivos em Dados 8 / 51
  • 9. Introduc¸ ˜ao Fundamentac¸ ˜ao Te´orica Trabalhos Relacionados M´etodo para Paralelizac¸ ˜ao Autom´atica de Workflows Avaliac¸ ˜ao do M´etodo Proposto Considerac¸ ˜oes Finais Motivac¸ ˜ao Problema Objetivos Proposta Validac¸ ˜ao M´etodo Proposto Uso de anotac¸ ˜oes para caracterizar: A semˆantica do processamento realizado por atividade A forma de apresentac¸ ˜ao dos dados `as atividades O banco de dados utilizado Criac¸ ˜ao autom´atica de estrat´egias para paralelizac¸ ˜ao: Uso das anotac¸ ˜oes para caracterizac¸ ˜ao do workflow Uso das informac¸ ˜oes sobre o ambiente de execuc¸ ˜ao Reestruturac¸ ˜ao do workflow Modificac¸ ˜oes do banco de dados Elaine Naomi Watanabe (IME-USP) Paralelizac¸ ˜ao Autom´atica de Workflows Intensivos em Dados 9 / 51
  • 10. Introduc¸ ˜ao Fundamentac¸ ˜ao Te´orica Trabalhos Relacionados M´etodo para Paralelizac¸ ˜ao Autom´atica de Workflows Avaliac¸ ˜ao do M´etodo Proposto Considerac¸ ˜oes Finais Motivac¸ ˜ao Problema Objetivos Proposta Validac¸ ˜ao Validac¸ ˜ao Prot´otipo implementado: Ferramenta Sciwonc-Dataflow SGWf: Pegasus SGBDs avaliados: PostgreSQL (Relacional) e MongoDB (NoSQL) Plataforma de execuc¸ ˜ao: Nuvem da AWS Execuc¸ ˜ao: 21 cen´arios centralizados ou distribu´ıdos Comparac¸ ˜ao de workflows com e sem o uso do m´etodo Avaliac¸ ˜ao: Tempo de execuc¸ ˜ao e custo monet´ario Elaine Naomi Watanabe (IME-USP) Paralelizac¸ ˜ao Autom´atica de Workflows Intensivos em Dados 10 / 51
  • 11. Introduc¸ ˜ao Fundamentac¸ ˜ao Te´orica Trabalhos Relacionados M´etodo para Paralelizac¸ ˜ao Autom´atica de Workflows Avaliac¸ ˜ao do M´etodo Proposto Considerac¸ ˜oes Finais Caracterizac¸ ˜ao e Execuc¸ ˜ao de Workflows Sistemas Gerenciadores de Bancos de Dados Roteiro 1 Introduc¸ ˜ao 2 Fundamentac¸ ˜ao Te´orica Caracterizac¸ ˜ao e Execuc¸ ˜ao de Workflows Sistemas Gerenciadores de Bancos de Dados 3 Trabalhos Relacionados 4 M´etodo para Paralelizac¸ ˜ao Autom´atica de Workflows 5 Avaliac¸ ˜ao do M´etodo Proposto 6 Considerac¸ ˜oes Finais Elaine Naomi Watanabe (IME-USP) Paralelizac¸ ˜ao Autom´atica de Workflows Intensivos em Dados 11 / 51
  • 12. Introduc¸ ˜ao Fundamentac¸ ˜ao Te´orica Trabalhos Relacionados M´etodo para Paralelizac¸ ˜ao Autom´atica de Workflows Avaliac¸ ˜ao do M´etodo Proposto Considerac¸ ˜oes Finais Caracterizac¸ ˜ao e Execuc¸ ˜ao de Workflows Sistemas Gerenciadores de Bancos de Dados Representac¸ ˜ao de um Workflow Elaine Naomi Watanabe (IME-USP) Paralelizac¸ ˜ao Autom´atica de Workflows Intensivos em Dados 12 / 51
  • 13. Introduc¸ ˜ao Fundamentac¸ ˜ao Te´orica Trabalhos Relacionados M´etodo para Paralelizac¸ ˜ao Autom´atica de Workflows Avaliac¸ ˜ao do M´etodo Proposto Considerac¸ ˜oes Finais Caracterizac¸ ˜ao e Execuc¸ ˜ao de Workflows Sistemas Gerenciadores de Bancos de Dados Representac¸ ˜ao de um Workflow Elaine Naomi Watanabe (IME-USP) Paralelizac¸ ˜ao Autom´atica de Workflows Intensivos em Dados 12 / 51
  • 14. Introduc¸ ˜ao Fundamentac¸ ˜ao Te´orica Trabalhos Relacionados M´etodo para Paralelizac¸ ˜ao Autom´atica de Workflows Avaliac¸ ˜ao do M´etodo Proposto Considerac¸ ˜oes Finais Caracterizac¸ ˜ao e Execuc¸ ˜ao de Workflows Sistemas Gerenciadores de Bancos de Dados Representac¸ ˜ao de um Workflow Elaine Naomi Watanabe (IME-USP) Paralelizac¸ ˜ao Autom´atica de Workflows Intensivos em Dados 12 / 51
  • 15. Introduc¸ ˜ao Fundamentac¸ ˜ao Te´orica Trabalhos Relacionados M´etodo para Paralelizac¸ ˜ao Autom´atica de Workflows Avaliac¸ ˜ao do M´etodo Proposto Considerac¸ ˜oes Finais Caracterizac¸ ˜ao e Execuc¸ ˜ao de Workflows Sistemas Gerenciadores de Bancos de Dados Representac¸ ˜ao de um Workflow Elaine Naomi Watanabe (IME-USP) Paralelizac¸ ˜ao Autom´atica de Workflows Intensivos em Dados 12 / 51
  • 16. Introduc¸ ˜ao Fundamentac¸ ˜ao Te´orica Trabalhos Relacionados M´etodo para Paralelizac¸ ˜ao Autom´atica de Workflows Avaliac¸ ˜ao do M´etodo Proposto Considerac¸ ˜oes Finais Caracterizac¸ ˜ao e Execuc¸ ˜ao de Workflows Sistemas Gerenciadores de Bancos de Dados Representac¸ ˜ao de um Workflow Elaine Naomi Watanabe (IME-USP) Paralelizac¸ ˜ao Autom´atica de Workflows Intensivos em Dados 12 / 51
  • 17. Introduc¸ ˜ao Fundamentac¸ ˜ao Te´orica Trabalhos Relacionados M´etodo para Paralelizac¸ ˜ao Autom´atica de Workflows Avaliac¸ ˜ao do M´etodo Proposto Considerac¸ ˜oes Finais Caracterizac¸ ˜ao e Execuc¸ ˜ao de Workflows Sistemas Gerenciadores de Bancos de Dados Representac¸ ˜ao de um Workflow Elaine Naomi Watanabe (IME-USP) Paralelizac¸ ˜ao Autom´atica de Workflows Intensivos em Dados 12 / 51
  • 18. Introduc¸ ˜ao Fundamentac¸ ˜ao Te´orica Trabalhos Relacionados M´etodo para Paralelizac¸ ˜ao Autom´atica de Workflows Avaliac¸ ˜ao do M´etodo Proposto Considerac¸ ˜oes Finais Caracterizac¸ ˜ao e Execuc¸ ˜ao de Workflows Sistemas Gerenciadores de Bancos de Dados Representac¸ ˜ao de um Workflow Elaine Naomi Watanabe (IME-USP) Paralelizac¸ ˜ao Autom´atica de Workflows Intensivos em Dados 12 / 51
  • 19. Introduc¸ ˜ao Fundamentac¸ ˜ao Te´orica Trabalhos Relacionados M´etodo para Paralelizac¸ ˜ao Autom´atica de Workflows Avaliac¸ ˜ao do M´etodo Proposto Considerac¸ ˜oes Finais Caracterizac¸ ˜ao e Execuc¸ ˜ao de Workflows Sistemas Gerenciadores de Bancos de Dados Sistema de Gerenciamento de Workflows Elaine Naomi Watanabe (IME-USP) Paralelizac¸ ˜ao Autom´atica de Workflows Intensivos em Dados 13 / 51
  • 20. Introduc¸ ˜ao Fundamentac¸ ˜ao Te´orica Trabalhos Relacionados M´etodo para Paralelizac¸ ˜ao Autom´atica de Workflows Avaliac¸ ˜ao do M´etodo Proposto Considerac¸ ˜oes Finais Caracterizac¸ ˜ao e Execuc¸ ˜ao de Workflows Sistemas Gerenciadores de Bancos de Dados Sistemas Gerenciadores de Bancos de Dados (SGBDs) SGBDs Relacionais Soluc¸ ˜ao bem sucedida para gerenciamento de dados Escalabilidade vertical Sistemas NoSQL Escalabilidade horizontal Replicac¸ ˜ao de dados Fator de replicac¸ ˜ao Qu´orum de gravac¸ ˜ao Preferˆencia de leitura Fragmentac¸ ˜ao de dados Distribuic¸ ˜ao baseada em Hashing ou Intervalo Elaine Naomi Watanabe (IME-USP) Paralelizac¸ ˜ao Autom´atica de Workflows Intensivos em Dados 14 / 51
  • 21. Introduc¸ ˜ao Fundamentac¸ ˜ao Te´orica Trabalhos Relacionados M´etodo para Paralelizac¸ ˜ao Autom´atica de Workflows Avaliac¸ ˜ao do M´etodo Proposto Considerac¸ ˜oes Finais Roteiro 1 Introduc¸ ˜ao 2 Fundamentac¸ ˜ao Te´orica 3 Trabalhos Relacionados 4 M´etodo para Paralelizac¸ ˜ao Autom´atica de Workflows 5 Avaliac¸ ˜ao do M´etodo Proposto 6 Considerac¸ ˜oes Finais Elaine Naomi Watanabe (IME-USP) Paralelizac¸ ˜ao Autom´atica de Workflows Intensivos em Dados 15 / 51
  • 22. Introduc¸ ˜ao Fundamentac¸ ˜ao Te´orica Trabalhos Relacionados M´etodo para Paralelizac¸ ˜ao Autom´atica de Workflows Avaliac¸ ˜ao do M´etodo Proposto Considerac¸ ˜oes Finais Trabalhos Relacionados Modelo de Programac¸ ˜ao Distribu´ıda Ex. Hadoop, Oozie Paralelizac¸ ˜ao de Atividades Gerenciamento de Dados Elaine Naomi Watanabe (IME-USP) Paralelizac¸ ˜ao Autom´atica de Workflows Intensivos em Dados 16 / 51
  • 23. Introduc¸ ˜ao Fundamentac¸ ˜ao Te´orica Trabalhos Relacionados M´etodo para Paralelizac¸ ˜ao Autom´atica de Workflows Avaliac¸ ˜ao do M´etodo Proposto Considerac¸ ˜oes Finais Trabalhos Relacionados Modelo de Programac¸ ˜ao Distribu´ıda Paralelizac¸ ˜ao de Atividades ´Algebra para Workflows Cient´ıficos (SciWfA) [Ogasawara et al., 2011] Operador foreach do Swift/T [Wilde et al., 2011, Wozniak et al., 2013] An´alise do grafo que descreve o modelo do workflow [Deelman et al., 2015] Gerenciamento de Dados Elaine Naomi Watanabe (IME-USP) Paralelizac¸ ˜ao Autom´atica de Workflows Intensivos em Dados 16 / 51
  • 24. Introduc¸ ˜ao Fundamentac¸ ˜ao Te´orica Trabalhos Relacionados M´etodo para Paralelizac¸ ˜ao Autom´atica de Workflows Avaliac¸ ˜ao do M´etodo Proposto Considerac¸ ˜oes Finais Trabalhos Relacionados Modelo de Programac¸ ˜ao Distribu´ıda Paralelizac¸ ˜ao de Atividades Gerenciamento de Dados Desempenho e custo monet´ario de sist. de arquivos distribu´ıdos x sist. de objetos na nuvem [Juve et al., 2012] PostgreSQL x Cassandra para dados de proveniˆencia [Ferreira et al., 2014] Comparac¸ ˜ao do uso do PostgreSQL x HDFS para armazenamento de grandes volumes de dados [de Oliveira et al., 2014] Elaine Naomi Watanabe (IME-USP) Paralelizac¸ ˜ao Autom´atica de Workflows Intensivos em Dados 16 / 51
  • 25. Introduc¸ ˜ao Fundamentac¸ ˜ao Te´orica Trabalhos Relacionados M´etodo para Paralelizac¸ ˜ao Autom´atica de Workflows Avaliac¸ ˜ao do M´etodo Proposto Considerac¸ ˜oes Finais Anotac¸ ˜oes sobre o Workflow Transformac¸ ˜oes baseadas na Semˆantica do Workflow Roteiro 1 Introduc¸ ˜ao 2 Fundamentac¸ ˜ao Te´orica 3 Trabalhos Relacionados 4 M´etodo para Paralelizac¸ ˜ao Autom´atica de Workflows Anotac¸ ˜oes sobre o Workflow Transformac¸ ˜oes baseadas na Semˆantica do Workflow 5 Avaliac¸ ˜ao do M´etodo Proposto 6 Considerac¸ ˜oes Finais Elaine Naomi Watanabe (IME-USP) Paralelizac¸ ˜ao Autom´atica de Workflows Intensivos em Dados 17 / 51
  • 26. Introduc¸ ˜ao Fundamentac¸ ˜ao Te´orica Trabalhos Relacionados M´etodo para Paralelizac¸ ˜ao Autom´atica de Workflows Avaliac¸ ˜ao do M´etodo Proposto Considerac¸ ˜oes Finais Anotac¸ ˜oes sobre o Workflow Transformac¸ ˜oes baseadas na Semˆantica do Workflow ANOTAC¸ ˜OES PROPOSTAS Elaine Naomi Watanabe (IME-USP) Paralelizac¸ ˜ao Autom´atica de Workflows Intensivos em Dados 18 / 51
  • 27. Introduc¸ ˜ao Fundamentac¸ ˜ao Te´orica Trabalhos Relacionados M´etodo para Paralelizac¸ ˜ao Autom´atica de Workflows Avaliac¸ ˜ao do M´etodo Proposto Considerac¸ ˜oes Finais Anotac¸ ˜oes sobre o Workflow Transformac¸ ˜oes baseadas na Semˆantica do Workflow Para melhor compreens˜ao das anotac¸ ˜oes... Modelo de workflow fict´ıcio PlayFlow: An´alise de um log de execuc¸ ˜oes de m´usicas de um usu´ario Colec¸ ˜ao LogPlaylist: (Hor´ario de In´ıcio, Hor´ario de T´ermino, Usu´ario, M´usica, Artista, Durac¸ ˜ao da M´usica) Elaine Naomi Watanabe (IME-USP) Paralelizac¸ ˜ao Autom´atica de Workflows Intensivos em Dados 19 / 51
  • 28. Introduc¸ ˜ao Fundamentac¸ ˜ao Te´orica Trabalhos Relacionados M´etodo para Paralelizac¸ ˜ao Autom´atica de Workflows Avaliac¸ ˜ao do M´etodo Proposto Considerac¸ ˜oes Finais Anotac¸ ˜oes sobre o Workflow Transformac¸ ˜oes baseadas na Semˆantica do Workflow Colec¸ ˜oes de Entrada e de Sa´ıda CE (NomeColec¸ ˜ao, DadosConex˜ao [, Esquema] [, Particionado] [, PreferˆenciaLeitura] ) CS (NomeColec¸ ˜ao, DadosConex˜ao [, Esquema][, ConsistˆenciaEscrita] ) Atividade A: Calcula o total de objetos da colec¸ ˜ao LogPlaylist Salva esse total na colec¸ ˜ao Status Elaine Naomi Watanabe (IME-USP) Paralelizac¸ ˜ao Autom´atica de Workflows Intensivos em Dados 20 / 51
  • 29. Introduc¸ ˜ao Fundamentac¸ ˜ao Te´orica Trabalhos Relacionados M´etodo para Paralelizac¸ ˜ao Autom´atica de Workflows Avaliac¸ ˜ao do M´etodo Proposto Considerac¸ ˜oes Finais Anotac¸ ˜oes sobre o Workflow Transformac¸ ˜oes baseadas na Semˆantica do Workflow Selec¸ ˜ao de Atributos SA (ListaAtributos) Atividade A: Seleciona apenas os atributos Hor´ario de In´ıcio e Hor´ario de T´ermino dos objetos da colec¸ ˜ao LogPlaylist Elaine Naomi Watanabe (IME-USP) Paralelizac¸ ˜ao Autom´atica de Workflows Intensivos em Dados 21 / 51
  • 30. Introduc¸ ˜ao Fundamentac¸ ˜ao Te´orica Trabalhos Relacionados M´etodo para Paralelizac¸ ˜ao Autom´atica de Workflows Avaliac¸ ˜ao do M´etodo Proposto Considerac¸ ˜oes Finais Anotac¸ ˜oes sobre o Workflow Transformac¸ ˜oes baseadas na Semˆantica do Workflow Ordenac¸ ˜ao dos Objetos OO(ListaAtributos) Atividade B: Identifica as 5 m´usicas mais longas de LogPlaylist Ordena os objetos pelo atributo Durac¸ ˜ao da M´usica Salva a lista na colec¸ ˜ao Top5M´usicasMaisLongas Elaine Naomi Watanabe (IME-USP) Paralelizac¸ ˜ao Autom´atica de Workflows Intensivos em Dados 22 / 51
  • 31. Introduc¸ ˜ao Fundamentac¸ ˜ao Te´orica Trabalhos Relacionados M´etodo para Paralelizac¸ ˜ao Autom´atica de Workflows Avaliac¸ ˜ao do M´etodo Proposto Considerac¸ ˜oes Finais Anotac¸ ˜oes sobre o Workflow Transformac¸ ˜oes baseadas na Semˆantica do Workflow Processamento por Objeto de dados PO Atividade C: Para cada objeto, verifica se a m´usica foi executada at´e o final ou apenas parcialmente Atividade D: Verifica qual ´e o perfil de execuc¸ ˜ao predominante a partir dos dados da atividade C Elaine Naomi Watanabe (IME-USP) Paralelizac¸ ˜ao Autom´atica de Workflows Intensivos em Dados 23 / 51
  • 32. Introduc¸ ˜ao Fundamentac¸ ˜ao Te´orica Trabalhos Relacionados M´etodo para Paralelizac¸ ˜ao Autom´atica de Workflows Avaliac¸ ˜ao do M´etodo Proposto Considerac¸ ˜oes Finais Anotac¸ ˜oes sobre o Workflow Transformac¸ ˜oes baseadas na Semˆantica do Workflow Processamento de Grupos de Objetos PG (ListaAtributosAgrupadores) Atividade E: Conta o total de m´usicas por artista Atividade F: Identifica o artista preferido Elaine Naomi Watanabe (IME-USP) Paralelizac¸ ˜ao Autom´atica de Workflows Intensivos em Dados 24 / 51
  • 33. Introduc¸ ˜ao Fundamentac¸ ˜ao Te´orica Trabalhos Relacionados M´etodo para Paralelizac¸ ˜ao Autom´atica de Workflows Avaliac¸ ˜ao do M´etodo Proposto Considerac¸ ˜oes Finais Anotac¸ ˜oes sobre o Workflow Transformac¸ ˜oes baseadas na Semˆantica do Workflow Processamento de Janelas de Tempo PJT(AtributoSeparador, TamanhoJanela, UnidadeTempo) Atividade G: Conta o total de execuc¸ ˜oes por dia Atividade H: Calcula a m´edia de execuc¸ ˜oes por dia em um mˆes Elaine Naomi Watanabe (IME-USP) Paralelizac¸ ˜ao Autom´atica de Workflows Intensivos em Dados 25 / 51
  • 34. Introduc¸ ˜ao Fundamentac¸ ˜ao Te´orica Trabalhos Relacionados M´etodo para Paralelizac¸ ˜ao Autom´atica de Workflows Avaliac¸ ˜ao do M´etodo Proposto Considerac¸ ˜oes Finais Anotac¸ ˜oes sobre o Workflow Transformac¸ ˜oes baseadas na Semˆantica do Workflow Processamento por Valor Distinto PVD(Atributo) Atividade I: Identifica a lista de m´usicas ´unicas de LogPlaylist Atividade J: Conta o total de m´usicas ´unicas Elaine Naomi Watanabe (IME-USP) Paralelizac¸ ˜ao Autom´atica de Workflows Intensivos em Dados 26 / 51
  • 35. Introduc¸ ˜ao Fundamentac¸ ˜ao Te´orica Trabalhos Relacionados M´etodo para Paralelizac¸ ˜ao Autom´atica de Workflows Avaliac¸ ˜ao do M´etodo Proposto Considerac¸ ˜oes Finais Anotac¸ ˜oes sobre o Workflow Transformac¸ ˜oes baseadas na Semˆantica do Workflow Transformac¸ ˜oes Baseadas nas Anotac¸ ˜oes REESTRUTURAC¸ ˜AO DO WORKFLOW Criac¸ ˜ao de r´eplicas de uma atividade anotada como Processamento por: Objetos (PO) Grupos (PG) Janelas de Tempo (PJT) Associac¸ ˜ao de subconjuntos de objetos/grupos/janelas a cada r´eplica Elaine Naomi Watanabe (IME-USP) Paralelizac¸ ˜ao Autom´atica de Workflows Intensivos em Dados 27 / 51
  • 36. Introduc¸ ˜ao Fundamentac¸ ˜ao Te´orica Trabalhos Relacionados M´etodo para Paralelizac¸ ˜ao Autom´atica de Workflows Avaliac¸ ˜ao do M´etodo Proposto Considerac¸ ˜oes Finais Anotac¸ ˜oes sobre o Workflow Transformac¸ ˜oes baseadas na Semˆantica do Workflow Transformac¸ ˜oes Baseadas nas Anotac¸ ˜oes Elaine Naomi Watanabe (IME-USP) Paralelizac¸ ˜ao Autom´atica de Workflows Intensivos em Dados 27 / 51
  • 37. Introduc¸ ˜ao Fundamentac¸ ˜ao Te´orica Trabalhos Relacionados M´etodo para Paralelizac¸ ˜ao Autom´atica de Workflows Avaliac¸ ˜ao do M´etodo Proposto Considerac¸ ˜oes Finais Anotac¸ ˜oes sobre o Workflow Transformac¸ ˜oes baseadas na Semˆantica do Workflow Transformac¸ ˜oes Baseadas nas Anotac¸ ˜oes Elaine Naomi Watanabe (IME-USP) Paralelizac¸ ˜ao Autom´atica de Workflows Intensivos em Dados 27 / 51
  • 38. Introduc¸ ˜ao Fundamentac¸ ˜ao Te´orica Trabalhos Relacionados M´etodo para Paralelizac¸ ˜ao Autom´atica de Workflows Avaliac¸ ˜ao do M´etodo Proposto Considerac¸ ˜oes Finais Anotac¸ ˜oes sobre o Workflow Transformac¸ ˜oes baseadas na Semˆantica do Workflow Transformac¸ ˜oes Baseadas nas Anotac¸ ˜oes Elaine Naomi Watanabe (IME-USP) Paralelizac¸ ˜ao Autom´atica de Workflows Intensivos em Dados 27 / 51
  • 39. Introduc¸ ˜ao Fundamentac¸ ˜ao Te´orica Trabalhos Relacionados M´etodo para Paralelizac¸ ˜ao Autom´atica de Workflows Avaliac¸ ˜ao do M´etodo Proposto Considerac¸ ˜oes Finais Anotac¸ ˜oes sobre o Workflow Transformac¸ ˜oes baseadas na Semˆantica do Workflow Transformac¸ ˜oes Baseadas nas Anotac¸ ˜oes MODIFICAC¸ ˜OES NO BANCO DE DADOS Criac¸ ˜ao de ´ındices de suporte para as anotac¸ ˜oes: OO (ListaAtributos) PG (ListaAtributosAgrupadores) PJT (AtributoSeparador, TamanhoJanela, UnidadeTempo) PDV (Atributo) Elaine Naomi Watanabe (IME-USP) Paralelizac¸ ˜ao Autom´atica de Workflows Intensivos em Dados 27 / 51
  • 40. Introduc¸ ˜ao Fundamentac¸ ˜ao Te´orica Trabalhos Relacionados M´etodo para Paralelizac¸ ˜ao Autom´atica de Workflows Avaliac¸ ˜ao do M´etodo Proposto Considerac¸ ˜oes Finais Anotac¸ ˜oes sobre o Workflow Transformac¸ ˜oes baseadas na Semˆantica do Workflow Transformac¸ ˜oes Baseadas nas Anotac¸ ˜oes MODIFICAC¸ ˜OES NO BANCO DE DADOS Definic¸ ˜ao do tipo de particionamento de colec¸ ˜oes intermedi´arias: An´alise de dependˆencia entre atividades Anotac¸ ˜oes PO, PG e PJT Elaine Naomi Watanabe (IME-USP) Paralelizac¸ ˜ao Autom´atica de Workflows Intensivos em Dados 27 / 51
  • 41. Introduc¸ ˜ao Fundamentac¸ ˜ao Te´orica Trabalhos Relacionados M´etodo para Paralelizac¸ ˜ao Autom´atica de Workflows Avaliac¸ ˜ao do M´etodo Proposto Considerac¸ ˜oes Finais Anotac¸ ˜oes sobre o Workflow Transformac¸ ˜oes baseadas na Semˆantica do Workflow Transformac¸ ˜oes Baseadas nas Anotac¸ ˜oes Elaine Naomi Watanabe (IME-USP) Paralelizac¸ ˜ao Autom´atica de Workflows Intensivos em Dados 27 / 51
  • 42. Introduc¸ ˜ao Fundamentac¸ ˜ao Te´orica Trabalhos Relacionados M´etodo para Paralelizac¸ ˜ao Autom´atica de Workflows Avaliac¸ ˜ao do M´etodo Proposto Considerac¸ ˜oes Finais Ambiente Experimental Experimento 1: Workflow para An´alise de Logs Experimento 2: Workflow para An´alise da Wikip´edia Roteiro 1 Introduc¸ ˜ao 2 Fundamentac¸ ˜ao Te´orica 3 Trabalhos Relacionados 4 M´etodo para Paralelizac¸ ˜ao Autom´atica de Workflows 5 Avaliac¸ ˜ao do M´etodo Proposto Ambiente Experimental Experimento 1: Workflow para An´alise de Logs Experimento 2: Workflow para An´alise da Wikip´edia 6 Considerac¸ ˜oes Finais Elaine Naomi Watanabe (IME-USP) Paralelizac¸ ˜ao Autom´atica de Workflows Intensivos em Dados 28 / 51
  • 43. Introduc¸ ˜ao Fundamentac¸ ˜ao Te´orica Trabalhos Relacionados M´etodo para Paralelizac¸ ˜ao Autom´atica de Workflows Avaliac¸ ˜ao do M´etodo Proposto Considerac¸ ˜oes Finais Ambiente Experimental Experimento 1: Workflow para An´alise de Logs Experimento 2: Workflow para An´alise da Wikip´edia Elaine Naomi Watanabe (IME-USP) Paralelizac¸ ˜ao Autom´atica de Workflows Intensivos em Dados 29 / 51
  • 44. Introduc¸ ˜ao Fundamentac¸ ˜ao Te´orica Trabalhos Relacionados M´etodo para Paralelizac¸ ˜ao Autom´atica de Workflows Avaliac¸ ˜ao do M´etodo Proposto Considerac¸ ˜oes Finais Ambiente Experimental Experimento 1: Workflow para An´alise de Logs Experimento 2: Workflow para An´alise da Wikip´edia Experimento 1: Workflow para An´alise de Logs Elaine Naomi Watanabe (IME-USP) Paralelizac¸ ˜ao Autom´atica de Workflows Intensivos em Dados 30 / 51
  • 45. Introduc¸ ˜ao Fundamentac¸ ˜ao Te´orica Trabalhos Relacionados M´etodo para Paralelizac¸ ˜ao Autom´atica de Workflows Avaliac¸ ˜ao do M´etodo Proposto Considerac¸ ˜oes Finais Ambiente Experimental Experimento 1: Workflow para An´alise de Logs Experimento 2: Workflow para An´alise da Wikip´edia DataSet Escolhido: Registros de eventos relativos `a execuc¸ ˜ao de tarefas em um cluster do Google [Reiss et al., 2011] Modelo de Workflow Implementado: Avaliac¸ ˜ao do perfil das tarefas executadas por tipo de evento Categorizac¸ ˜ao de tarefa como intensivas em CPU, em mem´oria ou balanceadas para cada tipo de evento. Colec¸ ˜ao de entrada: + 2,8 milh˜oes de objetos Total de objetos manipulados: + 3,5 milh˜oes de objetos. Elaine Naomi Watanabe (IME-USP) Paralelizac¸ ˜ao Autom´atica de Workflows Intensivos em Dados 31 / 51
  • 46. Introduc¸ ˜ao Fundamentac¸ ˜ao Te´orica Trabalhos Relacionados M´etodo para Paralelizac¸ ˜ao Autom´atica de Workflows Avaliac¸ ˜ao do M´etodo Proposto Considerac¸ ˜oes Finais Ambiente Experimental Experimento 1: Workflow para An´alise de Logs Experimento 2: Workflow para An´alise da Wikip´edia Elaine Naomi Watanabe (IME-USP) Paralelizac¸ ˜ao Autom´atica de Workflows Intensivos em Dados 32 / 51
  • 47. Introduc¸ ˜ao Fundamentac¸ ˜ao Te´orica Trabalhos Relacionados M´etodo para Paralelizac¸ ˜ao Autom´atica de Workflows Avaliac¸ ˜ao do M´etodo Proposto Considerac¸ ˜oes Finais Ambiente Experimental Experimento 1: Workflow para An´alise de Logs Experimento 2: Workflow para An´alise da Wikip´edia Elaine Naomi Watanabe (IME-USP) Paralelizac¸ ˜ao Autom´atica de Workflows Intensivos em Dados 32 / 51
  • 48. Introduc¸ ˜ao Fundamentac¸ ˜ao Te´orica Trabalhos Relacionados M´etodo para Paralelizac¸ ˜ao Autom´atica de Workflows Avaliac¸ ˜ao do M´etodo Proposto Considerac¸ ˜oes Finais Ambiente Experimental Experimento 1: Workflow para An´alise de Logs Experimento 2: Workflow para An´alise da Wikip´edia Makespan (minutos) Elaine Naomi Watanabe (IME-USP) Paralelizac¸ ˜ao Autom´atica de Workflows Intensivos em Dados 33 / 51
  • 49. Introduc¸ ˜ao Fundamentac¸ ˜ao Te´orica Trabalhos Relacionados M´etodo para Paralelizac¸ ˜ao Autom´atica de Workflows Avaliac¸ ˜ao do M´etodo Proposto Considerac¸ ˜oes Finais Ambiente Experimental Experimento 1: Workflow para An´alise de Logs Experimento 2: Workflow para An´alise da Wikip´edia Makespan (minutos) Elaine Naomi Watanabe (IME-USP) Paralelizac¸ ˜ao Autom´atica de Workflows Intensivos em Dados 33 / 51
  • 50. Introduc¸ ˜ao Fundamentac¸ ˜ao Te´orica Trabalhos Relacionados M´etodo para Paralelizac¸ ˜ao Autom´atica de Workflows Avaliac¸ ˜ao do M´etodo Proposto Considerac¸ ˜oes Finais Ambiente Experimental Experimento 1: Workflow para An´alise de Logs Experimento 2: Workflow para An´alise da Wikip´edia Makespan (minutos) Elaine Naomi Watanabe (IME-USP) Paralelizac¸ ˜ao Autom´atica de Workflows Intensivos em Dados 33 / 51
  • 51. Introduc¸ ˜ao Fundamentac¸ ˜ao Te´orica Trabalhos Relacionados M´etodo para Paralelizac¸ ˜ao Autom´atica de Workflows Avaliac¸ ˜ao do M´etodo Proposto Considerac¸ ˜oes Finais Ambiente Experimental Experimento 1: Workflow para An´alise de Logs Experimento 2: Workflow para An´alise da Wikip´edia Makespan (minutos) Elaine Naomi Watanabe (IME-USP) Paralelizac¸ ˜ao Autom´atica de Workflows Intensivos em Dados 33 / 51
  • 52. Introduc¸ ˜ao Fundamentac¸ ˜ao Te´orica Trabalhos Relacionados M´etodo para Paralelizac¸ ˜ao Autom´atica de Workflows Avaliac¸ ˜ao do M´etodo Proposto Considerac¸ ˜oes Finais Ambiente Experimental Experimento 1: Workflow para An´alise de Logs Experimento 2: Workflow para An´alise da Wikip´edia Makespan (minutos) Elaine Naomi Watanabe (IME-USP) Paralelizac¸ ˜ao Autom´atica de Workflows Intensivos em Dados 33 / 51
  • 53. Introduc¸ ˜ao Fundamentac¸ ˜ao Te´orica Trabalhos Relacionados M´etodo para Paralelizac¸ ˜ao Autom´atica de Workflows Avaliac¸ ˜ao do M´etodo Proposto Considerac¸ ˜oes Finais Ambiente Experimental Experimento 1: Workflow para An´alise de Logs Experimento 2: Workflow para An´alise da Wikip´edia Makespan (minutos) Elaine Naomi Watanabe (IME-USP) Paralelizac¸ ˜ao Autom´atica de Workflows Intensivos em Dados 33 / 51
  • 54. Introduc¸ ˜ao Fundamentac¸ ˜ao Te´orica Trabalhos Relacionados M´etodo para Paralelizac¸ ˜ao Autom´atica de Workflows Avaliac¸ ˜ao do M´etodo Proposto Considerac¸ ˜oes Finais Ambiente Experimental Experimento 1: Workflow para An´alise de Logs Experimento 2: Workflow para An´alise da Wikip´edia Custo Monet´ario (d´olares) Elaine Naomi Watanabe (IME-USP) Paralelizac¸ ˜ao Autom´atica de Workflows Intensivos em Dados 34 / 51
  • 55. Introduc¸ ˜ao Fundamentac¸ ˜ao Te´orica Trabalhos Relacionados M´etodo para Paralelizac¸ ˜ao Autom´atica de Workflows Avaliac¸ ˜ao do M´etodo Proposto Considerac¸ ˜oes Finais Ambiente Experimental Experimento 1: Workflow para An´alise de Logs Experimento 2: Workflow para An´alise da Wikip´edia Atividade F - PG - Tempo de Execuc¸ ˜ao (minutos) Elaine Naomi Watanabe (IME-USP) Paralelizac¸ ˜ao Autom´atica de Workflows Intensivos em Dados 35 / 51
  • 56. Introduc¸ ˜ao Fundamentac¸ ˜ao Te´orica Trabalhos Relacionados M´etodo para Paralelizac¸ ˜ao Autom´atica de Workflows Avaliac¸ ˜ao do M´etodo Proposto Considerac¸ ˜oes Finais Ambiente Experimental Experimento 1: Workflow para An´alise de Logs Experimento 2: Workflow para An´alise da Wikip´edia Atividade G - PO - Tempo de Execuc¸ ˜ao (minutos) Elaine Naomi Watanabe (IME-USP) Paralelizac¸ ˜ao Autom´atica de Workflows Intensivos em Dados 36 / 51
  • 57. Introduc¸ ˜ao Fundamentac¸ ˜ao Te´orica Trabalhos Relacionados M´etodo para Paralelizac¸ ˜ao Autom´atica de Workflows Avaliac¸ ˜ao do M´etodo Proposto Considerac¸ ˜oes Finais Ambiente Experimental Experimento 1: Workflow para An´alise de Logs Experimento 2: Workflow para An´alise da Wikip´edia Atividade H - PG - Tempo de Execuc¸ ˜ao (segundos) Elaine Naomi Watanabe (IME-USP) Paralelizac¸ ˜ao Autom´atica de Workflows Intensivos em Dados 37 / 51
  • 58. Introduc¸ ˜ao Fundamentac¸ ˜ao Te´orica Trabalhos Relacionados M´etodo para Paralelizac¸ ˜ao Autom´atica de Workflows Avaliac¸ ˜ao do M´etodo Proposto Considerac¸ ˜oes Finais Ambiente Experimental Experimento 1: Workflow para An´alise de Logs Experimento 2: Workflow para An´alise da Wikip´edia Experimento 2: Workflow para An´alise de Edic¸ ˜oes da Wikip´edia Elaine Naomi Watanabe (IME-USP) Paralelizac¸ ˜ao Autom´atica de Workflows Intensivos em Dados 38 / 51
  • 59. Introduc¸ ˜ao Fundamentac¸ ˜ao Te´orica Trabalhos Relacionados M´etodo para Paralelizac¸ ˜ao Autom´atica de Workflows Avaliac¸ ˜ao do M´etodo Proposto Considerac¸ ˜oes Finais Ambiente Experimental Experimento 1: Workflow para An´alise de Logs Experimento 2: Workflow para An´alise da Wikip´edia DataSet Escolhido: Registros de edic¸ ˜oes de p´aginas da Wikip´edia Modelo de Workflow Implementado: Identificac¸ ˜ao do usu´ario com o maior n´umero de edic¸ ˜oes por sess˜ao Workflow baseado no pipeline TopWikipediaSessions do Google Cloud Dataflow. Uma sess˜ao ´e um conjunto de edic¸ ˜oes com intervalos inferiores a uma hora Colec¸ ˜ao de entrada: + 19,4 milh˜oes de objetos (edic¸ ˜oes) Total de objetos manipulados: + 20,4 milh˜oes de objetos Elaine Naomi Watanabe (IME-USP) Paralelizac¸ ˜ao Autom´atica de Workflows Intensivos em Dados 39 / 51
  • 60. Introduc¸ ˜ao Fundamentac¸ ˜ao Te´orica Trabalhos Relacionados M´etodo para Paralelizac¸ ˜ao Autom´atica de Workflows Avaliac¸ ˜ao do M´etodo Proposto Considerac¸ ˜oes Finais Ambiente Experimental Experimento 1: Workflow para An´alise de Logs Experimento 2: Workflow para An´alise da Wikip´edia Elaine Naomi Watanabe (IME-USP) Paralelizac¸ ˜ao Autom´atica de Workflows Intensivos em Dados 40 / 51
  • 61. Introduc¸ ˜ao Fundamentac¸ ˜ao Te´orica Trabalhos Relacionados M´etodo para Paralelizac¸ ˜ao Autom´atica de Workflows Avaliac¸ ˜ao do M´etodo Proposto Considerac¸ ˜oes Finais Ambiente Experimental Experimento 1: Workflow para An´alise de Logs Experimento 2: Workflow para An´alise da Wikip´edia Elaine Naomi Watanabe (IME-USP) Paralelizac¸ ˜ao Autom´atica de Workflows Intensivos em Dados 40 / 51
  • 62. Introduc¸ ˜ao Fundamentac¸ ˜ao Te´orica Trabalhos Relacionados M´etodo para Paralelizac¸ ˜ao Autom´atica de Workflows Avaliac¸ ˜ao do M´etodo Proposto Considerac¸ ˜oes Finais Ambiente Experimental Experimento 1: Workflow para An´alise de Logs Experimento 2: Workflow para An´alise da Wikip´edia Makespan (minutos) Elaine Naomi Watanabe (IME-USP) Paralelizac¸ ˜ao Autom´atica de Workflows Intensivos em Dados 41 / 51
  • 63. Introduc¸ ˜ao Fundamentac¸ ˜ao Te´orica Trabalhos Relacionados M´etodo para Paralelizac¸ ˜ao Autom´atica de Workflows Avaliac¸ ˜ao do M´etodo Proposto Considerac¸ ˜oes Finais Ambiente Experimental Experimento 1: Workflow para An´alise de Logs Experimento 2: Workflow para An´alise da Wikip´edia Custo monet´ario (d´olares) Elaine Naomi Watanabe (IME-USP) Paralelizac¸ ˜ao Autom´atica de Workflows Intensivos em Dados 42 / 51
  • 64. Introduc¸ ˜ao Fundamentac¸ ˜ao Te´orica Trabalhos Relacionados M´etodo para Paralelizac¸ ˜ao Autom´atica de Workflows Avaliac¸ ˜ao do M´etodo Proposto Considerac¸ ˜oes Finais Ambiente Experimental Experimento 1: Workflow para An´alise de Logs Experimento 2: Workflow para An´alise da Wikip´edia Atividade C - PG - Tempo de Execuc¸ ˜ao (minutos) Elaine Naomi Watanabe (IME-USP) Paralelizac¸ ˜ao Autom´atica de Workflows Intensivos em Dados 43 / 51
  • 65. Introduc¸ ˜ao Fundamentac¸ ˜ao Te´orica Trabalhos Relacionados M´etodo para Paralelizac¸ ˜ao Autom´atica de Workflows Avaliac¸ ˜ao do M´etodo Proposto Considerac¸ ˜oes Finais Ambiente Experimental Experimento 1: Workflow para An´alise de Logs Experimento 2: Workflow para An´alise da Wikip´edia Atividade D - PJT - Tempo de Execuc¸ ˜ao (segundos) Elaine Naomi Watanabe (IME-USP) Paralelizac¸ ˜ao Autom´atica de Workflows Intensivos em Dados 44 / 51
  • 66. Introduc¸ ˜ao Fundamentac¸ ˜ao Te´orica Trabalhos Relacionados M´etodo para Paralelizac¸ ˜ao Autom´atica de Workflows Avaliac¸ ˜ao do M´etodo Proposto Considerac¸ ˜oes Finais Resumo Principais Contribuic¸ ˜oes Pesquisas Futuras Roteiro 1 Introduc¸ ˜ao 2 Fundamentac¸ ˜ao Te´orica 3 Trabalhos Relacionados 4 M´etodo para Paralelizac¸ ˜ao Autom´atica de Workflows 5 Avaliac¸ ˜ao do M´etodo Proposto 6 Considerac¸ ˜oes Finais Resumo Principais Contribuic¸ ˜oes Pesquisas Futuras Elaine Naomi Watanabe (IME-USP) Paralelizac¸ ˜ao Autom´atica de Workflows Intensivos em Dados 45 / 51
  • 67. Introduc¸ ˜ao Fundamentac¸ ˜ao Te´orica Trabalhos Relacionados M´etodo para Paralelizac¸ ˜ao Autom´atica de Workflows Avaliac¸ ˜ao do M´etodo Proposto Considerac¸ ˜oes Finais Resumo Principais Contribuic¸ ˜oes Pesquisas Futuras Resumo Objetivo: Execuc¸ ˜ao eficiente de workflows intensivos em dados Soluc¸ ˜ao mais utilizada: Paralelismo de dados para reduc¸ ˜ao do makespan Limitac¸ ˜ao: Exigˆencia de um usu´ario especialista em computac¸ ˜ao paralela e distribu´ıda Proposta: Um m´etodo que utiliza a semˆantica do processamento para paralelizac¸ ˜ao autom´atica Resultados: Reduc¸ ˜ao de at´e 66,6% do makespan sem aumentar custo monet´ario Elaine Naomi Watanabe (IME-USP) Paralelizac¸ ˜ao Autom´atica de Workflows Intensivos em Dados 46 / 51
  • 68. Introduc¸ ˜ao Fundamentac¸ ˜ao Te´orica Trabalhos Relacionados M´etodo para Paralelizac¸ ˜ao Autom´atica de Workflows Avaliac¸ ˜ao do M´etodo Proposto Considerac¸ ˜oes Finais Resumo Principais Contribuic¸ ˜oes Pesquisas Futuras Aspectos Negativos Uso do qu´orum majorit´ario para escrita Balanceamento de carga do MongoDB Desempenho da estrat´egia aplicada `a anotac¸ ˜ao PJT Aspectos Positivos Leitura e escrita de c´opias prim´arias: consistˆencia Consistˆencia de escrita em c´opias prim´arias: sem impacto no custo monet´ario Modelos de workflows avaliados: viabilidade das anotac¸ ˜oes PO e PG para paralelizac¸ ˜ao Elaine Naomi Watanabe (IME-USP) Paralelizac¸ ˜ao Autom´atica de Workflows Intensivos em Dados 47 / 51
  • 69. Introduc¸ ˜ao Fundamentac¸ ˜ao Te´orica Trabalhos Relacionados M´etodo para Paralelizac¸ ˜ao Autom´atica de Workflows Avaliac¸ ˜ao do M´etodo Proposto Considerac¸ ˜oes Finais Resumo Principais Contribuic¸ ˜oes Pesquisas Futuras Principais Contribuic¸ ˜oes Proposta de nove anotac¸ ˜oes para caracterizac¸ ˜ao de modelos de workflows Um m´etodo para execuc¸ ˜ao mais eficiente de workflows por meio da paralelizac¸ ˜ao autom´atica baseada na semˆantica, n˜ao depende de conhecimento espec´ıfico sobre programac¸ ˜ao paralela. Implementac¸ ˜ao do m´etodo proposto como uma biblioteca em Python Avaliac¸ ˜ao do m´etodo por meio de dois workflows reais em 21 cen´arios e demonstrac¸ ˜ao de sua eficiˆencia em cen´arios distribu´ıdos Elaine Naomi Watanabe (IME-USP) Paralelizac¸ ˜ao Autom´atica de Workflows Intensivos em Dados 48 / 51
  • 70. Introduc¸ ˜ao Fundamentac¸ ˜ao Te´orica Trabalhos Relacionados M´etodo para Paralelizac¸ ˜ao Autom´atica de Workflows Avaliac¸ ˜ao do M´etodo Proposto Considerac¸ ˜oes Finais Resumo Principais Contribuic¸ ˜oes Pesquisas Futuras Publicac¸ ˜ao dos resultados parciais nos Anais do XXXI Simp´osio Brasileiro de Banco de Dados (SBBD 2016) Apresentac¸ ˜ao do m´etodo na VII Escola Regional de Alto Desempenho de SP (ERAD-SP 2016) Elaine Naomi Watanabe (IME-USP) Paralelizac¸ ˜ao Autom´atica de Workflows Intensivos em Dados 49 / 51
  • 71. Introduc¸ ˜ao Fundamentac¸ ˜ao Te´orica Trabalhos Relacionados M´etodo para Paralelizac¸ ˜ao Autom´atica de Workflows Avaliac¸ ˜ao do M´etodo Proposto Considerac¸ ˜oes Finais Resumo Principais Contribuic¸ ˜oes Pesquisas Futuras Pesquisas Futuras Avaliac¸ ˜ao de novos workflows e sistemas NoSQL Comparac¸ ˜ao entre sistema NoSQL e um relacional escal´avel (NewSQL) Experimentos para identificar a relac¸ ˜ao entre o n´umero de partic¸ ˜oes do banco de dados em func¸ ˜ao do n´umero de n´os usados para a execuc¸ ˜ao Avaliac¸ ˜ao da execuc¸ ˜ao em ambientes heterogˆeneos Heur´ısticas para detecc¸ ˜ao autom´atica da semˆantica de uma atividade Elaine Naomi Watanabe (IME-USP) Paralelizac¸ ˜ao Autom´atica de Workflows Intensivos em Dados 50 / 51
  • 72. Introduc¸ ˜ao Fundamentac¸ ˜ao Te´orica Trabalhos Relacionados M´etodo para Paralelizac¸ ˜ao Autom´atica de Workflows Avaliac¸ ˜ao do M´etodo Proposto Considerac¸ ˜oes Finais Resumo Principais Contribuic¸ ˜oes Pesquisas Futuras Muito obrigada! elainew@ime.usp.br Elaine Naomi Watanabe (IME-USP) Paralelizac¸ ˜ao Autom´atica de Workflows Intensivos em Dados 51 / 51
  • 73. Implementac¸ ˜ao do M´etodo I Elaine Naomi Watanabe (IME-USP) Paralelizac¸ ˜ao Autom´atica de Workflows Intensivos em Dados 1 / 4
  • 74. Elaine Naomi Watanabe (IME-USP) Paralelizac¸ ˜ao Autom´atica de Workflows Intensivos em Dados 2 / 4
  • 75. de Oliveira, D. E. M., Boeres, C., Neto, A. F., and Porto, F. (2015). Avaliac¸ ˜ao da localidade de dados intermedi´arios na execuc¸ ˜ao paralela de workflows BigData. In Proceedings of 30th Brazilian Symposium on Databases, SBBD 2015, pages 29–40. de Oliveira, D. E. M., Boeres, C., and Porto, F. (2014). An´alise de estrat´egias de acesso a grandes volumes de dados. In Proceedings of 29th Brazilian Symposium on Databases, pages 27–36. Deelman, E., Vahi, K., Juve, G., Rynge, M., Callaghan, S., Maechling, P. J., Mayani, R., Chen, W., Ferreira da Silva, R., Livny, M., and Wenger, K. (2015). Pegasus: a workflow management system for science automation. Future Generation Computer Systems, 46:17–35. Ferreira, G. R., Jr, C. F., and de Oliveira, D. (2014). Uso de SGBDs NoSQL na gerˆencia da proveniˆencia distribu´ıda em workflows cient´ıficos. In Proceedings of the 29th Brazilian Symposium on Databases, SBBD 2014, pages 187–196. Juve, G., Deelman, E., Berriman, G. B., Berman, B. P., and Maechling, P. (2012). An evaluation of the cost and performance of scientific workflows on Amazon EC2. Journal of Grid Computing, 10(1):5–21. Ogasawara, E., Oliveira, D., Valduriez, P., Dias, J., Porto, F., and Mattoso, M. (2011). An algebraic approach for data-centric scientific workflows. Proceedings of the VLDB Endowment, 4(12):1328–1339. Elaine Naomi Watanabe (IME-USP) Paralelizac¸ ˜ao Autom´atica de Workflows Intensivos em Dados 3 / 4
  • 76. Pautasso, C. and Alonso, G. (2006). Parallel computing patterns for grid workflows. In Proceedings of the 6th Workshop on Workflows in Support of Large-Scale Science, WORKS ’06, pages 1–10. Reiss, C., Wilkes, J., and Hellerstein, J. L. (2011). Google cluster-usage traces: format + schema. Technical report, Google Inc., Mountain View, CA, USA. Revised 2014-11-17 for version 2.1. Posted at https://github.com/google/cluster-data. Singh, G., Su, M.-H., Vahi, K., Deelman, E., Berriman, B., Good, J., Katz, D. S., and Mehta, G. (2008). Workflow task clustering for best effort systems with pegasus. In Proceedings of the 15th ACM Mardi Gras Conference, MG ’08, pages 9:1–9:8. Wilde, M., Hategan, M., Wozniak, J. M., Clifford, B., Katz, D. S., and Foster, I. (2011). Swift: A language for distributed parallel scripting. Parallel Computing, 37(9):633 – 652. Wozniak, J. M., Armstrong, T. G., Wilde, M., Katz, D. S., Lusk, E., and Foster, I. T. (2013). Swift/t: Large-scale application composition via distributed-memory dataflow processing. In The 13th IEEE/ACM International Symposium on Cluster, Cloud, and Grid Computing, pages 95–102. Elaine Naomi Watanabe (IME-USP) Paralelizac¸ ˜ao Autom´atica de Workflows Intensivos em Dados 4 / 4