Apresentação realizada no Seminário de Andamento do projeto de mestrado CloudModelTest: Um modelo de elasticidade de recursos em duas camadas aplicado ao problema de adequação de sistemas de substituição filogenética.
O presente trabalho foi realizado com apoio da Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - Brasil (CAPES) - Código de Financiamento 001 e com o apoio da FAPERGS no contexto do projeto Combinando Elasticidade Multi-Métrica em Nuvem nas Modalidades Vertical e Horizontal para Análise de Genes e Redução de Pragas Agrícolas, no Edital 02/2017.
CloudModelTest — Seminário de Andamento da Proposta de Dissertação
1. CLOUDMODELTEST
Um modelo de elasticidade de recursos em duas camadas
aplicado ao problema de adequação de sistemas de
substituição filogenética
OR IE N T A D O R :
Rodrigo da Rosa Righi
Coordenador do Programa de Pós-Graduação
em Computação Aplicada
Mestrado em Computação Aplicada
Seminário de Andamento da Proposta de Dissertação
MESTRANDO:
Mateus Rauback Aubin
Bolsista CAPES na modalidade Taxas
Desenvolvedor na SAP Labs
4. 09/20184
MOTIVAÇÃO
Baixa penetração de
paradigmas como Computação
em Nuvem e Elasticidade nos
softwares usados para Inferência
Filogenética
MODERNIZAÇÃO
Incremento na produtividade
dos pesquisadores da Biologia
possibilita melhor
aproveitamento de recursos
humanos favorecendo a
qualidade da produção através
de, por exemplo, análises mais
amplas e/ou profundas
PRODUTIVIDADE
Colaboração com o laboratório de
Biologia da Universidade no
contexto do projeto contemplado
pela FAPERGS: Combinando
Elasticidade Multi-Métrica em
Nuvem nas Modalidades Vertical
Horizontal para Análise de Genes
e Redução de Pragas Agrícolas
FAPERGS
5. 09/20185
QUESTÃO DE
PESQUISA
Como seria projetado um modelo de
elasticidade de recursos em um
ambiente de computação em nuvem
capaz de aperfeiçoar o processo de
adequação de sistemas/modelos de
substituição de sequências moleculares
da filogenética de maneira eficiente do
ponto de vista computacional e
econômico?
6. 09/20186
OBJETIVO DE
PESQUISA
Propor um modelo computacional
que empregue a elasticidade de
recursos oriunda da computação em
nuvem para aumentar a eficiência
computacional e econômica no
problema do teste de adequação de
sistemas/modelos de substituição
de sequências moleculares no contexto
da filogenética.
11. 09/201811
COMPUTAÇÃO PARALELA
& DISTRIBUÍDA
ORQUESTRAÇÃO DE
CONTÊINERES
FUNCTION AS A SERVICE
(FAAS) / SERVERLESS
Através de mecanismos
Regra — Condição — Ação
(automática reativa)
ELASTICIDADE
Virtualmente infinita, uma nova
instância para cada execução
(orientada a eventos)
Imagem do Ambiente de Execução REQUISITOS Pacote com Código Fonte
Maior CARGA OPERACIONAL Menor
Minutos PROVISIONAMENTO Segundos
Ilimitado TEMPO DE EXECUÇÃO Poucos Minutos
Por Hora PRECIFICAÇÃO Por Segundo
Incorre Custos OCIOSIDADE Não Incorre Custos
Processos Longos ADEQUAÇÃO Processos Curtos
14. SOFTWARE
Quais são os softwares mais
avançados para inferência
filogenética disponíveis hoje?
TÉCNICAS
Quais técnicas de otimização são
usadas atualmente para possibilitar a
inferência de grandes filogenias?
CENÁRIO
Qual é o cenário no que diz respeito a
adoção de técnicas de computação paralela
e distribuída para inferência filogenética?
DESAFIOS E OPORTUNIDADES
Quais são os desafios encontrados pelos autores e
as oportunidades disponíveis para avançar o estado
da arte no que diz respeito a computação paralela
e distribuída aplicada a algoritmos filogenéticos?
QUESTÕES
14 09/2018
15. 09/201815
FONTES DE BUSCA
ACM: Association for Computing Machinery
BMC: BioMed Central
CiteSeerX †
Elsevier
Google Scholar †
IEEE: Institute of Electrical and Electronics Engineers
Nature
Oxford Academic
PLOS: Public Library of Science
Semantic Scholar †
Springer
16. 09/201816
DIFICULDADES
Trabalhos fundamentais noso
anos 80
Bases teóricas definidas tãoo
cedo quanto 1960
PUBLICAÇÕES SE
ESTENDEM EM UM LONGO
PERÍODO DETEMPO
Poucas publicações emo
revistas da Computação
Nas revistas da Biologia oo
ferramental é secundário
Softwares são publicadoso
como "notes“
FERRAMENTAL É
TRATADO COMO
SECUNDÁRIO
19. 09/201819
TAXONOMIACATEGORIA MÉTODO FINALIDADE QUANT
Inferência
Filogenética
Máxima
Verossimilhança
Outras Finalidades 22
Elaboração
de Árvores
Filogenéticas
17
com
Heurísticas
5
Inferência Bayesiana 3
Matrizes de Distâncias 3
Máxima Parcimônia 2
Pacotes e Portais 17
Seleção de Modelos/Sistemas 10
Alinhamento de Sequências 4
TOTAL 83
Quantidade de trabalhos
agrupados por categoria da
Taxonomia
21. CARACTERÍSTICAS
COMPUTACIONAIS
Apesar do suporte à Computação
Distribuída, existe pouca adoção
de Elasticidade e até mesmo
Balanceamento de Carga
09/201821
54%
41%
23%
5% 4% 2%
0
10
20
30
40
50
Quantidade Percentual
22. LACUNAS DE
PESQUISA
A contribuição deste trabalho está situada na intersecção
entre os tópicos de Balanceamento de Carga e Elasticidade
09/201822
24. 09/201824
CRITÉRIO DE SELEÇÃO
DA APLICAÇÃO
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
0 k
5 k
10 k
15 k
20 k
25 k
Número de
Citações
Percentual
Acumulado
25. 09/201825
CRITÉRIO DE SELEÇÃO
DA APLICAÇÃO
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
0 k
5 k
10 k
15 k
20 k
25 k
Número de
Citações
Percentual
Acumulado
26. jModelTest
Porque ele?
09/201826
ENTRE OS SOFTWARES
MAIS CITADOS NO
CONTEXTO DE
IN FER ÊN C IA
FILO G EN ÉTIC A
RESPONSÁVEL POR UMA
DAS ETAPAS MAIS
DEMORADAS NO
PROCESSO DE
INFERÊNCIA
FILOGENÉTICA
PROCESSAMENTO
COMPOSTO POR
TAREFAS DE
COMPLEXIDADE
HETEROGÊNEA
29. jModelTest
Quantidade de sequênciaso
Quantidade de modeloso
Comprimento daso
sequências
Complexidade de cadao
modelo
09/201829
PROCESSAMENTO
COMPOSTO POR
TAREFAS DE
COMPLEXIDADE
HETEROGÊNEA
30. 09/201830
jModelTest
Evolução da
ferramenta
Posada, D., & Crandall, K. A. (1998).
MODELTEST: testing the model of DNA
substitution. Bioinformatics, 14(9), 817–
818.
MODELTEST
Posada, D. (2008).
jModelTest: Phylogenetic Model
Averaging. Molecular Biology and
Evolution, 25(7), 1253–1256.
jModelTest
Darriba, D., Taboada, G. L., Doallo, R., &
Posada, D. (2012).
jModelTest2: more models, new
heuristics and parallel computing.
Nature Methods, 9(8), 772.
jModelTest2
CLO U D MO D E L TE ST
36. DIAGRAMA UML
DE ATIVIDADES
Uma visão geral sobre o fluxo de
controle conforme as etapas do
processo entre os elementos que
compõem o modelo expondo as
Interações entre eles
36
40. 09/201840
METODOLOGIA DE
AVALIAÇÃO
o Escolher Datasets
o Definir Parâmetros
SETUP
Estabelecer uma baseline de
performance pela execução
do jModelTest em modos:
Sharedo Memory
MPIo
MEDIÇÕES
o Sem Elasticidade
o Apenas FaaS
o Apenas Contêineres
o Modelo Completo
TESTES
COMPARATIVOS
42. 09/201842
CONTRIBUIÇÕES
ESPERADAS
Um entendimento compartilhado
no âmbito da Filogenética e de
suas ferramentas Computacionais
TAXONOMIA
Ampliar as capacidades do
projeto jModelTest para
maximizar o aproveitamento de
ambientes de computação em
nuvem, possibilitando
elasticidade no uso de recursos
MODELO
CL O U D MO D E LTE S T
Generalização do modelo com
foco na elasticidade, dividindo, em
uma camada tarefas curtas com
parametrização agressiva, e
outra camada composta por
tarefas longas priorizando a
flexibilidade de configuração
ELASTICIDADE EM
DUAS CAMADAS
44. 09/201844
CRONOGRAMA
ATIVIDADES
2018 2019
SET OUT NOV DEZ JAN FEV
Desenvolvimento do Protótipo
Execução dos Cenários de Avaliação
Análise dos Resultados
Publicações Relacionadas
Escrita da Dissertação
Entrega X
Defesa X
46. 09/201846
PARECER DOS AVALIADORES
DIS C U S S Ã O
SUPERFICIAL
SOBRE OS
TRABALHOS
RELACIONADOS
AUSÊNCIA DE
REFERÊNCIAS
ATUAIS
CRITÉRIO DE
ESCOLHA DA
APLICAÇÃO
JMODELTEST
TE X T O
INFORMAL OU
COLOQUIAL
48. CLOUDMODELTEST
Um modelo de elasticidade de recursos em duas camadas
aplicado ao problema de adequação de sistemas de
substituição filogenética
ORIENTADOR:
Rodrigo da Rosa Righi
Coordenador do Programa de Pós-Graduação
em Computação Aplicada
Mestrado em Computação Aplicada
Seminário de Andamento da Proposta de Dissertação
ME S T R A N D O :
Mateus Rauback Aubin
Bolsista CAPES na modalidade Taxas
Desenvolvedor na SAP Labs