- O documento discute a importância da ciência de dados para a saúde, especificamente no contexto da Fundação Oswaldo Cruz.
- Está em andamento um projeto de modelagem computacional da bactéria multirresistente Pseudomonas aeruginosa visando identificar novos alvos terapêuticos.
- O projeto envolve a reconstrução do genoma, rede metabólica e rede de regulação gênica de P. aeruginosa para permitir simulações computacionais integradas.
Ciência de dados para a saúde: a importância da interdisciplinaridade e da integração de dados - Data Science for Health
1. Ciência de Dados para a Saúde: a importância da
Interdisciplinaridade e da Integração de Dados
Fundação Oswaldo Cruz
Programa de Computação Científica
Fabrício Alves Barbosa da Silva
PROCC/FIOCRUZ
08/04/2018
2. Sumário
• Ciência de dados: Definição
• Ciência de dados na Saúde: Projetos em Andamento
• Modelagem computacional de bactérias multirresistentes
• Conclusão
3. Ciência de Dados
• A ciência de dados é um campo interdisciplinar sobre métodos,
processos e sistemas para extrair conhecimento de dados disponíveis
em várias formas, estruturados ou não estruturados
• Geração de novas hipóteses através da integração e processamento
de dados heterogêneos, em grande volume (Big Data)
4. Ciência de Dados
• A Ciência de Dados emprega técnicas e teorias derivadas de vários
campos das áreas de matemática, estatística e ciência da
computação
• Ênfase para os subdomínios de computação distribuída,
aprendizagem de máquina, mineração de dados, bancos de dados e
visualização de dados
5. Big Data: uma definição
“A basic definition of big data includes “the 3 Vs”: variety (linkage of many
data sets from heterogeneous independent sources in a single data set);
volume (large number of observations and variables per observation from
different sources); and/or velocity (real-time or frequent data updates, often
fully or partially automated). Other definitions encompass additional three
Vs: value (clinically relevant information); variability (eg, seasonal or secular
disease trends); and veracity (data quality).”
Ehrenstein, V., Nielsen, H., Pedersen, A. B., Johnsen, S. P., & Pedersen, L. (2017). Clinical
epidemiology in the era of big data: new opportunities, familiar challenges. Clinical epidemiology,
9, 245.
7. • Modelagem computacional de bactérias multirresistentes
• Citometria de fluxo computacional
• Farmacovigilância – Dados do twitter/hospitais sentinela
• Câncer de mama – diagnóstico e tratamento
Ciência de Dados na Saúde: Projetos em Andamento
8. Ciência de Dados na Saúde: Projetos em Andamento
• Modelagem computacional de bactérias multirresistentes
• Citometria de fluxo computacional
• Farmacovigilância – Dados do twitter/hospitais sentinela
• Câncer de mama – diagnóstico e tratamento
9. 9
Modelagem Computacional de Bactérias
Multirresistentes
Objetivo geral: construir modelos computacionais integrados de bactérias
patógenas multirresistentes:
1. Descrever o ciclo de vida de uma única célula ao nível de moléculas
individuais e suas interações
2. Prever com precisão uma ampla gama de comportamentos celulares
observáveis
3. Encontrar potenciais alvos terapêuticos através de simulações
computacionais
10. 10
Modelagem Computacional de Bactérias
Multirresistentes
Um dos principais resultados esperados é que esta modelagem seja útil
para determinar novas formas eficazes de combate a estas bactérias
Portanto, estes resultados podem ser úteis para esforços de obtenção de
novos alvos terapêuticos
11. 11
Modelagem Computacional de Bactérias
Multirresistentes
Bactéria alvo deste projeto:
Pseudomonas aeruginosa CCBH4851
Kerr, K. G., & Snelling, A. M. (2009). Pseudomonas aeruginosa: a formidable and ever-present adversary. Journal of Hospital
Infection, 73(4), 338-344.
12. Grupo de pesquisa – Modelagem de bactérias
• Fabrício Alves Barbosa da Silva - PROCC/FIOCRUZ
• Ana Paula D'Alincourt Carvalho Assef - LAPIH/IOC/FIOCRUZ
• Kele Teixeira Belloze - CEFET/RJ
• Nicolas Carels - CDTS/FIOCRUZ
• Floriano Paes - LABECFAR/IOC/FIOCRUZ
• Daniel Antunes Maciel Villela - PROCC/FIOCRUZ
• Márcio Argollo - IF/UFF
• Rodolpho Albano – Biochemistry Dept. - UERJ
• Maria Clícia Stelling de Castro – IME/UERJ
• Marcelo Trindade dos Santos - LNCC
• Rafael Carvalho - LIACS - Leiden University
• Ana Paula Nascimento – LNCC/FIOCRUZ
• Márcia Weber Carneiro - CPqGM/FIOCRUZ
13. 13
Portal do Projeto de Modelagem de Bactérias
Multirresistentes
http://pseudomonas.procc.fiocruz.br
Maiores informações sobre equipe, status do projeto e oportunidades
14. Exemplo de modelo integrado:
Modelo de célula inteira da Mycoplasma
genitalium
14
15. 15
Modelo de célula inteira
Karr, J. R., Sanghvi, J. C., Macklin, D. N., Gutschow, M. V., Jacobs, J. M.,
Bolival Jr, B., Assad-Garcia, N., Glass, J. I. & Covert, M. W. (2012). A whole-
cell computational model predicts phenotype from genotype. Cell,
150(2), 389-401.
• Mycoplasma genitalium
• Mais de 900 referências
18. 18
Pseudomonas aeruginosa
• A P. aeruginosa é um patógeno versátil associado com um amplo
espectro de infecções em seres humanos
• O controle da infecção é difícil, pois diversas cepas da P. aeruginosa
são inerentemente resistente a muitos antibióticos
• Poucas opções terapêuticas
19. P.aeruginosa CCBH4851
• Cepa encontrada em hospitais públicos brasileiros
• Multirresistente
• Dados fornecidos pelo LAPIH/IOC/FIOCRUZ
Silveira, M., Albano, R., Asensi, M., & Assef, A. P. C. (2014). The draft genome sequence of multidrug-resistant Pseudomon
as aeruginosa strain CCBH4851, a nosocomial isolate belonging to clone SP (ST277) that is prevalent in Brazil. Memória
s do Instituto Oswaldo Cruz, 109(8), 1086-1087.
20. P.aeruginosa vs. M.genitalium
M.genitalium
• 525 genes
• Parasitas; sobrevivem dentro de células de outros organismos
• Sem parede celular
P.aeruginosa
• > 5500 genes
• Encontrada na natureza em diversos ambientes (solo, água)
• Gram-negativa
21. Modelo Computacional da P.aeruginosa CCBH4851
• Objetivo: criar modelos computacionais integrados para prever com
precisão uma ampla gama de comportamentos celulares observáveis
da bactéria P. aeruginosa CCBH4851
• Cepa multirresistente pertencente ao clone ST277, endêmica no
Brasil.
21
F.A.B. da Silva et al. Computational Modeling of Multi-drug Resistant Bacteria F. A. B. da Silva et al. (eds.), Theoretical and
Applied Aspects of Systems Biology, Computational Biology 27, Springer International Publishing AG 2018
23. Montagem do Genoma - P.aeruginosa CCBH4851
• MaSuRCA: montador que aceita (i) o uso de reads curtos da
plataforma Illumina ou (ii) uma combinação de reads curtos e longos
(plataformas Sanger, 454, PacBio e Nanopore).
• P. aeruginosa CCBH4851: reads curtos (Illumina) mais reads longos
(PacBio). Alta cobertura.
• Resultado: contig único representando o genoma com 6,8 Mb,
Ausência de plasmídeos. Alinhamento progressivo com linhagens de
referência mostrou alta sintenia.
24. Anotação do Genoma - P.aeruginosa CCBH4851
• RATT: transfere a anotação de um genoma de referência para um
novo genoma baseado em conservação de sintenia.
• Regiões sem sintenia foram feitas predições de genes usando
GeneMarkS, GLIMMER.
• RNAs não codificantes foram preditos utilizando t-RNAscan-SE,
RNAmmer.
• Artemis: visualização e edição da anotação.
• Atribuição de função foi baseada em homologia através de BLAST e
diversos bancos de dados.
25. Anotação do Genoma - P.aeruginosa CCBH4851
• Atribuição de E.C. number foi feita utilizando o programa PRIAM.
• Características gerais:
Pseudomonas aeruginosa CCBH4851
Tamanho total do genoma 6.834.257 bases
Conteúdo G+C 66%
Número total de genes 6319
- Codificantes (função conhecida) 3690
- Codificantes (hipotéticos) 2444
- Pseudogenes 77
- rRNA 13
- tRNA 64
- ncRNA 28
27. Metabolismo Celular
• Metabolismo Celular é o conjunto de reações químicas que ocorrem
no interior das células
• Estas reações são responsáveis pelos processos de síntese e
degradação dos nutrientes na célula e constituem a base da vida,
permitindo o crescimento e reprodução das células, mantendo as
suas estruturas e adequando respostas aos seus ambientes.
27
28. Metabolismo como uma Rede8CHAPTER 1. METABOLIC MODELS: FROM DNA TO PHYSIOLOGY (AND BACK)
Figure 1.3: Metabolic model from hypothetical cell viewed as a network.
Metabolites marked in red on the reactions list do not occur inside the cell.
M.A. de Menezes. Metabolic Models: From DNA 1 to Physiology (and Back) F. A. B. da Silva et al. (eds.), Theoretical and Ap
plied Aspects of Systems Biology, Computational Biology 27, Springer International Publishing AG 2018
31. CurSystem – Sistema de Curadoria de Redes
http://pseudomonas.procc.fiocruz.br:8185/CurSystem/
32. Resultados: Modelo da P. aeruginosa CCBH4851
Reações Metabólitos
Biomassa
(*)
Genes
1454 1284
13.7077786
096
1139
* h-1
Fonte: Bergmann F. T., 2010
33. Thiago Merigueti
Identificação de alvos terapêuticos através da
análise de redes metabólicas
FindTargetsWEB
Modelagem Computacional da P.aeruginosa
CCBH4851
34. FindTargetsWEB - Workflow
34
Thiago C. Merigueti, Marcia W. Carneiro, Ana Paula D’A. Carvalho-Assef, Floriano P. Silva-Jr, Fabricio A. B. da Silva. FindTargetsWeb: a
robust system to identify potential therapeutic targets in genome-scale metabolic networks of bacteria (submitted)
36. FindTargetsWEB - Resultados
36
Thiago C. Merigueti, Marcia W. Carneiro, Ana Paula D’A. Carvalho-Assef, Floriano P. Silva-Jr, Fabricio A. B. da Silva. FindTargetsWeb: a
robust system to identify potential therapeutic targets in genome-scale metabolic networks of bacteria (submitted)
EC NUMBER E-VALUE GENE NAME DRUG NAME
1.2.5.1 1.3-169 poxB PA5297 Nitrofural
2.8.1.6 9.0-170 bioB PA0500 Tromethamine
6.3.1.5 3.6-71 nadE PA4920 Gentamicin
1.5.1.3 2.0-38 folA PA0350 Levoleucovorin
1.5.1.3 2.0-38 folA PA0350 Isoniazid
2.5.1.15 5.8-103 folP PA4750 Sulfanilamide
2.5.1.15 5.8-103 folP PA4750 Sulfacytine
2.5.1.15 5.8-103 folP PA4750 Sulfaphenazole
2.5.1.15 5.8-103 folP PA4750 Sulfamethoxazole
2.5.1.15 5.8-103 folP PA4750 Sulfacetamide
2.5.1.7 5.1-171 murA PA4450 Fosfomycin
1.3.1.9 1.1-121 fabI PA1806 Triclosan
37. Modelagem Computacional da P.aeruginosa
CCBH4851
Reconstrução da Rede de Regulação Gênica
Fernando Medeiros
38. Rede de Regulação Gênica – P.aeruginosa CCBH4851
• Objetivo: Reconstruir a Rede de Regulação Gênica da
P.aeruginosa CCBH4851.
• Bases de dados utilizadas:
• NCBI;
• RegPrecise;
• Prodoric;
• pseudomonas.com;
• microbesonline.org;
• CurSystem;
• Linguagens de programação: Python, Java e R.
40. Rede de Regulação Gênica da P.aeruginosa CCBH4851
Características da rede: Aplicações
• Busca por atratores e bacias de atração;
• Modelagem Booleana;
• Perfil de Resistência;
• Integração com outras redes;
• Modelagem de célula inteira;
• Busca por alvos terapêuticos.
1273 interações
regulatórias
125 reguladores
869 genes-alvo
Rede 22.24% maior
que a disponível na
literatura
RRG
45. Próximos passos
• Modelo dinâmico da Rede de Regulação Gênica da P.aeruginosa
CCBH4851
• Modelo integrado – Rede Metabólica + Rede de Regulação gênica da
P.aeruginosa CCBH4851
• Disponibilização da Base de Conhecimento da P.aeruginosa
CCBH4851
45
46. Conclusão
• A construção do simulador computacional da P.aeruginosa CCBH4851
está em andamento
• Projeto desafiador: muitas oportunidades de pesquisa
• Geração de novas hipóteses através do processamento de dados
heterogêneos
• Projeto Interdisciplinar
• Projetos de Mestrado e Doutorado
• Possibilidades de Colaboração com a Indústria
46