O documento discute a biologia dos sistemas, incluindo: 1) ômicas como dados para biologia dos sistemas; 2) bioinformática e suas aplicações; 3) bancos de dados que armazenam dados ômicos. Ele também aborda redes biológicas e ferramentas de bioinformática para análise de dados ômicos.
2. Roteiro da aula
Biologia dos Sistemas: ômicas e ferramentas computacionais
1. Introdução: definição, características e estratégias
2. Ômicas: dados para biologia dos sistemas
3. Bioinformática: definição e aplicações
4. Bancos de dados: versão computável das
"ômicas"
5. Motivos de rede (network): conceitos e métodos
6. Ferramentas de bioinformática: Exemplos e
aplicações
2
3. Roteiro da aula
Biologia dos Sistemas: ômicas e ferramentas computacionais
1. Introdução: definição, características e estratégias
2. Ômicas: dados para biologia dos sistemas
3. Bioinformática: definição e aplicações
4. Bancos de dados: versão computável das
"ômicas"
5. Motivos de rede (network): conceitos e métodos
6. Ferramentas de bioinformática: Exemplos e
aplicações
3
4. 1 –Introdução
definição
1865
• Claude Bernard
• Homeostase e milieu intérieur – vida
• O estudo em múltiplos níveis de processos
informacionais em sistemas biológicos
1958
• Francis Crick
• Dogma central da biologia molecular:
• Fluxo das informações do código genético
• DNA RNA proteína
1990-
2000
• Projeto Genoma Humano
• Genoma como fonte e informação da vida
• Software da vida
2006
• Dennis Noble (livro -The Music of Life)
• Aplicação da teoria de sistemas dinâmicos na biologia
molecular
4
5. 1 –Introdução
definição
Dennis Noble
Definição: estudo das interações entre os componentes dos
sistemas biológicos e como estas interações dão origem à função
e comportamento de um sistema.
A system as an ‘entity that maintains its existence through the mutual interaction of its parts’
Peter Kohl, and Denis Noble Mol Syst Biol 2009;5:292
5
7. 1 –Introdução
definição
Qual é o objetivo estudar biologia
dos sistemas?
Partir de dados e do conhecimento
da estrutura (arquitetura estática) e a
dinâmica (tempo) do sistema
biológico e prever ou controlar
(tratamento) seu comportamento e
projetar novas versões dos sistemas
https://stremble.com/systems-biology/
7
9. 1 –Introdução
características- reducionismo x holismo
Ciência reducionista: isola e analisa um componente do sistema
Implicação: são limitadas (ex. gene a gene)
Não captam a complexidade de um sistema (milhares de componentes e
interações)
Câncer
Resistência a droga gene de resistência?
Como é a expressão gênica?
9
10. 1 –Introdução
características- reducionismo x holismo
Ciência - Visão holística
Holismo: ideal onde todas as propriedades de um determinado
sistema não podem ser explicadas pelos seus componentes
sozinhos.
“O todo é mais que a soma das partes”
10
11. 1 –Introdução
características- propriedades emergentes
Propriedades
moleculares
Ômica Integração
Propriedade
do sistema
Criação e análise de modelos
entender a biologia dos sistemas
Propriedades que só existem quando se
observa em nível de sistema
Adição do comportamento e das
propriedades de seus componentes
isolados, não reflete o sistema
Depende da integração e análise de
conjuntos massivos de dados –
múltiplas ômicas
11
12. 1 –Introdução
estratégias: top-down x bottom-up
Shalhoub J., et al. Systems Biology of Human Atherosclerosis November 2013 Vascular and Endovascular Surgery 48(1)
Top-down
a partir de propriedades do sistema
deduzir o papel dos componentes – lista
de componentes para um modelo de
interação
interação entre vários
níveis de organização
biológica
Bottom-up
construir modelos capazes de prever
propriedades emergentes de um
sistema a partir do estado de seus
componentes
12
14. Roteiro da aula
Biologia dos Sistemas: ômicas e ferramentas computacionais
1. Introdução: definição, características e estratégias
2. Ômicas: dados para biologia dos sistemas
3. Bioinformática: definição e aplicações
4. Bancos de dados: versão computável das
"ômicas"
5. Motivos de rede (network): conceitos e métodos
6. Ferramentas de bioinformática: Exemplos e
aplicações
14
15. 2 - Ômicas: dados para biologia de sistemas
Alto potencial de descobertas:
genoma, transcriptoma, proteoma,
metaboloma
Emprega métodos e abordagens
de larga escala
Ômica é tudo de alguma coisa
ômicas são mais uma maneira de
olhar um sistema – integrar
Identificar muitos alvos em
potencial para o desenvolvimento
de fármacos e vacinas
15
16. 2 - Ômicas: dados para biologia de sistemas
Investigar modificações genômicas, transcriptômicas, proteômicas e metabolômicas
Novas metodologias novas questões e perspectivas – impacto sistêmico-global
Ritchie MD, et al. Methods of integrating data to uncover genotype-phenotype interactions, Nat Rev Genet. 2015
Perturbação
16
17. Roteiro da aula
Biologia dos Sistemas: ômicas e ferramentas computacionais
1. Introdução: definição, características e estratégias
2. Ômicas: dados para biologia dos sistemas
3. Bioinformática: definição e aplicações
4. Bancos de dados: versão computável das
"ômicas"
5. Motivos de rede (network): conceitos e métodos
6. Ferramentas de bioinformática: Exemplos e
aplicações
17
18. 3 – Bioinformática:
definição e aplicações
Searl, D. The roots of bioinfomatics. Plos Computational Biology 2010; https://stremble.com/systems-biology/
O que é?
A aplicação da estatística e ciência da computação no campo da
biologia molecular – biologia dos sistemas
Computadores e softwares: armazenar, trabalhar e analisar os
dados biológicos
Aplicações: revelar processos biológicos e evolutivos;
desenvolvimento de fármacos e medicina personalizada
18
19. 3 – Bioinformática:
definição e aplicações
Sajid Rashid. Bioinformatics resource development in Pakistan: A review. December 2005
bioinformática
sequências
repetitivas e
regulatórias
SNPs,
deleções,
rearranjos,
haplótipos
identificação
gênica e
anotação
funcional
interações
proteína, DNA
e RNA
identificação
de proteínas,
sítios ativos e
de ligação
predição e
modelagem
de estrutura
proteica
identificação
de
metabólitos e
vias
19
20. 3 – Bioinformática:
aplicações
Minseung Kim and Ilias Tagkopoulo, Data integration and predictive modeling methods for multi-omics datasetsMol. Omics, 2018
20
21. Roteiro da aula
Biologia dos Sistemas: ômicas e ferramentas computacionais
1. Introdução: definição, características e estratégias
2. Ômicas: dados para biologia dos sistemas
3. Bioinformática: definição e aplicações
4. Bancos de dados: versão computável das
"ômicas"
5. Motivos de rede (network): conceitos e métodos
6. Ferramentas de bioinformática: Exemplos e
aplicações
21
22. 4 – Bancos de dados: versão computável das "ômicas"
https://rnacentral.org/expert-databases
Catalogam predições e interações
DNA:RNA:proteína:metabólito
Anotações das informações e características
Acesso livre para outros grupos
Crescimento exponencial do número de dados das ômicas
22
23. 4 – Bancos de dados: versão computável das "ômicas"
https://rnacentral.org/expert-databases
23
24. 4 – Bancos de dados: versão computável das "ômicas"
exemplos
https://rnacentral.org/expert-databases
Sequências de
nucleotídeos
Sequências de
aminoácidos
Genbank Uniprot
~150 Gbp (150 bilhões bp) de informação
em 160 milhões de arquivos de sequências
200 milhões de resíduos de aminoácidos
em 500,000 arquivos de sequências
anotadas
24
25. 4 – Bancos de dados: versão computável das "ômicas"
exemplos
https://rnacentral.org/expert-databases
25
26. Roteiro da aula
Biologia dos Sistemas: ômicas e ferramentas computacionais
1. Introdução: definição, características e estratégias
2. Ômicas: dados para biologia dos sistemas
3. Bioinformática: definição e aplicações
4. Bancos de dados: versão computável das
"ômicas"
5. Motivos de rede (network): conceitos e métodos
6. Ferramentas de bioinformática: Exemplos e
aplicações
26
27. 5 – Motivos de rede - networks: conceitos e métodos
• Networks – Redes de interações biológicas
• Grafos: entidade matemática abstrata composta por um conjunto (G) de
vértices (nodes) e arestas (edges) que representam as ligações entre os nós
27
28. 5 – Motivos de rede - network: conceitos e métodos
28
29. 5 – Motivos de rede - network:
exemplo
Sun et al, Metabolic gene NR4A1 as a potential therapeutic target for non‐smoking female non‐small cell lung cancer patients.
Thorac Cancer. 2019 Apr; 10(4): 715–727.
Análise de Co-expressão - Network – mRNAs (transcritos - microarrranjos)
Interações proteicas
azul > interações
amarelo < interações
29
30. 5 – Motivos de rede - network:
exemplo
Determinação de função biológica
Vias metabólicas
Cascata de sinalização
30
31. Roteiro da aula
Biologia dos Sistemas: ômicas e ferramentas computacionais
1. Introdução: definição, características e estratégias
2. Ômicas: dados para biologia dos sistemas
3. Bioinformática: definição e aplicações
4. Bancos de dados: versão computável das
"ômicas"
5. Motivos de rede (network): conceitos e métodos
6. Ferramentas de bioinformática: Exemplos e
aplicações
31
32. 6 – Ferramentas de Bioinformática:
Exemplos e aplicações – ômicas
identificar biomarcadores – "ômicas"
Medicina personalizada
32
33. 6 – Ferramentas de Bioinformática:
Exemplos e aplicações – ômicas
identificação biomarcadores de sensibilidade/resistência a droga -câncer
Iorio, F. et al.Cell. 2016
33
34. 6 – Ferramentas de Bioinformática:
Exemplos e aplicações no estudo das ômicas
Kelly V. Ruggles et al. Mol Cell Proteomics 2017;16:959-981
Identificação biomarcadores de sensibilidade/resistência a droga –câncer
Modelo integrativo do genômica/transcriptômica/proteômica
34
35. 6 – Ferramentas de Bioinformática:
Exemplos e aplicações no estudo das ômicas
Li B. et al. Novel Applications of Metabolomics in Personalized Medicine: A Mini-ReviewMolecules 2017
Identificação biomarcadores de sensibilidade/resistência a droga –câncer
Modelo integrativo de metabolômica
35
36. 6 – Ferramentas de Bioinformática:
Exemplos e aplicações no estudo das ômicas
Kelly V. Ruggles et al. Mol Cell Proteomics 2017;16:959-981
Identificação biomarcadores de sensibilidade/resistência a droga –câncer
Modelo integrativo de metabolômica
36
38. Referências
Molecular Biology of the Cell – Bruce Alberts, Alexander Johnson, Julian Lewis, Martin Raff, Keith
Roberts, Peter Walter – Garland Science – 4ªed.
Cell Physiology Source Book – Nicholas Sperelakis – Academic press - 4ªed.
Biological Physics: with New Art by David Goodsell - Philip Nelson (University of Pennsylvania) -
1ªed. 2013
Agostino, M. (2012). Practical Bioinformatics. Garland Science, 1st edition, USA.
Lesk, A.M. (2012). Introduction to Genomics. Oxford University Press, 2nd edition, USA.
Lesk, A.M. (2014). Introduction to Bioinformatics. Oxford University Press, 4th edition, USA.
Pevzner, P. & Shamir, R. (2011). Bioinformatics for Biologists. Cambridge University Press, 1st
edition, UK.
Hesper B, Hogeweg P (1970) Bioinformatica: een werkconcept. Kameleon 1(6): 28–29.
38
Notas do Editor
Introdução ao estudo da biologia de sistemas
Variáveis em biologia
Redes de interação biológica (regulação gênica e metabólica)
Parâmetros, características e princípios operacionais
Motivos de rede (network)
Teoria matemática de redes
Tópicos emergentes em biologia dos sistemas
Introdução ao estudo da biologia de sistemas
Variáveis em biologia
Redes de interação biológica (regulação gênica e metabólica)
Parâmetros, características e princípios operacionais
Motivos de rede (network)
Teoria matemática de redes
Tópicos emergentes em biologia dos sistemas
By ‘principles’ here Bernard meant the laws governing the behaviour of the components. The control of the
milieu int ́erieur meant not that the individual molecules did anything different from what they would do in non-
living systems, but rather that the ensemble behaves in a controlled way, the controls being those that maintain the
constancy of the internal environment. How could that be formalized? Could there be a theoretical physiology? Physical scientists had long since used mathematics to formalize their theories. Could that also be done in
physiology? Bernard’s answer to this question was ‘yes, but not yet.’ He cautio
The gene's eye view of life, proposed in Richard Dawkins acclaimed bestseller The Selfish Gene, sees living bodies as mere vehicles for the replication of genetic codes. But in The Music of Life, world renowned physiologist Denis Noble argues that, to truly understand life, we must look beyond the "selfish gene" to consider life on a much wider variety of levels.Life, Noble asserts, is a kind of music, a symphonic interplay between genes, cells, organs, body, and environment. He weaves this musical metaphor throughout this personal and deeply lyrical work, illuminating ideas that might otherwise be daunting to non-scientists. In elegant prose, Noble sets out a cutting-edge alternative to the gene's eye view, offering a radical switch of perception in which genes are seen as prisoners and the organism itself is a complex system of many interacting levels. In his more expansive view, life emerges as a process, the ebb and flow of activity in an intricate web of connections. He introduces readers to the realm of systems biology, a field that has been growing in strength in the past decade. Noble, himself one of the founders of this field, argues modern systems biology may be the view we need to adopt to gain a deeper understanding of the nature of life.Drawing on his experiences in his research on the heartbeat, and on evolutionary biology, development, medicine, philosophy, linguistics, and Chinese culture, Noble presents us with a profound and very modern reflection on the nature of life.
Informação acumulada durante a evolução
● Transmissão de informação do DNA para RNA e proteínas
➢ ...e consequentemente para processos intra- e intercelulares
● Transmissão de informção.o ambiental para a c.lula
● Interpreta..o de informa..o nos m.ltiplos n.veis biol.gicos
Imagem do estudo de um gene-proteina..ligaod ao fenotipo
Resitenica a miltefosina trasportador?
Como é sua expressão
Conferir aristóteles
Reduzir texto
Envolve a criação e análise de modelos que permitam entender as propriedades emergentes
Definição: Propriedades de um sistema que só existem em nível do sistema e que não podem ser deduzidas pela simples adição do comportamento e das propriedades de seus componentes.
Depende da integração e análise de conjuntos massivos de dados gerados de múltiplas fontes ascenção de tecnologias de larga escala em biologia – "ômicas"
A ‘‘top-down’’ approach to biology. Systems biology employs a top-down approach which is broad and integrative, looking at ‘‘net’’ effects in a given biological system in the context of health or disease. Systems biology, therefore, is often described as ‘‘nonhy- pothesis driven.’’ Conversely, traditional laboratory techniques tend to adopt a ‘‘bottom-up’’ approach which (driven by a focused hypothesis) investigates a single DNA, RNA, protein, or metabolite entity, then works back toward physiology or pathology.
Informação acumulada durante a evolução
● Transmissão de informação do DNA para RNA e proteínas
➢ ...e consequentemente para processos intra- e intercelulares
● Transmissão de informção.o ambiental para a c.lula
● Interpreta..o de informa..o nos m.ltiplos n.veis biol.gicos
Introdução ao estudo da biologia de sistemas
Variáveis em biologia
Redes de interação biológica (regulação gênica e metabólica)
Parâmetros, características e princípios operacionais
Motivos de rede (network)
Teoria matemática de redes
Tópicos emergentes em biologia dos sistemas
Incluir uma imagem representativa
The contribution of genetics and environment to obesity July 2017 British Medical Bulletin 123(1):1-15, David Albuquerque
Além de novas metodologias novas questões e perspectivas – impacto sistêmico-global
Quais proteínas interagem umas com as outras? E com DNA ou RNA?
Quais as variantes genéticas associadas a doenças?
Introdução ao estudo da biologia de sistemas
Variáveis em biologia
Redes de interação biológica (regulação gênica e metabólica)
Parâmetros, características e princípios operacionais
Motivos de rede (network)
Teoria matemática de redes
Tópicos emergentes em biologia dos sistemas
episteme
/ê/
substantivo femininofilosofia
1. na filosofia grega, esp. no platonismo, o conhecimento verdadeiro, de natureza científica, em oposição à opinião infundada ou irrefletida.
2. no pensamento de Foucault 1926-1984, o paradigma geral segundo o qual se estruturam, em uma determinada época, os múltiplos saberes científicos, que por esta razão compartilham, a despeito de suas especificidades e diferentes objetos, determinadas formas ou características gerais [O surgimento de uma nova episteme estabelece uma drástica ruptura epistemológica que abole a totalidade dos métodos e pressupostos cognitivos anteriores, o que implica uma concepção fragmentária e não evolucionista da história da ciência.].
The contribution of genetics and environment to obesity July 2017 British Medical Bulletin 123(1):1-15, David Albuquerque
Omics data processing pipeline. The processing pipelines for three major high-throughput technologies are shown. It is comprised of three distinctive steps: (A) collection step, where the samples are processed and raw data are generated; (B) transformation step, where data are processed, reads mapped and molecules identified; (C) interpretation step, where data are interpreted based on existing knowledge of the corresponding organism. In all cases, quality control (QC) is applied at the end of each stage to ensure high data quality.
Introdução ao estudo da biologia de sistemas
Variáveis em biologia
Redes de interação biológica (regulação gênica e metabólica)
Parâmetros, características e princípios operacionais
Motivos de rede (network)
Teoria matemática de redes
Tópicos emergentes em biologia dos sistemas
O ritmo de sequenciamento de genomas cresce de maneira exponencial – muitos dados
Como arquivar?
Como outros grupos de pesquisa podem ter acesso ao dados? Compartilhar a informação
Anotação das informações e características
O ritmo de sequenciamento de genomas cresce de maneira exponencial – muitos dados
Como arquivar?
Como outros grupos de pesquisa podem ter acesso ao dados? Compartilhar a informação
Anotação das informações e características
GenBank currently (late 2012) contains ~150 Gbp (150 billion bp) of information in 160 million sequence files. Only original, experimentally-derived sequences can be submitted to GenBank. It is a redundant database, meaning that a particular sequence can be determined by independent research projects (cloning of a single gene or by genome sequencing projects). GenBank continues to grow at an exponential rate, doubling every 18 months. Presently, the major sources of submitted sequences are genome projects (complete sequencing of the full genetic material of an organism). Up to now, more than a thousand genomes have been sequenced, including our own genome. The Human Genome Project (www.ornl.gov/Human_Genome), i.e. the sequencing of the 3.2-Gbp human haploid genome (the 23 chromosomes) was finished in 2003. More precisely, only the gene-rich euchromatin region of the chromosomes (~90%) were sequenced because the highly repetitive so-called constitutive heterochromatin (around the centromere and the telomeres of the chromosomes) cannot be cloned. The human genome sequence, and in fact most of the genome sequences, are freely available in GenBank and in other databases (e.g. Ensemble, GenCard). GenBank is an annotated database, i.e. the sequences are supplemented with explanations or commentaries on its information content (including the coding region, the source of the sequence, and related publications). Nucleic acid sequences and any analysis derived from those sequences can be published only after they have been deposited in a freely accessible database. The main page of NCBI is shown in Figure 11.2, while a sequence entry is shown in Figure 11.3. An online example of a sequence record (that of the human hemoglobin beta chain) is accessible here.
UniProt (uniprot.org) is an annotated, non-redundant amino acid sequence database that actually consists of two sub-databases. The Swissprot division contains only experimentally validated and manually curated (annotated) protein sequences together with references to scientific publications (currently it contains more than 200 million amino acid residues in more than 500,000 annotated sequence files), while the TrEMBL division contains automatically translated sequences (currently more than 8 billion amino acid residues in approximately 24 million sequence files) from the EMBL nucleic acid database. Annotations of UniProt files include alternative versions of the particular sequence (alternatively spliced isoforms), other sequence variations (polymorphisms, mutations, sequence conflicts), information on the protein family to which the sequence belongs, structural and functional elements (motifs) of the polypeptide sequence, posttranslational modifications, cross-references to other databases (nucleotide sequence, structural and secondary databases) and, finally, literature references. An important part of the annotation is the so-called Gene Ontology (GO), a standardised vocabulary of the gene product across species and databases. It covers three attributes of the protein: the cellular component is the biological localisation of the protein (the parts of a cell or extracellular environment); the molecular function describes the elementary activities at the molecular level, e.g. binding or catalysis; and finally the biological process, functions in integrated living units: cells, tissues, organs, and organisms. An example UniProt file is shown in Figure 11.5 and Figure 11.6 (human skeletal muscle α-actin with accession code P68133). Protein sequences are referred to using their accession number (six alphanumeric characters) in research publications. The reader is encouraged to read the following short tutorial about the use of the UniProt database.
Currently the RNAcentral Consortium is formed by 44 Expert Databases, 31 of which have already been imported into RNAcentral. https://rnacentral.org/expert-databases
Introdução ao estudo da biologia de sistemas
Variáveis em biologia
Redes de interação biológica (regulação gênica e metabólica)
Parâmetros, características e princípios operacionais
Motivos de rede (network)
Teoria matemática de redes
Tópicos emergentes em biologia dos sistemas
Network - string
Deixar um ou dois exemplos!!!!
Network – string
Co‐expression network of metabolically related differentially expressed genes (DEGs). (a) Co‐expression network of downregulated metabolically related DEGs presented by nodes and edge by analyzer of cytoscape. The deeper the blue and the larger the node indicates more proteins that could interact with this node, while the deeper the yellow and the smaller the node indicates less protein interactors. (b) The exact number of co‐expression degree numbers for the 12 DEGs, which are associated with both lipid and protein/amino acid metabolism.
Introdução ao estudo da biologia de sistemas
Variáveis em biologia
Redes de interação biológica (regulação gênica e metabólica)
Parâmetros, características e princípios operacionais
Motivos de rede (network)
Teoria matemática de redes
Tópicos emergentes em biologia dos sistemas
associate with drug sensitivity/resistance, and highlight the importance of tissue lineage in mediating drug response. Logic-based modeling uncovers combinations of alterations that sensitize to drugs, while machine learning demonstrates the relative importance of different data types in predicting drug response. Our analysis and datasets are rich resources to link genotypes with cellular phenotypes and to identify therapeutic options for selected cancer sub-populations.
Integrative modeling. Overview of sub-topics in integrative modeling of proteogenomic data. A, Clustering techniques illustrating a schematic of multi-omic hierarchical clustering analysis resulting in the identification of two subtypes, B, Predictive modeling for disease diagnosis, prognosis, drug response and drug toxicity using multiple data modalities and, C, proteogenomic pathway and network modeling, including informing network composition and pathway and GO term enrichment
Integrative modeling. Overview of sub-topics in integrative modeling of proteogenomic data. A, Clustering techniques illustrating a schematic of multi-omic hierarchical clustering analysis resulting in the identification of two subtypes, B, Predictive modeling for disease diagnosis, prognosis, drug response and drug toxicity using multiple data modalities and, C, proteogenomic pathway and network modeling, including informing network composition and pathway and GO term enrichment
Integrative modeling. Overview of sub-topics in integrative modeling of proteogenomic data. A, Clustering techniques illustrating a schematic of multi-omic hierarchical clustering analysis resulting in the identification of two subtypes, B, Predictive modeling for disease diagnosis, prognosis, drug response and drug toxicity using multiple data modalities and, C, proteogenomic pathway and network modeling, including informing network composition and pathway and GO term enrichment