O documento discute bases de dados biológicas como GenBank, COG e KEGG, que fornecem informações sobre sequências genéticas, proteínas e vias metabólicas. Ele explica como esses recursos podem ser usados para mapear genes a números orthologous e vias metabólicas.
1. +
Bioinformática
Bases de dados biológicos
Gabriel da Rocha Fernandes
Universidade Católica de Brasília
gabrielf@ucb.br - fernandes.gabriel@gmail.com
2. + 2
Bases de dados biológicos
n Disponibilizam de dados e informações biológicas.
n Bases de dados primárias: depósitos de sequências.
n DDBJ (DNA Data Bank of Japan)
n EBI
n GenBank - NCBI
n Bases
de dados secundárias: agrupam informações biológicas
- genômica, proteômica, metabolômica...
n COG/KOG
n UniProt
n Pfam
n KEGG
n PDB
3. + 3
NCBI - National Center for
Biotechnology Information
n Nucleotide - Todas as sequências de nucleotideos.
n Proteins - Sequências de aminoácidos.
n Genome - Genomas completos.
n Taxonomy - Informação taxonômica
n dbSNP - Base de dados de variações: SNP, INDEL...
n dbEST - Bases contendo sequencias de mRNA.
n SRA - Dados de NGS.
n CDD - Base de dados de domínios conservados
n Pubmed - Artigos.
9. + 9
COG - Cluster of Orthologous
groups
n Base de dados do NCBI.
n 63 genomas procarióticos e 3 eucarióticos.
n Mais que 192 mil entradas em 4872 grupos.
n http://www.ncbi.nlm.nih.gov/COG/
n BBH - Bidirectional Best Hit
n Agrupa genes ortólogos sob um mesmo
identificador.
n
12. + 12
KEGG - Conjunto de bases de
dados integradas
n Idealizada
em 1995 – mapas metabólicos para o projeto
genoma humano.
n Sub bases de dados.
n "Pathway", "Genes", "Enzyme" e "Compound” no início.
n "Genome"em 2000, "Reaction" em 2001, e em 2002 “KEGG
Orthology (KO)”
13. + 13
KEGG - Conjunto de bases de
dados integradas
14. + 14
Composição
n Dados de 1601 genomas completos são utilizados.
n Todos os genes e respectivas proteínas mapeadas no genoma.
n 99
organismos representados em quase 3,8 milhões de contigs
de EST.
n 15 Metagenomas.
15. + 15
KEGG Pathway
n Agrupainformações de mapas de
vias metabólicas e não-metabólicas.
n 392 vias.
n Através
da integração de informações
de cada composto e enzima permite o
estudo de uma via por completo.
17. + 17
KEGG Reaction
! Contém informações sobre
as reações químicas
catalizadas pelas enzimas.
! Permite associar a uma
enzima ou a um KO.
! Identificação de KO
equivalentes
18. + 18
Hierarquia do KEGG
! A fonte de anotação até então disponível – GO (Gene
Ontology) não possui uma organização em níveis funcionais.
19. + 19
Hierarquia do KEGG
! Padronização de 4 níveis hierárquicos.
! 7 Categorias, 37 subcategorias, 392 vias e 14618 KO.
Categoria
Sub categoria
Via
KO
! Anotação automatizada: KAAS e KOBAS
20. + 20
KEGG Orthology (KO)
n Integrar
a informação genômica às redes protéicas através dos
números EC.
n Utiliza
identificadores comuns nos genomas e nas vias
metabólicas.
n Gruposeram formados por análise manual de um banco de
similaridades combinada com características evolutivas.
n Informação propagada utilizando ferramentas computacionais
(KOALA)
n Peça chave para o sistema hierárquico do KEGG.
21. + 21
KEGG Orthology (KO)
! Identificador do grupo.
! Nome, definição e EC.
! Vias que participa.
! Módulos de vias envolvidos.
! Hierarquia completa.
! Equivalentes em outras bases.
! Genes.
30. + 30
UniProt
n UniProtKB: mais
que 14 milhões de entradas anotadas provenientes
de Swiss-Prot (manual) e trEMBL (automática).
n UniRef: agrupa
entradas que compartilham 50%, 90% ou 100% de
identidade em uma sequência não redundante.