Bioinformática:Banco de DadosProf. Dra. Adriana DantasUERGS, Bento Gonçalves, RS
Introdução• Tipos de dados relacionados a moléculas pra suporte apesquisa e aplicações em biologia, agricultura etecnologi...
Como acessar e recuperarinformações dos bancos de dados?• Todo banco de dados é composto por entradas (pacotes discretos e...
Saiba o quê e aonde você estápesquisando....• Entrada: E. coli Escherichia coli• E. Coli – Elisabetta ColiElisabetta Coli,...
Sede por conhecimento• Talvez você não encontre o que você busca, mas seencontrar.....• Se encontrou provavelmente vai que...
Conexão entre os bancos de dados(Interatividade)• Achar genes homólogos ao que você buscou•Conexão entre entradas do mesmo...
Bancos de dados e o crescimento da informaçãoBancos de dados e o crescimento da informação• Informação aumenta, os genes e...
Exemplos de bancos de dados públicospara biologia molecular• Bancos de dados primários (sequencias de nucleotídeos)• NCBI,...
Bando de Dados Primários• Sequencias de ácidos nucleicos, incluindo genmascompletos• Sequencias de aminoácidos de proteína...
1. Bancos de dados primários(sequencias de nucleotídeos)• Arquivamento mundial de sequencias de ácidos nucleicos é uma par...
Banco de dados de ácidos nucleicos• São coleções de registros ou entradas• Cada entrada tem a forma de um arquivo texto co...
Entrada de sequencia de DNA doEMBL Data Library
Tabela de características para ogene do inibidor da tripsinapancreática bovina• FT (feature tables) – componente deanotaçã...
National Center for BiotechnologyNational Center for BiotechnologyInformation (ncbi)Information (ncbi)OO NCBINCBI fornece ...
Acesso a Banco de Dados• Bando de Dados de ácidos nucleicos e proteínas mantém recursos parauma ampla variedade de mecanis...
ENTREZ• O NCBI, mantém o sistema ENTREZ oferece acesso por meio dasseguintes divisões de banco de dados:• PROTEINA• PEPTID...
GenBank• Genbank, ddBJ, EMBL• Identificadores• gI, accession number• Formatos• FASTA, GenBank• http://www.ncbi.nlm.nih.gov...
BLAST databases• Pept i de Sequence Dat abases• Nr: Al l non- r edundant GenBank CDS t r ansl at i ons + Ref Seq Pr ot ei ...
RefSeq• Banco de dados desequências de referênciapara genomas• Apresenta uma única cópiapara cada gene no genoma• É o verd...
dbEST
dbGSS• Contém sequênciasgenômicas single-passedpara diversos organismos
UniGene• Contém clusters de ESTs formados apartir de similaridades usando oalgoritmo megaBLAST• Reúne variantes de splicin...
Pesquisando dados de nucleotídeosutilizando Entrez
3 - Bancos de dados genômicos• Coleção de informações sobre determinados genomas (quasesempre organimos modelo).• Dados de...
Busca por região no cromossomo 16Busca por região no cromossomo 16
Ensembl fornece:Ensembl fornece:-- Genomas completos de diversos- Anotação de SNPs- Alinhamento com sequencias homólogas d...
SGD fornece:SGD fornece:--Genoma completoGenoma completo--Fenótipos de mutantes específicos paraFenótipos de mutantes espe...
TAIR fornece:TAIR fornece:--Genoma completoGenoma completo--Localização das inserções de T-DNALocalização das inserções de...
4 - Bancos de proteínas• Consórcio que visa fornecer anotação relevante ecurada de proteínas.• Baseiam-se em dados de prot...
Banco de dados de sequencias deproteínas• Três bancos de dados de proteínas• Protein Information Resource National Biomedi...
Enzyme DB armazena as seguintesinformações:• Numero EC:Numero EC: identificador numérico designado pelaComissão de Enzimas...
Anotação da sequenciaVant agens do Uni Prot :Vant agens do Uni Prot :- banco curado manual ment e- cont ém mui t a i nf or...
PIR e os bancos de dados associados:PIR e os bancos de dados associados:PIR-PSD -PIR-PSD -principal banco de dados deprinc...
Ferramentas de recuperação deinfromação do PIR• Recuperar entradas especificas debanco de dados• Alinhamento par a par de ...
Expasy –Expasy – Expert Protein Analysis SystemExpert Protein Analysis System• Sistema de análise e recuperação de informa...
5 - Bancos de estruturas de proteínas e outrasmacromoléculas• Anota, cataloga e distribui conjuntos de coordenadasatômicas...
Informações que incluem na entradado Protein Data Bank• Que proteína é o assunto da entrada, e a qual espécie ela pertence...
6 - Bancos de domínios proteicos• Anotam e catalogam domínios ou motivos proteicos.Fazem comparações entre sequencia de co...
Famílias protéicas• A maioria das proteínas pode ser agrupada emfamílias com base na similaridade entre suassequências• Si...
Interpro• Portal que inclui vários bancos de dados de domínios ede estrutura de proteínas
Assinaturas ou domínios protéicos• Obtidos através da análise de regiões que se mantémconstantes em grupos de sequências s...
7 - Bancos de vias metabólicas• Kyoto Encyclopedia of genes and Genome (KEEG) arquiva genomas individuais, produtos degene...
8 - Bancos de dados de expressãogênica• - Banco de dados de depósito de dados de expressãogênica em larga escala (ArrayExp...
COG• Cluster of Orthologous Groups• 66 genomas bacterianos• Best Hits cruzados entre 3 organismos• Genes bacterianos agrup...
Conclusões• Há bancos de dados em bioinformática parapraticamente qualquer tipo de abordagem embiologia molecular• Stein, ...
Bioinformática arquivo de dados
Bioinformática arquivo de dados
Bioinformática arquivo de dados
Bioinformática arquivo de dados
Bioinformática arquivo de dados
Bioinformática arquivo de dados
Bioinformática arquivo de dados
Bioinformática arquivo de dados
Bioinformática arquivo de dados
Bioinformática arquivo de dados
Bioinformática arquivo de dados
Bioinformática arquivo de dados
Bioinformática arquivo de dados
Bioinformática arquivo de dados
Bioinformática arquivo de dados
Bioinformática arquivo de dados
Bioinformática arquivo de dados
Bioinformática arquivo de dados
Bioinformática arquivo de dados
Bioinformática arquivo de dados
Bioinformática arquivo de dados
Bioinformática arquivo de dados
Bioinformática arquivo de dados
Bioinformática arquivo de dados
Bioinformática arquivo de dados
Bioinformática arquivo de dados
Bioinformática arquivo de dados
Bioinformática arquivo de dados
Bioinformática arquivo de dados
Bioinformática arquivo de dados
Bioinformática arquivo de dados
Bioinformática arquivo de dados
Bioinformática arquivo de dados
Próximos SlideShares
Carregando em…5
×

Bioinformática arquivo de dados

1.822 visualizações

Publicada em

Publicada em: Educação
0 comentários
0 gostaram
Estatísticas
Notas
  • Seja o primeiro a comentar

  • Seja a primeira pessoa a gostar disto

Sem downloads
Visualizações
Visualizações totais
1.822
No SlideShare
0
A partir de incorporações
0
Número de incorporações
4
Ações
Compartilhamentos
0
Downloads
97
Comentários
0
Gostaram
0
Incorporações 0
Nenhuma incorporação

Nenhuma nota no slide

Bioinformática arquivo de dados

  1. 1. Bioinformática:Banco de DadosProf. Dra. Adriana DantasUERGS, Bento Gonçalves, RS
  2. 2. Introdução• Tipos de dados relacionados a moléculas pra suporte apesquisa e aplicações em biologia, agricultura etecnologias entre outras.• Conhecer a infraestrutura básica da bioinformática, emtermos dos sítios na web• Conceitos básicos de recuperação de informação,concluindo como formular consultas a banco de dados• Desenvolver habilidades com os instrumentos depesquisa na web e em sítios específicos• Aprender a pesquisar por informações especificas sobresequencias, estruturas, vias metabólicas, e realizar analisecom dados recuperados.
  3. 3. Como acessar e recuperarinformações dos bancos de dados?• Todo banco de dados é composto por entradas (pacotes discretos ecoerentes de informação)• Um software de recuperação de informação identifica entradasrelevantes para o seu interesse• Para que a pesquisa seja bem-sucedida, seja o mais específico possível• Se você procura uma albumina de galinha..• Busque por Chicken AND albumin• Se você for procurar primeiro por Chicken vão aparecer entradas quenão contêm informação sobre as albuminas (perda de tempo)• Se você procurar por albumin vão aparecer entradas contendo ainformação sobre albuminas que não são necessariamente de galinha(perda de informação)
  4. 4. Saiba o quê e aonde você estápesquisando....• Entrada: E. coli Escherichia coli• E. Coli – Elisabetta ColiElisabetta Coli, pesquisadora do departamento depsiquiatria, farmacologia, neurobiologia e biotecnologia.
  5. 5. Sede por conhecimento• Talvez você não encontre o que você busca, mas seencontrar.....• Se encontrou provavelmente vai querer saber mais• Exemplos:• Achar genes homólogos ao que você buscou• Referências bibliográficas sobre o gene• Estrutura da proteína codificada por esse gene
  6. 6. Conexão entre os bancos de dados(Interatividade)• Achar genes homólogos ao que você buscou•Conexão entre entradas do mesmo banco(banco de dados de genes)• Referências bibliográficas sobre o gene•Conexão entre banco de dados de genes e bancode referências• Estrutura da proteína codificada por esse gene•Conexão entre banco de dados de genes e bancode estruturas de proteínas
  7. 7. Bancos de dados e o crescimento da informaçãoBancos de dados e o crescimento da informação• Informação aumenta, os genes evoluem e os bancosdevem se adequar...e ..evoluir• Aumento do recurso computacional para o arquivamentoe interpretação dos dados• Aumento do número de bancos especializados(“boutiques”)• Surgimento dos sites “guarda-chuva” – tipo portal• Aumento da interatividade
  8. 8. Exemplos de bancos de dados públicospara biologia molecular• Bancos de dados primários (sequencias de nucleotídeos)• NCBI, EMBL, DDBJ• Meta-databases• ENTREZ• Bancos de dados genômicos• Ensembl, SGD, TAIR• Bancos de dados de proteínas• UNIPROT (PIR, SwissProt, TrEMBL), InterPro, ExPASY• Bancos de dados de estrutura de proteínas• PDB• Bancos de domínios e motivos proteicos• PFAM, SMART, PROSITE, PRODOM, PRINTS• Bancos de vias metabólicas• KEGG, BioCyc• Bancos de dados de expressão gênica• ArrayExpress, GEO• Bancos de ontologia• Gene Ontology
  9. 9. Bando de Dados Primários• Sequencias de ácidos nucleicos, incluindo genmascompletos• Sequencias de aminoácidos de proteínas• Estruturas de proteínas e ácidos nucleicos• Estruturas cristalográficas de pequenas moléculas• Funções de proteínas• Padrões de expressão de genes• Vias metabólicas e redes de interação e controle• Publicações
  10. 10. 1. Bancos de dados primários(sequencias de nucleotídeos)• Arquivamento mundial de sequencias de ácidos nucleicos é uma parceriaentre:• GenBank (National Center for Biotechnology Information - NCBI)(EUA)• DDBJ (DNA Data Bank of Japan)• EMBL Nucleotide DB (European Molecular Biology Laboratory - EBI)• Consórcio International Nucleotide Sequence Database (INSD)• Armazenam sequencias de nucleotídeos (DNA e RNA) coeltados de projetosde genomas, publicções cientificas e depósitos de patentes• Eles trocam informação e são fontes para outros bancos de dados• http://www.ddbj.nig.ac.jp/• http://www.ebi.ac.uk/embl/• http://www.ncbi.nlm.nih.gov/
  11. 11. Banco de dados de ácidos nucleicos• São coleções de registros ou entradas• Cada entrada tem a forma de um arquivo texto contendodados e anotações para uma sequencia contigua única.• Muitas entradas são reunidas a partir de diversos artigospublicados que descrevem o fragmento sobreposto deuma sequencia completa.• Outras sequencias são genomas completos.• As entradas tem um ciclo de vida no banco de dados, ouseja, antes mesmo que esteja completa e verificada já édepositada.• Classes de entradas:• Não anotada →Preliminar → Não revisada →Padrão
  12. 12. Entrada de sequencia de DNA doEMBL Data Library
  13. 13. Tabela de características para ogene do inibidor da tripsinapancreática bovina• FT (feature tables) – componente deanotação específica para regiõesespecificas, ex. sequenciacodificadoras (CDS):• Tabela indica regiões:• Executam ou afetam funções• Interagem com outras moléculas• Afetam replicação• Estão envolvidas na recombinação• São uma unidade repetitiva• Possuem estrutura secundaria e terciaria• São revisadas ou concluídas
  14. 14. National Center for BiotechnologyNational Center for BiotechnologyInformation (ncbi)Information (ncbi)OO NCBINCBI fornece acesso afornece acesso agenomas completos de maisgenomas completos de maisde 5.700 organismos.de 5.700 organismos.Genomas significam tantoGenomas significam tantosequências completas desequências completas deorganismos quanto os queorganismos quanto os queestão em processo deestão em processo desequenciamento.sequenciamento.http://www.ncbi.nlm.nih.govhttp://www.ncbi.nlm.nih.gov
  15. 15. Acesso a Banco de Dados• Bando de Dados de ácidos nucleicos e proteínas mantém recursos parauma ampla variedade de mecanismos de recuperação de informação erealização de analises• 1. Categoria de possibilidades• Recuperação de sequencias em banco de dados . Sequencias podem serconvocadas com base nas características de suas anotações• 2. Comparação de sequencias – pesquisa sobre homologias• 3. Tradução das sequencias de DNA em sequencias de proteínas• 4. Tipos simples de analise e predição de estruturas – ex. métodosestatísticos para predição de estrutura secundaria de proteínas a partirsomente de sequencias• 5. Reconhecimento de padrões – é possível pesquisar todas as sequenciascontendo um padrão , sitio de reconhecimento para enzimas.• 6. Gráficos moleculares - mapeamento
  16. 16. ENTREZ• O NCBI, mantém o sistema ENTREZ oferece acesso por meio dasseguintes divisões de banco de dados:• PROTEINA• PEPTIDEO• Nucleotídeo• GENE• ESTRUTURA• GENOMA• POPSET – INFORMAÇÕES SOBRE POPULAÇÕES• OMIM – ON LINE MEDELINA INHERITANCE IN MAN• Pontos fortes dos sistema NCBI são as conexões entre os váriosbanco de dados.• Recuperação das sequencias e estrutura é chamado de Entrez.
  17. 17. GenBank• Genbank, ddBJ, EMBL• Identificadores• gI, accession number• Formatos• FASTA, GenBank• http://www.ncbi.nlm.nih.gov/nuccore/187830767?report=genbank&log$=seqview• >gi|187830767|ref|NM_000546.4| Homo sapienstumor protein p53 (TP53), transcript variant1, mRNA• GATTGGGGTTTTCCCCTCCCATGTGCTCAAGACTGGCGCTAAAAGTTTTGAGCTTCTCAAAAGTCTAGAGCCACCGTCCAGGGAGCAGGTAGCTGCTGGGCTCCGGGGACACTTTGCGTTCGGGCTGGGAGCGTGCTTTCCACGACGGTGACACGCTTCCCTGGATTGGCAGCCAGACTGCCTTCCGGGTCACTGCCATGGAGGAGCCGCAGTCAGATCCTAGCGTCGAGCCCCCTCTGAGTCAGGAAACATTTTCAGACCTATGGAAACTACTTCCTGAAAACAACGTTCTGTCCCCCTTGCCGTCCCAAGCAATGGATGATTTGATGCTGTCCCCGGACGATATTGAACAATGGTTCACTGAAGACCCAGGTCCAGATGAAGCTCCCAG(...)>gi|187830767 numero geninfo, identificador atribuídopelo NCBI para cada sequencia do seu bancode dadosENTREZ,O NCBI coleta sequencias a partir de varias fontes,incluindo coleções de arquivos de dados primários epedidos de patentes.Seus números gi fornecem um identificador, dotipoguarda-chuva, comum econsistente, para as sequencias,sobrepondo as diferente convenções dos bancos de dadosfonte.sp|P00435 indica que o banco de dados fonteé oSWISS-PROT, e o numero de entrada é P00435
  18. 18. BLAST databases• Pept i de Sequence Dat abases• Nr: Al l non- r edundant GenBank CDS t r ansl at i ons + Ref Seq Pr ot ei ns + PDB + Swi ssPr ot + PI R+ PRF• Ref seq: Ref Seq pr ot ei n sequences f r om NCBI s Ref er ence Sequence Pr oj ect .• Swi ssprot : Last maj or r el ease of t he SWI SS- PROT pr ot ei n sequence dat abase ( no updat es) .• Pat : Pr ot ei ns f r om t he Pat ent di vi si on of GenPept .• Pdb: Sequences der i ved f r om t he 3- di mensi onal st r uct ur e f r om Br ookhaven Pr ot ei n Dat aBank.• Mont h: Al l new or r evi sed GenBank CDS t r ansl at i on+PDB+Swi ssPr ot +PI R+PRF r el eased i n t hel ast 30 days.• env_nr: Pr ot ei n sequences f r om envi r onment al sampl es.• Nucl eot i de Sequence Dat abases• Nr: Al l GenBank + Ref Seq Nucl eot i des + EMBL + DDBJ + PDB sequences ( excl udi ng HTGS0, 1, 2,EST, GSS, STS, PAT, WGS) . No l onger " non- r edundant " .• ref seq_rna, ref seq_genomi c• Est : Dat abase of GenBank + EMBL + DDBJ sequences f r om EST Di vi si ons• est _human, est _mouse, est _ot hers• gss: Genome Sur vey Sequence, i ncl udes si ngl e- pass genomi c dat a, exon- t r apped sequences,and Al u PCR sequences.• Pat : Nucl eot i des f r om t he Pat ent di vi si on of GenBank.• Mont h: Al l new or r evi sed GenBank + EMBL + DDBJ + PDB sequences r el eased i n t he l ast 30days.• Dbst s: Dat abase of GenBank+EMBL+DDBJ sequences f r om STS Di vi si ons .• Chromosome: A dat abase wi t h compl et e genomes and chr omosomes f r om t he NCBI Ref er enceSequence pr oj ect . .• Wgs: A dat abase f or whol e genome shot gun sequence ent r i es.• env_nt : Nucl eot i de sequences f r om envi r onment al sampl es, i ncl udi ng t hose f r om Sar gassoSea and Mi ne Dr ai nage pr oj ect s.
  19. 19. RefSeq• Banco de dados desequências de referênciapara genomas• Apresenta uma única cópiapara cada gene no genoma• É o verdadeiro NR• Dividido em genoma, cDNAe proteína (NC, NM e NP)• Contém sequências desplicing alternativo
  20. 20. dbEST
  21. 21. dbGSS• Contém sequênciasgenômicas single-passedpara diversos organismos
  22. 22. UniGene• Contém clusters de ESTs formados apartir de similaridades usando oalgoritmo megaBLAST• Reúne variantes de splicing nomesmo identificador• Cataloga variantes de splicing portecido• Organização das sequências doGenBank em um conjunto deaglomerados• Cada aglomerado do UniGenecontém as sequências querepresentam um gene único• E também informaçõesrelacionadas, como em que tecidoso gene é expresso, etc.• E também onde está mapeado
  23. 23. Pesquisando dados de nucleotídeosutilizando Entrez
  24. 24. 3 - Bancos de dados genômicos• Coleção de informações sobre determinados genomas (quasesempre organimos modelo).• Dados de anotação vinculados a genome browse• Iniciativa conjunta ente o EBI e o Sanger Center.• Coleta e anotação de sequencias disponíveis de eucariotos,tendo como foco principal o Homo sapiens.
  25. 25. Busca por região no cromossomo 16Busca por região no cromossomo 16
  26. 26. Ensembl fornece:Ensembl fornece:-- Genomas completos de diversos- Anotação de SNPs- Alinhamento com sequencias homólogas de outros organismo- Correlações com outros bancos de dados
  27. 27. SGD fornece:SGD fornece:--Genoma completoGenoma completo--Fenótipos de mutantes específicos paraFenótipos de mutantes específicos paracada genecada gene--Dados de expressão gênicaDados de expressão gênica
  28. 28. TAIR fornece:TAIR fornece:--Genoma completoGenoma completo--Localização das inserções de T-DNALocalização das inserções de T-DNA--Dados de expressão gênicaDados de expressão gênica
  29. 29. 4 - Bancos de proteínas• Consórcio que visa fornecer anotação relevante ecurada de proteínas.• Baseiam-se em dados de proteômica (principalmente),genômica e transcriptômica.
  30. 30. Banco de dados de sequencias deproteínas• Três bancos de dados de proteínas• Protein Information Resource National BiomedicalResearch Foundation da Georgetown, University MedicalCenter em Washington, DC, EUA;• SWISS-PROT, Swiss Institute of Bioinformatics, Genebra• TrEMBL, European Bioinformatics Institute em Hinxton,Reino Unido.• Como funciona:• Proteínas anotadas são incluídas no UniProtKB-SwissProt• Traduções de genes depositados no EBI são incluídosno UniProt-TrEMBL
  31. 31. Enzyme DB armazena as seguintesinformações:• Numero EC:Numero EC: identificador numérico designado pelaComissão de Enzimas (autorizada pela UniãoInternacional de Bioquímica e Biologia Molecular-IUBMB)• Nome recomendado; Nomes alternativos;Atividade catalítica;Co-fatores; Ponteiros paraSWISS-PROT e outros banco de dados; Ponteiropara doenças associadas coma deficiência daenzima.• Caracteres:Caracteres:• ID = identificação (identification)• DE = descrição (description) = nome oficial• NA = Nome alternativo (alternative names)• CA = atividade catalítica (Catalytic activity)• CF = co-fatores (cofactor(s))• CC = Comentários (Comments)• DR = Referencia de dados (Database reference parao SWISS-PROT)
  32. 32. Anotação da sequenciaVant agens do Uni Prot :Vant agens do Uni Prot :- banco curado manual ment e- cont ém mui t a i nf ormação sobre asprot eí nas ( gl i cosi l ação, pont esdi ssul f et o, Sí t i os t ransmembrana)- conect ado a out ros bancos de dadosde prot eí nas
  33. 33. PIR e os bancos de dados associados:PIR e os bancos de dados associados:PIR-PSD -PIR-PSD -principal banco de dados deprincipal banco de dados desequencias de proteínas;sequencias de proteínas;iProClassiProClass – fornece informações– fornece informaçõesabrangentes das propriedades deabrangentes das propriedades deproteínas presentes no SwissProt;proteínas presentes no SwissProt;PIRSF:PIRSF: bando de dados de anotação ebando de dados de anotação esimilaridade da entrada é conectada asimilaridade da entrada é conectada auma lista de sequencias similares comuma lista de sequencias similares combase em relações evolucionárias quebase em relações evolucionárias quepermite a anotação de funçõespermite a anotação de funçõesbiológicas especificas e de funçõesbiológicas especificas e de funçõesbioquímicas genéricas;bioquímicas genéricas;RESID:RESID: banco de dados de modificaçõesbanco de dados de modificaçõescovalentes na estrutura de proteínas (ex.covalentes na estrutura de proteínas (ex.ponte de dissulfeto (característicaponte de dissulfeto (característicaestrutural importante em proteínas)estrutural importante em proteínas)
  34. 34. Ferramentas de recuperação deinfromação do PIR• Recuperar entradas especificas debanco de dados• Alinhamento par a par de sequencias• PIRSF Scan: Compara uma sequenciasonda com bando de dados PIRSF defamílias de proteínas organizadas eanotadas• Text Search: pesquisa por texto embanco de dados• Peptide Search: pesquisa porpequenos peptídeos (3 a 30 resíduos)• Pattern Search: reconhecimento dospadrões• Related Sequences: identificação dehomologias
  35. 35. Expasy –Expasy – Expert Protein Analysis SystemExpert Protein Analysis System• Sistema de análise e recuperação de informação de proteínas.• Produz as anotações para o UniProtKB/SwissProt• Possui uma série de ferramentas para análise de proteínas• Conexão com SRS (sequence retrieval system) – sistemaintegrado para recuperar informações de muitos banco dedados de sequencias diferente e pata utilizar as sequenciascomo entradas de ferramentas analíticas, como comparação ealinhamento de sequencias.• SRS pode pesquisas em torno de 140 banco de daos desequencias de proteínas e nucleotídeos, vias metabólicas,estruturas 3D e funções, genomas, doenças e informaçõessobre o fenótipo.
  36. 36. 5 - Bancos de estruturas de proteínas e outrasmacromoléculas• Anota, cataloga e distribui conjuntos de coordenadasatômicas de macromoléculas• Principal banco é Protein Data Bank (PDB) fornece:• Detalhes experimentais sobre a geração da estrutura• Estrutura de proteínas, ácidos nucleicos e carboidratos. -• Atribuições da estrutura• - Coordenações atômicas• Links para outros bancos de dados
  37. 37. Informações que incluem na entradado Protein Data Bank• Que proteína é o assunto da entrada, e a qual espécie ela pertence• Quem determinou a estrutura, referencias para publicações• Detalhes experimentais, qualidade dos resultados NMR(Ressonância Magnética Nuclear) difração de raio X e estatísticasestereoquímicas• A sequencia dos aminoácidos• Que moléculas adicionais aparecem na estrutura, incluindo co-fatores, inibidores e solvente, como moléculas de água• Atribuições de estrutura secundaria: hélice, folha• Pontes de dissulfetos• Coordenadas atômicas
  38. 38. 6 - Bancos de domínios proteicos• Anotam e catalogam domínios ou motivos proteicos.Fazem comparações entre sequencia de consulta ebanco de dados.
  39. 39. Famílias protéicas• A maioria das proteínas pode ser agrupada emfamílias com base na similaridade entre suassequências• Similaridade intra-espécies• Evidência de ancestralidade comum• Proteínas da mesma família costumam ter funçõesmoleculares e biológicas semelhantes → inferênciabiológica• Inferência de função• Similaridade de sequência• Análise filogenética
  40. 40. Interpro• Portal que inclui vários bancos de dados de domínios ede estrutura de proteínas
  41. 41. Assinaturas ou domínios protéicos• Obtidos através da análise de regiões que se mantémconstantes em grupos de sequências similares alinhadas• Distingue membros de famílias dos não-membros• Auxilia a atribuição de funcionalidades moleculares e biológicas
  42. 42. 7 - Bancos de vias metabólicas• Kyoto Encyclopedia of genes and Genome (KEEG) arquiva genomas individuais, produtos degenes e suas funções, mas o seu diferencial principal esta na sua integração de informaçõesbioquímicas e genéticas.• KEGG se concentra nas interações: associações de moléculas e redes metabólicas ereguladoras• Organiza em 5 tipos de dados :• 1. Catálogos de compostos químicos em células vivas• 2. Catálogo de genes• Informações sobre moléculas ou sequencias especificas• 3. Mapas de genomas• Integra os genes de acordo com suas localização cromossômica• 4. Mapas de vias• Descrevem redes em potencial de atividades moleculares, tanto metabólicas comoreguladoras, possíveis cascatas metabólicas, alinha proteínas com enzimas dentro dasvias de referencias.• 5. Tabelas de ortólogos• Liga enzimas presentes em outros organismos, permite analise das relações entre asvias metabólicas de diferentes organismos.
  43. 43. 8 - Bancos de dados de expressãogênica• - Banco de dados de depósito de dados de expressãogênica em larga escala (ArrayExpress – somentemicroarranjos)• GEO database - Contém dados de experimentos demicroarray
  44. 44. COG• Cluster of Orthologous Groups• 66 genomas bacterianos• Best Hits cruzados entre 3 organismos• Genes bacterianos agrupados por função biológica• KOG, eucariotos
  45. 45. Conclusões• Há bancos de dados em bioinformática parapraticamente qualquer tipo de abordagem embiologia molecular• Stein, 2009• O papel central da bioinformática na pesquisagenômica moderna• É preciso conhecer os serviços, mais cedo ou maistarde, você pode precisar

×