SlideShare uma empresa Scribd logo
1 de 57
Bancos de Dados Biológicos
Luis Artur Ribeiro
Rafael Justino
Poline Lottin
Debora Comochina
Conceitos
Bioinformática: especialização da Informática aplicada à informação
originada pela/para Biologia; ou estudo da aplicação de técnicas computacionais
e matemáticas à geração e gerenciamento de (bio)informação.
A Bioinformática combina conhecimentos de química, física, biologia, ciências da
computação, informática e matemática/estatística para processar dados
biológicos ou biomédicos.
Exemplos em Softwares: identificar genes, prever a configuração
tridimensional de proteínas, identificar inibidores de enzimas, organizar e
relacionar informação biológica, simular células, agrupar proteínas homólogas,
montar árvores filogenéticas, analisar experimentos de expressão gênica entre
outras inúmeras aplicações.
Conceitos
“BD biológicos se tornaram uma importante ferramenta no
entendimento da vasta quantidade de fenômenos
biológicos existentes, desde a estrutura das biomoléculas
e sua interação ao metabolismo como um todo e a
evolução das espécies.
Este entendimento contribui para facilitar a luta contra
doenças, auxilia no desenvolvimento de novos fármacos e
na descoberta de relações entre espécies.”
(Wikipedia, 2006)
Conceitos
•São tanto bancos públicos (ex: Genbank) como privados
•Mais de 1000 bancos de dados biológicos comerciais e
públicos disponíveis atualmente
•Acesso a esses bancos de dados através de padrões abertos
(open standards) como a web é importante dadas as
características dos usuários destes bancos – Servidores UNIX
x Macintosh
•A revista NucleicAcidsResearch é um importante recurso com
informações sobre estes BD
(http://www3.oup.co.uk/nar/database/c/)
Motivação
• Disponibilizar dados biológicos para os cientistas.
• O máximo possível de um tipo particular de informação
deve estar disponível em um único lugar.
• Dados publicados podem ser difíceis de encontrar ou
acessar.
• Coletá-los da literatura consume muito tempo.
• Disponibilizar dados em formato que possa ser lido por
um computador.
Conteúdo
Dados de genômica, transcriptômica, proteômica, taxonomia,
ecologia, doenças, fármacos...
Informações:
• Seqüências de nucleotídeos, aminoácidos
• Função, estrutura, localização no cromossomo
• Mapas metabólicos
• Efeitos clínicos de mutações
• Características genéticas de populações específicas
• Catálogo de espécies ou recursos naturais
Conteúdo
Bancos de Dados bibliográficos.
• Resumem a literatura cientifica de uma forma legível para a máquina.
Bancos de Dados Taxonômicos.
• Bancos de dados de
classificação de espécies. São extremamente dependentes da classificaç
ão feita por um especialista.
Bancos de Dados de Seqüências de Nucleotídeos.
• Enfocam entidades biológicas como genes e ácidos nucléicos. Visam o
armazenamento e divulgação dedados de seqüências de nucleotídeos de
uma comunidade de pesquisa. As seqüências de DNA e RNA são
normalmente apresentadas juntamente com outras informações como o
organismo a qual a seqüência pertence ou ainda com as funções fisiológicas
relacionadas à seqüência.
Conteúdo
Bancos de Dados Genômicos.
• Disponibilizam dados genéticos de um organismo especial, variando muito no
conteúdo. As informações armazenadas em bancos de
dados genômicos incluem informações sobre genótipos, nome de
genes, propriedades de genes, mutações específicas, assim como mapas
genômicos e informações referentes a raças.
Bancos de Dados Proteômicos.
• Em geral, podem ser vistos como uma mistura de banco de dados de
seqüências de nucleotídeos, seqüências de proteínas e outros.
Bancos de Dados de Vias Metabólicas.
• Armazenam informações sobre o metabolismo de um organismo ou de vários
organismos diferentes. As enzimas participantes de reações são
freqüentemente relacionadas com bancos de dados de seqüências.
Conteúdo
Bancos de Dados de Seqüências de Proteínas.
• Proporcionam informações sobre proteínas. Bancos de dados universais que
armazenam informações sobre proteínas de todos organismos devem ser
diferenciados de bancos de dados especializados que armazenam
informações sobre famílias especificas ou grupo de proteínas ou sobre
as proteínas em espécies específicas.
Bancos de Dados de Estrutura Protéica.
• Estes bancos mantêm dados relativos à estrutura de proteínas. A estrutura
3D completa de proteínas é representada pelo armazenamento de
coordenadas no espaço 3D.
Bancos de Dados Híbridos.
• Trata-se de bancos de dados que armazenam diferentes conteúdos,
pertencendo a mais de um dos grupos citados.Com o crescente número de
dados biológicos que vem sendo
gerados,vários bancos de dados têm surgido.
Exemplos
Alguns tipos de bancos de dados biológicos:
•Bancos de dados primários de seqüência (nucleotídeos e
aminoácidos) –GenBank, UniProt
•Bancos de genomas – Mouse GenomeDatabase, NCBI
Genomic Biology
•Bancos de dados especializados - Flybase, Wormbase, CGAP
•Bancos de dados de estrutura de proteínas – PDB, SCOP
•Bancos de dados de interações proteína-proteína – STRING,
BioGRID
•Bancos de Cadastro de recursos naturais – AmazonLink,
ENDS, National Whale and Dolphins Stranding Database
Relembrando
Nucleotídeos ou nucleótidos são compostos ricos em energia e
que auxiliam os processos metabólicos, principalmente as
biossínteses, na maioria das células.
Funcionam ainda como sinais químicos, respondendo assim a
hormônios e outros estímulos extracelulares; eles são também
componentes estruturais de cofactores enzimáticos,
intermediários metabólicos e ácidos nucleicos. Os nucleóticos
podem ser considerados os monómeros da DNA/RNA, sendo o
polimero, o próprio DNA/RNA.
Relembrando
Genótipos, o conjunto dos cromossomos que se situam no
núcleo das células. Os cromossomos são interpretados como
uma sequência de genes. São os genes os portadores das
informações que condicionam o fenótipo. Ao conjunto dos
genes de um indivíduo damos o nome de genótipo.
• É o conjunto dos genes, condiciona os fenótipos totais.
• São as informações hereditárias de um organismo contidas
em seu genoma.
• gene é uma seqüência de nucleotídeos do DNA que pode
ser transcrita em uma versão de RNA.
Relembrando
Fenótipo são as características observáveis ou caracteres de um
organismo como, por exemplo: morfologia, desenvolvimento,
propriedades bioquímicas ou fisiológicas e comportamento.
Resulta da expressão dos genes do organismo, da influência de
fatores ambientais e da possível interação entre os dois.
Nem todos os organismos com um mesmo fenótipo parecem ou agem
da mesma forma, porque a aparência e o comportamento, assim como
os demais componentes do fenótipo, são modificados por condições
ambientais e de desenvolvimento. Do mesmo modo, nem todos os
organismos cujas aparências se assemelham possuem
necessariamente o mesmo genótipo.
O DNA é uma hélice dupla onde os pares seguem algumas regras.
Características BDB
• Tratam de dados biológicos altamente heterogêneos
mas relacionados
• Informações dinâmicas, modificações e atualizações
constantes
• Grande volume e variedade de dados biológicos
Geração de Dados
Fontes de dados:
• sequenciamento e anotação de genomas
• experimentos em larga escala: identificação de proteínas,
estrutura 3D de proteínas, microarranjos de DNA
Anotação:
• anexar conhecimento biológico relevante aos dados de
sequenciamento do genoma de um organismo.
Geração de Dados
• Visão direcionada para a biologia molecular
• Base da biologia molecular: DNA
o Nucleotídeos {A, C, G, T}
• Além do DNA, existem outros tipos de dados na
linha de evolução (RNA e proteínas)
• Uma seqüência de DNA pode possuir milhares de
pares de nucleotídeos.
• Cada seqüência possui uma identificação, funções
biológicas e podem pertencer a vários organismos.
Requisitos
•Qualidade dos dados (obtenção).
•Anotações consistentes.
•Integração entre ferramentas.
•Fácil acesso às informações disponíveis.
•Mecanismos para extrair do conjunto de dados apenas
aqueles de interesse do pesquisador.
Fatos
Mais de 1000 bases de dados diferentes
• 968 databases em The Molecular Biology Database
Collection: 2007 update by Galperin, Nucleic Acids
Research, 2007, Vol. 35, Database issue D3-D4
Tamanho dos bancos: de 100kB até 100GB
• DNA: >100GB
• Proteina: 1GB
• 3D structure: 5GB
Fatos
Organismos, Número de genes:
Plantas, <50.000
Mamíferos, 100.000
Vermes, 14.000
Bactérias, 2-4.000
dsDNAVírus
Vacina, <300
ssRNAVírus
INfluenza 12
Modelagem
Atualmente, os modelos de dados “tradicionais” mais referenciados
para
desenvolvimento de bancos de dados de biologia molecular são:
o modelo relacional, o modelo orientado a objetos e o modelo semi-
estruturado (bancos de dados XML).
Cada vez mais bancos de dados com diferentes conteúdos
do domínio abordado estão utilizando um SGBD relacional.
Por exemplo:
• Genome Sequence Database (GSDB), um banco de dados de seqüências de
nucleotídeos, é implementado usando o SGBD Relacional Sybase.
• CyanoBase, um banco de dados genético, também está implementado
usando o Sybase
• O banco de dados proteômico YPD é gerenciado por um SGBD relacional
Oracle.
Modelagem - Modelo Relacional
Dados biológicos são complexos. Um típico tipo de dado tem uma estrutura
aninhada de difícil representação no modelo relacional. Sistemas gerenciadores
de bancos de dados relacionais freqüentemente proporcionam um projeto
fragmentado e não intuitivo.
São melhores quando o esquema é simples, o dado é regular e consultas
sucessivas são independentes. Apesar disso, SGBDs relacionais são utilizados
para gerenciar todo tipo de dado biológico.
O esquema do modelo relacional é pré-definido. Os dados são abstraídos em
entidades e relacionamentos, sendo armazenados em tabelas. Além disso, o
modelo relacional é muito restritivo quanto à habilidade de ser estendido
O fato de decisões serem tomadas nos estágios iniciais, como a definição das
entidades e dos atributos, caracteriza uma desvantagem do modelo
relacional. Em dados biológicos, não há como predizer qual fator se provará
importante ou sujeito à modificação, isto se tornar um problema, pois se mostra
difícil e trabalhoso, senão impossível, alterar o esquema.
Modelagem - Modelo Relacional
A força do modelo relacional é sua total provisão por SQL. Mas sua
principal fraqueza é a ineficiência para modelagem de objetos
genômicos complexos.
O modelo relacional é orientado em direção a um eficiente
armazenamento e gerenciamento de dados, mas não provê
construtores para uma boa captura da semântica dos dados: a
representação de um objeto conceitual complexo em um banco de
dados relacional
pode se estender por muitos registros em várias tabelas distintas,
fazendo do esquema relacional um pobre veículo para comunicação
semântica de um banco de dados.
Com relação ao desempenho pode–se destacar que SGBDs
relacionais apresentam melhor desempenho em operações de
pesquisa para bases de dados de grande dimensão.
Modelagem - Modelo Orientado a
Objeto
Assim como o modelo relacional, o modelo orientado a objeto está
sendo bastante empregado para o tratamento de dados biológicos.
O INTERACT, por exemplo, um banco de dados sobre interações de
proteína, utiliza o SGBD orientado a objetos Poet.
Outros bancos de dados como o PSD/PIR, um banco de seqüências
de proteínas também foram implementados usando um SGBD
orientado a objetos.
Modelagem - Modelo Orientado a
Objeto
No modelo orientado a objeto os dados são abstraídos e armazenados como
objetos, possuindo estruturas com tipos pré-definidos. Sistemas orientados a
objeto são melhores quando o esquema é complexo, o dado irregular e as
consulta correlatas, sendo mais fácil pesquisar nas vizinhanças.
Uma vantagem de armazenar dados em um SGBD orientado a objeto é que ele é
capaz de proporcionar uma melhor performance para dados complexos (ex:
dados biológicos) como gráficos complicados, de 10-1000% comparado com o
padrão de banco de dados relacional.
Diferentemente do modelo relacional, modelos orientados a objeto são
extensíveis, contudo enfatizam o comportamento de objetos e insistem que cada
objeto tem sua própria identidade.
Modelagem - Modelo Orientado a
Objeto
A extensibilidade de sistemas de bancos de dados baseados em orientação a
objeto também nos permite incorporar operações sobre os dados diretamente
nas descrições de classe do objeto no banco de dados, deste modo escondendo
os detalhes de implementação do usuário e permitindo ser usado diretamente
com a linguagem de consulta do banco de dados.
A principal força do modelo orientado a objeto é seu poder de modelagem de
dados altamente flexível, oferecendo uma elegante maneira de representação de
objetos genômicos complexos. A principal fraqueza inclui a falta de uma forma
genérica de acesso aos objetos complexos.
A orientação a objeto permite ainda mais concisão e facilidade para entender
definições do banco de dados quando comparados com construtores de bancos
de dados relacionais.
A experiência tem mostrado que este tipo de
modelagem permite criar esquemas que são mais intuitivos para biólogos
moleculares compreender se comparados com os esquemas relacionais.
Modelagem - Modelo Semi-Estruturado (XML)
Dados biológicos nem sempre são bem estruturados, muitas vezes se mostram
incompletos, irregulares, redundantes ou contem erros. A maioria deles são
implicitamente estruturados. Portanto, dados da biologia molecular são bons
candidatos para um modelo de dados semi-estruturado.
No modelo semi-estruturado, o esquema é definido dinamicamente através dos
dados (auto-descritivo), apresentando uma descrição flexível de dados com
relacionamentos complexos.
A natureza auto-descritiva de XML a torna uma forma promissora para definição
de dados semi-estruturados.
XML é altamente flexível. Atualizar um modelo de dados é, portanto, simples.
XML é orientado a Internet e tem grande capacidade para vincular dados,
podendo ser utilizado para interconectar bancos de dados.
Modelagem - Modelo Semi-Estruturado (XML)
XML proporciona uma área aberta para definir especificações padronizadas.
Ponto importante, pois claramente há falta de padronização na bioinformática.
O custo de um formato baseado em texto na analise de dados, armazenamento e
transmissão precisam ser avaliados antes de adotar XML como uma solução
geral. Contudo, um formato texto significa que o código fonte pode ser lido e
editado com um editor de texto.
A expressividade de um modelo de dados XML provavelmente não será
suficiente para a biologia molecular. A semântica de dados biológicos é bastante
rica e requer um modelo de dados bastante expressiva.
XML não tem mecanismos de herança e nem métodos em objetos. O conceito de
relacionamento pode ser imitado através de referências lentas, mas não existe
como tal.
Apenas restrições de unicidade, cardinalidade e não nulo podem ser
especificadas: não há simetria, nem restrições elaboradas e nem ‘triggers’;
XML não tem suporte para valores numéricos, tabelas e matrizes.
Desafios
Armazenar dados de sequenciamento, experimentos e
resultado das anotações (conhecimento biológico).
Projetar banco de forma eficiente para facilitar recuperação de
informações.
Disponibilizar acesso às informações (ferramentas)
• Interface com usuário: intuitiva, fácil manipulação
• Flexibilidade de acesso: tipos de informação que podem ser
recuperadas (consultas)
• Flexibilidade de visualização: formato de apresentação dos
dados (texto, gráfico, links)
Desafios
Integrar dados heterogêneos
• Integração física (bancos distribuídos geograficamente)
o Tecnologias de integração de dados (web services,
DAS)
• Integração conceitual (semântica)
o Ontologias (bases de conhecimento)
Desafios
Diferentes bases de dados para armazenamento de dados
biológicos:
• arquivos em formato de texto
• arquivos estruturados
• bancos de dados relacionais
• bancos de dados objeto-relacionais
• bancos de dados orientado a objetos
Ontologias
Desafios
Muitas bases de dados foram construídas por biólogos.
• Não padronização da taxonomia
• Dificuldade na adoção de um vocabulário comum entre
os grupos de pesquisa
• Termos diferentes para conceitos iguais
• Conceitos diferentes para termos iguais
Desafios
Qualidade dos dados disponíveis na Web
• Grupos de pesquisa submetem suas descobertas
• Algumas bases aceitam de qualquer entrada
• Muitas bases não verificam a qualidade dos dados
• Outras bases preocupam-se com a qualidade dos
dados, onde um comitê valida-os. Estas bases ganham
destaque da comunidade científica.
Buscas
Muitos tipos de seqüências de entrada
• Pode ser uma seqüência de aminoácido ou de nucleotídeo
• Genômica, cDNA/mRNA, proteína
• Completa ou fragmentada
Matches exatos são raros
• Em geral, o objetivo é recuperar um conjunto de seqüências
similares
Buscas
O que queremos saber sobre a seqüência?
• Ela é similar ao algum gene conhecido? Quão próximo é o
melhor match? Significância?
• O que sabemos sobre este gene?
o Genômica(localização no cromossomo, regiões
reguladoras, ...)
o Estrutural (estrutura conhecida? ...)
o Funcional (molecular, celular e doença)
•Informação evolutiva
o Este gene é encontrado em outros organismos?
o Qual é sua árvore taxonômica?
NCBI - National Center for Biotechnology
Information - GenBank
NCBI disponibiliza o banco de sequência de DNA GenBank desde
1992. O GenBank tem acesso aberto e possui uma coleção de todas
as sequências de nucleotídios disponíveis publicamente e suas
proteínas traduzidas.
• Recebe sequências prodozidas em laboratórios de todo o mundo
de mais de 100,000 organismos.
• Cresce a ritmo exponencial, duplicando sua base a cada 18 meses.
• Em agosto de 2006 possuía mais de 65 milhões de bases de
nucleotídios em mais de 61 milhões de sequências.
Se coordena com laboratórios individuais e outros bancos de
sequências como European Molecular Biology Laboratory (EMBL) e
DNA Database of Japan (DDBJ).
Basic Local Alignment Search Tool (BLAST)
Algoritmo de comparação de sequências biológicas primárias
(aminoácidos e nucleotídios)
Permite ao pesquisador comparar uma sequência com outras
disponíveis na base de dados e idientificar as parecidas com
um determinado grau de confiabilidade.
• Algorítmo de busca de sequências genéticas
• Cria lista de partes da sequência de busca
• Pesquisa a base de dados
• Calcula semelhanças
Protein Data Bank (PDB) & Fasta
PDB:
• Banco de dados que compõe o projeto NCBI.
• É um repositório de informações estruturais 3-D de grandes
moléculas biológicas como preoteínas e ácidos nucléicos.
• Trabalho com o MMDB (Molecular Modeling DB) .
Fasta
• Formato de texto que representa sequências de
nucleotídios ou peptídios, em que pares base ou
aminoácidos são representados usando letras.
Exemplo
Influenzavirus A
• gripe aviária
• gripe suína
o depende da espécie do hospedeiro
Neuraminidase
• enzima presente na superfície dos vírus influenza que
permite ao vírus ser liberado da célula hospedeira
Exemplo
Links:
http://en.wikipedia.org/wiki/Influenzavirus_A
http://en.wikipedia.org/wiki/Viral_neuraminidase
Exemplo
Influenza Research Database
http://www.biohealthbase.org/GSearch/fluSegmentDetails.do?ncbiGenomicAcces
sion=FJ998214&decorator=influenza
NCBI - Nucleotide Database
http://www.ncbi.nlm.nih.gov/nuccore/229484043?report=genbank
NCBI - Taxonomy Browser
http://www.ncbi.nlm.nih.gov/Taxonomy/Browser/wwwtax.cgi?mode=Info&id=6437
80
NCBI - Blast
*http://blast.ncbi.nlm.nih.gov/Blast.cgi*
NCBI - PDB - MMDB
http://www.ncbi.nlm.nih.gov/Structure/mmdb/mmdbsrv.cgi?uid=67153
Influenza Research Database
Através de palavras-chave pesquisa-se:
• Segmentos de Nucleotídios
• Proteínas
• Tipos de Influenzas
o tipos de hospedeiro
o país
o data de adição
o e outros.
Pesquisando Neuraminidase em tipo s de influenza, obtêm-se mais de
10 mil resultados, e arbitrariamente seleciona-se um caso mexicano de
2009 com um hospedeiro humano.
Atributos (taxonomia, segmento...) possuem IDs que "linkam"
diretamente outras bases usadas na consulta. (NCBI, UniProtKB,
GBrowse, TARGET, IEDB)
NCBI - Nucleotide - Taxonomy
Através do ID de segmento (FJ998214) se acessa página do
mesmo na base de Nucleotídios do NCBI.
• autores, referências, sequência do segmento, tradução
Fasta.
Através do ID de taxonomia (643780) se acessa a página da
espécie (Influenza A virus (A/Mexico/InDRE4487/2009(H1N1)))
na base de Taxonomia do NCBI.
Na página de segmento já há um link para usar o Blast e fazer
comparação do segmento genético em outras espécies sem
precisar copiar e colar a sequência Fasta.
NCBI - Blast - PDB - MMDB
Através de múltiplas consultas como resultado são
apresentadas dezenas de variações de vírus que possuem a
mesma sequência exata (100%) e aproximadas (99%); toas
com seus IDs linkados para continuar a pesquisa no NCBI.
No mesmo portal há ferramentas de visualização 3D das
estruturas dos vírus, o formato pode ser baixado e visualizado
com o uso de um software (Cn3D) na máquina do usuário.
Toda a navegação é intuitiva feita a partir de links e IDs e as
bases funcionam de forma interligada.
Bibliografia
http://www.icb.ufmg.br/biq/maira/biodbfiles/aula1-introducaobioinfo.pdf
http://biotec.icb.ufmg.br/cabi/aulas/aula21.pdf
http://www.inf.ufrgs.br/~clesio/cmp151/cmp15120031/BDsBiologicos.pdf
http://en.wikipedia.org/wiki/National_Center_for_Biotechnology_Information
http://en.wikipedia.org/wiki/BLAST
http://en.wikipedia.org/wiki/Protein_data_bank#Viewing_the_data
http://en.wikipedia.org/wiki/FASTA_format
http://pt.wikipedia.org/wiki/Gene
Bibliografia
http://pt.wikipedia.org/wiki/Gen%C3%B3tipo
http://pt.wikipedia.org/wiki/Fen%C3%B3tipo
http://www2.dc.uel.br/nourau/document/?view=127

Mais conteúdo relacionado

Semelhante a BDsBiologicos.ppt

Pos Usp Ngs Big Data Parte 2
Pos Usp Ngs Big Data Parte 2Pos Usp Ngs Big Data Parte 2
Pos Usp Ngs Big Data Parte 2Beta Campos
 
Exploring the Applications and Potential of Bioinformatics
Exploring the Applications and Potential of BioinformaticsExploring the Applications and Potential of Bioinformatics
Exploring the Applications and Potential of BioinformaticsLuana Joana Barreto Cabral
 
Como seu DNA com a Bioinformática pode revolucionar o diagnóstico clínico no ...
Como seu DNA com a Bioinformática pode revolucionar o diagnóstico clínico no ...Como seu DNA com a Bioinformática pode revolucionar o diagnóstico clínico no ...
Como seu DNA com a Bioinformática pode revolucionar o diagnóstico clínico no ...Genomika Diagnósticos
 
Plano de unidade 3º ano cetepa
Plano de unidade  3º ano cetepaPlano de unidade  3º ano cetepa
Plano de unidade 3º ano cetepafamiliaestagio
 
Gestão de Dados de Pesquisa e o Papel dos Bibliotecários
Gestão de Dados de Pesquisa e o Papel dos BibliotecáriosGestão de Dados de Pesquisa e o Papel dos Bibliotecários
Gestão de Dados de Pesquisa e o Papel dos BibliotecáriosSIBiUSP
 
Bioinformática Apostila de Introdução
 Bioinformática Apostila de Introdução Bioinformática Apostila de Introdução
Bioinformática Apostila de IntroduçãoGregorio Leal da Silva
 
Aula 03 Genética Molecular I.pptx
Aula 03 Genética Molecular I.pptxAula 03 Genética Molecular I.pptx
Aula 03 Genética Molecular I.pptxNivaldoJnior16
 
Indrodução a Bioinformática
Indrodução a BioinformáticaIndrodução a Bioinformática
Indrodução a BioinformáticaRicardo Leite
 
Dogma central e periférico
Dogma central e periféricoDogma central e periférico
Dogma central e periféricoUERGS
 
Aula Biologia de Sistemas e ferramentas ômicas
Aula Biologia de Sistemas e ferramentas ômicasAula Biologia de Sistemas e ferramentas ômicas
Aula Biologia de Sistemas e ferramentas ômicasSandraMuxel
 
Biologia
BiologiaBiologia
Biologiaescdpi
 

Semelhante a BDsBiologicos.ppt (20)

Pos Usp Ngs Big Data Parte 2
Pos Usp Ngs Big Data Parte 2Pos Usp Ngs Big Data Parte 2
Pos Usp Ngs Big Data Parte 2
 
Exploring the Applications and Potential of Bioinformatics
Exploring the Applications and Potential of BioinformaticsExploring the Applications and Potential of Bioinformatics
Exploring the Applications and Potential of Bioinformatics
 
GENÉTICA
GENÉTICAGENÉTICA
GENÉTICA
 
Ácidos nucleicos
Ácidos nucleicos Ácidos nucleicos
Ácidos nucleicos
 
Pubmed
PubmedPubmed
Pubmed
 
Como seu DNA com a Bioinformática pode revolucionar o diagnóstico clínico no ...
Como seu DNA com a Bioinformática pode revolucionar o diagnóstico clínico no ...Como seu DNA com a Bioinformática pode revolucionar o diagnóstico clínico no ...
Como seu DNA com a Bioinformática pode revolucionar o diagnóstico clínico no ...
 
Plano de unidade 3º ano cetepa
Plano de unidade  3º ano cetepaPlano de unidade  3º ano cetepa
Plano de unidade 3º ano cetepa
 
Sintese de proteínas
Sintese de proteínasSintese de proteínas
Sintese de proteínas
 
Montagem de Genomas
Montagem de GenomasMontagem de Genomas
Montagem de Genomas
 
Manipulação do dna & clonagem
Manipulação do dna & clonagemManipulação do dna & clonagem
Manipulação do dna & clonagem
 
Gestão de Dados de Pesquisa e o Papel dos Bibliotecários
Gestão de Dados de Pesquisa e o Papel dos BibliotecáriosGestão de Dados de Pesquisa e o Papel dos Bibliotecários
Gestão de Dados de Pesquisa e o Papel dos Bibliotecários
 
Bioinformática Apostila de Introdução
 Bioinformática Apostila de Introdução Bioinformática Apostila de Introdução
Bioinformática Apostila de Introdução
 
Aula 03 Genética Molecular I.pptx
Aula 03 Genética Molecular I.pptxAula 03 Genética Molecular I.pptx
Aula 03 Genética Molecular I.pptx
 
Biotecnologia
BiotecnologiaBiotecnologia
Biotecnologia
 
Indrodução a Bioinformática
Indrodução a BioinformáticaIndrodução a Bioinformática
Indrodução a Bioinformática
 
Dogma central e periférico
Dogma central e periféricoDogma central e periférico
Dogma central e periférico
 
Aula Biologia de Sistemas e ferramentas ômicas
Aula Biologia de Sistemas e ferramentas ômicasAula Biologia de Sistemas e ferramentas ômicas
Aula Biologia de Sistemas e ferramentas ômicas
 
Conteudo biologia enem
Conteudo biologia enemConteudo biologia enem
Conteudo biologia enem
 
Anotação Gênica Funcional
Anotação Gênica FuncionalAnotação Gênica Funcional
Anotação Gênica Funcional
 
Biologia
BiologiaBiologia
Biologia
 

BDsBiologicos.ppt

  • 1. Bancos de Dados Biológicos Luis Artur Ribeiro Rafael Justino Poline Lottin Debora Comochina
  • 2. Conceitos Bioinformática: especialização da Informática aplicada à informação originada pela/para Biologia; ou estudo da aplicação de técnicas computacionais e matemáticas à geração e gerenciamento de (bio)informação. A Bioinformática combina conhecimentos de química, física, biologia, ciências da computação, informática e matemática/estatística para processar dados biológicos ou biomédicos. Exemplos em Softwares: identificar genes, prever a configuração tridimensional de proteínas, identificar inibidores de enzimas, organizar e relacionar informação biológica, simular células, agrupar proteínas homólogas, montar árvores filogenéticas, analisar experimentos de expressão gênica entre outras inúmeras aplicações.
  • 3. Conceitos “BD biológicos se tornaram uma importante ferramenta no entendimento da vasta quantidade de fenômenos biológicos existentes, desde a estrutura das biomoléculas e sua interação ao metabolismo como um todo e a evolução das espécies. Este entendimento contribui para facilitar a luta contra doenças, auxilia no desenvolvimento de novos fármacos e na descoberta de relações entre espécies.” (Wikipedia, 2006)
  • 4. Conceitos •São tanto bancos públicos (ex: Genbank) como privados •Mais de 1000 bancos de dados biológicos comerciais e públicos disponíveis atualmente •Acesso a esses bancos de dados através de padrões abertos (open standards) como a web é importante dadas as características dos usuários destes bancos – Servidores UNIX x Macintosh •A revista NucleicAcidsResearch é um importante recurso com informações sobre estes BD (http://www3.oup.co.uk/nar/database/c/)
  • 5. Motivação • Disponibilizar dados biológicos para os cientistas. • O máximo possível de um tipo particular de informação deve estar disponível em um único lugar. • Dados publicados podem ser difíceis de encontrar ou acessar. • Coletá-los da literatura consume muito tempo. • Disponibilizar dados em formato que possa ser lido por um computador.
  • 6. Conteúdo Dados de genômica, transcriptômica, proteômica, taxonomia, ecologia, doenças, fármacos... Informações: • Seqüências de nucleotídeos, aminoácidos • Função, estrutura, localização no cromossomo • Mapas metabólicos • Efeitos clínicos de mutações • Características genéticas de populações específicas • Catálogo de espécies ou recursos naturais
  • 7. Conteúdo Bancos de Dados bibliográficos. • Resumem a literatura cientifica de uma forma legível para a máquina. Bancos de Dados Taxonômicos. • Bancos de dados de classificação de espécies. São extremamente dependentes da classificaç ão feita por um especialista. Bancos de Dados de Seqüências de Nucleotídeos. • Enfocam entidades biológicas como genes e ácidos nucléicos. Visam o armazenamento e divulgação dedados de seqüências de nucleotídeos de uma comunidade de pesquisa. As seqüências de DNA e RNA são normalmente apresentadas juntamente com outras informações como o organismo a qual a seqüência pertence ou ainda com as funções fisiológicas relacionadas à seqüência.
  • 8. Conteúdo Bancos de Dados Genômicos. • Disponibilizam dados genéticos de um organismo especial, variando muito no conteúdo. As informações armazenadas em bancos de dados genômicos incluem informações sobre genótipos, nome de genes, propriedades de genes, mutações específicas, assim como mapas genômicos e informações referentes a raças. Bancos de Dados Proteômicos. • Em geral, podem ser vistos como uma mistura de banco de dados de seqüências de nucleotídeos, seqüências de proteínas e outros. Bancos de Dados de Vias Metabólicas. • Armazenam informações sobre o metabolismo de um organismo ou de vários organismos diferentes. As enzimas participantes de reações são freqüentemente relacionadas com bancos de dados de seqüências.
  • 9. Conteúdo Bancos de Dados de Seqüências de Proteínas. • Proporcionam informações sobre proteínas. Bancos de dados universais que armazenam informações sobre proteínas de todos organismos devem ser diferenciados de bancos de dados especializados que armazenam informações sobre famílias especificas ou grupo de proteínas ou sobre as proteínas em espécies específicas. Bancos de Dados de Estrutura Protéica. • Estes bancos mantêm dados relativos à estrutura de proteínas. A estrutura 3D completa de proteínas é representada pelo armazenamento de coordenadas no espaço 3D. Bancos de Dados Híbridos. • Trata-se de bancos de dados que armazenam diferentes conteúdos, pertencendo a mais de um dos grupos citados.Com o crescente número de dados biológicos que vem sendo gerados,vários bancos de dados têm surgido.
  • 10. Exemplos Alguns tipos de bancos de dados biológicos: •Bancos de dados primários de seqüência (nucleotídeos e aminoácidos) –GenBank, UniProt •Bancos de genomas – Mouse GenomeDatabase, NCBI Genomic Biology •Bancos de dados especializados - Flybase, Wormbase, CGAP •Bancos de dados de estrutura de proteínas – PDB, SCOP •Bancos de dados de interações proteína-proteína – STRING, BioGRID •Bancos de Cadastro de recursos naturais – AmazonLink, ENDS, National Whale and Dolphins Stranding Database
  • 11. Relembrando Nucleotídeos ou nucleótidos são compostos ricos em energia e que auxiliam os processos metabólicos, principalmente as biossínteses, na maioria das células. Funcionam ainda como sinais químicos, respondendo assim a hormônios e outros estímulos extracelulares; eles são também componentes estruturais de cofactores enzimáticos, intermediários metabólicos e ácidos nucleicos. Os nucleóticos podem ser considerados os monómeros da DNA/RNA, sendo o polimero, o próprio DNA/RNA.
  • 12. Relembrando Genótipos, o conjunto dos cromossomos que se situam no núcleo das células. Os cromossomos são interpretados como uma sequência de genes. São os genes os portadores das informações que condicionam o fenótipo. Ao conjunto dos genes de um indivíduo damos o nome de genótipo. • É o conjunto dos genes, condiciona os fenótipos totais. • São as informações hereditárias de um organismo contidas em seu genoma. • gene é uma seqüência de nucleotídeos do DNA que pode ser transcrita em uma versão de RNA.
  • 13. Relembrando Fenótipo são as características observáveis ou caracteres de um organismo como, por exemplo: morfologia, desenvolvimento, propriedades bioquímicas ou fisiológicas e comportamento. Resulta da expressão dos genes do organismo, da influência de fatores ambientais e da possível interação entre os dois. Nem todos os organismos com um mesmo fenótipo parecem ou agem da mesma forma, porque a aparência e o comportamento, assim como os demais componentes do fenótipo, são modificados por condições ambientais e de desenvolvimento. Do mesmo modo, nem todos os organismos cujas aparências se assemelham possuem necessariamente o mesmo genótipo.
  • 14. O DNA é uma hélice dupla onde os pares seguem algumas regras.
  • 15. Características BDB • Tratam de dados biológicos altamente heterogêneos mas relacionados • Informações dinâmicas, modificações e atualizações constantes • Grande volume e variedade de dados biológicos
  • 16.
  • 17.
  • 18. Geração de Dados Fontes de dados: • sequenciamento e anotação de genomas • experimentos em larga escala: identificação de proteínas, estrutura 3D de proteínas, microarranjos de DNA Anotação: • anexar conhecimento biológico relevante aos dados de sequenciamento do genoma de um organismo.
  • 19. Geração de Dados • Visão direcionada para a biologia molecular • Base da biologia molecular: DNA o Nucleotídeos {A, C, G, T} • Além do DNA, existem outros tipos de dados na linha de evolução (RNA e proteínas) • Uma seqüência de DNA pode possuir milhares de pares de nucleotídeos. • Cada seqüência possui uma identificação, funções biológicas e podem pertencer a vários organismos.
  • 20.
  • 21. Requisitos •Qualidade dos dados (obtenção). •Anotações consistentes. •Integração entre ferramentas. •Fácil acesso às informações disponíveis. •Mecanismos para extrair do conjunto de dados apenas aqueles de interesse do pesquisador.
  • 22. Fatos Mais de 1000 bases de dados diferentes • 968 databases em The Molecular Biology Database Collection: 2007 update by Galperin, Nucleic Acids Research, 2007, Vol. 35, Database issue D3-D4 Tamanho dos bancos: de 100kB até 100GB • DNA: >100GB • Proteina: 1GB • 3D structure: 5GB
  • 23. Fatos Organismos, Número de genes: Plantas, <50.000 Mamíferos, 100.000 Vermes, 14.000 Bactérias, 2-4.000 dsDNAVírus Vacina, <300 ssRNAVírus INfluenza 12
  • 24. Modelagem Atualmente, os modelos de dados “tradicionais” mais referenciados para desenvolvimento de bancos de dados de biologia molecular são: o modelo relacional, o modelo orientado a objetos e o modelo semi- estruturado (bancos de dados XML). Cada vez mais bancos de dados com diferentes conteúdos do domínio abordado estão utilizando um SGBD relacional. Por exemplo: • Genome Sequence Database (GSDB), um banco de dados de seqüências de nucleotídeos, é implementado usando o SGBD Relacional Sybase. • CyanoBase, um banco de dados genético, também está implementado usando o Sybase • O banco de dados proteômico YPD é gerenciado por um SGBD relacional Oracle.
  • 25. Modelagem - Modelo Relacional Dados biológicos são complexos. Um típico tipo de dado tem uma estrutura aninhada de difícil representação no modelo relacional. Sistemas gerenciadores de bancos de dados relacionais freqüentemente proporcionam um projeto fragmentado e não intuitivo. São melhores quando o esquema é simples, o dado é regular e consultas sucessivas são independentes. Apesar disso, SGBDs relacionais são utilizados para gerenciar todo tipo de dado biológico. O esquema do modelo relacional é pré-definido. Os dados são abstraídos em entidades e relacionamentos, sendo armazenados em tabelas. Além disso, o modelo relacional é muito restritivo quanto à habilidade de ser estendido O fato de decisões serem tomadas nos estágios iniciais, como a definição das entidades e dos atributos, caracteriza uma desvantagem do modelo relacional. Em dados biológicos, não há como predizer qual fator se provará importante ou sujeito à modificação, isto se tornar um problema, pois se mostra difícil e trabalhoso, senão impossível, alterar o esquema.
  • 26. Modelagem - Modelo Relacional A força do modelo relacional é sua total provisão por SQL. Mas sua principal fraqueza é a ineficiência para modelagem de objetos genômicos complexos. O modelo relacional é orientado em direção a um eficiente armazenamento e gerenciamento de dados, mas não provê construtores para uma boa captura da semântica dos dados: a representação de um objeto conceitual complexo em um banco de dados relacional pode se estender por muitos registros em várias tabelas distintas, fazendo do esquema relacional um pobre veículo para comunicação semântica de um banco de dados. Com relação ao desempenho pode–se destacar que SGBDs relacionais apresentam melhor desempenho em operações de pesquisa para bases de dados de grande dimensão.
  • 27. Modelagem - Modelo Orientado a Objeto Assim como o modelo relacional, o modelo orientado a objeto está sendo bastante empregado para o tratamento de dados biológicos. O INTERACT, por exemplo, um banco de dados sobre interações de proteína, utiliza o SGBD orientado a objetos Poet. Outros bancos de dados como o PSD/PIR, um banco de seqüências de proteínas também foram implementados usando um SGBD orientado a objetos.
  • 28. Modelagem - Modelo Orientado a Objeto No modelo orientado a objeto os dados são abstraídos e armazenados como objetos, possuindo estruturas com tipos pré-definidos. Sistemas orientados a objeto são melhores quando o esquema é complexo, o dado irregular e as consulta correlatas, sendo mais fácil pesquisar nas vizinhanças. Uma vantagem de armazenar dados em um SGBD orientado a objeto é que ele é capaz de proporcionar uma melhor performance para dados complexos (ex: dados biológicos) como gráficos complicados, de 10-1000% comparado com o padrão de banco de dados relacional. Diferentemente do modelo relacional, modelos orientados a objeto são extensíveis, contudo enfatizam o comportamento de objetos e insistem que cada objeto tem sua própria identidade.
  • 29. Modelagem - Modelo Orientado a Objeto A extensibilidade de sistemas de bancos de dados baseados em orientação a objeto também nos permite incorporar operações sobre os dados diretamente nas descrições de classe do objeto no banco de dados, deste modo escondendo os detalhes de implementação do usuário e permitindo ser usado diretamente com a linguagem de consulta do banco de dados. A principal força do modelo orientado a objeto é seu poder de modelagem de dados altamente flexível, oferecendo uma elegante maneira de representação de objetos genômicos complexos. A principal fraqueza inclui a falta de uma forma genérica de acesso aos objetos complexos. A orientação a objeto permite ainda mais concisão e facilidade para entender definições do banco de dados quando comparados com construtores de bancos de dados relacionais. A experiência tem mostrado que este tipo de modelagem permite criar esquemas que são mais intuitivos para biólogos moleculares compreender se comparados com os esquemas relacionais.
  • 30. Modelagem - Modelo Semi-Estruturado (XML) Dados biológicos nem sempre são bem estruturados, muitas vezes se mostram incompletos, irregulares, redundantes ou contem erros. A maioria deles são implicitamente estruturados. Portanto, dados da biologia molecular são bons candidatos para um modelo de dados semi-estruturado. No modelo semi-estruturado, o esquema é definido dinamicamente através dos dados (auto-descritivo), apresentando uma descrição flexível de dados com relacionamentos complexos. A natureza auto-descritiva de XML a torna uma forma promissora para definição de dados semi-estruturados. XML é altamente flexível. Atualizar um modelo de dados é, portanto, simples. XML é orientado a Internet e tem grande capacidade para vincular dados, podendo ser utilizado para interconectar bancos de dados.
  • 31. Modelagem - Modelo Semi-Estruturado (XML) XML proporciona uma área aberta para definir especificações padronizadas. Ponto importante, pois claramente há falta de padronização na bioinformática. O custo de um formato baseado em texto na analise de dados, armazenamento e transmissão precisam ser avaliados antes de adotar XML como uma solução geral. Contudo, um formato texto significa que o código fonte pode ser lido e editado com um editor de texto. A expressividade de um modelo de dados XML provavelmente não será suficiente para a biologia molecular. A semântica de dados biológicos é bastante rica e requer um modelo de dados bastante expressiva. XML não tem mecanismos de herança e nem métodos em objetos. O conceito de relacionamento pode ser imitado através de referências lentas, mas não existe como tal. Apenas restrições de unicidade, cardinalidade e não nulo podem ser especificadas: não há simetria, nem restrições elaboradas e nem ‘triggers’; XML não tem suporte para valores numéricos, tabelas e matrizes.
  • 32. Desafios Armazenar dados de sequenciamento, experimentos e resultado das anotações (conhecimento biológico). Projetar banco de forma eficiente para facilitar recuperação de informações. Disponibilizar acesso às informações (ferramentas) • Interface com usuário: intuitiva, fácil manipulação • Flexibilidade de acesso: tipos de informação que podem ser recuperadas (consultas) • Flexibilidade de visualização: formato de apresentação dos dados (texto, gráfico, links)
  • 33. Desafios Integrar dados heterogêneos • Integração física (bancos distribuídos geograficamente) o Tecnologias de integração de dados (web services, DAS) • Integração conceitual (semântica) o Ontologias (bases de conhecimento)
  • 34. Desafios Diferentes bases de dados para armazenamento de dados biológicos: • arquivos em formato de texto • arquivos estruturados • bancos de dados relacionais • bancos de dados objeto-relacionais • bancos de dados orientado a objetos
  • 36. Desafios Muitas bases de dados foram construídas por biólogos. • Não padronização da taxonomia • Dificuldade na adoção de um vocabulário comum entre os grupos de pesquisa • Termos diferentes para conceitos iguais • Conceitos diferentes para termos iguais
  • 37. Desafios Qualidade dos dados disponíveis na Web • Grupos de pesquisa submetem suas descobertas • Algumas bases aceitam de qualquer entrada • Muitas bases não verificam a qualidade dos dados • Outras bases preocupam-se com a qualidade dos dados, onde um comitê valida-os. Estas bases ganham destaque da comunidade científica.
  • 38. Buscas Muitos tipos de seqüências de entrada • Pode ser uma seqüência de aminoácido ou de nucleotídeo • Genômica, cDNA/mRNA, proteína • Completa ou fragmentada Matches exatos são raros • Em geral, o objetivo é recuperar um conjunto de seqüências similares
  • 39. Buscas O que queremos saber sobre a seqüência? • Ela é similar ao algum gene conhecido? Quão próximo é o melhor match? Significância? • O que sabemos sobre este gene? o Genômica(localização no cromossomo, regiões reguladoras, ...) o Estrutural (estrutura conhecida? ...) o Funcional (molecular, celular e doença) •Informação evolutiva o Este gene é encontrado em outros organismos? o Qual é sua árvore taxonômica?
  • 40. NCBI - National Center for Biotechnology Information - GenBank NCBI disponibiliza o banco de sequência de DNA GenBank desde 1992. O GenBank tem acesso aberto e possui uma coleção de todas as sequências de nucleotídios disponíveis publicamente e suas proteínas traduzidas. • Recebe sequências prodozidas em laboratórios de todo o mundo de mais de 100,000 organismos. • Cresce a ritmo exponencial, duplicando sua base a cada 18 meses. • Em agosto de 2006 possuía mais de 65 milhões de bases de nucleotídios em mais de 61 milhões de sequências. Se coordena com laboratórios individuais e outros bancos de sequências como European Molecular Biology Laboratory (EMBL) e DNA Database of Japan (DDBJ).
  • 41. Basic Local Alignment Search Tool (BLAST) Algoritmo de comparação de sequências biológicas primárias (aminoácidos e nucleotídios) Permite ao pesquisador comparar uma sequência com outras disponíveis na base de dados e idientificar as parecidas com um determinado grau de confiabilidade. • Algorítmo de busca de sequências genéticas • Cria lista de partes da sequência de busca • Pesquisa a base de dados • Calcula semelhanças
  • 42. Protein Data Bank (PDB) & Fasta PDB: • Banco de dados que compõe o projeto NCBI. • É um repositório de informações estruturais 3-D de grandes moléculas biológicas como preoteínas e ácidos nucléicos. • Trabalho com o MMDB (Molecular Modeling DB) . Fasta • Formato de texto que representa sequências de nucleotídios ou peptídios, em que pares base ou aminoácidos são representados usando letras.
  • 43. Exemplo Influenzavirus A • gripe aviária • gripe suína o depende da espécie do hospedeiro Neuraminidase • enzima presente na superfície dos vírus influenza que permite ao vírus ser liberado da célula hospedeira
  • 44.
  • 45.
  • 47. Exemplo Influenza Research Database http://www.biohealthbase.org/GSearch/fluSegmentDetails.do?ncbiGenomicAcces sion=FJ998214&decorator=influenza NCBI - Nucleotide Database http://www.ncbi.nlm.nih.gov/nuccore/229484043?report=genbank NCBI - Taxonomy Browser http://www.ncbi.nlm.nih.gov/Taxonomy/Browser/wwwtax.cgi?mode=Info&id=6437 80 NCBI - Blast *http://blast.ncbi.nlm.nih.gov/Blast.cgi* NCBI - PDB - MMDB http://www.ncbi.nlm.nih.gov/Structure/mmdb/mmdbsrv.cgi?uid=67153
  • 48.
  • 49. Influenza Research Database Através de palavras-chave pesquisa-se: • Segmentos de Nucleotídios • Proteínas • Tipos de Influenzas o tipos de hospedeiro o país o data de adição o e outros. Pesquisando Neuraminidase em tipo s de influenza, obtêm-se mais de 10 mil resultados, e arbitrariamente seleciona-se um caso mexicano de 2009 com um hospedeiro humano. Atributos (taxonomia, segmento...) possuem IDs que "linkam" diretamente outras bases usadas na consulta. (NCBI, UniProtKB, GBrowse, TARGET, IEDB)
  • 50.
  • 51.
  • 52. NCBI - Nucleotide - Taxonomy Através do ID de segmento (FJ998214) se acessa página do mesmo na base de Nucleotídios do NCBI. • autores, referências, sequência do segmento, tradução Fasta. Através do ID de taxonomia (643780) se acessa a página da espécie (Influenza A virus (A/Mexico/InDRE4487/2009(H1N1))) na base de Taxonomia do NCBI. Na página de segmento já há um link para usar o Blast e fazer comparação do segmento genético em outras espécies sem precisar copiar e colar a sequência Fasta.
  • 53.
  • 54. NCBI - Blast - PDB - MMDB Através de múltiplas consultas como resultado são apresentadas dezenas de variações de vírus que possuem a mesma sequência exata (100%) e aproximadas (99%); toas com seus IDs linkados para continuar a pesquisa no NCBI. No mesmo portal há ferramentas de visualização 3D das estruturas dos vírus, o formato pode ser baixado e visualizado com o uso de um software (Cn3D) na máquina do usuário. Toda a navegação é intuitiva feita a partir de links e IDs e as bases funcionam de forma interligada.
  • 55.