SlideShare uma empresa Scribd logo
1 de 58
Predição Gênica
Daniel Guariz Pinheiro
Laboratório de Bioinformática
Departamento de Tecnologia
Faculdade de Ciências Agrárias e Veterinárias de Jaboticabal (FCAV)
Universidade Estadual Paulista “Júlio de Mesquita Filho” (UNESP)
Tópicos
• Introdução à Predição Gênica
– Predição gência em procariotos
• Prokka
– Introdução a Hidden Markov
Models (HMMs)
– Predição gênica em eucariotos
• Augustus
• maker2
PREDIÇÃO GÊNICA
Bioinformática
Predição Gênica
• Após sequenciamento genômico e a montagem do
genoma, imediatamente o próximo passo é a
identificação dos genes.
• Isso implica em encontrar a localização, definir as
estruturas de exons e introns e a região codificadora
(ORF).
– Desafio é realizar essa tarefa com 100% de acurácia
somente in silico
• Problema de reconhecimento de padrões
– Sequências codificadoras nem sempre possuem motivos
conservados,
– Características sutis, difícies de serem detectadas
Soluções atuais
• Características distintas de genes em eucariotos e
procariotos
– Predição gênica em procariotos têm obtido bastante
sucesso
– Predição gênica em eucariotos têm resultados apenas
satisfatórios
• Foco aqui: genes codificadores de proteínas
Categorias
• ab-initio
– Predição a partir das sequências genômicas
• Sinais gênicos
– trincas (codons) de início e de parada;
– sítios relacionados ao processo de encadeamento de exons;
– sítios de ligação de fatores de transcrição;
– sítio de ligação de ribossomo;
– sinais e sítios de poliadenilação (poly-A);
– a estrutura de trincas restringe a região codificadora até a trinca de parada.
• Descrição estatística de composição de genes codificadores de proteínas
– Modelos de Markov (HMM)
• baseada em homologia
– Predição a partir de alinhamentos de genes conhecidos.
• A correspondência entre sequências (em especial de proteínas) de genes conhecidos (até
mesmo de outras espécies) podem ser evidências extremamente úteis para detectar
regiões codificadoras.
• Sequências de transcritomas (cDNAs sequenciados) podem ser evidências de regiões de
exons.
– Evidência experimental!
• consenso
– Utiliza ambas as abordagens, combinando resultados de predições
PREDIÇÃO GÊNICA EM
PROCARIOTOS
Bioinformática
Estrutura gênica (Procariotos)
Estrutura gênica em Procariotos
• Bactérias e Arqueias
– Pequenos genomas
• 0,5 to 10 Mbp (1Mbp=106 bp).
– Alta densidade gênica
• > 90% genoma contém sequências codificadoras de proteínas.
• Poucas sequências repetitivas;
– A ORF em geral não é interrompida (não há presença de introns, ou são muito
raros - introns tipo I)
– Bactérias, a maioria dos genes têm um start codon ATG (AUG em mRNA) que
codifica metionina, ocasionalmente, GTG e TTG podem ser usados
alternativamente, porém a Metionina é o aminoácido na primeira posição.
• Esses codons podem aparecer no meio da proteína e portanto não devem ser o único
indicativo de início da ORF
– Shine Delgarno (sítio de ligação do ribossomo)
– Há 3 codons de terminação da tradução, porém alguns genes são transcritos
em operons (transcritos policistrônicos)
– Operons possuem um terminador de transcrição
Início da Tradução (procariotos)
• Uma sequência conservada de 6 nucleotídeos,
conhecida como sequência de Shine Dalgarno
(SD), ou sítio ligador de ribossomo (RBS), ou sítio
de reconhecimento de ribossomo (RRS), é sempre
encontrada umas poucas bases acima (5') do
códon de iniciação (a montante).
– Bactérias
– Arquéias
– Alguns cloroplastos e mitocôndrias
• Esta sequência pode parear com algumas bases do
rRNA 16S da sub-unidade menor do ribossomo
procarioto. A interação entre os dois RNAs é
fundamental para a eficiência do início da
tradução e ainda oferece uma oportunidade para
regular a tradução, por exemplo, através de
proteínas que se ligam ao RBS, bloqueando-o.
5′–GGAGGU–3′
Gráfico logos de 149 RBS de E. coli.
Tom Schneider, "A Gallery of Sequence Logos".
Terminadores
Mecanismo independente de Rô
Há a formação de um grampo no RNA
nascente que interage com a proteína NusA
(fator de elongação da transcrição) e estimula
a liberação do complexo de transcrição da
RNA polimerase.
Mecanismo dependente de Rô
A proteína Rô (helicase - separa o híbrido
RNA/DNA) reconhece sítio rut (ricos em C),
interage com o complexo RNA polimerase
para estimular a liberação do transcrito.
Determinação convencional de uma
ORF
• Tradução nos 6 possíveis quadros de leitura, 3 na orientação direta
e 3 na complementar reversa.
• Identificação das regiões sugestivas de ORFS, ou seja, que possuem
em um dos quadros mais do que 30 codons sem interrupção por
stop codons.
• start codon e sequência Shine-Delgarno aumentam o poder da
predição.
• Essa sequência traduzida se possuir correspondência em bancos de
dados de proteínas, aumenta ainda mais o valor da predição.
Código Genético Universal
- Universalidade: um determinado códon corresponde ao mesmo
aminoácido na maioria dos organismos. Existem algumas exceções quando
se consideram reinos diferentes de seres vivos e na Mitocôndria.
Exceções
Triptofano
Isoleucina
Metionina
Arginina
Glicina
Viés de uso de códon
• Viés de uso de códon refere-se a diferenças na
frequência de ocorrência de códons sinônimos
na codificação de DNA
– Análises para diferentes organismos
• https://hive.biochemistry.gwu.edu/cuts/about
Frequência de Uso do Codon
Código Genético Degenerado
64 codons diferentes (3 codons de parada) e 20 aminoácidos;
• codons distintos podem codificar o mesmo aminoácido (sinônimos)
Humano (Homo sapiens)
AAG – 58% AAA – 42%
Camungo (Mus musculus)
AAG – 61% AAA – 39%
Codon Usage bias
Diferença na frequência de ocorrência de
codons sinônimos
Característica Evolutiva: Otimização
da tradução em diferentes espécies
Relacionado à maquinaria de
tradução (pool de tRNAs)
Codon Usage para Lisina:
Bactéria Sdy (Shigella dysenteriae)
AAG – 25% AAA – 75%
Bactéria Eco (Escherichia coli)
AAG – 26% AAA - 74 %
Codon usage bias
(viés no uso de trincas)
https://doi.org/10.1038/nrm.2017.91
Abordagens
• Avaliação da não aleatoriedade
da distribuição de nucleotídeos
– Composição de nucleotídeos na
terceira posição do codon em
uma região codificadora
• Dois métodos consistentes (podem
ser usados em conjunto)
– GC bias (viés na composição de GC)
» G/C > A/T (Maior composição
de GC)
– TESTCODE [GCG package]
» Nucleotídeos na terceria
posição do codon tendem a se
repetir primeiras abordagens
Modelo de Markov (cadeia de
Markov)
• Teoria das probabilidades
– modelo de Markov é um modelo estocástico
usado para modelar sistemas que mudam
aleatoriamente.
• Modelagem de Processos estocásticos: processos não
determinísticos, em que há flutuação de estados
seguem uma determinada distribuição de
probabilidades com relação, em geral, ao tempo.
– Cadeias de Markov
» Estados discretos
» A distribuição de probabilidade do próximo estado
depende apenas do estado atual e não na sequência
dos que o precederam.
• Suposição: os estados futuros dependem apenas do
estado atual, não dos eventos que ocorreram antes
dele.
Cadeia de
Markov simples
2 estados (A e E)
e as
probabilidades
associdas à
transição de
estados
Exemplo prático
• Dia ensolarado, chuvoso, nublado
Cadeia de Markov para sequências
biológicas
• Cada caracter (letra) representando um estado e
ligado a outro com uma probabilidade de
transição.
Ordem em Modelos de Markov
• Um modelo de Markov descreve a probabilidade de uma distribuição de
nucleotídeos (ou aminoácidos) em uma sequência, no qual a probabilidade
condicional de uma posição particular, depende das k posições anteriores
(ordem).
• sequence position depends on k previous positions.
• zero-order Markov model
– A probabilidade de um estado independente do estado anterior;
• Descreve uma sequência aleatória, em que cada resíduo ocorre com a mesma frequência;
• first-order Markov model
– A probabilidade de um estado dependente do estado imediatamente anterior;
• Descreve uma sequência com dois resíduos ligados, ocorrendo simultâneamente (ex.: ilhas CpG);
• second-order Markov model
– A probabilidade de um estado dependente dos dois estados anteriores;
• Descreve uma sequência com três resíduos ligados, ocorrendo simultâneamente (ex.: códons);
– Em sequências codificadoras de proteínas, a frequência de ocorrência de trímeros únicos deve ser distinta
de uma região não codificadora ou mesmo uma sequência aleatória.
• higher orders of Markov models
– A probabilidade de um estado dependente dos k estados anteriores;
– Quanto mais longo é o oligômero (k), menos aleatória é a sequência, mais acurada é a
identificação
• Descreve uma sequência complexa (ex.: predição gênica)
Preditor Gênico simplificado
(procariotos)
Hidden Markov Models
• Nos modelos de Markov, todos os estados em
uma sequência linear são diretamente
observáveis.
– Podem haver estados não observáveis que
interferem nas transições.
– Modelos mais sofisticados: HMMs
• Combina dois ou mais cadeias de Markov, com somente
uma cadeia consistindo de estados observáveis e outra
com estados não observáveis com influência no
processo
Exemplo de HMMs
• Exemplo: Alinhamento com Gaps
– Gaps não correspondem a resíduos observáveis, mas
claramente influenciam na transição entre estados observáveis.
Probabilidades
• Probabilidade de Transição
– Em um HMM, assim como em uma cadeia de Markov, a probabilidade de transitar de um estate a outro (transition
probability).
• Probabilidade de Emissão
– Cada estado pode ser composto por um conjunto de elementos ou símbolos. Sequência de nucleotídeos, há 4
símbolos: A, T, G e C em cada estado. Para aminoácidos, são 20 símbolos.
– A probabilidade associada a cada símbolo em cada estado é chamada de probabilidade de emissão (emission
probability).
• Probabilidade Total
– Para o cálculo da probabilidade total de um caminho no modelo, as transições, emissões, das camadas observáveis,
assim como das camadas escondidas (“hidden”) devem ser levadas em conta.
HMM simples para representar (ou gerar)
uma sequência
Predição Gênica e Anotação
PROkaryotic DYnamic programming
Gene-finding ALgorithm
• Conjunto de genomas curados
• Aprendizado das propriedades desses genomas
– Uso preferencial de codons
– Motivo RBS
– Viés no GC
– Estatísticas de hexâmeros
– …
• Utiliza programação dinâmica e um sistema de
escore baseado no parâmetros aprendidos com
os genes identificados nos genomas curados
PREDIÇÃO GÊNICA EM
EUCARIOTOS
Bioinformática
Estrutura gênica em Eucariotos
• Genomas nucleares são muito maiores que os de procariotos
– 10 Mbp a 670 Gbp (1Gbp = 109 bp(
– Baixa densidade gênica
• Humanos ~3% do genoma codifica genes, com 1 gene a cada 100 kbp em média.
• Regiões intergênicas ricas em elementos repetitovos e elementos transponíveis
– Gene é estruturado como um mosaico de peças que se combinam chamadas
exons e separadas por regiões intragênicas (introns) que não são
codificadoras.
– Após a transcrição, o transcrito primário sofre processamentos para se obter
um RNA maduro
• 5' CAP (metilação do resíduo inicial do transcrito - RNA);
• Encadeamento de exons (Splicing) - Complexo de RNA-proteínas: Spliceosome;
– Podendo ocorrer um encadeamento alternativo de exons - Alternative Splicing;
» Diversidade de proteínas a partir de um mesmo gene
• Poliadenilação 3'
– Adição de ~250 Adeninas na porção 3' do transcrito
» Controlado por um sinal de poly-A a partir de um motivo levemente conservado com uma
sequência consenso CAATAAA(T/C).
Estrutura do gene (eucarioto)
Predição de genes eucarióticos
Encadeamento de exons
(Splicing)
Sítios canônicos de splicing
• Podem ser utilizados para delimitação das bordas exon-
intron
Modelos estatísticos
• Modelos estatísticos implementados para procariotos
podem também serem treinados para eucariotos
– Composição de nucleotídeos, viés de codons, frequência
de hexâmeros, etc.
• diferencial com relação às regiões não codificadoras.
• Maioria dos vertebrados utilizam a trinca ATG como
codon de início de tradução e têm uma sequência
conservada chamada de Kozak.
• Há uma alta densidade de dinucleotídeos CG próxima
ao sítio de início de transcrição, chamadas de ilhas
CpG ( o p indica ligação fosfodiéster ), isso contribui
para identificação deste sítio
Sítios de reconhecimento
(eucariontes)
• A decisão pelo uso de um determinado
códon AUG fica dependente de sua
proximidade com o cap da extremidade
5' do mRNA.
– Os nucleotídeos próximos ao AUG
funcional também têm influência e uma
sequência de consenso em mamíferos já
foi identificada (sequência Kozak - 5'-
ACCAUGG-3' para o códon de iniciação;
• A base A inicial desta sequência parece ser
muito importante para o início da síntese
protéica).
• Se o ribossomo não identificar o primeiro
AUG na sequência, ele poderá seguir até o
segundo ou o terceiro. Isto produz
proteínas diferentes a partir de um único
transcrito. em geral com o mesmo quadro
de leitura (ver mais adiante o significado
desta expressão), mas sem os primeiros
aminoácidos.
Gráficos logo 954 sequências de mRNA bovino
[Harhay et al., 2005]
Quanto maior é a entropia
das bases em determinada
posição, menor é a altura das
letras.
Ilhas CpG
• Região do genoma com alta frequências de dinucleotídeos CG
comparada ao resto do genoma
– Possui ao menos 200bp e porcentagem de GC maior que 50%
– Frequentemente estão no início de um gene
– As Citosinas podem estar metiladas
• Regulação da transcrição
HMM para
Ilhas CpG
Ferramentas ab-initio
• Baseiam-se em características das sequências
– sinais gênicos
• sítios canônicos de splicing
• start e stop codon
• sinal de poli-A
• ...
– conteúdo gênico
• Estatística
– distribuição não-aleatória de nucleotídeos
– frequência de hexâmeros
– ...
• Exemplos
» HMM
» Redes Neurais
» Análise Discriminante
Predição usando HMM
• GENSCAN
– http://hollywood.mit.edu/GENSCAN.html
– HMM de quinta ordem
• Frequência de hexâmeros
• sinais gênicos (codons de iniciação, TATA box, sinal poli-A , etc)
– Exons putativos ganham um score (P) representando a
probabilidade de ser um exon verdadeiro
• P > 0,5 como confiável
• exons are assigned a probability score (P) of being a
– Treinado com sequências de vertebrados, Arabidopsis e
milho.
• Extensivamente usado para identificação de genes humanos
GENSCAN
(Modelo HMM)
GENSCAN
Predição gênica em Eucariotos
• http://bioinf.uni-greifswald.de/augustus/
Espécies (Modelos Gênicos)
Predição usando homologia
• Baseados no fato de que as estruturas e
sequências de exons são altamente conservados
entre espécies relacionadas.
– Assume que as sequências estão corretas
• Sequências de cDNA da mesma espécie ou proteínas da
mesma espécie ou e espécies relacionadas
• Evidência experimental
– Restrições
• Necessita de sequências homólogas no banco de dados
• Novos genes em novas espécies não podem ser detectadas
Ferramentas que utilizam homologia
• GenomeThreader
– http://genomethreader.org/
– Baseado em similaridade cDNA/EST e/ou sequências de proteínas
– Bayesian Splice Site Models (BSSMs)
• GenomeScan
– http://hollywood.mit.edu/genomescan.html
– Combina resultado do GENSCAN com similaridades usando BLAST
– O usuário provê sequência de DNA genômico e proteínas de espécies relacionadas.
– O DNA genômico é traduzido nos 6 quadros de leitura para obter as possíveis ORFs e então
essas sequências traduzidas são comparadas com as sequências de proteínas.
• EST2Genome
– http://www.bioinformatics.nl/cgi-bin/emboss/est2genome
– Utiliza alinhamentos de sequências de cDNA com DNA genômico para determinar bordas
exon-intron
– Vantagem: Não necessita treinamento de modelo
– Desvantagem: Sequências de fragmentos de cDNA frequentemente contêm erros e introns
podem também não terem sido eliminados antes da etapa de transcrição reversa
Utilização de suporte de dados de
RNA-Seq
• Exemplo
– Fgenesh++R
• Combina ab-initio
(Fgenesh++) e
mapeamento de
dados RNA-Seq
Mapeamento de dados RNA-Seq
Abordagens Consenso
• Utilizam uma combinação de diversas evidências
– Abordagens por homologia
• Mapeamento de sequências
– Proteínas
– trechos de sequêncis de cDNA
– leituras RNA-Seq
– Abordagens ab-initio
• Múltiplos programas
– HMM
– Rede Neural
– LDA ou QDA
– Coordenadas gênicas
BRAKER2
• BRAKER2 é uma extensão do BRAKER1 o qual
permite uma automatização do treinamento de
preditores gênicos GeneMark-EX e AUGUSTUS a
patir de dados de RNA-Seq e/ou informação de
homologia, e capaz de integrar essas evidências
na predição.
Ferramenta que
utiliza consenso
• maker2
– https://www.yandell-lab.org/software/maker.html
Avaliação de Performance
• Sensibilidade
• Especificidade
Sensibilidade alta mas especificadade baixa
predição excessiva (overpredict)
Sensibilidade baixa mas especificade baixa
conservador (conservative) - menor poder
de predição
Coeficiente de correlação
• Único parâmetro que combina sensibilidade e
especificidade para uma medida de acurácia
– Variação de -1 a +1
• -1 significa predição sempre incorreta
• +1 significa predição sempre correta
Comparação
CONSIDERAÇÕES FINAIS
Conclusão
Conclusão
• As análises de Bioinformática contribuem para
estimar um resultado, a avaliação e decisão
acerca desta estimativa é tarefa do
analisador/avaliador, portanto, ele deve reunir
o máximo de evidências para afirmar o
resultado.
Referências
• Xiong, J. (2006). Essential bioinformatics. New
York: Cambridge University Press.
• Guigó, R., Agarwal, P., Abril, J. F., Burset, M., &
Fickett, J. W. (2000). An assessment of gene
prediction accuracy in large DNA sequences.
Genome research, 10(10), 1631–1642.
doi:10.1101/gr.122800
dgpinheiro@gmail.com
Daniel Guariz Pinheiro

Mais conteúdo relacionado

Mais procurados

Bioquímica síntese de proteínas
Bioquímica   síntese de proteínasBioquímica   síntese de proteínas
Bioquímica síntese de proteínas
amandaaangelina
 
Replicacao e transcriçao DNA procariotos
Replicacao e transcriçao DNA procariotosReplicacao e transcriçao DNA procariotos
Replicacao e transcriçao DNA procariotos
UERGS
 
Recombinação genetica
Recombinação geneticaRecombinação genetica
Recombinação genetica
UERGS
 
Aula 9 eletroforese_pcr_sequenciamento
Aula 9 eletroforese_pcr_sequenciamentoAula 9 eletroforese_pcr_sequenciamento
Aula 9 eletroforese_pcr_sequenciamento
Adriano Fontes
 
25 Patrim Genetico Engenharia Genetica Ppt
25  Patrim  Genetico   Engenharia Genetica Ppt25  Patrim  Genetico   Engenharia Genetica Ppt
25 Patrim Genetico Engenharia Genetica Ppt
Leonor Vaz Pereira
 
Aula 6 replicação do dna, transcrição do rna e síntese proteica
Aula 6   replicação do dna, transcrição do rna e síntese proteicaAula 6   replicação do dna, transcrição do rna e síntese proteica
Aula 6 replicação do dna, transcrição do rna e síntese proteica
Nayara de Queiroz
 
Dna, rna e síntese proteíca
Dna, rna e síntese proteícaDna, rna e síntese proteíca
Dna, rna e síntese proteíca
LarissaComparini
 
Genética bacteriana
Genética bacterianaGenética bacteriana
Genética bacteriana
kaiorochars
 

Mais procurados (20)

Bioquímica síntese de proteínas
Bioquímica   síntese de proteínasBioquímica   síntese de proteínas
Bioquímica síntese de proteínas
 
Polimorfismo final
Polimorfismo finalPolimorfismo final
Polimorfismo final
 
Replicacao e transcriçao DNA procariotos
Replicacao e transcriçao DNA procariotosReplicacao e transcriçao DNA procariotos
Replicacao e transcriçao DNA procariotos
 
A síntese de proteínas
A síntese de proteínasA síntese de proteínas
A síntese de proteínas
 
Exames realizados na área de Genética Médica
Exames realizados na área de Genética MédicaExames realizados na área de Genética Médica
Exames realizados na área de Genética Médica
 
Transcrição e tradução
Transcrição e traduçãoTranscrição e tradução
Transcrição e tradução
 
Pcr
PcrPcr
Pcr
 
Recombinação genetica
Recombinação geneticaRecombinação genetica
Recombinação genetica
 
Sintese de proteina 2
Sintese de proteina 2Sintese de proteina 2
Sintese de proteina 2
 
Aula Pcr
Aula PcrAula Pcr
Aula Pcr
 
Aula 9 eletroforese_pcr_sequenciamento
Aula 9 eletroforese_pcr_sequenciamentoAula 9 eletroforese_pcr_sequenciamento
Aula 9 eletroforese_pcr_sequenciamento
 
25 Patrim Genetico Engenharia Genetica Ppt
25  Patrim  Genetico   Engenharia Genetica Ppt25  Patrim  Genetico   Engenharia Genetica Ppt
25 Patrim Genetico Engenharia Genetica Ppt
 
4 - Mutaçãe e Reparo
4 - Mutaçãe e Reparo4 - Mutaçãe e Reparo
4 - Mutaçãe e Reparo
 
Eletroforese - aplicação da técnica
Eletroforese  - aplicação da técnicaEletroforese  - aplicação da técnica
Eletroforese - aplicação da técnica
 
Aula 6 replicação do dna, transcrição do rna e síntese proteica
Aula 6   replicação do dna, transcrição do rna e síntese proteicaAula 6   replicação do dna, transcrição do rna e síntese proteica
Aula 6 replicação do dna, transcrição do rna e síntese proteica
 
Aula 2 - encontrando similaridades de sequências
Aula 2  - encontrando similaridades de sequênciasAula 2  - encontrando similaridades de sequências
Aula 2 - encontrando similaridades de sequências
 
Dna, rna e síntese proteíca
Dna, rna e síntese proteícaDna, rna e síntese proteíca
Dna, rna e síntese proteíca
 
Genética bacteriana
Genética bacterianaGenética bacteriana
Genética bacteriana
 
III Bases Cromossômicas da herança
III Bases Cromossômicas da herançaIII Bases Cromossômicas da herança
III Bases Cromossômicas da herança
 
Anticorpos Função
Anticorpos FunçãoAnticorpos Função
Anticorpos Função
 

Semelhante a Predição Gênica

Aulauergs 120606185224-phpapp02
Aulauergs 120606185224-phpapp02Aulauergs 120606185224-phpapp02
Aulauergs 120606185224-phpapp02
Leriaagro
 
Aplicação de RNA seq em biologia molecular
Aplicação de RNA seq em biologia molecularAplicação de RNA seq em biologia molecular
Aplicação de RNA seq em biologia molecular
Edivaldo Júnior
 
Replicação do dna_e_ciclo_celular
Replicação do dna_e_ciclo_celularReplicação do dna_e_ciclo_celular
Replicação do dna_e_ciclo_celular
silvia_lfr
 
A genética molecular 1 e
A genética molecular   1 eA genética molecular   1 e
A genética molecular 1 e
César Milani
 
D na invest-criminal-pcr-electroforese(dnafinferprint)
D na invest-criminal-pcr-electroforese(dnafinferprint)D na invest-criminal-pcr-electroforese(dnafinferprint)
D na invest-criminal-pcr-electroforese(dnafinferprint)
Madalena_Bio12
 
Rna e síntese de proteínas
Rna e síntese de proteínasRna e síntese de proteínas
Rna e síntese de proteínas
danilo oliveira
 
Dna invest criminal-pcr-electroforese(dn-afingerprint)
Dna invest criminal-pcr-electroforese(dn-afingerprint)Dna invest criminal-pcr-electroforese(dn-afingerprint)
Dna invest criminal-pcr-electroforese(dn-afingerprint)
Madalena_Bio12
 
Polimorfismos de nucleotídeos únicos em espécies poliplóides.ppt
Polimorfismos de nucleotídeos únicos em espécies poliplóides.pptPolimorfismos de nucleotídeos únicos em espécies poliplóides.ppt
Polimorfismos de nucleotídeos únicos em espécies poliplóides.ppt
CarlosWeslley1
 
Regulação e expressão gênica bacteriana
Regulação e expressão gênica bacterianaRegulação e expressão gênica bacteriana
Regulação e expressão gênica bacteriana
UERGS
 
Iv sinteseproteica-111013090643-phpapp02
Iv sinteseproteica-111013090643-phpapp02Iv sinteseproteica-111013090643-phpapp02
Iv sinteseproteica-111013090643-phpapp02
Éricka Rocha
 
02 - Replicação, Transcrição e Tradução (2).pdf
02 - Replicação, Transcrição e Tradução (2).pdf02 - Replicação, Transcrição e Tradução (2).pdf
02 - Replicação, Transcrição e Tradução (2).pdf
Joeliamaia
 

Semelhante a Predição Gênica (20)

Aulauergs 120606185224-phpapp02
Aulauergs 120606185224-phpapp02Aulauergs 120606185224-phpapp02
Aulauergs 120606185224-phpapp02
 
DNA FINGER PRINT.ppt
DNA FINGER PRINT.pptDNA FINGER PRINT.ppt
DNA FINGER PRINT.ppt
 
Aplicação de RNA seq em biologia molecular
Aplicação de RNA seq em biologia molecularAplicação de RNA seq em biologia molecular
Aplicação de RNA seq em biologia molecular
 
Replicação do dna_e_ciclo_celular
Replicação do dna_e_ciclo_celularReplicação do dna_e_ciclo_celular
Replicação do dna_e_ciclo_celular
 
Proteomica
ProteomicaProteomica
Proteomica
 
A genética molecular 1 e
A genética molecular   1 eA genética molecular   1 e
A genética molecular 1 e
 
Aula3 sintese prtn
Aula3 sintese prtnAula3 sintese prtn
Aula3 sintese prtn
 
Engenharia Genética - Prof. Ana Paula Christ
Engenharia Genética - Prof. Ana Paula ChristEngenharia Genética - Prof. Ana Paula Christ
Engenharia Genética - Prof. Ana Paula Christ
 
D na invest-criminal-pcr-electroforese(dnafinferprint)
D na invest-criminal-pcr-electroforese(dnafinferprint)D na invest-criminal-pcr-electroforese(dnafinferprint)
D na invest-criminal-pcr-electroforese(dnafinferprint)
 
Rna e síntese de proteínas
Rna e síntese de proteínasRna e síntese de proteínas
Rna e síntese de proteínas
 
Dna invest criminal-pcr-electroforese(dn-afingerprint)
Dna invest criminal-pcr-electroforese(dn-afingerprint)Dna invest criminal-pcr-electroforese(dn-afingerprint)
Dna invest criminal-pcr-electroforese(dn-afingerprint)
 
Polimorfismos de nucleotídeos únicos em espécies poliplóides.ppt
Polimorfismos de nucleotídeos únicos em espécies poliplóides.pptPolimorfismos de nucleotídeos únicos em espécies poliplóides.ppt
Polimorfismos de nucleotídeos únicos em espécies poliplóides.ppt
 
Minicurso Técnicas de Sequenciamento e suas Aplicações
Minicurso Técnicas de Sequenciamento e suas AplicaçõesMinicurso Técnicas de Sequenciamento e suas Aplicações
Minicurso Técnicas de Sequenciamento e suas Aplicações
 
Aula06 bioqii qui-contexpressaogenica
Aula06 bioqii qui-contexpressaogenicaAula06 bioqii qui-contexpressaogenica
Aula06 bioqii qui-contexpressaogenica
 
Marcadores moleculares
Marcadores molecularesMarcadores moleculares
Marcadores moleculares
 
Regulação e expressão gênica bacteriana
Regulação e expressão gênica bacterianaRegulação e expressão gênica bacteriana
Regulação e expressão gênica bacteriana
 
Iv sinteseproteica-111013090643-phpapp02
Iv sinteseproteica-111013090643-phpapp02Iv sinteseproteica-111013090643-phpapp02
Iv sinteseproteica-111013090643-phpapp02
 
Dna e RNA
Dna e RNADna e RNA
Dna e RNA
 
Evolução Molecular
Evolução MolecularEvolução Molecular
Evolução Molecular
 
02 - Replicação, Transcrição e Tradução (2).pdf
02 - Replicação, Transcrição e Tradução (2).pdf02 - Replicação, Transcrição e Tradução (2).pdf
02 - Replicação, Transcrição e Tradução (2).pdf
 

Último

Responde ou passa na HISTÓRIA - REVOLUÇÃO INDUSTRIAL - 8º ANO.pptx
Responde ou passa na HISTÓRIA - REVOLUÇÃO INDUSTRIAL - 8º ANO.pptxResponde ou passa na HISTÓRIA - REVOLUÇÃO INDUSTRIAL - 8º ANO.pptx
Responde ou passa na HISTÓRIA - REVOLUÇÃO INDUSTRIAL - 8º ANO.pptx
AntonioVieira539017
 
apostila projeto de vida 2 ano ensino médio
apostila projeto de vida 2 ano ensino médioapostila projeto de vida 2 ano ensino médio
apostila projeto de vida 2 ano ensino médio
rosenilrucks
 
matematica aula didatica prática e tecni
matematica aula didatica prática e tecnimatematica aula didatica prática e tecni
matematica aula didatica prática e tecni
CleidianeCarvalhoPer
 
Teoria heterotrófica e autotrófica dos primeiros seres vivos..pptx
Teoria heterotrófica e autotrófica dos primeiros seres vivos..pptxTeoria heterotrófica e autotrófica dos primeiros seres vivos..pptx
Teoria heterotrófica e autotrófica dos primeiros seres vivos..pptx
TailsonSantos1
 
Slide - EBD ADEB 2024 Licao 02 2Trim.pptx
Slide - EBD ADEB 2024 Licao 02 2Trim.pptxSlide - EBD ADEB 2024 Licao 02 2Trim.pptx
Slide - EBD ADEB 2024 Licao 02 2Trim.pptx
edelon1
 
19- Pedagogia (60 mapas mentais) - Amostra.pdf
19- Pedagogia (60 mapas mentais) - Amostra.pdf19- Pedagogia (60 mapas mentais) - Amostra.pdf
19- Pedagogia (60 mapas mentais) - Amostra.pdf
marlene54545
 

Último (20)

PROJETO DE EXTENSÃO I - AGRONOMIA.pdf AGRONOMIAAGRONOMIA
PROJETO DE EXTENSÃO I - AGRONOMIA.pdf AGRONOMIAAGRONOMIAPROJETO DE EXTENSÃO I - AGRONOMIA.pdf AGRONOMIAAGRONOMIA
PROJETO DE EXTENSÃO I - AGRONOMIA.pdf AGRONOMIAAGRONOMIA
 
LISTA DE EXERCICIOS envolveto grandezas e medidas e notação cientifica 1 ANO ...
LISTA DE EXERCICIOS envolveto grandezas e medidas e notação cientifica 1 ANO ...LISTA DE EXERCICIOS envolveto grandezas e medidas e notação cientifica 1 ANO ...
LISTA DE EXERCICIOS envolveto grandezas e medidas e notação cientifica 1 ANO ...
 
praticas experimentais 1 ano ensino médio
praticas experimentais 1 ano ensino médiopraticas experimentais 1 ano ensino médio
praticas experimentais 1 ano ensino médio
 
Responde ou passa na HISTÓRIA - REVOLUÇÃO INDUSTRIAL - 8º ANO.pptx
Responde ou passa na HISTÓRIA - REVOLUÇÃO INDUSTRIAL - 8º ANO.pptxResponde ou passa na HISTÓRIA - REVOLUÇÃO INDUSTRIAL - 8º ANO.pptx
Responde ou passa na HISTÓRIA - REVOLUÇÃO INDUSTRIAL - 8º ANO.pptx
 
Atividade - Letra da música Esperando na Janela.
Atividade -  Letra da música Esperando na Janela.Atividade -  Letra da música Esperando na Janela.
Atividade - Letra da música Esperando na Janela.
 
apostila projeto de vida 2 ano ensino médio
apostila projeto de vida 2 ano ensino médioapostila projeto de vida 2 ano ensino médio
apostila projeto de vida 2 ano ensino médio
 
PRÁTICAS PEDAGÓGICAS GESTÃO DA APRENDIZAGEM
PRÁTICAS PEDAGÓGICAS GESTÃO DA APRENDIZAGEMPRÁTICAS PEDAGÓGICAS GESTÃO DA APRENDIZAGEM
PRÁTICAS PEDAGÓGICAS GESTÃO DA APRENDIZAGEM
 
matematica aula didatica prática e tecni
matematica aula didatica prática e tecnimatematica aula didatica prática e tecni
matematica aula didatica prática e tecni
 
Projeto Nós propomos! Sertã, 2024 - Chupetas Eletrónicas.pptx
Projeto Nós propomos! Sertã, 2024 - Chupetas Eletrónicas.pptxProjeto Nós propomos! Sertã, 2024 - Chupetas Eletrónicas.pptx
Projeto Nós propomos! Sertã, 2024 - Chupetas Eletrónicas.pptx
 
PROJETO DE EXTENSÃO I - SERVIÇOS JURÍDICOS, CARTORÁRIOS E NOTARIAIS.pdf
PROJETO DE EXTENSÃO I - SERVIÇOS JURÍDICOS, CARTORÁRIOS E NOTARIAIS.pdfPROJETO DE EXTENSÃO I - SERVIÇOS JURÍDICOS, CARTORÁRIOS E NOTARIAIS.pdf
PROJETO DE EXTENSÃO I - SERVIÇOS JURÍDICOS, CARTORÁRIOS E NOTARIAIS.pdf
 
Recomposiçao em matematica 1 ano 2024 - ESTUDANTE 1ª série.pdf
Recomposiçao em matematica 1 ano 2024 - ESTUDANTE 1ª série.pdfRecomposiçao em matematica 1 ano 2024 - ESTUDANTE 1ª série.pdf
Recomposiçao em matematica 1 ano 2024 - ESTUDANTE 1ª série.pdf
 
Modelo de Plano Plano semanal Educação Infantil 5 anossemanal Educação Infant...
Modelo de Plano Plano semanal Educação Infantil 5 anossemanal Educação Infant...Modelo de Plano Plano semanal Educação Infantil 5 anossemanal Educação Infant...
Modelo de Plano Plano semanal Educação Infantil 5 anossemanal Educação Infant...
 
Slides Lição 05, Central Gospel, A Grande Tribulação, 1Tr24.pptx
Slides Lição 05, Central Gospel, A Grande Tribulação, 1Tr24.pptxSlides Lição 05, Central Gospel, A Grande Tribulação, 1Tr24.pptx
Slides Lição 05, Central Gospel, A Grande Tribulação, 1Tr24.pptx
 
Aula sobre o Imperialismo Europeu no século XIX
Aula sobre o Imperialismo Europeu no século XIXAula sobre o Imperialismo Europeu no século XIX
Aula sobre o Imperialismo Europeu no século XIX
 
Projeto_de_Extensão_Agronomia_adquira_ja_(91)_98764-0830.pdf
Projeto_de_Extensão_Agronomia_adquira_ja_(91)_98764-0830.pdfProjeto_de_Extensão_Agronomia_adquira_ja_(91)_98764-0830.pdf
Projeto_de_Extensão_Agronomia_adquira_ja_(91)_98764-0830.pdf
 
Teoria heterotrófica e autotrófica dos primeiros seres vivos..pptx
Teoria heterotrófica e autotrófica dos primeiros seres vivos..pptxTeoria heterotrófica e autotrófica dos primeiros seres vivos..pptx
Teoria heterotrófica e autotrófica dos primeiros seres vivos..pptx
 
Rota das Ribeiras Camp, Projeto Nós Propomos!
Rota das Ribeiras Camp, Projeto Nós Propomos!Rota das Ribeiras Camp, Projeto Nós Propomos!
Rota das Ribeiras Camp, Projeto Nós Propomos!
 
Apresentação ISBET Jovem Aprendiz e Estágio 2023.pdf
Apresentação ISBET Jovem Aprendiz e Estágio 2023.pdfApresentação ISBET Jovem Aprendiz e Estágio 2023.pdf
Apresentação ISBET Jovem Aprendiz e Estágio 2023.pdf
 
Slide - EBD ADEB 2024 Licao 02 2Trim.pptx
Slide - EBD ADEB 2024 Licao 02 2Trim.pptxSlide - EBD ADEB 2024 Licao 02 2Trim.pptx
Slide - EBD ADEB 2024 Licao 02 2Trim.pptx
 
19- Pedagogia (60 mapas mentais) - Amostra.pdf
19- Pedagogia (60 mapas mentais) - Amostra.pdf19- Pedagogia (60 mapas mentais) - Amostra.pdf
19- Pedagogia (60 mapas mentais) - Amostra.pdf
 

Predição Gênica

  • 1. Predição Gênica Daniel Guariz Pinheiro Laboratório de Bioinformática Departamento de Tecnologia Faculdade de Ciências Agrárias e Veterinárias de Jaboticabal (FCAV) Universidade Estadual Paulista “Júlio de Mesquita Filho” (UNESP)
  • 2. Tópicos • Introdução à Predição Gênica – Predição gência em procariotos • Prokka – Introdução a Hidden Markov Models (HMMs) – Predição gênica em eucariotos • Augustus • maker2
  • 4. Predição Gênica • Após sequenciamento genômico e a montagem do genoma, imediatamente o próximo passo é a identificação dos genes. • Isso implica em encontrar a localização, definir as estruturas de exons e introns e a região codificadora (ORF). – Desafio é realizar essa tarefa com 100% de acurácia somente in silico • Problema de reconhecimento de padrões – Sequências codificadoras nem sempre possuem motivos conservados, – Características sutis, difícies de serem detectadas
  • 5. Soluções atuais • Características distintas de genes em eucariotos e procariotos – Predição gênica em procariotos têm obtido bastante sucesso – Predição gênica em eucariotos têm resultados apenas satisfatórios • Foco aqui: genes codificadores de proteínas
  • 6. Categorias • ab-initio – Predição a partir das sequências genômicas • Sinais gênicos – trincas (codons) de início e de parada; – sítios relacionados ao processo de encadeamento de exons; – sítios de ligação de fatores de transcrição; – sítio de ligação de ribossomo; – sinais e sítios de poliadenilação (poly-A); – a estrutura de trincas restringe a região codificadora até a trinca de parada. • Descrição estatística de composição de genes codificadores de proteínas – Modelos de Markov (HMM) • baseada em homologia – Predição a partir de alinhamentos de genes conhecidos. • A correspondência entre sequências (em especial de proteínas) de genes conhecidos (até mesmo de outras espécies) podem ser evidências extremamente úteis para detectar regiões codificadoras. • Sequências de transcritomas (cDNAs sequenciados) podem ser evidências de regiões de exons. – Evidência experimental! • consenso – Utiliza ambas as abordagens, combinando resultados de predições
  • 9. Estrutura gênica em Procariotos • Bactérias e Arqueias – Pequenos genomas • 0,5 to 10 Mbp (1Mbp=106 bp). – Alta densidade gênica • > 90% genoma contém sequências codificadoras de proteínas. • Poucas sequências repetitivas; – A ORF em geral não é interrompida (não há presença de introns, ou são muito raros - introns tipo I) – Bactérias, a maioria dos genes têm um start codon ATG (AUG em mRNA) que codifica metionina, ocasionalmente, GTG e TTG podem ser usados alternativamente, porém a Metionina é o aminoácido na primeira posição. • Esses codons podem aparecer no meio da proteína e portanto não devem ser o único indicativo de início da ORF – Shine Delgarno (sítio de ligação do ribossomo) – Há 3 codons de terminação da tradução, porém alguns genes são transcritos em operons (transcritos policistrônicos) – Operons possuem um terminador de transcrição
  • 10. Início da Tradução (procariotos) • Uma sequência conservada de 6 nucleotídeos, conhecida como sequência de Shine Dalgarno (SD), ou sítio ligador de ribossomo (RBS), ou sítio de reconhecimento de ribossomo (RRS), é sempre encontrada umas poucas bases acima (5') do códon de iniciação (a montante). – Bactérias – Arquéias – Alguns cloroplastos e mitocôndrias • Esta sequência pode parear com algumas bases do rRNA 16S da sub-unidade menor do ribossomo procarioto. A interação entre os dois RNAs é fundamental para a eficiência do início da tradução e ainda oferece uma oportunidade para regular a tradução, por exemplo, através de proteínas que se ligam ao RBS, bloqueando-o. 5′–GGAGGU–3′ Gráfico logos de 149 RBS de E. coli. Tom Schneider, "A Gallery of Sequence Logos".
  • 11. Terminadores Mecanismo independente de Rô Há a formação de um grampo no RNA nascente que interage com a proteína NusA (fator de elongação da transcrição) e estimula a liberação do complexo de transcrição da RNA polimerase. Mecanismo dependente de Rô A proteína Rô (helicase - separa o híbrido RNA/DNA) reconhece sítio rut (ricos em C), interage com o complexo RNA polimerase para estimular a liberação do transcrito.
  • 12. Determinação convencional de uma ORF • Tradução nos 6 possíveis quadros de leitura, 3 na orientação direta e 3 na complementar reversa. • Identificação das regiões sugestivas de ORFS, ou seja, que possuem em um dos quadros mais do que 30 codons sem interrupção por stop codons. • start codon e sequência Shine-Delgarno aumentam o poder da predição. • Essa sequência traduzida se possuir correspondência em bancos de dados de proteínas, aumenta ainda mais o valor da predição.
  • 13. Código Genético Universal - Universalidade: um determinado códon corresponde ao mesmo aminoácido na maioria dos organismos. Existem algumas exceções quando se consideram reinos diferentes de seres vivos e na Mitocôndria.
  • 15. Viés de uso de códon • Viés de uso de códon refere-se a diferenças na frequência de ocorrência de códons sinônimos na codificação de DNA – Análises para diferentes organismos • https://hive.biochemistry.gwu.edu/cuts/about
  • 16. Frequência de Uso do Codon Código Genético Degenerado 64 codons diferentes (3 codons de parada) e 20 aminoácidos; • codons distintos podem codificar o mesmo aminoácido (sinônimos) Humano (Homo sapiens) AAG – 58% AAA – 42% Camungo (Mus musculus) AAG – 61% AAA – 39% Codon Usage bias Diferença na frequência de ocorrência de codons sinônimos Característica Evolutiva: Otimização da tradução em diferentes espécies Relacionado à maquinaria de tradução (pool de tRNAs) Codon Usage para Lisina: Bactéria Sdy (Shigella dysenteriae) AAG – 25% AAA – 75% Bactéria Eco (Escherichia coli) AAG – 26% AAA - 74 %
  • 17. Codon usage bias (viés no uso de trincas) https://doi.org/10.1038/nrm.2017.91
  • 18. Abordagens • Avaliação da não aleatoriedade da distribuição de nucleotídeos – Composição de nucleotídeos na terceira posição do codon em uma região codificadora • Dois métodos consistentes (podem ser usados em conjunto) – GC bias (viés na composição de GC) » G/C > A/T (Maior composição de GC) – TESTCODE [GCG package] » Nucleotídeos na terceria posição do codon tendem a se repetir primeiras abordagens
  • 19. Modelo de Markov (cadeia de Markov) • Teoria das probabilidades – modelo de Markov é um modelo estocástico usado para modelar sistemas que mudam aleatoriamente. • Modelagem de Processos estocásticos: processos não determinísticos, em que há flutuação de estados seguem uma determinada distribuição de probabilidades com relação, em geral, ao tempo. – Cadeias de Markov » Estados discretos » A distribuição de probabilidade do próximo estado depende apenas do estado atual e não na sequência dos que o precederam. • Suposição: os estados futuros dependem apenas do estado atual, não dos eventos que ocorreram antes dele. Cadeia de Markov simples 2 estados (A e E) e as probabilidades associdas à transição de estados
  • 20. Exemplo prático • Dia ensolarado, chuvoso, nublado
  • 21. Cadeia de Markov para sequências biológicas • Cada caracter (letra) representando um estado e ligado a outro com uma probabilidade de transição.
  • 22. Ordem em Modelos de Markov • Um modelo de Markov descreve a probabilidade de uma distribuição de nucleotídeos (ou aminoácidos) em uma sequência, no qual a probabilidade condicional de uma posição particular, depende das k posições anteriores (ordem). • sequence position depends on k previous positions. • zero-order Markov model – A probabilidade de um estado independente do estado anterior; • Descreve uma sequência aleatória, em que cada resíduo ocorre com a mesma frequência; • first-order Markov model – A probabilidade de um estado dependente do estado imediatamente anterior; • Descreve uma sequência com dois resíduos ligados, ocorrendo simultâneamente (ex.: ilhas CpG); • second-order Markov model – A probabilidade de um estado dependente dos dois estados anteriores; • Descreve uma sequência com três resíduos ligados, ocorrendo simultâneamente (ex.: códons); – Em sequências codificadoras de proteínas, a frequência de ocorrência de trímeros únicos deve ser distinta de uma região não codificadora ou mesmo uma sequência aleatória. • higher orders of Markov models – A probabilidade de um estado dependente dos k estados anteriores; – Quanto mais longo é o oligômero (k), menos aleatória é a sequência, mais acurada é a identificação • Descreve uma sequência complexa (ex.: predição gênica)
  • 24. Hidden Markov Models • Nos modelos de Markov, todos os estados em uma sequência linear são diretamente observáveis. – Podem haver estados não observáveis que interferem nas transições. – Modelos mais sofisticados: HMMs • Combina dois ou mais cadeias de Markov, com somente uma cadeia consistindo de estados observáveis e outra com estados não observáveis com influência no processo
  • 25. Exemplo de HMMs • Exemplo: Alinhamento com Gaps – Gaps não correspondem a resíduos observáveis, mas claramente influenciam na transição entre estados observáveis.
  • 26. Probabilidades • Probabilidade de Transição – Em um HMM, assim como em uma cadeia de Markov, a probabilidade de transitar de um estate a outro (transition probability). • Probabilidade de Emissão – Cada estado pode ser composto por um conjunto de elementos ou símbolos. Sequência de nucleotídeos, há 4 símbolos: A, T, G e C em cada estado. Para aminoácidos, são 20 símbolos. – A probabilidade associada a cada símbolo em cada estado é chamada de probabilidade de emissão (emission probability). • Probabilidade Total – Para o cálculo da probabilidade total de um caminho no modelo, as transições, emissões, das camadas observáveis, assim como das camadas escondidas (“hidden”) devem ser levadas em conta. HMM simples para representar (ou gerar) uma sequência
  • 27. Predição Gênica e Anotação
  • 28. PROkaryotic DYnamic programming Gene-finding ALgorithm • Conjunto de genomas curados • Aprendizado das propriedades desses genomas – Uso preferencial de codons – Motivo RBS – Viés no GC – Estatísticas de hexâmeros – … • Utiliza programação dinâmica e um sistema de escore baseado no parâmetros aprendidos com os genes identificados nos genomas curados
  • 30. Estrutura gênica em Eucariotos • Genomas nucleares são muito maiores que os de procariotos – 10 Mbp a 670 Gbp (1Gbp = 109 bp( – Baixa densidade gênica • Humanos ~3% do genoma codifica genes, com 1 gene a cada 100 kbp em média. • Regiões intergênicas ricas em elementos repetitovos e elementos transponíveis – Gene é estruturado como um mosaico de peças que se combinam chamadas exons e separadas por regiões intragênicas (introns) que não são codificadoras. – Após a transcrição, o transcrito primário sofre processamentos para se obter um RNA maduro • 5' CAP (metilação do resíduo inicial do transcrito - RNA); • Encadeamento de exons (Splicing) - Complexo de RNA-proteínas: Spliceosome; – Podendo ocorrer um encadeamento alternativo de exons - Alternative Splicing; » Diversidade de proteínas a partir de um mesmo gene • Poliadenilação 3' – Adição de ~250 Adeninas na porção 3' do transcrito » Controlado por um sinal de poly-A a partir de um motivo levemente conservado com uma sequência consenso CAATAAA(T/C).
  • 31. Estrutura do gene (eucarioto)
  • 32. Predição de genes eucarióticos
  • 34. Sítios canônicos de splicing • Podem ser utilizados para delimitação das bordas exon- intron
  • 35. Modelos estatísticos • Modelos estatísticos implementados para procariotos podem também serem treinados para eucariotos – Composição de nucleotídeos, viés de codons, frequência de hexâmeros, etc. • diferencial com relação às regiões não codificadoras. • Maioria dos vertebrados utilizam a trinca ATG como codon de início de tradução e têm uma sequência conservada chamada de Kozak. • Há uma alta densidade de dinucleotídeos CG próxima ao sítio de início de transcrição, chamadas de ilhas CpG ( o p indica ligação fosfodiéster ), isso contribui para identificação deste sítio
  • 36. Sítios de reconhecimento (eucariontes) • A decisão pelo uso de um determinado códon AUG fica dependente de sua proximidade com o cap da extremidade 5' do mRNA. – Os nucleotídeos próximos ao AUG funcional também têm influência e uma sequência de consenso em mamíferos já foi identificada (sequência Kozak - 5'- ACCAUGG-3' para o códon de iniciação; • A base A inicial desta sequência parece ser muito importante para o início da síntese protéica). • Se o ribossomo não identificar o primeiro AUG na sequência, ele poderá seguir até o segundo ou o terceiro. Isto produz proteínas diferentes a partir de um único transcrito. em geral com o mesmo quadro de leitura (ver mais adiante o significado desta expressão), mas sem os primeiros aminoácidos. Gráficos logo 954 sequências de mRNA bovino [Harhay et al., 2005] Quanto maior é a entropia das bases em determinada posição, menor é a altura das letras.
  • 37. Ilhas CpG • Região do genoma com alta frequências de dinucleotídeos CG comparada ao resto do genoma – Possui ao menos 200bp e porcentagem de GC maior que 50% – Frequentemente estão no início de um gene – As Citosinas podem estar metiladas • Regulação da transcrição
  • 39. Ferramentas ab-initio • Baseiam-se em características das sequências – sinais gênicos • sítios canônicos de splicing • start e stop codon • sinal de poli-A • ... – conteúdo gênico • Estatística – distribuição não-aleatória de nucleotídeos – frequência de hexâmeros – ... • Exemplos » HMM » Redes Neurais » Análise Discriminante
  • 40. Predição usando HMM • GENSCAN – http://hollywood.mit.edu/GENSCAN.html – HMM de quinta ordem • Frequência de hexâmeros • sinais gênicos (codons de iniciação, TATA box, sinal poli-A , etc) – Exons putativos ganham um score (P) representando a probabilidade de ser um exon verdadeiro • P > 0,5 como confiável • exons are assigned a probability score (P) of being a – Treinado com sequências de vertebrados, Arabidopsis e milho. • Extensivamente usado para identificação de genes humanos
  • 43. Predição gênica em Eucariotos • http://bioinf.uni-greifswald.de/augustus/
  • 45. Predição usando homologia • Baseados no fato de que as estruturas e sequências de exons são altamente conservados entre espécies relacionadas. – Assume que as sequências estão corretas • Sequências de cDNA da mesma espécie ou proteínas da mesma espécie ou e espécies relacionadas • Evidência experimental – Restrições • Necessita de sequências homólogas no banco de dados • Novos genes em novas espécies não podem ser detectadas
  • 46. Ferramentas que utilizam homologia • GenomeThreader – http://genomethreader.org/ – Baseado em similaridade cDNA/EST e/ou sequências de proteínas – Bayesian Splice Site Models (BSSMs) • GenomeScan – http://hollywood.mit.edu/genomescan.html – Combina resultado do GENSCAN com similaridades usando BLAST – O usuário provê sequência de DNA genômico e proteínas de espécies relacionadas. – O DNA genômico é traduzido nos 6 quadros de leitura para obter as possíveis ORFs e então essas sequências traduzidas são comparadas com as sequências de proteínas. • EST2Genome – http://www.bioinformatics.nl/cgi-bin/emboss/est2genome – Utiliza alinhamentos de sequências de cDNA com DNA genômico para determinar bordas exon-intron – Vantagem: Não necessita treinamento de modelo – Desvantagem: Sequências de fragmentos de cDNA frequentemente contêm erros e introns podem também não terem sido eliminados antes da etapa de transcrição reversa
  • 47. Utilização de suporte de dados de RNA-Seq • Exemplo – Fgenesh++R • Combina ab-initio (Fgenesh++) e mapeamento de dados RNA-Seq
  • 49. Abordagens Consenso • Utilizam uma combinação de diversas evidências – Abordagens por homologia • Mapeamento de sequências – Proteínas – trechos de sequêncis de cDNA – leituras RNA-Seq – Abordagens ab-initio • Múltiplos programas – HMM – Rede Neural – LDA ou QDA – Coordenadas gênicas
  • 50. BRAKER2 • BRAKER2 é uma extensão do BRAKER1 o qual permite uma automatização do treinamento de preditores gênicos GeneMark-EX e AUGUSTUS a patir de dados de RNA-Seq e/ou informação de homologia, e capaz de integrar essas evidências na predição.
  • 51. Ferramenta que utiliza consenso • maker2 – https://www.yandell-lab.org/software/maker.html
  • 52. Avaliação de Performance • Sensibilidade • Especificidade Sensibilidade alta mas especificadade baixa predição excessiva (overpredict) Sensibilidade baixa mas especificade baixa conservador (conservative) - menor poder de predição
  • 53. Coeficiente de correlação • Único parâmetro que combina sensibilidade e especificidade para uma medida de acurácia – Variação de -1 a +1 • -1 significa predição sempre incorreta • +1 significa predição sempre correta
  • 56. Conclusão • As análises de Bioinformática contribuem para estimar um resultado, a avaliação e decisão acerca desta estimativa é tarefa do analisador/avaliador, portanto, ele deve reunir o máximo de evidências para afirmar o resultado.
  • 57. Referências • Xiong, J. (2006). Essential bioinformatics. New York: Cambridge University Press. • Guigó, R., Agarwal, P., Abril, J. F., Burset, M., & Fickett, J. W. (2000). An assessment of gene prediction accuracy in large DNA sequences. Genome research, 10(10), 1631–1642. doi:10.1101/gr.122800