1. Predição Gênica
Daniel Guariz Pinheiro
Laboratório de Bioinformática
Departamento de Tecnologia
Faculdade de Ciências Agrárias e Veterinárias de Jaboticabal (FCAV)
Universidade Estadual Paulista “Júlio de Mesquita Filho” (UNESP)
2. Tópicos
• Introdução à Predição Gênica
– Predição gência em procariotos
• Prokka
– Introdução a Hidden Markov
Models (HMMs)
– Predição gênica em eucariotos
• Augustus
• maker2
4. Predição Gênica
• Após sequenciamento genômico e a montagem do
genoma, imediatamente o próximo passo é a
identificação dos genes.
• Isso implica em encontrar a localização, definir as
estruturas de exons e introns e a região codificadora
(ORF).
– Desafio é realizar essa tarefa com 100% de acurácia
somente in silico
• Problema de reconhecimento de padrões
– Sequências codificadoras nem sempre possuem motivos
conservados,
– Características sutis, difícies de serem detectadas
5. Soluções atuais
• Características distintas de genes em eucariotos e
procariotos
– Predição gênica em procariotos têm obtido bastante
sucesso
– Predição gênica em eucariotos têm resultados apenas
satisfatórios
• Foco aqui: genes codificadores de proteínas
6. Categorias
• ab-initio
– Predição a partir das sequências genômicas
• Sinais gênicos
– trincas (codons) de início e de parada;
– sítios relacionados ao processo de encadeamento de exons;
– sítios de ligação de fatores de transcrição;
– sítio de ligação de ribossomo;
– sinais e sítios de poliadenilação (poly-A);
– a estrutura de trincas restringe a região codificadora até a trinca de parada.
• Descrição estatística de composição de genes codificadores de proteínas
– Modelos de Markov (HMM)
• baseada em homologia
– Predição a partir de alinhamentos de genes conhecidos.
• A correspondência entre sequências (em especial de proteínas) de genes conhecidos (até
mesmo de outras espécies) podem ser evidências extremamente úteis para detectar
regiões codificadoras.
• Sequências de transcritomas (cDNAs sequenciados) podem ser evidências de regiões de
exons.
– Evidência experimental!
• consenso
– Utiliza ambas as abordagens, combinando resultados de predições
9. Estrutura gênica em Procariotos
• Bactérias e Arqueias
– Pequenos genomas
• 0,5 to 10 Mbp (1Mbp=106 bp).
– Alta densidade gênica
• > 90% genoma contém sequências codificadoras de proteínas.
• Poucas sequências repetitivas;
– A ORF em geral não é interrompida (não há presença de introns, ou são muito
raros - introns tipo I)
– Bactérias, a maioria dos genes têm um start codon ATG (AUG em mRNA) que
codifica metionina, ocasionalmente, GTG e TTG podem ser usados
alternativamente, porém a Metionina é o aminoácido na primeira posição.
• Esses codons podem aparecer no meio da proteína e portanto não devem ser o único
indicativo de início da ORF
– Shine Delgarno (sítio de ligação do ribossomo)
– Há 3 codons de terminação da tradução, porém alguns genes são transcritos
em operons (transcritos policistrônicos)
– Operons possuem um terminador de transcrição
10. Início da Tradução (procariotos)
• Uma sequência conservada de 6 nucleotídeos,
conhecida como sequência de Shine Dalgarno
(SD), ou sítio ligador de ribossomo (RBS), ou sítio
de reconhecimento de ribossomo (RRS), é sempre
encontrada umas poucas bases acima (5') do
códon de iniciação (a montante).
– Bactérias
– Arquéias
– Alguns cloroplastos e mitocôndrias
• Esta sequência pode parear com algumas bases do
rRNA 16S da sub-unidade menor do ribossomo
procarioto. A interação entre os dois RNAs é
fundamental para a eficiência do início da
tradução e ainda oferece uma oportunidade para
regular a tradução, por exemplo, através de
proteínas que se ligam ao RBS, bloqueando-o.
5′–GGAGGU–3′
Gráfico logos de 149 RBS de E. coli.
Tom Schneider, "A Gallery of Sequence Logos".
11. Terminadores
Mecanismo independente de Rô
Há a formação de um grampo no RNA
nascente que interage com a proteína NusA
(fator de elongação da transcrição) e estimula
a liberação do complexo de transcrição da
RNA polimerase.
Mecanismo dependente de Rô
A proteína Rô (helicase - separa o híbrido
RNA/DNA) reconhece sítio rut (ricos em C),
interage com o complexo RNA polimerase
para estimular a liberação do transcrito.
12. Determinação convencional de uma
ORF
• Tradução nos 6 possíveis quadros de leitura, 3 na orientação direta
e 3 na complementar reversa.
• Identificação das regiões sugestivas de ORFS, ou seja, que possuem
em um dos quadros mais do que 30 codons sem interrupção por
stop codons.
• start codon e sequência Shine-Delgarno aumentam o poder da
predição.
• Essa sequência traduzida se possuir correspondência em bancos de
dados de proteínas, aumenta ainda mais o valor da predição.
13. Código Genético Universal
- Universalidade: um determinado códon corresponde ao mesmo
aminoácido na maioria dos organismos. Existem algumas exceções quando
se consideram reinos diferentes de seres vivos e na Mitocôndria.
15. Viés de uso de códon
• Viés de uso de códon refere-se a diferenças na
frequência de ocorrência de códons sinônimos
na codificação de DNA
– Análises para diferentes organismos
• https://hive.biochemistry.gwu.edu/cuts/about
16. Frequência de Uso do Codon
Código Genético Degenerado
64 codons diferentes (3 codons de parada) e 20 aminoácidos;
• codons distintos podem codificar o mesmo aminoácido (sinônimos)
Humano (Homo sapiens)
AAG – 58% AAA – 42%
Camungo (Mus musculus)
AAG – 61% AAA – 39%
Codon Usage bias
Diferença na frequência de ocorrência de
codons sinônimos
Característica Evolutiva: Otimização
da tradução em diferentes espécies
Relacionado à maquinaria de
tradução (pool de tRNAs)
Codon Usage para Lisina:
Bactéria Sdy (Shigella dysenteriae)
AAG – 25% AAA – 75%
Bactéria Eco (Escherichia coli)
AAG – 26% AAA - 74 %
18. Abordagens
• Avaliação da não aleatoriedade
da distribuição de nucleotídeos
– Composição de nucleotídeos na
terceira posição do codon em
uma região codificadora
• Dois métodos consistentes (podem
ser usados em conjunto)
– GC bias (viés na composição de GC)
» G/C > A/T (Maior composição
de GC)
– TESTCODE [GCG package]
» Nucleotídeos na terceria
posição do codon tendem a se
repetir primeiras abordagens
19. Modelo de Markov (cadeia de
Markov)
• Teoria das probabilidades
– modelo de Markov é um modelo estocástico
usado para modelar sistemas que mudam
aleatoriamente.
• Modelagem de Processos estocásticos: processos não
determinísticos, em que há flutuação de estados
seguem uma determinada distribuição de
probabilidades com relação, em geral, ao tempo.
– Cadeias de Markov
» Estados discretos
» A distribuição de probabilidade do próximo estado
depende apenas do estado atual e não na sequência
dos que o precederam.
• Suposição: os estados futuros dependem apenas do
estado atual, não dos eventos que ocorreram antes
dele.
Cadeia de
Markov simples
2 estados (A e E)
e as
probabilidades
associdas à
transição de
estados
21. Cadeia de Markov para sequências
biológicas
• Cada caracter (letra) representando um estado e
ligado a outro com uma probabilidade de
transição.
22. Ordem em Modelos de Markov
• Um modelo de Markov descreve a probabilidade de uma distribuição de
nucleotídeos (ou aminoácidos) em uma sequência, no qual a probabilidade
condicional de uma posição particular, depende das k posições anteriores
(ordem).
• sequence position depends on k previous positions.
• zero-order Markov model
– A probabilidade de um estado independente do estado anterior;
• Descreve uma sequência aleatória, em que cada resíduo ocorre com a mesma frequência;
• first-order Markov model
– A probabilidade de um estado dependente do estado imediatamente anterior;
• Descreve uma sequência com dois resíduos ligados, ocorrendo simultâneamente (ex.: ilhas CpG);
• second-order Markov model
– A probabilidade de um estado dependente dos dois estados anteriores;
• Descreve uma sequência com três resíduos ligados, ocorrendo simultâneamente (ex.: códons);
– Em sequências codificadoras de proteínas, a frequência de ocorrência de trímeros únicos deve ser distinta
de uma região não codificadora ou mesmo uma sequência aleatória.
• higher orders of Markov models
– A probabilidade de um estado dependente dos k estados anteriores;
– Quanto mais longo é o oligômero (k), menos aleatória é a sequência, mais acurada é a
identificação
• Descreve uma sequência complexa (ex.: predição gênica)
24. Hidden Markov Models
• Nos modelos de Markov, todos os estados em
uma sequência linear são diretamente
observáveis.
– Podem haver estados não observáveis que
interferem nas transições.
– Modelos mais sofisticados: HMMs
• Combina dois ou mais cadeias de Markov, com somente
uma cadeia consistindo de estados observáveis e outra
com estados não observáveis com influência no
processo
25. Exemplo de HMMs
• Exemplo: Alinhamento com Gaps
– Gaps não correspondem a resíduos observáveis, mas
claramente influenciam na transição entre estados observáveis.
26. Probabilidades
• Probabilidade de Transição
– Em um HMM, assim como em uma cadeia de Markov, a probabilidade de transitar de um estate a outro (transition
probability).
• Probabilidade de Emissão
– Cada estado pode ser composto por um conjunto de elementos ou símbolos. Sequência de nucleotídeos, há 4
símbolos: A, T, G e C em cada estado. Para aminoácidos, são 20 símbolos.
– A probabilidade associada a cada símbolo em cada estado é chamada de probabilidade de emissão (emission
probability).
• Probabilidade Total
– Para o cálculo da probabilidade total de um caminho no modelo, as transições, emissões, das camadas observáveis,
assim como das camadas escondidas (“hidden”) devem ser levadas em conta.
HMM simples para representar (ou gerar)
uma sequência
28. PROkaryotic DYnamic programming
Gene-finding ALgorithm
• Conjunto de genomas curados
• Aprendizado das propriedades desses genomas
– Uso preferencial de codons
– Motivo RBS
– Viés no GC
– Estatísticas de hexâmeros
– …
• Utiliza programação dinâmica e um sistema de
escore baseado no parâmetros aprendidos com
os genes identificados nos genomas curados
30. Estrutura gênica em Eucariotos
• Genomas nucleares são muito maiores que os de procariotos
– 10 Mbp a 670 Gbp (1Gbp = 109 bp(
– Baixa densidade gênica
• Humanos ~3% do genoma codifica genes, com 1 gene a cada 100 kbp em média.
• Regiões intergênicas ricas em elementos repetitovos e elementos transponíveis
– Gene é estruturado como um mosaico de peças que se combinam chamadas
exons e separadas por regiões intragênicas (introns) que não são
codificadoras.
– Após a transcrição, o transcrito primário sofre processamentos para se obter
um RNA maduro
• 5' CAP (metilação do resíduo inicial do transcrito - RNA);
• Encadeamento de exons (Splicing) - Complexo de RNA-proteínas: Spliceosome;
– Podendo ocorrer um encadeamento alternativo de exons - Alternative Splicing;
» Diversidade de proteínas a partir de um mesmo gene
• Poliadenilação 3'
– Adição de ~250 Adeninas na porção 3' do transcrito
» Controlado por um sinal de poly-A a partir de um motivo levemente conservado com uma
sequência consenso CAATAAA(T/C).
34. Sítios canônicos de splicing
• Podem ser utilizados para delimitação das bordas exon-
intron
35. Modelos estatísticos
• Modelos estatísticos implementados para procariotos
podem também serem treinados para eucariotos
– Composição de nucleotídeos, viés de codons, frequência
de hexâmeros, etc.
• diferencial com relação às regiões não codificadoras.
• Maioria dos vertebrados utilizam a trinca ATG como
codon de início de tradução e têm uma sequência
conservada chamada de Kozak.
• Há uma alta densidade de dinucleotídeos CG próxima
ao sítio de início de transcrição, chamadas de ilhas
CpG ( o p indica ligação fosfodiéster ), isso contribui
para identificação deste sítio
36. Sítios de reconhecimento
(eucariontes)
• A decisão pelo uso de um determinado
códon AUG fica dependente de sua
proximidade com o cap da extremidade
5' do mRNA.
– Os nucleotídeos próximos ao AUG
funcional também têm influência e uma
sequência de consenso em mamíferos já
foi identificada (sequência Kozak - 5'-
ACCAUGG-3' para o códon de iniciação;
• A base A inicial desta sequência parece ser
muito importante para o início da síntese
protéica).
• Se o ribossomo não identificar o primeiro
AUG na sequência, ele poderá seguir até o
segundo ou o terceiro. Isto produz
proteínas diferentes a partir de um único
transcrito. em geral com o mesmo quadro
de leitura (ver mais adiante o significado
desta expressão), mas sem os primeiros
aminoácidos.
Gráficos logo 954 sequências de mRNA bovino
[Harhay et al., 2005]
Quanto maior é a entropia
das bases em determinada
posição, menor é a altura das
letras.
37. Ilhas CpG
• Região do genoma com alta frequências de dinucleotídeos CG
comparada ao resto do genoma
– Possui ao menos 200bp e porcentagem de GC maior que 50%
– Frequentemente estão no início de um gene
– As Citosinas podem estar metiladas
• Regulação da transcrição
39. Ferramentas ab-initio
• Baseiam-se em características das sequências
– sinais gênicos
• sítios canônicos de splicing
• start e stop codon
• sinal de poli-A
• ...
– conteúdo gênico
• Estatística
– distribuição não-aleatória de nucleotídeos
– frequência de hexâmeros
– ...
• Exemplos
» HMM
» Redes Neurais
» Análise Discriminante
40. Predição usando HMM
• GENSCAN
– http://hollywood.mit.edu/GENSCAN.html
– HMM de quinta ordem
• Frequência de hexâmeros
• sinais gênicos (codons de iniciação, TATA box, sinal poli-A , etc)
– Exons putativos ganham um score (P) representando a
probabilidade de ser um exon verdadeiro
• P > 0,5 como confiável
• exons are assigned a probability score (P) of being a
– Treinado com sequências de vertebrados, Arabidopsis e
milho.
• Extensivamente usado para identificação de genes humanos
45. Predição usando homologia
• Baseados no fato de que as estruturas e
sequências de exons são altamente conservados
entre espécies relacionadas.
– Assume que as sequências estão corretas
• Sequências de cDNA da mesma espécie ou proteínas da
mesma espécie ou e espécies relacionadas
• Evidência experimental
– Restrições
• Necessita de sequências homólogas no banco de dados
• Novos genes em novas espécies não podem ser detectadas
46. Ferramentas que utilizam homologia
• GenomeThreader
– http://genomethreader.org/
– Baseado em similaridade cDNA/EST e/ou sequências de proteínas
– Bayesian Splice Site Models (BSSMs)
• GenomeScan
– http://hollywood.mit.edu/genomescan.html
– Combina resultado do GENSCAN com similaridades usando BLAST
– O usuário provê sequência de DNA genômico e proteínas de espécies relacionadas.
– O DNA genômico é traduzido nos 6 quadros de leitura para obter as possíveis ORFs e então
essas sequências traduzidas são comparadas com as sequências de proteínas.
• EST2Genome
– http://www.bioinformatics.nl/cgi-bin/emboss/est2genome
– Utiliza alinhamentos de sequências de cDNA com DNA genômico para determinar bordas
exon-intron
– Vantagem: Não necessita treinamento de modelo
– Desvantagem: Sequências de fragmentos de cDNA frequentemente contêm erros e introns
podem também não terem sido eliminados antes da etapa de transcrição reversa
47. Utilização de suporte de dados de
RNA-Seq
• Exemplo
– Fgenesh++R
• Combina ab-initio
(Fgenesh++) e
mapeamento de
dados RNA-Seq
49. Abordagens Consenso
• Utilizam uma combinação de diversas evidências
– Abordagens por homologia
• Mapeamento de sequências
– Proteínas
– trechos de sequêncis de cDNA
– leituras RNA-Seq
– Abordagens ab-initio
• Múltiplos programas
– HMM
– Rede Neural
– LDA ou QDA
– Coordenadas gênicas
50. BRAKER2
• BRAKER2 é uma extensão do BRAKER1 o qual
permite uma automatização do treinamento de
preditores gênicos GeneMark-EX e AUGUSTUS a
patir de dados de RNA-Seq e/ou informação de
homologia, e capaz de integrar essas evidências
na predição.
52. Avaliação de Performance
• Sensibilidade
• Especificidade
Sensibilidade alta mas especificadade baixa
predição excessiva (overpredict)
Sensibilidade baixa mas especificade baixa
conservador (conservative) - menor poder
de predição
53. Coeficiente de correlação
• Único parâmetro que combina sensibilidade e
especificidade para uma medida de acurácia
– Variação de -1 a +1
• -1 significa predição sempre incorreta
• +1 significa predição sempre correta
56. Conclusão
• As análises de Bioinformática contribuem para
estimar um resultado, a avaliação e decisão
acerca desta estimativa é tarefa do
analisador/avaliador, portanto, ele deve reunir
o máximo de evidências para afirmar o
resultado.
57. Referências
• Xiong, J. (2006). Essential bioinformatics. New
York: Cambridge University Press.
• Guigó, R., Agarwal, P., Abril, J. F., Burset, M., &
Fickett, J. W. (2000). An assessment of gene
prediction accuracy in large DNA sequences.
Genome research, 10(10), 1631–1642.
doi:10.1101/gr.122800