Sequenciamento, Montagem e
Anotação de genomas
Ana Carolina Ramos Guimarães
Laboratório de Genômica Funcional e
Bioinformática
Instituto Oswaldo Cruz – Fiocruz
E-mail: carolg@fiocruz.br
• É o processo de determinação da ordem precisa de nucleotídeos na
molécula de DNA/cDNA.
• Inclui qualquer método ou tecnologia que é usada para determinar a
ordem das quatro bases nitrogenadas: Adenina, Guanina, Citosina e
Timina
• Com o advento de métodos rápido de sequenciamento de DNA, grandes
descobertas e pesquisas médicas e biológicas tem sido aceleradas na
última década.
*** Não devemos esquecer que é possível sequenciar o RNA “via” DNA ***
Sequenciamento DNA/cDNA
Métodos Gilbert X Sanger
• Os dois métodos são baseados na produção de um conjunto de fitas
simples de DNA que são separadas pelo princípio de eletroforese
Maxam e Gilbert (1976-1977)
(Método de degradação química)
-Tratamento com substâncias
químicas que cortam a
molécula de DNA em nucleotídeos
específicos
Sanger et al. (1977)
(método enzimático)
-Síntese enzimática de uma fita
complementar, cujo
crescimento é interrompido pela
adição de um
dideoxinucleotídeo
Adição de nucleotídeos modificados
(didesoxiribonucleotídeos)
 impedem o crescimento de um
fragmento de DNA em replicação
pela DNA polimerase
 Premio Nobel 1980
Métodos Sanger
• Leitura (após autoradiografia a
ordem dos nucleotídeos, pode
ser visualizada, porém, esta
será complementar ao molde)
• Vantagens: reads longos
(~900bps)
• Desvantagens: baixo
rendimento, alto custo
• DNA molde + dNTPs e ddNTPs + DNApolimerase + Primer
• Amplificação-PCR (4 reações: uma para cada base ddNTP marcadas
radioativamente)
• Eletroforese em Gel de acrilamida (fragmentos migram distâncias proporcionais
ao seu tamanho, de acordo com a posição e o ddNTP incorporado)
Métodos Sanger
• O princípio é o mesmo do sequenciamento manual feito por Sanger.
• ddNTPs são marcados por fluorescência característica, permitindo a
distinção das cadeias truncada pela respectiva fluorescência.
• Feita a eletroinjeção onde as moléculas de DNA(-) em suspensão são
introduzidas nos capilares.
• Cada fragmento, recebe um feixe de laser de argônio, que será
detectado por um sistema óptico e uma câmara de CCD.
• A ordem em que os diferentes fragmentos passam pelo detector de
fluorescência indica a sequência da cadeia de DNA complementar à
cadeia usada como molde.
Sequenciadores automáticos
Sequenciadores automáticos
PCR
Sequenciamento
PCR x sequenciamento
Por que sequenciar um genoma?
• O sequenciamento de genomas é o primeiro passo para obter uma
descrição completa da composição molecular de cada organismo,
pois todas informações necessária para construção estão presentes
no DNA genômico (Entretanto a interpretação estas informações
ainda é um problema)
• Comparação de genomas de diversos indivíduos permitira
correlacionar características e síndromes com mutações de
determinados locus do genoma (mesmo que não tenhamos idéia da
função deste locus)
• Comparações entre genomas de espécies próximas permite o
melhor entendimento dos mecanismos de evolução de genomas
• Um melhor conhecimento do genoma permite com que
manipulemos este com maior facilidade
Sequenciamento de genomas
É possível notar que não há uma correlação direta entre tamanho
do genoma e complexidade do organismo
Tamanho dos genomas
• Genomas possuem grande numero de bases em seu genoma (105 a
1012) e ate o momento as técnicas existentes de sequenciamento
conseguem amostrar apenas algumas centenas de bases por reação.
• Deste modo, o genoma tem que ser sequenciado de forma
descontinua com milhares de reações sendo realizadas em paralelo
para obtenção da informação necessária
• Isto gera uma grande quantidade de sequências derivadas do
genoma que se apresentam de forma desconexa, visto que não
existe nenhuma propriedade intrínseca que permite a ordenação
inequívoca destas
• Deste modo um dos grandes desafio ao sequenciar genomas é a
montagem destas sequencias de modo que elas possam reproduzir a
ordenação encontrada nos cromossomos
Sequenciamento de genomas
• Sequenciamento de clones: DNA é
cortado em fragmentos grandes
(utilizando enzimas de restrição) e
clonado em BACs (Cromossomo
Artificial de Bactéria), que aceitam
fragmentos de até ~200 mil bases
• Após isso são selecionados clones que
são separadamente cortados (por
nebulização) e sub-clonados em
plamideos.
• Sequenciamento destes sub-clones
permitirá a reconstituição do clone do
BAC
• Apesar te ter sido a técnica de
referencia no inicio de
sequenciamento de genomas, não é
mais utilizada com frequência.
Estratégias de sequenciamento de genomas
• Whole Genome Shotgun (WGS):
• O genoma inteiro é picotado em
pedaços e clonado em plasmideos. São
realizada clonagens de fragmentos
maiores em vetores apropriados (BACs,
Fosmideos, etc..) mas somente as
pontas são sequenciadas.
• Sequenciamento das duas extremidade
de cada clone é realizada e utilizando a
informação de sequência e a
estimativa de distancia entre as duas
pontas do clone busca-se montar o
genoma inteiro
• Devido ao caráter randômico de
seqüenciamento utilizando a técnica
de WGS é necessário seqüenciar uma
quantidade de bases muito maior do
que o numero de bases do genoma
(pelo menos 8X mais) devido a
redundância do sequenciamento
Estratégias de sequenciamento de genomas
• Durante décadas o método de Sanger foi praticamente a única
opção utilizada para sequenciamento de DNA
• Nos últimos anos surgiram novas tecnologias de sequenciamento
em larga escala que foram denominadas como “Next-Generation
Sequencing” (NGS)
• Apesar de serem apresentadas como um conjunto as varias
tecnologias que fazem parte do NGS apresentam principio bem
diferentes
• Em comum elas tem a paralelização de diversos processos levando a
analise simultânea de milhares de moléculas :
Sanger ~104
nucleotídeos sequenciados/corrida,
NGS ~108-10
nucleotídeos sequenciados/corrida
Next Generation Sequencing (NGS)
• Organismos mais complexos tendem a possuir genes com um alto
numero de éxons. Além disso, o genoma destes organismos
possuem uma alta quantidade de sequências não-codificadoras e
portanto a predição da estrutura de genes não é trivial.
• Deste modo o sequenciamento direto das moléculas de mRNA pode
fornecer informações a respeito da estrutura de um gene, pois
representa a molécula madura formada após os eventos de splicing
• Além disso, o sequenciamento de mRNA permite a amostragem
direta das sequências codificadoras permitindo com que um menor
volume de sequenciamento se obtenha maior informações sobre as
proteínas deste organismo
Sequenciamento de transcriptomas
• Após o isolamento das
moléculas de mRNA é
realizada a reação de
transcriptase reversa que irá
gerar um fita de cDNA a partir
de um mRNA molde.
• Normalmente esta transcrição
é realizada com um oligo-dT
como primer o que permite
com que o mRNA interio seja
transcrito
• Os cDNA produzidos são
clonados e o conjunto de
plasmideos produzidos é
denominado biblioteca
Sequenciamento de transcriptomas
• Entretanto a abundancia de diferente mRNAs em uma célula varia
muito. Existem alguns poucos mRNAs que possuem um numero de
moléculas até 1000 X maior que a maioria dos mRNAs.
• Deste modo, sequenciamentos de bibliotecas de mRNAs tendem a
amostrar muito umas poucas moléculas e pouco um conjunto
grande
• Além disso, nem todos os mRNA vão estar sendo expressos em um
único tecido ou fase de vida do organismo e por isso para obter uma
descrição completa dos mRNAs de um organismos vários destes
deverão se amostrados
• Devido ao fato das sequências de RNA serem derivadas de
sequências genomicas é possível utilizar ferramentas de
alinhamento para deduzir a origem da sequência de RNA.
• Com isso é possível definir a estrutura de introns e exons de um
gene.
Sequenciamento de transcriptomas
Íntrons x Éxons
Splicing alternativo
Geração de várias proteínas a partir de um único gene
número de proteínas > número de genes
Sequenciamento de transcritos permite a dedução de eventos de splicing
alternativo a partir do mapeamento deste nas sequências de DNA genômico
Gerações de Sequenciadores
Gerações de Sequenciadores
3ª Geração
(single molecule)
Single Molecule Real Time – SMRT
(Pacific Bioscience)
HeliScope (Helicos Bioscience)
454 (Roche)
2ª Geração
(amplificação clonal)
SOLiD (Life Technologies)
HiSeq2000, HiSeq2500, MiSeq
Illumina
Ion Torrent- PGM, Proton
(Life Technologies)
GridION-Oxford Nanopore
4ª Geração
(Post-Light)
1ª Geração
(clonagem)
Sanger
Custo
Genomas sequenciados
GOLD (07/2015)
Gerações de Sequenciadores
3ª Geração
(single molecule)
Single Molecule Real Time – SMRT
(Pacific Bioscience)
HeliScope (Helicos Bioscience)
454 (Roche)
2ª Geração
(amplificação clonal)
SOLiD (Life Technologies)
HiSeq2000, HiSeq2500, MiSeq
Illumina
Ion Torrent- PGM, Proton
(Life Technologies)
GridION-Oxford Nanopore
4ª Geração
(Post-Light)
1ª Geração
(clonagem)
Sanger
1ª Geração - Método de Sanger
 Automação do
Sequenciamento
ABI PRISM 370 (1987)
Leroy Hood
 ANOS 80 - Substituição das técnicas de detecção por radioatividade
pelo uso de marcadores fluorescentes
•Radioisótopos – danosos à saúde, dificuldade de automação
•Fluorófos – sistema de detecção que permite a leitura automática das
sequências
• Preparação do gel e aplicação das amostras
• Utilização ddNTPs fluorescentes lidos automaticamente
durante a eletroforese
• Corantes fluorescentes – reações no mesmo poço no gel
1ª Geração - Método de Sanger
 ANOS 90 - Sequenciadores de capilares
• Duas vezes mais rápidos
• Completamente automatizados
• Associação de capilares preenchidos com gel a um sistema de detecção
através de fluorescência confocal excitada por laser
• Eliminação da montagem da placa e preparação do gel
• Aplicação das amostras por eletroinjeção
• Alta velocidade e resolução na separação das amostras
1ª Geração - Método de Sanger
Formato de saída-AB1
Formato de saída-AB1
Formato de saída-AB1
NNNNNNNNNNNNNNNNNNNNNNTCTCTTATATANNATT
CCCGCCTTCNNTAAAGTATGCAAATAATGTCTGGTTTTA
AAGTAATGATTAACTGCATGCTCAGGATAATAGGGTTTG
ATGCCTTTATCCATGGGAAAATATTTGGTAACCTTAGGA
TAAAATCTAGCTGGCATAACCAATTTTAATCTTCGTAATT
CATTTTTAGTAAGTGGGCCTACAAATTGTTCACATTTAG
AAATCAGGTCTTGATGCAAATGAATATTAGGAAAAGAAG
NANTGNACCAGTTAGGATTAAAAGCAGGCACAGTAGAA
GAGTAAAGCCCCGTAAAGTTTCCCACCTTATGAGTCCA
AGGAATACTAACATTGGNAAGCTGGAGATTGAGATCTG
CGGCGACGCGGTGATTGAGATCTTCGTCTGCGAGGN
GAGNNAGTTCTTCTNCTAGGGGACCTGCCTCGTCGNC
TAACAACAGTAGTTTCCGGAAGTGTGNATAGGATAGGG
GCNTTTGGTGGTCTGTANGCAGGANGAGTGCGAATCN
NCACTCNNAAGGACACCAAATACTCTAGNACTGTNCTC
TTCCAAAAGTAAGGCAGGAAATGTGANNNNACANCAG
NNGTCTANNTTNNNNNNNNNNNNNNNNAACNTAGNNA
ACTACTAAANCCCTANCTNNNNCNNNNCANNNNNNNN
NNCNCCCNAGNNNGCNANNNNCATNNCCTNNNNCNN
NANANNNNNNANNNTNNCTNNNNNCCNTNNNGNNNN
NAANNNNNNANNNNCAGNNNANNNNNNNNNNNNNNN
NNAANNNNNNNNNNNNNNNTNNNNNANNNNNNNNNN
NNGGNNNANNCANNNNNN
Formato de saída-SEQ
A = adenina
C = citosina
G = guanina
T = timina
U = uracila
R = G A (purina)
Y = T C (pirimidina)
K = G T (ceto)
M = A C (amino)
S = G C (ligações de hidrogênio fortes)
W = A T (ligações de hidrogênio fracas)
B = G T C (todos, menos A)
D = G A T (todos, menos C)
H = A C T (todos, menos G)
V = G C A (todos, menos T)
N = A G C T (qualquer nucleotídeo)
NGS x Sanger
Gerações de Sequenciadores
3ª Geração
(single molecule)
Single Molecule Real Time – SMRT
(Pacific Bioscience)
HeliScope (Helicos Bioscience)
454 (Roche)
2ª Geração
(amplificação clonal)
SOLiD (Life Technologies)
HiSeq2000, HiSeq2500, MiSeq
Illumina
Ion Torrent- PGM, Proton
(Life Technologies)
GridION-Oxford Nanopore
4ª Geração
(Post-Light)
1ª Geração
(clonagem)
Sanger
NGS - Biblioteca
NGS - Amplificação
454 – Pirossequenciamento
(sequenciamento baseado em síntese)
2ª Geração - 454
2ª Geração - 454
• Síntese de DNA ocorre através de um complexo de reações que inclui
enzimas (ATP sulfurilase e luciferase) e substratos (adenosina 5’
fosfossulfato e luciferina).
• Quando um novo nucleotídeo é incorporado em uma cadeia
crescente de DNA, pirofosfato é gerado de maneira estequiométrica,
resultando na produção de ATP. O ATP produzido leva à conversão
enzimática da luciferase com emissão de fótons.
• A adição de dNTP é realizada sequencialmente. Assim, é possível
fazer a leitura de cada nucleotídeo específico.
2ª Geração - 454
*dNTP – só um deles
Leitura a partir de uma combinação de reações enzimáticas
1) Liberação de um pirofosfato, oriundo da adição de um desoxinucleotídeo à cadeia.
2) Pirofosfato é convertido para ATP (ATP sulfurilase), utilizado pela luciferase para oxidar a luciferina,
produzindo um sinal de luz capturado por uma câmera CCD (charge-coupled device) acoplada ao sistema.
2ª Geração - 454
2ª Geração - 454
Ilumina - Solexa
(sequenciamento baseado em síntese)
2ª Geração - Ilumina
Inovação dessa plataforma consiste na clonagem in vitro dos fragmentos em uma plataforma sólida de
vidro, processo também conhecido como PCR de fase sólida
2ª Geração - Ilumina
Maridis Annu. Rev. Genome. Human Genet. 2008
DNA fragmentado randomicamente e ligado a adaptadores
nas duas extremidades do fragmento
Superfície de clonagem dividida em oito linhas
Adaptadores fixados em 5’
Fragmentos de DNA da amostra ligados aos adaptadores
em ambas as extremidades, fixando ao suporte por
hibridização a um dos adaptadores fixados
Amplificação: 1º ciclo - nucleotídeos não marcados para
síntese da segunda fita. Após o ciclo de anelamento, o
fragmento forma uma estrutura em “ponte” na superfície
de sequenciamento e a extensão ocorre, formando a fita
complementar também em “ponte”.
2ª Geração - Ilumina
Maridis Annu. Rev. Genome. Human Genet. 2008
Fitas são separadas e linearizadas
Repete-se a etapa de anelamento,
formando novas estruturas em ponte
e iniciando um novo ciclo de
amplificação.
Após uma série desses ciclos, serão
obtidos clusters de moléculas
idênticas ligadas ao suporte
Com a incorporação de nucleotídeos terminadores marcados é gerado sinal, lido e
interpretado como um dos quatro possíveis nucleotídeos componentes da cadeia
A leitura é feita de forma sequencial, o que permite a montagem da sequência
completa de cada cluster.
2ª Geração - Ilumina
SOLID
(sequenciamento por hibridação)
2ª Geração - SOLID
No sistema SOLiD diferentemente dos demais processos, a reação de sequenciamento é catalisada por
uma DNA ligase, e não uma polimerase.
2ª Geração - SOLID
Biblioteca: DNA alvo é mecanicamente fragmentado em um sonicador (60-90pb,
tag única ou 1-10Kb tag dupla) e
Biblioteca tag única (single pair): Fragmentos diretamente ligados a adaptadores
universais (P1 e P2)
Bibliotecas mate-pair: Fragmentos de 1 a 10Kb são visualizados em gel para seleção
da faixa de tamanho de interesse. Selecionados, os fragmentos são ligados aos
mesmos adaptadores P1 e P2, circularizados e clivados com uma enzima de
restrição que reconhece seu sítio no adaptador e cliva adiante, liberando
fragmentos formados por: 27 bases de uma região, mais a sequência dos
adaptadores e mais 27 bases adicionais de outra região que está separada da
primeira pela distância utilizada no intervalo de seleção dos fragmentos.
- Os fragmentos gerados e ligados ao adaptador P1 que se liga especificamente a
uma microesfera.
- Sequenciamento ocorre por hibridização de sondas fluorescentes com o alvo em
cinco etapas distintas:
Maridis Annu. Rev. Genome. Human Genet. 2008
2ª Geração - SOLID
Na primeira etapa, o primer (n) é utilizado, liberando as primeiras bases da
sequência alvo para hibridização com a sonda.
2ª Geração - SOLID
Uma das sondas do pool encontrará similaridade ao alvo ligando-se a ele.
2ª Geração - SOLID
O sinal de fluorescência é lido
2ª Geração - SOLID
As três últimas bases da sonda, incluindo o fluoróforo, são removidas
2ª Geração - SOLID
Inicia-se o segundo ciclo de hibridização e assim
sucessivamente
2ª Geração - SOLID
Até que o alvo seja todo coberto (35pb).
2ª Geração - SOLID
A sequência fita dupla é desnaturada, e uma nova etapa de
sequenciamento é iniciada com o primer (n-1).
2ª Geração - SOLID
Novas etapas de sequenciamento com os primers (n-2), (n-3), e (n-4)
são realizadas para que toda a sequência alvo seja determinada.
2ª Geração - SOLID
3ª Geração
(single molecule)
Single Molecule Real Time – SMRT
(Pacific Bioscience)
HeliScope (Helicos Bioscience)
454 (Roche)
2ª Geração
(amplificação clonal)
SOLiD (Life Technologies)
HiSeq2000, HiSeq2500, MiSeq
Illumina
Ion Torrent- PGM, Proton
(Life Technologies)
GridION-Oxford Nanopore
4ª Geração
(Post-Light)
1ª Geração
(clonagem)
Sanger
Gerações de Sequenciadores
Helicos
(sequenciamento de molécula única)
3ª Geração - Helicos
3ª Geração - Helicos
Amostras de DNA são:
cortadas em fragmentos mais curtos
desnaturados para cadeias simples
marcados com um (A cauda 3 ' poli)
e um terminal transferase + dATP-F
Hibridados com a superfície por meio
de poli ( T )
3ª Geração - Helicos
Moldes mapeados
marcas fluorescentes são removidas
Sequenciamento por síntese : nucleotídeos
fluorescentes ( C, G , T , ou A ) são
adicionadas uma base por ciclo e
incorporadas na cadeia complementar
de um modo dependente do molde.
Nucleotídeos Não incorporados são
lavados
Imagem da adição de base e seqüência
de DNA. As marcas fluorescentes são então
clivados , e a base seguinte é adicionado
para continuar o ciclo
3ª Geração - Helicos
PacBio
(sequenciamento de molécula única)
3ª Geração - PacBio
Permite a observação em tempo real da síntese de DNA pela polimerase. Maior faixa de leitura do que
qualquer outra tecnologia, com média de 8000 pares de bases, com alguns fragmentos maiores que
30.000 pb.
3ª Geração - PacBio
Biblioteca de fragmentos de DNA dupla fita (250bp - 10Kbp) ligados à adaptadores
(SMRTbells™).
Primers são hibridizados com os adaptadores e então se ligam com polimerases.
Adaptadores tornam os fragmentos de DNA de fita dupla em moldes circulares no qual
a polimerase vai continuar a funcionar até que se torne inativa ou até o final do período de
observação.
Uma corrida contendo múltiplas passagens em torno desse molde circular, pode ser
condensada em uma sequência consenso de maior precisão.
3ª Geração - PacBio
Sequenciamento feito em um chip, com uma DNA Polimerase ativa
com uma única molécula de DNA molde imobilizada
no fundo onde a luz pode penetrar e criar uma câmara de
visualização que permite monitorar a atividade da polimerase
Sinal de um nucleótido fluorescente incorporada pela polimerase
detectado no sequenciamento em tempo real .
3ª Geração - PacBio
Gerações de Sequenciadores
3ª Geração
(single molecule)
Single Molecule Real Time – SMRT
(Pacific Bioscience)
HeliScope (Helicos Bioscience)
454 (Roche)
2ª Geração
(amplificação clonal)
SOLiD (Life Technologies)
HiSeq2000, HiSeq2500, MiSeq
Illumina
Ion Torrent- PGM, Proton
(Life Technologies)
GridION-Oxford Nanopore
4ª Geração
(Post-Light)
1ª Geração
(clonagem)
Sanger
IonTorrent
(sequenciamento por síntese)
4ª Geração - IonTorrent
Sequenciamento baseado na detecção de íons de hidrogênio que são libertados durante a polimerização
do DNA.
A incorporação de desoxirribonucleótido trifosfato numa cadeia
crescente provoca a libertação de hidrogênio e de pirofosfato .
4ª Geração - IonTorrent
Micropoço sensível a íons. Todas as camadas estão contidos dentro
de um chip semicondutor
Cada íon hidrogênio liberado aciona o sensor. A série de impulsos
eléctricos transmitidos a partir do chip a um computador é traduzido
para uma sequência de DNA
4ª Geração - IonTorrent
4ª Geração - IonTorrent
4ª Geração - IonTorrent
4ª Geração - IonTorrent
4ª Geração - IonTorrent
NanoPore
(sequenciamento por síntese)
4ª Geração - NanoPore
Sequenciamento que passa polímeros intactas de DNA através de um nanoporo
4ª Geração - NanoPore
A teoria por trás do sequenciamento por nanoporo é que, quando um
nanoporo é imerso num fluido condutor e um potencial (voltagem ) é
aplicado, uma corrente elétrica devido à condução de íons através do
nanoporo pode ser observada .
A quantidade de corrente é muito sensível ao tamanho e à forma do
nanoporo. Se os nucleotídeos individuais (bases) passam através ou
perto do nanoporo , pode criar uma mudança característica na
magnitude da corrente através do nanoporo .
4ª Geração - NanoPore
4ª Geração - NanoPore
Explosão de genomas
• Ironicamente, apesar do sequenciamento ter se tornado mais
fácil, o processo de extrair conhecimento dos dados gerados
tornou-se mais desafiador
Explosão de dados
GOLD <http://genomesonline.org>
• Ordenação dos trechos de DNA sequenciados para obtenção
da sequência original.
• Inclui verificação da qualidade das bases, marcação de
vetores, comparação entre clones e formação de contíguos
até se obter o final.
Montagem de genomas
Nature Biotechnology 30, 330–331 (2012)
Montagem de genomas
Montagem de genomas
• Quebrar o DNA original em fragmentos aleatórios e
selecionar os fragmentos de determinado tamanho
(Ex: 2Kbp)
Não sabemos a posição de cada fragmento no genoma
Whole Genome Shotgun (WGS)
84
singlet
gap
DNA original
WGS - Montagem
• Read: Fragmento sequenciado
• Contig: Pedaço contíguo de sequência formado a partir da
sobreposição dos reads
• Singlet: Read sem sobreposição com nenhum outro
• Gap: Região do genoma não capturada por nenhum read
• Cobertura: Total de bases sequenciadas dividido pelo tamanho do
genoma
Termos da Montagem
• Reconstruir a sequência do genoma, dados vários (potencialmente
milhões) fragmentos curtos de sequência (os reads)
• Os reads têm tamanho entre 35-800 bp
• Os reads podem conter erros de sequenciamento (mismatches ou indels)
• A orientação (5`3` ou 3`5`) de cada read é desconhecida
WGS - Montagem
Tamanho dos genomas
• Total de pares de bases em reads dividido pelo tamanho do genoma
Ex: Genoma de 1Mbp
5 milhões de reads de 50bp
Cobertura = (5000000 * 50) / 1000000 = 25X
• Na prática, corresponde a quantas vezes, em média, cada base do
genoma foi sequenciada
• É preciso ter várias coberturas para conseguir montar contigs grandes
(oversampling)
• Sanger: 8X a 10X
• 454 Titanium (pirosequenciamento): 15X
• Solexa: > 50X
Cobertura
• Número de contigs
• Tamanho médio dos contigs
• Tamanho do maior contig
• N50: maior N tal que 50% do total de pares de base do genoma esteja
contida em contigs >= N bp
Ex: Seja uma montagem de um genoma de 300 bp que produziu 8 contigs
de tamanho (3, 3, 15, 24, 39, 45, 54 e 117)
Ordenar os contigs em ordem decrescente de tamanho e ir somando um
por um
Quando a soma ultrapassar 150 (300/2), o tamanho do contig da vez é o
N50
Os dois maiores contigs (117+54=171) ultrapassam 150. Logo N50=54
(tamanho do segundo maior contig)
Avaliação da Montagem
• Três categorias (baseadas em grafos)
• Greedy graphs
• estrutura implícita de grafos de sobreposições;
• Overlap/Layout/Consensus (OLC)
• grafo de sobreposições;
• de Bruijn Graphs (DBG)
• grafo de sobreposição de sufixo-prefixo de k-mers;
Algoritmos da Montagem
O que é um grafo?
Grafo é uma estrutura G(V, A) onde V é um conjunto não vazio de
objetos denominados nós ou vértices (nodes/vertices) e A é um
conjunto de pares não ordenados de V, chamado arestas ou arcos
(edges/arcs).
1 1
2 3
4 4
5 5
6 6
2 3
Grafo direcionado Grafo não direcionado
Grafo
Nós (vértices): V = {U, V, W, X, Y, Z}
Arestas (arcos): A = {a, b, c, d, e, f, g, h, i, j}
Representação simplificada de um grafo qualquer
• Operação básica: dada alguma read ou contig, adiciona uma ou mais read ou
contigs (mais similares uns aos outros) de forma progressiva até que não haja
mais operações possíveis;
• Estrutura implícita de grafo, em que somente são consideradas as arestas
com alto score;
• Deve ter mecanismos para lidar com sobreposições falsas.
• Sobreposições de regiões repetitivas podem ter score alto e levar a erros
na montagem.
I - reads 1 e 2 (score 200)
II - reads 3 e 4 (score 150)
III - reads 2 e 3 (score 50)
Greedy
• Baseados em grafos do tipo Greedy:
• SSAKE (http://www.bcgsc.ca/platform/bioinfo/software/ssake)
• genomas
• Solexa
• (Warren, R.L. et al., 2007)
• SHARCGS (http://sharcgs.molgen.mpg.de/)
• genomas
• Solexa
• (Dohm, J.C. et al., 2007)
• VCAKE (http://sourceforge.net/projects/vcake/)
• genomas
• Solexa
• (Jeck, W.R. et al., 2007)
Softwares montadores (Greedy)
• Três passos:
• 1º detecção de sobreposição;
• Alinhamento pareado entre todas as leituras – identificação dos pares com melhor
match (alinhamento global + heurísticas [e.g. seed & extend]);
• 2º layout dos fragmentos (montagem do contig);
• Construção e manipulação do grafo de sobreposição (Analisar/Simplificar/Limpar);
• Caminho Hamiltoniano;
• 3º decisão da sequência (montagem do consenso);
• Alinhamento Múltiplo de Sequências – normalmente baseado na pontuação dos pares
com sobreposição (sum-of-pairs ou SP);
• Realiza ajustes no layout se necessário;
• Normalmente a frequência de um nucleotídeo em determinada posição determina a
base consenso;
Caminho Hamiltoniano – caminho que
permite passar uma única vez por todos
os nós do grafo (contig) – caminho
elementar;
Grafo de sobreposição:
nós - reads;
arestas - sobreposições;
sobreposições não consideradas – ?caminhos alternativos?
Overlap-Layout-Consensus (OLC)
• Utilizam o paradigma OLC:
• Phrap (http://www.phrap.org/)
• genomas
• Sanger, 454
• (Green, P., 1994 - unpublished)
• CAP3 (http://seq.cs.iastate.edu/)
• genomas, cDNAs
• Sanger, 454
• (Huang, X. and Madan, A., 1999)
• MIRA (http://sourceforge.net/projects/mira-assembler/)
• genomas, cDNAs
• Sanger, 454, Solexa
• (Chevreux, B. et al., 1999) (Chevreux, B. et al., 2004)
• Newbler (https://valicertext.roche.com/)
• genomas, cDNAs
• Sanger, 454
• Software Proprietário da Roche
Softwares montadores (OLC)
• Grafos k-mer
• nós – todas as subsequências de tamanho k;
• arestas – todas as sobreposições (k-1 bases) entre essas subsequências
que são consecutivas na sequência original;
• Pode representar as múltiplas sequências das leituras e implicitamente
as sopreposições;
aaccgg (k-mer 4):
aacc
accg
ccgg
ccggtt (k-mer 4):
ccgg
cggt
ggtt
[Miller, et al. 2009]
Caminho Euleriano – caminho que
atravessa cada aresta uma única vez
(contig) – caminho simples;
Grafo de de-Bruijn:
nó – subsequência (k-mer);
arestas – sobreposições;
Grafos de Bruijin
Em geral a montagem é um problema de redução de grafos.
• NP-difíceis, não há uma solução eficiente conhecida;
• Utilização de heurísticas: reduzir a redundância, reparar erros, reduzir a
complexidade, alargar caminhos simples e simplificar o grafo;
Vantagens
• Desenvolvidos para lidar com a alta complexidade e o grande volume de
dados dos NGS;
• Rápida detecção de k-mers compartilhados - reduz custo computacional em
relação à busca de sobreposições em alinhamentos pareados;
• Não necessita comparações pareadas (todas x todas);
Desvantagens
• Usam muita memória (tabela hash k-mers);
• Mais sensível a repetições e a erros de sequenciamento;
• baixa sensibilidade (perde algumas sobreposições verdadeiras),
dependendo do:
• tamanho de k
• tamanho da sobreposição
• taxa de erro nas leituras
Grafos de Bruijin
Tamanho de k :
• não pode ser nem muito grande, nem muito pequeno:
• grande o suficiente para não pegar falsas sobreposições que compartilham k-mers
por acaso;
• pequeno o suficiente para que muitas sobreposições verdadeiras compartilhem k-
mers;
• O DNA é fita dupla, portanto a que se ter um mecanismo para identificar a correta
orientação;
- e.g. único nó (subsequência) com dois canais de entrada/saída – forward/reverse;
• Repetições complexas (repetições em tandem, repetições invertidas, repetições
imperfeitas, repetições inseridas em outras repetições).
• Repetições maiores ou iguais a k levam a grafos complicados, que não contêm por si só
informações suficientes para resolver a ambiguidade;
- e.g. recorrer às sequências originais e possivelmente a fragmentos
mate-pairs/paired-ends;
Grafos de Bruijin
• Baseados em grafos de de-Bruijn:
• VELVET /Oases (http://www.ebi.ac.uk/~zerbino/velvet/)
• genomas, cDNAs
• Solexa, SOLiD
• (Zerbino, D.R. e Birney E., 2008)
• ABySS/Trans-ABySS (http://www.bcgsc.ca/platform/bioinfo/software/abyss
)
• genomas, cDNAs
• Solexa, SOLiD
• (Simpson, J.T, et al., 2009) (Birol, I., et. al., 2009)
Softwares montadores (de-Bruijin)
Pacote de programas para: -Leitura de cromatogramas
-Atribuição de qualidade a cada base
-Mascaramento de vetores
-Montagem de sequências
-Visualização e edição dos contigs
Phred:
-Programa que lê os arquivos dos cromatogramas, atribui uma base a cada pico
e valores de qualidade às bases.
-A qualidade Phred corresponde a um inteiro entre 0 e 99 e está associada à
probabilidade de erro de leitura. Uma base com qualidade 40 indica que o erro
é 10-4
, ou seja 1 erro a cada 10.000 bases. Desse modo, quanto maior o Phred
maior a qualidade do sequenciamento.
Phrap:
-É um programa para montagem das seqüências.
-Gera várias informações sobre os contigs, contidas em path/edit_dir:
phrap.out, *.ace and *.screen.contigs.qual files
-
Phred/Phrap/Cosed
0 0 5 6 7 10 10 9 12 15 20 20 30 30 35 40 41 45 50 56 56 50 40 ...
O programa PHRED lê o chromatograma identificando e dando uma nota para cada
base que forma a sequência :
Genome Research 8 (3) (1998), 175-
- A identificação dos picos é feita através de uma transformada de fourier do sinal
- A nota é ligada com a resolução entre os picos vizinhos e a altura do background
background
Onde q é a nota phred e P é a probabilidade encontrar uma base errada :
- Nota phred = 20 => 1 base errada a cada 100 (99%)
- Nota phred = 30 => 1 base errada a cada 1000 (99.9%)
Phred/Phrap/Cosed
Consed:
-Programa para visualização e edição dos alinhamentos produzidos pelo
Phrap.
Repeats
• Trechos de sequência repetidos ao longo do genoma
• Em procariotos: pouco frequente
• Em fungos: média quantidade
• Em algumas plantas e em vertebrados compõem a maior parte do genoma
• Desafio para qualquer software, independente do paradigma usado
a b c
a c
b
a b c d
I II III
I
II
III
a
b
c
d
b c
a b d
c e f
I II III IV
I III II IV
a d b
e c f
a
collapsed tandem excision
rearrangement
Montagem
Scaffolding
Montagem - resumo
Scaffold
Reads grandes facilitam a montagem.
Se eles forem pareados melhor ainda
• Reads longos podem atravessar repeats
• Reads paired-ends ajudam a resolver ambiguidades e
atravessar repeats maiores
Cobertura alta também ajuda, mas só até um certo ponto
• Mais precisão para determinar as bases do consenso
• Diminui as chances de haver regiões do genoma não
sequenciadas
• Regiões do genoma de cobertura atipicamente alta
provavelmente representam repeats fundidos
Montagem Comparativa
• Em algumas ocasiões, já existe um genoma de algum organismo
parecido sequenciado (referência)
• Queremos saber as diferenças entre o nosso genoma de interesse e a
referência
• Mais simples computacionalmente
• Alinhamos os reads contra a referência, fazemos o layout e o consenso
• Alignment-Layout-Consensus
Ressequenciamento:
SNPS, variações estruturais, variações de número de cópias
DEL
SNP
reference genome
Montagem Comparativa
Montagem ab initio Montagem
comparativa
Considerações
• Há uma diferenças enormes entre abordagens, funcionalidades e eficiência
entre os diferentes algoritmos e implementações para as tarefas de
alinhamento de sequências e montagem;
• As diferentes abordagens refletem diretamente no processamento e
especialmente no resultado das análises;
• Portanto é necessário conhecer os princípios de cada abordagem, reconhecer
os parâmetros e os resultados, para podermos utilizá-los da melhor forma
possível.
Promover a utilização racional dos programas disponíveis!!!
Sequenciadores
Montadores
Prospecção gênica e Anotação
Ana Carolina Ramos Guimarães
Laboratório de Genômica Funcional e
Bioinformática
Instituto Oswaldo Cruz – Fiocruz
E-mail: carolg@fiocruz.br
Anotação de genomas
• Processo que consiste em analisar e interpretar sequências
brutas de DNA, extraindo o significado biológico destas
sequências.
• Uma sequência isolada de DNA tem pouco ou nenhum valor,
se não for anotada. A adição de anotações representa a
adição de valor à sequência. Estas anotações podem
representar um volume de informações muito maior que as
próprias sequências.
Anotação de genomas
• Esta informação pode ser útil para:
 Planejamento de experimentos
 Interpretação de SNPs
 Inferir a função de produtos gênicos
 Predição de sítios regulatórios
 Etc.
Anotação de genomas
• Que tipo de informação podemos adicionar a um registro
(arquivo contendo uma sequência de DNA)?
 Informações autorais
 Composição, repetições, palíndromos, regiões de baixa complexidade,
sítios polimórficos, localização de genes codificantes para proteínas e
RNA, regiões regulatórias, a tradução conceitual dos genes, limites do
mRNA, sítios de splicing, presença de fagos e elementos genéticos
móveis, função dos genes, presença de domínios protéicos, etc...
 Resultados de outros programas de análise
 Diversos tipos de texto
Anotação de genomas
• Anotação manual dependente de informação derivada de
programas de busca por similaridade e métodos ab initio de
predição de genes. Extremamente intensiva.
• Consequentemente, a anotação sempre possuirá problemas
(inconsistências, falta de atualização, erros hereditários, etc)
• Por esses problemas, o desenvolvimento de métodos
automáticos confiáveis de anotação são extremamente
desejáveis.
Métodos computacionais -
Anotação
Podemos dividir as metodologias em duas categorias:
- Metodologias em decorrência dos projetos genomas
(Genômica Computacional):
Esses projetos geram informações tais como a posição de
determinados genes (devido à grande quantidade de sequências
atualmente disponíveis).
- Metodologias que utilizam o aspecto estrutural
(Bioinformática Estrutural):
Esses aspectos estruturais são provenientes, tanto de modelos
protéicos, como de estruturas tridimensionais determinadas
experimentalmente.
Genômica computacional
• Alinhamento e busca de sequência:
– Compara pares de sequências de DNA ou proteínas, e extrai
combinações parciais possibilitando o uso de uma sequência biológica
como uma consulta de banco de dados.
• Genoma Diferencial (Huynen et al., 1997):
– Compara genomas de organismos parecidos afim de localizar genes
envolvidos em determinados aspetos fisiológicos.
– A desvantagem do método é que outros genes podem não estar
associados ao aspecto em questão e mesmo assim estar na lista.
Genômica computacional
• A técnica de perfil filogenético (Pelligrini et al., 1999):
– Componentes isolados dos complexos ou vias não são capazes de
exercer suas funções, traça-se um perfil que ajudará na sua anotação
funcional. Primeira etapa é observar a ausência/presença em vários
genomas e buscar proteínas relacionadas funcionalmente com a
proteína utilizada para a construção do perfil.
• Contexto genômico (Overbeek et al., 1999):
– Usa a existência de agrupamento (clusters) de genes nos genomas de
procariotos para inferir uma relação funcional entre os genes
presentes em novos agrupamentos descobertos. Há dois aspectos que
devem ser levado em consideração:
• a conservação de uma distância pequena entre um par de genes;
• a conservação da ordem dos genes no DNA.
Genômica computacional
• Fusão de genes (Marcotte et al., 1999):
– Analisa os casos em que duas proteínas se fundem para realização de
uma função em via metabólica, pois faz-se inferências aos motivos de
sua fusão.
• a proximidade das duas numa via metabólica;
• ser favorecida, em termos evolucionários, em caso de duas proteínas com funções
relacionadas.
• Similaridade de árvores filogenéticas (Pazos e Valencia,
2001):
– Esse método fundamenta-se na observação de que a evolução
coordenada de proteínas que se interagem leva as suas árvores
filogenéticas a serem mais parecidas. Assim, analisando a correlação
entre árvores construídas por duas proteínas quando achamos uma
correlação significativa, há indicação de interação entre as proteínas.
Bioinformática Estrutural
Não somente a sequência protéica determina a atividade da
proteína, mas também a sua estrutura tridimensional. Quando a
proteína se dobra, os resíduos importantes são orientados na
posição correta para exercer suas devidas funções. E essa
identidade de resíduos chaves, são mais importantes do que a
porcentagem total de identidade entre duas sequências.
• Busca por possíveis sítios de ligação:
– Geometria (Laskowski et al., 1996):
• Sítios de ligação, muitas vezes, encontrados na maior depressão da superfície da
proteína.
Bioinformática Estrutural
• Busca por possíveis sítios de ligação:
– Campo eletrostático (Laskowski et al., 1996):
• Diferenças em campos eletrostático podem ser indicativas de diferenças funcionais.
– Mapa de superfície de proteínas (Pawlowski e Godzik, 2001):
• A partir das propriedades eletrostática e hidrofóbica é possível construir um mapa e
sua similaridade com de um outro mapa possui relação maior com a sua
similaridade de função do que com a similaridade de sequência.
Bioinformática Estrutural
• Busca por sítios de catálise (aplicado somente para enzimas):
– Baseado em evolução convergente:
• Várias classes de enzimas, mesmo não tendo uma relação evolucionária, usam
conjuntos estruturalmente semelhantes de resíduos catalíticos para efetuar as suas
reações químicas.
Anotação Funcional
• Para evitar que ocorra erros e que prejudique pesquisas
futuras é necessário que a utilização de mais de uma dessas
técnicas aqui apresentadas.
• Ainda há muito o que melhorar, afim de que seja utilizado
com bastante eficácia em campos como a agropecuária (ex.:
melhor entendimento de mecanismos de defesa das plantas),
e na medicina (ex.: produção de vacinas e desenvolvimento
de novos fármacos).
Anotação de genomas
• O objetivo da anotação de alta qualidade é identificar as
principais características do genoma - em particular, os genes
e os seus produtos.
• As ferramentas e os recursos para anotação estão se
desenvolvendo rapidamente e a comunidade científica está se
tornando cada vez mais dependente desse tipo de informação
para todos os aspectos da pesquisa biológica.
Anotação de genomas
• Processo que consiste em analisar e interpretar sequências
brutas de DNA, extraindo o significado biológico destas
sequências
• Tal processo ocorre através de múltiplos passos que podem
ser classificados em 3 categorias distintas:
– Anotação ao nível de nucleotídeos
– Anotação ao nível de proteínas
– Anotação ao nível de processos biológicos
Nature Reviews Genetics 2, 493-503 (July 2001)
Identificação das sequências:
– ONDE estão codificados os genes, os pseudogenes, os RNAs (tRNAs,
rRNAs e ncRNAs); onde se localizam as sequências regulatórias, os
elementos repetitivos, as regiões de duplicação e os polimorfismos
(SNPs) no genoma?
Anotação ao nível de nucleotídeos
Anotação ao nível de nucleotídeos
• O que é um gene?
– Numa concepção simplista podemos admitir que um gene é o
segmento de DNA que codifica uma certa proteína.
• Mas... E os íntros, elementos regulatórios...
– A definição molecular de gene deve compreender um segmento de
DNA bem maior do que o mínimo necessário para codificar os
aminoácidos que fazem parte da sequência polipeptídica.
Anotação ao nível de nucleotídeos
• Os genes podem ser:
– Genes traduzidos (codificam proteínas)
– Genes transcritos mas não traduzidos (codificam RNAs)
– Genes não transcritos (sequências regulatórias, regiões
estruturalmente importantes – centrômeros, telômeros, etc.)
• Anotar é postular uma função para o produto de uma ORF
ORF = Open Reading Frame (Matriz Aberta de Leitura)
AUG UUU AAA CCC GGG ACG TAC UGA
M F K P G T Y stop
• As ORFs são sequências codificadoras em potencial por
possuírem:
– Códon de iniciação
– Região codificadora
– Códon de terminação
Anotação ao nível de nucleotídeos
Uma ORF não é uma CDS!!!
Anotação ao nível de nucleotídeos
• Três questões importantes:
 Quais são as regiões codificadoras?
 Qual a orientação da sequência?
 Qual a sua fase de leitura?
• Dois tipos de informação podem ser utilizadas para a
detecção de genes:
– Sequências-sinais (junções de splicing, promotores)
– Conteúdo
Anotação ao nível de nucleotídeos
Fases de leitura
Abordagens para predição gênica:
 Métodos estatísticos ou ab initio
• Estes métodos tentam prever genes baseados em propriedades
estatísticas da sequência de DNA (Ex: GENSCAN, GeneID)
 Métodos comparativos
• Uma dada cadeia de DNA é comparada com outra cadeia semelhante
de uma espécie diferente evolutivamente próxima. Os genes são
preditos assumindo a conservação de éxons (Ex: CEM-conserved exon
method)
 Busca por similaridade
• Uma dada cadeia de DNA é comparada com a proteínas conhecidas
(Ex: tBlastn)
Anotação ao nível de nucleotídeos
• Avaliação do tamanho da ORF
- Em um DNA randômico, a distância média entre códons de parada é
64/3 ≈ 21, que é muito menos do que a duração média de uma proteína
(≈300); algoritmo simples, mau desempenho
• Avaliação da utilização de códons
- A utilização de códons em regiões codificadoras difere das não
codificadoras
• Avaliação da preferência de códons
- Um aminoácido pode ser codificado por mais de um códon diferente,
algum deles são usado com mais frequência do que os outros
• Modelos de Markov e HMMs
Predição de ORF
Procariotos x Eucariotos
• Estrutura, organização, dinâmica e evolução dos genomas
procarióticos e eucarióticos são muito diferentes
Eucariotos
• múltiplos
cromossomos
lineares;
• genes
regulados
separadament
e;
• genoma
diplóide,
genes
esparsos;
Splicing alternativo
Procariotos
• Cromosso
mo
circular
único;
• organizaçã
o
policistrôn
ica;
Procariotos x Eucariotos
• Devido a essas diferenças, distintos sistemas
foram desenvolvidos para a anotação
automática de genomas procarióticos e
• Translate Tool
– Traduz a sequência nas 6 possíveis fases de leitura
Algumas maneiras de anotação ao
nível de nucleotídeos
• ORF Finder
– Detecta ORFS (open reading frames) através da identificação de
start/stop códons.
• ORF Finder – considerações sobre o método:
- difícil discriminação entre regiões codificantes e regiões não-codificantes.
- é necessária a identificação de sinais (RBS, início de transcrição/tradução,
terminação, limites éxon/íntron), para assinalar a sequência como sendo
codificante.
- existência de start códons alternativos.
- em sequências eucarióticas o método pode perder muito em eficiência
(éxons/íntrons).
• Glimmer (Gene Locator and Interpolated Markov ModelER):
– Utiliza um método estatístico baseado em cadeias de Markov para
distinguir regiões codificadoras de não-codificadoras.
– traduzindo: para uma sequência de DNA, uma cadeia de Markov
modela a probabilidade de ocorrência de um determinado
nucleotídeo, dado um determinado contexto (que é a sequência de
bases imediatamente anterior a este nucleotídeo).
– ou ainda: qual a probabilidade da ocorrência de um G depois de um
A? Ou depois de um AG?
• Glimmer – considerações sobre o método:
– é o método de escolha para a análise de grandes segmentos de DNA.
– processamento automático de grande eficiência - minimiza a
interferência humana.
– alta taxa de acertos: prediz corretamente ~ 99% dos genes, com
relativamente poucos falsos positivos.
– pode ser utilizado (com modificações) para a predição de seqüências
codificadoras em genomas eucarióticos.
Identificação das prováveis funções dos genes:
- QUAL é o catálogo completo de proteínas codificadas no genoma,
qual a identidade destas proteínas e quais são as suas prováveis
funções no organismo em estudo?
Anotação ao nível de proteínas
• Busca por similaridade contra bancos de dados conhecidos.
(Ex: GenBank, Swiss-Prot, KEGG ...)
• Busca por “informações” importantes contidas na sequência
ou estrutura da proteína.
• HMMs foram utilizados para a construção dos bancos e para
detecção de domínios em sequências pesquisadas no PFAM
• Devido ao fato de grande parte destes elementos repetitivos
serem derivados de elementos de transposição espera-se que
alguns deles ainda apresentem regiões codificadoras que
podem confundir os programas de predição de genes
• Por isso antes da predição de genes é necessário realizar uma
mascaramento da sequência genômica que retire os
elementos repetitivos da analise de predição de genes
PFAM – DB de famílias
• Utiliza para busca o RPS-Blast (Reverse Position-Specific
BLAST), que seria uma espécie de versão reversa do PSI-Blast
• A diferença neste tipo de busca é que uma matriz de posição
(position-specific score matrices-PSSM) é calculada para cada
família e quando realizamos a busca nossa sequências será
comparada com uma sequência consenso de cada família
utilizando a sua respectiva matriz.
• Apesar de utilizar famílias derivadas do Pfam e Smart, o CDD
calcula PSSM para estas famílias e portanto a busca não é
idêntica a realizadas diretamente nestes bancos, que utilizam
HMM.
CDD – Conserved Domains
Database
CDD – Conserved Domains
Database
CDD – Resultado
Alinhamento contra a sequência consenso do domínio
Resíduos em vermelho-possuem identidade entre sequência e consenso
CDD – Resultado
Resíduos em vermelho-Altamente conservado (alto peso no PSSM)
Resíduos em azul –Menor conservação (baixo peso no PSSM)
Resíduos em cinza e minúsculos-Não conservados (posições não presentes no PSSM)
Anotação tRNA – tRNAscan-SE
• Elementos repetitivos muitas vezes possuem repetições de
padrões e por isso não comportam-se como seria esperado
para uma sequência randômica
• Devido ao fato de grande parte destes elementos repetitivos
serem derivados de elementos de transposição espera-se que
alguns deles ainda apresentem regiões codificadoras que
podem confundir os programas de predição de genes
• Por isso antes da predição de genes é necessário realizar uma
mascaramento da sequência genômica que retire os
elementos repetitivos da analise de predição de genes
Anotação - repetições
• Elementos de
transposição podem
se inserir nos íntrons
de genes.
• Como não são
essenciais para os
organismos estes
elementos tendem a
sofrer mutações que
Anotação - repetições
• Ferramenta que compara sequências contra um banco de
dados pré-existente contendo elementos repetitivos
previamente descritos de diversos organismos
• Busca também repetições simples que consistem na repetição
continua de motivos simples
Repeat masker
Repeat masker
• Sumário mostra os elementos
detectados bem como o
numero de bases ocupadas por
estes elementos
• Nova sequência é fornecida ao
usuário contendo Ns no lugar
das bases dos elementos
repetitivos.
• Isso permite que programas de
predição de genes ignorem
estas bases, mas a informação
de estrutura deste segmento
de DNA não é perdida
Identificação das vias metabólicas e processos dos quais os
diferentes genes/proteínas participam:
- COMO os elementos funcionais identificados no genoma se
relacionam com os inúmeros processos biológicos (ciclo celular,
desenvolvimento, metabolismo, regulação, resposta a estímulos,
sinalização, transporte, etc.)?
Anotação ao nível de processos
KEGG
• Utilização do número E.C. (Enzyme Comission), sistema de
classificação estabelecido
• Nomenclatura possui quatro níveis hierárquicos sendo que o
primeiro nível divide entre as seis famílias principais
KEGG
KEGG
EC branco (ausência no organismo), verde (presença no organismo)
Anotação automática de genomas
• Portanto, o processo de anotação genômica
completo é intrinsecamente complicado e
envolve a combinação de uma gama de
métodos computacionais e experimentais em
sua execução
• Uma vez que a anotação manual é
extremamente laboriosa, cara e demorada,
sistemas automatizados chamados pipelines
Sistemas de Anotação
• Estes sistemas diferem no que diz respeito às estratégias
particulares de anotação utilizadas, aos tipos de anotações
que estão disponíveis, como as anotações são apresentadas e
quanta edição manual pode ser realizada
• Importante ressaltar que pipelines de anotação inteiramente
automáticos, embora essenciais, podem introduzir e propagar
anotações gênicas inconsistentes e incorretas
Pipeline de anotação
Microbial Biotechnology, Volume 3, Issue 4,
pages 362–369, July 2010
(1)
(2) (3) (4)
1. Preditores de genes: Glimmer, GeneMark (ab
initio); TwinScan, FGENESH, Augustus,
Gnomon, GAZE, SNAP (evidence-driven)
2. BDs de sequências: UniProtKB/SwissProt
(proteínas); dados de ESTs ou RNA-Seq
(cDNA) do próprio genoma a ser anotado
3. BDs de genes ortólogos (COG), de ontologia
(GO), de assinatura de proteínas – domínios,
motivos, padrões e perfis (InterPro), de vias
metabólicas (KEGG), de estrutura 3D (PDB)
4. Predição de peptídeo sinal (SignalP), porções
transmembranares (tmHMM), localização
subcelular (PSORT) etc.
5. BDs de genomas completos (NCBI RefSeq)
6. Perfil filogenético (co-ocorrência) de genes;
fusão/fissão gênica; conservação de
vizinhança gênica (óperons/clusters)
(5) (6)
Microbial Biotechnology, Volume 3,
Issue 4, pages 362–369, July 2010
Pipelines de
anotação
automática de
genomas
procarióticos
de uso local ou
via web
Nature Reviews Genetics 13, 329-342 (May 2012)
Pipelines de anotação automática de genomas
eucarióticos de uso local ou via web e navegadores
de genomas para a edição manual da anotação
Apesar da anotação fornecer uma função
inferida do produto gênico, ela apresenta
alguns problemas:
• Nem sempre é obvio para um não-
especialista a função exata e contexto no
qual atua a proteína codificada a partir do
nome desta
• Pesquisadores buscando entender
processos necessitam primeiro realizar uma
Limitações do processo de
anotação
Limitações do processo de
anotação
• Nomes diferentes são atribuídos aos produtos
de genes que possuem o mesmo nome, em
Anotação inconsistente
Brief Bioinform. 2013 Jan;14(1):1-12
Gene Ontology (GO)
• Série de vocabulários controlados que apresenta uma relação
hierárquica entre si.
• Através do uso deste termos é possível gerar diversas
descrições do produto de um dado transcrito que podem ser
buscadas através de palavras chaves ou navegando por uma
árvore de termos
• Vocabulário descreve fenômenos moleculares e não objetos
moleculares, não sendo substituto de outras anotações mais
tradicionais
Gene Ontology (GO)
• Dividido em três categorias principais:
– Processo biológico: Indica associação a eventos gerados a partir de
um ou mais conjuntos ordenados de funções moleculares (ex.
transporte de lipídeos, geração de gametas, quimiotropismo)
– Componente celular: Indica a possível localização do produto protéico
(ex: núcleo, reticulo endoplasmático, proteassomo)
– Função molecular: Descreve atividades que ocorrem a nível molecular
(ex: transporte de lipídeo acoplado a atividade ATPasica, atividade
receptora de GABA)
Gene Ontology (GO)
• Permite a navegação em uma arvore contendo os termos
existentes para o GO, que também contêm associado uma
series de genes previamente classificados
GO – Tree browser
GO – Tree browser
Anotação padrão
Anotação padrão
Spidey
Programa de mapeamento de
seqüências de mRNA em
porções de DNA genômico
•Possui vantagens em relação a
alinhamento no blast2sequences
pois o programa busca os sítios
de splicing e permite apenas um
alinhamento por região do RNA,
alem disso o seu algoritimo
busca evitar o alinhamento em
porções do gene em
pseudogenes ou copias do gene
adjacentes a este
• Exemplo de alinhamento de um exon
SNPs
SequenciamentoMontagem_Primordios_Historico.pptx
SequenciamentoMontagem_Primordios_Historico.pptx
SequenciamentoMontagem_Primordios_Historico.pptx
SequenciamentoMontagem_Primordios_Historico.pptx
SequenciamentoMontagem_Primordios_Historico.pptx
SequenciamentoMontagem_Primordios_Historico.pptx

SequenciamentoMontagem_Primordios_Historico.pptx

  • 1.
    Sequenciamento, Montagem e Anotaçãode genomas Ana Carolina Ramos Guimarães Laboratório de Genômica Funcional e Bioinformática Instituto Oswaldo Cruz – Fiocruz E-mail: carolg@fiocruz.br
  • 2.
    • É oprocesso de determinação da ordem precisa de nucleotídeos na molécula de DNA/cDNA. • Inclui qualquer método ou tecnologia que é usada para determinar a ordem das quatro bases nitrogenadas: Adenina, Guanina, Citosina e Timina • Com o advento de métodos rápido de sequenciamento de DNA, grandes descobertas e pesquisas médicas e biológicas tem sido aceleradas na última década. *** Não devemos esquecer que é possível sequenciar o RNA “via” DNA *** Sequenciamento DNA/cDNA
  • 3.
    Métodos Gilbert XSanger • Os dois métodos são baseados na produção de um conjunto de fitas simples de DNA que são separadas pelo princípio de eletroforese Maxam e Gilbert (1976-1977) (Método de degradação química) -Tratamento com substâncias químicas que cortam a molécula de DNA em nucleotídeos específicos Sanger et al. (1977) (método enzimático) -Síntese enzimática de uma fita complementar, cujo crescimento é interrompido pela adição de um dideoxinucleotídeo
  • 4.
    Adição de nucleotídeosmodificados (didesoxiribonucleotídeos)  impedem o crescimento de um fragmento de DNA em replicação pela DNA polimerase  Premio Nobel 1980 Métodos Sanger
  • 5.
    • Leitura (apósautoradiografia a ordem dos nucleotídeos, pode ser visualizada, porém, esta será complementar ao molde) • Vantagens: reads longos (~900bps) • Desvantagens: baixo rendimento, alto custo • DNA molde + dNTPs e ddNTPs + DNApolimerase + Primer • Amplificação-PCR (4 reações: uma para cada base ddNTP marcadas radioativamente) • Eletroforese em Gel de acrilamida (fragmentos migram distâncias proporcionais ao seu tamanho, de acordo com a posição e o ddNTP incorporado) Métodos Sanger
  • 6.
    • O princípioé o mesmo do sequenciamento manual feito por Sanger. • ddNTPs são marcados por fluorescência característica, permitindo a distinção das cadeias truncada pela respectiva fluorescência. • Feita a eletroinjeção onde as moléculas de DNA(-) em suspensão são introduzidas nos capilares. • Cada fragmento, recebe um feixe de laser de argônio, que será detectado por um sistema óptico e uma câmara de CCD. • A ordem em que os diferentes fragmentos passam pelo detector de fluorescência indica a sequência da cadeia de DNA complementar à cadeia usada como molde. Sequenciadores automáticos
  • 7.
  • 8.
  • 9.
    Por que sequenciarum genoma? • O sequenciamento de genomas é o primeiro passo para obter uma descrição completa da composição molecular de cada organismo, pois todas informações necessária para construção estão presentes no DNA genômico (Entretanto a interpretação estas informações ainda é um problema) • Comparação de genomas de diversos indivíduos permitira correlacionar características e síndromes com mutações de determinados locus do genoma (mesmo que não tenhamos idéia da função deste locus) • Comparações entre genomas de espécies próximas permite o melhor entendimento dos mecanismos de evolução de genomas • Um melhor conhecimento do genoma permite com que manipulemos este com maior facilidade Sequenciamento de genomas
  • 10.
    É possível notarque não há uma correlação direta entre tamanho do genoma e complexidade do organismo Tamanho dos genomas
  • 11.
    • Genomas possuemgrande numero de bases em seu genoma (105 a 1012) e ate o momento as técnicas existentes de sequenciamento conseguem amostrar apenas algumas centenas de bases por reação. • Deste modo, o genoma tem que ser sequenciado de forma descontinua com milhares de reações sendo realizadas em paralelo para obtenção da informação necessária • Isto gera uma grande quantidade de sequências derivadas do genoma que se apresentam de forma desconexa, visto que não existe nenhuma propriedade intrínseca que permite a ordenação inequívoca destas • Deste modo um dos grandes desafio ao sequenciar genomas é a montagem destas sequencias de modo que elas possam reproduzir a ordenação encontrada nos cromossomos Sequenciamento de genomas
  • 12.
    • Sequenciamento declones: DNA é cortado em fragmentos grandes (utilizando enzimas de restrição) e clonado em BACs (Cromossomo Artificial de Bactéria), que aceitam fragmentos de até ~200 mil bases • Após isso são selecionados clones que são separadamente cortados (por nebulização) e sub-clonados em plamideos. • Sequenciamento destes sub-clones permitirá a reconstituição do clone do BAC • Apesar te ter sido a técnica de referencia no inicio de sequenciamento de genomas, não é mais utilizada com frequência. Estratégias de sequenciamento de genomas
  • 13.
    • Whole GenomeShotgun (WGS): • O genoma inteiro é picotado em pedaços e clonado em plasmideos. São realizada clonagens de fragmentos maiores em vetores apropriados (BACs, Fosmideos, etc..) mas somente as pontas são sequenciadas. • Sequenciamento das duas extremidade de cada clone é realizada e utilizando a informação de sequência e a estimativa de distancia entre as duas pontas do clone busca-se montar o genoma inteiro • Devido ao caráter randômico de seqüenciamento utilizando a técnica de WGS é necessário seqüenciar uma quantidade de bases muito maior do que o numero de bases do genoma (pelo menos 8X mais) devido a redundância do sequenciamento Estratégias de sequenciamento de genomas
  • 14.
    • Durante décadaso método de Sanger foi praticamente a única opção utilizada para sequenciamento de DNA • Nos últimos anos surgiram novas tecnologias de sequenciamento em larga escala que foram denominadas como “Next-Generation Sequencing” (NGS) • Apesar de serem apresentadas como um conjunto as varias tecnologias que fazem parte do NGS apresentam principio bem diferentes • Em comum elas tem a paralelização de diversos processos levando a analise simultânea de milhares de moléculas : Sanger ~104 nucleotídeos sequenciados/corrida, NGS ~108-10 nucleotídeos sequenciados/corrida Next Generation Sequencing (NGS)
  • 15.
    • Organismos maiscomplexos tendem a possuir genes com um alto numero de éxons. Além disso, o genoma destes organismos possuem uma alta quantidade de sequências não-codificadoras e portanto a predição da estrutura de genes não é trivial. • Deste modo o sequenciamento direto das moléculas de mRNA pode fornecer informações a respeito da estrutura de um gene, pois representa a molécula madura formada após os eventos de splicing • Além disso, o sequenciamento de mRNA permite a amostragem direta das sequências codificadoras permitindo com que um menor volume de sequenciamento se obtenha maior informações sobre as proteínas deste organismo Sequenciamento de transcriptomas
  • 16.
    • Após oisolamento das moléculas de mRNA é realizada a reação de transcriptase reversa que irá gerar um fita de cDNA a partir de um mRNA molde. • Normalmente esta transcrição é realizada com um oligo-dT como primer o que permite com que o mRNA interio seja transcrito • Os cDNA produzidos são clonados e o conjunto de plasmideos produzidos é denominado biblioteca Sequenciamento de transcriptomas
  • 17.
    • Entretanto aabundancia de diferente mRNAs em uma célula varia muito. Existem alguns poucos mRNAs que possuem um numero de moléculas até 1000 X maior que a maioria dos mRNAs. • Deste modo, sequenciamentos de bibliotecas de mRNAs tendem a amostrar muito umas poucas moléculas e pouco um conjunto grande • Além disso, nem todos os mRNA vão estar sendo expressos em um único tecido ou fase de vida do organismo e por isso para obter uma descrição completa dos mRNAs de um organismos vários destes deverão se amostrados • Devido ao fato das sequências de RNA serem derivadas de sequências genomicas é possível utilizar ferramentas de alinhamento para deduzir a origem da sequência de RNA. • Com isso é possível definir a estrutura de introns e exons de um gene. Sequenciamento de transcriptomas
  • 18.
  • 19.
    Splicing alternativo Geração devárias proteínas a partir de um único gene número de proteínas > número de genes Sequenciamento de transcritos permite a dedução de eventos de splicing alternativo a partir do mapeamento deste nas sequências de DNA genômico
  • 20.
  • 21.
    Gerações de Sequenciadores 3ªGeração (single molecule) Single Molecule Real Time – SMRT (Pacific Bioscience) HeliScope (Helicos Bioscience) 454 (Roche) 2ª Geração (amplificação clonal) SOLiD (Life Technologies) HiSeq2000, HiSeq2500, MiSeq Illumina Ion Torrent- PGM, Proton (Life Technologies) GridION-Oxford Nanopore 4ª Geração (Post-Light) 1ª Geração (clonagem) Sanger
  • 22.
  • 23.
  • 24.
    Gerações de Sequenciadores 3ªGeração (single molecule) Single Molecule Real Time – SMRT (Pacific Bioscience) HeliScope (Helicos Bioscience) 454 (Roche) 2ª Geração (amplificação clonal) SOLiD (Life Technologies) HiSeq2000, HiSeq2500, MiSeq Illumina Ion Torrent- PGM, Proton (Life Technologies) GridION-Oxford Nanopore 4ª Geração (Post-Light) 1ª Geração (clonagem) Sanger
  • 25.
    1ª Geração -Método de Sanger  Automação do Sequenciamento ABI PRISM 370 (1987) Leroy Hood
  • 26.
     ANOS 80- Substituição das técnicas de detecção por radioatividade pelo uso de marcadores fluorescentes •Radioisótopos – danosos à saúde, dificuldade de automação •Fluorófos – sistema de detecção que permite a leitura automática das sequências • Preparação do gel e aplicação das amostras • Utilização ddNTPs fluorescentes lidos automaticamente durante a eletroforese • Corantes fluorescentes – reações no mesmo poço no gel 1ª Geração - Método de Sanger
  • 27.
     ANOS 90- Sequenciadores de capilares • Duas vezes mais rápidos • Completamente automatizados • Associação de capilares preenchidos com gel a um sistema de detecção através de fluorescência confocal excitada por laser • Eliminação da montagem da placa e preparação do gel • Aplicação das amostras por eletroinjeção • Alta velocidade e resolução na separação das amostras 1ª Geração - Método de Sanger
  • 28.
  • 29.
  • 30.
  • 31.
    NNNNNNNNNNNNNNNNNNNNNNTCTCTTATATANNATT CCCGCCTTCNNTAAAGTATGCAAATAATGTCTGGTTTTA AAGTAATGATTAACTGCATGCTCAGGATAATAGGGTTTG ATGCCTTTATCCATGGGAAAATATTTGGTAACCTTAGGA TAAAATCTAGCTGGCATAACCAATTTTAATCTTCGTAATT CATTTTTAGTAAGTGGGCCTACAAATTGTTCACATTTAG AAATCAGGTCTTGATGCAAATGAATATTAGGAAAAGAAG NANTGNACCAGTTAGGATTAAAAGCAGGCACAGTAGAA GAGTAAAGCCCCGTAAAGTTTCCCACCTTATGAGTCCA AGGAATACTAACATTGGNAAGCTGGAGATTGAGATCTG CGGCGACGCGGTGATTGAGATCTTCGTCTGCGAGGN GAGNNAGTTCTTCTNCTAGGGGACCTGCCTCGTCGNC TAACAACAGTAGTTTCCGGAAGTGTGNATAGGATAGGG GCNTTTGGTGGTCTGTANGCAGGANGAGTGCGAATCN NCACTCNNAAGGACACCAAATACTCTAGNACTGTNCTC TTCCAAAAGTAAGGCAGGAAATGTGANNNNACANCAG NNGTCTANNTTNNNNNNNNNNNNNNNNAACNTAGNNA ACTACTAAANCCCTANCTNNNNCNNNNCANNNNNNNN NNCNCCCNAGNNNGCNANNNNCATNNCCTNNNNCNN NANANNNNNNANNNTNNCTNNNNNCCNTNNNGNNNN NAANNNNNNANNNNCAGNNNANNNNNNNNNNNNNNN NNAANNNNNNNNNNNNNNNTNNNNNANNNNNNNNNN NNGGNNNANNCANNNNNN Formato de saída-SEQ A= adenina C = citosina G = guanina T = timina U = uracila R = G A (purina) Y = T C (pirimidina) K = G T (ceto) M = A C (amino) S = G C (ligações de hidrogênio fortes) W = A T (ligações de hidrogênio fracas) B = G T C (todos, menos A) D = G A T (todos, menos C) H = A C T (todos, menos G) V = G C A (todos, menos T) N = A G C T (qualquer nucleotídeo)
  • 32.
  • 33.
    Gerações de Sequenciadores 3ªGeração (single molecule) Single Molecule Real Time – SMRT (Pacific Bioscience) HeliScope (Helicos Bioscience) 454 (Roche) 2ª Geração (amplificação clonal) SOLiD (Life Technologies) HiSeq2000, HiSeq2500, MiSeq Illumina Ion Torrent- PGM, Proton (Life Technologies) GridION-Oxford Nanopore 4ª Geração (Post-Light) 1ª Geração (clonagem) Sanger
  • 34.
  • 35.
  • 36.
    454 – Pirossequenciamento (sequenciamentobaseado em síntese) 2ª Geração - 454
  • 37.
    2ª Geração -454 • Síntese de DNA ocorre através de um complexo de reações que inclui enzimas (ATP sulfurilase e luciferase) e substratos (adenosina 5’ fosfossulfato e luciferina). • Quando um novo nucleotídeo é incorporado em uma cadeia crescente de DNA, pirofosfato é gerado de maneira estequiométrica, resultando na produção de ATP. O ATP produzido leva à conversão enzimática da luciferase com emissão de fótons. • A adição de dNTP é realizada sequencialmente. Assim, é possível fazer a leitura de cada nucleotídeo específico.
  • 38.
  • 39.
    *dNTP – sóum deles Leitura a partir de uma combinação de reações enzimáticas 1) Liberação de um pirofosfato, oriundo da adição de um desoxinucleotídeo à cadeia. 2) Pirofosfato é convertido para ATP (ATP sulfurilase), utilizado pela luciferase para oxidar a luciferina, produzindo um sinal de luz capturado por uma câmera CCD (charge-coupled device) acoplada ao sistema. 2ª Geração - 454
  • 40.
  • 41.
    Ilumina - Solexa (sequenciamentobaseado em síntese) 2ª Geração - Ilumina Inovação dessa plataforma consiste na clonagem in vitro dos fragmentos em uma plataforma sólida de vidro, processo também conhecido como PCR de fase sólida
  • 42.
    2ª Geração -Ilumina Maridis Annu. Rev. Genome. Human Genet. 2008 DNA fragmentado randomicamente e ligado a adaptadores nas duas extremidades do fragmento Superfície de clonagem dividida em oito linhas Adaptadores fixados em 5’ Fragmentos de DNA da amostra ligados aos adaptadores em ambas as extremidades, fixando ao suporte por hibridização a um dos adaptadores fixados Amplificação: 1º ciclo - nucleotídeos não marcados para síntese da segunda fita. Após o ciclo de anelamento, o fragmento forma uma estrutura em “ponte” na superfície de sequenciamento e a extensão ocorre, formando a fita complementar também em “ponte”.
  • 43.
    2ª Geração -Ilumina Maridis Annu. Rev. Genome. Human Genet. 2008 Fitas são separadas e linearizadas Repete-se a etapa de anelamento, formando novas estruturas em ponte e iniciando um novo ciclo de amplificação. Após uma série desses ciclos, serão obtidos clusters de moléculas idênticas ligadas ao suporte Com a incorporação de nucleotídeos terminadores marcados é gerado sinal, lido e interpretado como um dos quatro possíveis nucleotídeos componentes da cadeia A leitura é feita de forma sequencial, o que permite a montagem da sequência completa de cada cluster.
  • 44.
  • 45.
    SOLID (sequenciamento por hibridação) 2ªGeração - SOLID No sistema SOLiD diferentemente dos demais processos, a reação de sequenciamento é catalisada por uma DNA ligase, e não uma polimerase.
  • 46.
    2ª Geração -SOLID Biblioteca: DNA alvo é mecanicamente fragmentado em um sonicador (60-90pb, tag única ou 1-10Kb tag dupla) e Biblioteca tag única (single pair): Fragmentos diretamente ligados a adaptadores universais (P1 e P2) Bibliotecas mate-pair: Fragmentos de 1 a 10Kb são visualizados em gel para seleção da faixa de tamanho de interesse. Selecionados, os fragmentos são ligados aos mesmos adaptadores P1 e P2, circularizados e clivados com uma enzima de restrição que reconhece seu sítio no adaptador e cliva adiante, liberando fragmentos formados por: 27 bases de uma região, mais a sequência dos adaptadores e mais 27 bases adicionais de outra região que está separada da primeira pela distância utilizada no intervalo de seleção dos fragmentos. - Os fragmentos gerados e ligados ao adaptador P1 que se liga especificamente a uma microesfera. - Sequenciamento ocorre por hibridização de sondas fluorescentes com o alvo em cinco etapas distintas: Maridis Annu. Rev. Genome. Human Genet. 2008
  • 47.
    2ª Geração -SOLID Na primeira etapa, o primer (n) é utilizado, liberando as primeiras bases da sequência alvo para hibridização com a sonda.
  • 48.
    2ª Geração -SOLID Uma das sondas do pool encontrará similaridade ao alvo ligando-se a ele.
  • 49.
    2ª Geração -SOLID O sinal de fluorescência é lido
  • 50.
    2ª Geração -SOLID As três últimas bases da sonda, incluindo o fluoróforo, são removidas
  • 51.
    2ª Geração -SOLID Inicia-se o segundo ciclo de hibridização e assim sucessivamente
  • 52.
    2ª Geração -SOLID Até que o alvo seja todo coberto (35pb).
  • 53.
    2ª Geração -SOLID A sequência fita dupla é desnaturada, e uma nova etapa de sequenciamento é iniciada com o primer (n-1).
  • 54.
    2ª Geração -SOLID Novas etapas de sequenciamento com os primers (n-2), (n-3), e (n-4) são realizadas para que toda a sequência alvo seja determinada.
  • 55.
  • 56.
    3ª Geração (single molecule) SingleMolecule Real Time – SMRT (Pacific Bioscience) HeliScope (Helicos Bioscience) 454 (Roche) 2ª Geração (amplificação clonal) SOLiD (Life Technologies) HiSeq2000, HiSeq2500, MiSeq Illumina Ion Torrent- PGM, Proton (Life Technologies) GridION-Oxford Nanopore 4ª Geração (Post-Light) 1ª Geração (clonagem) Sanger Gerações de Sequenciadores
  • 57.
    Helicos (sequenciamento de moléculaúnica) 3ª Geração - Helicos
  • 58.
    3ª Geração -Helicos Amostras de DNA são: cortadas em fragmentos mais curtos desnaturados para cadeias simples marcados com um (A cauda 3 ' poli) e um terminal transferase + dATP-F Hibridados com a superfície por meio de poli ( T )
  • 59.
    3ª Geração -Helicos Moldes mapeados marcas fluorescentes são removidas Sequenciamento por síntese : nucleotídeos fluorescentes ( C, G , T , ou A ) são adicionadas uma base por ciclo e incorporadas na cadeia complementar de um modo dependente do molde. Nucleotídeos Não incorporados são lavados Imagem da adição de base e seqüência de DNA. As marcas fluorescentes são então clivados , e a base seguinte é adicionado para continuar o ciclo
  • 60.
  • 61.
    PacBio (sequenciamento de moléculaúnica) 3ª Geração - PacBio Permite a observação em tempo real da síntese de DNA pela polimerase. Maior faixa de leitura do que qualquer outra tecnologia, com média de 8000 pares de bases, com alguns fragmentos maiores que 30.000 pb.
  • 62.
    3ª Geração -PacBio Biblioteca de fragmentos de DNA dupla fita (250bp - 10Kbp) ligados à adaptadores (SMRTbells™). Primers são hibridizados com os adaptadores e então se ligam com polimerases. Adaptadores tornam os fragmentos de DNA de fita dupla em moldes circulares no qual a polimerase vai continuar a funcionar até que se torne inativa ou até o final do período de observação. Uma corrida contendo múltiplas passagens em torno desse molde circular, pode ser condensada em uma sequência consenso de maior precisão.
  • 63.
    3ª Geração -PacBio Sequenciamento feito em um chip, com uma DNA Polimerase ativa com uma única molécula de DNA molde imobilizada no fundo onde a luz pode penetrar e criar uma câmara de visualização que permite monitorar a atividade da polimerase Sinal de um nucleótido fluorescente incorporada pela polimerase detectado no sequenciamento em tempo real .
  • 64.
  • 65.
    Gerações de Sequenciadores 3ªGeração (single molecule) Single Molecule Real Time – SMRT (Pacific Bioscience) HeliScope (Helicos Bioscience) 454 (Roche) 2ª Geração (amplificação clonal) SOLiD (Life Technologies) HiSeq2000, HiSeq2500, MiSeq Illumina Ion Torrent- PGM, Proton (Life Technologies) GridION-Oxford Nanopore 4ª Geração (Post-Light) 1ª Geração (clonagem) Sanger
  • 66.
    IonTorrent (sequenciamento por síntese) 4ªGeração - IonTorrent Sequenciamento baseado na detecção de íons de hidrogênio que são libertados durante a polimerização do DNA.
  • 67.
    A incorporação dedesoxirribonucleótido trifosfato numa cadeia crescente provoca a libertação de hidrogênio e de pirofosfato . 4ª Geração - IonTorrent
  • 68.
    Micropoço sensível aíons. Todas as camadas estão contidos dentro de um chip semicondutor Cada íon hidrogênio liberado aciona o sensor. A série de impulsos eléctricos transmitidos a partir do chip a um computador é traduzido para uma sequência de DNA 4ª Geração - IonTorrent
  • 69.
    4ª Geração -IonTorrent
  • 70.
    4ª Geração -IonTorrent
  • 71.
    4ª Geração -IonTorrent
  • 72.
    4ª Geração -IonTorrent
  • 73.
    NanoPore (sequenciamento por síntese) 4ªGeração - NanoPore Sequenciamento que passa polímeros intactas de DNA através de um nanoporo
  • 74.
    4ª Geração -NanoPore A teoria por trás do sequenciamento por nanoporo é que, quando um nanoporo é imerso num fluido condutor e um potencial (voltagem ) é aplicado, uma corrente elétrica devido à condução de íons através do nanoporo pode ser observada . A quantidade de corrente é muito sensível ao tamanho e à forma do nanoporo. Se os nucleotídeos individuais (bases) passam através ou perto do nanoporo , pode criar uma mudança característica na magnitude da corrente através do nanoporo .
  • 75.
  • 76.
  • 77.
  • 78.
    • Ironicamente, apesardo sequenciamento ter se tornado mais fácil, o processo de extrair conhecimento dos dados gerados tornou-se mais desafiador Explosão de dados
  • 79.
  • 81.
    • Ordenação dostrechos de DNA sequenciados para obtenção da sequência original. • Inclui verificação da qualidade das bases, marcação de vetores, comparação entre clones e formação de contíguos até se obter o final. Montagem de genomas
  • 82.
    Nature Biotechnology 30,330–331 (2012) Montagem de genomas Montagem de genomas
  • 83.
    • Quebrar oDNA original em fragmentos aleatórios e selecionar os fragmentos de determinado tamanho (Ex: 2Kbp) Não sabemos a posição de cada fragmento no genoma Whole Genome Shotgun (WGS)
  • 84.
  • 85.
    • Read: Fragmentosequenciado • Contig: Pedaço contíguo de sequência formado a partir da sobreposição dos reads • Singlet: Read sem sobreposição com nenhum outro • Gap: Região do genoma não capturada por nenhum read • Cobertura: Total de bases sequenciadas dividido pelo tamanho do genoma Termos da Montagem
  • 86.
    • Reconstruir asequência do genoma, dados vários (potencialmente milhões) fragmentos curtos de sequência (os reads) • Os reads têm tamanho entre 35-800 bp • Os reads podem conter erros de sequenciamento (mismatches ou indels) • A orientação (5`3` ou 3`5`) de cada read é desconhecida WGS - Montagem
  • 87.
  • 88.
    • Total depares de bases em reads dividido pelo tamanho do genoma Ex: Genoma de 1Mbp 5 milhões de reads de 50bp Cobertura = (5000000 * 50) / 1000000 = 25X • Na prática, corresponde a quantas vezes, em média, cada base do genoma foi sequenciada • É preciso ter várias coberturas para conseguir montar contigs grandes (oversampling) • Sanger: 8X a 10X • 454 Titanium (pirosequenciamento): 15X • Solexa: > 50X Cobertura
  • 89.
    • Número decontigs • Tamanho médio dos contigs • Tamanho do maior contig • N50: maior N tal que 50% do total de pares de base do genoma esteja contida em contigs >= N bp Ex: Seja uma montagem de um genoma de 300 bp que produziu 8 contigs de tamanho (3, 3, 15, 24, 39, 45, 54 e 117) Ordenar os contigs em ordem decrescente de tamanho e ir somando um por um Quando a soma ultrapassar 150 (300/2), o tamanho do contig da vez é o N50 Os dois maiores contigs (117+54=171) ultrapassam 150. Logo N50=54 (tamanho do segundo maior contig) Avaliação da Montagem
  • 90.
    • Três categorias(baseadas em grafos) • Greedy graphs • estrutura implícita de grafos de sobreposições; • Overlap/Layout/Consensus (OLC) • grafo de sobreposições; • de Bruijn Graphs (DBG) • grafo de sobreposição de sufixo-prefixo de k-mers; Algoritmos da Montagem
  • 91.
    O que éum grafo? Grafo é uma estrutura G(V, A) onde V é um conjunto não vazio de objetos denominados nós ou vértices (nodes/vertices) e A é um conjunto de pares não ordenados de V, chamado arestas ou arcos (edges/arcs). 1 1 2 3 4 4 5 5 6 6 2 3 Grafo direcionado Grafo não direcionado Grafo Nós (vértices): V = {U, V, W, X, Y, Z} Arestas (arcos): A = {a, b, c, d, e, f, g, h, i, j} Representação simplificada de um grafo qualquer
  • 92.
    • Operação básica:dada alguma read ou contig, adiciona uma ou mais read ou contigs (mais similares uns aos outros) de forma progressiva até que não haja mais operações possíveis; • Estrutura implícita de grafo, em que somente são consideradas as arestas com alto score; • Deve ter mecanismos para lidar com sobreposições falsas. • Sobreposições de regiões repetitivas podem ter score alto e levar a erros na montagem. I - reads 1 e 2 (score 200) II - reads 3 e 4 (score 150) III - reads 2 e 3 (score 50) Greedy
  • 93.
    • Baseados emgrafos do tipo Greedy: • SSAKE (http://www.bcgsc.ca/platform/bioinfo/software/ssake) • genomas • Solexa • (Warren, R.L. et al., 2007) • SHARCGS (http://sharcgs.molgen.mpg.de/) • genomas • Solexa • (Dohm, J.C. et al., 2007) • VCAKE (http://sourceforge.net/projects/vcake/) • genomas • Solexa • (Jeck, W.R. et al., 2007) Softwares montadores (Greedy)
  • 94.
    • Três passos: •1º detecção de sobreposição; • Alinhamento pareado entre todas as leituras – identificação dos pares com melhor match (alinhamento global + heurísticas [e.g. seed & extend]); • 2º layout dos fragmentos (montagem do contig); • Construção e manipulação do grafo de sobreposição (Analisar/Simplificar/Limpar); • Caminho Hamiltoniano; • 3º decisão da sequência (montagem do consenso); • Alinhamento Múltiplo de Sequências – normalmente baseado na pontuação dos pares com sobreposição (sum-of-pairs ou SP); • Realiza ajustes no layout se necessário; • Normalmente a frequência de um nucleotídeo em determinada posição determina a base consenso; Caminho Hamiltoniano – caminho que permite passar uma única vez por todos os nós do grafo (contig) – caminho elementar; Grafo de sobreposição: nós - reads; arestas - sobreposições; sobreposições não consideradas – ?caminhos alternativos? Overlap-Layout-Consensus (OLC)
  • 95.
    • Utilizam oparadigma OLC: • Phrap (http://www.phrap.org/) • genomas • Sanger, 454 • (Green, P., 1994 - unpublished) • CAP3 (http://seq.cs.iastate.edu/) • genomas, cDNAs • Sanger, 454 • (Huang, X. and Madan, A., 1999) • MIRA (http://sourceforge.net/projects/mira-assembler/) • genomas, cDNAs • Sanger, 454, Solexa • (Chevreux, B. et al., 1999) (Chevreux, B. et al., 2004) • Newbler (https://valicertext.roche.com/) • genomas, cDNAs • Sanger, 454 • Software Proprietário da Roche Softwares montadores (OLC)
  • 96.
    • Grafos k-mer •nós – todas as subsequências de tamanho k; • arestas – todas as sobreposições (k-1 bases) entre essas subsequências que são consecutivas na sequência original; • Pode representar as múltiplas sequências das leituras e implicitamente as sopreposições; aaccgg (k-mer 4): aacc accg ccgg ccggtt (k-mer 4): ccgg cggt ggtt [Miller, et al. 2009] Caminho Euleriano – caminho que atravessa cada aresta uma única vez (contig) – caminho simples; Grafo de de-Bruijn: nó – subsequência (k-mer); arestas – sobreposições; Grafos de Bruijin
  • 97.
    Em geral amontagem é um problema de redução de grafos. • NP-difíceis, não há uma solução eficiente conhecida; • Utilização de heurísticas: reduzir a redundância, reparar erros, reduzir a complexidade, alargar caminhos simples e simplificar o grafo; Vantagens • Desenvolvidos para lidar com a alta complexidade e o grande volume de dados dos NGS; • Rápida detecção de k-mers compartilhados - reduz custo computacional em relação à busca de sobreposições em alinhamentos pareados; • Não necessita comparações pareadas (todas x todas); Desvantagens • Usam muita memória (tabela hash k-mers); • Mais sensível a repetições e a erros de sequenciamento; • baixa sensibilidade (perde algumas sobreposições verdadeiras), dependendo do: • tamanho de k • tamanho da sobreposição • taxa de erro nas leituras Grafos de Bruijin
  • 98.
    Tamanho de k: • não pode ser nem muito grande, nem muito pequeno: • grande o suficiente para não pegar falsas sobreposições que compartilham k-mers por acaso; • pequeno o suficiente para que muitas sobreposições verdadeiras compartilhem k- mers; • O DNA é fita dupla, portanto a que se ter um mecanismo para identificar a correta orientação; - e.g. único nó (subsequência) com dois canais de entrada/saída – forward/reverse; • Repetições complexas (repetições em tandem, repetições invertidas, repetições imperfeitas, repetições inseridas em outras repetições). • Repetições maiores ou iguais a k levam a grafos complicados, que não contêm por si só informações suficientes para resolver a ambiguidade; - e.g. recorrer às sequências originais e possivelmente a fragmentos mate-pairs/paired-ends; Grafos de Bruijin
  • 99.
    • Baseados emgrafos de de-Bruijn: • VELVET /Oases (http://www.ebi.ac.uk/~zerbino/velvet/) • genomas, cDNAs • Solexa, SOLiD • (Zerbino, D.R. e Birney E., 2008) • ABySS/Trans-ABySS (http://www.bcgsc.ca/platform/bioinfo/software/abyss ) • genomas, cDNAs • Solexa, SOLiD • (Simpson, J.T, et al., 2009) (Birol, I., et. al., 2009) Softwares montadores (de-Bruijin)
  • 100.
    Pacote de programaspara: -Leitura de cromatogramas -Atribuição de qualidade a cada base -Mascaramento de vetores -Montagem de sequências -Visualização e edição dos contigs Phred: -Programa que lê os arquivos dos cromatogramas, atribui uma base a cada pico e valores de qualidade às bases. -A qualidade Phred corresponde a um inteiro entre 0 e 99 e está associada à probabilidade de erro de leitura. Uma base com qualidade 40 indica que o erro é 10-4 , ou seja 1 erro a cada 10.000 bases. Desse modo, quanto maior o Phred maior a qualidade do sequenciamento. Phrap: -É um programa para montagem das seqüências. -Gera várias informações sobre os contigs, contidas em path/edit_dir: phrap.out, *.ace and *.screen.contigs.qual files - Phred/Phrap/Cosed
  • 101.
    0 0 56 7 10 10 9 12 15 20 20 30 30 35 40 41 45 50 56 56 50 40 ... O programa PHRED lê o chromatograma identificando e dando uma nota para cada base que forma a sequência : Genome Research 8 (3) (1998), 175-
  • 102.
    - A identificaçãodos picos é feita através de uma transformada de fourier do sinal - A nota é ligada com a resolução entre os picos vizinhos e a altura do background background
  • 103.
    Onde q éa nota phred e P é a probabilidade encontrar uma base errada : - Nota phred = 20 => 1 base errada a cada 100 (99%) - Nota phred = 30 => 1 base errada a cada 1000 (99.9%)
  • 104.
    Phred/Phrap/Cosed Consed: -Programa para visualizaçãoe edição dos alinhamentos produzidos pelo Phrap.
  • 105.
    Repeats • Trechos desequência repetidos ao longo do genoma • Em procariotos: pouco frequente • Em fungos: média quantidade • Em algumas plantas e em vertebrados compõem a maior parte do genoma • Desafio para qualquer software, independente do paradigma usado a b c a c b a b c d I II III I II III a b c d b c a b d c e f I II III IV I III II IV a d b e c f a collapsed tandem excision rearrangement
  • 106.
  • 107.
    Scaffold Reads grandes facilitama montagem. Se eles forem pareados melhor ainda • Reads longos podem atravessar repeats • Reads paired-ends ajudam a resolver ambiguidades e atravessar repeats maiores Cobertura alta também ajuda, mas só até um certo ponto • Mais precisão para determinar as bases do consenso • Diminui as chances de haver regiões do genoma não sequenciadas • Regiões do genoma de cobertura atipicamente alta provavelmente representam repeats fundidos
  • 108.
    Montagem Comparativa • Emalgumas ocasiões, já existe um genoma de algum organismo parecido sequenciado (referência) • Queremos saber as diferenças entre o nosso genoma de interesse e a referência • Mais simples computacionalmente • Alinhamos os reads contra a referência, fazemos o layout e o consenso • Alignment-Layout-Consensus Ressequenciamento: SNPS, variações estruturais, variações de número de cópias DEL SNP reference genome
  • 109.
    Montagem Comparativa Montagem abinitio Montagem comparativa
  • 110.
    Considerações • Há umadiferenças enormes entre abordagens, funcionalidades e eficiência entre os diferentes algoritmos e implementações para as tarefas de alinhamento de sequências e montagem; • As diferentes abordagens refletem diretamente no processamento e especialmente no resultado das análises; • Portanto é necessário conhecer os princípios de cada abordagem, reconhecer os parâmetros e os resultados, para podermos utilizá-los da melhor forma possível. Promover a utilização racional dos programas disponíveis!!!
  • 111.
  • 112.
  • 113.
    Prospecção gênica eAnotação Ana Carolina Ramos Guimarães Laboratório de Genômica Funcional e Bioinformática Instituto Oswaldo Cruz – Fiocruz E-mail: carolg@fiocruz.br
  • 115.
    Anotação de genomas •Processo que consiste em analisar e interpretar sequências brutas de DNA, extraindo o significado biológico destas sequências. • Uma sequência isolada de DNA tem pouco ou nenhum valor, se não for anotada. A adição de anotações representa a adição de valor à sequência. Estas anotações podem representar um volume de informações muito maior que as próprias sequências.
  • 116.
    Anotação de genomas •Esta informação pode ser útil para:  Planejamento de experimentos  Interpretação de SNPs  Inferir a função de produtos gênicos  Predição de sítios regulatórios  Etc.
  • 117.
    Anotação de genomas •Que tipo de informação podemos adicionar a um registro (arquivo contendo uma sequência de DNA)?  Informações autorais  Composição, repetições, palíndromos, regiões de baixa complexidade, sítios polimórficos, localização de genes codificantes para proteínas e RNA, regiões regulatórias, a tradução conceitual dos genes, limites do mRNA, sítios de splicing, presença de fagos e elementos genéticos móveis, função dos genes, presença de domínios protéicos, etc...  Resultados de outros programas de análise  Diversos tipos de texto
  • 118.
    Anotação de genomas •Anotação manual dependente de informação derivada de programas de busca por similaridade e métodos ab initio de predição de genes. Extremamente intensiva. • Consequentemente, a anotação sempre possuirá problemas (inconsistências, falta de atualização, erros hereditários, etc) • Por esses problemas, o desenvolvimento de métodos automáticos confiáveis de anotação são extremamente desejáveis.
  • 119.
    Métodos computacionais - Anotação Podemosdividir as metodologias em duas categorias: - Metodologias em decorrência dos projetos genomas (Genômica Computacional): Esses projetos geram informações tais como a posição de determinados genes (devido à grande quantidade de sequências atualmente disponíveis). - Metodologias que utilizam o aspecto estrutural (Bioinformática Estrutural): Esses aspectos estruturais são provenientes, tanto de modelos protéicos, como de estruturas tridimensionais determinadas experimentalmente.
  • 120.
    Genômica computacional • Alinhamentoe busca de sequência: – Compara pares de sequências de DNA ou proteínas, e extrai combinações parciais possibilitando o uso de uma sequência biológica como uma consulta de banco de dados. • Genoma Diferencial (Huynen et al., 1997): – Compara genomas de organismos parecidos afim de localizar genes envolvidos em determinados aspetos fisiológicos. – A desvantagem do método é que outros genes podem não estar associados ao aspecto em questão e mesmo assim estar na lista.
  • 121.
    Genômica computacional • Atécnica de perfil filogenético (Pelligrini et al., 1999): – Componentes isolados dos complexos ou vias não são capazes de exercer suas funções, traça-se um perfil que ajudará na sua anotação funcional. Primeira etapa é observar a ausência/presença em vários genomas e buscar proteínas relacionadas funcionalmente com a proteína utilizada para a construção do perfil. • Contexto genômico (Overbeek et al., 1999): – Usa a existência de agrupamento (clusters) de genes nos genomas de procariotos para inferir uma relação funcional entre os genes presentes em novos agrupamentos descobertos. Há dois aspectos que devem ser levado em consideração: • a conservação de uma distância pequena entre um par de genes; • a conservação da ordem dos genes no DNA.
  • 122.
    Genômica computacional • Fusãode genes (Marcotte et al., 1999): – Analisa os casos em que duas proteínas se fundem para realização de uma função em via metabólica, pois faz-se inferências aos motivos de sua fusão. • a proximidade das duas numa via metabólica; • ser favorecida, em termos evolucionários, em caso de duas proteínas com funções relacionadas. • Similaridade de árvores filogenéticas (Pazos e Valencia, 2001): – Esse método fundamenta-se na observação de que a evolução coordenada de proteínas que se interagem leva as suas árvores filogenéticas a serem mais parecidas. Assim, analisando a correlação entre árvores construídas por duas proteínas quando achamos uma correlação significativa, há indicação de interação entre as proteínas.
  • 123.
    Bioinformática Estrutural Não somentea sequência protéica determina a atividade da proteína, mas também a sua estrutura tridimensional. Quando a proteína se dobra, os resíduos importantes são orientados na posição correta para exercer suas devidas funções. E essa identidade de resíduos chaves, são mais importantes do que a porcentagem total de identidade entre duas sequências. • Busca por possíveis sítios de ligação: – Geometria (Laskowski et al., 1996): • Sítios de ligação, muitas vezes, encontrados na maior depressão da superfície da proteína.
  • 124.
    Bioinformática Estrutural • Buscapor possíveis sítios de ligação: – Campo eletrostático (Laskowski et al., 1996): • Diferenças em campos eletrostático podem ser indicativas de diferenças funcionais. – Mapa de superfície de proteínas (Pawlowski e Godzik, 2001): • A partir das propriedades eletrostática e hidrofóbica é possível construir um mapa e sua similaridade com de um outro mapa possui relação maior com a sua similaridade de função do que com a similaridade de sequência.
  • 125.
    Bioinformática Estrutural • Buscapor sítios de catálise (aplicado somente para enzimas): – Baseado em evolução convergente: • Várias classes de enzimas, mesmo não tendo uma relação evolucionária, usam conjuntos estruturalmente semelhantes de resíduos catalíticos para efetuar as suas reações químicas.
  • 126.
    Anotação Funcional • Paraevitar que ocorra erros e que prejudique pesquisas futuras é necessário que a utilização de mais de uma dessas técnicas aqui apresentadas. • Ainda há muito o que melhorar, afim de que seja utilizado com bastante eficácia em campos como a agropecuária (ex.: melhor entendimento de mecanismos de defesa das plantas), e na medicina (ex.: produção de vacinas e desenvolvimento de novos fármacos).
  • 127.
    Anotação de genomas •O objetivo da anotação de alta qualidade é identificar as principais características do genoma - em particular, os genes e os seus produtos. • As ferramentas e os recursos para anotação estão se desenvolvendo rapidamente e a comunidade científica está se tornando cada vez mais dependente desse tipo de informação para todos os aspectos da pesquisa biológica.
  • 128.
    Anotação de genomas •Processo que consiste em analisar e interpretar sequências brutas de DNA, extraindo o significado biológico destas sequências • Tal processo ocorre através de múltiplos passos que podem ser classificados em 3 categorias distintas: – Anotação ao nível de nucleotídeos – Anotação ao nível de proteínas – Anotação ao nível de processos biológicos
  • 129.
    Nature Reviews Genetics2, 493-503 (July 2001)
  • 130.
    Identificação das sequências: –ONDE estão codificados os genes, os pseudogenes, os RNAs (tRNAs, rRNAs e ncRNAs); onde se localizam as sequências regulatórias, os elementos repetitivos, as regiões de duplicação e os polimorfismos (SNPs) no genoma? Anotação ao nível de nucleotídeos
  • 131.
    Anotação ao nívelde nucleotídeos • O que é um gene? – Numa concepção simplista podemos admitir que um gene é o segmento de DNA que codifica uma certa proteína. • Mas... E os íntros, elementos regulatórios... – A definição molecular de gene deve compreender um segmento de DNA bem maior do que o mínimo necessário para codificar os aminoácidos que fazem parte da sequência polipeptídica.
  • 132.
    Anotação ao nívelde nucleotídeos • Os genes podem ser: – Genes traduzidos (codificam proteínas) – Genes transcritos mas não traduzidos (codificam RNAs) – Genes não transcritos (sequências regulatórias, regiões estruturalmente importantes – centrômeros, telômeros, etc.)
  • 134.
    • Anotar épostular uma função para o produto de uma ORF ORF = Open Reading Frame (Matriz Aberta de Leitura) AUG UUU AAA CCC GGG ACG TAC UGA M F K P G T Y stop • As ORFs são sequências codificadoras em potencial por possuírem: – Códon de iniciação – Região codificadora – Códon de terminação Anotação ao nível de nucleotídeos
  • 135.
    Uma ORF nãoé uma CDS!!! Anotação ao nível de nucleotídeos
  • 136.
    • Três questõesimportantes:  Quais são as regiões codificadoras?  Qual a orientação da sequência?  Qual a sua fase de leitura? • Dois tipos de informação podem ser utilizadas para a detecção de genes: – Sequências-sinais (junções de splicing, promotores) – Conteúdo Anotação ao nível de nucleotídeos
  • 137.
  • 138.
    Abordagens para prediçãogênica:  Métodos estatísticos ou ab initio • Estes métodos tentam prever genes baseados em propriedades estatísticas da sequência de DNA (Ex: GENSCAN, GeneID)  Métodos comparativos • Uma dada cadeia de DNA é comparada com outra cadeia semelhante de uma espécie diferente evolutivamente próxima. Os genes são preditos assumindo a conservação de éxons (Ex: CEM-conserved exon method)  Busca por similaridade • Uma dada cadeia de DNA é comparada com a proteínas conhecidas (Ex: tBlastn) Anotação ao nível de nucleotídeos
  • 139.
    • Avaliação dotamanho da ORF - Em um DNA randômico, a distância média entre códons de parada é 64/3 ≈ 21, que é muito menos do que a duração média de uma proteína (≈300); algoritmo simples, mau desempenho • Avaliação da utilização de códons - A utilização de códons em regiões codificadoras difere das não codificadoras • Avaliação da preferência de códons - Um aminoácido pode ser codificado por mais de um códon diferente, algum deles são usado com mais frequência do que os outros • Modelos de Markov e HMMs Predição de ORF
  • 140.
    Procariotos x Eucariotos •Estrutura, organização, dinâmica e evolução dos genomas procarióticos e eucarióticos são muito diferentes
  • 141.
  • 142.
  • 143.
  • 144.
    Procariotos x Eucariotos •Devido a essas diferenças, distintos sistemas foram desenvolvidos para a anotação automática de genomas procarióticos e
  • 145.
    • Translate Tool –Traduz a sequência nas 6 possíveis fases de leitura Algumas maneiras de anotação ao nível de nucleotídeos
  • 148.
    • ORF Finder –Detecta ORFS (open reading frames) através da identificação de start/stop códons.
  • 150.
    • ORF Finder– considerações sobre o método: - difícil discriminação entre regiões codificantes e regiões não-codificantes. - é necessária a identificação de sinais (RBS, início de transcrição/tradução, terminação, limites éxon/íntron), para assinalar a sequência como sendo codificante. - existência de start códons alternativos. - em sequências eucarióticas o método pode perder muito em eficiência (éxons/íntrons).
  • 151.
    • Glimmer (GeneLocator and Interpolated Markov ModelER): – Utiliza um método estatístico baseado em cadeias de Markov para distinguir regiões codificadoras de não-codificadoras. – traduzindo: para uma sequência de DNA, uma cadeia de Markov modela a probabilidade de ocorrência de um determinado nucleotídeo, dado um determinado contexto (que é a sequência de bases imediatamente anterior a este nucleotídeo). – ou ainda: qual a probabilidade da ocorrência de um G depois de um A? Ou depois de um AG?
  • 154.
    • Glimmer –considerações sobre o método: – é o método de escolha para a análise de grandes segmentos de DNA. – processamento automático de grande eficiência - minimiza a interferência humana. – alta taxa de acertos: prediz corretamente ~ 99% dos genes, com relativamente poucos falsos positivos. – pode ser utilizado (com modificações) para a predição de seqüências codificadoras em genomas eucarióticos.
  • 155.
    Identificação das prováveisfunções dos genes: - QUAL é o catálogo completo de proteínas codificadas no genoma, qual a identidade destas proteínas e quais são as suas prováveis funções no organismo em estudo? Anotação ao nível de proteínas
  • 156.
    • Busca porsimilaridade contra bancos de dados conhecidos. (Ex: GenBank, Swiss-Prot, KEGG ...) • Busca por “informações” importantes contidas na sequência ou estrutura da proteína.
  • 158.
    • HMMs foramutilizados para a construção dos bancos e para detecção de domínios em sequências pesquisadas no PFAM • Devido ao fato de grande parte destes elementos repetitivos serem derivados de elementos de transposição espera-se que alguns deles ainda apresentem regiões codificadoras que podem confundir os programas de predição de genes • Por isso antes da predição de genes é necessário realizar uma mascaramento da sequência genômica que retire os elementos repetitivos da analise de predição de genes PFAM – DB de famílias
  • 160.
    • Utiliza parabusca o RPS-Blast (Reverse Position-Specific BLAST), que seria uma espécie de versão reversa do PSI-Blast • A diferença neste tipo de busca é que uma matriz de posição (position-specific score matrices-PSSM) é calculada para cada família e quando realizamos a busca nossa sequências será comparada com uma sequência consenso de cada família utilizando a sua respectiva matriz. • Apesar de utilizar famílias derivadas do Pfam e Smart, o CDD calcula PSSM para estas famílias e portanto a busca não é idêntica a realizadas diretamente nestes bancos, que utilizam HMM. CDD – Conserved Domains Database
  • 161.
    CDD – ConservedDomains Database
  • 162.
    CDD – Resultado Alinhamentocontra a sequência consenso do domínio Resíduos em vermelho-possuem identidade entre sequência e consenso
  • 163.
    CDD – Resultado Resíduosem vermelho-Altamente conservado (alto peso no PSSM) Resíduos em azul –Menor conservação (baixo peso no PSSM) Resíduos em cinza e minúsculos-Não conservados (posições não presentes no PSSM)
  • 164.
  • 166.
    • Elementos repetitivosmuitas vezes possuem repetições de padrões e por isso não comportam-se como seria esperado para uma sequência randômica • Devido ao fato de grande parte destes elementos repetitivos serem derivados de elementos de transposição espera-se que alguns deles ainda apresentem regiões codificadoras que podem confundir os programas de predição de genes • Por isso antes da predição de genes é necessário realizar uma mascaramento da sequência genômica que retire os elementos repetitivos da analise de predição de genes Anotação - repetições
  • 167.
    • Elementos de transposiçãopodem se inserir nos íntrons de genes. • Como não são essenciais para os organismos estes elementos tendem a sofrer mutações que Anotação - repetições
  • 168.
    • Ferramenta quecompara sequências contra um banco de dados pré-existente contendo elementos repetitivos previamente descritos de diversos organismos • Busca também repetições simples que consistem na repetição continua de motivos simples Repeat masker
  • 169.
    Repeat masker • Sumáriomostra os elementos detectados bem como o numero de bases ocupadas por estes elementos • Nova sequência é fornecida ao usuário contendo Ns no lugar das bases dos elementos repetitivos. • Isso permite que programas de predição de genes ignorem estas bases, mas a informação de estrutura deste segmento de DNA não é perdida
  • 172.
    Identificação das viasmetabólicas e processos dos quais os diferentes genes/proteínas participam: - COMO os elementos funcionais identificados no genoma se relacionam com os inúmeros processos biológicos (ciclo celular, desenvolvimento, metabolismo, regulação, resposta a estímulos, sinalização, transporte, etc.)? Anotação ao nível de processos
  • 174.
  • 175.
    • Utilização donúmero E.C. (Enzyme Comission), sistema de classificação estabelecido • Nomenclatura possui quatro níveis hierárquicos sendo que o primeiro nível divide entre as seis famílias principais KEGG
  • 176.
    KEGG EC branco (ausênciano organismo), verde (presença no organismo)
  • 177.
    Anotação automática degenomas • Portanto, o processo de anotação genômica completo é intrinsecamente complicado e envolve a combinação de uma gama de métodos computacionais e experimentais em sua execução • Uma vez que a anotação manual é extremamente laboriosa, cara e demorada, sistemas automatizados chamados pipelines
  • 178.
    Sistemas de Anotação •Estes sistemas diferem no que diz respeito às estratégias particulares de anotação utilizadas, aos tipos de anotações que estão disponíveis, como as anotações são apresentadas e quanta edição manual pode ser realizada • Importante ressaltar que pipelines de anotação inteiramente automáticos, embora essenciais, podem introduzir e propagar anotações gênicas inconsistentes e incorretas
  • 179.
    Pipeline de anotação MicrobialBiotechnology, Volume 3, Issue 4, pages 362–369, July 2010 (1) (2) (3) (4) 1. Preditores de genes: Glimmer, GeneMark (ab initio); TwinScan, FGENESH, Augustus, Gnomon, GAZE, SNAP (evidence-driven) 2. BDs de sequências: UniProtKB/SwissProt (proteínas); dados de ESTs ou RNA-Seq (cDNA) do próprio genoma a ser anotado 3. BDs de genes ortólogos (COG), de ontologia (GO), de assinatura de proteínas – domínios, motivos, padrões e perfis (InterPro), de vias metabólicas (KEGG), de estrutura 3D (PDB) 4. Predição de peptídeo sinal (SignalP), porções transmembranares (tmHMM), localização subcelular (PSORT) etc. 5. BDs de genomas completos (NCBI RefSeq) 6. Perfil filogenético (co-ocorrência) de genes; fusão/fissão gênica; conservação de vizinhança gênica (óperons/clusters) (5) (6)
  • 180.
    Microbial Biotechnology, Volume3, Issue 4, pages 362–369, July 2010 Pipelines de anotação automática de genomas procarióticos de uso local ou via web
  • 181.
    Nature Reviews Genetics13, 329-342 (May 2012) Pipelines de anotação automática de genomas eucarióticos de uso local ou via web e navegadores de genomas para a edição manual da anotação
  • 182.
    Apesar da anotaçãofornecer uma função inferida do produto gênico, ela apresenta alguns problemas: • Nem sempre é obvio para um não- especialista a função exata e contexto no qual atua a proteína codificada a partir do nome desta • Pesquisadores buscando entender processos necessitam primeiro realizar uma Limitações do processo de anotação
  • 183.
    Limitações do processode anotação • Nomes diferentes são atribuídos aos produtos de genes que possuem o mesmo nome, em Anotação inconsistente Brief Bioinform. 2013 Jan;14(1):1-12
  • 184.
  • 185.
    • Série devocabulários controlados que apresenta uma relação hierárquica entre si. • Através do uso deste termos é possível gerar diversas descrições do produto de um dado transcrito que podem ser buscadas através de palavras chaves ou navegando por uma árvore de termos • Vocabulário descreve fenômenos moleculares e não objetos moleculares, não sendo substituto de outras anotações mais tradicionais Gene Ontology (GO)
  • 186.
    • Dividido emtrês categorias principais: – Processo biológico: Indica associação a eventos gerados a partir de um ou mais conjuntos ordenados de funções moleculares (ex. transporte de lipídeos, geração de gametas, quimiotropismo) – Componente celular: Indica a possível localização do produto protéico (ex: núcleo, reticulo endoplasmático, proteassomo) – Função molecular: Descreve atividades que ocorrem a nível molecular (ex: transporte de lipídeo acoplado a atividade ATPasica, atividade receptora de GABA) Gene Ontology (GO)
  • 187.
    • Permite anavegação em uma arvore contendo os termos existentes para o GO, que também contêm associado uma series de genes previamente classificados GO – Tree browser
  • 188.
    GO – Treebrowser
  • 189.
  • 190.
  • 198.
    Spidey Programa de mapeamentode seqüências de mRNA em porções de DNA genômico •Possui vantagens em relação a alinhamento no blast2sequences pois o programa busca os sítios de splicing e permite apenas um alinhamento por região do RNA, alem disso o seu algoritimo busca evitar o alinhamento em porções do gene em pseudogenes ou copias do gene adjacentes a este
  • 201.
    • Exemplo dealinhamento de um exon
  • 210.

Notas do Editor

  • #6 Cada ddNTP utiliza um fluorocromo diferente, portanto as reações podem ser feitas em um mesmo tubo.
  • #9 Cada ddNTP utiliza um fluorocromo diferente, portanto as reações podem ser feitas em um mesmo tubo.
  • #11 Cada ddNTP utiliza um fluorocromo diferente, portanto as reações podem ser feitas em um mesmo tubo.
  • #12 Cada ddNTP utiliza um fluorocromo diferente, portanto as reações podem ser feitas em um mesmo tubo.
  • #13 Cada ddNTP utiliza um fluorocromo diferente, portanto as reações podem ser feitas em um mesmo tubo.
  • #14 Cada ddNTP utiliza um fluorocromo diferente, portanto as reações podem ser feitas em um mesmo tubo.
  • #15 Cada ddNTP utiliza um fluorocromo diferente, portanto as reações podem ser feitas em um mesmo tubo.
  • #16 Cada ddNTP utiliza um fluorocromo diferente, portanto as reações podem ser feitas em um mesmo tubo.
  • #17 Cada ddNTP utiliza um fluorocromo diferente, portanto as reações podem ser feitas em um mesmo tubo.
  • #84 NOte that contig orientation/order is not determined
  • #94 A maioria dos softwares utilizam heurísticas para chegar a uma solução ótima local, para uma solução ótima global é necessário o uso de programação dinâmica, generalizando o conceito de programação dinâmica para n dimensões. Viável apenas para no máximo 3 dimensões.
  • #97 Tamanho de k (não pode ser nem muito grande, nem muito pequeno): - grande o suficiente para não pegar falsas sobreposições que compartilham k-mers por acaso; - pequena suficiente para que muitas sobreposições verdadeiras compartilhem k-mers; Mais sensível a repetições e a erros de sequenciamento; cada erro de única base induz a k falsos nós no grafo; sendo que cada falso nó tem uma chance de match com algum outro nó, induzindo a problemas na convergência do caminho que determina o contig e a sequência consenso; convergência no grafo de sobreposição é uma read menor que a repetição e no grafo de bruijn a convergência é quando há repetições de tamanho k ou maiores; redução de grafos – redução da complexidade do grafo;