A apresentação mostra e compara diferentes técnicas de sequenciamento de DNA desde o método de Sanger desenvolvido em 1977 até o método de sequenciamento de molécula simples de DNA, o Nanopore. Alguns links mostravam vídeos na apresentação original e caso tenham interesse entrem em contato: joseph.am.evaristo@gmail.com
2. Sequenciamento de DNA
• É o processo de determinação da ordem precisa de nucleotídeos na
molécula de DNA.
• Inclui qualquer método ou tecnologia que é usada para determinar a ordem
das quatro bases nitrogenadas: Adenina, Guanina, Citosina e Timina
• Com o advento de métodos rápido de sequenciamento de DNA, grandes
descobertas e pesquisas médicas e biológicas tem sido aceleradas na última
década.
7. Obtenção das bibliotecas genômicas
Purificação do DNA
genômico
(qualidade e quantidade)
Fragmentação mecânica
do DNA genômico
(tamanhos variados)
Construção das Bibliotecas
de DNA genômico
(clonagem em plasmídios
bacterianos ou fagos)
8. • Vantagens
• Reads longos (~900bps)
• Desvantagens
• Baixo rendimento
• Alto custo
• DNA molde + dNTPs e ddNTPs + DNApolimerase + Primer
• Amplificação-PCR
• Eletroforese em Gel de acrilamida
• Os fragmentos migram distâncias proporcionais ao seu tamanho.
9. Leroy Hood
1ª Geração de sequenciadores automáticos
Automação do Sequenciamento
ABI PRISM 370 (1987)
19. 2001: Human Genome Project
2.7G$, 11 years
2001: Celera
100M$, 3 years
2007: 454
1M$, 3 months
2008: ABI SOLiD
60K$, 2 weeks
2009: Illumina,
Helicos
40-50K$ 2010: 5K$,
a few days?
2012: 1000$,
<24 hrs?
20. 2ª Geração de seqüenciamento
• Genome Analyser - Seqüenciamento por término reversível
(Illumina-Solexa)
• 454 - Pirosequenciamento (Roche)
• SOLiD - Seqüenciamento por ligação de sondas (Applied
Biosystems - Life)
21. HiSeq 2000
Illumina
Produz acima de 600Gb por corrida em 13 dias.
Custo de resequenciar um genoma humano:
UNC-CH Genome Analysis Facilit - (30x cobertura)
aproximadamente $6,000
HiSeq 2500
Produz acima de 100Gb por corrida em 27h.
MiSeq
- Sistema de pequena capacidade
- PE 2x250cycles in 27hours.
22. • Lançada comercialmente em 2006
Seqüenciamento por término reversível :
Genome Analyzer
• Etapas:
1) Ligação de adaptadores
2) PCR em ponte (formação de clusters)
3) Seqüenciamento
23. 1. Preparar DNA genômico
2. Ligar o DNA a superfície
3. Amplificação por ponte
4. Fragmentos se tornam
dupla fita
5. Desnaturar as moléculas
dupla fita
6. Amplificação completa
Fragmentação randômica do DNA e ligação
de adaptadores nas duas pontas de cada
fragmento.
Amplificação
24. 1. Preparar DNA genômico
2. Ligar o DNA a superfície
3. Amplificação por ponte
4. Fragmentos se tornam
dupla fita
5. Desnaturar as moléculas
dupla fita
6. Amplificação completa
Ligação randômica dos fragmentos fita
simples à superfície dos canais da flow cell.
25. 1. Preparar DNA genômico
2. Ligar o DNA a superfície
3. Amplificação por ponte
4. Fragmentos se tornam
dupla fita
5. Desnaturar as moléculas
dupla fita
6. Amplificação completa
Adição de nucleotídeos não marcados e
enzima para iniciar a amplificação por
ponte em fase sólida.
26. 1. Preparar DNA genômico
2. Ligar o DNA a superfície
3. Amplificação por ponte
4. Fragmentos se tornam
dupla fita
5. Desnaturar as moléculas
dupla fita
6. Amplificação completa
A enzima incorpora nucleotídeos para
construir pontes de fita dupla na
superfície sólida.
27. 1. Preparar DNA genômico
2. Ligar o DNA a superfície
3. Amplificação por ponte
4. Fragmentos se tornam
dupla fita
5. Desnaturar as moléculas
dupla fita
6. Amplificação completa
Desnaturação deixa os DNA moldes fita
simples ancorados ao substrato sólido.
28. 1. Preparar DNA genômico
2. Ligar o DNA a superfície
3. Amplificação por ponte
4. Fragmentos se tornam
dupla fita
5. Desnaturar as moléculas
dupla fita
6. Amplificação completa
São gerados milhões de clusters de DNA
fita simples em cada canal da flow cell.
29. 7. Determina a primeira base
8. Imagem da primeira base
9. Determina segunda base
10. Imagem do Segundo ciclo
químico
11. Sequenciamento sobre
multiplos ciclos químicos
12. Alinhamento dos dados
O primeiro ciclo de sequenciamento começa
com adição de quarto nucleotídeos marcados
reversivelmente, primers e DNA polimerase.
Sequenciamento
30. 7. Determina a primeira base
8. Imagem da primeira base
9. Determina segunda base
10. Imagem do Segundo ciclo
químico
11. Sequenciamento sobre
multiplos ciclos químicos
12. Alinhamento dos dados
Após a excitação com laser, a fluoresceência
emitida de cada cluster é capturada por uma
câmera e a primeira base é identificada
31. 7. Determina a primeira base
8. Imagem da primeira base
9. Determina segunda base
10. Imagem do Segundo ciclo
químico
11. Sequenciamento sobre
multiplos ciclos químicos
12. Alinhamento dos dados
O próximo ciclo repete a incorporação
de quatro nucleotídeos marcados,
primers e DNA polimerase
32. 7. Determina a primeira base
8. Imagem da primeira base
9. Determina segunda base
10. Imagem do Segundo ciclo
químico
11. Sequenciamento sobre
multiplos ciclos químicos
12. Alinhamento dos dados
Após a excitação com o laser a imagem é
capturada como anteriormente e a
identidade da segunda base é gravada.
42. 7. Determina a primeira base
8. Imagem da primeira base
9. Determina segunda base
10. Imagem do Segundo ciclo
químico
11. Sequenciamento sobre
multiplos ciclos químicos
12. Alinhamento dos dados
Alinhamento dos dados, comparar com uma
referência e identificar diferenças na sequência
52. GS FLX+ System
Sequencing Kit New! GS FLX Titanium XL+ GS FLX Titanium XLR70
Read Length Up to 1,000 bp Up to 600 bp
Mode Read Length 700 bp 450 bp
Throughput Profile
- 85% of total bases from reads
>500 bp
- 45% of total bases from reads
>700 bp
- 85% of total bases from reads
> 300 bp
- 20% of total bases from reads
> 500 bp
Typical Throughput 700 Mb 450 Mb
Reads per Run ~1,000,000 shotgun
~1,000,000 shotgun,
~700,000 amplicon
Consensus Accuracy* 99.997% 99.995%
Run Time 23 hours 10 hours
Sample Input gDNA or cDNA
gDNA, cDNA, or amplicons (PCR
products)
53. • Data de comercialização = 2007
• Etapas:
1) Ligação de adaptadores
2) PCR em emulsão
3) Seqüenciamento
Seqüenciamento por ligação de sondas
(SOLiD)
• SOLiD = Sequencing by Oligo Ligation and Detection
59. 1) Anelamento do primer e ligação da sonda
Seqüenciamento por ligação de sondas
(SOLiD)
60. 2) Captura da imagem da cor emitida
Seqüenciamento por ligação de sondas
(SOLiD)
61. 3) Clivagem da sonda
Seqüenciamento por ligação de sondas
(SOLiD)
62. 4) As etapas de 1 a 3 se repetem
1) Anelamento da sonda
2)Captura de imagem
3) Clivagem
Seqüenciamento por ligação de sondas
(SOLiD)
63. 6) Fitas de DNA retornam ao estágio inicial de simples fita e ocorre
anelamento do primer n - 1
Seqüenciamento por ligação de sondas
(SOLiD)
64. 7) As etapas 1 – 4 são repetidas com novo primer
1) Anelamento da sonda
2)Captura de imagem
3) Clivagem
4) Repetir 1-3 n ciclos
Seqüenciamento por ligação de sondas
(SOLiD)
66. 1o Ciclo
2o Ciclo (n-1)
3o Ciclo (n-2)
4o Ciclo (n-3)
5o Ciclo (n-4)
A A
A T
T G
G G
G C
C G
G C
C T
T A
A G
G G
G C
A T G G C G C T A G G C
2a Base
1
a
Base
Seqüenciamento por ligação de sondas (SOLiD)
68. Plataforma Tamanho da
leitura (bases)
Tempo de
corrida
(dias)
Gb por
corrida
MegaBace
(96 capilares)
100-1000 0,1 96kb
454
(Roche)
400 0,35 0,45
SOLiD4
(Applied Biosystems)
35 ou 50 6-16 100
Genome Analyser II
(Illumina / Solexa)
HiSeq2000
75 ou 100 4-9 35
200
Quantos pares de bases é capaz de seqüenciar?
69. 3ª Geração de seqüenciamento
• O que mudou?
- Não possui etapa de amplificação (Single molecule)
- Maior sensibilidade na leitura
• Pacific Bioscience
70. 3ª Geração de seqüenciamento
Single Molecule Real Time (SMRT)- Pacific Bioscience
71. Sample
Preparation
LS – long sequencing reads
• Large insert sizes (2kb-10kb)
• Generates one pass on each molecule sequenced
• Small insert sizes 500bp
• Generates multiple passes on each molecule sequenced
Standard
Circular Consensus
CCS – high quality sequencing reads
PacBio RS – two sequencing modes
73. Personal Genome Machine – Ion Torrent
(life technologies)
Three types of semiconductor chips:
314 – 20Mb
316 - 200Mb
318 – 1Gb
Read length depends on base composition
200-250bp (200cycles)
System is enabled for Paired End
2x100cycles
The fastest sequencing system on the
market.
Recommendation:
Resequencing applications which require
fast turnaround of samples
- Amplicons (PCR products)
- Small and medium size genomes
- Custom DNA capture applications
How it works:
H+ ion is released during
base incorporation.
Individual polymerases
attached to beads are
positioned in tiny wells that
rest on a tiny pH meter.
74. PGM/Ion Torrent Data 316 chip
Thr.
Total Number of Bases [Mbp] 77.65
‣ Number of Q17 Bases [Mbp] 36.11
‣ Number of Q20 Bases [Mbp] 27.33
Total Number of Reads 368,860
Mean Length [bp] 211
Longest Read [bp] 380
75. Ion Proton System
- Human genome in one day
- Cost of reagents $1000 per run
- Error rate around 1.2%
- Human Genome, RNAseq, ChIPseq
Ion Proton Chip I – 10Gb
(Whole Exome capture
experiments)
Ion Proton Chip II – 100Gb
Whole human Genome
resequencing
83. Objetivos para sequenciamento genômico
Exemplo
Sequenciamento
de novo
Sequenciamento
genômico
Sequenciamento de >1000 genomas
de influenza
DNA de org. extinto Neanderthal
Metagenomica Intestino humano
Resequencia-
mento
Genomas completos Indivíduos humanos
Regiões genômicas Detecção de rearranjos ou regiões
associados à doenças
Mutações somáticas Em câncer
Transcriptoma mRNA Definir regulação da transcrição
Serial Analysis of Gene
Expression (SAGE)
RNAs não codificadores Identificar e quantificar microRNAs
Epigenética Padrão de Methilação Avaliar padrão de metilação em
câncer
88. Tools for generating alignments!
There are MANY software packages available for aligning data from
next generation sequencing experiments.!
Three of the most popular are:!
– BWA: http://bio-bwa.sourceforge.net!
– Bowtie: http://bowtie-bio.sourceforge.net!
– CLC Genome Workbench- Private
89. ALIGNMENT FORMATS!
SAM (Sequence Alignment/Map) format has become the de facto
standard for storing alignment data.
BAM is a binary version of SAM allowing more efficient storage.
90. SEQUENCE FILE FORMATS
There are a lot of file sequence formats.
They include different information about the sequence. The most
common file formats in the NGS world are:
sff,
fastq and
fasta.
Every program have different requirement, so every program asks for
different file formats
92. FASTA
The fasta format is the most simple one.
Each sequence starts with a “>” followed by the sequence name, an
space and, optionally, the description
>seq_1 description
GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAA
CTCACAGTTT >seq_2
ATCGTAGTCTAGTCTATGCTAGTGCGATGCTAGTGCTAGTCGTATGCAT
GGCTATGTGTG