DNA-NG: Revolução do Sequenciamento

SEQUENCIAMENTO DE
NOVA GERAÇÃO
Dr. Joseph Albert Medeiros Evaristo
Departamento de Genética-LIPB
CIG 2013

Sequenciamento de DNA
• É o processo de determinação da ordem precisa de nucleotídeos na
molécula de DNA.
• Inclui qualquer método ou tecnologia que é usada para determinar a ordem
das quatro bases nitrogenadas: Adenina, Guanina, Citosina e Timina
• Com o advento de métodos rápido de sequenciamento de DNA, grandes
descobertas e pesquisas médicas e biológicas tem sido aceleradas na última
década.

Evolução da revolução do DNA

Gerações de Seqüenciadores
3ª Geração
(single molecule)
Single Molecule Real Time –
SMRT
(Pacific Bioscience)
HeliScope (Helicos Bioscience)
454 (Roche)
2ª Geração
(amplificação clonal)
SOLiD (Life Technologies)
HiSeq2000, HiSeq2500, MiSeq
Illumina
Ion Torrent- PGM, Proton
(Life Technologies)
GridION-Oxford Nanopore
4ª Geração
(Post-Light)
1ª Geração
(clonagem)
Sanger

•Método de Sanger de sequenciamento
 Premio Nobel 1980

Obtenção das bibliotecas genômicas
Purificação do DNA
genômico
(qualidade e quantidade)
Fragmentação mecânica
do DNA genômico
(tamanhos variados)
Construção das Bibliotecas
de DNA genômico
(clonagem em plasmídios
bacterianos ou fagos)

• Vantagens
• Reads longos (~900bps)
• Desvantagens
• Baixo rendimento
• Alto custo
• DNA molde + dNTPs e ddNTPs + DNApolimerase + Primer
• Amplificação-PCR
• Eletroforese em Gel de acrilamida
• Os fragmentos migram distâncias proporcionais ao seu tamanho.

Leroy Hood
1ª Geração de sequenciadores automáticos
Automação do Sequenciamento
ABI PRISM 370 (1987)

Sanger Sequencing
•Eletroforese Capilar (1990)
•Eletroforese em gel

Completed genome projects (october/08)
Eukaryotes: 23 complete; 242 assembly, 224 in progress
Viruses: 2,129 complete
Bacteria: 714 complete
Archaea: 52 complete
Organellar: 1,709 complete
Metagenomics projects: 195
NATURE Vol 464 1 April 2010

N AT U R E | VO L 4 7 0 | 1 0 F E B R U A RY 2 0 1 1

NEXT-GENERATION SEQUENCING (DEEP SEQUENCING)
PLATFORMS
1. Genome Analyzer IIx (GAIIx), HiSeq2000, HiSeq2500,
MiSeq – Illumina
2. Genome Sequencer FLX System (454) – Roche
3. SOLiD 5500xl System – Applied Biosystem
4. HeliScope™ Single Molecule Sequencer - Helicos
5. PacBio RS - Pacific Bioscience
6. Personal Genome Machine, Ion Proton - Ion Torrent
7. GridION, MinION – Oxford Nanopore

FIRST
GENERATION
TECHNOLOGY
(Sanger)
SECOND
GENERATION
TECHNOLOGY
(Clonal
Amplification)
Abordagens de seqüenciamento
Nature Biotechnol. 26,1135(2008)

2001: Human Genome Project
2.7G$, 11 years
2001: Celera
100M$, 3 years
2007: 454
1M$, 3 months
2008: ABI SOLiD
60K$, 2 weeks
2009: Illumina,
Helicos
40-50K$ 2010: 5K$,
a few days?
2012: 1000$,
<24 hrs?

2ª Geração de seqüenciamento
• Genome Analyser - Seqüenciamento por término reversível
(Illumina-Solexa)
• 454 - Pirosequenciamento (Roche)
• SOLiD - Seqüenciamento por ligação de sondas (Applied
Biosystems - Life)

HiSeq 2000
Illumina
Produz acima de 600Gb por corrida em 13 dias.
Custo de resequenciar um genoma humano:
UNC-CH Genome Analysis Facilit - (30x cobertura)
aproximadamente $6,000
HiSeq 2500
Produz acima de 100Gb por corrida em 27h.
MiSeq
- Sistema de pequena capacidade
- PE 2x250cycles in 27hours.

• Lançada comercialmente em 2006
Seqüenciamento por término reversível :
Genome Analyzer
• Etapas:
1) Ligação de adaptadores
2) PCR em ponte (formação de clusters)
3) Seqüenciamento

1. Preparar DNA genômico
2. Ligar o DNA a superfície
3. Amplificação por ponte
4. Fragmentos se tornam
dupla fita
5. Desnaturar as moléculas
dupla fita
6. Amplificação completa
Fragmentação randômica do DNA e ligação
de adaptadores nas duas pontas de cada
fragmento.
Amplificação

dupla fita
dupla fita
Ligação randômica dos fragmentos fita
simples à superfície dos canais da flow cell.

dupla fita
dupla fita
Adição de nucleotídeos não marcados e
enzima para iniciar a amplificação por
ponte em fase sólida.

dupla fita
dupla fita
A enzima incorpora nucleotídeos para
construir pontes de fita dupla na
superfície sólida.

dupla fita
dupla fita
Desnaturação deixa os DNA moldes fita
simples ancorados ao substrato sólido.

dupla fita
dupla fita
São gerados milhões de clusters de DNA
fita simples em cada canal da flow cell.

7. Determina a primeira base
8. Imagem da primeira base
9. Determina segunda base
10. Imagem do Segundo ciclo
químico
11. Sequenciamento sobre
multiplos ciclos químicos
12. Alinhamento dos dados
O primeiro ciclo de sequenciamento começa
com adição de quarto nucleotídeos marcados
reversivelmente, primers e DNA polimerase.
Sequenciamento

químico
Após a excitação com laser, a fluoresceência
emitida de cada cluster é capturada por uma
câmera e a primeira base é identificada

químico
O próximo ciclo repete a incorporação
de quatro nucleotídeos marcados,
primers e DNA polimerase

químico
Após a excitação com o laser a imagem é
capturada como anteriormente e a
identidade da segunda base é gravada.

Seqüenciamento
Genome Analyzer

A
T
C
G
Seqüenciamento
Genome Analyzer

A
Seqüenciamento
Genome Analyzer

A
T
C
G
A
Seqüenciamento
Genome Analyzer

T
C
G
A
Seqüenciamento
Genome Analyzer
A

T
Seqüenciamento
Genome Analyzer
A

Seqüenciamento
Genome Analyzer
2 ciclo
1 ciclo
3 ciclo 4 ciclo 5 ciclo 6 ciclo

químico
Alinhamento dos dados, comparar com uma
referência e identificar diferenças na sequência

• Comercializada em 2004
Pirosequenciamento – 454/Roche
• Etapas:
- Ligação de adaptadores
- PCR em emulsão
- Seqüenciamento

*dNTP – só um deles

Resultado
Pirosequenciamento– 454/Roche

GS FLX+ System
Sequencing Kit New! GS FLX Titanium XL+ GS FLX Titanium XLR70
Read Length Up to 1,000 bp Up to 600 bp
Mode Read Length 700 bp 450 bp
Throughput Profile
- 85% of total bases from reads
>500 bp
>700 bp
> 300 bp
> 500 bp
Typical Throughput 700 Mb 450 Mb
Reads per Run ~1,000,000 shotgun
~1,000,000 shotgun,
~700,000 amplicon
Consensus Accuracy* 99.997% 99.995%
Run Time 23 hours 10 hours
Sample Input gDNA or cDNA
gDNA, cDNA, or amplicons (PCR
products)

• Data de comercialização = 2007
• Etapas:
1) Ligação de adaptadores
2) PCR em emulsão
3) Seqüenciamento
Seqüenciamento por ligação de sondas
(SOLiD)
• SOLiD = Sequencing by Oligo Ligation and Detection

3) Seqüenciamento
(SOLiD)

(SOLiD)
3) Seqüenciamento

(SOLiD)

1) Anelamento do primer e ligação da sonda
(SOLiD)

2) Captura da imagem da cor emitida
(SOLiD)

3) Clivagem da sonda
(SOLiD)

4) As etapas de 1 a 3 se repetem
1) Anelamento da sonda
2)Captura de imagem
3) Clivagem
(SOLiD)

6) Fitas de DNA retornam ao estágio inicial de simples fita e ocorre
anelamento do primer n - 1
(SOLiD)

7) As etapas 1 – 4 são repetidas com novo primer
1) Anelamento da sonda
2)Captura de imagem
3) Clivagem
4) Repetir 1-3 n ciclos
(SOLiD)

1o Ciclo
2o Ciclo (n-1)
3o Ciclo (n-2)
4o Ciclo (n-3)
5o Ciclo (n-4)
A A
A T
T G
G G
G C
C G
G C
C T
T A
A G
G G
G C
A T G G C G C T A G G C
2a Base
1
a
Base
Seqüenciamento por ligação de sondas (SOLiD)

Diferenças entre as metodologias

Plataforma Tamanho da
leitura (bases)
Tempo de
corrida
(dias)
Gb por
corrida
MegaBace
(96 capilares)
100-1000 0,1 96kb
454
(Roche)
400 0,35 0,45
SOLiD4
(Applied Biosystems)
35 ou 50 6-16 100
Genome Analyser II
(Illumina / Solexa)
HiSeq2000
75 ou 100 4-9 35
200
Quantos pares de bases é capaz de seqüenciar?

• O que mudou?
- Não possui etapa de amplificação (Single molecule)
- Maior sensibilidade na leitura
• Pacific Bioscience

Single Molecule Real Time (SMRT)- Pacific Bioscience

Sample
Preparation
LS – long sequencing reads
• Large insert sizes (2kb-10kb)
• Generates one pass on each molecule sequenced
• Small insert sizes 500bp
• Generates multiple passes on each molecule sequenced
Standard
Circular Consensus
CCS – high quality sequencing reads
PacBio RS – two sequencing modes

Personal Genome Machine – Ion Torrent
(life technologies)
Three types of semiconductor chips:
314 – 20Mb
316 - 200Mb
318 – 1Gb
Read length depends on base composition
200-250bp (200cycles)
System is enabled for Paired End
2x100cycles
The fastest sequencing system on the
market.
Recommendation:
Resequencing applications which require
fast turnaround of samples
- Amplicons (PCR products)
- Small and medium size genomes
- Custom DNA capture applications
How it works:
H+ ion is released during
base incorporation.
Individual polymerases
attached to beads are
positioned in tiny wells that
rest on a tiny pH meter.

PGM/Ion Torrent Data 316 chip
Thr.
Total Number of Bases [Mbp] 77.65
‣ Number of Q17 Bases [Mbp] 36.11
‣ Number of Q20 Bases [Mbp] 27.33
Total Number of Reads 368,860
Mean Length [bp] 211
Longest Read [bp] 380

Ion Proton System
- Human genome in one day
- Cost of reagents $1000 per run
- Error rate around 1.2%
- Human Genome, RNAseq, ChIPseq
Ion Proton Chip I – 10Gb
(Whole Exome capture
experiments)
Ion Proton Chip II – 100Gb
Whole human Genome
resequencing

Ion Torrent (Life Technologies)
• Jonathan M. Rothberg/454

Ion Torrent (Life Technologies)

Ion Torrent-(Life Technologies)

Objetivos para sequenciamento genômico
Exemplo
Sequenciamento
de novo
Sequenciamento
genômico
Sequenciamento de >1000 genomas
de influenza
DNA de org. extinto Neanderthal
Metagenomica Intestino humano
Resequencia-
mento
Genomas completos Indivíduos humanos
Regiões genômicas Detecção de rearranjos ou regiões
associados à doenças
Mutações somáticas Em câncer
Transcriptoma mRNA Definir regulação da transcrição
Serial Analysis of Gene
Expression (SAGE)
RNAs não codificadores Identificar e quantificar microRNAs
Epigenética Padrão de Methilação Avaliar padrão de metilação em
câncer

ASSESSING QUALITY: PHRED SCORES
Q = -10log10 P
P=error probability of
a given base call.

Tools for generating alignments!
 There are MANY software packages available for aligning data from
next generation sequencing experiments.!
 Three of the most popular are:!
 – BWA: http://bio-bwa.sourceforge.net!
 – Bowtie: http://bowtie-bio.sourceforge.net!
 – CLC Genome Workbench- Private

ALIGNMENT FORMATS!
 SAM (Sequence Alignment/Map) format has become the de facto
standard for storing alignment data.
 BAM is a binary version of SAM allowing more efficient storage.

SEQUENCE FILE FORMATS
 There are a lot of file sequence formats.
 They include different information about the sequence. The most
common file formats in the NGS world are:
 sff,
 fastq and
 fasta.
 Every program have different requirement, so every program asks for
different file formats

FASTQ FORMAT!
@HWUSI-EAS582_157:6:1:1:1501/1
NCACAGACACACACGAACACACAAAGACATGCCCATATGAAGAT
+
%.7786867:778556858746575058873/347777476035
@HWUSI-EAS582_157:6:1:1:1606/1
NCTGGCACCTTGATTTTGGACTTCCCAGCCTCCAGAACTGTGAG
+
%1948988888798988366898888648998788898888588
@HWUSI-EAS582_157:6:1:1:453/1
NCTGCTTGCACCCCTGAAGTCACTGATCACATTTCAGGGTCACC
+
%/868998988888867668888986644788988413488885
@HWUSI-EAS582_157:6:1:1:1844/1
NGATTGACATTGGCAAAGAGGACAACTGATTGCAAACTTCACAC
+
%-7;:::::;86499;75574586::635:62687666887879
@HWUSI-EAS582_157:6:1:1:1707/1
NAGGCTCAGGCGCACGGCCTACATCGTCGCTGTCGGCCAAGGGG
+
“Read” (sequence)!
Quality scores (phred-33)!

FASTA
 The fasta format is the most simple one.
 Each sequence starts with a “>” followed by the sequence name, an
space and, optionally, the description
 >seq_1 description
GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAA
CTCACAGTTT >seq_2
ATCGTAGTCTAGTCTATGCTAGTGCGATGCTAGTGCTAGTCGTATGCAT
GGCTATGTGTG

DNA-NG: Revolução do Sequenciamento

Recomendados

Recomendados

Mais conteúdo relacionado

Mais procurados

Mais procurados (20)

Semelhante a DNA-NG: Revolução do Sequenciamento

Semelhante a DNA-NG: Revolução do Sequenciamento (20)

DNA-NG: Revolução do Sequenciamento

Notas do Editor