Este documento describe un curso sobre tecnologías de secuenciación de nueva generación. El curso cubre las tecnologías 454 de Roche, comparaciones con otros sistemas de secuenciación masiva paralela, y aplicaciones como el estudio de quasiespecies virales, secuenciación de genomas de novo, metagenómica, RNA-seq, y análisis de exomas y mutaciones en leucemia mediante arrays de captura de secuencia. El curso también cubre el análisis de datos de secuenciación masiva paralela.
Curso de Genómica - UAT (VHIR) 2012 - Tecnologías de Ultrasecuenciación y de Enriquecimiento de Secuencia
1. Cursos de Formación de la UAT (2012)
Plataforma de Genómica / Plataforma de Diagnóstico Molecular
“Tecnologías de alto rendimiento en
genómica”
2ª Parte: Tecnologías de ultrasecuenciación y de enriquecimiento de
secuencia.
2. Programa del curso
De Sanger hacia NGS
454 de Roche
Cómo funciona
Flujo de trabajo de la tecnología
Comparación con otros Sistemas NGS
Aplicaciones de las tecnologías de ultrasecuenciación.
Estudio de quasiespecies virales mediante análisis de amplicones.
Secuenciación de genomas “de novo”.
Metagenómica
RNAseq
Aplicaciones de los arrays de captura de secuencia:
Análisis de exomas
Estudio de mutaciones en leucemia mediante arrays de
captura de secuencia.
Análisis de datos de ultrasecuenciación (UEB)
3. Cualquier DNA puede ser secuenciado
S. cervisiae Barley
M Tuberculosis C. elegans Arabidopsis
Tomato
Maccaca HIV Potato
Neanderthal
James Watson
Honeybee H5N1 Grape wine
Mammut
4. Genomas Secuenciados
Nature Reviews Genetics 9, 303-313, 2008
Over the past years the
genomes of some of the most
impotant model organisms have
been sequenced:
Figure 2. Vertebrate genomic sequence data. Phylogenetic tree
representing species for which genomic sequence data are currently
available Green indicates that BAC (bacterial artificial chromosome)-based
sequence is available in targeted regions of the genome 11, 15. Yellow
represents 2X whole-genome shotgun assemblies17, and blue represents
full-shotgun or near-complete genomic sequence assemblies.
5. Cronología de la Secuenciación
phi X 174
Primer genoma de
DNA completo
secuenciado
11 genes en 5386 Secuenciaci
bases (cadena ón Genoma
sencilla) Watson
“Chain-terminator
mediante
method”
454/ROCHE
Sanger et al.
Nature 452,
Método usado
872-876 (17 1000
durante los proximos 30
April 2008). Genomes
Francis Crick años Project
ABI El NIH Finalización Lanzamie
and James “ DNA comercializa empieza Proyecto
Watson nto de Lanzamient
sequencing by el 1ª secuenciació Genoma Lanzamiento GS FLX-
describen el GS20 (454 o de
chemical secuenciador n Humano GS FLX de SOLID Titanium
Life SOLEXA (ROCHE) GS FLX+
modelo de la degradation ” automático, a gran (13 años) Science) (ABI)
(Illumina) (ROCHE)ROCHE)
doble hélice del Maxam y ABI 370. escala de
DNA.
195 70
Gilbert
197 198
diversos
199
microorgs. 200 20 20 200 200 200 Helicos
3 ´s 7 7 0 3 05 06 7 8 9 BioSciences
20
10
2012
6. 1ª Generación
Secuenciación
Método manual de Secuenciación Sanger Método automático de Secuenciación
Nucleótidos Modificados Sanger
Nucleótidos Modificados Marcados
dTTP Polimerasa dTTP Polimerasa
dGTP dGTP
dATP + Secuencia molde:3´…GCCAGTCGGATGCATATGTCTGAGTC…5´
Primer: 5´…CGGT dATP +
Secuencia molde: 3´..GCCAGTCGGATGCATATGTCTGAGTC..5´
5´…CGGT
dCTP dCTP Primer:
(Marcaje radioactivo en el Primer o en uno
de los 4 dNTPs en cada tubo)
ddGTP ddATP ddTTP ddCTP
ddGTP ddATP ddTTP ddCTP
Grupo Base
fosfato
CGGTCAGCCTAC
CGGTCAGCCTA
H CGGTCAGCCT
CGGTCAGCC
3´ CGGTCAGCCTACGTATACAGACTCAG CGGTCAGC
CGGTCAGCCTACGTATACAGACTCA CGGTCAG
CGGTCAGCCTACGTATACAGACTC
CGGTCAGCCTACGTATACAGACT
CGGTCAGCCTACGTATACAGAC Electroforesis
CGGTCAGCCTACGTATACAGA
CGGTCAGCCTACGTATACAG (1 Secuencia/Capilar)
CGGTCAGCCTACGTATACA
CGGTCAGCCTACGTATAC
CGGTCAGCCTACGTATA
CGGTCAGCCTACGTAT
CGGTCAGCCTACGTA
CGGTCAGCCTACGT
CGGTCAGCCTACG
GCCTAC
CGGTCAGCCTAC
CGGTCAGCCTA
CGGTCAGCCT
CGGTCAGCC
CGGTCAGC
CGGTCAG
CGGTCA
CGGTC
CGGT
CGG
5´ CG
C
7. 1ª Generación Secuenciación
Estrategia de Secuenciación a
gran escala
Secuenciación de fragmentos
largos de DNA.
El DNA se fragmenta en trozos al
azar y se clonan en una biblioteca
bacteriana.
El ADN de los clones bacterianos
individuales se secuencian
mediante Secuenciación Sanger
automática.
La secuencia se ensamblan
observando las regiones
solapantes.
Los Gaps se pueden rellenar
mediante paseos de cebadores.
8. 1ª Generación Secuenciación
Primer borrador
Genoma
3.000 millones de
Humano
dólares para secuenciar
3.000 nts (1$/nt)
Sanger sequencing:
- Long reads (500-1000 bp)
- Low throughput (192 reactions/run)
9. 2ª Generación Secuenciación
Los Instrumentos de secuenciación de 2ª generación son
capaces de generar cientos de miles de reacciones de
secuencias en paralelo en un día como los generados por
varios cientos de secuenciadores con capilares tipo
Sanger, a un coste por base leída más barato.
2004 2006-2009
Coste 0.01$/bp 0.0001$/bp
Capacidad/Instrumento/día 1.000.000 ˃ 5.000.000.000
10. 2ª Generación Secuenciación
ROCHE
GS FLX 454 GS FLX+ 454 GS Junior 454
Illumina
Solexa HiSeq 2000 HiSeq 1000 HiScanSQ Genome MiSeq
Analyzer
IIx
Life
Technology
SOLiD™ 3System SOLiD™ 4 System 5500 5500xl Ion Torrent
System System System
11. Sanger vs 2ª Generación Secuenciación
1. Fragmentación de DNA 1. Fragmentación de DNA
2.Clonaje en Vectores; Transformación Bacterias; 2. Ligación de adaptadores in vitro y
crecimiento y aislamiento vector DNA amplificación clonal
3. Ciclo Secuenciación 3. Secuenciación masiva en paralelo
Secuencia:
Primer:
Polimerasa
dNTPs
ddNTPs marcados
4. Procesamiento imagen
4. Procesamiento imagen
CTATGCTCG
Electroforesis
(1
Secuencia/Capilar)
12. Programa del curso
De Sanger hacia NGS
454 de Roche
Cómo funciona
Flujo de trabajo de la tecnología
Comparación con otros Sistemas NGS
Aplicaciones de las tecnologías de ultrasecuenciación.
Estudio de quasiespecies virales mediante análisis de amplicones.
Secuenciación de genomas “de novo”.
Metagenómica
RNAseq
Aplicaciones de los arrays de captura de secuencia:
Análisis de exomas
Estudio de mutaciones en leucemia mediante arrays de
captura de secuencia.
Análisis de datos de ultrasecuenciación (UEB)
14. GS 454 de ROCHE: Como funciona
Formato de Placa
1ª Generación 2ª Generación
3100 ABI GS ROCHE
96p-Plates 384p-Plates PicoTiterPlate PicoTiterPlate
FLX+ (70x70mm) Junior
15. GS 454 de ROCHE: Como funciona
¿Cúantas muestras se pueden secuenciar por
run?
GS FLX+ Junior 454
Gaskets
70.000-100.000
N= (GxC)/Mbp por región PTP
N= num de muestras que puedo secuenciar en
un run
G= tamaño de lo que quiero secuenciar
C= Coverage (C= N * L / G) Multiplexar (MIDS; Tamaño
Multiplexar (MIDS; Tamaño amplicón; Primer) amplicón; Primer)
16. GS FLX/Junior 454 Workflow
gDNA, DNA plasmídico, RNA
1.Calidad & Cantidad
Material de partida
2. Construcción Librería
3. Amplificación mediante emPCR
4. Secuenciación
Datos Obtenidos
17. 1. Calidad & Cantidad Material de partida
1.1 Calidad mediante Chips Bioanalyzer; gel agarosa
gDNA, DNA plasmídico, RNA
1.2 Cuantificación mediante Picogreen (gDNA, amplicones) o Ribogreen (RNA)
y = 34,577x - 61,596
R2 = 0,9994
20000
15000
Fluorescence
10000 .
5000
0
0 200 400 600
Lam bda DNA (ng/m L) Fluorímetro FLx800
18. GS FLX/Junior 454 Workflow
gDNA, DNA plasmídico, RNA
1.Calidad & Cantidad
Material de partida
2. Construcción Librería
3. Amplificación mediante emPCR
4. Secuenciación
Datos Obtenidos
19. 2. Construcción Librería
Librería Shotgun
Librería Pair-End
Fragmentación Librería cDNA
Selección Tamaño
Ligación
Adaptadores
Librería Amplicones
gDNA, DNA
plasmídico PCR con Fusion Primers
RNA
Adaptador A (44 bases): Adaptador B (44 bases) Fusion
Primers
Primer Primer Adaptador A Target
4 4
Amplificación Primer Amplificación Primer
nucleótidos
Secuenciación nucleótidos
Secuenciación
“Key” Biotina “Key”
Adaptador B Target
20. 2. Construcción Librería: Fragmentación gDNA
Librerías
Shotgun
Rotura utilizando nitrógeno a alta presión
NEBULIZACIÓN
Nebulize
DNA genómico Fragmentos de DNA
de doble cadena
2.1 bar (30psi)
Librerías Pair-End
Fuerzas de rotura hidrodinámicas
HYDROSHEAR gDNA
Orificio
fragmentado
gDNA
21. 2. Construcción Librería: Fragmentación RNA
Librerías
cDNA
RNA
Rando First Strand
m Synthesis
Primers
Solución de
Fragmentación de Second Strand
Synthesis
RNA
Fragmentos de cDNA
de doble cadena
22. 2. Construcción Librería: Selección fragmentos
gDNA Nebulizado:
AMPure beads
DNA 7500 Lab Chip SPRI (Solid Phase Reversible Immobilization)
DNA 7500 LabChip
300pb-1000pb
50pb-1000pb
gDNA fragmentado con Hydroshear: RNA Pico 6000 LabChip
Electroelución
500pb-600 nt
Tamaño medio de 500-600 nt (dep. del contenido en GC)
Menos del 10% ≤ 300 nt, no adaptor dimers
Conc >0.2 ng/μl (Ribogreen ®)
23. 2. Construcción Librería
Inmobilización Fragmentos y aislamiento de la Librería:
AB
Melt Solution
BA
BB
AA
4 tipos de productos resultan de la ligación
Los productos con Biotina (AB, BA, BB) se unen a bolas magnéticas que
llevan estreptavidina. Los products AA son lavados y eliminados.
Mediante Melt Solution (NaOH0.1N) las cadenas no biotiniladas de cada
fragmento de dsDNA son aisladas. Ambas cadenas de los fragmentos BB
quedarán unidas a las bolas.
Sólo se aislan cadenas de DNA sencilla AB constituyendo la librería.
24. 2. Construcción Librería: Q&Q Librería
Molecules/μl =
Num de Avogadro es 6.022x1023 (moléculas/mole)
328.3x109 (gramos/mole) es peso molecular medio de nts.
Perfil típico de una librería ssDNA (Agilent 2100 RNA Pico 6000
LabChip): Tamaño medio de 500-800 bp
Cuantificación mediante Ribogreen
Dilución de trabajo para emPCR
25. GS FLX/Junior 454 Workflow
gDNA, DNA plasmídico, RNA
1.Calidad & Cantidad
Material de partida
2. Construcción Librería
3. Amplificación mediante emPCR
4. Secuenciación
Datos Obtenidos
26. 3. Amplificación mediante emPCR
Reacción de emPCR:
High-speed
shaker
-1 starting effective fragment per microreactor
- ~106 microreactors per ml
- All processed in parallel (Amplificación clonal)
27. 3. Amplificación mediante emPCR
Recuperación de beads después de la emPCR:
Rotura y Recuperación Contaje 65%, 85% óptimo
DNA-beads/ml
% Recuperación= x100
Input beads
Enrequecimiento de beads con DNA:
Melt
5-20% óptimo
Unión de Primer Adición de bolas Melt
DNA-beads/ml
dsDNA marcado con Biotina a magnéticas con x100
% Enrequecimiento=
bolas de captura con estreptavidina Input beads
ssDNA
28. emPCR Titulación sólo para GS FLX
Antes de la emPCR:
¿Cuántas copias de librería por
Beads de captura son óptimas?
1. Procesar 4 tubos emulsiones
Tubo Moléculas de Librería por Vol Librería
Bead de Captura (cpb) Diluida
1 2 1.2 µl
2 4 2.4 µl
3 8 4.8 µl
4 16 9.6 µl
2. Recuperación y enrequecimiento de cada tubo
3. Contaje de las beads enriquecidas
4. Escoger el ratio copia/bead con aproximadamente un 8% de
enrequecimiento
29. GS FLX/Junior 454 Workflow
gDNA, DNA plasmídico, RNA
1.Calidad & Cantidad
Material de partida
2. Construcción Librería
3. Amplificación mediante emPCR
4. Secuenciación
Datos Obtenidos
30. 4. Secuenciación
Gaskets
Metal coated PTP reduces crosstalk
29 μm well diameter (20/bead)
3,400,000 wells per PTP
31. 4. Secuenciación
Secuenciación mediante síntesis
Química basada en la pirosecuenciación
Polimerasa añade
nucleótidos (dATP)
Se libera pirofosfato (PPi)
Sulfurilasa crea ATP a
partir del PPi
Sulfurylase Luciferasa hidroliza ATP
Luciferase Luciferina y usa luciferina para
producir luz.
Light + oxyluciferin
32. 4. Secuenciación
Flujo de Reactivos
Nucleotides are flowed sequentially across
the PTPone at a time (200 cycles à 4 bases)
Pyrophosphate signal generation upon
complimentary nucleotide incorporation —dark
otherwise
The CCD camera is generating a image after
every flow
The signal strength is proportional to the
number of nucleotides incorporated
37. Programa del curso
De Sanger hacia NGS
454 de Roche
Cómo funciona
Flujo de trabajo de la tecnología
Comparación con otros Sistemas NGS
Aplicaciones de las tecnologías de ultrasecuenciación.
Estudio de quasiespecies virales mediante análisis de amplicones.
Secuenciación de genomas “de novo”.
Metagenómica
RNAseq
Aplicaciones de los arrays de captura de secuencia:
Análisis de exomas
Estudio de mutaciones en leucemia mediante arrays de
captura de secuencia.
Análisis de datos de ultrasecuenciación (UEB)
38. Comparación con otros Sistemas NGS
2ª NGS 3ª NGS
ABI Illumina
ROCHE
Illumina ABI Roche 3ª NGS
Cuadro resumen de las posibles combinaciones de estrategias en las diferentes
plataformas de NGS
39. Comparación Plataformas NGS
GS FLX 454 HiSeq 2000-Illumina ABI SOLID 5500xl
Chemistry based on Chemistry based on
Chemistry based on
pirosequencing reversible terminators sequencing by ligation
Sample amplified by Sample amplified by
Sample amplified by emulsion PCR
solidphase amplification
emulsion PCR
Read length 2x100 bp Read length 50-100 bp
Read length 250-500 bp
3 billions reads per run 100-500 million reads per run
>1 million reads per run
600 Gb of sequence 50-100 Gb of sequence
400-600 Mb of sequence
2-11 days run 4-8 days run
~10 hours run
40. Comparación Plataformas secuenciación
EQUIPO ROCHE GS FLX ILLUMINA HISEQ ABI 5500XL
454 2000 SOLID
Coste del equipo 450.000 $ 690.000 $ 251.000 $
Coste de los reactivos 6.200 $ 23.470 $ 10.503 $
por run*
Coste por Mb 12 $ 0,07 $ 0,04 $
Fuente: http://www.molecularecologist.com/next-gen-fieldguide/
46. 3ª Generación Secuenciación
SCIENCE Vol 323 2 JANUARY 2009
Real-Time DNA Sequencing from
Single Polymerase Molecules
John Eid,* Adrian Fehr,* Jeremy Gray,* Khai Luong,* John Lyle,* Geoff Otto,*
Paul Peluso,* David Rank,* Primo Baybayan, Brad Bettman, Arkadiusz Bibillo,
Keith Bjornson, Bidhan Chaudhuri, Frederick Christians, Ronald Cicero,
Sonya Clark, Ravindra Dalal, Alex deWinter, John Dixon, Mathieu Foquet,
Alfred Gaertner, Paul Hardenbol, Cheryl Heiner, Kevin Hester, David Holden,
Gregory Kearns, Xiangxu Kong, Ronald Kuse, Yves Lacroix, Steven Lin, Paul
Lundquist, Congcong Ma, Patrick Marks, Mark Maxham, Devon Murphy, Insil
Park, Thang Pham, Michael Phillips, Joy Roy, Robert Sebra, Gene Shen, Jon
Sorenson, Austin Tomaney, Kevin Travers, Mark Trulson, John Vieceli, Jeffrey
Wegener, Dawn Wu, Alicia Yang, Denis Zaccarin, Peter Zhao, Frank Zhong,
Jonas Korlach, Stephen Turner.
Press Release
Pacific Biosciences Announces Early Access
Customers for Its Single Molecule Real Time
System
Eleven Leading Companies Support Launch of Third-generation DNA Sequencing
MENLO PARK, Calif., Feb 23, 2010 Pacific Biosciences, a private
company developing a disruptive technology platform for real-
time detection of biological events at single molecule resolution,
today announced the 10 institutions that have purchased its
Single Molecule Real Time (SMRT(TM)) DNA sequencing system
http://www.pacificbiosciences.com as part of the company's early access program in North America.
47. Programa del curso
De Sanger hacia NGS
454 de Roche
Cómo funciona
Flujo de trabajo de la tecnología
Comparación con otros Sistemas NGS
Aplicaciones de las tecnologías de ultrasecuenciación.
Estudio de quasiespecies virales mediante análisis de amplicones.
Secuenciación de genomas “de novo”.
Metagenómica
RNAseq
Aplicaciones de los arrays de captura de secuencia:
Análisis de exomas
Estudio de mutaciones en leucemia mediante arrays de
captura de secuencia.
Análisis de datos de ultrasecuenciación (UEB)
48. PAUTAS PARA EL DISEÑO EXPERIMENTAL DE UN ESTUDIO DE
ULTRASECUENCIACIÓN
Pautes para el Diseño experimental de un estudio
de ultrasecuenciación
50. Programa del curso
De Sanger hacia NGS
454 de Roche
Cómo funciona
Flujo de trabajo de la tecnología
Comparación con otros Sistemas NGS
Aplicaciones de las tecnologías de ultrasecuenciación.
Estudio de quasiespecies virales mediante análisis de amplicones.
Secuenciación de genomas “de novo”.
Metagenómica
RNAseq
Aplicaciones de los arrays de captura de secuencia:
Análisis de exomas
Estudio de mutaciones en leucemia mediante arrays de
captura de secuencia.
Análisis de datos de ultrasecuenciación (UEB)