1. O documento discute as aplicações do sequenciamento de nova geração (NGS) e como ele revolucionou a ciência biológica ao permitir a análise de grandes volumes de dados genômicos, transcricionais e epigenéticos.
2. As novas tecnologias de sequenciamento, como Illumina e 454, permitem gerar terabytes de dados a um custo muito menor que as técnicas anteriores, possibilitando projetos de sequenciamento em larga escala.
3. O NGS permitiu o desenvolvimento de técnicas
2. EM 2010
1 ZettaByte (ZB) = 1 Trilhão
1,000,000,000,000 GigaBytes (GB)
Roberta A. Campos PhD, MSc, PD
3. “Big Data Era” na Ciência
Researchers need to adapt their institutions and
practices in response to torrents of new data —
and need to complement smart science with smart
searching.
Editorial
Setembro 2008
1 PetaByte (PB) = 1,000 TeraBytes (TB) = 1,000,000 GigaBytes (GB)
Roberta A. Campos PhD, MSc, PD
4. Ciclo do Conhecimento
Gene Knock-outs
Protein Assays
Point mutations
…
Microarrays
(Kell DB et al., 2004) Genomics
Meta-genomics
hypothesis-driven science HT proteomics
…
data-driven science
Roberta A. Campos PhD, MSc, PD
5. Inundação de Dados na Área
de Ciências Biológicas
genomas completos sequenciados;
dados de variações genômicas;
projetos de Meta-Genômica;
dados de transcritomas;
dados de proteínas;
dados de interações entre proteínas;
ION Torrent…
Roberta A. Campos PhD, MSc, PD
6. E agora, quais são os desafios?
Pontos urgentes que devem ser enfrentados:
◦ Transferência de dados, controle de acesso e gerenciamento.
◦ Padronização dos formatos de dados.
◦ Integração dos dados oriundos de múltiplas fontes.
Dados com características Multi-dimensionais e em um volume
imenso;
Exemplo: Análise funcional de variações no DNA em múltiplas
amostras em diferentes tipos de tumores utilizando dados de
sequenciamento de nova geração...
◦ Modelos preditivos para fenótipos complexos demandam computação
intensa (Problemas NP-difíceis – ex. Reconstrução de uma rede
Bayesiana para representar um modelo de regulação gênica)
Roberta A. Campos PhD, MSc, PD
7. Integração dos Bancos de
Dados Biológicos
Características
◦ Grande volume de dados;
Desenvolvimento de novos mecanismos e técnicas para o
armazenamento e recuperação (e.g. Google BigTable );
◦ Não há padrão para os nomes dos objetos;
Ontologias (e.g. Gene Ontology) e organizações que regulam a
nomenclatura (e.g. HUGO)
◦ Não há padrão para acesso aos dados, cuja natureza é distribuída;
Utilização de formatação padrão para troca de informações (e.g. GFF) e
web services;
◦ Definição variável para alguns conceitos;
e.g. gene
◦ Dados altamente heterogêneos mas inter-relacionados;
◦ Informação dinâmica e em constante atualização;
Roberta A. Campos PhD, MSc, PD
8. Soluções computacionais
Cloud-based computing;
Ambientes computacionais heterogêneos;
◦ Integração de aceleradores especializados (GPUs);
Aumento do número de computadores;
Otimização de algoritmos;
Roberta A. Campos PhD, MSc, PD
9. Primeiros passos...
Compreensão da natureza dos dados, ou seja, da sua
magnitude e complexidade, e dos recursos disponíveis
(memória, espaço, tenho um servidor?)...
Compreensão dos algoritmos.
Compreensão das vantagens e desvantagens das
arquiteturas disponíveis.
◦ A decisão não é sempre óbvia e muitas vezes consiste
em uma combinação delas
Roberta A. Campos PhD, MSc, PD
10. Soluções no Brasil
O EMU (Equipamento MultiUsuário)
é uma plataforma de alta-
performance para análises
computacionais aplicadas à genômica
e à transcriptômica.
Financiamento: Programa
Multiusuário da FAPESP de 2010,
com uma contra-partida do Instituto
Ludwig de Pesquisa sobre o Câncer. Roberta A. Campos PhD, MSc, PD
12. Por quê sequenciar ?
Motivação
Aplicações diversas:
• identificar sequencias funcionais e caracterizar
genomas ou transcriptomas;
• Da Genômica Comparativa à Expressão gênica...
• Propósitos gerais...
“NOVA ONDA NGS”...
Roberta A. Campos PhD, MSc, PD
13. Bioinformática
• Bioinformática: Pesquisa, desenvolvimento, ou aplicação de ferramentas
computacionais e abordagens para expandir a utilização de dados biológicos,
médicos, comportamentais e de saúde, incluindo a aquisição, o
armazenamento, a organização, o arquivamento a análise ou visualização
desses dados.
• Computational Biology: O desenvolvimento e aplicação de métodos teóricos
e analíticos, incluindo modelagem matemática e aplicação de técnicas de
simulações computacionais para o estudo de sistemas biológicos, sociais ou
comportamentais.
Biomedical Information Science and Technology
Initiative Consortium (BISTI - NIH)
Roberta A. Campos PhD, MSc, PD
14. Repositórios de Dados Biológicos
1965 – Atlas of Protein Sequences and Structure
(Dayhoff et al.) - ~1Mb
1982 – GenBank – 1988 – NCBI – National
Center for Biotechnology Information
1997 – EMBL – European Molecular Biology
Laboratory
1986 – DDBJ – DNA Data Bank of Japan
Roberta A. Campos PhD, MSc, PD
15. International Nucleotide Sequence Database
Colaboration
1982
606 seqüências
2.427 bases
2008
98.868.465 seqüências
99.116.431.942 bases
Roberta A. Campos PhD, MSc, PD
16. Era “Pós-Genoma”
"O PGH aumentou a capacidade de compreensão
da complexidade que é a transmissão dos
caracteres genéticos” (José Roberto Goldim, UFRGS)
Genômica Estrutural
◦ Construção de mapas genéticos, físicos e de transcrição
de um organismo.
Genômica Funcional
◦ Caracterização das propriedades funcionais dos genes e
determinação de Assinaturas Moleculares de Expressão
Gênica.
Roberta A. Campos PhD, MSc, PD
17. Projetos “omas”
x
Pesquisa Clássica em Genética e
Bioquímica
Genômica
Transcritômica
Proteômica
Epigenômica
Metabolômica
Nova Onda NGS
Science 291:1221. 2001 A. Campos PhD, MSc, PD
Roberta
18. Genômica Funcional: Análise de Expressão
Gênica
Genômica Funcional = Métodos de obtenção de dados em larga escala
+
Métodos de Bioinformática
Revolução dos projetos “-omas” (Genome-wide expression “profiling”)
Mayo Clin Proc. 2004 May;79(5):651-8
Roberta A. Campos PhD, MSc, PD
19. Últimos anos – NGS Era
Sequenciamento do Genoma
Diplóide de um único indivíduo
(Craig Venter)
The diploid genome sequence of
an individual human.
(Levy, S. et al. 2007)
2005 2007
Legião de Sequenciadores
... ABI 3730 no JCVI
2003 2006 2008
Genoma James D. Watson
Sequenciamento com 454
Conclusão do
Projeto Genoma
Humano 1000 Genomes
Project
Next-Generation Sequencing A.Revollution
Roberta Campos PhD, MSc, PD
21. Nova Geração de Sequenciadores
PLATÔ
TECNOLOGIA
Roche/454 FLX Illumina/Solexa GA ABI SOLiD
ABI 3730xl
ABI 3730xl Roche/454 FLX Illumina/Solexa GA ABI SOLiD
Método Sanger Pirosequenciamento Sequenciamento Sequenciamento
por Síntese por Ligação
• Aumento na quantidade de Dados
• IlluminaHiSeq 2000 (~1 Tb/run - >600Gb Q30 – Tamanho 100bp)
• Redução no tempo relativo para obtenção dos dados ( genoma 3Gb (8x)
em questão de poucos dias);
• Aumento gradual do tamanho das sequências (curtas ~36pb – 400pb);
• Redução do custo por base sequenciada. Roberta A. Campos PhD, MSc, PD
22. Resumo das plataformas
http://www.illumina.com/
http://www.my454.com/
http://www.appliedbiosystems.com.br/
Roberta A. Campos PhD, MSc, PD
23. Trade-offs in Next Generation
Sequencing technologies
NHGRI Current Topics in Genome Analysis 2010
Elliott Margulies, Roberta A. Campos PhD, MSc, PD
Ph.D
24. NGS no mundo
http://pathogenomics.bham.ac.uk/hts/
Roberta A. Campos PhD, MSc, PD
25. Novas promessas
HeliScope
◦ Helicos BioSciences 2008
ION Torrent
◦ Applied Biosystems 2010
PacBio RS
◦ Pacific Biosciences 2010
Roberta A. Campos PhD, MSc, PD
26. Produtividade
[Stratton MR, et al. 2009]
Roberta A. Campos PhD, MSc, PD
27. Aplicacao Biotecnologica
i5K
◦ 5000 genomas de insetos
importância especialmente para a agricultura.
Genome10K
◦ 10000 genomas de vertebrados
diversidade genética entre vertebrados;
1001 Genomes
◦ 1001 genotipos de Arabdopsis thaliana
planta modelo, base de estudos outras plantas;
1KP
◦ 1000 genomas de plantas
desenvolvimentos de produtos biotecnológicos.
Roberta A. Campos PhD, MSc, PD
30. Análise ChIP-Seq
ChIP-Seq
ChIP – Chromatin ImunoPreciptation
Reproducibilidade
High-Throughput sequencing
r = 0.906 (p-value < 2.2e-16).
ChIP-Seq – Estudo da estrutura da cromatina
Padrão de metilação de histonas no genoma
humano
ChIP-Seq X GMAT (Genome-wide Mapping Technique)
Uma das primeiras publicações utilizando
Illumina 1G Genome Analyzer
Roberta A. Campos PhD, MSc, PD
31. Análise Methyl-Seq
Methyl-Seq
DNA treatment with methyl-sensitive restriction enzymes
(HpaII - não metilada, MspI - indiferente)
High-Throughput sequencing
Methyl-Seq – Estudo de padrões de metilação do
DNA em hESCs, células derivadas de hESCs e fígado
fetal humano
AUC = 0.94
Methyl-Seq x Illumina Infinium
methylation status:
presence or absence of HpaII tags:
average tag count > 1 unmethylated
Roberta A. Campos PhD, MSc, PD
32. Análise microRNA-Seq
microRNA-Seq
small RNA library (mirVana miRNA Isolation Kit)
High-Throughput sequencing
microRNA-Seq – Caracterização dos miRNAs
expressos em tecido gástrico humano (cardia -
estômago)
Plataforma SOLiD
qRT -PCR
2 -∆Ct
Pearson correlation (SOLiDxqRTPCR)
r2 = 83.9 (p-value < 0.05)
Roberta A. Campos PhD, MSc, PD
33. Análise de Vias Biológicas
Vias metabólicas/regulatórias
relacionadas JASMONATO
em plantas em diferentes
contextos ecologicos
Roberta A. Campos PhD, MSc, PD
34. Interações entre Proteínas
Cobertura
Ontologia - Paralogia
Regioes Conservadas
Problemas de ANOTACAO!!!
Estima-se que 20% de anotacoes erradas!!!
Roberta A. Campos PhD, MSc, PD
35. Análise de Interações entre
Proteínas – Redes Baysianas
Protein–protein interactions networks
for mutated genes in HCC1954 (A)
and HCC1954BL (B).
Roberta A. Campos PhD, MSc, PD
36. Biologia Sistêmica – “New hit”
Estudo das interações entre as componentes de um
sistema biológico, e como essas interações fazem
emergir função e comportamento no sistema;
"Systems Biology is the science of discovering, modeling,
understanding and ultimately engineering at the
molecular level the dynamic relationships between the
biological molecules that define living organisms “
Leroy Hood
Roberta A. Campos PhD, MSc, PD
38. Perguntas?
Roberta Alvares Campos
OBRIGADA !!!
Roberta A. Campos PhD, MSc, PD
39. ABORDAGENS EM
GRUPOS
Brain storm
Roberta A. Campos PhD, MSc, PD
40. Resumo de Aplicações
Category - NGS Examples of applications
Comprehensive polymorphism and mutation discovery in
Complete genome resequencing
individual human genomes
Reduced representation sequencing - Draft Large-scale polymorphism discovery
Targeted genomic resequencing Targeted polymorphism and mutation discovery
RNA-seq = Pairend or single end sequencing Discovery of inherited and acquired structural variation
Metagenomic sequencing Discovery of infectious and flora
Quantification of gene expression and alternative splicing;
Transcriptome sequencing transcript annotation; discovery of transcribed SNPs or
somatic mutations.
Small RNA sequencing microRNA profiling
Determining patterns of cytosine methylation in genomic
Sequencing of bisulfite-treated DNA
DNA
Chromatin immunoprecipitation– sequencing
Genome-wide mapping of protein-DNA interactions
(ChIP-Seq)
Nuclease fragmentation and sequencing Nucleosome positioning
Molecular barcoding - NGS Multiplex sequencing of samples from multiple individuals
[Shendure, J & Ji, H, 2008]
Roberta A. Campos PhD, MSc, PD