SlideShare uma empresa Scribd logo
1 de 62
Baixar para ler offline
Bioinformática
Aplicada
à área da Saúde
Renato Puga
DLE - NTO SP
Hospital Israelita Albert Einstein
AC Camargo Cancer Center
MBA Blockchain Dev - FIAP
Mestre em Ciências Biológicas - USP
Analista de Sistemas - UNAERP
Google Acadêmico

goo.gl/r5ko8T

Linkedin

linkedin.com/in/renato-puga-24885524/
renatopuga@gmail.com
Short Bio
NGS & Bioinfo Núcleo de Bioinformática Desafios
Sequenciamento de DNA - Tecnologia
Sobre..
7
1G
Bioinformática 1.0 - command line
8
Terminal
1981: Smith–Waterman156

1982: GenBank (https://www.ncbi.nlm.nih.gov/genbank/statistics/) 

1990: BLAST16

1995: TIGR assembler24

1996: RepeatMasker

1997: GENSCAN157

1998: phred, phrap, consed22

2000: Celera assembler25

2001: Bioconductor

2001: EULER74

2002: BLAT158

2002: UCSC Genome Browser159

2002: Ensembl160
2005: Galaxy161

2007: NCBI Short Read Archive

2008: ALLPATHS162

2008: Velvet75

2009: Bowtie83

2009: BWA82

2009: SAMtools84

2009: BreakDancer163

2009: Pindel164

2009: TopHat115

2010: SOAPdenovo165

2010: GATK85

2010: Cufflinks116

2011: Integrated Genomics Viewer166

2013: HGAP/Quiver167

2017: Canu81

Sequenciamento de DNA - Tecnologia
Sobre..
9
2G
Bioinformática 2.0 - slick, all-in-one, desktop apps
10
all-in-one
• Next Generation Sequencing,
• Microarray & qPCR Data Analysis Software
• Resequencing and Variant Analysis
• Metagenomics
• Epigenomics
• De novo assembly
• CGH
Bioinformática 3.0 - targeted analysis pipelines and tools powered by the cloud
11
1994 / 1996
Poder 1999
1990-2001
em 2015 (10 dias)
Desde 2015
Começo oficial do Projeto Genoma
Humano
Rotina NGS em
Clinicas de Diagnóstico
maior parte dos genoma esta
mapeado / "Bermuda
Principles”.
Sequenciamento de DNA em
larga-escala
$1 bilhão
$ 10 mil
1990
FUTURE 2028
Projeto Genoma Humano
anos dourados da bioinformática
http://www.yourgenome.org/facts/
timeline-the-human-genome-project
Era dos Milhões de Genomas
13
Participantes Escala
1.000 Grande
10.000 Mega
100.000 Ultra
1.000.000 Jedi
1.000.000
100.000
10.000
10.000.000
1.000
100
10
2006
2008
2010
2012
2014
2016
2018
NúmerodeParticipantes
Alguns Projetos de Genômas
AstraZeneca
Genome Asia 100k
Million Veteran Program
PMI Cohort
100k Genomes UK
The Cancer Genome Atlas (TCGA)
1k Genomes Project ABraOM - Brazilian genomic variants
2020
15
Whole Exome Sequencing (WES)
Next Generation Sequencing
O que é Whole Exome Sequence (WES)?
Nature 1978
16
https://www.nature.com/nature/journal/v271/n5645/abs/271501a0.html
Exon —> EXpressed regiON 
Intron —> INTRagenic regiON
The human genome consists of 3 billion
nucleotides or “letters” of DNA. But only a small
percentage — 1.5 percent — of those letters are
actually translated into proteins, the functional
players in the body. The “exome” consists of all
the genome’s exons, which are the coding
portions of genes.
By Leah Eisenstadt
https://www.broadinstitute.org/blog/what-exome-sequencing
Exoma (WES)
https://share.ambrygen.com/bundles/agdat/frontend/img/exome/1.jpg
Comparação de tipos Sequenciamento
WGS / WES / Panel
Whole Genome
Sequence
(WGS)
Whole Exome
Sequence
(WES)
Painel
1% do
WGS
Tipos de Dados
Next Generation Sequences (NGS)
19
FASTQ BAM VCFBED
FASTA + Quality
arquivo texto com
sequências de
nucleotídeos e
qualidade por base.
Binary Alignment Map
arquivo binário de
sequências alinhadas
em uma referência.
Variant Allele Frequency
arquivo texto com as
variantes encontradas em
relação a referência.
Browser Extensible Data
arquivo texto com regiões
genéticas alvos de
interesse
FASTQ
FASTA + Quality
arquivo texto com
sequências de
nucleotídeos e
qualidade por base.
Tipos de Dados: FASTQ
Next Generation Sequences (NGS)
21
Tipos de Dados: FASTQ - Phred Score
Next Generation Sequences (NGS)
22
Phred
Score
Pares de bases (pb)
Tipos de Dados: Phred Score
Next Generation Sequences (NGS)
23
http://www.illumina.com/documents/products/technotes/technote_Q-Scores.pdf
BAM
Binary Alignment Map
arquivo binário de
sequências alinhadas
em uma referência.
!26
• DNA AZUL
• RNA VERMELHO
• miRNA VERDE
• bisulfite ROXO
Timeline: Mapeadores
https://www.ebi.ac.uk/~nf/hts_mappers/#timeline
Tipos de Dados: FASTQ (in) BAM (out)
Next Generation Sequences (NGS)
28
https://software.broadinstitute.org/gatk/events/slides/1503/GATKwh6-BP-0A-Intro_to_HTS.pdf
FASTQ
(dados brutos)
BAM
(alinhados)
Referência
(genoma)
Tipos de Dados: Binary Alignment Map (BAM)
Next Generation Sequences (NGS)
29
https://software.broadinstitute.org/gatk/events/slides/1503/GATKwh6-BP-0A-Intro_to_HTS.pdf
BAM: Cobertura (WES)
Visualização pelo programa IGV Broad Institute
30
https://www.abmgood.com/Enzymes/images/Exome-IGV.png
BED
Browser Extensible Data
arquivo texto com regiões
genéticas alvos de interesse
Tipos de Dados: Browser Extensible Data (BED)
Next Generation Sequences (NGS)
32
chr11 5246919 5246920 Hb_North_York 2619 Hemoglobin variant
chr11 5255660 5255661 HBD c.1 G>A 2659 delta0 thalassemia
chr11 5247945 5247946 Hb Sheffield 2672 Hemoglobin variant
chr11 5255415 5255416 Hb A2-Lyon 2676 Hemoglobin variant
chr11 5248234 5248235 Hb Aix-les-Bains 2677 Hemoglobin variant
https://genome.ucsc.edu/FAQ/FAQformat.html#format1.7
Chr Start End
VCF
Variant Call Format
arquivo texto com as
variantes encontradas
em relação a
referência.
Tipos de Dados: Variant Call Format (VCF)
Next Generation Sequences (NGS)
34
https://bioinf.comav.upv.es/courses/sequence_analysis/_images/vcf_format.png
Tempo de
Processamento
Tempo de Sequenciamento
NextSeq 500
36
FASTQ BAM VCF
2-3d 2-3h 1h
3-4d 3-5h 2h
7-10d 8-12h 5h
Painel (>500X)
WES (50X)
WGS (30x)
Ferramentas de
Bioinformática
play tools
http://www.htslib.org/
Genome Analysis Toolkit GATK4
Variant Discovery in High-Throughput Sequencing Data
40
https://gatkforums.broadinstitute.org/gatk/discussion/9644/unboxing-gatk4
Genome Analysis Toolkit GATK
Variant Discovery in High-Throughput Sequencing Data
41
https://software.broadinstitute.org/gatk/
Chamada de Variantes (WES)
Target sequence (exome)
42
https://software.broadinstitute.org/gatk/events/slides/1503/GATKwh6-BP-0A-Intro_to_HTS.pdf
Banco de Dados Públicos (Anotação)
Dados de Referência
43
ExAC65k
ClinVar
Variant Effect Predictor VEP
Anotação
44
http://www.ensembl.org/info/docs/tools/vep/index.html
Variant Effect Predictor VEP
Anotação por regiões
45
Banco de Dados Públicos
Dados de Referência
46
• 1000 Genomes Project (2015 Agosto)
• Allele frequency data in 1000 Genomes Project (AFR (African), AMR (Admixed American), EAS
(East Asian), EUR (European), SAS (South Asian))
• http://www.1000genomes.org/
• dbSNP
• Minor Allele Frequency (MAF)
• http://www.ncbi.nlm.nih.gov/SNP/
• O ESP é um projecto financiado pelo NHLBI exome
• 6500 amostras
• http://evs.gs.washington.edu/EVS/
Banco de Dados Públicos (ExAC)
Dados de Referência
47
• ExAC 65000 Exome Allele Frequency
• AFR (African)
• AMR (Admixed American)
• EAS (East Asian)
• FIN (Finnish)
• NFE (Non-finnish European)
• OTH (other)
• SAS (South Asian)
http://exac.broadinstitute.org/
Banco de Dados Públicos (ABraOM)
Dados de Referência
48
http://abraom.ib.usp.br/
Banco de Dados Públicos (ClinVar)
Dados de Referência
49
• CLINVAR: variantes com associação clínica:
• unknown
• untested
• non-pathogenic
• probable-non-pathogenic
• probable-pathogenic
• pathogenic
• drug-response
• histocompatibility
• other e com nome das doenças
https://www.ncbi.nlm.nih.gov/clinvar/
Banco de Dados Públicos (COSMIC)
Dados de Referência
50
• COSMIC: Catalogue of Somatic Mutations in Cancer
• http://cancer.sanger.ac.uk/cosmic
http://www.sanger.ac.uk/sites/default/files/Jan2016/noncodingdrivers.jpg
Priorização de drivers de câncer
não codificadores com base em
padrões de seleção.
(1)Filtrar variantes somáticas para excluir
1000 genomas de polimorfismos;
(2) Reter variantes com anotações não
codificantes;
(3) Reter variantes em regiões "sensíveis";
(4) Priorizam variantes que interrompam
factores de transcrição;
(5) Residam perto do centro de uma rede
biológica;
(6) Priorizam os blocos de anotação
mutados em múltiplas amostras de câncer
FASTQ BAM VCFBED
FASTA + Quality
arquivo texto com
sequências de
nucleotídeos e
qualidade por base.
Binary Alignment Map
arquivo binário de
sequências alinhadas
em uma referência.
Variant Allele Frequency
arquivo texto com as
variantes encontradas em
relação a referência.
Browser Extensible Data
arquivo texto com regiões
genéticas alvos de
interesse
https://usegalaxyp.org/
Novos Desafios
“Competitividade"
https://varstation.com/#how-it-works
http://www.dnae.com/
semiconductor microchips to analyze DNA
http://edicogenome.com/dragen-bioit-platform/
1K
Pediatric Genomes
processados em:
2h25m
Capacidade de armazenar 215 petabytes (215 milhões gigabytes)
em um única grama de DNA
http://www.sciencemag.org/news/2017/03/dna-could-store-all-worlds-data-one-room
https://www.nature.com/news/how-dna-could-store-all-the-world-s-data-1.20496
Ultra-deep sequencing (AML)
Optimizing Cancer Genome Sequencing and Analysis
58
(Standard) Model of clonal architecture and tumor evolution,
inferred from the original 30x sequencing data.
(Optimized) Ultra-deep sequencing and validation, revealing
additional subclonal complexity.

http://www.cell.com/cell-systems/abstract/S2405-4712(15)00113-1
Demanda
SP
Obrigado

Mais conteúdo relacionado

Semelhante a ERBASE 2019 - Renato Puga

Anotação molecular
Anotação molecularAnotação molecular
Anotação molecularUERGS
 
Bioinformática Introdução (Basic NGS)
Bioinformática Introdução (Basic NGS)Bioinformática Introdução (Basic NGS)
Bioinformática Introdução (Basic NGS)Renato Puga
 
Bioinformática arquivo de dados
Bioinformática arquivo de dadosBioinformática arquivo de dados
Bioinformática arquivo de dadosUERGS
 
Sequenciamento de nova geração- Curso de Inverno de Genética 2013-UFPR by Jos...
Sequenciamento de nova geração- Curso de Inverno de Genética 2013-UFPR by Jos...Sequenciamento de nova geração- Curso de Inverno de Genética 2013-UFPR by Jos...
Sequenciamento de nova geração- Curso de Inverno de Genética 2013-UFPR by Jos...Joseph Evaristo
 
Avanços e perspectivas em Bioinformática
Avanços e perspectivas em BioinformáticaAvanços e perspectivas em Bioinformática
Avanços e perspectivas em BioinformáticaLeandro Lima
 
Iscad ti 2010_2011_1 - internet
Iscad ti 2010_2011_1 - internetIscad ti 2010_2011_1 - internet
Iscad ti 2010_2011_1 - internetLuis Vidigal
 
Utilizando o GenBank como integrador de conceitos e Biologia Molecular
Utilizando o GenBank como integrador de conceitos e Biologia MolecularUtilizando o GenBank como integrador de conceitos e Biologia Molecular
Utilizando o GenBank como integrador de conceitos e Biologia MolecularRosane Teresinha Nascimento da Rosa
 
AULA 17 O GENOMA HUMANO. PROJECTO GENOMA HUMANO.pptx
AULA 17 O GENOMA HUMANO. PROJECTO GENOMA HUMANO.pptxAULA 17 O GENOMA HUMANO. PROJECTO GENOMA HUMANO.pptx
AULA 17 O GENOMA HUMANO. PROJECTO GENOMA HUMANO.pptxAmaroAlmeidaChimbala
 
Python: a arma secreta do Cientista de Dados
Python: a arma secreta do Cientista de DadosPython: a arma secreta do Cientista de Dados
Python: a arma secreta do Cientista de DadosRodrigo Senra
 
Centro Brasileiro de Pesquisas Físicas
Centro Brasileiro de Pesquisas FísicasCentro Brasileiro de Pesquisas Físicas
Centro Brasileiro de Pesquisas FísicasNIT Rio
 
Como seu DNA com a Bioinformática pode revolucionar o diagnóstico clínico no ...
Como seu DNA com a Bioinformática pode revolucionar o diagnóstico clínico no ...Como seu DNA com a Bioinformática pode revolucionar o diagnóstico clínico no ...
Como seu DNA com a Bioinformática pode revolucionar o diagnóstico clínico no ...Genomika Diagnósticos
 
Bioinformatica e genomica-george_carvalho
Bioinformatica e genomica-george_carvalhoBioinformatica e genomica-george_carvalho
Bioinformatica e genomica-george_carvalhoGeorge Carvalho
 

Semelhante a ERBASE 2019 - Renato Puga (18)

Anotação molecular
Anotação molecularAnotação molecular
Anotação molecular
 
Bioinformática Introdução (Basic NGS)
Bioinformática Introdução (Basic NGS)Bioinformática Introdução (Basic NGS)
Bioinformática Introdução (Basic NGS)
 
Montagem de Genomas
Montagem de GenomasMontagem de Genomas
Montagem de Genomas
 
Bioinformática arquivo de dados
Bioinformática arquivo de dadosBioinformática arquivo de dados
Bioinformática arquivo de dados
 
RNAseq Analysis
RNAseq AnalysisRNAseq Analysis
RNAseq Analysis
 
Palestra sobre Bioinformática
Palestra sobre BioinformáticaPalestra sobre Bioinformática
Palestra sobre Bioinformática
 
Sequenciamento de nova geração- Curso de Inverno de Genética 2013-UFPR by Jos...
Sequenciamento de nova geração- Curso de Inverno de Genética 2013-UFPR by Jos...Sequenciamento de nova geração- Curso de Inverno de Genética 2013-UFPR by Jos...
Sequenciamento de nova geração- Curso de Inverno de Genética 2013-UFPR by Jos...
 
ACC-Bioinformatica-Seminario
ACC-Bioinformatica-SeminarioACC-Bioinformatica-Seminario
ACC-Bioinformatica-Seminario
 
Avanços e perspectivas em Bioinformática
Avanços e perspectivas em BioinformáticaAvanços e perspectivas em Bioinformática
Avanços e perspectivas em Bioinformática
 
Iscad ti 2010_2011_1 - internet
Iscad ti 2010_2011_1 - internetIscad ti 2010_2011_1 - internet
Iscad ti 2010_2011_1 - internet
 
Utilizando o GenBank como integrador de conceitos e Biologia Molecular
Utilizando o GenBank como integrador de conceitos e Biologia MolecularUtilizando o GenBank como integrador de conceitos e Biologia Molecular
Utilizando o GenBank como integrador de conceitos e Biologia Molecular
 
AULA 17 O GENOMA HUMANO. PROJECTO GENOMA HUMANO.pptx
AULA 17 O GENOMA HUMANO. PROJECTO GENOMA HUMANO.pptxAULA 17 O GENOMA HUMANO. PROJECTO GENOMA HUMANO.pptx
AULA 17 O GENOMA HUMANO. PROJECTO GENOMA HUMANO.pptx
 
Python: a arma secreta do Cientista de Dados
Python: a arma secreta do Cientista de DadosPython: a arma secreta do Cientista de Dados
Python: a arma secreta do Cientista de Dados
 
Pesquisa Reproduzivel
Pesquisa ReproduzivelPesquisa Reproduzivel
Pesquisa Reproduzivel
 
Centro Brasileiro de Pesquisas Físicas
Centro Brasileiro de Pesquisas FísicasCentro Brasileiro de Pesquisas Físicas
Centro Brasileiro de Pesquisas Físicas
 
Como seu DNA com a Bioinformática pode revolucionar o diagnóstico clínico no ...
Como seu DNA com a Bioinformática pode revolucionar o diagnóstico clínico no ...Como seu DNA com a Bioinformática pode revolucionar o diagnóstico clínico no ...
Como seu DNA com a Bioinformática pode revolucionar o diagnóstico clínico no ...
 
Minicurso 2013
Minicurso 2013Minicurso 2013
Minicurso 2013
 
Bioinformatica e genomica-george_carvalho
Bioinformatica e genomica-george_carvalhoBioinformatica e genomica-george_carvalho
Bioinformatica e genomica-george_carvalho
 

ERBASE 2019 - Renato Puga

  • 2. DLE - NTO SP Hospital Israelita Albert Einstein AC Camargo Cancer Center MBA Blockchain Dev - FIAP Mestre em Ciências Biológicas - USP Analista de Sistemas - UNAERP Google Acadêmico
 goo.gl/r5ko8T
 Linkedin
 linkedin.com/in/renato-puga-24885524/ renatopuga@gmail.com Short Bio
  • 3. NGS & Bioinfo Núcleo de Bioinformática Desafios
  • 4.
  • 5.
  • 6.
  • 7. Sequenciamento de DNA - Tecnologia Sobre.. 7 1G
  • 8. Bioinformática 1.0 - command line 8 Terminal 1981: Smith–Waterman156
 1982: GenBank (https://www.ncbi.nlm.nih.gov/genbank/statistics/) 
 1990: BLAST16
 1995: TIGR assembler24
 1996: RepeatMasker
 1997: GENSCAN157
 1998: phred, phrap, consed22
 2000: Celera assembler25
 2001: Bioconductor
 2001: EULER74
 2002: BLAT158
 2002: UCSC Genome Browser159
 2002: Ensembl160 2005: Galaxy161
 2007: NCBI Short Read Archive
 2008: ALLPATHS162
 2008: Velvet75
 2009: Bowtie83
 2009: BWA82
 2009: SAMtools84
 2009: BreakDancer163
 2009: Pindel164
 2009: TopHat115
 2010: SOAPdenovo165
 2010: GATK85
 2010: Cufflinks116
 2011: Integrated Genomics Viewer166
 2013: HGAP/Quiver167
 2017: Canu81

  • 9. Sequenciamento de DNA - Tecnologia Sobre.. 9 2G
  • 10. Bioinformática 2.0 - slick, all-in-one, desktop apps 10 all-in-one • Next Generation Sequencing, • Microarray & qPCR Data Analysis Software • Resequencing and Variant Analysis • Metagenomics • Epigenomics • De novo assembly • CGH
  • 11. Bioinformática 3.0 - targeted analysis pipelines and tools powered by the cloud 11
  • 12. 1994 / 1996 Poder 1999 1990-2001 em 2015 (10 dias) Desde 2015 Começo oficial do Projeto Genoma Humano Rotina NGS em Clinicas de Diagnóstico maior parte dos genoma esta mapeado / "Bermuda Principles”. Sequenciamento de DNA em larga-escala $1 bilhão $ 10 mil 1990 FUTURE 2028 Projeto Genoma Humano anos dourados da bioinformática http://www.yourgenome.org/facts/ timeline-the-human-genome-project
  • 13. Era dos Milhões de Genomas 13 Participantes Escala 1.000 Grande 10.000 Mega 100.000 Ultra 1.000.000 Jedi
  • 14. 1.000.000 100.000 10.000 10.000.000 1.000 100 10 2006 2008 2010 2012 2014 2016 2018 NúmerodeParticipantes Alguns Projetos de Genômas AstraZeneca Genome Asia 100k Million Veteran Program PMI Cohort 100k Genomes UK The Cancer Genome Atlas (TCGA) 1k Genomes Project ABraOM - Brazilian genomic variants 2020
  • 15. 15 Whole Exome Sequencing (WES) Next Generation Sequencing
  • 16. O que é Whole Exome Sequence (WES)? Nature 1978 16 https://www.nature.com/nature/journal/v271/n5645/abs/271501a0.html Exon —> EXpressed regiON  Intron —> INTRagenic regiON The human genome consists of 3 billion nucleotides or “letters” of DNA. But only a small percentage — 1.5 percent — of those letters are actually translated into proteins, the functional players in the body. The “exome” consists of all the genome’s exons, which are the coding portions of genes. By Leah Eisenstadt https://www.broadinstitute.org/blog/what-exome-sequencing
  • 18. Comparação de tipos Sequenciamento WGS / WES / Panel Whole Genome Sequence (WGS) Whole Exome Sequence (WES) Painel 1% do WGS
  • 19. Tipos de Dados Next Generation Sequences (NGS) 19 FASTQ BAM VCFBED FASTA + Quality arquivo texto com sequências de nucleotídeos e qualidade por base. Binary Alignment Map arquivo binário de sequências alinhadas em uma referência. Variant Allele Frequency arquivo texto com as variantes encontradas em relação a referência. Browser Extensible Data arquivo texto com regiões genéticas alvos de interesse
  • 20. FASTQ FASTA + Quality arquivo texto com sequências de nucleotídeos e qualidade por base.
  • 21. Tipos de Dados: FASTQ Next Generation Sequences (NGS) 21
  • 22. Tipos de Dados: FASTQ - Phred Score Next Generation Sequences (NGS) 22 Phred Score Pares de bases (pb)
  • 23. Tipos de Dados: Phred Score Next Generation Sequences (NGS) 23 http://www.illumina.com/documents/products/technotes/technote_Q-Scores.pdf
  • 24. BAM Binary Alignment Map arquivo binário de sequências alinhadas em uma referência.
  • 25.
  • 26. !26
  • 27. • DNA AZUL • RNA VERMELHO • miRNA VERDE • bisulfite ROXO Timeline: Mapeadores https://www.ebi.ac.uk/~nf/hts_mappers/#timeline
  • 28. Tipos de Dados: FASTQ (in) BAM (out) Next Generation Sequences (NGS) 28 https://software.broadinstitute.org/gatk/events/slides/1503/GATKwh6-BP-0A-Intro_to_HTS.pdf FASTQ (dados brutos) BAM (alinhados) Referência (genoma)
  • 29. Tipos de Dados: Binary Alignment Map (BAM) Next Generation Sequences (NGS) 29 https://software.broadinstitute.org/gatk/events/slides/1503/GATKwh6-BP-0A-Intro_to_HTS.pdf
  • 30. BAM: Cobertura (WES) Visualização pelo programa IGV Broad Institute 30 https://www.abmgood.com/Enzymes/images/Exome-IGV.png
  • 31. BED Browser Extensible Data arquivo texto com regiões genéticas alvos de interesse
  • 32. Tipos de Dados: Browser Extensible Data (BED) Next Generation Sequences (NGS) 32 chr11 5246919 5246920 Hb_North_York 2619 Hemoglobin variant chr11 5255660 5255661 HBD c.1 G>A 2659 delta0 thalassemia chr11 5247945 5247946 Hb Sheffield 2672 Hemoglobin variant chr11 5255415 5255416 Hb A2-Lyon 2676 Hemoglobin variant chr11 5248234 5248235 Hb Aix-les-Bains 2677 Hemoglobin variant https://genome.ucsc.edu/FAQ/FAQformat.html#format1.7 Chr Start End
  • 33. VCF Variant Call Format arquivo texto com as variantes encontradas em relação a referência.
  • 34. Tipos de Dados: Variant Call Format (VCF) Next Generation Sequences (NGS) 34 https://bioinf.comav.upv.es/courses/sequence_analysis/_images/vcf_format.png
  • 36. Tempo de Sequenciamento NextSeq 500 36 FASTQ BAM VCF 2-3d 2-3h 1h 3-4d 3-5h 2h 7-10d 8-12h 5h Painel (>500X) WES (50X) WGS (30x)
  • 38.
  • 40. Genome Analysis Toolkit GATK4 Variant Discovery in High-Throughput Sequencing Data 40 https://gatkforums.broadinstitute.org/gatk/discussion/9644/unboxing-gatk4
  • 41. Genome Analysis Toolkit GATK Variant Discovery in High-Throughput Sequencing Data 41 https://software.broadinstitute.org/gatk/
  • 42. Chamada de Variantes (WES) Target sequence (exome) 42 https://software.broadinstitute.org/gatk/events/slides/1503/GATKwh6-BP-0A-Intro_to_HTS.pdf
  • 43. Banco de Dados Públicos (Anotação) Dados de Referência 43 ExAC65k ClinVar
  • 44. Variant Effect Predictor VEP Anotação 44 http://www.ensembl.org/info/docs/tools/vep/index.html
  • 45. Variant Effect Predictor VEP Anotação por regiões 45
  • 46. Banco de Dados Públicos Dados de Referência 46 • 1000 Genomes Project (2015 Agosto) • Allele frequency data in 1000 Genomes Project (AFR (African), AMR (Admixed American), EAS (East Asian), EUR (European), SAS (South Asian)) • http://www.1000genomes.org/ • dbSNP • Minor Allele Frequency (MAF) • http://www.ncbi.nlm.nih.gov/SNP/ • O ESP é um projecto financiado pelo NHLBI exome • 6500 amostras • http://evs.gs.washington.edu/EVS/
  • 47. Banco de Dados Públicos (ExAC) Dados de Referência 47 • ExAC 65000 Exome Allele Frequency • AFR (African) • AMR (Admixed American) • EAS (East Asian) • FIN (Finnish) • NFE (Non-finnish European) • OTH (other) • SAS (South Asian) http://exac.broadinstitute.org/
  • 48. Banco de Dados Públicos (ABraOM) Dados de Referência 48 http://abraom.ib.usp.br/
  • 49. Banco de Dados Públicos (ClinVar) Dados de Referência 49 • CLINVAR: variantes com associação clínica: • unknown • untested • non-pathogenic • probable-non-pathogenic • probable-pathogenic • pathogenic • drug-response • histocompatibility • other e com nome das doenças https://www.ncbi.nlm.nih.gov/clinvar/
  • 50. Banco de Dados Públicos (COSMIC) Dados de Referência 50 • COSMIC: Catalogue of Somatic Mutations in Cancer • http://cancer.sanger.ac.uk/cosmic
  • 51. http://www.sanger.ac.uk/sites/default/files/Jan2016/noncodingdrivers.jpg Priorização de drivers de câncer não codificadores com base em padrões de seleção. (1)Filtrar variantes somáticas para excluir 1000 genomas de polimorfismos; (2) Reter variantes com anotações não codificantes; (3) Reter variantes em regiões "sensíveis"; (4) Priorizam variantes que interrompam factores de transcrição; (5) Residam perto do centro de uma rede biológica; (6) Priorizam os blocos de anotação mutados em múltiplas amostras de câncer
  • 52. FASTQ BAM VCFBED FASTA + Quality arquivo texto com sequências de nucleotídeos e qualidade por base. Binary Alignment Map arquivo binário de sequências alinhadas em uma referência. Variant Allele Frequency arquivo texto com as variantes encontradas em relação a referência. Browser Extensible Data arquivo texto com regiões genéticas alvos de interesse https://usegalaxyp.org/
  • 57. Capacidade de armazenar 215 petabytes (215 milhões gigabytes) em um única grama de DNA http://www.sciencemag.org/news/2017/03/dna-could-store-all-worlds-data-one-room https://www.nature.com/news/how-dna-could-store-all-the-world-s-data-1.20496
  • 58. Ultra-deep sequencing (AML) Optimizing Cancer Genome Sequencing and Analysis 58 (Standard) Model of clonal architecture and tumor evolution, inferred from the original 30x sequencing data. (Optimized) Ultra-deep sequencing and validation, revealing additional subclonal complexity.
 http://www.cell.com/cell-systems/abstract/S2405-4712(15)00113-1
  • 59.
  • 60.