ERBASE 2019 - Renato Puga

Bioinformática
Aplicada
à área da Saúde
Renato Puga

DLE - NTO SP
Hospital Israelita Albert Einstein
AC Camargo Cancer Center
MBA Blockchain Dev - FIAP
Mestre em Ciências Biológicas - USP
Analista de Sistemas - UNAERP
Google Acadêmico 
goo.gl/r5ko8T 
Linkedin 
linkedin.com/in/renato-puga-24885524/
renatopuga@gmail.com
Short Bio

NGS & Bioinfo Núcleo de Bioinformática Desafios

Sequenciamento de DNA - Tecnologia
Sobre..
7
1G

Bioinformática 1.0 - command line
8
Terminal
1981: Smith–Waterman156 
1982: GenBank (https://www.ncbi.nlm.nih.gov/genbank/statistics/)  
1990: BLAST16 
1995: TIGR assembler24 
1996: RepeatMasker 
1997: GENSCAN157 
1998: phred, phrap, consed22 
2000: Celera assembler25 
2001: Bioconductor 
2001: EULER74 
2002: BLAT158 
2002: UCSC Genome Browser159 
2002: Ensembl160
2005: Galaxy161 
2007: NCBI Short Read Archive 
2008: ALLPATHS162 
2008: Velvet75 
2009: Bowtie83 
2009: BWA82 
2009: SAMtools84 
2009: BreakDancer163 
2009: Pindel164 
2009: TopHat115 
2010: SOAPdenovo165 
2010: GATK85 
2010: Cufflinks116 
2011: Integrated Genomics Viewer166 
2013: HGAP/Quiver167 
2017: Canu81

Sequenciamento de DNA - Tecnologia
Sobre..
9
2G

Bioinformática 2.0 - slick, all-in-one, desktop apps
10
all-in-one
• Next Generation Sequencing,
• Microarray & qPCR Data Analysis Software
• Resequencing and Variant Analysis
• Metagenomics
• Epigenomics
• De novo assembly
• CGH

Bioinformática 3.0 - targeted analysis pipelines and tools powered by the cloud
11

1994 / 1996
Poder 1999
1990-2001
em 2015 (10 dias)
Desde 2015
Começo oficial do Projeto Genoma
Humano
Rotina NGS em
Clinicas de Diagnóstico
maior parte dos genoma esta
mapeado / "Bermuda
Principles”.
Sequenciamento de DNA em
larga-escala
$1 bilhão
$ 10 mil
1990
FUTURE 2028
Projeto Genoma Humano
anos dourados da bioinformática
http://www.yourgenome.org/facts/
timeline-the-human-genome-project

Era dos Milhões de Genomas
13
Participantes Escala
1.000 Grande
10.000 Mega
100.000 Ultra
1.000.000 Jedi

1.000.000
100.000
10.000
10.000.000
1.000
100
10
2006
2008
2010
2012
2014
2016
2018
NúmerodeParticipantes
Alguns Projetos de Genômas
AstraZeneca
Genome Asia 100k
Million Veteran Program
PMI Cohort
100k Genomes UK
The Cancer Genome Atlas (TCGA)
1k Genomes Project ABraOM - Brazilian genomic variants
2020

15
Whole Exome Sequencing (WES)
Next Generation Sequencing

O que é Whole Exome Sequence (WES)?
Nature 1978
16
https://www.nature.com/nature/journal/v271/n5645/abs/271501a0.html
Exon —> EXpressed regiON
Intron —> INTRagenic regiON
The human genome consists of 3 billion
nucleotides or “letters” of DNA. But only a small
percentage — 1.5 percent — of those letters are
actually translated into proteins, the functional
players in the body. The “exome” consists of all
the genome’s exons, which are the coding
portions of genes.
By Leah Eisenstadt
https://www.broadinstitute.org/blog/what-exome-sequencing

Exoma (WES)
https://share.ambrygen.com/bundles/agdat/frontend/img/exome/1.jpg

Comparação de tipos Sequenciamento
WGS / WES / Panel
Whole Genome
Sequence
(WGS)
Whole Exome
Sequence
(WES)
Painel
1% do
WGS

Tipos de Dados
Next Generation Sequences (NGS)
19
FASTQ BAM VCFBED
FASTA + Quality
arquivo texto com
sequências de
nucleotídeos e
qualidade por base.
Binary Alignment Map
arquivo binário de
sequências alinhadas
em uma referência.
Variant Allele Frequency
arquivo texto com as
variantes encontradas em
relação a referência.
Browser Extensible Data
arquivo texto com regiões
genéticas alvos de
interesse

FASTQ
FASTA + Quality
arquivo texto com
sequências de
nucleotídeos e
qualidade por base.

Tipos de Dados: FASTQ
21

Tipos de Dados: FASTQ - Phred Score
22
Phred
Score
Pares de bases (pb)

Tipos de Dados: Phred Score
23
http://www.illumina.com/documents/products/technotes/technote_Q-Scores.pdf

BAM
arquivo binário de
em uma referência.

• DNA AZUL
• RNA VERMELHO
• miRNA VERDE
• bisulfite ROXO
Timeline: Mapeadores
https://www.ebi.ac.uk/~nf/hts_mappers/#timeline

Tipos de Dados: FASTQ (in) BAM (out)
28
https://software.broadinstitute.org/gatk/events/slides/1503/GATKwh6-BP-0A-Intro_to_HTS.pdf
FASTQ
(dados brutos)
BAM
(alinhados)
Referência
(genoma)

Tipos de Dados: Binary Alignment Map (BAM)
29

BAM: Cobertura (WES)
Visualização pelo programa IGV Broad Institute
30
https://www.abmgood.com/Enzymes/images/Exome-IGV.png

BED
genéticas alvos de interesse

Tipos de Dados: Browser Extensible Data (BED)
32
chr11 5246919 5246920 Hb_North_York 2619 Hemoglobin variant
chr11 5255660 5255661 HBD c.1 G>A 2659 delta0 thalassemia
chr11 5247945 5247946 Hb Sheffield 2672 Hemoglobin variant
chr11 5255415 5255416 Hb A2-Lyon 2676 Hemoglobin variant
chr11 5248234 5248235 Hb Aix-les-Bains 2677 Hemoglobin variant
https://genome.ucsc.edu/FAQ/FAQformat.html#format1.7
Chr Start End

VCF
Variant Call Format
variantes encontradas
em relação a
referência.

Tipos de Dados: Variant Call Format (VCF)
34
https://bioinf.comav.upv.es/courses/sequence_analysis/_images/vcf_format.png

Tempo de Sequenciamento
NextSeq 500
36
FASTQ BAM VCF
2-3d 2-3h 1h
3-4d 3-5h 2h
7-10d 8-12h 5h
Painel (>500X)
WES (50X)
WGS (30x)

Ferramentas de
Bioinformática
play tools

Genome Analysis Toolkit GATK4
Variant Discovery in High-Throughput Sequencing Data
40
https://gatkforums.broadinstitute.org/gatk/discussion/9644/unboxing-gatk4

Genome Analysis Toolkit GATK
Variant Discovery in High-Throughput Sequencing Data
41
https://software.broadinstitute.org/gatk/

Chamada de Variantes (WES)
Target sequence (exome)
42

Banco de Dados Públicos (Anotação)
Dados de Referência
43
ExAC65k
ClinVar

Variant Effect Predictor VEP
Anotação
44
http://www.ensembl.org/info/docs/tools/vep/index.html

Variant Effect Predictor VEP
Anotação por regiões
45

Banco de Dados Públicos
46
• 1000 Genomes Project (2015 Agosto)
• Allele frequency data in 1000 Genomes Project (AFR (African), AMR (Admixed American), EAS
(East Asian), EUR (European), SAS (South Asian))
• http://www.1000genomes.org/
• dbSNP
• Minor Allele Frequency (MAF)
• http://www.ncbi.nlm.nih.gov/SNP/
• O ESP é um projecto financiado pelo NHLBI exome
• 6500 amostras
• http://evs.gs.washington.edu/EVS/

Banco de Dados Públicos (ExAC)
47
• ExAC 65000 Exome Allele Frequency
• AFR (African)
• AMR (Admixed American)
• EAS (East Asian)
• FIN (Finnish)
• NFE (Non-finnish European)
• OTH (other)
• SAS (South Asian)
http://exac.broadinstitute.org/

Banco de Dados Públicos (ABraOM)
48
http://abraom.ib.usp.br/

Banco de Dados Públicos (ClinVar)
49
• CLINVAR: variantes com associação clínica:
• unknown
• untested
• non-pathogenic
• probable-non-pathogenic
• probable-pathogenic
• pathogenic
• drug-response
• histocompatibility
• other e com nome das doenças
https://www.ncbi.nlm.nih.gov/clinvar/

Banco de Dados Públicos (COSMIC)
50
• COSMIC: Catalogue of Somatic Mutations in Cancer
• http://cancer.sanger.ac.uk/cosmic

http://www.sanger.ac.uk/sites/default/files/Jan2016/noncodingdrivers.jpg
Priorização de drivers de câncer
não codificadores com base em
padrões de seleção.
(1)Filtrar variantes somáticas para excluir
1000 genomas de polimorfismos;
(2) Reter variantes com anotações não
codificantes;
(3) Reter variantes em regiões "sensíveis";
(4) Priorizam variantes que interrompam
factores de transcrição;
(5) Residam perto do centro de uma rede
biológica;
(6) Priorizam os blocos de anotação
mutados em múltiplas amostras de câncer

FASTQ BAM VCFBED
FASTA + Quality
arquivo texto com
sequências de
nucleotídeos e
qualidade por base.
arquivo binário de
em uma referência.
Variant Allele Frequency
variantes encontradas em
relação a referência.
genéticas alvos de
interesse
https://usegalaxyp.org/

Novos Desafios
“Competitividade"

https://varstation.com/#how-it-works

http://www.dnae.com/
semiconductor microchips to analyze DNA

http://edicogenome.com/dragen-bioit-platform/
1K
Pediatric Genomes
processados em:
2h25m

Capacidade de armazenar 215 petabytes (215 milhões gigabytes)
em um única grama de DNA
http://www.sciencemag.org/news/2017/03/dna-could-store-all-worlds-data-one-room
https://www.nature.com/news/how-dna-could-store-all-the-world-s-data-1.20496

Ultra-deep sequencing (AML)
Optimizing Cancer Genome Sequencing and Analysis
58
(Standard) Model of clonal architecture and tumor evolution,
inferred from the original 30x sequencing data.
(Optimized) Ultra-deep sequencing and validation, revealing
additional subclonal complexity. 
http://www.cell.com/cell-systems/abstract/S2405-4712(15)00113-1

ERBASE 2019 - Renato Puga

Mais conteúdo relacionado

Semelhante a ERBASE 2019 - Renato Puga

Último

ERBASE 2019 - Renato Puga