Minicurso de Bioinformática aplicada à área da saúde.
ERBASE 2019 - XIX Escola Regional de Computação Bahia - Alagoas - Sergipe
https://erbase2019.tecnojr.com.br
2. DLE - NTO SP
Hospital Israelita Albert Einstein
AC Camargo Cancer Center
MBA Blockchain Dev - FIAP
Mestre em Ciências Biológicas - USP
Analista de Sistemas - UNAERP
Google Acadêmico
goo.gl/r5ko8T
Linkedin
linkedin.com/in/renato-puga-24885524/
renatopuga@gmail.com
Short Bio
10. Bioinformática 2.0 - slick, all-in-one, desktop apps
10
all-in-one
• Next Generation Sequencing,
• Microarray & qPCR Data Analysis Software
• Resequencing and Variant Analysis
• Metagenomics
• Epigenomics
• De novo assembly
• CGH
11. Bioinformática 3.0 - targeted analysis pipelines and tools powered by the cloud
11
12. 1994 / 1996
Poder 1999
1990-2001
em 2015 (10 dias)
Desde 2015
Começo oficial do Projeto Genoma
Humano
Rotina NGS em
Clinicas de Diagnóstico
maior parte dos genoma esta
mapeado / "Bermuda
Principles”.
Sequenciamento de DNA em
larga-escala
$1 bilhão
$ 10 mil
1990
FUTURE 2028
Projeto Genoma Humano
anos dourados da bioinformática
http://www.yourgenome.org/facts/
timeline-the-human-genome-project
13. Era dos Milhões de Genomas
13
Participantes Escala
1.000 Grande
10.000 Mega
100.000 Ultra
1.000.000 Jedi
16. O que é Whole Exome Sequence (WES)?
Nature 1978
16
https://www.nature.com/nature/journal/v271/n5645/abs/271501a0.html
Exon —> EXpressed regiON
Intron —> INTRagenic regiON
The human genome consists of 3 billion
nucleotides or “letters” of DNA. But only a small
percentage — 1.5 percent — of those letters are
actually translated into proteins, the functional
players in the body. The “exome” consists of all
the genome’s exons, which are the coding
portions of genes.
By Leah Eisenstadt
https://www.broadinstitute.org/blog/what-exome-sequencing
19. Tipos de Dados
Next Generation Sequences (NGS)
19
FASTQ BAM VCFBED
FASTA + Quality
arquivo texto com
sequências de
nucleotídeos e
qualidade por base.
Binary Alignment Map
arquivo binário de
sequências alinhadas
em uma referência.
Variant Allele Frequency
arquivo texto com as
variantes encontradas em
relação a referência.
Browser Extensible Data
arquivo texto com regiões
genéticas alvos de
interesse
34. Tipos de Dados: Variant Call Format (VCF)
Next Generation Sequences (NGS)
34
https://bioinf.comav.upv.es/courses/sequence_analysis/_images/vcf_format.png
46. Banco de Dados Públicos
Dados de Referência
46
• 1000 Genomes Project (2015 Agosto)
• Allele frequency data in 1000 Genomes Project (AFR (African), AMR (Admixed American), EAS
(East Asian), EUR (European), SAS (South Asian))
• http://www.1000genomes.org/
• dbSNP
• Minor Allele Frequency (MAF)
• http://www.ncbi.nlm.nih.gov/SNP/
• O ESP é um projecto financiado pelo NHLBI exome
• 6500 amostras
• http://evs.gs.washington.edu/EVS/
47. Banco de Dados Públicos (ExAC)
Dados de Referência
47
• ExAC 65000 Exome Allele Frequency
• AFR (African)
• AMR (Admixed American)
• EAS (East Asian)
• FIN (Finnish)
• NFE (Non-finnish European)
• OTH (other)
• SAS (South Asian)
http://exac.broadinstitute.org/
48. Banco de Dados Públicos (ABraOM)
Dados de Referência
48
http://abraom.ib.usp.br/
49. Banco de Dados Públicos (ClinVar)
Dados de Referência
49
• CLINVAR: variantes com associação clínica:
• unknown
• untested
• non-pathogenic
• probable-non-pathogenic
• probable-pathogenic
• pathogenic
• drug-response
• histocompatibility
• other e com nome das doenças
https://www.ncbi.nlm.nih.gov/clinvar/
50. Banco de Dados Públicos (COSMIC)
Dados de Referência
50
• COSMIC: Catalogue of Somatic Mutations in Cancer
• http://cancer.sanger.ac.uk/cosmic
51. http://www.sanger.ac.uk/sites/default/files/Jan2016/noncodingdrivers.jpg
Priorização de drivers de câncer
não codificadores com base em
padrões de seleção.
(1)Filtrar variantes somáticas para excluir
1000 genomas de polimorfismos;
(2) Reter variantes com anotações não
codificantes;
(3) Reter variantes em regiões "sensíveis";
(4) Priorizam variantes que interrompam
factores de transcrição;
(5) Residam perto do centro de uma rede
biológica;
(6) Priorizam os blocos de anotação
mutados em múltiplas amostras de câncer
52. FASTQ BAM VCFBED
FASTA + Quality
arquivo texto com
sequências de
nucleotídeos e
qualidade por base.
Binary Alignment Map
arquivo binário de
sequências alinhadas
em uma referência.
Variant Allele Frequency
arquivo texto com as
variantes encontradas em
relação a referência.
Browser Extensible Data
arquivo texto com regiões
genéticas alvos de
interesse
https://usegalaxyp.org/
57. Capacidade de armazenar 215 petabytes (215 milhões gigabytes)
em um única grama de DNA
http://www.sciencemag.org/news/2017/03/dna-could-store-all-worlds-data-one-room
https://www.nature.com/news/how-dna-could-store-all-the-world-s-data-1.20496
58. Ultra-deep sequencing (AML)
Optimizing Cancer Genome Sequencing and Analysis
58
(Standard) Model of clonal architecture and tumor evolution,
inferred from the original 30x sequencing data.
(Optimized) Ultra-deep sequencing and validation, revealing
additional subclonal complexity.
http://www.cell.com/cell-systems/abstract/S2405-4712(15)00113-1