SlideShare uma empresa Scribd logo
1 de 51
Ensino Einstein
BAG2019 SP Turma II
Introdução à Bioinformática e hands on
Olá Ambiente de Bioinformática, Primeiros Comandos, NGS
Formatos e Métricas de Qualidade de Sequenciamento.
Renato Puga
renatopuga@gmail.com
Short Bio
DLE - NTO SP
Hospital Israelita Albert Einstein
AC Camargo Cancer Center
MBA Blockchain Dev - FIAP
Mestre em Ciências Biológicas - USP
Analista de Sistemas - UNAERP
Google Acadêmico
goo.gl/r5ko8T
Linkedin
linkedin.com/in/renato-puga-24885524/
renatopuga@gmail.com
Bioinformatician Consultant
Renato Puga
https://github.com/ https://www.biostars.org/
http://google.com Amigos
NextSeq - Corrida
HiSeq - Corrida
NovaSeq 6000
NovaSeq 6000 - Data output ~
Era dos Milhões de Genomas
12
Participantes Escala
1.000 Grande
10.000 Mega
100.000 Ultra
1.000.000 Jedi
1.000.000
100.000
10.000
10.000.000
1.000
100
10
NúmerodeParticipantes
Alguns Projetos de Genômas
AstraZeneca
Genome Asia 100k
Million Veteran Program
PMI Cohort
100k Genomes UK
The Cancer Genome Atlas (TCGA)
1k Genomes Project ABraOM - Brazilian genomic variants
Demanda
SP
What is MyCode?
https://www.geisinger.org/mycode
Comparação de tipos Sequenciamento
WGS / WES / Panel
Whole Genome
Sequence
(WGS)
Whole Exome
Sequence
(WES)
Painel
1% do
WGS
Ferramentas de
Bioinformática
play tools
https://www.explainxkcd.com/wiki/index.php/927:_Standards
Genome Analysis Toolkit GATK - Pipeline
Variant Discovery in High-Throughput Sequencing Data
20
https://software.broadinstitute.org/gatk/
29
Bioinformática 3.0 - targeted analysis pipelines and tools powered by the cloud
Tipos de Dados
Next Generation Sequences (NGS)
23
FASTQ BAM VCFBED
FASTA + Quality
arquivo texto com
sequências de
nucleotídeos e
qualidade por base.
Binary Alignment
Map
arquivo binário de
sequências
alinhadas em uma
referência.
Variant Call Format
arquivo texto com as
variantes encontradas
em relação a
referência.
Browser Extensible
Data
arquivo texto com
regiões genéticas
alvos de interesse
FASTQ
FASTA + Quality
arquivo texto com
sequências de nucleotídeos
e qualidade por base.
Tipos de Dados: FASTQ
Next Generation Sequences (NGS)
25
Tipos de Dados: Phred Score
Next Generation Sequences (NGS)
26
http://www.illumina.com/documents/products/technotes/technote_Q-Scores.pdf
Plot do FastQC: FASTQ - Phred Score
Next Generation Sequences (NGS)
27
Phred
Score
Pares de bases (pb)
Tipos de Dados: FASTQ (in) BAM (out)
Next Generation Sequences (NGS)
28
https://software.broadinstitute.org/gatk/events/slides/1503/GATKwh6-BP-0A-Intro_to_HTS.pdf
FASTQ
(dados brutos)
BAM
(alinhados)
Referência
(genoma)
30
BWT
Armazene o genoma de referência inteiro
• Alinhar a base tag pela base do final.
• Quando a tag é percorrida, todos os locais
ativos são relatados.
• Se nenhuma correspondência for
encontrada, faça um backup e tente uma
substituição.
BAM
Binary Alignment Map
arquivo binário de
sequências alinhadas em
uma referência.
Tipos de Dados: Binary Alignment Map (BAM)
Next Generation Sequences (NGS)
32
https://software.broadinstitute.org/gatk/events/slides/1503/GATKwh6-BP-0A-Intro_to_HTS.pdf
BAM: Cobertura (WES)
Visualização pelo programa IGV Broad Institute
33
https://www.abmgood.com/Enzymes/images/Exome-IGV.png
BED
Browser Extensible Data
arquivo texto com regiões
genéticas alvos de interesse
Tipos de Dados: Browser Extensible Data (BED)
Next Generation Sequences (NGS)
35
chr11 5246919 5246920 Hb_North_York 2619 Hemoglobin variant
chr11 5255660 5255661 HBD c.1 G>A 2659 delta0 thalassemia
chr11 5247945 5247946 Hb Sheffield 2672 Hemoglobin variant
chr11 5255415 5255416 Hb A2-Lyon 2676 Hemoglobin variant
chr11 5248234 5248235 Hb Aix-les-Bains 2677 Hemoglobin variant
https://genome.ucsc.edu/FAQ/FAQformat.html#format1.7
Chr Start End
VCF
Variant Call Format
arquivo texto com as variantes
encontradas em relação a
referência.
Tipos de Dados: Variant Call Format (VCF)
Next Generation Sequences (NGS)
37
https://bioinf.comav.upv.es/courses/sequence_analysis/_images/vcf_format.png
Chamada de Variantes (WES)
Target sequence (exome)
38
https://software.broadinstitute.org/gatk/events/slides/1503/GATKwh6-BP-0A-Intro_to_HTS.pdf
Variant Effect Predictor VEP
Anotação
39
http://www.ensembl.org/info/docs/tools/vep/index.html
Variant Effect Predictor VEP
Anotação por regiões
40
http://www.sanger.ac.uk/sites/default/files/Jan2016/noncodingdrivers.jpg
Priorização de drivers de câncer não
codificadores candidatos com base em
padrões de seleção.
(1) Filtrar variantes somáticas para
excluir 1000 genomas de
polimorfismos;
(2) Reter variantes em anotações não
codificantes;
(3) Reter em regiões "sensíveis";
(4) Priorizam aqueles que interrompem
um motif de ligação ao factor de
transcrição;
(5) Residem perto do centro de uma
rede biológica;
(6) Priorizam os blocos de anotação
mutados em múltiplas amostras de
câncer
Variant Table
Tabela de Variantes
contém as variantes
encontradas e com
anotação gênica
….
FASTQ BAM VCFBED
FASTA + Quality
arquivo texto com
sequências de
nucleotídeos e
qualidade por base.
Binary Alignment Map
arquivo binário de
sequências alinhadas
em uma referência.
Variant Allele Frequency
arquivo texto com as
variantes encontradas em
relação a referência.
Browser Extensible Data
arquivo texto com regiões
genéticas alvos de
interesse
https://usegalaxyp.org/
http://www.cell.com/cell-systems/abstract/S2405-4712(15)00113-1
Authors Malachi Griffith, Christopher A. Miller, Obi L. Griffith, ...,
Elaine R. Mardis, Timothy J. Ley, Richard K. Wilson
1K
Pediatric Genomes
processados em:
2h25m
Dragen Pipeline
Caso de uso
https://towardsdatascience.com/genomic-data-blockchain-and-money-a6e5597ebe3e
O assembly GRCh38 é conhecido
por fornecer algumas melhorias
significativas sobre o GRCh37 e outras
versões anteriores:
• Cobertura sequencial de centrômeros
• Atualizações gerais de montagem
• Melhor representação de variação
hg19 vs hg38
hands on
putty Amazon
github.com/renatopuga/BAG2019
arqsv0PCCOMUMBAG2019Isso é um Zero
BAG2019 - São Paulo - Turma 2

Mais conteúdo relacionado

Semelhante a BAG2019 - São Paulo - Turma 2

Bioinformática Introdução (Basic NGS)
Bioinformática Introdução (Basic NGS)Bioinformática Introdução (Basic NGS)
Bioinformática Introdução (Basic NGS)Renato Puga
 
A Centralized Platform for Access of Heterogeneous Data on Human Genome Repos...
A Centralized Platform for Access of Heterogeneous Data on Human Genome Repos...A Centralized Platform for Access of Heterogeneous Data on Human Genome Repos...
A Centralized Platform for Access of Heterogeneous Data on Human Genome Repos...Andreza Leite
 
Centro Brasileiro de Pesquisas Físicas
Centro Brasileiro de Pesquisas FísicasCentro Brasileiro de Pesquisas Físicas
Centro Brasileiro de Pesquisas FísicasNIT Rio
 
Análises de sequências metagenômicas via MG-RAST
Análises de sequências metagenômicas via MG-RASTAnálises de sequências metagenômicas via MG-RAST
Análises de sequências metagenômicas via MG-RASTLeandro Lemos
 
AVALIAÇÃO DO ESPAÇO CONFORMACIOAL DO RECEPTOR μ-OPIOIDE COM LIGANTES ENVIESA...
AVALIAÇÃO DO ESPAÇO CONFORMACIOAL DO RECEPTOR  μ-OPIOIDE COM LIGANTES ENVIESA...AVALIAÇÃO DO ESPAÇO CONFORMACIOAL DO RECEPTOR  μ-OPIOIDE COM LIGANTES ENVIESA...
AVALIAÇÃO DO ESPAÇO CONFORMACIOAL DO RECEPTOR μ-OPIOIDE COM LIGANTES ENVIESA...Rubem Francisco Silva Bezerra
 
Avanços e perspectivas em Bioinformática
Avanços e perspectivas em BioinformáticaAvanços e perspectivas em Bioinformática
Avanços e perspectivas em BioinformáticaLeandro Lima
 
Ct136 AuditóRio 2 Francisco Salvador
Ct136   AuditóRio 2   Francisco SalvadorCt136   AuditóRio 2   Francisco Salvador
Ct136 AuditóRio 2 Francisco SalvadorFrancisco Salvador
 
Bioinformática com Biopython
Bioinformática com BiopythonBioinformática com Biopython
Bioinformática com BiopythonMarcos Castro
 
Algor genetico
Algor geneticoAlgor genetico
Algor geneticotiojoffre
 
Bioinformática - Bases de dados
Bioinformática - Bases de dadosBioinformática - Bases de dados
Bioinformática - Bases de dadosGabriel Fernandes
 

Semelhante a BAG2019 - São Paulo - Turma 2 (11)

Bioinformática Introdução (Basic NGS)
Bioinformática Introdução (Basic NGS)Bioinformática Introdução (Basic NGS)
Bioinformática Introdução (Basic NGS)
 
A Centralized Platform for Access of Heterogeneous Data on Human Genome Repos...
A Centralized Platform for Access of Heterogeneous Data on Human Genome Repos...A Centralized Platform for Access of Heterogeneous Data on Human Genome Repos...
A Centralized Platform for Access of Heterogeneous Data on Human Genome Repos...
 
Biblioteca Digital Brasileira de Teses e Dissertações: ações para melhoria na...
Biblioteca Digital Brasileira de Teses e Dissertações: ações para melhoria na...Biblioteca Digital Brasileira de Teses e Dissertações: ações para melhoria na...
Biblioteca Digital Brasileira de Teses e Dissertações: ações para melhoria na...
 
Centro Brasileiro de Pesquisas Físicas
Centro Brasileiro de Pesquisas FísicasCentro Brasileiro de Pesquisas Físicas
Centro Brasileiro de Pesquisas Físicas
 
Análises de sequências metagenômicas via MG-RAST
Análises de sequências metagenômicas via MG-RASTAnálises de sequências metagenômicas via MG-RAST
Análises de sequências metagenômicas via MG-RAST
 
AVALIAÇÃO DO ESPAÇO CONFORMACIOAL DO RECEPTOR μ-OPIOIDE COM LIGANTES ENVIESA...
AVALIAÇÃO DO ESPAÇO CONFORMACIOAL DO RECEPTOR  μ-OPIOIDE COM LIGANTES ENVIESA...AVALIAÇÃO DO ESPAÇO CONFORMACIOAL DO RECEPTOR  μ-OPIOIDE COM LIGANTES ENVIESA...
AVALIAÇÃO DO ESPAÇO CONFORMACIOAL DO RECEPTOR μ-OPIOIDE COM LIGANTES ENVIESA...
 
Avanços e perspectivas em Bioinformática
Avanços e perspectivas em BioinformáticaAvanços e perspectivas em Bioinformática
Avanços e perspectivas em Bioinformática
 
Ct136 AuditóRio 2 Francisco Salvador
Ct136   AuditóRio 2   Francisco SalvadorCt136   AuditóRio 2   Francisco Salvador
Ct136 AuditóRio 2 Francisco Salvador
 
Bioinformática com Biopython
Bioinformática com BiopythonBioinformática com Biopython
Bioinformática com Biopython
 
Algor genetico
Algor geneticoAlgor genetico
Algor genetico
 
Bioinformática - Bases de dados
Bioinformática - Bases de dadosBioinformática - Bases de dados
Bioinformática - Bases de dados
 

BAG2019 - São Paulo - Turma 2