O documento apresenta informações sobre um curso de introdução à bioinformática ministrado por Renato Puga, incluindo formatos de dados comuns em sequenciamento de nova geração, como FASTQ, BAM, VCF e BED. Também discute ferramentas de análise de dados genômicos como GATK e Variant Effect Predictor.
2. BAG2019 SP Turma II
Introdução à Bioinformática e hands on
Olá Ambiente de Bioinformática, Primeiros Comandos, NGS
Formatos e Métricas de Qualidade de Sequenciamento.
Renato Puga
renatopuga@gmail.com
3. Short Bio
DLE - NTO SP
Hospital Israelita Albert Einstein
AC Camargo Cancer Center
MBA Blockchain Dev - FIAP
Mestre em Ciências Biológicas - USP
Analista de Sistemas - UNAERP
Google Acadêmico
goo.gl/r5ko8T
Linkedin
linkedin.com/in/renato-puga-24885524/
renatopuga@gmail.com
Bioinformatician Consultant
Renato Puga
23. Tipos de Dados
Next Generation Sequences (NGS)
23
FASTQ BAM VCFBED
FASTA + Quality
arquivo texto com
sequências de
nucleotídeos e
qualidade por base.
Binary Alignment
Map
arquivo binário de
sequências
alinhadas em uma
referência.
Variant Call Format
arquivo texto com as
variantes encontradas
em relação a
referência.
Browser Extensible
Data
arquivo texto com
regiões genéticas
alvos de interesse
30. 30
BWT
Armazene o genoma de referência inteiro
• Alinhar a base tag pela base do final.
• Quando a tag é percorrida, todos os locais
ativos são relatados.
• Se nenhuma correspondência for
encontrada, faça um backup e tente uma
substituição.
37. Tipos de Dados: Variant Call Format (VCF)
Next Generation Sequences (NGS)
37
https://bioinf.comav.upv.es/courses/sequence_analysis/_images/vcf_format.png
38. Chamada de Variantes (WES)
Target sequence (exome)
38
https://software.broadinstitute.org/gatk/events/slides/1503/GATKwh6-BP-0A-Intro_to_HTS.pdf
41. http://www.sanger.ac.uk/sites/default/files/Jan2016/noncodingdrivers.jpg
Priorização de drivers de câncer não
codificadores candidatos com base em
padrões de seleção.
(1) Filtrar variantes somáticas para
excluir 1000 genomas de
polimorfismos;
(2) Reter variantes em anotações não
codificantes;
(3) Reter em regiões "sensíveis";
(4) Priorizam aqueles que interrompem
um motif de ligação ao factor de
transcrição;
(5) Residem perto do centro de uma
rede biológica;
(6) Priorizam os blocos de anotação
mutados em múltiplas amostras de
câncer
44. FASTQ BAM VCFBED
FASTA + Quality
arquivo texto com
sequências de
nucleotídeos e
qualidade por base.
Binary Alignment Map
arquivo binário de
sequências alinhadas
em uma referência.
Variant Allele Frequency
arquivo texto com as
variantes encontradas em
relação a referência.
Browser Extensible Data
arquivo texto com regiões
genéticas alvos de
interesse
https://usegalaxyp.org/
48. O assembly GRCh38 é conhecido
por fornecer algumas melhorias
significativas sobre o GRCh37 e outras
versões anteriores:
• Cobertura sequencial de centrômeros
• Atualizações gerais de montagem
• Melhor representação de variação
hg19 vs hg38