Marcel Caraciolo, CTO
marcel@genomika.com.br
Como interpretar seu próprio Genoma
usando Python e outras tecnologias!
Quem somos ?
Um dos laboratórios mais avançados
em clínica genética do Brasil e o
primeiro localizado na região Norte e
Nordeste.
!
!
!
!
Portfólio de testes genéticos para
diagnóstico e tratamento personalizado
de doenças hereditárias, raras, tumores
e bem-estar e saúde.
Tecnologia e especialistas
Fusão de especialistas em biologia
molecular e tecnologia de informação
João	
  Bosco	
  Oliveira,	
  CEO	
  e	
  Co-­‐Fundador	
  
M.D,	
  	
  PhD	
  e	
  ex-­‐chefe	
  de	
  pesquisa	
  do	
  serviço	
  	
  
de	
  imunologia	
  e	
  genética	
  do	
  Dpto.	
  de	
  Medicina	
  
Laboratorial,	
  Centro	
  Clínico,	
  National	
  Institutes	
  
of	
  Health	
  ,	
  USA.
Genética Clínica
Mercado mundial em crescimento e
recente no Brasil
Usamos seu DNA!
Aproximadamente
300 - 600 mutações
por geração.
http://genetics.thetech.org/ask/ask435
Com os dados de genoma humano…
Nós poderíamos correlacionar variantes entre genomas
com doenças.
!
Poderíamos identificar parentesco e herança genética
!
Identificar traços de ancestralidade
!
Identificar “erros" ou problemas conhecidos
Para quem não entendeu lembra
do Angelina Joulie effect ?
Para quem não entendeu lembra
do Angelina Joulie effect ?
NextGen Sequencing
NextGen Sequencing
Tamanho
Tamanho
Se quisessemos carregar o Genoma na memória ?
Como representaríamos em linguagem de programação ?
char [] humanDNA = char[ 3 200 000 000];
Se quisessemos carregar o Genoma na memória ?
Como representaríamos em linguagem de programação ?
char [] humanDNA = char[ 3 200 000 000];
Se quisessemos carregar o Genoma na memória ?
Como representaríamos em linguagem de programação ?
char [] humanDNA = char[ 3 200 000 000];
Maquinário Humano
Genoma em um arquivo
NextGen Sequencing
Tamanho
Genoma em um arquivo
Volume
Volume
Volume
Volume
Volume
Volume
Significado
Significado
Meaning
Meaning
O que é bioinformática ?
Significado
Significado
Significado
Significado
Significado
Como estruturamos isto ?
Análise de Variantes
Análise de Variantes
Análise de Variantes
E como funciona tudo isso na prática ?
Vamos montar nosso Mini-Pipeline simples
educacional para entendermos como podemos
analisar algumas variantes SNVs em nosso genoma.
Sequence Map
Call
variants
Interpret
Nosso caso de estudo
Sequências de DNA de uma mulher brasileira, com idade
de 30 anos com histórico familiar de câncer de mama.
!
Cerca de 10-15% dos
cânceres de mama e ovário
são devidos a mutações
genéticas hereditárias
Sequenciamento do DNA
Sequence Map
Call
variants
Interpret
Sequenciamento do DNA
https://www.youtube.com/watch?v=womKfikWlxM
NextGen Sequencing
Como representamos as sequências?
Sequências FASTA
Múltiplas sequências, Multi-FASTA
Formato FastQ
Formato FastQ
Analisando algumas sequências
Vamos analisar de 2 maneiras:
!
Vocês: https://usegalaxy.org/
!
Eu: UseGalaxy + Terminal
!
https://usegalaxy.org/u/genomika/h/pipeline-
workshop
Galaxy Platform
Open-source, escrito boa parte em Python
Analisando sequências
fastqc, command line
Mapeando as sequências no Genoma
Sequence Map
Call
variants
Interpret
Fase de Alinhamento
FASTQ =>
FASTQ => => BAM
Alinhamentoss
FASTQ =>
Formato SAM/BAM
FASTQ =>
Formato SAM/BAM
FASTQ =>
CIGAR String
FASTQ =>
Alinhando na prática
bwa, samtools
Visualizando os alinhamentos
http://www.broadinstitute.org/igv/
Visualizando os alinhamentos
Detectando as variantes !
Sequence Map
Call
variants
Interpret
Variant Calling
FASTQ =>BAM => => VCF
Chamando variantes
FASTQ =>
Recapitulando, sempre bom!
FASTQ =>
Formato VCF
FASTQ =>
Formato VCF
FASTQ =>
Formato VCF
FASTQ =>
Formato VCF
FASTQ =>
Chamando variantes na prática
freebayes
Interpretando as variantes!
Sequence Map
Call
variants
Interpret
Chamando variantes na prática
Anotação de Variantes
FASTQ =>
Variantes anotadas com VEP
Anotando variantes
IGV, NCBI, Snpedia, vcflib,
bcftools, SnpEff.
chr17:41222948 (hg19)
Anotações
Anotações
chr17:41222948 (hg19)
Anotações
http://www.ncbi.nlm.nih.gov/clinvar/variation/37616/#clinical-assertions
Curiosidades
Como podemos associar variantes e doenças?
“Genome Wide Association Study (GWAS)”
Genome Wide Association Study (GWAS)
Curiosidades
“Genome Wide Association Study (GWAS)”
Deve-se considerar o relacionamento entre a escolha
das amostras
!
Grande quantidade de amostras é necessário
!
Bom domínio de estatística e lidar com o problema
de “múltiplos testes de confiança”.
!
Bancos de dados variados e heterôgeneos.
!
Correlação não significa que é a causa!
!
Efeitos em grandes proporções são raras -
geralmente são várias pequenas alterações
combinadas.
Lembra deste slide ?
E se eu quiser sequenciar meu próprio genoma ?
Se você não possuir uma requisição clínica, hoje no
Brasil é complicado.
!
Há possibilidades de realizar o Genoma Completo
, mas o valor ainda não acessível - =~ R$ 23k
!
Fora do Brasil, há empresas como
o 23andMe, screen de vários SNP’s
por $ 99
Como armazenamos isto ?
Ciclo de vida de um exame
Como posso aprender mais?
Tales of Genome (Udacity)
Curso On-line gratuito sobre Genética (bem completo!)
Rosalind
Desafios de Python na área de bioinformática
rosalind.info/
Broad workshops
Variant analysis; sequencing pipelines, etc.
https://www.broadinstitute.org/partnerships/education/broade/broad-workshops/
Coursera
Specialization on Genomics Data Science
https://www.coursera.org/specialization/genomics/41
II Curso de Análise de Dados
de NGS
https://github.com/genomika/summercourse
Edições anuais em
meados de dezembro e
janeiro!
Trabalhe conosco!
github.com/genomika/jobs
Marcel Caraciolo, CTO
marcel@genomika.com.br
Como interpretar seu próprio Genoma
usando Python e outras tecnologias!
“Biology easily has 500 years of
exciting problems to work on.”
Donald Knuth, 1993

Como interpretar seu próprio genoma com Python