Marcel Caraciolo, CTO
marcel@genomika.com.br
Como interpretar seu próprio Genoma
usando Python e outras tecnologias!
Quem somos ?
Um dos laboratórios mais avançados
em clínica genética do Brasil e o
primeiro localizado na região Norte e
No...
Tecnologia e especialistas
Fusão de especialistas em biologia
molecular e tecnologia de informação
João	
  Bosco	
  Olivei...
Genética Clínica
Mercado mundial em crescimento e
recente no Brasil
Usamos seu DNA!
Aproximadamente
300 - 600 mutações
por geração.
http://genetics.thetech.org/ask/ask435
Com os dados de genoma humano…
Nós poderíamos correlacionar variantes entre genomas
com doenças.
!
Poderíamos identificar ...
Para quem não entendeu lembra
do Angelina Joulie effect ?
Para quem não entendeu lembra
do Angelina Joulie effect ?
NextGen Sequencing
NextGen Sequencing
Tamanho
Tamanho
Se quisessemos carregar o Genoma na memória ?
Como representaríamos em linguagem de programação ?
char [] humanDNA = char[...
Se quisessemos carregar o Genoma na memória ?
Como representaríamos em linguagem de programação ?
char [] humanDNA = char[...
Se quisessemos carregar o Genoma na memória ?
Como representaríamos em linguagem de programação ?
char [] humanDNA = char[...
Maquinário Humano
Genoma em um arquivo
NextGen Sequencing
Tamanho
Genoma em um arquivo
Volume
Volume
Volume
Volume
Volume
Volume
Significado
Significado
Meaning
Meaning
O que é bioinformática ?
Significado
Significado
Significado
Significado
Significado
Como estruturamos isto ?
Análise de Variantes
Análise de Variantes
Análise de Variantes
E como funciona tudo isso na prática ?
Vamos montar nosso Mini-Pipeline simples
educacional para entendermos como podemos
...
Nosso caso de estudo
Sequências de DNA de uma mulher brasileira, com idade
de 30 anos com histórico familiar de câncer de ...
Sequenciamento do DNA
Sequence Map
Call
variants
Interpret
Sequenciamento do DNA
https://www.youtube.com/watch?v=womKfikWlxM
NextGen Sequencing
Como representamos as sequências?
Sequências FASTA
Múltiplas sequências, Multi-FASTA
Formato FastQ
Formato FastQ
Analisando algumas sequências
Vamos analisar de 2 maneiras:
!
Vocês: https://usegalaxy.org/
!
Eu: UseGalaxy + Terminal
!
h...
Galaxy Platform
Open-source, escrito boa parte em Python
Analisando sequências
fastqc, command line
Mapeando as sequências no Genoma
Sequence Map
Call
variants
Interpret
Fase de Alinhamento
FASTQ =>
FASTQ => => BAM
Alinhamentoss
FASTQ =>
Formato SAM/BAM
FASTQ =>
Formato SAM/BAM
FASTQ =>
CIGAR String
FASTQ =>
Alinhando na prática
bwa, samtools
Visualizando os alinhamentos
http://www.broadinstitute.org/igv/
Visualizando os alinhamentos
Detectando as variantes !
Sequence Map
Call
variants
Interpret
Variant Calling
FASTQ =>BAM => => VCF
Chamando variantes
FASTQ =>
Recapitulando, sempre bom!
FASTQ =>
Formato VCF
FASTQ =>
Formato VCF
FASTQ =>
Formato VCF
FASTQ =>
Formato VCF
FASTQ =>
Chamando variantes na prática
freebayes
Interpretando as variantes!
Sequence Map
Call
variants
Interpret
Chamando variantes na prática
Anotação de Variantes
FASTQ =>
Variantes anotadas com VEP
Anotando variantes
IGV, NCBI, Snpedia, vcflib,
bcftools, SnpEff.
chr17:41222948 (hg19)
Anotações
Anotações
chr17:41222948 (hg19)
Anotações
http://www.ncbi.nlm.nih.gov/clinvar/variation/37616/#clinical-assertions
Curiosidades
Como podemos associar variantes e doenças?
“Genome Wide Association Study (GWAS)”
Genome Wide Association Stu...
Curiosidades
“Genome Wide Association Study (GWAS)”
Deve-se considerar o relacionamento entre a escolha
das amostras
!
Gra...
Lembra deste slide ?
E se eu quiser sequenciar meu próprio genoma ?
Se você não possuir uma requisição clínica, hoje no
Brasil é complicado.
!
...
Como armazenamos isto ?
Ciclo de vida de um exame
Como posso aprender mais?
Tales of Genome (Udacity)
Curso On-line gratuito sobre Genética (bem completo!)
Rosalind
Desafios de Python na área de bioinformática
rosalind.info/
Broad workshops
Variant analysis; sequencing pipelines, etc.
https://www.broadinstitute.org/partnerships/education/broade/...
Coursera
Specialization on Genomics Data Science
https://www.coursera.org/specialization/genomics/41
II Curso de Análise de Dados
de NGS
https://github.com/genomika/summercourse
Edições anuais em
meados de dezembro e
janeir...
Trabalhe conosco!
github.com/genomika/jobs
Marcel Caraciolo, CTO
marcel@genomika.com.br
Como interpretar seu próprio Genoma
usando Python e outras tecnologias!
“Biol...
Como interpretar seu próprio genoma com Python
Próximos SlideShares
Carregando em…5
×

Como interpretar seu próprio genoma com Python

1.156 visualizações

Publicada em

Como interpretar seu Genoma usando Python e outras tecnologias - SECOMP 2015, UFRPE.

Publicada em: Saúde

Como interpretar seu próprio genoma com Python

  1. 1. Marcel Caraciolo, CTO marcel@genomika.com.br Como interpretar seu próprio Genoma usando Python e outras tecnologias!
  2. 2. Quem somos ? Um dos laboratórios mais avançados em clínica genética do Brasil e o primeiro localizado na região Norte e Nordeste. ! ! ! ! Portfólio de testes genéticos para diagnóstico e tratamento personalizado de doenças hereditárias, raras, tumores e bem-estar e saúde.
  3. 3. Tecnologia e especialistas Fusão de especialistas em biologia molecular e tecnologia de informação João  Bosco  Oliveira,  CEO  e  Co-­‐Fundador   M.D,    PhD  e  ex-­‐chefe  de  pesquisa  do  serviço     de  imunologia  e  genética  do  Dpto.  de  Medicina   Laboratorial,  Centro  Clínico,  National  Institutes   of  Health  ,  USA.
  4. 4. Genética Clínica Mercado mundial em crescimento e recente no Brasil
  5. 5. Usamos seu DNA!
  6. 6. Aproximadamente 300 - 600 mutações por geração. http://genetics.thetech.org/ask/ask435
  7. 7. Com os dados de genoma humano… Nós poderíamos correlacionar variantes entre genomas com doenças. ! Poderíamos identificar parentesco e herança genética ! Identificar traços de ancestralidade ! Identificar “erros" ou problemas conhecidos
  8. 8. Para quem não entendeu lembra do Angelina Joulie effect ?
  9. 9. Para quem não entendeu lembra do Angelina Joulie effect ?
  10. 10. NextGen Sequencing
  11. 11. NextGen Sequencing
  12. 12. Tamanho
  13. 13. Tamanho
  14. 14. Se quisessemos carregar o Genoma na memória ? Como representaríamos em linguagem de programação ? char [] humanDNA = char[ 3 200 000 000];
  15. 15. Se quisessemos carregar o Genoma na memória ? Como representaríamos em linguagem de programação ? char [] humanDNA = char[ 3 200 000 000];
  16. 16. Se quisessemos carregar o Genoma na memória ? Como representaríamos em linguagem de programação ? char [] humanDNA = char[ 3 200 000 000];
  17. 17. Maquinário Humano
  18. 18. Genoma em um arquivo
  19. 19. NextGen Sequencing
  20. 20. Tamanho
  21. 21. Genoma em um arquivo
  22. 22. Volume
  23. 23. Volume
  24. 24. Volume
  25. 25. Volume
  26. 26. Volume
  27. 27. Volume
  28. 28. Significado
  29. 29. Significado
  30. 30. Meaning
  31. 31. Meaning
  32. 32. O que é bioinformática ?
  33. 33. Significado
  34. 34. Significado
  35. 35. Significado
  36. 36. Significado
  37. 37. Significado
  38. 38. Como estruturamos isto ? Análise de Variantes
  39. 39. Análise de Variantes
  40. 40. Análise de Variantes
  41. 41. E como funciona tudo isso na prática ? Vamos montar nosso Mini-Pipeline simples educacional para entendermos como podemos analisar algumas variantes SNVs em nosso genoma. Sequence Map Call variants Interpret
  42. 42. Nosso caso de estudo Sequências de DNA de uma mulher brasileira, com idade de 30 anos com histórico familiar de câncer de mama. ! Cerca de 10-15% dos cânceres de mama e ovário são devidos a mutações genéticas hereditárias
  43. 43. Sequenciamento do DNA Sequence Map Call variants Interpret
  44. 44. Sequenciamento do DNA https://www.youtube.com/watch?v=womKfikWlxM
  45. 45. NextGen Sequencing
  46. 46. Como representamos as sequências?
  47. 47. Sequências FASTA
  48. 48. Múltiplas sequências, Multi-FASTA
  49. 49. Formato FastQ
  50. 50. Formato FastQ
  51. 51. Analisando algumas sequências Vamos analisar de 2 maneiras: ! Vocês: https://usegalaxy.org/ ! Eu: UseGalaxy + Terminal ! https://usegalaxy.org/u/genomika/h/pipeline- workshop
  52. 52. Galaxy Platform Open-source, escrito boa parte em Python
  53. 53. Analisando sequências fastqc, command line
  54. 54. Mapeando as sequências no Genoma Sequence Map Call variants Interpret
  55. 55. Fase de Alinhamento FASTQ => FASTQ => => BAM
  56. 56. Alinhamentoss FASTQ =>
  57. 57. Formato SAM/BAM FASTQ =>
  58. 58. Formato SAM/BAM FASTQ =>
  59. 59. CIGAR String FASTQ =>
  60. 60. Alinhando na prática bwa, samtools
  61. 61. Visualizando os alinhamentos http://www.broadinstitute.org/igv/
  62. 62. Visualizando os alinhamentos
  63. 63. Detectando as variantes ! Sequence Map Call variants Interpret
  64. 64. Variant Calling FASTQ =>BAM => => VCF
  65. 65. Chamando variantes FASTQ =>
  66. 66. Recapitulando, sempre bom! FASTQ =>
  67. 67. Formato VCF FASTQ =>
  68. 68. Formato VCF FASTQ =>
  69. 69. Formato VCF FASTQ =>
  70. 70. Formato VCF FASTQ =>
  71. 71. Chamando variantes na prática freebayes
  72. 72. Interpretando as variantes! Sequence Map Call variants Interpret
  73. 73. Chamando variantes na prática
  74. 74. Anotação de Variantes FASTQ => Variantes anotadas com VEP
  75. 75. Anotando variantes IGV, NCBI, Snpedia, vcflib, bcftools, SnpEff.
  76. 76. chr17:41222948 (hg19) Anotações
  77. 77. Anotações
  78. 78. chr17:41222948 (hg19) Anotações http://www.ncbi.nlm.nih.gov/clinvar/variation/37616/#clinical-assertions
  79. 79. Curiosidades Como podemos associar variantes e doenças? “Genome Wide Association Study (GWAS)” Genome Wide Association Study (GWAS)
  80. 80. Curiosidades “Genome Wide Association Study (GWAS)” Deve-se considerar o relacionamento entre a escolha das amostras ! Grande quantidade de amostras é necessário ! Bom domínio de estatística e lidar com o problema de “múltiplos testes de confiança”. ! Bancos de dados variados e heterôgeneos. ! Correlação não significa que é a causa! ! Efeitos em grandes proporções são raras - geralmente são várias pequenas alterações combinadas.
  81. 81. Lembra deste slide ?
  82. 82. E se eu quiser sequenciar meu próprio genoma ? Se você não possuir uma requisição clínica, hoje no Brasil é complicado. ! Há possibilidades de realizar o Genoma Completo , mas o valor ainda não acessível - =~ R$ 23k ! Fora do Brasil, há empresas como o 23andMe, screen de vários SNP’s por $ 99
  83. 83. Como armazenamos isto ?
  84. 84. Ciclo de vida de um exame
  85. 85. Como posso aprender mais? Tales of Genome (Udacity) Curso On-line gratuito sobre Genética (bem completo!)
  86. 86. Rosalind Desafios de Python na área de bioinformática rosalind.info/
  87. 87. Broad workshops Variant analysis; sequencing pipelines, etc. https://www.broadinstitute.org/partnerships/education/broade/broad-workshops/
  88. 88. Coursera Specialization on Genomics Data Science https://www.coursera.org/specialization/genomics/41
  89. 89. II Curso de Análise de Dados de NGS https://github.com/genomika/summercourse Edições anuais em meados de dezembro e janeiro!
  90. 90. Trabalhe conosco! github.com/genomika/jobs
  91. 91. Marcel Caraciolo, CTO marcel@genomika.com.br Como interpretar seu próprio Genoma usando Python e outras tecnologias! “Biology easily has 500 years of exciting problems to work on.” Donald Knuth, 1993

×