SlideShare uma empresa Scribd logo
1 de 41
Baixar para ler offline
Uma abordagem computacional para a
determinação de polimorfismos de
base única
Miguel Galves
Orientador: Zanoni Dias
IC - UNICAMP
01/12/2006
Roteiro
n  Conceitos Básicos
n  Motivação
n  Objetivos
n  Alinhamento de seqüências
n  Detecção de SNPs e confiabilidade
n  Correlação de SNPs
n  Conclusão
Processo básico
de tradução genética
n  A informação genética dos seres vivos é
armazenada em cadeias de nucleotídeos
n Bases A, C, G e T
n  Proteínas são geradas a partir da leitura da
cadeia de nucleotídeos
n Processo de tradução
n  Proteína = cadeia de aminoácidos
n  1 aminoácido = 3 nucleotídeos = 1 códon
Tradução
Polimorfismos e SNP
n  Polimorfismo: dois ou mais alelos diferentes
em indivíduos da mesma espécie
n  Deve aparecer em pelo menos 1% da
população
n  SNP: polimorfismo que ocorre em apenas
uma base da seqüência
n  SNP sinônimo: não modifica o aminoácido
n  SNP não sinônimo: modifica o aminoácido
Porque estudar SNPs?
n  Correspondem a mais de 90% dos
polimorfismos nos seres humanos
n  Causa de grande parte das doenças com base
genética
n  Grande interesse das industrias farmacêuticas
n Criação de terapias específicas
n  Marcadores para mapeamento fino do genoma
Objetivos do trabalho
n  Estudar 3 etapas distintas no processo de
detecção e análise de SNPs:
n  Alinhamento de ESTs com DNA genômico
n  Detecção de SNPs por análise de
cromatograma
n  Correlação de SNPs
Alinhamento de DNA com ESTs
Alinhamento de sequências
n  Inserção de espaços em duas seqüências
de forma a que elas tenham o mesmo
tamanho e possam ser comparadas
n  Exemplo: AGCTCGTTTG e ACCTTCGTTTTG
AGC-TCGTTT-G
ACCTTCGTTTTG
n  Pontuação permite avaliar o alinhamento
n  Problema de otimização: obter o alinhamento
de melhor pontuação
Algoritmos clássicos de alinhamento
n  Estratégias de alinhamento
n  Global
n  Semi-global
n  Local
n  Sistemas de pontuação
n  Simples: match, mismatch, gap
n  Linear: match, mismatch e
gap(k) = g + hk
Porque estudar alinhamento
de mRNA com DNA?
Objetivos desta etapa
Determinar uma estratégia clássica e um
conjunto de parâmetros que permitam
obter bons alinhamentos entre DNA
genômico e mRNA
Metodologia
n  Desenvolvimento de um alinhador em Java
usando algoritmo de Miller e Myers
n  Criação de uma base de testes
n  Definição de um conjunto de parâmetros de
alinhamento
n  Execução de alinhamentos de mRNAs com
genes de origem
n  Nosso alinhador, sim4, est_genome e Spidey
n  Definição de métricas para avaliação dos
alinhamentos obtidos
Conjunto de dados
1.  64 genes do cromossomo Y humano com
menos de 100.000 bases
2.  40 genes completos do cromossomo Y
humano com menos de 100.000 bases
3.  7376 genes completos do genoma humano
com menos de 10.000 bases
4.  4930 ESTs artificiais do cromossomo 6 com
erros aleatórios de 1% a 10%
Resultados obtidos - Conjunto 3
Extra Gap Delta Exon Similaridade Mismatch
(1,-2,-1,0) 0.00 0.00 99.89% 0.00%
(1,-2,-10,0) 0.00 0.01 99.89% 0.00%
Sim4 1.03 -0.03 99.18% 0.21%
Est_genome 15.56 -0.17 58.00% 1.31%
Spidey 0.12 -3.82 81.02% 0.17%
Resultados obtidos - Conjunto 4
Resultados obtidos - Conjunto 4
Resultados obtidos
n  O alinhador semi-global com esquemas de
pontuação (1,-2,-1,0) e (1,-2,-10,0)
produzem resultados extremamente
satisfatórios
n  O esquema (1,-2,-10,0) tende a gerar
blocos de introns maiores
n  Sim4, est_genome e Spidey são mais
regulares com ESTs com erros
Detecção de SNPs
Base-calling e sequenciamento
Porque estudar base-calling?
n  Pacote phred ignora sinais secundários no
cromatograma
n  Apenas uma base por posição
n  SNPs podem gerar sinais secundários
n  PolyBayes e PolyPhred não produzem
resultados satisfatórios com HIV
Objetivos desta etapa
n  Detecção de SNPs em cromatogramas de
seqüências de HIV
n  Estudo de métodos para determinação de
confiabilidade dos resultados
Metodologia
n  Definir algoritmos para análise e correção
de cromatograma
n  Executar os algoritmos com diversos
parâmetros, para análise preliminar
n  Determinação de dois algoritmos para
tunning
n  Determinação do melhor algoritmo e do
melhor conjunto de parâmetros
Conjunto de dados
n  Sequências genéticas de HIV
n  1302 bp
n  Região bem conservada
n  35 lotes de amostras de indivíduos
soropositivos
n  6 leituras
n  1 seqüência validada, com SNPs anotados
manualmente
n  Sequência de referência de HIV
Algoritmos de correção
n  Relação das Áreas
n  Relação das Médias das Alturas
n  Limite Variável
n  Pico Único por Janela
n  Eliminação de Picos Ruins
n  Pico Mais Baixo
Relação das Áreas
Relação das Médias das Alturas
x2
x1 x1
FAKE_PEAK_HEIGHT_PERCENTAGE
MAXIMUM_FAKE_PEAK_WIDTH
MINIMUM_BORDER_DISTANCE
MINIMUM_HEIGHT
PEAK
LAST POSITION
FIRST POSITION
Resultados obtidos
Verdadeiro
Positivo
Falso
Negativo
Falso
Positivo
Área 75% 23% 394%
Média das
alturas
53% 42% 317%
PolyPhred 0% 100% 0%
PolyBayes 0% 100% 0%
Confiabilidade Estatística
n  Comparação de dois métodos de
confiablidade estatística para SNPs:
n  PolyBayes: estatística bayesiana
n  MSASNP: qualidades das bases
n  Conjunto de teste: SNPs anotados do
SUCEST
n  MSASNP gera muitos falsos positivos e
acerta menos posições que o PolyBayes
Correlação de SNPs
Linkage Disequilibrium
n  Associação não aleatória entre alelos
n  Informações sobre um alelo fornece
informações sobre o outro
n  Medidas para quantificar LDs
n  D’ = 1, chamado de LD completo
n  r2 ≥ 1/3, chamado de LD útil
n  LD múltiplo: conjunto de SNPs em LD dois a
dois
Porque estudar LDs?
n  Doenças genéticas podem ser influenciadas
por vários SNPs correlacionados
n  LD permite efetuar mapeamento fino do
genoma humano
n  Técnica tradicional: definição de 1 a 2cM
n  LD: definição de 0.1cM
Objetivos desta etapa
n  Estudar LDs múltiplos
n  Analisar o efeito do uso das medidas D’ e r2
Metodologia
n  Pré-processamento do conjunto de dados
n  Definição de uma heurística para busca de
cliques em grafos
n  Problema NP-Difícil
n  Executar a busca por LDs múltiplos nos
dados utilizando medidas D’ e r2
LDs múltiplos
LDs múltiplos
(j, f, i, e, g, m, n)
(k, l, h)
Conjunto de dados
n  ESTs clusterizados de cana-de-açúcar do
projeto SUCEST, com SNPs anotados
n  Genes do genoma humano obtidos do NCBI:
n  HLA-A, HLA-B e HLA-DOB
n  Genes do complexo MHC
n  Região com alta densidade de SNPs anotados
Resultados
n  Bons resultados obtidos com tempo de
busca de 5 segundos por clique
n  D’ apresenta resultados melhores
n  Maior capacidade de agrupamento
n  Menor tendência de isolamento de SNPs
n  r2 gera grafos com menos arestas
Considerações finais
n  Foram estudadas 3 etapas distintas
relacionadas a SNPs
n  Resultados bastante satisfatórios, tendo em
vista o tipo de problema analisado
n  Seria interessante implementar um fluxo de
trabalho único unindo estas etapas
Trabalhos publicados
n  Alinhamento
n  M. Galves e Z. Dias, "Comparison of genomic DNA to
cDNA alignment methods“. Lecture Notes on
Bioinformatics, 2005. Springer-Verlag Berlin
Heildelberg.
Apresentado no BSB 2005, Porto Alegre - RS.
n  Detecção de SNPs
n  M. Galves, J. A. A. Quitzau e Z. Dias,
"New strategy to detect single nucleotide
polymorphisms", Genetics and Molecular Research,
2006.
Apresentado no X-Meeting 2005, Caxambu - MG.
Relatórios técnicos
n  LDs múltiplos
n  A. A. M. Almeida, M. Galves e Z. Dias, “Um algoritmo
para identificação de correlações múltiplas de
polimorfismos” (IC-06-14), Setembro 2006.
n  Confiabilidade Estatística
n  C. Baudet, M. Galves e Z. Dias,“Comparação de métodos
para determinação de SNPs com medidas de
confiabilidade” (IC-06-15), Setembro 2006.

Mais conteúdo relacionado

Destaque

Genetica de populações
Genetica de populaçõesGenetica de populações
Genetica de populaçõesUERGS
 
Hormônios Gonadotróficos
Hormônios Gonadotróficos Hormônios Gonadotróficos
Hormônios Gonadotróficos David Alcantara
 
Espermatogênese
EspermatogêneseEspermatogênese
Espermatogênesepaulober
 
Minicurso Técnicas de Sequenciamento e suas Aplicações
Minicurso Técnicas de Sequenciamento e suas AplicaçõesMinicurso Técnicas de Sequenciamento e suas Aplicações
Minicurso Técnicas de Sequenciamento e suas AplicaçõesAna Paula Mendes Silva
 
Aula02 tecnicas diagnostico virologia parte 1
Aula02   tecnicas diagnostico virologia parte 1Aula02   tecnicas diagnostico virologia parte 1
Aula02 tecnicas diagnostico virologia parte 1Hugo Sousa
 
Hormônios Esteroides
Hormônios EsteroidesHormônios Esteroides
Hormônios EsteroidesYasmin Casini
 
Sequenciamento de nova geração- Curso de Inverno de Genética 2013-UFPR by Jos...
Sequenciamento de nova geração- Curso de Inverno de Genética 2013-UFPR by Jos...Sequenciamento de nova geração- Curso de Inverno de Genética 2013-UFPR by Jos...
Sequenciamento de nova geração- Curso de Inverno de Genética 2013-UFPR by Jos...Joseph Evaristo
 
Seminário genética forense
Seminário  genética forense Seminário  genética forense
Seminário genética forense Nínive Calazans
 
Aula: Sistema Endócrino (Power Point)
Aula: Sistema Endócrino (Power Point)Aula: Sistema Endócrino (Power Point)
Aula: Sistema Endócrino (Power Point)Bio
 
Esteroides
EsteroidesEsteroides
Esteroidesediali
 
7 biossegurança laboratorial
7 biossegurança laboratorial7 biossegurança laboratorial
7 biossegurança laboratorialWilliam Dutra
 

Destaque (18)

Espermatogênese
Espermatogênese Espermatogênese
Espermatogênese
 
Genetica de populações
Genetica de populaçõesGenetica de populações
Genetica de populações
 
Sequenciamento
SequenciamentoSequenciamento
Sequenciamento
 
Hormônios Gonadotróficos
Hormônios Gonadotróficos Hormônios Gonadotróficos
Hormônios Gonadotróficos
 
Espermatogênese
EspermatogêneseEspermatogênese
Espermatogênese
 
Minicurso Técnicas de Sequenciamento e suas Aplicações
Minicurso Técnicas de Sequenciamento e suas AplicaçõesMinicurso Técnicas de Sequenciamento e suas Aplicações
Minicurso Técnicas de Sequenciamento e suas Aplicações
 
Aula02 tecnicas diagnostico virologia parte 1
Aula02   tecnicas diagnostico virologia parte 1Aula02   tecnicas diagnostico virologia parte 1
Aula02 tecnicas diagnostico virologia parte 1
 
Hormônios Esteroides
Hormônios EsteroidesHormônios Esteroides
Hormônios Esteroides
 
Genética de populações
Genética de populaçõesGenética de populações
Genética de populações
 
Sequenciamento de nova geração- Curso de Inverno de Genética 2013-UFPR by Jos...
Sequenciamento de nova geração- Curso de Inverno de Genética 2013-UFPR by Jos...Sequenciamento de nova geração- Curso de Inverno de Genética 2013-UFPR by Jos...
Sequenciamento de nova geração- Curso de Inverno de Genética 2013-UFPR by Jos...
 
Genetica forense
Genetica forense Genetica forense
Genetica forense
 
Seminário genética forense
Seminário  genética forense Seminário  genética forense
Seminário genética forense
 
Genetica forense
Genetica forenseGenetica forense
Genetica forense
 
Pcr
PcrPcr
Pcr
 
Aula: Sistema Endócrino (Power Point)
Aula: Sistema Endócrino (Power Point)Aula: Sistema Endócrino (Power Point)
Aula: Sistema Endócrino (Power Point)
 
Esteroides
EsteroidesEsteroides
Esteroides
 
Slide Genética
Slide GenéticaSlide Genética
Slide Genética
 
7 biossegurança laboratorial
7 biossegurança laboratorial7 biossegurança laboratorial
7 biossegurança laboratorial
 

Semelhante a Uma abordagem computacional para detecção de polimorfismos de base única (SNPs

Laboratório de Biotecnologia - Rna seq
Laboratório de Biotecnologia - Rna seqLaboratório de Biotecnologia - Rna seq
Laboratório de Biotecnologia - Rna seqGabriel Fernandes
 
Detecção de CNVs por NGS: validação de pipeline de bioinformática para painéi...
Detecção de CNVs por NGS: validação de pipeline de bioinformática para painéi...Detecção de CNVs por NGS: validação de pipeline de bioinformática para painéi...
Detecção de CNVs por NGS: validação de pipeline de bioinformática para painéi...Genomika Diagnósticos
 
TCC Bioinfomática - Genômica da Dengue
TCC Bioinfomática - Genômica da DengueTCC Bioinfomática - Genômica da Dengue
TCC Bioinfomática - Genômica da DengueThiego de Oliveira
 
Algorítimos Genéticos
Algorítimos GenéticosAlgorítimos Genéticos
Algorítimos Genéticosiaudesc
 
Mineração de Dados Genômicos com Open Biomind
Mineração de Dados Genômicos com Open BiomindMineração de Dados Genômicos com Open Biomind
Mineração de Dados Genômicos com Open Biomindpennachin
 
Exames realizados na área de Genética Médica
Exames realizados na área de Genética MédicaExames realizados na área de Genética Médica
Exames realizados na área de Genética MédicaUniversidade de Brasília
 
Stabvida oportunidades profissionais
Stabvida oportunidades profissionaisStabvida oportunidades profissionais
Stabvida oportunidades profissionaisFrancisco Couto
 
Utilização de Polimorfismos em Análises Forenses.ppt
Utilização de Polimorfismos em Análises Forenses.pptUtilização de Polimorfismos em Análises Forenses.ppt
Utilização de Polimorfismos em Análises Forenses.pptCarlosWeslley1
 
Aula Pcr
Aula PcrAula Pcr
Aula Pcrlidypvh
 
Análise multivariada aplicada à pesquisa
Análise multivariada aplicada à pesquisaAnálise multivariada aplicada à pesquisa
Análise multivariada aplicada à pesquisaCarlos Moura
 

Semelhante a Uma abordagem computacional para detecção de polimorfismos de base única (SNPs (13)

Minicurso 2013
Minicurso 2013Minicurso 2013
Minicurso 2013
 
Bioinfo - Grad - Aula 2
Bioinfo - Grad - Aula 2Bioinfo - Grad - Aula 2
Bioinfo - Grad - Aula 2
 
Laboratório de Biotecnologia - Rna seq
Laboratório de Biotecnologia - Rna seqLaboratório de Biotecnologia - Rna seq
Laboratório de Biotecnologia - Rna seq
 
Detecção de CNVs por NGS: validação de pipeline de bioinformática para painéi...
Detecção de CNVs por NGS: validação de pipeline de bioinformática para painéi...Detecção de CNVs por NGS: validação de pipeline de bioinformática para painéi...
Detecção de CNVs por NGS: validação de pipeline de bioinformática para painéi...
 
TCC Bioinfomática - Genômica da Dengue
TCC Bioinfomática - Genômica da DengueTCC Bioinfomática - Genômica da Dengue
TCC Bioinfomática - Genômica da Dengue
 
Algorítimos Genéticos
Algorítimos GenéticosAlgorítimos Genéticos
Algorítimos Genéticos
 
Mineração de Dados Genômicos com Open Biomind
Mineração de Dados Genômicos com Open BiomindMineração de Dados Genômicos com Open Biomind
Mineração de Dados Genômicos com Open Biomind
 
Exames realizados na área de Genética Médica
Exames realizados na área de Genética MédicaExames realizados na área de Genética Médica
Exames realizados na área de Genética Médica
 
Estatística - Aula 2
Estatística - Aula 2Estatística - Aula 2
Estatística - Aula 2
 
Stabvida oportunidades profissionais
Stabvida oportunidades profissionaisStabvida oportunidades profissionais
Stabvida oportunidades profissionais
 
Utilização de Polimorfismos em Análises Forenses.ppt
Utilização de Polimorfismos em Análises Forenses.pptUtilização de Polimorfismos em Análises Forenses.ppt
Utilização de Polimorfismos em Análises Forenses.ppt
 
Aula Pcr
Aula PcrAula Pcr
Aula Pcr
 
Análise multivariada aplicada à pesquisa
Análise multivariada aplicada à pesquisaAnálise multivariada aplicada à pesquisa
Análise multivariada aplicada à pesquisa
 

Mais de Miguel Galves

Processamento de tweets em tempo real com Python, Django e Celery - TDC 2014
Processamento de tweets em tempo real com Python, Django e Celery - TDC 2014Processamento de tweets em tempo real com Python, Django e Celery - TDC 2014
Processamento de tweets em tempo real com Python, Django e Celery - TDC 2014Miguel Galves
 
Redis para iniciantes - TDC 2014
Redis para iniciantes - TDC 2014Redis para iniciantes - TDC 2014
Redis para iniciantes - TDC 2014Miguel Galves
 
New Strategy to detect SNPs
New Strategy to detect SNPsNew Strategy to detect SNPs
New Strategy to detect SNPsMiguel Galves
 
Comparison of Genomic DNA to cDNA Alignment Methods
Comparison of Genomic DNA to cDNA Alignment MethodsComparison of Genomic DNA to cDNA Alignment Methods
Comparison of Genomic DNA to cDNA Alignment MethodsMiguel Galves
 
Django: Uso de frameworks ágeis para desenvolvimento web
Django: Uso de frameworks ágeis para desenvolvimento webDjango: Uso de frameworks ágeis para desenvolvimento web
Django: Uso de frameworks ágeis para desenvolvimento webMiguel Galves
 
Data Mining em redes sociais
Data Mining em redes sociaisData Mining em redes sociais
Data Mining em redes sociaisMiguel Galves
 

Mais de Miguel Galves (8)

Processamento de tweets em tempo real com Python, Django e Celery - TDC 2014
Processamento de tweets em tempo real com Python, Django e Celery - TDC 2014Processamento de tweets em tempo real com Python, Django e Celery - TDC 2014
Processamento de tweets em tempo real com Python, Django e Celery - TDC 2014
 
Redis para iniciantes - TDC 2014
Redis para iniciantes - TDC 2014Redis para iniciantes - TDC 2014
Redis para iniciantes - TDC 2014
 
New Strategy to detect SNPs
New Strategy to detect SNPsNew Strategy to detect SNPs
New Strategy to detect SNPs
 
Comparison of Genomic DNA to cDNA Alignment Methods
Comparison of Genomic DNA to cDNA Alignment MethodsComparison of Genomic DNA to cDNA Alignment Methods
Comparison of Genomic DNA to cDNA Alignment Methods
 
Django: Uso de frameworks ágeis para desenvolvimento web
Django: Uso de frameworks ágeis para desenvolvimento webDjango: Uso de frameworks ágeis para desenvolvimento web
Django: Uso de frameworks ágeis para desenvolvimento web
 
GIS em 3 horas
GIS em 3 horasGIS em 3 horas
GIS em 3 horas
 
AJAX
AJAXAJAX
AJAX
 
Data Mining em redes sociais
Data Mining em redes sociaisData Mining em redes sociais
Data Mining em redes sociais
 

Uma abordagem computacional para detecção de polimorfismos de base única (SNPs

  • 1. Uma abordagem computacional para a determinação de polimorfismos de base única Miguel Galves Orientador: Zanoni Dias IC - UNICAMP 01/12/2006
  • 2. Roteiro n  Conceitos Básicos n  Motivação n  Objetivos n  Alinhamento de seqüências n  Detecção de SNPs e confiabilidade n  Correlação de SNPs n  Conclusão
  • 3. Processo básico de tradução genética n  A informação genética dos seres vivos é armazenada em cadeias de nucleotídeos n Bases A, C, G e T n  Proteínas são geradas a partir da leitura da cadeia de nucleotídeos n Processo de tradução n  Proteína = cadeia de aminoácidos n  1 aminoácido = 3 nucleotídeos = 1 códon
  • 5. Polimorfismos e SNP n  Polimorfismo: dois ou mais alelos diferentes em indivíduos da mesma espécie n  Deve aparecer em pelo menos 1% da população n  SNP: polimorfismo que ocorre em apenas uma base da seqüência n  SNP sinônimo: não modifica o aminoácido n  SNP não sinônimo: modifica o aminoácido
  • 6. Porque estudar SNPs? n  Correspondem a mais de 90% dos polimorfismos nos seres humanos n  Causa de grande parte das doenças com base genética n  Grande interesse das industrias farmacêuticas n Criação de terapias específicas n  Marcadores para mapeamento fino do genoma
  • 7. Objetivos do trabalho n  Estudar 3 etapas distintas no processo de detecção e análise de SNPs: n  Alinhamento de ESTs com DNA genômico n  Detecção de SNPs por análise de cromatograma n  Correlação de SNPs
  • 9. Alinhamento de sequências n  Inserção de espaços em duas seqüências de forma a que elas tenham o mesmo tamanho e possam ser comparadas n  Exemplo: AGCTCGTTTG e ACCTTCGTTTTG AGC-TCGTTT-G ACCTTCGTTTTG n  Pontuação permite avaliar o alinhamento n  Problema de otimização: obter o alinhamento de melhor pontuação
  • 10. Algoritmos clássicos de alinhamento n  Estratégias de alinhamento n  Global n  Semi-global n  Local n  Sistemas de pontuação n  Simples: match, mismatch, gap n  Linear: match, mismatch e gap(k) = g + hk
  • 12. Objetivos desta etapa Determinar uma estratégia clássica e um conjunto de parâmetros que permitam obter bons alinhamentos entre DNA genômico e mRNA
  • 13. Metodologia n  Desenvolvimento de um alinhador em Java usando algoritmo de Miller e Myers n  Criação de uma base de testes n  Definição de um conjunto de parâmetros de alinhamento n  Execução de alinhamentos de mRNAs com genes de origem n  Nosso alinhador, sim4, est_genome e Spidey n  Definição de métricas para avaliação dos alinhamentos obtidos
  • 14. Conjunto de dados 1.  64 genes do cromossomo Y humano com menos de 100.000 bases 2.  40 genes completos do cromossomo Y humano com menos de 100.000 bases 3.  7376 genes completos do genoma humano com menos de 10.000 bases 4.  4930 ESTs artificiais do cromossomo 6 com erros aleatórios de 1% a 10%
  • 15. Resultados obtidos - Conjunto 3 Extra Gap Delta Exon Similaridade Mismatch (1,-2,-1,0) 0.00 0.00 99.89% 0.00% (1,-2,-10,0) 0.00 0.01 99.89% 0.00% Sim4 1.03 -0.03 99.18% 0.21% Est_genome 15.56 -0.17 58.00% 1.31% Spidey 0.12 -3.82 81.02% 0.17%
  • 16. Resultados obtidos - Conjunto 4
  • 17. Resultados obtidos - Conjunto 4
  • 18. Resultados obtidos n  O alinhador semi-global com esquemas de pontuação (1,-2,-1,0) e (1,-2,-10,0) produzem resultados extremamente satisfatórios n  O esquema (1,-2,-10,0) tende a gerar blocos de introns maiores n  Sim4, est_genome e Spidey são mais regulares com ESTs com erros
  • 21. Porque estudar base-calling? n  Pacote phred ignora sinais secundários no cromatograma n  Apenas uma base por posição n  SNPs podem gerar sinais secundários n  PolyBayes e PolyPhred não produzem resultados satisfatórios com HIV
  • 22. Objetivos desta etapa n  Detecção de SNPs em cromatogramas de seqüências de HIV n  Estudo de métodos para determinação de confiabilidade dos resultados
  • 23. Metodologia n  Definir algoritmos para análise e correção de cromatograma n  Executar os algoritmos com diversos parâmetros, para análise preliminar n  Determinação de dois algoritmos para tunning n  Determinação do melhor algoritmo e do melhor conjunto de parâmetros
  • 24. Conjunto de dados n  Sequências genéticas de HIV n  1302 bp n  Região bem conservada n  35 lotes de amostras de indivíduos soropositivos n  6 leituras n  1 seqüência validada, com SNPs anotados manualmente n  Sequência de referência de HIV
  • 25. Algoritmos de correção n  Relação das Áreas n  Relação das Médias das Alturas n  Limite Variável n  Pico Único por Janela n  Eliminação de Picos Ruins n  Pico Mais Baixo
  • 27. Relação das Médias das Alturas x2 x1 x1 FAKE_PEAK_HEIGHT_PERCENTAGE MAXIMUM_FAKE_PEAK_WIDTH MINIMUM_BORDER_DISTANCE MINIMUM_HEIGHT PEAK LAST POSITION FIRST POSITION
  • 28. Resultados obtidos Verdadeiro Positivo Falso Negativo Falso Positivo Área 75% 23% 394% Média das alturas 53% 42% 317% PolyPhred 0% 100% 0% PolyBayes 0% 100% 0%
  • 29. Confiabilidade Estatística n  Comparação de dois métodos de confiablidade estatística para SNPs: n  PolyBayes: estatística bayesiana n  MSASNP: qualidades das bases n  Conjunto de teste: SNPs anotados do SUCEST n  MSASNP gera muitos falsos positivos e acerta menos posições que o PolyBayes
  • 31. Linkage Disequilibrium n  Associação não aleatória entre alelos n  Informações sobre um alelo fornece informações sobre o outro n  Medidas para quantificar LDs n  D’ = 1, chamado de LD completo n  r2 ≥ 1/3, chamado de LD útil n  LD múltiplo: conjunto de SNPs em LD dois a dois
  • 32. Porque estudar LDs? n  Doenças genéticas podem ser influenciadas por vários SNPs correlacionados n  LD permite efetuar mapeamento fino do genoma humano n  Técnica tradicional: definição de 1 a 2cM n  LD: definição de 0.1cM
  • 33. Objetivos desta etapa n  Estudar LDs múltiplos n  Analisar o efeito do uso das medidas D’ e r2
  • 34. Metodologia n  Pré-processamento do conjunto de dados n  Definição de uma heurística para busca de cliques em grafos n  Problema NP-Difícil n  Executar a busca por LDs múltiplos nos dados utilizando medidas D’ e r2
  • 36. LDs múltiplos (j, f, i, e, g, m, n) (k, l, h)
  • 37. Conjunto de dados n  ESTs clusterizados de cana-de-açúcar do projeto SUCEST, com SNPs anotados n  Genes do genoma humano obtidos do NCBI: n  HLA-A, HLA-B e HLA-DOB n  Genes do complexo MHC n  Região com alta densidade de SNPs anotados
  • 38. Resultados n  Bons resultados obtidos com tempo de busca de 5 segundos por clique n  D’ apresenta resultados melhores n  Maior capacidade de agrupamento n  Menor tendência de isolamento de SNPs n  r2 gera grafos com menos arestas
  • 39. Considerações finais n  Foram estudadas 3 etapas distintas relacionadas a SNPs n  Resultados bastante satisfatórios, tendo em vista o tipo de problema analisado n  Seria interessante implementar um fluxo de trabalho único unindo estas etapas
  • 40. Trabalhos publicados n  Alinhamento n  M. Galves e Z. Dias, "Comparison of genomic DNA to cDNA alignment methods“. Lecture Notes on Bioinformatics, 2005. Springer-Verlag Berlin Heildelberg. Apresentado no BSB 2005, Porto Alegre - RS. n  Detecção de SNPs n  M. Galves, J. A. A. Quitzau e Z. Dias, "New strategy to detect single nucleotide polymorphisms", Genetics and Molecular Research, 2006. Apresentado no X-Meeting 2005, Caxambu - MG.
  • 41. Relatórios técnicos n  LDs múltiplos n  A. A. M. Almeida, M. Galves e Z. Dias, “Um algoritmo para identificação de correlações múltiplas de polimorfismos” (IC-06-14), Setembro 2006. n  Confiabilidade Estatística n  C. Baudet, M. Galves e Z. Dias,“Comparação de métodos para determinação de SNPs com medidas de confiabilidade” (IC-06-15), Setembro 2006.