Este documento resume uma abordagem computacional para determinação de polimorfismos de base única (SNPs) através de três etapas: alinhamento de seqüências, detecção de SNPs em cromatogramas e análise de correlações entre SNPs. Os resultados obtidos nas três etapas foram satisfatórios e demonstraram a viabilidade da abordagem proposta.
Uma abordagem computacional para detecção de polimorfismos de base única (SNPs
1. Uma abordagem computacional para a
determinação de polimorfismos de
base única
Miguel Galves
Orientador: Zanoni Dias
IC - UNICAMP
01/12/2006
2. Roteiro
n Conceitos Básicos
n Motivação
n Objetivos
n Alinhamento de seqüências
n Detecção de SNPs e confiabilidade
n Correlação de SNPs
n Conclusão
3. Processo básico
de tradução genética
n A informação genética dos seres vivos é
armazenada em cadeias de nucleotídeos
n Bases A, C, G e T
n Proteínas são geradas a partir da leitura da
cadeia de nucleotídeos
n Processo de tradução
n Proteína = cadeia de aminoácidos
n 1 aminoácido = 3 nucleotídeos = 1 códon
5. Polimorfismos e SNP
n Polimorfismo: dois ou mais alelos diferentes
em indivíduos da mesma espécie
n Deve aparecer em pelo menos 1% da
população
n SNP: polimorfismo que ocorre em apenas
uma base da seqüência
n SNP sinônimo: não modifica o aminoácido
n SNP não sinônimo: modifica o aminoácido
6. Porque estudar SNPs?
n Correspondem a mais de 90% dos
polimorfismos nos seres humanos
n Causa de grande parte das doenças com base
genética
n Grande interesse das industrias farmacêuticas
n Criação de terapias específicas
n Marcadores para mapeamento fino do genoma
7. Objetivos do trabalho
n Estudar 3 etapas distintas no processo de
detecção e análise de SNPs:
n Alinhamento de ESTs com DNA genômico
n Detecção de SNPs por análise de
cromatograma
n Correlação de SNPs
9. Alinhamento de sequências
n Inserção de espaços em duas seqüências
de forma a que elas tenham o mesmo
tamanho e possam ser comparadas
n Exemplo: AGCTCGTTTG e ACCTTCGTTTTG
AGC-TCGTTT-G
ACCTTCGTTTTG
n Pontuação permite avaliar o alinhamento
n Problema de otimização: obter o alinhamento
de melhor pontuação
10. Algoritmos clássicos de alinhamento
n Estratégias de alinhamento
n Global
n Semi-global
n Local
n Sistemas de pontuação
n Simples: match, mismatch, gap
n Linear: match, mismatch e
gap(k) = g + hk
12. Objetivos desta etapa
Determinar uma estratégia clássica e um
conjunto de parâmetros que permitam
obter bons alinhamentos entre DNA
genômico e mRNA
13. Metodologia
n Desenvolvimento de um alinhador em Java
usando algoritmo de Miller e Myers
n Criação de uma base de testes
n Definição de um conjunto de parâmetros de
alinhamento
n Execução de alinhamentos de mRNAs com
genes de origem
n Nosso alinhador, sim4, est_genome e Spidey
n Definição de métricas para avaliação dos
alinhamentos obtidos
14. Conjunto de dados
1. 64 genes do cromossomo Y humano com
menos de 100.000 bases
2. 40 genes completos do cromossomo Y
humano com menos de 100.000 bases
3. 7376 genes completos do genoma humano
com menos de 10.000 bases
4. 4930 ESTs artificiais do cromossomo 6 com
erros aleatórios de 1% a 10%
18. Resultados obtidos
n O alinhador semi-global com esquemas de
pontuação (1,-2,-1,0) e (1,-2,-10,0)
produzem resultados extremamente
satisfatórios
n O esquema (1,-2,-10,0) tende a gerar
blocos de introns maiores
n Sim4, est_genome e Spidey são mais
regulares com ESTs com erros
21. Porque estudar base-calling?
n Pacote phred ignora sinais secundários no
cromatograma
n Apenas uma base por posição
n SNPs podem gerar sinais secundários
n PolyBayes e PolyPhred não produzem
resultados satisfatórios com HIV
22. Objetivos desta etapa
n Detecção de SNPs em cromatogramas de
seqüências de HIV
n Estudo de métodos para determinação de
confiabilidade dos resultados
23. Metodologia
n Definir algoritmos para análise e correção
de cromatograma
n Executar os algoritmos com diversos
parâmetros, para análise preliminar
n Determinação de dois algoritmos para
tunning
n Determinação do melhor algoritmo e do
melhor conjunto de parâmetros
24. Conjunto de dados
n Sequências genéticas de HIV
n 1302 bp
n Região bem conservada
n 35 lotes de amostras de indivíduos
soropositivos
n 6 leituras
n 1 seqüência validada, com SNPs anotados
manualmente
n Sequência de referência de HIV
25. Algoritmos de correção
n Relação das Áreas
n Relação das Médias das Alturas
n Limite Variável
n Pico Único por Janela
n Eliminação de Picos Ruins
n Pico Mais Baixo
27. Relação das Médias das Alturas
x2
x1 x1
FAKE_PEAK_HEIGHT_PERCENTAGE
MAXIMUM_FAKE_PEAK_WIDTH
MINIMUM_BORDER_DISTANCE
MINIMUM_HEIGHT
PEAK
LAST POSITION
FIRST POSITION
29. Confiabilidade Estatística
n Comparação de dois métodos de
confiablidade estatística para SNPs:
n PolyBayes: estatística bayesiana
n MSASNP: qualidades das bases
n Conjunto de teste: SNPs anotados do
SUCEST
n MSASNP gera muitos falsos positivos e
acerta menos posições que o PolyBayes
31. Linkage Disequilibrium
n Associação não aleatória entre alelos
n Informações sobre um alelo fornece
informações sobre o outro
n Medidas para quantificar LDs
n D’ = 1, chamado de LD completo
n r2 ≥ 1/3, chamado de LD útil
n LD múltiplo: conjunto de SNPs em LD dois a
dois
32. Porque estudar LDs?
n Doenças genéticas podem ser influenciadas
por vários SNPs correlacionados
n LD permite efetuar mapeamento fino do
genoma humano
n Técnica tradicional: definição de 1 a 2cM
n LD: definição de 0.1cM
34. Metodologia
n Pré-processamento do conjunto de dados
n Definição de uma heurística para busca de
cliques em grafos
n Problema NP-Difícil
n Executar a busca por LDs múltiplos nos
dados utilizando medidas D’ e r2
37. Conjunto de dados
n ESTs clusterizados de cana-de-açúcar do
projeto SUCEST, com SNPs anotados
n Genes do genoma humano obtidos do NCBI:
n HLA-A, HLA-B e HLA-DOB
n Genes do complexo MHC
n Região com alta densidade de SNPs anotados
38. Resultados
n Bons resultados obtidos com tempo de
busca de 5 segundos por clique
n D’ apresenta resultados melhores
n Maior capacidade de agrupamento
n Menor tendência de isolamento de SNPs
n r2 gera grafos com menos arestas
39. Considerações finais
n Foram estudadas 3 etapas distintas
relacionadas a SNPs
n Resultados bastante satisfatórios, tendo em
vista o tipo de problema analisado
n Seria interessante implementar um fluxo de
trabalho único unindo estas etapas
40. Trabalhos publicados
n Alinhamento
n M. Galves e Z. Dias, "Comparison of genomic DNA to
cDNA alignment methods“. Lecture Notes on
Bioinformatics, 2005. Springer-Verlag Berlin
Heildelberg.
Apresentado no BSB 2005, Porto Alegre - RS.
n Detecção de SNPs
n M. Galves, J. A. A. Quitzau e Z. Dias,
"New strategy to detect single nucleotide
polymorphisms", Genetics and Molecular Research,
2006.
Apresentado no X-Meeting 2005, Caxambu - MG.
41. Relatórios técnicos
n LDs múltiplos
n A. A. M. Almeida, M. Galves e Z. Dias, “Um algoritmo
para identificação de correlações múltiplas de
polimorfismos” (IC-06-14), Setembro 2006.
n Confiabilidade Estatística
n C. Baudet, M. Galves e Z. Dias,“Comparação de métodos
para determinação de SNPs com medidas de
confiabilidade” (IC-06-15), Setembro 2006.