Uma abordagem computacional para detecção de polimorfismos de base única (SNPs

Uma abordagem computacional para a
determinação de polimorfismos de
base única
Miguel Galves
Orientador: Zanoni Dias
IC - UNICAMP
01/12/2006

Roteiro
n  Conceitos Básicos
n  Motivação
n  Objetivos
n  Alinhamento de seqüências
n  Detecção de SNPs e confiabilidade
n  Correlação de SNPs
n  Conclusão

Processo básico
de tradução genética
n  A informação genética dos seres vivos é
armazenada em cadeias de nucleotídeos
n Bases A, C, G e T
n  Proteínas são geradas a partir da leitura da
cadeia de nucleotídeos
n Processo de tradução
n  Proteína = cadeia de aminoácidos
n  1 aminoácido = 3 nucleotídeos = 1 códon

Polimorfismos e SNP
n  Polimorfismo: dois ou mais alelos diferentes
em indivíduos da mesma espécie
n  Deve aparecer em pelo menos 1% da
população
n  SNP: polimorfismo que ocorre em apenas
uma base da seqüência
n  SNP sinônimo: não modifica o aminoácido
n  SNP não sinônimo: modifica o aminoácido

Porque estudar SNPs?
n  Correspondem a mais de 90% dos
polimorfismos nos seres humanos
n  Causa de grande parte das doenças com base
genética
n  Grande interesse das industrias farmacêuticas
n Criação de terapias específicas
n  Marcadores para mapeamento fino do genoma

Objetivos do trabalho
n  Estudar 3 etapas distintas no processo de
detecção e análise de SNPs:
n  Alinhamento de ESTs com DNA genômico
n  Detecção de SNPs por análise de
cromatograma
n  Correlação de SNPs

Alinhamento de sequências
n  Inserção de espaços em duas seqüências
de forma a que elas tenham o mesmo
tamanho e possam ser comparadas
n  Exemplo: AGCTCGTTTG e ACCTTCGTTTTG
AGC-TCGTTT-G
ACCTTCGTTTTG
n  Pontuação permite avaliar o alinhamento
n  Problema de otimização: obter o alinhamento
de melhor pontuação

Algoritmos clássicos de alinhamento
n  Estratégias de alinhamento
n  Global
n  Semi-global
n  Local
n  Sistemas de pontuação
n  Simples: match, mismatch, gap
n  Linear: match, mismatch e
gap(k) = g + hk

Porque estudar alinhamento
de mRNA com DNA?

Objetivos desta etapa
Determinar uma estratégia clássica e um
conjunto de parâmetros que permitam
obter bons alinhamentos entre DNA
genômico e mRNA

Metodologia
n  Desenvolvimento de um alinhador em Java
usando algoritmo de Miller e Myers
n  Criação de uma base de testes
n  Definição de um conjunto de parâmetros de
alinhamento
n  Execução de alinhamentos de mRNAs com
genes de origem
n  Nosso alinhador, sim4, est_genome e Spidey
n  Definição de métricas para avaliação dos
alinhamentos obtidos

Conjunto de dados
1.  64 genes do cromossomo Y humano com
menos de 100.000 bases
2.  40 genes completos do cromossomo Y
humano com menos de 100.000 bases
3.  7376 genes completos do genoma humano
com menos de 10.000 bases
4.  4930 ESTs artificiais do cromossomo 6 com
erros aleatórios de 1% a 10%

Resultados obtidos - Conjunto 3
Extra Gap Delta Exon Similaridade Mismatch
(1,-2,-1,0) 0.00 0.00 99.89% 0.00%
(1,-2,-10,0) 0.00 0.01 99.89% 0.00%
Sim4 1.03 -0.03 99.18% 0.21%
Est_genome 15.56 -0.17 58.00% 1.31%
Spidey 0.12 -3.82 81.02% 0.17%

Resultados obtidos - Conjunto 4

Resultados obtidos
n  O alinhador semi-global com esquemas de
pontuação (1,-2,-1,0) e (1,-2,-10,0)
produzem resultados extremamente
satisfatórios
n  O esquema (1,-2,-10,0) tende a gerar
blocos de introns maiores
n  Sim4, est_genome e Spidey são mais
regulares com ESTs com erros

Porque estudar base-calling?
n  Pacote phred ignora sinais secundários no
cromatograma
n  Apenas uma base por posição
n  SNPs podem gerar sinais secundários
n  PolyBayes e PolyPhred não produzem
resultados satisfatórios com HIV

n  Detecção de SNPs em cromatogramas de
seqüências de HIV
n  Estudo de métodos para determinação de
confiabilidade dos resultados

Metodologia
n  Definir algoritmos para análise e correção
de cromatograma
n  Executar os algoritmos com diversos
parâmetros, para análise preliminar
n  Determinação de dois algoritmos para
tunning
n  Determinação do melhor algoritmo e do
melhor conjunto de parâmetros

Conjunto de dados
n  Sequências genéticas de HIV
n  1302 bp
n  Região bem conservada
n  35 lotes de amostras de indivíduos
soropositivos
n  6 leituras
n  1 seqüência validada, com SNPs anotados
manualmente
n  Sequência de referência de HIV

Algoritmos de correção
n  Relação das Áreas
n  Relação das Médias das Alturas
n  Limite Variável
n  Pico Único por Janela
n  Eliminação de Picos Ruins
n  Pico Mais Baixo

Relação das Médias das Alturas
x2
x1 x1
FAKE_PEAK_HEIGHT_PERCENTAGE
MAXIMUM_FAKE_PEAK_WIDTH
MINIMUM_BORDER_DISTANCE
MINIMUM_HEIGHT
PEAK
LAST POSITION
FIRST POSITION

Resultados obtidos
Verdadeiro
Positivo
Falso
Negativo
Falso
Positivo
Área 75% 23% 394%
Média das
alturas
53% 42% 317%
PolyPhred 0% 100% 0%
PolyBayes 0% 100% 0%

Confiabilidade Estatística
n  Comparação de dois métodos de
confiablidade estatística para SNPs:
n  PolyBayes: estatística bayesiana
n  MSASNP: qualidades das bases
n  Conjunto de teste: SNPs anotados do
SUCEST
n  MSASNP gera muitos falsos positivos e
acerta menos posições que o PolyBayes

Linkage Disequilibrium
n  Associação não aleatória entre alelos
n  Informações sobre um alelo fornece
informações sobre o outro
n  Medidas para quantificar LDs
n  D’ = 1, chamado de LD completo
n  r2 ≥ 1/3, chamado de LD útil
n  LD múltiplo: conjunto de SNPs em LD dois a
dois

Porque estudar LDs?
n  Doenças genéticas podem ser influenciadas
por vários SNPs correlacionados
n  LD permite efetuar mapeamento fino do
genoma humano
n  Técnica tradicional: definição de 1 a 2cM
n  LD: definição de 0.1cM

n  Estudar LDs múltiplos
n  Analisar o efeito do uso das medidas D’ e r2

Metodologia
n  Pré-processamento do conjunto de dados
n  Definição de uma heurística para busca de
cliques em grafos
n  Problema NP-Difícil
n  Executar a busca por LDs múltiplos nos
dados utilizando medidas D’ e r2

LDs múltiplos
(j, f, i, e, g, m, n)
(k, l, h)

Conjunto de dados
n  ESTs clusterizados de cana-de-açúcar do
projeto SUCEST, com SNPs anotados
n  Genes do genoma humano obtidos do NCBI:
n  HLA-A, HLA-B e HLA-DOB
n  Genes do complexo MHC
n  Região com alta densidade de SNPs anotados

Resultados
n  Bons resultados obtidos com tempo de
busca de 5 segundos por clique
n  D’ apresenta resultados melhores
n  Maior capacidade de agrupamento
n  Menor tendência de isolamento de SNPs
n  r2 gera grafos com menos arestas

Considerações finais
n  Foram estudadas 3 etapas distintas
relacionadas a SNPs
n  Resultados bastante satisfatórios, tendo em
vista o tipo de problema analisado
n  Seria interessante implementar um fluxo de
trabalho único unindo estas etapas

Trabalhos publicados
n  Alinhamento
n  M. Galves e Z. Dias, "Comparison of genomic DNA to
cDNA alignment methods“. Lecture Notes on
Bioinformatics, 2005. Springer-Verlag Berlin
Heildelberg.
Apresentado no BSB 2005, Porto Alegre - RS.
n  Detecção de SNPs
n  M. Galves, J. A. A. Quitzau e Z. Dias,
"New strategy to detect single nucleotide
polymorphisms", Genetics and Molecular Research,
2006.
Apresentado no X-Meeting 2005, Caxambu - MG.

Relatórios técnicos
n  LDs múltiplos
n  A. A. M. Almeida, M. Galves e Z. Dias, “Um algoritmo
para identificação de correlações múltiplas de
polimorfismos” (IC-06-14), Setembro 2006.
n  Confiabilidade Estatística
n  C. Baudet, M. Galves e Z. Dias,“Comparação de métodos
para determinação de SNPs com medidas de
confiabilidade” (IC-06-15), Setembro 2006.

Uma abordagem computacional para detecção de polimorfismos de base única (SNPs

Recomendados

Recomendados

Mais conteúdo relacionado

Destaque

Destaque (18)

Semelhante a Uma abordagem computacional para detecção de polimorfismos de base única (SNPs

Semelhante a Uma abordagem computacional para detecção de polimorfismos de base única (SNPs (13)

Mais de Miguel Galves

Mais de Miguel Galves (8)

Uma abordagem computacional para detecção de polimorfismos de base única (SNPs