O documento descreve métodos de alinhamento de sequências biológicas, incluindo alinhamento global, local e semi-global. Explica como esses métodos consideram mutações como inserções, deleções e substituições ao comparar sequências. Também discute o programa BLAST amplamente utilizado para alinhamentos de sequências.
1. Métodos de alinhamento de
sequencias biológicas
DRA. ADRIANA DANTAS
UERGS, BENTO GONÇALVES, RS
2. Introdução
?
- Uma forma rápida de agregar alguma informação sobre
uma sequência desconhecida é compará-la com um
banco de dados de sequências com funções conhecidas
- Esta comparação é feita através de alinhamentos par a
par entre as sequências. Isto é, se o banco de dados
possuir 1000 sequências conhecidas serão realizados
1000 alinhamentos
3. - Tipicamente são usados os bancos de dados mundiais (NCBI, EMBL)
Fonte: http://www3.ebi.ac.uk/Services/DBStats/
- Atualmente uma busca nesses bancos faz 100,000,000 de alinhamentos
4. Existem vários programas de alinhamentos com diferentes metodologias,
sendo que o mais utilizado é o BLAST
5. Relevância biológica
- Para o biólogo é essencial que esses alinhamentos indiquem uma
real similaridade entre as sequências (estatisticamente significantes)
- Similaridade x Homologia
- identidade = número que indica a quantidade de nucleotídeos
alinhados
- similaridade = considera a probabilidade do alinhamento ter
ocorrido por acaso (e-value). Considera todos os outros
possíveis alinhamentos
- homologia = dividem a mesma ancestralidade com significado
evolutivo
6.
7. Outras aplicações
- Reconstruçãoda sequência consensu a partir de sobreposições
de fragmentos de sequências (montagens de sequencias de DNA)
- Alinhamento entre sequências de ESTs e DNA genômico
- Comparação entre proteínas e DNA
- Construção de mapas físicos
- Comparação entre genomas
- ...
8. Alinhamentos
o A comparação entre sequências de DNA de organismos
diferentes é baseada no conceito de que estes organismos
originaram-se de um ancestral comum.
o No contexto de evolução as sequências de DNA sofrem
mutações. Estas modificações locais entre os nucleotídeos
podem ser :
o Inserções : inserção de uma base ou várias bases na
sequência
o Deleções : deleção de uma base ou mais bases na sequência
o Substituições : substituição de uma base por outra
o Portanto um programa de alinhamento de sequências
biológicas tem que considerar essas mutações
9. Exemplo :
Gap = -2
Match = 1 Mismatch = -1
- Gaps representam as inserções e deleções entre as sequências
- O melhor alinhamento entre duas sequências é aquele que
maximiza o score :
- Score = #Matchs * (1) + #Mismatch * (-1) + #Gaps * (-2)
= 24 – 4 – 10 = 10
10. Modelos para alinhamentos
- Alinhamento global
- útil quando as duas sequências tem tamanhos próximos
- Exemplo de programa : CLUSTAL
-Alinhamento local
- útil para alinhamento entre sequências de tamanhos diferentes e também
para sequências com apenas alguns trechos conservados
- Exemplo de programa : BLAST E FASTA
-Alinhamento semi-global (ou pontas livres)
- útil para encontrar sobreposições de fragmentos de sequenciamento
- Exemplo de programa : PHRAP E CAP3
11. Alinhamento global
- Alinhamento de GACATTG com GATCAATG
1a linha e 1a coluna de M são fáceis de computar:
- G A C A T T G
- 0 -2 -4 -6 -8 -10 -12 -14
G -2
A -4 G GA
T -6 - - -
C -8
A -10
A -12 Lembre-se, penalidade
de 1 gap = -2 e de dois
T -14 gaps = -4
G -16
http://bioweb.pasteur.fr/seqanal/interfaces/stretcher-simple.html
12. - G A C A T T G
- 0 -2 -4 -6 -8 -10 -12 -14
G -2
A -4
T -6
C -8
A -10
A -12 [i,j]=p(i,j)
T -14
G -16
- Para
um elemento da matriz [i,j] qualquer, temos p(i,j) = 1 se for
um match e p(i,j) = -1 se for um mismatch.
13. - G A C A T T G
- 0 -2 -4 -6 -8 -10 -12 -14
G -2
A -4
T -6
C -8
A -10 [i-1,j-1] [i-1,j]
A -12 [i,j-1] [i,j] = max([i-1,j] - 2,
T -14
p(i,j),
[i-1,j-1] +
G -16 [i,j-1] - 2)
-O valor de [i,j] é definido exclusivamente pelos elementos [i-1,j-1]
(diagonal), [i,j-1] (esquerda) e [i-1,j] (acima).
14. - Construindo o alinhamento
A G C
0 -2 -4 -6
A -2 1 -1 -3
A -4 -1 0 -2
A -6 -3 -2 -1
C -8 -5 -4 -1
No alinhamento global o alinhamento deve ser construído a partir
do extremo da matriz
15. Alinhamento local (Smith-Waterman)
http://bioweb.pasteur.fr/seqanal/interfaces/water.html
- G A C A T T G
- 0 0 0 0 0 0 0 0
G 0
A 0
T 0
C 0
A 0 [i-1,j-1] [i-1,j]
A 0 [i,j-1] [i,j] = max([i-1,j] - 2,
[i-1,j-1] +
T 0 p(i,j),
G 0 [i,j-1] – 2,
0 zero)
- No alinhamento local a primeira linha e coluna são inicializadas com
zeros e os valores [i,j] da matriz inteira nunca ficam menores que zero
16. No alinhamento local o alinhamento deve ser construído partir do
maior score da matriz e para quando encontrar um score=0
17. Alinhamento semi-global
- Não penaliza espaços nas extremidades do
alinhamento.
- Exemplo CAGCA –CTTGGATTCTCGC
|| | | | |
- - - CAGCGTGG - - - - - - - -
- No global teríamos,
CAGCA – CTTGGATTCTCGC
CAGC - - - - - - G - T - - - - - -
- Qual dos dois alinhamentos é mais
interessante ?
18. - No alinhamento semi-global a primeira linha e coluna são
inicializadas com zeros. O resto é igual ao alinhamento global
19. - A abordagem de programação dinâmica é importante pois garante o melhor
alinhamento entre duas seguências, mas ainda temos um problema :
- Lembram-se disso : se o alinhamento de 2 sequências de 100 pb leva 1
segundo, o alinhamento de sequências de 10 Mpb (genoma de
Saccharomyces) leva 377 anos
- A abordagem alternativa é conhecida como o método de k-tuplas, no qual
não é garantido encontrar o alinhamento ótimo (heurística) mas é
significantemente mais rápido. Com esse método os conceitos de alinhamento
discutidos acima foram modificados dando origem aos programas de
alinhamento local :
- BLAST (Basic Local Align Sequence Tool) : Nucleic Acid Research 25
(1990), 3389
- FASTA : PNAS 85 (1988), 2444-2448
- Basicamente este método identifica uma série de palavras curtas em uma das
sequências (word size) e depois realiza uma busca exata por essas palavras nas
sequências a serem comparadas, filtrando assim os possíveis candidatos.
21. Matrizes de substituição
- BLOSUM (BLOcks of amino acid SUbstitution Matrix )
- I e V => Hidrofóbicos
- D e W => D (carga negativa) e W (aromático)
- C => pontes de sulfeto (estrutural)
22. -A matriz foi construída a partir de alinhamentos múltiplos globais
de 504 grupos de proteínas
- BLOSUM 62 : grupos com similaridade >62%
- BLOSUM 80 : grupos com similaridade >80%
- BLOSUM 45 : grupos com similaridade >45%
Query Length Substitution Matrix
<35 PAM-30
35-50 PAM-70
50-85 BLOSUM-80
>85 BLOSUM-62 PNAS 89 (1992), 10915-19919
23. BLAST
• Basic Local Alignment Search Tool
• Algoritmo BLAST (Alstchul et al.; 1990 – J. Biol., 215,
403-410)
• Implementações: NCBI BLAST e WU-BLAST
• Acesso via web / local (linux)
• Consulta de seqüências em BDs biológicos (nt ou proteínas)
• Alinhamento – sobreposição de trechos semelhante de duas
seqüências (seqs). BLAST traz pontuação e mostra
alinhamentos.
• Similaridade – grau de semelhança de seqs num alinhamento.
• Homologia – genes com ancestral comum
24. • BDs – nucleotídeos, proteínas, domínios,
genomas específicos, dados particulares
• Blastp – prot / prot (distantes)
• Blastn – nt / nt (próximos)
• Blastx – nt trad / prot (novas seqs)
• Tblastn – prot / nt trad (regiões não anotadas)
• Tblastx – nt trad / nt trad
25. Query BD Compara Programa
nt nt nt blastn
nt (trad) aa aa blastx
aa aa aa blastp
aa nt (trad) aa tblastn
nt (trad) nt (trad) aa tblastx
Query = formato da seq de entrada.
BD = formato das seqs do BD.
nt (trad) = seq em nt traduzida pelo programa.
Compara = o que é comparado, nucleotídeos (nt) ou aminoácidos (aa).
Programa = um dos cinco principais tipos de blast.
32. BLAST local
• Pode ser instalado localmente (Linux)
• BDs e atualizações
• Facilidades
– Velocidade de buscas
– Maleabilidade
– Automatização
– Dados locais
– Independe de internet
33. -Download
- ftp://ftp.ncbi.nih.gov/blast
- Preparação do banco de dados
- formatdb –i <arquivo fasta db> -p T/F :
- <arquivo fasta db> é o arquivo que contêm todas as sequências em
nucleotídeo ou proteína que formarão o banco de dados do blast
- -p T para arquivo fasta de proteínas e –p F para nucleotídeos
- Comparação via blast
- blastall –i <arquivo fasta> -p blastn/blastx/blastp/tblastx/tblastx –d
<arquivo fasta db> -o <arquivo de saída> -e 1e-5
- -i arquivo fasta a ser comparado com o banco <arquivo fasta db>
- -p tipo de comparação a ser realizada
- -d banco de dados utilizado na comparação
- -o arquivo de saída
- -e evalue de corte
35. Revisão
Query BD Compara Programa
nt nt nt blastn
nt (trad) aa aa blastx
aa aa aa blastp
aa nt (trad) aa tblastn
nt (trad) nt (trad) aa tblastx
Query = formato da seq de entrada.
BD = formato das seqs do BD.
nt (trad) = seq em nt traduzida pelo programa.
Compara = o que é comparado, nucleotídeos (nt) ou aminoácidos (aa).
Programa = um dos cinco principais tipos de blast.
37. PHI-BLAST
-Éum blastp com a opção de passar uma outra sequência curta ou
um padrão servindo como um vínculo para a consulta
N - Qualquer nucleotídeo
N(3) - Uma sequência de três nucleotídeos
Ex :
N(2,4) - Uma sequência de 2,3 ou 4
nucleotídeos [CG](5)TG{A}N(1,5)C
[AC] - pode ser um A ou um C
{AG} - não pode ser nem A e nem G
38. PSI-BLAST
-É um blastp interativo no qual a matriz (BLOSUM), após a primeira
interação, é refeita com base nos alinhamentos entre as proteínas
resultantes da consulta :
- uma posicão conservada no alinhamento recebe um score
alto e uma posição não conservada um score baixo
- É útil para encontrar membros distantes de famílias de proteínas
39. BL2SEQS
- Faz um blast de uma sequência contra a outra (blastn/blastx/blastp/tblastx/tblastn
-