Alinhamentos 2011 2

Métodos de alinhamento de
sequencias biológicas
DRA. ADRIANA DANTAS
UERGS, BENTO GONÇALVES, RS

Introdução

?
- Uma forma rápida de agregar alguma informação sobre
uma sequência desconhecida é compará-la com um
banco de dados de sequências com funções conhecidas
- Esta comparação é feita através de alinhamentos par a
par entre as sequências. Isto é, se o banco de dados
possuir 1000 sequências conhecidas serão realizados
1000 alinhamentos

- Tipicamente são usados os bancos de dados mundiais (NCBI, EMBL)

Fonte: http://www3.ebi.ac.uk/Services/DBStats/

- Atualmente uma busca nesses bancos faz 100,000,000 de alinhamentos

Existem vários programas de alinhamentos com diferentes metodologias,
sendo que o mais utilizado é o BLAST

Relevância biológica
- Para o biólogo é essencial que esses alinhamentos indiquem uma
real similaridade entre as sequências (estatisticamente significantes)
- Similaridade x Homologia
- identidade = número que indica a quantidade de nucleotídeos
alinhados
- similaridade = considera a probabilidade do alinhamento ter
ocorrido por acaso (e-value). Considera todos os outros
possíveis alinhamentos
- homologia = dividem a mesma ancestralidade com significado
evolutivo

Outras aplicações

- Reconstruçãoda sequência consensu a partir de sobreposições
de fragmentos de sequências (montagens de sequencias de DNA)
- Alinhamento entre sequências de ESTs e DNA genômico
- Comparação entre proteínas e DNA
- Construção de mapas físicos
- Comparação entre genomas
- ...

Alinhamentos
o A comparação entre sequências de DNA de organismos
diferentes é baseada no conceito de que estes organismos
originaram-se de um ancestral comum.
o No contexto de evolução as sequências de DNA sofrem
mutações. Estas modificações locais entre os nucleotídeos
podem ser :
o Inserções : inserção de uma base ou várias bases na
sequência
o Deleções : deleção de uma base ou mais bases na sequência
o Substituições : substituição de uma base por outra
o Portanto um programa de alinhamento de sequências
biológicas tem que considerar essas mutações

Exemplo :
Gap = -2

Match = 1 Mismatch = -1

- Gaps representam as inserções e deleções entre as sequências
- O melhor alinhamento entre duas sequências é aquele que
maximiza o score :
- Score = #Matchs * (1) + #Mismatch * (-1) + #Gaps * (-2)
= 24 – 4 – 10 = 10

Modelos para alinhamentos
- Alinhamento global
- útil quando as duas sequências tem tamanhos próximos
- Exemplo de programa : CLUSTAL

-Alinhamento local
- útil para alinhamento entre sequências de tamanhos diferentes e também
para sequências com apenas alguns trechos conservados
- Exemplo de programa : BLAST E FASTA

-Alinhamento semi-global (ou pontas livres)
- útil para encontrar sobreposições de fragmentos de sequenciamento
- Exemplo de programa : PHRAP E CAP3

Alinhamento global
- Alinhamento de GACATTG com GATCAATG

1a linha e 1a coluna de M são fáceis de computar:
- G A C A T T G
- 0 -2 -4 -6 -8 -10 -12 -14
G -2
A -4 G GA
T -6 - - -
C -8
A -10
A -12 Lembre-se, penalidade
de 1 gap = -2 e de dois
T -14 gaps = -4
G -16

http://bioweb.pasteur.fr/seqanal/interfaces/stretcher-simple.html

- G A C A T T G
- 0 -2 -4 -6 -8 -10 -12 -14
G -2
A -4
T -6
C -8
A -10
A -12 [i,j]=p(i,j)
T -14
G -16

- Para
um elemento da matriz [i,j] qualquer, temos p(i,j) = 1 se for
um match e p(i,j) = -1 se for um mismatch.

- G A C A T T G
- 0 -2 -4 -6 -8 -10 -12 -14
G -2
A -4
T -6
C -8
A -10 [i-1,j-1] [i-1,j]
A -12 [i,j-1] [i,j] = max([i-1,j] - 2,
T -14
p(i,j),
[i-1,j-1] +
G -16 [i,j-1] - 2)

-O valor de [i,j] é definido exclusivamente pelos elementos [i-1,j-1]
(diagonal), [i,j-1] (esquerda) e [i-1,j] (acima).

- Construindo o alinhamento

A G C
0 -2 -4 -6

A -2 1 -1 -3

A -4 -1 0 -2
A -6 -3 -2 -1

C -8 -5 -4 -1

No alinhamento global o alinhamento deve ser construído a partir
do extremo da matriz

Alinhamento local (Smith-Waterman)
http://bioweb.pasteur.fr/seqanal/interfaces/water.html

- G A C A T T G
- 0 0 0 0 0 0 0 0
G 0
A 0
T 0
C 0
A 0 [i-1,j-1] [i-1,j]
A 0 [i,j-1] [i,j] = max([i-1,j] - 2,
[i-1,j-1] +
T 0 p(i,j),
G 0 [i,j-1] – 2,
0 zero)
- No alinhamento local a primeira linha e coluna são inicializadas com
zeros e os valores [i,j] da matriz inteira nunca ficam menores que zero

No alinhamento local o alinhamento deve ser construído partir do
maior score da matriz e para quando encontrar um score=0

Alinhamento semi-global

- Não penaliza espaços nas extremidades do
alinhamento.
- Exemplo CAGCA –CTTGGATTCTCGC
|| | | | |
- - - CAGCGTGG - - - - - - - -
- No global teríamos,
CAGCA – CTTGGATTCTCGC
CAGC - - - - - - G - T - - - - - -
- Qual dos dois alinhamentos é mais
interessante ?

- No alinhamento semi-global a primeira linha e coluna são
inicializadas com zeros. O resto é igual ao alinhamento global

- A abordagem de programação dinâmica é importante pois garante o melhor
alinhamento entre duas seguências, mas ainda temos um problema :
- Lembram-se disso : se o alinhamento de 2 sequências de 100 pb leva 1
segundo, o alinhamento de sequências de 10 Mpb (genoma de
Saccharomyces) leva 377 anos
- A abordagem alternativa é conhecida como o método de k-tuplas, no qual
não é garantido encontrar o alinhamento ótimo (heurística) mas é
significantemente mais rápido. Com esse método os conceitos de alinhamento
discutidos acima foram modificados dando origem aos programas de
alinhamento local :
- BLAST (Basic Local Align Sequence Tool) : Nucleic Acid Research 25
(1990), 3389
- FASTA : PNAS 85 (1988), 2444-2448
- Basicamente este método identifica uma série de palavras curtas em uma das
sequências (word size) e depois realiza uma busca exata por essas palavras nas
sequências a serem comparadas, filtrando assim os possíveis candidatos.

Alinhando proteínas

- Alinhamento proteína-proteína
- Alinhamento nucleotídeo-proteína
- Alinhamento proteína-nucleotídeo
- Alinhamento nucleotídeo-nucleotídeo (feito em proteínas)

Matrizes de substituição
- BLOSUM (BLOcks of amino acid SUbstitution Matrix )

- I e V => Hidrofóbicos
- D e W => D (carga negativa) e W (aromático)
- C => pontes de sulfeto (estrutural)

-A matriz foi construída a partir de alinhamentos múltiplos globais
de 504 grupos de proteínas

- BLOSUM 62 : grupos com similaridade >62%

Query Length Substitution Matrix
<35 PAM-30
35-50 PAM-70
50-85 BLOSUM-80
>85 BLOSUM-62 PNAS 89 (1992), 10915-19919

BLAST
• Basic Local Alignment Search Tool
• Algoritmo BLAST (Alstchul et al.; 1990 – J. Biol., 215,
403-410)
• Implementações: NCBI BLAST e WU-BLAST
• Acesso via web / local (linux)
• Consulta de seqüências em BDs biológicos (nt ou proteínas)
• Alinhamento – sobreposição de trechos semelhante de duas
seqüências (seqs). BLAST traz pontuação e mostra
alinhamentos.
• Similaridade – grau de semelhança de seqs num alinhamento.
• Homologia – genes com ancestral comum

• BDs – nucleotídeos, proteínas, domínios,
genomas específicos, dados particulares
• Blastp – prot / prot (distantes)
• Blastn – nt / nt (próximos)
• Blastx – nt trad / prot (novas seqs)
• Tblastn – prot / nt trad (regiões não anotadas)
• Tblastx – nt trad / nt trad

Query BD Compara Programa
nt nt nt blastn
nt (trad) aa aa blastx
aa aa aa blastp
aa nt (trad) aa tblastn
nt (trad) nt (trad) aa tblastx
Query = formato da seq de entrada.
BD = formato das seqs do BD.
nt (trad) = seq em nt traduzida pelo programa.
Compara = o que é comparado, nucleotídeos (nt) ou aminoácidos (aa).
Programa = um dos cinco principais tipos de blast.

BLAST – resultado

Escolher BD

http://www.ncbi.nlm.nih.gov/blast/

ERRO!!

Domínio encontrado
ID facilita busca

1 64
query
subject
1 71 134

BLAST – exemplos
>nucleotídeo 1
GTACAAAAAAGTTGGATTTAACTTTAATAGCTATATTAGTCAGTAATGTTATTGTTTGAT
GAAGGATTTTTTTATTAATAACTATTATTTTTATTTTGTTAAATAAAGGAAATAAGAGTT
ATAGAGGAATTTTTAATTATTTTGTTATTCAAGAAACTCTAGGATTGTTGTTTTTATTTT
TTTCTAGTAATTATATTCAGTTTATTATTTTAATAATGAAGATTGGAGTACCACCATTTC
ACTTTTGGGTTTTTAGTGTTACTAATAGTATTTTTAATTATGGGTTAGTGTGGTTTTTAA
CTATACAGATGTTACCTTTACTGGTAGTTTTATTACAGTTATTTGCTTCTGATATAGTGT
ATTTATTTCTTTTTGGTTTGTTTAGTTGTTATCAAGAGATGTTTATGCTGAAGGTATACA
GTACTTTATTAGTTGTATCATCAACTGAGTCTTTTAATTGA

>proteína 1
MSLKDFFERIEPDFEKGGKYEKFYALFEAAYTIFYTPGKVNKGKTHVRDNLDLKRMMITV
WACAFPAMFV
GMYNVGLQAQLALVAGFATPDVWQVSLFSMFGTELTANSGWPALMWYGACFFLPIYAVT
FAVGGIWEVLF
ASIRGHEVNEGFFVTSILFALTLPATIPLWMVALGITFGVVVAKEVFGGTGRNFLNPALAG
RAFLFFAYP
LNMSGDTSWVVADGYSGATALSQAAAGTLDYAINQNWWDSFFGFIPGSVGEVSTLAILLG
GLVIIYTRIA
SWRIVGGVMVGMIAISTLLNVVGSDTNPMFAMPWYWHLVLGGFAFGMMFMATDPVSAS
FTNQAKWAYGIL
IGAMAVFIRVINPAFPEGMMLAILFANLFAPLFDHFVVQANIKRRIARG

http://www.ncbi.nlm.nih.gov/blast/

BLAST local
• Pode ser instalado localmente (Linux)
• BDs e atualizações
• Facilidades
– Velocidade de buscas
– Maleabilidade
– Automatização
– Dados locais
– Independe de internet

-Download
- ftp://ftp.ncbi.nih.gov/blast
- Preparação do banco de dados
- formatdb –i <arquivo fasta db> -p T/F :
- <arquivo fasta db> é o arquivo que contêm todas as sequências em
nucleotídeo ou proteína que formarão o banco de dados do blast
- -p T para arquivo fasta de proteínas e –p F para nucleotídeos
- Comparação via blast
- blastall –i <arquivo fasta> -p blastn/blastx/blastp/tblastx/tblastx –d
<arquivo fasta db> -o <arquivo de saída> -e 1e-5
- -i arquivo fasta a ser comparado com o banco <arquivo fasta db>
- -p tipo de comparação a ser realizada
- -d banco de dados utilizado na comparação
- -o arquivo de saída
- -e evalue de corte

Resumo

- Revisão BLAST
- PHI-BLAST
- PSI-BLAST
-BLAST2SEQS

Revisão
Query BD Compara Programa
nt nt nt blastn
nt (trad) aa aa blastx
aa aa aa blastp
aa nt (trad) aa tblastn
nt (trad) nt (trad) aa tblastx
Query = formato da seq de entrada.
BD = formato das seqs do BD.
nt (trad) = seq em nt traduzida pelo programa.
Compara = o que é comparado, nucleotídeos (nt) ou aminoácidos (aa).
Programa = um dos cinco principais tipos de blast.

PHI-BLAST
-Éum blastp com a opção de passar uma outra sequência curta ou
um padrão servindo como um vínculo para a consulta

N - Qualquer nucleotídeo
N(3) - Uma sequência de três nucleotídeos
Ex :
N(2,4) - Uma sequência de 2,3 ou 4
nucleotídeos [CG](5)TG{A}N(1,5)C
[AC] - pode ser um A ou um C
{AG} - não pode ser nem A e nem G

PSI-BLAST
-É um blastp interativo no qual a matriz (BLOSUM), após a primeira
interação, é refeita com base nos alinhamentos entre as proteínas
resultantes da consulta :
- uma posicão conservada no alinhamento recebe um score
alto e uma posição não conservada um score baixo
- É útil para encontrar membros distantes de famílias de proteínas

BL2SEQS
- Faz um blast de uma sequência contra a outra (blastn/blastx/blastp/tblastx/tblastn

-

Alinhamentos 2011 2

Recomendados

Recomendados

Mais conteúdo relacionado

Mais procurados

Mais procurados (20)

Semelhante a Alinhamentos 2011 2

Semelhante a Alinhamentos 2011 2 (20)

Mais de UERGS

Mais de UERGS (20)

Alinhamentos 2011 2