Encontrando similaridades de sequências

Encontrando
similaridades de sequências
Prof. Dr. Francisco Prosdocimi

Propagação de informação
• Como dados sobre a estrutura,
função e evolução de biomoléculas
estão mesclados na informação
presente nas sequências de Estrutura Função
biomoléculas?
Evolução
• Dada uma sequência A’ altamente
similar a uma sequência A’’ e um
pouco menos similar a uma
sequência A’’’, o que se poderá dizer A’’’ A’’ A’
sobre o compartilhamento de
função e estrutura entre estas
moléculas? Limite da
inferência?

Primeiros estudos
filogenético-moleculares
• 1970 Estudos bioquímicos
clássicos: proteína a proteína

• Similaridade de sequências
em globinas foi visto como
prova de ancestralidade
comum
– Propriedades fisico-químicas e
biológicas

• As hipóteses filogenéticas
podem ser baseadas apenas
nas sequências das
biomoléculas?

Moléculas como documentos
da história evolutiva
• Zuckerkandl e Pauling, 1965
• A análise da sequência de DNA e genomas carrega
informação, os semantídeos
• Jamais discutiram como a busca por similaridades em
semantídeos deveria ser realizada

Ecologia, linguagem, semântica
molecular
Genes codificadores de proteínas,
promotores, sítios de ligação a
fatores de transcrição, centrômeros,
telômeros, micro-RNAs, etc.

Uma questão metodológica
• Embora esteja claro que as
sequências das biomoléculas
dão informações sobre
estrutura, função e
evolução, como proceder
essa comparação?

• Zuckerkandl e Pauling (1965)
não entram nesta questão

• O alinhamento de
sequências

O alinhamento de sequências
 Consiste no processo de
comparar duas ou mais
sequências (de
nucleotídeos ou
aminoácidos) de forma a
se observar seu nível de
similaridade

 Comparação de strings
 Identificação de substrings
compartilhadas

 Uma das mais poderosas
técnicas da bioinformática

Tipos de alinhamento
• Simples X Múltiplo
• Local X Global
• Heurístico X Ótimo
Score = 276 bits (139), Expect = 3e-78
Identities = 139/139 (100%)
Strand = Plus / Plus

Query: 326 aggtgtaaaaccgtttgaatgcacttattgttataaaggattcactcgaaattctgatct 385
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct: 560 aggtgtaaaaccgtttgaatgcacttattgttataaaggattcactcgaaattctgatct 619

Query: 386 tcataagcacatcgacgctgttcacaaaggtctcaagcctttcggatgtgaagtatgcca 445
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct: 620 tcataagcacatcgacgctgttcacaaaggtctcaagcctttcggatgtgaagtatgcca 679

Query: 446 gcgaaacttctctcagaaa 464
|||||||||||||||||||
Sbjct: 680 gcgaaacttctctcagaaa 698

Alinhamento Simples
• Aquele realizado entre seqüências de DNA ou
proteínas, desde que duas a duas
Score = 652 bits (329), Expect = 0.0
Identities = 240/240 (100%) Interpretando os valores
Strand = Plus / Plus

Query: 1 ctttcaagatgaacgaaccaactggtgtcgggccaacatttgctgatgcatgcgatgatg 60
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct: 136 ctttcaagatgaacgaaccaactggtgtcgggccaacatttgctgatgcatgcgatgatg 195

Query: 61 gcgaacttatcagcatttgttgtctttgtggtaaaacgttttcaagtcagagtcttctac 120
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct: 196 gcgaacttatcagcatttgttgtctttgtggtaaaacgttttcaagtcagagtcttctac 255

Query: 121 acaaacattttgaattgatgcatgaaggtacggaaatagatactgaacagtatgatctaa 180
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct: 256 acaaacattttgaattgatgcatgaaggtacggaaatagatactgaacagtatgatctaa 315

Query: 181 gtggatttgccgctatggggaatgaacaaggtcgtaaaagtaatggtgaagaagatgcaa 240
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct: 316 gtggatttgccgctatggggaatgaacaaggtcgtaaaagtaatggtgaagaagatgcaa 375

Alinhamento múltiplo
• Aquele realizado entre MAIS DE DUAS seqüências de
DNA ou proteínas
Seq1 ------------------------------------------------------------
Seq4 -GCACGAGGACTGTGA-----ACCGAATCGGTTCAGTAAAATGTTCAATTGTGCGCTGGA
Seq2 ------------------------------GTTCAGTAAAATGTTCAATTGTGCGCTGGA
Seq3 GGCACGAGGGCTACGACTGTGAACGAATCGGTTCAGTAAAATGTTCAATTGTGCGCTGGA

Seq1 ------------------------------------------------------------
Seq4 ATCTATTGTGTAGACTATTAACTATGGAATTTTACTTCACATTGACTAAAAAGCTGAGCA
Seq2 ATCTATTGTGTAGACT-TTAACTATGGAATTTTACTTCACATTGACTAAAAAGCTGAGCA
Seq3 ATCTATTGTGTAGACTATTAACTATGGAATTTTACTTCACATT-ACTAAAAAGCTGAGCA

Seq1 ---------------------CTTTCAAGATGAACGAACCAACTGGTGTCGGGCCAACAT
Seq4 AATATACCTGGAGCGTTCAGACTTTCAAGATGAACGAACCAACTGGTGTCGGGCCAACAT
***************************************

Alinhamentos Global e Local
• Global: as seqs são alinhadas de ponta a ponta
• Local: pedaços das seqs é que são comparados

Qual deles
é melhor?

Alinhamentos ótimo e heurístico
• heurística -- do dicionário Houaiss
Acepções
¦ substantivo feminino
1 arte de inventar, de fazer descobertas; ciência que tem por objeto a
descoberta dos fatos
1.1 Rubrica: história.
ramo da História voltado à pesquisa de fontes e documentos
1.2 Rubrica: informática.
método de investigação baseado na aproximação progressiva de um dado
problema
1.3 Rubrica: pedagogia.
método educacional que consiste em fazer descobrir pelo aluno o que se
lhe quer ensinar
LOGO:

• Alinhamento ótimo: produz o melhor resultado computacionalmente
possível
• Alinhamento heurístico: produz um resultado o mais próximo possível do
resultado ótimo, mas, principalmente, produz um resultado de maneira
muito veloz

Ferramentas de alinhamento

Tipo de Precisão do Número de seqüências
Programa Alinhamento Alinhamento a serem alinhadas

BLAST2Sequences Local Heurístico 2

SWAT
Local Ótimo 2
(Smith-Waterman)

ClustalW Global Heurístico N

Multalin Global Heurístico N

Needleman-Wunsch Global Ótimo 2

Desafios pragmáticos
• A escolha do tipo de alinhamento a ser usado
depende se a similaridade
observada entre as sequências
que se deseja comparar é
local ou global
• Que tipo de similaridade se busca?
– Diferença semântica entre unidades carregadoras de
informação
– Algoritmos diferentes são
necessários para alinhar
tipos de diferentes de
informação molecular

Desafios pragmáticos
• O alinhamento de maior escore é
mesmo aquele que apresenta
maior informação biológica? Maior escore no alinhamento global

• Se sabemos a função de A; se A
parece com B; se B parece com C,
podemos inferir que a função de A B OK!
C é igual à de A?
– A questão do sinal e do ruído
– A sujeira das bases de dados de B C OK!
sequências
– Similar, putative, close to
A C
?
Se (1) e (2), LOGO (3)?

Confiança em alinhamentos
• Alinhamentos do tipo I
– Rápidos, heurísticos, sujos
Query Seq Sequence
– Par a par DB
– Contra bases de dados grandes

• Alinhamentos do tipo II
– Lentos, ótimos
– Otimizados manualmente
– Múltiplos
– Lida com uma quantidade
limitada de sequências

Métricas para o alinhamento
• Gibbs and McIntyre, 1970
• Diagrama 2D
• Similaridades observadas
nas diagonais
• Permite identificar mutações,
inserções, deleções, inversões,
etc

Needleman-Wunsch
• Alinhamento global, 1970
• Baseado em técnicas computacionais de
programação dinâmica
– Quebra o problema em sub-problemas (recursividade)
– Máximo número de caracteres alinhados
• Passos
– Montagem da tabela
• Produção de condições iniciais
• Definição de regras recursivas
– Definição de regra de conclusão

Preenchimento da
Matriz de Similaridades
• Métricas de
pontuação
– Match
– Mismatch
– Gap

• Métricas de
preenchimento
da matriz

Regra de conclusão
• Comece do fim
• Volte sempre pelo
menor número
vizinho
– Se houver mais de
uma possibilidade,
há mais de um
alinhamento ótimo
• Imprima o
alinhamento

Needleman-Wunsch
• 1970: alinhamento simples, ótimo
e global
• Complexidade algorítmica
– Implementação original:
T(n) = O (n3)
– Implementação moderna:
T(n) = O (n2)

• Questão biológica:
– O programa vai sempre alinhar,
mas... qual a interpretação
biológica do alinhamento?

E o alinhamento local?
• Adiciona-se duas regras simples
– Na montagem da matriz
– Na resolução do problema
1. O número zero como valor alternativo ao
preenchimento da matriz
– Isso impede a matriz de ter números negativos
2. Na resolução obtém-se os resultados locais
– Começa-se com a célula de maior pontuação e
retorna-se até o zero

Smith-Waterman
• 1981
– Alinhamento local

• Definição de zonas de
alta similaridade

• Definição de
estatísticas de escore
– Melhorado com
Altschul e o e-value
do BLAST
http://download.boulder.ibm.com/ibmdl/pub
/software/dw/java/j-seqalign-pdf.pdf

Temple Smith and Michael Waterman
• Algoritmo garante o
alinhamento de
maior escore
• HSP
– High-scoring
segment pair

Waterman and Smith

BLAST
• Basic Local Alignment Search Tool
• Heurística eficiente, permite busca
rápida em bancos de dados
enormes
• O segredo:
– Cria uma semente de tamanho fixo Stephen Frank Altschul (1957-)
– O banco de dados do BLAST já possui é um matemático americano,
dados pré-computados de todas as co-criador do BLAST
sementes (w=11 dna; w=4 prot)
• Faz busca das sementes
• Estende as sementes diagonalmente

BLAST hit
• O e-value
– Representa a chance estatística de um certo alinhamento ser
encontrado ao acaso
– Normalizado pelo tamanho do banco de dados

E = Kmn-ʎS
• Número de HSP com escore pelo menos S que podem ocorrer ao acaso
• m e n são os tamanhos das sequências alinhadas
• K ajusta para o tamanho da base de dados
• ʎ parâmetro de escala para o sistema de escores

• Trabalho mais citado
da década de 1990
(http://www.sciencewatch.com/
july-aug2000/sw_july-aug2000_p
age3.htm)

História do alinhamento de sequências
• 1970: Needleman-Wunsch
– Usavam só valores positivos
– Matches positivos; mismatches = 0
– Problemas com os gaps
• Fim dos anos 70
– Os gaps não devem ser considerados como
mismatches, eles devem ser penalizados
– Números negativos entram em cena
• 1981: Smith and Waterman
• 1985: Lipman & Pearson, FASTA algorigthm
– Primeira tentativa de heurística
• 1990: Altschul et al., BLAST
– Heurística mais eficiente, 3-4x + rápido que o FASTA
– Estatística mais adequada

E o sistema de escores?
• Para alinhar nucleotídeos, um esquema
simples de matches, mismatches e gaps pode
ser adequado
• Mas e para o alinhamento de proteínas?

Um sistema de escores para proteínas
• 20 x 20 aminoácidos = 400
combinações
– Qual o valor para as trocas?
• Proximidade físico-química
das cadeias laterais dos
aminoácidos
• Matrizes de substituição
– Método dedutivo
• Teórico
• Baseado em mutações no DNA
e no código genético
– Método indutivo
• Tabulação dos dados
observados em proteínas reais

Zuckerkandl e Pauling
• Definiram primeiro sistema de
métricas usando método
dedutivo
– Valores de 0, 1, 2 ou 3 eram
dados para diferentes
alinhamentos aminoácidos de
acordo com diferenças
mutacionais entre seus códons

• Matrizes baseadas em código
genético são hoje pouco usadas
– Embora a evolução do código
genético seja uma área de
grande interesse na biologia
computacional

Outras matrizes dedutivas
• Baseadas em química de
aminoácidos

• Deve levar em consideração
apenas alguns aspectos,
deixando de lado outros
– Complexidade da estrutura
aminoacídica
– É impossível partir todos os
aa’s em grupos sem
sobreposição

Atlas da estrutura de proteínas
• 1965
• Apresentava todas as
sequências de proteínas
existentes
• Introduzia o conceito de
famílias de proteínas
• Método indutivo:
– As matrizes de aminoácidos
deveriam ser obtidas através da
observação de frequências de
substituição em proteínas reais

O atlas da estrutura de proteínas
• Continha sequências de proteínas de
várias espécies
– Insulinas, citocromos C
– Vários mamíferos, vertebrados,
bactérias
• Definia a origem comum das
sequências de proteínas
• Construção de alinhamentos Margaret Belle (Oakley)
múltiplos Dayhoff (1925 – 1983) foi
– Estudos das substituições e de sua uma físico-química
significância evolutiva americana

Accepted Point Mutations (PAM)
• Observação de alinhamentos de famílias
protéicas
– Mutações aceitáveis seriam aquelas
observadas, não “retiradas” pela seleção
natural

• 1982, o atlas prescrevia dois eventos
distintos:
– Ocorrência da mutação
– Aceitação da mutação pela seleção natural
quer dizer melhora
Motoo Kimura (1924-1994)
foi um biólogo japonês
• 1968, teoria neutralista de Kimura
– A aceitação da mutação não
necessariamente quer dizer melhora

A busca por escores de substituição
• A matriz PAM
– Dayhoff, 1978
• 1,572 mutações em 71 famílias de proteínas
– 1 PAM = chance média de mutação em 1% dos
aminoácidos
– 100 PAMs = chance de uma mutação por
aminoácido
• Mesmo aminoácido pode mudar mais de uma vez
• Pode haver retorno ao estado inicial

A matrix PAM1
• Para gerar as matrizes posteriores, basta
multiplicar a matriz por ela mesma N vezes

Adapted from Figure 82. Atlas of Protein Sequence and Structure, Suppl 3, 1978, M.O. Dayhoff, ed. National
Biomedical Research Foundation, 1979. (http://www.icp.ucl.ac.be/~opperd/private/pam1.html)

Problemas da PAM
• Assume proteína inteira quando se sabe que a
proteína evolui em módulos
• Assume que a mutação em sequências próximas
pode ser extrapolada para sequências distantes
(através da multiplicação da matriz)
• Entrou em desuso em prol das matrizes BLOSUM
– Embora se diga que seja melhor para procurar
similaridades em sequências proximamente
relacionadas

Matrizes BLOSUM
• BLOcks Substitution Matrix
• Henikoff e Henikoff, 1992
• Seleção de fragmentos de
alinhamentos (BLOCKS)
– Representam regiões + conservadas

• Baseado num dataset muito maior Stephen Henikoff
do que o da matriz PAM
– Captura informações mais distantes
evolutivamente

BLOSUM 62
• Tabulada pela
similaridade das
sequências a
partir da qual foi
construída

• Mais utilizada
hoje: BLOSUM62

• Utilizada pelo
BLAST

Alinhamento de sequências
• Várias variáveis influenciam o alinhamento e podem dar
resultados diferentes
• É preciso compreender os programas para saber o que se está
analisando

– Algoritmo de comparação (Local, global)
– Heurística
– Diferentes matrizes de substituição/pontuação
– Valores de pontuação para gaps

Calibragem dos gaps
• “Valores para gaps teem sido selecionados ao
longo dos anos por tentativa e erro... A
maioria dos programas de alinhamento
apresenta um valor default para os gaps que
tem uma relação com os valores dados para as
substituições” (Altschul, 2006)

O problema do
alinhamento de sequências

• Nenhum algoritmo pode,
entretanto, resolver a questão
biológica: a similaridade que Estrutura Função
observamos contém sinais Sequência
biológicos importantes? Evolução
– Elas representam ancestralidade
comum
– É possível fazer inferência de estrutura
e função a partir do alinhamento?

Conclusões
• Os dois fatos
– “Em sequências biomoleculares, alta similaridade de
sequência frequentemente implica em similaridade
funcional ou estrutural”
– “Em sequências biomoleculares, alta similaridade de
sequência frequentemente implica em relação
evolutiva” (Mushegian, 2004)

• O alinhamento fornece subsídios para a
inferência e ela é feita de forma razoavelmente
subjetiva pelo pesquisador
– A responsabilidade do pesquisador

Encontrando similaridades de sequências

Recomendados

Recomendados

Mais conteúdo relacionado

Mais procurados

Mais procurados (20)

Semelhante a Encontrando similaridades de sequências

Semelhante a Encontrando similaridades de sequências (20)

Mais de Francisco Prosdocimi

Mais de Francisco Prosdocimi (8)

Último

Último (20)

Encontrando similaridades de sequências