2. Propagação de informação
• Como dados sobre a estrutura,
função e evolução de biomoléculas
estão mesclados na informação
presente nas sequências de Estrutura Função
biomoléculas?
Evolução
• Dada uma sequência A’ altamente
similar a uma sequência A’’ e um
pouco menos similar a uma
sequência A’’’, o que se poderá dizer A’’’ A’’ A’
sobre o compartilhamento de
função e estrutura entre estas
moléculas? Limite da
inferência?
3. Primeiros estudos
filogenético-moleculares
• 1970 Estudos bioquímicos
clássicos: proteína a proteína
• Similaridade de sequências
em globinas foi visto como
prova de ancestralidade
comum
– Propriedades fisico-químicas e
biológicas
• As hipóteses filogenéticas
podem ser baseadas apenas
nas sequências das
biomoléculas?
4. Moléculas como documentos
da história evolutiva
• Zuckerkandl e Pauling, 1965
• A análise da sequência de DNA e genomas carrega
informação, os semantídeos
• Jamais discutiram como a busca por similaridades em
semantídeos deveria ser realizada
Ecologia, linguagem, semântica
molecular
Genes codificadores de proteínas,
promotores, sítios de ligação a
fatores de transcrição, centrômeros,
telômeros, micro-RNAs, etc.
5. Uma questão metodológica
• Embora esteja claro que as
sequências das biomoléculas
dão informações sobre
estrutura, função e
evolução, como proceder
essa comparação?
• Zuckerkandl e Pauling (1965)
não entram nesta questão
• O alinhamento de
sequências
6. O alinhamento de sequências
Consiste no processo de
comparar duas ou mais
sequências (de
nucleotídeos ou
aminoácidos) de forma a
se observar seu nível de
similaridade
Comparação de strings
Identificação de substrings
compartilhadas
Uma das mais poderosas
técnicas da bioinformática
7. Tipos de alinhamento
• Simples X Múltiplo
• Local X Global
• Heurístico X Ótimo
Score = 276 bits (139), Expect = 3e-78
Identities = 139/139 (100%)
Strand = Plus / Plus
Query: 326 aggtgtaaaaccgtttgaatgcacttattgttataaaggattcactcgaaattctgatct 385
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct: 560 aggtgtaaaaccgtttgaatgcacttattgttataaaggattcactcgaaattctgatct 619
Query: 386 tcataagcacatcgacgctgttcacaaaggtctcaagcctttcggatgtgaagtatgcca 445
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct: 620 tcataagcacatcgacgctgttcacaaaggtctcaagcctttcggatgtgaagtatgcca 679
Query: 446 gcgaaacttctctcagaaa 464
|||||||||||||||||||
Sbjct: 680 gcgaaacttctctcagaaa 698
8. Alinhamento Simples
• Aquele realizado entre seqüências de DNA ou
proteínas, desde que duas a duas
Score = 652 bits (329), Expect = 0.0
Identities = 240/240 (100%) Interpretando os valores
Strand = Plus / Plus
Query: 1 ctttcaagatgaacgaaccaactggtgtcgggccaacatttgctgatgcatgcgatgatg 60
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct: 136 ctttcaagatgaacgaaccaactggtgtcgggccaacatttgctgatgcatgcgatgatg 195
Query: 61 gcgaacttatcagcatttgttgtctttgtggtaaaacgttttcaagtcagagtcttctac 120
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct: 196 gcgaacttatcagcatttgttgtctttgtggtaaaacgttttcaagtcagagtcttctac 255
Query: 121 acaaacattttgaattgatgcatgaaggtacggaaatagatactgaacagtatgatctaa 180
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct: 256 acaaacattttgaattgatgcatgaaggtacggaaatagatactgaacagtatgatctaa 315
Query: 181 gtggatttgccgctatggggaatgaacaaggtcgtaaaagtaatggtgaagaagatgcaa 240
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct: 316 gtggatttgccgctatggggaatgaacaaggtcgtaaaagtaatggtgaagaagatgcaa 375
9. Alinhamento múltiplo
• Aquele realizado entre MAIS DE DUAS seqüências de
DNA ou proteínas
Seq1 ------------------------------------------------------------
Seq4 -GCACGAGGACTGTGA-----ACCGAATCGGTTCAGTAAAATGTTCAATTGTGCGCTGGA
Seq2 ------------------------------GTTCAGTAAAATGTTCAATTGTGCGCTGGA
Seq3 GGCACGAGGGCTACGACTGTGAACGAATCGGTTCAGTAAAATGTTCAATTGTGCGCTGGA
Seq1 ------------------------------------------------------------
Seq4 ATCTATTGTGTAGACTATTAACTATGGAATTTTACTTCACATTGACTAAAAAGCTGAGCA
Seq2 ATCTATTGTGTAGACT-TTAACTATGGAATTTTACTTCACATTGACTAAAAAGCTGAGCA
Seq3 ATCTATTGTGTAGACTATTAACTATGGAATTTTACTTCACATT-ACTAAAAAGCTGAGCA
Seq1 ---------------------CTTTCAAGATGAACGAACCAACTGGTGTCGGGCCAACAT
Seq4 AATATACCTGGAGCGTTCAGACTTTCAAGATGAACGAACCAACTGGTGTCGGGCCAACAT
Seq2 AATATACCTGGAGCGTTCAGACTTTCAAGATGAACGAACCAACTGGTGTCGGGCCAACAT
Seq3 AATATACCTGGAGCGTTCAGACTTTCAAGATGAACGAACCAACTGGTGTCGGGCCAACAT
***************************************
10. Alinhamentos Global e Local
• Global: as seqs são alinhadas de ponta a ponta
• Local: pedaços das seqs é que são comparados
Qual deles
é melhor?
11. Alinhamentos ótimo e heurístico
• heurística -- do dicionário Houaiss
Acepções
¦ substantivo feminino
1 arte de inventar, de fazer descobertas; ciência que tem por objeto a
descoberta dos fatos
1.1 Rubrica: história.
ramo da História voltado à pesquisa de fontes e documentos
1.2 Rubrica: informática.
método de investigação baseado na aproximação progressiva de um dado
problema
1.3 Rubrica: pedagogia.
método educacional que consiste em fazer descobrir pelo aluno o que se
lhe quer ensinar
LOGO:
• Alinhamento ótimo: produz o melhor resultado computacionalmente
possível
• Alinhamento heurístico: produz um resultado o mais próximo possível do
resultado ótimo, mas, principalmente, produz um resultado de maneira
muito veloz
12. Ferramentas de alinhamento
Tipo de Precisão do Número de seqüências
Programa Alinhamento Alinhamento a serem alinhadas
BLAST2Sequences Local Heurístico 2
SWAT
Local Ótimo 2
(Smith-Waterman)
ClustalW Global Heurístico N
Multalin Global Heurístico N
Needleman-Wunsch Global Ótimo 2
13. Desafios pragmáticos
• A escolha do tipo de alinhamento a ser usado
depende se a similaridade
observada entre as sequências
que se deseja comparar é
local ou global
• Que tipo de similaridade se busca?
– Diferença semântica entre unidades carregadoras de
informação
– Algoritmos diferentes são
necessários para alinhar
tipos de diferentes de
informação molecular
14. Desafios pragmáticos
• O alinhamento de maior escore é
mesmo aquele que apresenta
maior informação biológica? Maior escore no alinhamento global
• Se sabemos a função de A; se A
parece com B; se B parece com C,
podemos inferir que a função de A B OK!
C é igual à de A?
– A questão do sinal e do ruído
– A sujeira das bases de dados de B C OK!
sequências
– Similar, putative, close to
A C
?
Se (1) e (2), LOGO (3)?
15. Confiança em alinhamentos
• Alinhamentos do tipo I
– Rápidos, heurísticos, sujos
Query Seq Sequence
– Par a par DB
– Contra bases de dados grandes
• Alinhamentos do tipo II
– Lentos, ótimos
– Otimizados manualmente
– Múltiplos
– Lida com uma quantidade
limitada de sequências
16. Métricas para o alinhamento
• Gibbs and McIntyre, 1970
• Diagrama 2D
• Similaridades observadas
nas diagonais
• Permite identificar mutações,
inserções, deleções, inversões,
etc
17. Needleman-Wunsch
• Alinhamento global, 1970
• Baseado em técnicas computacionais de
programação dinâmica
– Quebra o problema em sub-problemas (recursividade)
– Máximo número de caracteres alinhados
• Passos
– Montagem da tabela
• Produção de condições iniciais
• Definição de regras recursivas
– Definição de regra de conclusão
18. Preenchimento da
Matriz de Similaridades
• Métricas de
pontuação
– Match
– Mismatch
– Gap
• Métricas de
preenchimento
da matriz
19. Regra de conclusão
• Comece do fim
• Volte sempre pelo
menor número
vizinho
– Se houver mais de
uma possibilidade,
há mais de um
alinhamento ótimo
• Imprima o
alinhamento
20. Needleman-Wunsch
• 1970: alinhamento simples, ótimo
e global
• Complexidade algorítmica
– Implementação original:
T(n) = O (n3)
– Implementação moderna:
T(n) = O (n2)
• Questão biológica:
– O programa vai sempre alinhar,
mas... qual a interpretação
biológica do alinhamento?
21. E o alinhamento local?
• Adiciona-se duas regras simples
– Na montagem da matriz
– Na resolução do problema
1. O número zero como valor alternativo ao
preenchimento da matriz
– Isso impede a matriz de ter números negativos
2. Na resolução obtém-se os resultados locais
– Começa-se com a célula de maior pontuação e
retorna-se até o zero
22. Smith-Waterman
• 1981
– Alinhamento local
• Definição de zonas de
alta similaridade
• Definição de
estatísticas de escore
– Melhorado com
Altschul e o e-value
do BLAST
http://download.boulder.ibm.com/ibmdl/pub
/software/dw/java/j-seqalign-pdf.pdf
23. Temple Smith and Michael Waterman
• Algoritmo garante o
alinhamento de
maior escore
• HSP
– High-scoring
segment pair
Waterman and Smith
24. BLAST
• Basic Local Alignment Search Tool
• Heurística eficiente, permite busca
rápida em bancos de dados
enormes
• O segredo:
– Cria uma semente de tamanho fixo Stephen Frank Altschul (1957-)
– O banco de dados do BLAST já possui é um matemático americano,
dados pré-computados de todas as co-criador do BLAST
sementes (w=11 dna; w=4 prot)
• Faz busca das sementes
• Estende as sementes diagonalmente
25. BLAST hit
• O e-value
– Representa a chance estatística de um certo alinhamento ser
encontrado ao acaso
– Normalizado pelo tamanho do banco de dados
E = Kmn-ʎS
• Número de HSP com escore pelo menos S que podem ocorrer ao acaso
• m e n são os tamanhos das sequências alinhadas
• K ajusta para o tamanho da base de dados
• ʎ parâmetro de escala para o sistema de escores
• Trabalho mais citado
da década de 1990
(http://www.sciencewatch.com/
july-aug2000/sw_july-aug2000_p
age3.htm)
26. História do alinhamento de sequências
• 1970: Needleman-Wunsch
– Usavam só valores positivos
– Matches positivos; mismatches = 0
– Problemas com os gaps
• Fim dos anos 70
– Os gaps não devem ser considerados como
mismatches, eles devem ser penalizados
– Números negativos entram em cena
• 1981: Smith and Waterman
• 1985: Lipman & Pearson, FASTA algorigthm
– Primeira tentativa de heurística
• 1990: Altschul et al., BLAST
– Heurística mais eficiente, 3-4x + rápido que o FASTA
– Estatística mais adequada
27. E o sistema de escores?
• Para alinhar nucleotídeos, um esquema
simples de matches, mismatches e gaps pode
ser adequado
• Mas e para o alinhamento de proteínas?
28. Um sistema de escores para proteínas
• 20 x 20 aminoácidos = 400
combinações
– Qual o valor para as trocas?
• Proximidade físico-química
das cadeias laterais dos
aminoácidos
• Matrizes de substituição
– Método dedutivo
• Teórico
• Baseado em mutações no DNA
e no código genético
– Método indutivo
• Tabulação dos dados
observados em proteínas reais
29. Zuckerkandl e Pauling
• Definiram primeiro sistema de
métricas usando método
dedutivo
– Valores de 0, 1, 2 ou 3 eram
dados para diferentes
alinhamentos aminoácidos de
acordo com diferenças
mutacionais entre seus códons
• Matrizes baseadas em código
genético são hoje pouco usadas
– Embora a evolução do código
genético seja uma área de
grande interesse na biologia
computacional
30. Outras matrizes dedutivas
• Baseadas em química de
aminoácidos
• Deve levar em consideração
apenas alguns aspectos,
deixando de lado outros
– Complexidade da estrutura
aminoacídica
– É impossível partir todos os
aa’s em grupos sem
sobreposição
31. Atlas da estrutura de proteínas
• 1965
• Apresentava todas as
sequências de proteínas
existentes
• Introduzia o conceito de
famílias de proteínas
• Método indutivo:
– As matrizes de aminoácidos
deveriam ser obtidas através da
observação de frequências de
substituição em proteínas reais
32. O atlas da estrutura de proteínas
• Continha sequências de proteínas de
várias espécies
– Insulinas, citocromos C
– Vários mamíferos, vertebrados,
bactérias
• Definia a origem comum das
sequências de proteínas
• Construção de alinhamentos Margaret Belle (Oakley)
múltiplos Dayhoff (1925 – 1983) foi
– Estudos das substituições e de sua uma físico-química
significância evolutiva americana
33. Accepted Point Mutations (PAM)
• Observação de alinhamentos de famílias
protéicas
– Mutações aceitáveis seriam aquelas
observadas, não “retiradas” pela seleção
natural
• 1982, o atlas prescrevia dois eventos
distintos:
– Ocorrência da mutação
– Aceitação da mutação pela seleção natural
quer dizer melhora
Motoo Kimura (1924-1994)
foi um biólogo japonês
• 1968, teoria neutralista de Kimura
– A aceitação da mutação não
necessariamente quer dizer melhora
34. A busca por escores de substituição
• A matriz PAM
– Dayhoff, 1978
• 1,572 mutações em 71 famílias de proteínas
– 1 PAM = chance média de mutação em 1% dos
aminoácidos
– 100 PAMs = chance de uma mutação por
aminoácido
• Mesmo aminoácido pode mudar mais de uma vez
• Pode haver retorno ao estado inicial
35. A matrix PAM1
• Para gerar as matrizes posteriores, basta
multiplicar a matriz por ela mesma N vezes
Adapted from Figure 82. Atlas of Protein Sequence and Structure, Suppl 3, 1978, M.O. Dayhoff, ed. National
Biomedical Research Foundation, 1979. (http://www.icp.ucl.ac.be/~opperd/private/pam1.html)
36. Problemas da PAM
• Assume proteína inteira quando se sabe que a
proteína evolui em módulos
• Assume que a mutação em sequências próximas
pode ser extrapolada para sequências distantes
(através da multiplicação da matriz)
• Entrou em desuso em prol das matrizes BLOSUM
– Embora se diga que seja melhor para procurar
similaridades em sequências proximamente
relacionadas
37. Matrizes BLOSUM
• BLOcks Substitution Matrix
• Henikoff e Henikoff, 1992
• Seleção de fragmentos de
alinhamentos (BLOCKS)
– Representam regiões + conservadas
• Baseado num dataset muito maior Stephen Henikoff
do que o da matriz PAM
– Captura informações mais distantes
evolutivamente
38. BLOSUM 62
• Tabulada pela
similaridade das
sequências a
partir da qual foi
construída
• Mais utilizada
hoje: BLOSUM62
• Utilizada pelo
BLAST
39. Alinhamento de sequências
• Várias variáveis influenciam o alinhamento e podem dar
resultados diferentes
• É preciso compreender os programas para saber o que se está
analisando
– Algoritmo de comparação (Local, global)
– Heurística
– Diferentes matrizes de substituição/pontuação
– Valores de pontuação para gaps
40. Calibragem dos gaps
• “Valores para gaps teem sido selecionados ao
longo dos anos por tentativa e erro... A
maioria dos programas de alinhamento
apresenta um valor default para os gaps que
tem uma relação com os valores dados para as
substituições” (Altschul, 2006)
41. O problema do
alinhamento de sequências
• Nenhum algoritmo pode,
entretanto, resolver a questão
biológica: a similaridade que Estrutura Função
observamos contém sinais Sequência
biológicos importantes? Evolução
– Elas representam ancestralidade
comum
– É possível fazer inferência de estrutura
e função a partir do alinhamento?
42. Conclusões
• Os dois fatos
– “Em sequências biomoleculares, alta similaridade de
sequência frequentemente implica em similaridade
funcional ou estrutural”
– “Em sequências biomoleculares, alta similaridade de
sequência frequentemente implica em relação
evolutiva” (Mushegian, 2004)
• O alinhamento fornece subsídios para a
inferência e ela é feita de forma razoavelmente
subjetiva pelo pesquisador
– A responsabilidade do pesquisador