SlideShare uma empresa Scribd logo
1 de 42
Encontrando
similaridades de sequências
   Prof. Dr. Francisco Prosdocimi
Propagação de informação
• Como dados sobre a estrutura,
  função e evolução de biomoléculas
  estão mesclados na informação
  presente nas sequências de              Estrutura         Função
  biomoléculas?
                                                  Evolução
• Dada uma sequência A’ altamente
  similar a uma sequência A’’ e um
  pouco menos similar a uma
  sequência A’’’, o que se poderá dizer    A’’’       A’’         A’
  sobre o compartilhamento de
  função e estrutura entre estas
  moléculas?                                                    Limite da
                                                                inferência?
Primeiros estudos
             filogenético-moleculares
• 1970 Estudos bioquímicos
  clássicos: proteína a proteína

• Similaridade de sequências
  em globinas foi visto como
  prova de ancestralidade
  comum
   – Propriedades fisico-químicas e
     biológicas

• As hipóteses filogenéticas
  podem ser baseadas apenas
  nas sequências das
  biomoléculas?
Moléculas como documentos
          da história evolutiva
• Zuckerkandl e Pauling, 1965
• A análise da sequência de DNA e genomas carrega
  informação, os semantídeos
• Jamais discutiram como a busca por similaridades em
  semantídeos deveria ser realizada

              Ecologia, linguagem, semântica
                          molecular
             Genes codificadores de proteínas,
               promotores, sítios de ligação a
            fatores de transcrição, centrômeros,
                telômeros, micro-RNAs, etc.
Uma questão metodológica
• Embora esteja claro que as
  sequências das biomoléculas
  dão informações sobre
  estrutura, função e
  evolução, como proceder
  essa comparação?

• Zuckerkandl e Pauling (1965)
  não entram nesta questão

• O alinhamento de
  sequências
O alinhamento de sequências
 Consiste no processo de
  comparar duas ou mais
  sequências (de
  nucleotídeos ou
  aminoácidos) de forma a
  se observar seu nível de
  similaridade

 Comparação de strings
    Identificação de substrings
     compartilhadas

 Uma das mais poderosas
  técnicas da bioinformática
Tipos de alinhamento
• Simples X Múltiplo
• Local X Global
• Heurístico X Ótimo
  Score = 276 bits (139), Expect = 3e-78
  Identities = 139/139 (100%)
  Strand = Plus / Plus

  Query: 326 aggtgtaaaaccgtttgaatgcacttattgttataaaggattcactcgaaattctgatct 385
             ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
  Sbjct: 560 aggtgtaaaaccgtttgaatgcacttattgttataaaggattcactcgaaattctgatct 619

  Query: 386 tcataagcacatcgacgctgttcacaaaggtctcaagcctttcggatgtgaagtatgcca 445
             ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
  Sbjct: 620 tcataagcacatcgacgctgttcacaaaggtctcaagcctttcggatgtgaagtatgcca 679

  Query: 446 gcgaaacttctctcagaaa 464
             |||||||||||||||||||
  Sbjct: 680 gcgaaacttctctcagaaa 698
Alinhamento Simples
• Aquele realizado entre seqüências de DNA ou
  proteínas, desde que duas a duas
  Score = 652 bits (329), Expect = 0.0
  Identities = 240/240 (100%)                     Interpretando os valores
  Strand = Plus / Plus

  Query: 1   ctttcaagatgaacgaaccaactggtgtcgggccaacatttgctgatgcatgcgatgatg 60
             ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
  Sbjct: 136 ctttcaagatgaacgaaccaactggtgtcgggccaacatttgctgatgcatgcgatgatg 195

  Query: 61  gcgaacttatcagcatttgttgtctttgtggtaaaacgttttcaagtcagagtcttctac 120
             ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
  Sbjct: 196 gcgaacttatcagcatttgttgtctttgtggtaaaacgttttcaagtcagagtcttctac 255

  Query: 121 acaaacattttgaattgatgcatgaaggtacggaaatagatactgaacagtatgatctaa 180
             ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
  Sbjct: 256 acaaacattttgaattgatgcatgaaggtacggaaatagatactgaacagtatgatctaa 315

  Query: 181 gtggatttgccgctatggggaatgaacaaggtcgtaaaagtaatggtgaagaagatgcaa 240
             ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
  Sbjct: 316 gtggatttgccgctatggggaatgaacaaggtcgtaaaagtaatggtgaagaagatgcaa 375
Alinhamento múltiplo
• Aquele realizado entre MAIS DE DUAS seqüências de
  DNA ou proteínas
 Seq1      ------------------------------------------------------------
 Seq4      -GCACGAGGACTGTGA-----ACCGAATCGGTTCAGTAAAATGTTCAATTGTGCGCTGGA
 Seq2      ------------------------------GTTCAGTAAAATGTTCAATTGTGCGCTGGA
 Seq3      GGCACGAGGGCTACGACTGTGAACGAATCGGTTCAGTAAAATGTTCAATTGTGCGCTGGA

 Seq1      ------------------------------------------------------------
 Seq4      ATCTATTGTGTAGACTATTAACTATGGAATTTTACTTCACATTGACTAAAAAGCTGAGCA
 Seq2      ATCTATTGTGTAGACT-TTAACTATGGAATTTTACTTCACATTGACTAAAAAGCTGAGCA
 Seq3      ATCTATTGTGTAGACTATTAACTATGGAATTTTACTTCACATT-ACTAAAAAGCTGAGCA

 Seq1      ---------------------CTTTCAAGATGAACGAACCAACTGGTGTCGGGCCAACAT
 Seq4      AATATACCTGGAGCGTTCAGACTTTCAAGATGAACGAACCAACTGGTGTCGGGCCAACAT
 Seq2      AATATACCTGGAGCGTTCAGACTTTCAAGATGAACGAACCAACTGGTGTCGGGCCAACAT
 Seq3      AATATACCTGGAGCGTTCAGACTTTCAAGATGAACGAACCAACTGGTGTCGGGCCAACAT
                             ***************************************
Alinhamentos Global e Local
• Global: as seqs são alinhadas de ponta a ponta
• Local: pedaços das seqs é que são comparados



                                                   Qual deles
                                                   é melhor?
Alinhamentos ótimo e heurístico
• heurística -- do dicionário Houaiss
Acepções
¦ substantivo feminino
1     arte de inventar, de fazer descobertas; ciência que tem por objeto a
    descoberta dos fatos
1.1     Rubrica: história.
      ramo da História voltado à pesquisa de fontes e documentos
1.2     Rubrica: informática.
      método de investigação baseado na aproximação progressiva de um dado
    problema
1.3     Rubrica: pedagogia.
      método educacional que consiste em fazer descobrir pelo aluno o que se
    lhe quer ensinar
LOGO:

• Alinhamento ótimo: produz o melhor resultado computacionalmente
  possível
• Alinhamento heurístico: produz um resultado o mais próximo possível do
  resultado ótimo, mas, principalmente, produz um resultado de maneira
  muito veloz
Ferramentas de alinhamento

                      Tipo de    Precisão do   Número de seqüências
  Programa         Alinhamento   Alinhamento     a serem alinhadas


BLAST2Sequences      Local       Heurístico             2

      SWAT
                     Local         Ótimo                2
(Smith-Waterman)

    ClustalW         Global      Heurístico             N

    Multalin         Global      Heurístico             N

Needleman-Wunsch     Global        Ótimo                2
Desafios pragmáticos
• A escolha do tipo de alinhamento a ser usado
  depende se a similaridade
  observada entre as sequências
  que se deseja comparar é
  local ou global
• Que tipo de similaridade se busca?
   – Diferença semântica entre unidades carregadoras de
     informação
   – Algoritmos diferentes são
     necessários para alinhar
     tipos de diferentes de
     informação molecular
Desafios pragmáticos
• O alinhamento de maior escore é
  mesmo aquele que apresenta
  maior informação biológica?          Maior escore no alinhamento global



• Se sabemos a função de A; se A
  parece com B; se B parece com C,
  podemos inferir que a função de             A                         B   OK!
  C é igual à de A?
   – A questão do sinal e do ruído
   – A sujeira das bases de dados de           B                        C   OK!
     sequências
   – Similar, putative, close to
                                               A                        C
                                                                            ?
                                               Se (1) e (2), LOGO (3)?
Confiança em alinhamentos
• Alinhamentos do tipo I
   – Rápidos, heurísticos, sujos
                                     Query Seq   Sequence
   – Par a par                                      DB
   – Contra bases de dados grandes

• Alinhamentos do tipo II
   –   Lentos, ótimos
   –   Otimizados manualmente
   –   Múltiplos
   –   Lida com uma quantidade
       limitada de sequências
Métricas para o alinhamento
• Gibbs and McIntyre, 1970
• Diagrama 2D
• Similaridades observadas
  nas diagonais
• Permite identificar mutações,
  inserções, deleções, inversões,
  etc
Needleman-Wunsch
• Alinhamento global, 1970
• Baseado em técnicas computacionais de
  programação dinâmica
  – Quebra o problema em sub-problemas (recursividade)
  – Máximo número de caracteres alinhados
• Passos
  – Montagem da tabela
     • Produção de condições iniciais
     • Definição de regras recursivas
  – Definição de regra de conclusão
Preenchimento da
         Matriz de Similaridades
• Métricas de
  pontuação
  – Match
  – Mismatch
  – Gap

• Métricas de
  preenchimento
  da matriz
Regra de conclusão
• Comece do fim
• Volte sempre pelo
  menor número
  vizinho
  – Se houver mais de
    uma possibilidade,
    há mais de um
    alinhamento ótimo
• Imprima o
  alinhamento
Needleman-Wunsch
• 1970: alinhamento simples, ótimo
  e global
• Complexidade algorítmica
   – Implementação original:
                     T(n) = O (n3)
   – Implementação moderna:
                     T(n) = O (n2)

• Questão biológica:
   – O programa vai sempre alinhar,
     mas... qual a interpretação
     biológica do alinhamento?
E o alinhamento local?
• Adiciona-se duas regras simples
  – Na montagem da matriz
  – Na resolução do problema
1. O número zero como valor alternativo ao
  preenchimento da matriz
  – Isso impede a matriz de ter números negativos
2. Na resolução obtém-se os resultados locais
  – Começa-se com a célula de maior pontuação e
    retorna-se até o zero
Smith-Waterman
• 1981
   – Alinhamento local

• Definição de zonas de
  alta similaridade

• Definição de
  estatísticas de escore
   – Melhorado com
     Altschul e o e-value
     do BLAST
                            http://download.boulder.ibm.com/ibmdl/pub
                            /software/dw/java/j-seqalign-pdf.pdf
Temple Smith and Michael Waterman
                    • Algoritmo garante o
                      alinhamento de
                      maior escore
                    • HSP
                      – High-scoring
                        segment pair




                         Waterman and Smith
BLAST
• Basic Local Alignment Search Tool
• Heurística eficiente, permite busca
  rápida em bancos de dados
  enormes
• O segredo:
   – Cria uma semente de tamanho fixo      Stephen Frank Altschul (1957-)
   – O banco de dados do BLAST já possui    é um matemático americano,
     dados pré-computados de todas as           co-criador do BLAST
     sementes (w=11 dna; w=4 prot)
• Faz busca das sementes
• Estende as sementes diagonalmente
BLAST hit
• O e-value
   – Representa a chance estatística de um certo alinhamento ser
     encontrado ao acaso
   – Normalizado pelo tamanho do banco de dados

   E = Kmn-ʎS
         •   Número de HSP com escore pelo menos S que podem ocorrer ao acaso
         •   m e n são os tamanhos das sequências alinhadas
         •   K ajusta para o tamanho da base de dados
         •   ʎ parâmetro de escala para o sistema de escores

• Trabalho mais citado
  da década de 1990
  (http://www.sciencewatch.com/
  july-aug2000/sw_july-aug2000_p
  age3.htm)
História do alinhamento de sequências
• 1970: Needleman-Wunsch
    – Usavam só valores positivos
    – Matches positivos; mismatches = 0
    – Problemas com os gaps
• Fim dos anos 70
    – Os gaps não devem ser considerados como
      mismatches, eles devem ser penalizados
    – Números negativos entram em cena
• 1981: Smith and Waterman
• 1985: Lipman & Pearson, FASTA algorigthm
    – Primeira tentativa de heurística
• 1990: Altschul et al., BLAST
    – Heurística mais eficiente, 3-4x + rápido que o FASTA
    – Estatística mais adequada
E o sistema de escores?
• Para alinhar nucleotídeos, um esquema
  simples de matches, mismatches e gaps pode
  ser adequado
• Mas e para o alinhamento de proteínas?
Um sistema de escores para proteínas
• 20 x 20 aminoácidos = 400
  combinações
   – Qual o valor para as trocas?
• Proximidade físico-química
  das cadeias laterais dos
  aminoácidos
• Matrizes de substituição
   – Método dedutivo
       • Teórico
       • Baseado em mutações no DNA
         e no código genético
   – Método indutivo
       • Tabulação dos dados
         observados em proteínas reais
Zuckerkandl e Pauling
• Definiram primeiro sistema de
  métricas usando método
  dedutivo
   – Valores de 0, 1, 2 ou 3 eram
     dados para diferentes
     alinhamentos aminoácidos de
     acordo com diferenças
     mutacionais entre seus códons

• Matrizes baseadas em código
  genético são hoje pouco usadas
   – Embora a evolução do código
     genético seja uma área de
     grande interesse na biologia
     computacional
Outras matrizes dedutivas
• Baseadas em química de
  aminoácidos

• Deve levar em consideração
  apenas alguns aspectos,
  deixando de lado outros
   – Complexidade da estrutura
     aminoacídica
   – É impossível partir todos os
     aa’s em grupos sem
     sobreposição
Atlas da estrutura de proteínas
• 1965
• Apresentava todas as
  sequências de proteínas
  existentes
• Introduzia o conceito de
  famílias de proteínas
• Método indutivo:
  – As matrizes de aminoácidos
    deveriam ser obtidas através da
    observação de frequências de
    substituição em proteínas reais
O atlas da estrutura de proteínas
• Continha sequências de proteínas de
  várias espécies
   – Insulinas, citocromos C
   – Vários mamíferos, vertebrados,
     bactérias
• Definia a origem comum das
  sequências de proteínas
• Construção de alinhamentos               Margaret Belle (Oakley)
  múltiplos                               Dayhoff (1925 – 1983) foi
   – Estudos das substituições e de sua      uma físico-química
     significância evolutiva                     americana
Accepted Point Mutations (PAM)
• Observação de alinhamentos de famílias
  protéicas
   – Mutações aceitáveis seriam aquelas
     observadas, não “retiradas” pela seleção
     natural

• 1982, o atlas prescrevia dois eventos
  distintos:
   – Ocorrência da mutação
   – Aceitação da mutação pela seleção natural
     quer dizer melhora
                                                 Motoo Kimura (1924-1994)
                                                  foi um biólogo japonês
• 1968, teoria neutralista de Kimura
   – A aceitação da mutação não
     necessariamente quer dizer melhora
A busca por escores de substituição
• A matriz PAM
  – Dayhoff, 1978
     • 1,572 mutações em 71 famílias de proteínas
  – 1 PAM = chance média de mutação em 1% dos
    aminoácidos
  – 100 PAMs = chance de uma mutação por
    aminoácido
     • Mesmo aminoácido pode mudar mais de uma vez
     • Pode haver retorno ao estado inicial
A matrix PAM1
 • Para gerar as matrizes posteriores, basta
   multiplicar a matriz por ela mesma N vezes




Adapted from Figure 82. Atlas of Protein Sequence and Structure, Suppl 3, 1978, M.O. Dayhoff, ed. National
Biomedical Research Foundation, 1979. (http://www.icp.ucl.ac.be/~opperd/private/pam1.html)
Problemas da PAM
• Assume proteína inteira quando se sabe que a
  proteína evolui em módulos
• Assume que a mutação em sequências próximas
  pode ser extrapolada para sequências distantes
  (através da multiplicação da matriz)
• Entrou em desuso em prol das matrizes BLOSUM
  – Embora se diga que seja melhor para procurar
    similaridades em sequências proximamente
    relacionadas
Matrizes BLOSUM
• BLOcks Substitution Matrix
• Henikoff e Henikoff, 1992
• Seleção de fragmentos de
  alinhamentos (BLOCKS)
  – Representam regiões + conservadas

• Baseado num dataset muito maior        Stephen Henikoff
  do que o da matriz PAM
  – Captura informações mais distantes
    evolutivamente
BLOSUM 62
• Tabulada pela
  similaridade das
  sequências a
  partir da qual foi
  construída

• Mais utilizada
  hoje: BLOSUM62

• Utilizada pelo
  BLAST
Alinhamento de sequências
• Várias variáveis influenciam o alinhamento e podem dar
  resultados diferentes
• É preciso compreender os programas para saber o que se está
  analisando




   –   Algoritmo de comparação (Local, global)
   –   Heurística
   –   Diferentes matrizes de substituição/pontuação
   –   Valores de pontuação para gaps
Calibragem dos gaps
• “Valores para gaps teem sido selecionados ao
  longo dos anos por tentativa e erro... A
  maioria dos programas de alinhamento
  apresenta um valor default para os gaps que
  tem uma relação com os valores dados para as
  substituições” (Altschul, 2006)
O problema do
      alinhamento de sequências

• Nenhum algoritmo pode,
  entretanto, resolver a questão
  biológica: a similaridade que         Estrutura     Função
  observamos contém sinais                     Sequência
  biológicos importantes?                      Evolução
  – Elas representam ancestralidade
    comum
  – É possível fazer inferência de estrutura
    e função a partir do alinhamento?
Conclusões
• Os dois fatos
  – “Em sequências biomoleculares, alta similaridade de
    sequência frequentemente implica em similaridade
    funcional ou estrutural”
  – “Em sequências biomoleculares, alta similaridade de
    sequência frequentemente implica em relação
    evolutiva” (Mushegian, 2004)

• O alinhamento fornece subsídios para a
  inferência e ela é feita de forma razoavelmente
  subjetiva pelo pesquisador
  – A responsabilidade do pesquisador

Mais conteúdo relacionado

Mais procurados

Síntese de proteínas: transcrição / tradução
Síntese de proteínas: transcrição / traduçãoSíntese de proteínas: transcrição / tradução
Síntese de proteínas: transcrição / traduçãoGian Zelada
 
Imunidade Inata Adaptativa
Imunidade Inata AdaptativaImunidade Inata Adaptativa
Imunidade Inata AdaptativaLABIMUNO UFBA
 
Regulação e expressão gênica bacteriana
Regulação e expressão gênica bacterianaRegulação e expressão gênica bacteriana
Regulação e expressão gênica bacterianaUERGS
 
Alinhamentos 2011 2
Alinhamentos 2011 2Alinhamentos 2011 2
Alinhamentos 2011 2UERGS
 
3 acondicionamento de amostras biológicas
3 acondicionamento de amostras biológicas3 acondicionamento de amostras biológicas
3 acondicionamento de amostras biológicasmonica_lima
 
Análise de Líquidos Corporais
Análise de Líquidos CorporaisAnálise de Líquidos Corporais
Análise de Líquidos CorporaisFábio Baía
 
JOGOS DIDÁTICOS NO ENSINO DE BIOLOGIA: CONTRIBUIÇÕES DO JOGO “MUNDO DOS PARAS...
JOGOS DIDÁTICOS NO ENSINO DE BIOLOGIA: CONTRIBUIÇÕES DO JOGO “MUNDO DOS PARAS...JOGOS DIDÁTICOS NO ENSINO DE BIOLOGIA: CONTRIBUIÇÕES DO JOGO “MUNDO DOS PARAS...
JOGOS DIDÁTICOS NO ENSINO DE BIOLOGIA: CONTRIBUIÇÕES DO JOGO “MUNDO DOS PARAS...Ronaldo Santana
 
Exames laboratoriais uma visão geral - maxwell castro.
Exames laboratoriais   uma visão geral - maxwell castro.Exames laboratoriais   uma visão geral - maxwell castro.
Exames laboratoriais uma visão geral - maxwell castro.Maxwell Castro
 

Mais procurados (20)

Pcr
PcrPcr
Pcr
 
3S_Ciência forense
3S_Ciência forense3S_Ciência forense
3S_Ciência forense
 
Síntese de proteínas: transcrição / tradução
Síntese de proteínas: transcrição / traduçãoSíntese de proteínas: transcrição / tradução
Síntese de proteínas: transcrição / tradução
 
Imunidade Inata Adaptativa
Imunidade Inata AdaptativaImunidade Inata Adaptativa
Imunidade Inata Adaptativa
 
Regulação e expressão gênica bacteriana
Regulação e expressão gênica bacterianaRegulação e expressão gênica bacteriana
Regulação e expressão gênica bacteriana
 
Alinhamentos 2011 2
Alinhamentos 2011 2Alinhamentos 2011 2
Alinhamentos 2011 2
 
Pcr
PcrPcr
Pcr
 
01ppt fluidos biologicos
01ppt fluidos biologicos01ppt fluidos biologicos
01ppt fluidos biologicos
 
Imunoensaios cap 5
Imunoensaios cap 5Imunoensaios cap 5
Imunoensaios cap 5
 
Transcrição e tradução
Transcrição e traduçãoTranscrição e tradução
Transcrição e tradução
 
3 acondicionamento de amostras biológicas
3 acondicionamento de amostras biológicas3 acondicionamento de amostras biológicas
3 acondicionamento de amostras biológicas
 
Análise de Líquidos Corporais
Análise de Líquidos CorporaisAnálise de Líquidos Corporais
Análise de Líquidos Corporais
 
Protozoarios
ProtozoariosProtozoarios
Protozoarios
 
Predição Gênica
Predição GênicaPredição Gênica
Predição Gênica
 
Bioinformática
BioinformáticaBioinformática
Bioinformática
 
JOGOS DIDÁTICOS NO ENSINO DE BIOLOGIA: CONTRIBUIÇÕES DO JOGO “MUNDO DOS PARAS...
JOGOS DIDÁTICOS NO ENSINO DE BIOLOGIA: CONTRIBUIÇÕES DO JOGO “MUNDO DOS PARAS...JOGOS DIDÁTICOS NO ENSINO DE BIOLOGIA: CONTRIBUIÇÕES DO JOGO “MUNDO DOS PARAS...
JOGOS DIDÁTICOS NO ENSINO DE BIOLOGIA: CONTRIBUIÇÕES DO JOGO “MUNDO DOS PARAS...
 
Aconselhamento Genético
Aconselhamento GenéticoAconselhamento Genético
Aconselhamento Genético
 
Transcrição gênica
Transcrição gênicaTranscrição gênica
Transcrição gênica
 
Precipitacao
PrecipitacaoPrecipitacao
Precipitacao
 
Exames laboratoriais uma visão geral - maxwell castro.
Exames laboratoriais   uma visão geral - maxwell castro.Exames laboratoriais   uma visão geral - maxwell castro.
Exames laboratoriais uma visão geral - maxwell castro.
 

Semelhante a Encontrando similaridades de sequências

Slide sobre Bioinformatica testeteste.pdf
Slide sobre Bioinformatica testeteste.pdfSlide sobre Bioinformatica testeteste.pdf
Slide sobre Bioinformatica testeteste.pdfCianeDias2
 
Aprendizado de Máquina Supervisionado na Predição de Links em Redes Complexas...
Aprendizado de Máquina Supervisionado na Predição de Links em Redes Complexas...Aprendizado de Máquina Supervisionado na Predição de Links em Redes Complexas...
Aprendizado de Máquina Supervisionado na Predição de Links em Redes Complexas...Orlando Junior
 
Bioinformática arquivo de dados
Bioinformática arquivo de dadosBioinformática arquivo de dados
Bioinformática arquivo de dadosUERGS
 
Unidade 0: Visão geral sobre o método científico
Unidade 0: Visão geral sobre o método científicoUnidade 0: Visão geral sobre o método científico
Unidade 0: Visão geral sobre o método científicoAlexandre Duarte
 
APRENDIZAGEM DE MÁQUINA PARA PREVISÃO DE DEMANDA EM UM SISTEMA DE COMPARTILHA...
APRENDIZAGEM DE MÁQUINA PARA PREVISÃO DE DEMANDA EM UM SISTEMA DE COMPARTILHA...APRENDIZAGEM DE MÁQUINA PARA PREVISÃO DE DEMANDA EM UM SISTEMA DE COMPARTILHA...
APRENDIZAGEM DE MÁQUINA PARA PREVISÃO DE DEMANDA EM UM SISTEMA DE COMPARTILHA...Rafael Felipe Nascimento de Aguiar
 
Algoritmos de Clusterização
Algoritmos de ClusterizaçãoAlgoritmos de Clusterização
Algoritmos de ClusterizaçãoGabriel Peixe
 
Grafos De Bruijn para identificação de variações genéticas usando GBS
Grafos De Bruijn para identificação de variações genéticas usando GBSGrafos De Bruijn para identificação de variações genéticas usando GBS
Grafos De Bruijn para identificação de variações genéticas usando GBSMarcos Castro
 
Machine learning.pptx
Machine learning.pptxMachine learning.pptx
Machine learning.pptxDoug177753
 
Apresentação_Eduardo Benayon rev4
Apresentação_Eduardo Benayon rev4Apresentação_Eduardo Benayon rev4
Apresentação_Eduardo Benayon rev4edubenayon
 
Bioinformática com Rosalind utilizando Python
Bioinformática com Rosalind utilizando PythonBioinformática com Rosalind utilizando Python
Bioinformática com Rosalind utilizando PythonMarcos Castro
 
Redes neurais e lógica fuzzy
Redes neurais e lógica fuzzyRedes neurais e lógica fuzzy
Redes neurais e lógica fuzzyRenato Ximenes
 
Introdução às Redes Neurais - Parte 1/2
Introdução às Redes Neurais - Parte 1/2Introdução às Redes Neurais - Parte 1/2
Introdução às Redes Neurais - Parte 1/2Bruno Catão
 
Pos Usp Ngs Big Data Parte 2
Pos Usp Ngs Big Data Parte 2Pos Usp Ngs Big Data Parte 2
Pos Usp Ngs Big Data Parte 2Beta Campos
 

Semelhante a Encontrando similaridades de sequências (20)

P910Aula06
P910Aula06P910Aula06
P910Aula06
 
Slide sobre Bioinformatica testeteste.pdf
Slide sobre Bioinformatica testeteste.pdfSlide sobre Bioinformatica testeteste.pdf
Slide sobre Bioinformatica testeteste.pdf
 
Aprendizado de Máquina Supervisionado na Predição de Links em Redes Complexas...
Aprendizado de Máquina Supervisionado na Predição de Links em Redes Complexas...Aprendizado de Máquina Supervisionado na Predição de Links em Redes Complexas...
Aprendizado de Máquina Supervisionado na Predição de Links em Redes Complexas...
 
Priscila
PriscilaPriscila
Priscila
 
Bioinformática arquivo de dados
Bioinformática arquivo de dadosBioinformática arquivo de dados
Bioinformática arquivo de dados
 
Unidade 0: Visão geral sobre o método científico
Unidade 0: Visão geral sobre o método científicoUnidade 0: Visão geral sobre o método científico
Unidade 0: Visão geral sobre o método científico
 
APRENDIZAGEM DE MÁQUINA PARA PREVISÃO DE DEMANDA EM UM SISTEMA DE COMPARTILHA...
APRENDIZAGEM DE MÁQUINA PARA PREVISÃO DE DEMANDA EM UM SISTEMA DE COMPARTILHA...APRENDIZAGEM DE MÁQUINA PARA PREVISÃO DE DEMANDA EM UM SISTEMA DE COMPARTILHA...
APRENDIZAGEM DE MÁQUINA PARA PREVISÃO DE DEMANDA EM UM SISTEMA DE COMPARTILHA...
 
Algoritmos de Clusterização
Algoritmos de ClusterizaçãoAlgoritmos de Clusterização
Algoritmos de Clusterização
 
RNA_Busca.pdf
RNA_Busca.pdfRNA_Busca.pdf
RNA_Busca.pdf
 
Redes sociais
Redes sociaisRedes sociais
Redes sociais
 
Grafos De Bruijn para identificação de variações genéticas usando GBS
Grafos De Bruijn para identificação de variações genéticas usando GBSGrafos De Bruijn para identificação de variações genéticas usando GBS
Grafos De Bruijn para identificação de variações genéticas usando GBS
 
Machine learning.pptx
Machine learning.pptxMachine learning.pptx
Machine learning.pptx
 
Apresentação_Eduardo Benayon rev4
Apresentação_Eduardo Benayon rev4Apresentação_Eduardo Benayon rev4
Apresentação_Eduardo Benayon rev4
 
Anotação Gênica Funcional
Anotação Gênica FuncionalAnotação Gênica Funcional
Anotação Gênica Funcional
 
Bioinformática com Rosalind utilizando Python
Bioinformática com Rosalind utilizando PythonBioinformática com Rosalind utilizando Python
Bioinformática com Rosalind utilizando Python
 
Redes neurais e lógica fuzzy
Redes neurais e lógica fuzzyRedes neurais e lógica fuzzy
Redes neurais e lógica fuzzy
 
Introdução às Redes Neurais - Parte 1/2
Introdução às Redes Neurais - Parte 1/2Introdução às Redes Neurais - Parte 1/2
Introdução às Redes Neurais - Parte 1/2
 
Minicurso 2013
Minicurso 2013Minicurso 2013
Minicurso 2013
 
Ip 01 logica
Ip 01 logicaIp 01 logica
Ip 01 logica
 
Pos Usp Ngs Big Data Parte 2
Pos Usp Ngs Big Data Parte 2Pos Usp Ngs Big Data Parte 2
Pos Usp Ngs Big Data Parte 2
 

Mais de Francisco Prosdocimi

Mais de Francisco Prosdocimi (8)

Prosdocimi ucb cdao
Prosdocimi ucb cdaoProsdocimi ucb cdao
Prosdocimi ucb cdao
 
Fprosdocimi07 curso_bioinfo
Fprosdocimi07 curso_bioinfoFprosdocimi07 curso_bioinfo
Fprosdocimi07 curso_bioinfo
 
Uma breve história do pensamento evolutivo
Uma breve história do pensamento evolutivoUma breve história do pensamento evolutivo
Uma breve história do pensamento evolutivo
 
Aula 4 amadurecimento
Aula 4 amadurecimentoAula 4 amadurecimento
Aula 4 amadurecimento
 
Aula 3 historia_dabiomol
Aula 3 historia_dabiomolAula 3 historia_dabiomol
Aula 3 historia_dabiomol
 
Aula 2 Biologia Molecular
Aula 2 Biologia MolecularAula 2 Biologia Molecular
Aula 2 Biologia Molecular
 
Aula2 lehn03 aminoácidos_peptídeosproteínas
Aula2 lehn03 aminoácidos_peptídeosproteínasAula2 lehn03 aminoácidos_peptídeosproteínas
Aula2 lehn03 aminoácidos_peptídeosproteínas
 
Aula3 lehn04 estrutura3_dproteinas
Aula3 lehn04 estrutura3_dproteinasAula3 lehn04 estrutura3_dproteinas
Aula3 lehn04 estrutura3_dproteinas
 

Último

Aula 13 8º Ano Cap.04 Revolução Francesa.pptx
Aula 13 8º Ano Cap.04 Revolução Francesa.pptxAula 13 8º Ano Cap.04 Revolução Francesa.pptx
Aula 13 8º Ano Cap.04 Revolução Francesa.pptxBiancaNogueira42
 
Bingo da potenciação e radiciação de números inteiros
Bingo da potenciação e radiciação de números inteirosBingo da potenciação e radiciação de números inteiros
Bingo da potenciação e radiciação de números inteirosAntnyoAllysson
 
Modelos de Desenvolvimento Motor - Gallahue, Newell e Tani
Modelos de Desenvolvimento Motor - Gallahue, Newell e TaniModelos de Desenvolvimento Motor - Gallahue, Newell e Tani
Modelos de Desenvolvimento Motor - Gallahue, Newell e TaniCassio Meira Jr.
 
Cultura e Sociedade - Texto de Apoio.pdf
Cultura e Sociedade - Texto de Apoio.pdfCultura e Sociedade - Texto de Apoio.pdf
Cultura e Sociedade - Texto de Apoio.pdfaulasgege
 
HORA DO CONTO5_BECRE D. CARLOS I_2023_2024
HORA DO CONTO5_BECRE D. CARLOS I_2023_2024HORA DO CONTO5_BECRE D. CARLOS I_2023_2024
HORA DO CONTO5_BECRE D. CARLOS I_2023_2024Sandra Pratas
 
William J. Bennett - O livro das virtudes para Crianças.pdf
William J. Bennett - O livro das virtudes para Crianças.pdfWilliam J. Bennett - O livro das virtudes para Crianças.pdf
William J. Bennett - O livro das virtudes para Crianças.pdfAdrianaCunha84
 
LEMBRANDO A MORTE E CELEBRANDO A RESSUREIÇÃO
LEMBRANDO A MORTE E CELEBRANDO A RESSUREIÇÃOLEMBRANDO A MORTE E CELEBRANDO A RESSUREIÇÃO
LEMBRANDO A MORTE E CELEBRANDO A RESSUREIÇÃOColégio Santa Teresinha
 
Slides Lição 4, CPAD, Como se Conduzir na Caminhada, 2Tr24.pptx
Slides Lição 4, CPAD, Como se Conduzir na Caminhada, 2Tr24.pptxSlides Lição 4, CPAD, Como se Conduzir na Caminhada, 2Tr24.pptx
Slides Lição 4, CPAD, Como se Conduzir na Caminhada, 2Tr24.pptxLuizHenriquedeAlmeid6
 
Slide de exemplo sobre o Sítio do Pica Pau Amarelo.pptx
Slide de exemplo sobre o Sítio do Pica Pau Amarelo.pptxSlide de exemplo sobre o Sítio do Pica Pau Amarelo.pptx
Slide de exemplo sobre o Sítio do Pica Pau Amarelo.pptxconcelhovdragons
 
Habilidades Motoras Básicas e Específicas
Habilidades Motoras Básicas e EspecíficasHabilidades Motoras Básicas e Específicas
Habilidades Motoras Básicas e EspecíficasCassio Meira Jr.
 
Atividade com a letra da música Meu Abrigo
Atividade com a letra da música Meu AbrigoAtividade com a letra da música Meu Abrigo
Atividade com a letra da música Meu AbrigoMary Alvarenga
 
Apostila da CONQUISTA_ para o 6ANO_LP_UNI1.pptx
Apostila da CONQUISTA_ para o 6ANO_LP_UNI1.pptxApostila da CONQUISTA_ para o 6ANO_LP_UNI1.pptx
Apostila da CONQUISTA_ para o 6ANO_LP_UNI1.pptxIsabelaRafael2
 
ALMANANHE DE BRINCADEIRAS - 500 atividades escolares
ALMANANHE DE BRINCADEIRAS - 500 atividades escolaresALMANANHE DE BRINCADEIRAS - 500 atividades escolares
ALMANANHE DE BRINCADEIRAS - 500 atividades escolaresLilianPiola
 
Apresentação | Eleições Europeias 2024-2029
Apresentação | Eleições Europeias 2024-2029Apresentação | Eleições Europeias 2024-2029
Apresentação | Eleições Europeias 2024-2029Centro Jacques Delors
 
Investimentos. EDUCAÇÃO FINANCEIRA 8º ANO
Investimentos. EDUCAÇÃO FINANCEIRA 8º ANOInvestimentos. EDUCAÇÃO FINANCEIRA 8º ANO
Investimentos. EDUCAÇÃO FINANCEIRA 8º ANOMarcosViniciusLemesL
 
FCEE - Diretrizes - Autismo.pdf para imprimir
FCEE - Diretrizes - Autismo.pdf para imprimirFCEE - Diretrizes - Autismo.pdf para imprimir
FCEE - Diretrizes - Autismo.pdf para imprimirIedaGoethe
 
Família de palavras.ppt com exemplos e exercícios interativos.
Família de palavras.ppt com exemplos e exercícios interativos.Família de palavras.ppt com exemplos e exercícios interativos.
Família de palavras.ppt com exemplos e exercícios interativos.Susana Stoffel
 
A galinha ruiva sequencia didatica 3 ano
A  galinha ruiva sequencia didatica 3 anoA  galinha ruiva sequencia didatica 3 ano
A galinha ruiva sequencia didatica 3 anoandrealeitetorres
 
ABRIL VERDE.pptx Slide sobre abril ver 2024
ABRIL VERDE.pptx Slide sobre abril ver 2024ABRIL VERDE.pptx Slide sobre abril ver 2024
ABRIL VERDE.pptx Slide sobre abril ver 2024Jeanoliveira597523
 
Prática de interpretação de imagens de satélite no QGIS
Prática de interpretação de imagens de satélite no QGISPrática de interpretação de imagens de satélite no QGIS
Prática de interpretação de imagens de satélite no QGISVitor Vieira Vasconcelos
 

Último (20)

Aula 13 8º Ano Cap.04 Revolução Francesa.pptx
Aula 13 8º Ano Cap.04 Revolução Francesa.pptxAula 13 8º Ano Cap.04 Revolução Francesa.pptx
Aula 13 8º Ano Cap.04 Revolução Francesa.pptx
 
Bingo da potenciação e radiciação de números inteiros
Bingo da potenciação e radiciação de números inteirosBingo da potenciação e radiciação de números inteiros
Bingo da potenciação e radiciação de números inteiros
 
Modelos de Desenvolvimento Motor - Gallahue, Newell e Tani
Modelos de Desenvolvimento Motor - Gallahue, Newell e TaniModelos de Desenvolvimento Motor - Gallahue, Newell e Tani
Modelos de Desenvolvimento Motor - Gallahue, Newell e Tani
 
Cultura e Sociedade - Texto de Apoio.pdf
Cultura e Sociedade - Texto de Apoio.pdfCultura e Sociedade - Texto de Apoio.pdf
Cultura e Sociedade - Texto de Apoio.pdf
 
HORA DO CONTO5_BECRE D. CARLOS I_2023_2024
HORA DO CONTO5_BECRE D. CARLOS I_2023_2024HORA DO CONTO5_BECRE D. CARLOS I_2023_2024
HORA DO CONTO5_BECRE D. CARLOS I_2023_2024
 
William J. Bennett - O livro das virtudes para Crianças.pdf
William J. Bennett - O livro das virtudes para Crianças.pdfWilliam J. Bennett - O livro das virtudes para Crianças.pdf
William J. Bennett - O livro das virtudes para Crianças.pdf
 
LEMBRANDO A MORTE E CELEBRANDO A RESSUREIÇÃO
LEMBRANDO A MORTE E CELEBRANDO A RESSUREIÇÃOLEMBRANDO A MORTE E CELEBRANDO A RESSUREIÇÃO
LEMBRANDO A MORTE E CELEBRANDO A RESSUREIÇÃO
 
Slides Lição 4, CPAD, Como se Conduzir na Caminhada, 2Tr24.pptx
Slides Lição 4, CPAD, Como se Conduzir na Caminhada, 2Tr24.pptxSlides Lição 4, CPAD, Como se Conduzir na Caminhada, 2Tr24.pptx
Slides Lição 4, CPAD, Como se Conduzir na Caminhada, 2Tr24.pptx
 
Slide de exemplo sobre o Sítio do Pica Pau Amarelo.pptx
Slide de exemplo sobre o Sítio do Pica Pau Amarelo.pptxSlide de exemplo sobre o Sítio do Pica Pau Amarelo.pptx
Slide de exemplo sobre o Sítio do Pica Pau Amarelo.pptx
 
Habilidades Motoras Básicas e Específicas
Habilidades Motoras Básicas e EspecíficasHabilidades Motoras Básicas e Específicas
Habilidades Motoras Básicas e Específicas
 
Atividade com a letra da música Meu Abrigo
Atividade com a letra da música Meu AbrigoAtividade com a letra da música Meu Abrigo
Atividade com a letra da música Meu Abrigo
 
Apostila da CONQUISTA_ para o 6ANO_LP_UNI1.pptx
Apostila da CONQUISTA_ para o 6ANO_LP_UNI1.pptxApostila da CONQUISTA_ para o 6ANO_LP_UNI1.pptx
Apostila da CONQUISTA_ para o 6ANO_LP_UNI1.pptx
 
ALMANANHE DE BRINCADEIRAS - 500 atividades escolares
ALMANANHE DE BRINCADEIRAS - 500 atividades escolaresALMANANHE DE BRINCADEIRAS - 500 atividades escolares
ALMANANHE DE BRINCADEIRAS - 500 atividades escolares
 
Apresentação | Eleições Europeias 2024-2029
Apresentação | Eleições Europeias 2024-2029Apresentação | Eleições Europeias 2024-2029
Apresentação | Eleições Europeias 2024-2029
 
Investimentos. EDUCAÇÃO FINANCEIRA 8º ANO
Investimentos. EDUCAÇÃO FINANCEIRA 8º ANOInvestimentos. EDUCAÇÃO FINANCEIRA 8º ANO
Investimentos. EDUCAÇÃO FINANCEIRA 8º ANO
 
FCEE - Diretrizes - Autismo.pdf para imprimir
FCEE - Diretrizes - Autismo.pdf para imprimirFCEE - Diretrizes - Autismo.pdf para imprimir
FCEE - Diretrizes - Autismo.pdf para imprimir
 
Família de palavras.ppt com exemplos e exercícios interativos.
Família de palavras.ppt com exemplos e exercícios interativos.Família de palavras.ppt com exemplos e exercícios interativos.
Família de palavras.ppt com exemplos e exercícios interativos.
 
A galinha ruiva sequencia didatica 3 ano
A  galinha ruiva sequencia didatica 3 anoA  galinha ruiva sequencia didatica 3 ano
A galinha ruiva sequencia didatica 3 ano
 
ABRIL VERDE.pptx Slide sobre abril ver 2024
ABRIL VERDE.pptx Slide sobre abril ver 2024ABRIL VERDE.pptx Slide sobre abril ver 2024
ABRIL VERDE.pptx Slide sobre abril ver 2024
 
Prática de interpretação de imagens de satélite no QGIS
Prática de interpretação de imagens de satélite no QGISPrática de interpretação de imagens de satélite no QGIS
Prática de interpretação de imagens de satélite no QGIS
 

Encontrando similaridades de sequências

  • 1. Encontrando similaridades de sequências Prof. Dr. Francisco Prosdocimi
  • 2. Propagação de informação • Como dados sobre a estrutura, função e evolução de biomoléculas estão mesclados na informação presente nas sequências de Estrutura Função biomoléculas? Evolução • Dada uma sequência A’ altamente similar a uma sequência A’’ e um pouco menos similar a uma sequência A’’’, o que se poderá dizer A’’’ A’’ A’ sobre o compartilhamento de função e estrutura entre estas moléculas? Limite da inferência?
  • 3. Primeiros estudos filogenético-moleculares • 1970 Estudos bioquímicos clássicos: proteína a proteína • Similaridade de sequências em globinas foi visto como prova de ancestralidade comum – Propriedades fisico-químicas e biológicas • As hipóteses filogenéticas podem ser baseadas apenas nas sequências das biomoléculas?
  • 4. Moléculas como documentos da história evolutiva • Zuckerkandl e Pauling, 1965 • A análise da sequência de DNA e genomas carrega informação, os semantídeos • Jamais discutiram como a busca por similaridades em semantídeos deveria ser realizada Ecologia, linguagem, semântica molecular Genes codificadores de proteínas, promotores, sítios de ligação a fatores de transcrição, centrômeros, telômeros, micro-RNAs, etc.
  • 5. Uma questão metodológica • Embora esteja claro que as sequências das biomoléculas dão informações sobre estrutura, função e evolução, como proceder essa comparação? • Zuckerkandl e Pauling (1965) não entram nesta questão • O alinhamento de sequências
  • 6. O alinhamento de sequências  Consiste no processo de comparar duas ou mais sequências (de nucleotídeos ou aminoácidos) de forma a se observar seu nível de similaridade  Comparação de strings  Identificação de substrings compartilhadas  Uma das mais poderosas técnicas da bioinformática
  • 7. Tipos de alinhamento • Simples X Múltiplo • Local X Global • Heurístico X Ótimo Score = 276 bits (139), Expect = 3e-78 Identities = 139/139 (100%) Strand = Plus / Plus Query: 326 aggtgtaaaaccgtttgaatgcacttattgttataaaggattcactcgaaattctgatct 385 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| Sbjct: 560 aggtgtaaaaccgtttgaatgcacttattgttataaaggattcactcgaaattctgatct 619 Query: 386 tcataagcacatcgacgctgttcacaaaggtctcaagcctttcggatgtgaagtatgcca 445 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| Sbjct: 620 tcataagcacatcgacgctgttcacaaaggtctcaagcctttcggatgtgaagtatgcca 679 Query: 446 gcgaaacttctctcagaaa 464 ||||||||||||||||||| Sbjct: 680 gcgaaacttctctcagaaa 698
  • 8. Alinhamento Simples • Aquele realizado entre seqüências de DNA ou proteínas, desde que duas a duas Score = 652 bits (329), Expect = 0.0 Identities = 240/240 (100%) Interpretando os valores Strand = Plus / Plus Query: 1 ctttcaagatgaacgaaccaactggtgtcgggccaacatttgctgatgcatgcgatgatg 60 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| Sbjct: 136 ctttcaagatgaacgaaccaactggtgtcgggccaacatttgctgatgcatgcgatgatg 195 Query: 61 gcgaacttatcagcatttgttgtctttgtggtaaaacgttttcaagtcagagtcttctac 120 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| Sbjct: 196 gcgaacttatcagcatttgttgtctttgtggtaaaacgttttcaagtcagagtcttctac 255 Query: 121 acaaacattttgaattgatgcatgaaggtacggaaatagatactgaacagtatgatctaa 180 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| Sbjct: 256 acaaacattttgaattgatgcatgaaggtacggaaatagatactgaacagtatgatctaa 315 Query: 181 gtggatttgccgctatggggaatgaacaaggtcgtaaaagtaatggtgaagaagatgcaa 240 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| Sbjct: 316 gtggatttgccgctatggggaatgaacaaggtcgtaaaagtaatggtgaagaagatgcaa 375
  • 9. Alinhamento múltiplo • Aquele realizado entre MAIS DE DUAS seqüências de DNA ou proteínas Seq1 ------------------------------------------------------------ Seq4 -GCACGAGGACTGTGA-----ACCGAATCGGTTCAGTAAAATGTTCAATTGTGCGCTGGA Seq2 ------------------------------GTTCAGTAAAATGTTCAATTGTGCGCTGGA Seq3 GGCACGAGGGCTACGACTGTGAACGAATCGGTTCAGTAAAATGTTCAATTGTGCGCTGGA Seq1 ------------------------------------------------------------ Seq4 ATCTATTGTGTAGACTATTAACTATGGAATTTTACTTCACATTGACTAAAAAGCTGAGCA Seq2 ATCTATTGTGTAGACT-TTAACTATGGAATTTTACTTCACATTGACTAAAAAGCTGAGCA Seq3 ATCTATTGTGTAGACTATTAACTATGGAATTTTACTTCACATT-ACTAAAAAGCTGAGCA Seq1 ---------------------CTTTCAAGATGAACGAACCAACTGGTGTCGGGCCAACAT Seq4 AATATACCTGGAGCGTTCAGACTTTCAAGATGAACGAACCAACTGGTGTCGGGCCAACAT Seq2 AATATACCTGGAGCGTTCAGACTTTCAAGATGAACGAACCAACTGGTGTCGGGCCAACAT Seq3 AATATACCTGGAGCGTTCAGACTTTCAAGATGAACGAACCAACTGGTGTCGGGCCAACAT ***************************************
  • 10. Alinhamentos Global e Local • Global: as seqs são alinhadas de ponta a ponta • Local: pedaços das seqs é que são comparados Qual deles é melhor?
  • 11. Alinhamentos ótimo e heurístico • heurística -- do dicionário Houaiss Acepções ¦ substantivo feminino 1 arte de inventar, de fazer descobertas; ciência que tem por objeto a descoberta dos fatos 1.1 Rubrica: história. ramo da História voltado à pesquisa de fontes e documentos 1.2 Rubrica: informática. método de investigação baseado na aproximação progressiva de um dado problema 1.3 Rubrica: pedagogia. método educacional que consiste em fazer descobrir pelo aluno o que se lhe quer ensinar LOGO: • Alinhamento ótimo: produz o melhor resultado computacionalmente possível • Alinhamento heurístico: produz um resultado o mais próximo possível do resultado ótimo, mas, principalmente, produz um resultado de maneira muito veloz
  • 12. Ferramentas de alinhamento Tipo de Precisão do Número de seqüências Programa Alinhamento Alinhamento a serem alinhadas BLAST2Sequences Local Heurístico 2 SWAT Local Ótimo 2 (Smith-Waterman) ClustalW Global Heurístico N Multalin Global Heurístico N Needleman-Wunsch Global Ótimo 2
  • 13. Desafios pragmáticos • A escolha do tipo de alinhamento a ser usado depende se a similaridade observada entre as sequências que se deseja comparar é local ou global • Que tipo de similaridade se busca? – Diferença semântica entre unidades carregadoras de informação – Algoritmos diferentes são necessários para alinhar tipos de diferentes de informação molecular
  • 14. Desafios pragmáticos • O alinhamento de maior escore é mesmo aquele que apresenta maior informação biológica? Maior escore no alinhamento global • Se sabemos a função de A; se A parece com B; se B parece com C, podemos inferir que a função de A B OK! C é igual à de A? – A questão do sinal e do ruído – A sujeira das bases de dados de B C OK! sequências – Similar, putative, close to A C ? Se (1) e (2), LOGO (3)?
  • 15. Confiança em alinhamentos • Alinhamentos do tipo I – Rápidos, heurísticos, sujos Query Seq Sequence – Par a par DB – Contra bases de dados grandes • Alinhamentos do tipo II – Lentos, ótimos – Otimizados manualmente – Múltiplos – Lida com uma quantidade limitada de sequências
  • 16. Métricas para o alinhamento • Gibbs and McIntyre, 1970 • Diagrama 2D • Similaridades observadas nas diagonais • Permite identificar mutações, inserções, deleções, inversões, etc
  • 17. Needleman-Wunsch • Alinhamento global, 1970 • Baseado em técnicas computacionais de programação dinâmica – Quebra o problema em sub-problemas (recursividade) – Máximo número de caracteres alinhados • Passos – Montagem da tabela • Produção de condições iniciais • Definição de regras recursivas – Definição de regra de conclusão
  • 18. Preenchimento da Matriz de Similaridades • Métricas de pontuação – Match – Mismatch – Gap • Métricas de preenchimento da matriz
  • 19. Regra de conclusão • Comece do fim • Volte sempre pelo menor número vizinho – Se houver mais de uma possibilidade, há mais de um alinhamento ótimo • Imprima o alinhamento
  • 20. Needleman-Wunsch • 1970: alinhamento simples, ótimo e global • Complexidade algorítmica – Implementação original: T(n) = O (n3) – Implementação moderna: T(n) = O (n2) • Questão biológica: – O programa vai sempre alinhar, mas... qual a interpretação biológica do alinhamento?
  • 21. E o alinhamento local? • Adiciona-se duas regras simples – Na montagem da matriz – Na resolução do problema 1. O número zero como valor alternativo ao preenchimento da matriz – Isso impede a matriz de ter números negativos 2. Na resolução obtém-se os resultados locais – Começa-se com a célula de maior pontuação e retorna-se até o zero
  • 22. Smith-Waterman • 1981 – Alinhamento local • Definição de zonas de alta similaridade • Definição de estatísticas de escore – Melhorado com Altschul e o e-value do BLAST http://download.boulder.ibm.com/ibmdl/pub /software/dw/java/j-seqalign-pdf.pdf
  • 23. Temple Smith and Michael Waterman • Algoritmo garante o alinhamento de maior escore • HSP – High-scoring segment pair Waterman and Smith
  • 24. BLAST • Basic Local Alignment Search Tool • Heurística eficiente, permite busca rápida em bancos de dados enormes • O segredo: – Cria uma semente de tamanho fixo Stephen Frank Altschul (1957-) – O banco de dados do BLAST já possui é um matemático americano, dados pré-computados de todas as co-criador do BLAST sementes (w=11 dna; w=4 prot) • Faz busca das sementes • Estende as sementes diagonalmente
  • 25. BLAST hit • O e-value – Representa a chance estatística de um certo alinhamento ser encontrado ao acaso – Normalizado pelo tamanho do banco de dados E = Kmn-ʎS • Número de HSP com escore pelo menos S que podem ocorrer ao acaso • m e n são os tamanhos das sequências alinhadas • K ajusta para o tamanho da base de dados • ʎ parâmetro de escala para o sistema de escores • Trabalho mais citado da década de 1990 (http://www.sciencewatch.com/ july-aug2000/sw_july-aug2000_p age3.htm)
  • 26. História do alinhamento de sequências • 1970: Needleman-Wunsch – Usavam só valores positivos – Matches positivos; mismatches = 0 – Problemas com os gaps • Fim dos anos 70 – Os gaps não devem ser considerados como mismatches, eles devem ser penalizados – Números negativos entram em cena • 1981: Smith and Waterman • 1985: Lipman & Pearson, FASTA algorigthm – Primeira tentativa de heurística • 1990: Altschul et al., BLAST – Heurística mais eficiente, 3-4x + rápido que o FASTA – Estatística mais adequada
  • 27. E o sistema de escores? • Para alinhar nucleotídeos, um esquema simples de matches, mismatches e gaps pode ser adequado • Mas e para o alinhamento de proteínas?
  • 28. Um sistema de escores para proteínas • 20 x 20 aminoácidos = 400 combinações – Qual o valor para as trocas? • Proximidade físico-química das cadeias laterais dos aminoácidos • Matrizes de substituição – Método dedutivo • Teórico • Baseado em mutações no DNA e no código genético – Método indutivo • Tabulação dos dados observados em proteínas reais
  • 29. Zuckerkandl e Pauling • Definiram primeiro sistema de métricas usando método dedutivo – Valores de 0, 1, 2 ou 3 eram dados para diferentes alinhamentos aminoácidos de acordo com diferenças mutacionais entre seus códons • Matrizes baseadas em código genético são hoje pouco usadas – Embora a evolução do código genético seja uma área de grande interesse na biologia computacional
  • 30. Outras matrizes dedutivas • Baseadas em química de aminoácidos • Deve levar em consideração apenas alguns aspectos, deixando de lado outros – Complexidade da estrutura aminoacídica – É impossível partir todos os aa’s em grupos sem sobreposição
  • 31. Atlas da estrutura de proteínas • 1965 • Apresentava todas as sequências de proteínas existentes • Introduzia o conceito de famílias de proteínas • Método indutivo: – As matrizes de aminoácidos deveriam ser obtidas através da observação de frequências de substituição em proteínas reais
  • 32. O atlas da estrutura de proteínas • Continha sequências de proteínas de várias espécies – Insulinas, citocromos C – Vários mamíferos, vertebrados, bactérias • Definia a origem comum das sequências de proteínas • Construção de alinhamentos Margaret Belle (Oakley) múltiplos Dayhoff (1925 – 1983) foi – Estudos das substituições e de sua uma físico-química significância evolutiva americana
  • 33. Accepted Point Mutations (PAM) • Observação de alinhamentos de famílias protéicas – Mutações aceitáveis seriam aquelas observadas, não “retiradas” pela seleção natural • 1982, o atlas prescrevia dois eventos distintos: – Ocorrência da mutação – Aceitação da mutação pela seleção natural quer dizer melhora Motoo Kimura (1924-1994) foi um biólogo japonês • 1968, teoria neutralista de Kimura – A aceitação da mutação não necessariamente quer dizer melhora
  • 34. A busca por escores de substituição • A matriz PAM – Dayhoff, 1978 • 1,572 mutações em 71 famílias de proteínas – 1 PAM = chance média de mutação em 1% dos aminoácidos – 100 PAMs = chance de uma mutação por aminoácido • Mesmo aminoácido pode mudar mais de uma vez • Pode haver retorno ao estado inicial
  • 35. A matrix PAM1 • Para gerar as matrizes posteriores, basta multiplicar a matriz por ela mesma N vezes Adapted from Figure 82. Atlas of Protein Sequence and Structure, Suppl 3, 1978, M.O. Dayhoff, ed. National Biomedical Research Foundation, 1979. (http://www.icp.ucl.ac.be/~opperd/private/pam1.html)
  • 36. Problemas da PAM • Assume proteína inteira quando se sabe que a proteína evolui em módulos • Assume que a mutação em sequências próximas pode ser extrapolada para sequências distantes (através da multiplicação da matriz) • Entrou em desuso em prol das matrizes BLOSUM – Embora se diga que seja melhor para procurar similaridades em sequências proximamente relacionadas
  • 37. Matrizes BLOSUM • BLOcks Substitution Matrix • Henikoff e Henikoff, 1992 • Seleção de fragmentos de alinhamentos (BLOCKS) – Representam regiões + conservadas • Baseado num dataset muito maior Stephen Henikoff do que o da matriz PAM – Captura informações mais distantes evolutivamente
  • 38. BLOSUM 62 • Tabulada pela similaridade das sequências a partir da qual foi construída • Mais utilizada hoje: BLOSUM62 • Utilizada pelo BLAST
  • 39. Alinhamento de sequências • Várias variáveis influenciam o alinhamento e podem dar resultados diferentes • É preciso compreender os programas para saber o que se está analisando – Algoritmo de comparação (Local, global) – Heurística – Diferentes matrizes de substituição/pontuação – Valores de pontuação para gaps
  • 40. Calibragem dos gaps • “Valores para gaps teem sido selecionados ao longo dos anos por tentativa e erro... A maioria dos programas de alinhamento apresenta um valor default para os gaps que tem uma relação com os valores dados para as substituições” (Altschul, 2006)
  • 41. O problema do alinhamento de sequências • Nenhum algoritmo pode, entretanto, resolver a questão biológica: a similaridade que Estrutura Função observamos contém sinais Sequência biológicos importantes? Evolução – Elas representam ancestralidade comum – É possível fazer inferência de estrutura e função a partir do alinhamento?
  • 42. Conclusões • Os dois fatos – “Em sequências biomoleculares, alta similaridade de sequência frequentemente implica em similaridade funcional ou estrutural” – “Em sequências biomoleculares, alta similaridade de sequência frequentemente implica em relação evolutiva” (Mushegian, 2004) • O alinhamento fornece subsídios para a inferência e ela é feita de forma razoavelmente subjetiva pelo pesquisador – A responsabilidade do pesquisador