SlideShare uma empresa Scribd logo
1 de 42
Encontrando
similaridades de sequências
   Prof. Dr. Francisco Prosdocimi
Propagação de informação
• Como dados sobre a estrutura,
  função e evolução de biomoléculas
  estão mesclados na informação
  presente nas sequências de              Estrutura         Função
  biomoléculas?
                                                  Evolução
• Dada uma sequência A’ altamente
  similar a uma sequência A’’ e um
  pouco menos similar a uma
  sequência A’’’, o que se poderá dizer    A’’’       A’’         A’
  sobre o compartilhamento de
  função e estrutura entre estas
  moléculas?                                                    Limite da
                                                                inferência?
Primeiros estudos
             filogenético-moleculares
• 1970 Estudos bioquímicos
  clássicos: proteína a proteína

• Similaridade de sequências
  em globinas foi visto como
  prova de ancestralidade
  comum
   – Propriedades fisico-químicas e
     biológicas

• As hipóteses filogenéticas
  podem ser baseadas apenas
  nas sequências das
  biomoléculas?
Moléculas como documentos
          da história evolutiva
• Zuckerkandl e Pauling, 1965
• A análise da sequência de DNA e genomas carrega
  informação, os semantídeos
• Jamais discutiram como a busca por similaridades em
  semantídeos deveria ser realizada

              Ecologia, linguagem, semântica
                          molecular
             Genes codificadores de proteínas,
               promotores, sítios de ligação a
            fatores de transcrição, centrômeros,
                telômeros, micro-RNAs, etc.
Uma questão metodológica
• Embora esteja claro que as
  sequências das biomoléculas
  dão informações sobre
  estrutura, função e
  evolução, como proceder
  essa comparação?

• Zuckerkandl e Pauling (1965)
  não entram nesta questão

• O alinhamento de
  sequências
O alinhamento de sequências
 Consiste no processo de
  comparar duas ou mais
  sequências (de
  nucleotídeos ou
  aminoácidos) de forma a
  se observar seu nível de
  similaridade

 Comparação de strings
    Identificação de substrings
     compartilhadas

 Uma das mais poderosas
  técnicas da bioinformática
Tipos de alinhamento
• Simples X Múltiplo
• Local X Global
• Heurístico X Ótimo
  Score = 276 bits (139), Expect = 3e-78
  Identities = 139/139 (100%)
  Strand = Plus / Plus

  Query: 326 aggtgtaaaaccgtttgaatgcacttattgttataaaggattcactcgaaattctgatct 385
             ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
  Sbjct: 560 aggtgtaaaaccgtttgaatgcacttattgttataaaggattcactcgaaattctgatct 619

  Query: 386 tcataagcacatcgacgctgttcacaaaggtctcaagcctttcggatgtgaagtatgcca 445
             ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
  Sbjct: 620 tcataagcacatcgacgctgttcacaaaggtctcaagcctttcggatgtgaagtatgcca 679

  Query: 446 gcgaaacttctctcagaaa 464
             |||||||||||||||||||
  Sbjct: 680 gcgaaacttctctcagaaa 698
Alinhamento Simples
• Aquele realizado entre seqüências de DNA ou
  proteínas, desde que duas a duas
  Score = 652 bits (329), Expect = 0.0
  Identities = 240/240 (100%)                     Interpretando os valores
  Strand = Plus / Plus

  Query: 1   ctttcaagatgaacgaaccaactggtgtcgggccaacatttgctgatgcatgcgatgatg 60
             ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
  Sbjct: 136 ctttcaagatgaacgaaccaactggtgtcgggccaacatttgctgatgcatgcgatgatg 195

  Query: 61  gcgaacttatcagcatttgttgtctttgtggtaaaacgttttcaagtcagagtcttctac 120
             ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
  Sbjct: 196 gcgaacttatcagcatttgttgtctttgtggtaaaacgttttcaagtcagagtcttctac 255

  Query: 121 acaaacattttgaattgatgcatgaaggtacggaaatagatactgaacagtatgatctaa 180
             ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
  Sbjct: 256 acaaacattttgaattgatgcatgaaggtacggaaatagatactgaacagtatgatctaa 315

  Query: 181 gtggatttgccgctatggggaatgaacaaggtcgtaaaagtaatggtgaagaagatgcaa 240
             ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
  Sbjct: 316 gtggatttgccgctatggggaatgaacaaggtcgtaaaagtaatggtgaagaagatgcaa 375
Alinhamento múltiplo
• Aquele realizado entre MAIS DE DUAS seqüências de
  DNA ou proteínas
 Seq1      ------------------------------------------------------------
 Seq4      -GCACGAGGACTGTGA-----ACCGAATCGGTTCAGTAAAATGTTCAATTGTGCGCTGGA
 Seq2      ------------------------------GTTCAGTAAAATGTTCAATTGTGCGCTGGA
 Seq3      GGCACGAGGGCTACGACTGTGAACGAATCGGTTCAGTAAAATGTTCAATTGTGCGCTGGA

 Seq1      ------------------------------------------------------------
 Seq4      ATCTATTGTGTAGACTATTAACTATGGAATTTTACTTCACATTGACTAAAAAGCTGAGCA
 Seq2      ATCTATTGTGTAGACT-TTAACTATGGAATTTTACTTCACATTGACTAAAAAGCTGAGCA
 Seq3      ATCTATTGTGTAGACTATTAACTATGGAATTTTACTTCACATT-ACTAAAAAGCTGAGCA

 Seq1      ---------------------CTTTCAAGATGAACGAACCAACTGGTGTCGGGCCAACAT
 Seq4      AATATACCTGGAGCGTTCAGACTTTCAAGATGAACGAACCAACTGGTGTCGGGCCAACAT
 Seq2      AATATACCTGGAGCGTTCAGACTTTCAAGATGAACGAACCAACTGGTGTCGGGCCAACAT
 Seq3      AATATACCTGGAGCGTTCAGACTTTCAAGATGAACGAACCAACTGGTGTCGGGCCAACAT
                             ***************************************
Alinhamentos Global e Local
• Global: as seqs são alinhadas de ponta a ponta
• Local: pedaços das seqs é que são comparados



                                                   Qual deles
                                                   é melhor?
Alinhamentos ótimo e heurístico
• heurística -- do dicionário Houaiss
Acepções
¦ substantivo feminino
1     arte de inventar, de fazer descobertas; ciência que tem por objeto a
    descoberta dos fatos
1.1     Rubrica: história.
      ramo da História voltado à pesquisa de fontes e documentos
1.2     Rubrica: informática.
      método de investigação baseado na aproximação progressiva de um dado
    problema
1.3     Rubrica: pedagogia.
      método educacional que consiste em fazer descobrir pelo aluno o que se
    lhe quer ensinar
LOGO:

• Alinhamento ótimo: produz o melhor resultado computacionalmente
  possível
• Alinhamento heurístico: produz um resultado o mais próximo possível do
  resultado ótimo, mas, principalmente, produz um resultado de maneira
  muito veloz
Ferramentas de alinhamento

                      Tipo de    Precisão do   Número de seqüências
  Programa         Alinhamento   Alinhamento     a serem alinhadas


BLAST2Sequences      Local       Heurístico             2

      SWAT
                     Local         Ótimo                2
(Smith-Waterman)

    ClustalW         Global      Heurístico             N

    Multalin         Global      Heurístico             N

Needleman-Wunsch     Global        Ótimo                2
Desafios pragmáticos
• A escolha do tipo de alinhamento a ser usado
  depende se a similaridade
  observada entre as sequências
  que se deseja comparar é
  local ou global
• Que tipo de similaridade se busca?
   – Diferença semântica entre unidades carregadoras de
     informação
   – Algoritmos diferentes são
     necessários para alinhar
     tipos de diferentes de
     informação molecular
Desafios pragmáticos
• O alinhamento de maior escore é
  mesmo aquele que apresenta
  maior informação biológica?          Maior escore no alinhamento global



• Se sabemos a função de A; se A
  parece com B; se B parece com C,
  podemos inferir que a função de             A                         B   OK!
  C é igual à de A?
   – A questão do sinal e do ruído
   – A sujeira das bases de dados de           B                        C   OK!
     sequências
   – Similar, putative, close to
                                               A                        C
                                                                            ?
                                               Se (1) e (2), LOGO (3)?
Confiança em alinhamentos
• Alinhamentos do tipo I
   – Rápidos, heurísticos, sujos
                                     Query Seq   Sequence
   – Par a par                                      DB
   – Contra bases de dados grandes

• Alinhamentos do tipo II
   –   Lentos, ótimos
   –   Otimizados manualmente
   –   Múltiplos
   –   Lida com uma quantidade
       limitada de sequências
Métricas para o alinhamento
• Gibbs and McIntyre, 1970
• Diagrama 2D
• Similaridades observadas
  nas diagonais
• Permite identificar mutações,
  inserções, deleções, inversões,
  etc
Needleman-Wunsch
• Alinhamento global, 1970
• Baseado em técnicas computacionais de
  programação dinâmica
  – Quebra o problema em sub-problemas (recursividade)
  – Máximo número de caracteres alinhados
• Passos
  – Montagem da tabela
     • Produção de condições iniciais
     • Definição de regras recursivas
  – Definição de regra de conclusão
Preenchimento da
         Matriz de Similaridades
• Métricas de
  pontuação
  – Match
  – Mismatch
  – Gap

• Métricas de
  preenchimento
  da matriz
Regra de conclusão
• Comece do fim
• Volte sempre pelo
  menor número
  vizinho
  – Se houver mais de
    uma possibilidade,
    há mais de um
    alinhamento ótimo
• Imprima o
  alinhamento
Needleman-Wunsch
• 1970: alinhamento simples, ótimo
  e global
• Complexidade algorítmica
   – Implementação original:
                     T(n) = O (n3)
   – Implementação moderna:
                     T(n) = O (n2)

• Questão biológica:
   – O programa vai sempre alinhar,
     mas... qual a interpretação
     biológica do alinhamento?
E o alinhamento local?
• Adiciona-se duas regras simples
  – Na montagem da matriz
  – Na resolução do problema
1. O número zero como valor alternativo ao
  preenchimento da matriz
  – Isso impede a matriz de ter números negativos
2. Na resolução obtém-se os resultados locais
  – Começa-se com a célula de maior pontuação e
    retorna-se até o zero
Smith-Waterman
• 1981
   – Alinhamento local

• Definição de zonas de
  alta similaridade

• Definição de
  estatísticas de escore
   – Melhorado com
     Altschul e o e-value
     do BLAST
                            http://download.boulder.ibm.com/ibmdl/pub
                            /software/dw/java/j-seqalign-pdf.pdf
Temple Smith and Michael Waterman
                    • Algoritmo garante o
                      alinhamento de
                      maior escore
                    • HSP
                      – High-scoring
                        segment pair




                         Waterman and Smith
BLAST
• Basic Local Alignment Search Tool
• Heurística eficiente, permite busca
  rápida em bancos de dados
  enormes
• O segredo:
   – Cria uma semente de tamanho fixo      Stephen Frank Altschul (1957-)
   – O banco de dados do BLAST já possui    é um matemático americano,
     dados pré-computados de todas as           co-criador do BLAST
     sementes (w=11 dna; w=4 prot)
• Faz busca das sementes
• Estende as sementes diagonalmente
BLAST hit
• O e-value
   – Representa a chance estatística de um certo alinhamento ser
     encontrado ao acaso
   – Normalizado pelo tamanho do banco de dados

   E = Kmn-ʎS
         •   Número de HSP com escore pelo menos S que podem ocorrer ao acaso
         •   m e n são os tamanhos das sequências alinhadas
         •   K ajusta para o tamanho da base de dados
         •   ʎ parâmetro de escala para o sistema de escores

• Trabalho mais citado
  da década de 1990
  (http://www.sciencewatch.com/
  july-aug2000/sw_july-aug2000_p
  age3.htm)
História do alinhamento de sequências
• 1970: Needleman-Wunsch
    – Usavam só valores positivos
    – Matches positivos; mismatches = 0
    – Problemas com os gaps
• Fim dos anos 70
    – Os gaps não devem ser considerados como
      mismatches, eles devem ser penalizados
    – Números negativos entram em cena
• 1981: Smith and Waterman
• 1985: Lipman & Pearson, FASTA algorigthm
    – Primeira tentativa de heurística
• 1990: Altschul et al., BLAST
    – Heurística mais eficiente, 3-4x + rápido que o FASTA
    – Estatística mais adequada
E o sistema de escores?
• Para alinhar nucleotídeos, um esquema
  simples de matches, mismatches e gaps pode
  ser adequado
• Mas e para o alinhamento de proteínas?
Um sistema de escores para proteínas
• 20 x 20 aminoácidos = 400
  combinações
   – Qual o valor para as trocas?
• Proximidade físico-química
  das cadeias laterais dos
  aminoácidos
• Matrizes de substituição
   – Método dedutivo
       • Teórico
       • Baseado em mutações no DNA
         e no código genético
   – Método indutivo
       • Tabulação dos dados
         observados em proteínas reais
Zuckerkandl e Pauling
• Definiram primeiro sistema de
  métricas usando método
  dedutivo
   – Valores de 0, 1, 2 ou 3 eram
     dados para diferentes
     alinhamentos aminoácidos de
     acordo com diferenças
     mutacionais entre seus códons

• Matrizes baseadas em código
  genético são hoje pouco usadas
   – Embora a evolução do código
     genético seja uma área de
     grande interesse na biologia
     computacional
Outras matrizes dedutivas
• Baseadas em química de
  aminoácidos

• Deve levar em consideração
  apenas alguns aspectos,
  deixando de lado outros
   – Complexidade da estrutura
     aminoacídica
   – É impossível partir todos os
     aa’s em grupos sem
     sobreposição
Atlas da estrutura de proteínas
• 1965
• Apresentava todas as
  sequências de proteínas
  existentes
• Introduzia o conceito de
  famílias de proteínas
• Método indutivo:
  – As matrizes de aminoácidos
    deveriam ser obtidas através da
    observação de frequências de
    substituição em proteínas reais
O atlas da estrutura de proteínas
• Continha sequências de proteínas de
  várias espécies
   – Insulinas, citocromos C
   – Vários mamíferos, vertebrados,
     bactérias
• Definia a origem comum das
  sequências de proteínas
• Construção de alinhamentos               Margaret Belle (Oakley)
  múltiplos                               Dayhoff (1925 – 1983) foi
   – Estudos das substituições e de sua      uma físico-química
     significância evolutiva                     americana
Accepted Point Mutations (PAM)
• Observação de alinhamentos de famílias
  protéicas
   – Mutações aceitáveis seriam aquelas
     observadas, não “retiradas” pela seleção
     natural

• 1982, o atlas prescrevia dois eventos
  distintos:
   – Ocorrência da mutação
   – Aceitação da mutação pela seleção natural
     quer dizer melhora
                                                 Motoo Kimura (1924-1994)
                                                  foi um biólogo japonês
• 1968, teoria neutralista de Kimura
   – A aceitação da mutação não
     necessariamente quer dizer melhora
A busca por escores de substituição
• A matriz PAM
  – Dayhoff, 1978
     • 1,572 mutações em 71 famílias de proteínas
  – 1 PAM = chance média de mutação em 1% dos
    aminoácidos
  – 100 PAMs = chance de uma mutação por
    aminoácido
     • Mesmo aminoácido pode mudar mais de uma vez
     • Pode haver retorno ao estado inicial
A matrix PAM1
 • Para gerar as matrizes posteriores, basta
   multiplicar a matriz por ela mesma N vezes




Adapted from Figure 82. Atlas of Protein Sequence and Structure, Suppl 3, 1978, M.O. Dayhoff, ed. National
Biomedical Research Foundation, 1979. (http://www.icp.ucl.ac.be/~opperd/private/pam1.html)
Problemas da PAM
• Assume proteína inteira quando se sabe que a
  proteína evolui em módulos
• Assume que a mutação em sequências próximas
  pode ser extrapolada para sequências distantes
  (através da multiplicação da matriz)
• Entrou em desuso em prol das matrizes BLOSUM
  – Embora se diga que seja melhor para procurar
    similaridades em sequências proximamente
    relacionadas
Matrizes BLOSUM
• BLOcks Substitution Matrix
• Henikoff e Henikoff, 1992
• Seleção de fragmentos de
  alinhamentos (BLOCKS)
  – Representam regiões + conservadas

• Baseado num dataset muito maior        Stephen Henikoff
  do que o da matriz PAM
  – Captura informações mais distantes
    evolutivamente
BLOSUM 62
• Tabulada pela
  similaridade das
  sequências a
  partir da qual foi
  construída

• Mais utilizada
  hoje: BLOSUM62

• Utilizada pelo
  BLAST
Alinhamento de sequências
• Várias variáveis influenciam o alinhamento e podem dar
  resultados diferentes
• É preciso compreender os programas para saber o que se está
  analisando




   –   Algoritmo de comparação (Local, global)
   –   Heurística
   –   Diferentes matrizes de substituição/pontuação
   –   Valores de pontuação para gaps
Calibragem dos gaps
• “Valores para gaps teem sido selecionados ao
  longo dos anos por tentativa e erro... A
  maioria dos programas de alinhamento
  apresenta um valor default para os gaps que
  tem uma relação com os valores dados para as
  substituições” (Altschul, 2006)
O problema do
      alinhamento de sequências

• Nenhum algoritmo pode,
  entretanto, resolver a questão
  biológica: a similaridade que         Estrutura     Função
  observamos contém sinais                     Sequência
  biológicos importantes?                      Evolução
  – Elas representam ancestralidade
    comum
  – É possível fazer inferência de estrutura
    e função a partir do alinhamento?
Conclusões
• Os dois fatos
  – “Em sequências biomoleculares, alta similaridade de
    sequência frequentemente implica em similaridade
    funcional ou estrutural”
  – “Em sequências biomoleculares, alta similaridade de
    sequência frequentemente implica em relação
    evolutiva” (Mushegian, 2004)

• O alinhamento fornece subsídios para a
  inferência e ela é feita de forma razoavelmente
  subjetiva pelo pesquisador
  – A responsabilidade do pesquisador

Mais conteúdo relacionado

Mais procurados

Marcadores e Genômica - Aula Teórica Thiago final
Marcadores e Genômica - Aula Teórica Thiago finalMarcadores e Genômica - Aula Teórica Thiago final
Marcadores e Genômica - Aula Teórica Thiago finalThiago Pinheiro
 
Eletroforese
EletroforeseEletroforese
EletroforeseUERGS
 
Aula 12 - Tecnologia do DNA recombinante
Aula 12 - Tecnologia do DNA recombinanteAula 12 - Tecnologia do DNA recombinante
Aula 12 - Tecnologia do DNA recombinanteFernando Mori Miyazawa
 
Eletroforese - aplicação da técnica
Eletroforese  - aplicação da técnicaEletroforese  - aplicação da técnica
Eletroforese - aplicação da técnicaViviane Karolina Vivi
 
Tecnologia do DNA recombinante
Tecnologia do DNA recombinanteTecnologia do DNA recombinante
Tecnologia do DNA recombinanteShaline Araújo
 
Aula 6 replicação do dna, transcrição do rna e síntese proteica
Aula 6   replicação do dna, transcrição do rna e síntese proteicaAula 6   replicação do dna, transcrição do rna e síntese proteica
Aula 6 replicação do dna, transcrição do rna e síntese proteicaNayara de Queiroz
 
Código genético
Código genéticoCódigo genético
Código genéticoMARCIAMP
 
Mutações do material genético
Mutações do material genéticoMutações do material genético
Mutações do material genéticoUERGS
 
Bioinformática e suas aplicações
Bioinformática e suas aplicaçõesBioinformática e suas aplicações
Bioinformática e suas aplicaçõesAlex Camargo
 
ICSA17 - Resposta Imune a infecções PDF
ICSA17 - Resposta Imune a infecções PDFICSA17 - Resposta Imune a infecções PDF
ICSA17 - Resposta Imune a infecções PDFRicardo Portela
 

Mais procurados (20)

Marcadores e Genômica - Aula Teórica Thiago final
Marcadores e Genômica - Aula Teórica Thiago finalMarcadores e Genômica - Aula Teórica Thiago final
Marcadores e Genômica - Aula Teórica Thiago final
 
Eletroforese
EletroforeseEletroforese
Eletroforese
 
Aula 12 - Tecnologia do DNA recombinante
Aula 12 - Tecnologia do DNA recombinanteAula 12 - Tecnologia do DNA recombinante
Aula 12 - Tecnologia do DNA recombinante
 
Predição Gênica
Predição GênicaPredição Gênica
Predição Gênica
 
Codominancia e letalidade
Codominancia e letalidadeCodominancia e letalidade
Codominancia e letalidade
 
Polimorfismo final
Polimorfismo finalPolimorfismo final
Polimorfismo final
 
Replicação do DNA
Replicação do DNAReplicação do DNA
Replicação do DNA
 
Eletroforese - aplicação da técnica
Eletroforese  - aplicação da técnicaEletroforese  - aplicação da técnica
Eletroforese - aplicação da técnica
 
Tecnologia do DNA recombinante
Tecnologia do DNA recombinanteTecnologia do DNA recombinante
Tecnologia do DNA recombinante
 
Transcrição gênica
Transcrição gênicaTranscrição gênica
Transcrição gênica
 
Aula 6 replicação do dna, transcrição do rna e síntese proteica
Aula 6   replicação do dna, transcrição do rna e síntese proteicaAula 6   replicação do dna, transcrição do rna e síntese proteica
Aula 6 replicação do dna, transcrição do rna e síntese proteica
 
Transcrição e tradução
Transcrição e traduçãoTranscrição e tradução
Transcrição e tradução
 
Código genético
Código genéticoCódigo genético
Código genético
 
Arquivos FASTQ
Arquivos FASTQArquivos FASTQ
Arquivos FASTQ
 
Mutações do material genético
Mutações do material genéticoMutações do material genético
Mutações do material genético
 
Bioinformática e suas aplicações
Bioinformática e suas aplicaçõesBioinformática e suas aplicações
Bioinformática e suas aplicações
 
Variação genética nas populações humana!
Variação genética nas populações humana!Variação genética nas populações humana!
Variação genética nas populações humana!
 
Genética Humana
Genética HumanaGenética Humana
Genética Humana
 
ICSA17 - Resposta Imune a infecções PDF
ICSA17 - Resposta Imune a infecções PDFICSA17 - Resposta Imune a infecções PDF
ICSA17 - Resposta Imune a infecções PDF
 
Processamento do pré-mRNA
Processamento do pré-mRNA Processamento do pré-mRNA
Processamento do pré-mRNA
 

Semelhante a Encontrando similaridades de sequências

Slide sobre Bioinformatica testeteste.pdf
Slide sobre Bioinformatica testeteste.pdfSlide sobre Bioinformatica testeteste.pdf
Slide sobre Bioinformatica testeteste.pdfCianeDias2
 
Aprendizado de Máquina Supervisionado na Predição de Links em Redes Complexas...
Aprendizado de Máquina Supervisionado na Predição de Links em Redes Complexas...Aprendizado de Máquina Supervisionado na Predição de Links em Redes Complexas...
Aprendizado de Máquina Supervisionado na Predição de Links em Redes Complexas...Orlando Junior
 
Bioinformática arquivo de dados
Bioinformática arquivo de dadosBioinformática arquivo de dados
Bioinformática arquivo de dadosUERGS
 
Unidade 0: Visão geral sobre o método científico
Unidade 0: Visão geral sobre o método científicoUnidade 0: Visão geral sobre o método científico
Unidade 0: Visão geral sobre o método científicoAlexandre Duarte
 
APRENDIZAGEM DE MÁQUINA PARA PREVISÃO DE DEMANDA EM UM SISTEMA DE COMPARTILHA...
APRENDIZAGEM DE MÁQUINA PARA PREVISÃO DE DEMANDA EM UM SISTEMA DE COMPARTILHA...APRENDIZAGEM DE MÁQUINA PARA PREVISÃO DE DEMANDA EM UM SISTEMA DE COMPARTILHA...
APRENDIZAGEM DE MÁQUINA PARA PREVISÃO DE DEMANDA EM UM SISTEMA DE COMPARTILHA...Rafael Felipe Nascimento de Aguiar
 
Algoritmos de Clusterização
Algoritmos de ClusterizaçãoAlgoritmos de Clusterização
Algoritmos de ClusterizaçãoGabriel Peixe
 
Grafos De Bruijn para identificação de variações genéticas usando GBS
Grafos De Bruijn para identificação de variações genéticas usando GBSGrafos De Bruijn para identificação de variações genéticas usando GBS
Grafos De Bruijn para identificação de variações genéticas usando GBSMarcos Castro
 
Machine learning.pptx
Machine learning.pptxMachine learning.pptx
Machine learning.pptxDoug177753
 
Apresentação_Eduardo Benayon rev4
Apresentação_Eduardo Benayon rev4Apresentação_Eduardo Benayon rev4
Apresentação_Eduardo Benayon rev4edubenayon
 
Bioinformática com Rosalind utilizando Python
Bioinformática com Rosalind utilizando PythonBioinformática com Rosalind utilizando Python
Bioinformática com Rosalind utilizando PythonMarcos Castro
 
Redes neurais e lógica fuzzy
Redes neurais e lógica fuzzyRedes neurais e lógica fuzzy
Redes neurais e lógica fuzzyRenato Ximenes
 
Introdução às Redes Neurais - Parte 1/2
Introdução às Redes Neurais - Parte 1/2Introdução às Redes Neurais - Parte 1/2
Introdução às Redes Neurais - Parte 1/2Bruno Catão
 
Pos Usp Ngs Big Data Parte 2
Pos Usp Ngs Big Data Parte 2Pos Usp Ngs Big Data Parte 2
Pos Usp Ngs Big Data Parte 2Beta Campos
 

Semelhante a Encontrando similaridades de sequências (20)

P910Aula06
P910Aula06P910Aula06
P910Aula06
 
Slide sobre Bioinformatica testeteste.pdf
Slide sobre Bioinformatica testeteste.pdfSlide sobre Bioinformatica testeteste.pdf
Slide sobre Bioinformatica testeteste.pdf
 
Aprendizado de Máquina Supervisionado na Predição de Links em Redes Complexas...
Aprendizado de Máquina Supervisionado na Predição de Links em Redes Complexas...Aprendizado de Máquina Supervisionado na Predição de Links em Redes Complexas...
Aprendizado de Máquina Supervisionado na Predição de Links em Redes Complexas...
 
Priscila
PriscilaPriscila
Priscila
 
Bioinformática arquivo de dados
Bioinformática arquivo de dadosBioinformática arquivo de dados
Bioinformática arquivo de dados
 
Unidade 0: Visão geral sobre o método científico
Unidade 0: Visão geral sobre o método científicoUnidade 0: Visão geral sobre o método científico
Unidade 0: Visão geral sobre o método científico
 
APRENDIZAGEM DE MÁQUINA PARA PREVISÃO DE DEMANDA EM UM SISTEMA DE COMPARTILHA...
APRENDIZAGEM DE MÁQUINA PARA PREVISÃO DE DEMANDA EM UM SISTEMA DE COMPARTILHA...APRENDIZAGEM DE MÁQUINA PARA PREVISÃO DE DEMANDA EM UM SISTEMA DE COMPARTILHA...
APRENDIZAGEM DE MÁQUINA PARA PREVISÃO DE DEMANDA EM UM SISTEMA DE COMPARTILHA...
 
Algoritmos de Clusterização
Algoritmos de ClusterizaçãoAlgoritmos de Clusterização
Algoritmos de Clusterização
 
RNA_Busca.pdf
RNA_Busca.pdfRNA_Busca.pdf
RNA_Busca.pdf
 
Redes sociais
Redes sociaisRedes sociais
Redes sociais
 
Grafos De Bruijn para identificação de variações genéticas usando GBS
Grafos De Bruijn para identificação de variações genéticas usando GBSGrafos De Bruijn para identificação de variações genéticas usando GBS
Grafos De Bruijn para identificação de variações genéticas usando GBS
 
Machine learning.pptx
Machine learning.pptxMachine learning.pptx
Machine learning.pptx
 
Apresentação_Eduardo Benayon rev4
Apresentação_Eduardo Benayon rev4Apresentação_Eduardo Benayon rev4
Apresentação_Eduardo Benayon rev4
 
Anotação Gênica Funcional
Anotação Gênica FuncionalAnotação Gênica Funcional
Anotação Gênica Funcional
 
Bioinformática com Rosalind utilizando Python
Bioinformática com Rosalind utilizando PythonBioinformática com Rosalind utilizando Python
Bioinformática com Rosalind utilizando Python
 
Redes neurais e lógica fuzzy
Redes neurais e lógica fuzzyRedes neurais e lógica fuzzy
Redes neurais e lógica fuzzy
 
Introdução às Redes Neurais - Parte 1/2
Introdução às Redes Neurais - Parte 1/2Introdução às Redes Neurais - Parte 1/2
Introdução às Redes Neurais - Parte 1/2
 
Minicurso 2013
Minicurso 2013Minicurso 2013
Minicurso 2013
 
Ip 01 logica
Ip 01 logicaIp 01 logica
Ip 01 logica
 
Pos Usp Ngs Big Data Parte 2
Pos Usp Ngs Big Data Parte 2Pos Usp Ngs Big Data Parte 2
Pos Usp Ngs Big Data Parte 2
 

Mais de Francisco Prosdocimi

Mais de Francisco Prosdocimi (8)

Prosdocimi ucb cdao
Prosdocimi ucb cdaoProsdocimi ucb cdao
Prosdocimi ucb cdao
 
Fprosdocimi07 curso_bioinfo
Fprosdocimi07 curso_bioinfoFprosdocimi07 curso_bioinfo
Fprosdocimi07 curso_bioinfo
 
Uma breve história do pensamento evolutivo
Uma breve história do pensamento evolutivoUma breve história do pensamento evolutivo
Uma breve história do pensamento evolutivo
 
Aula 4 amadurecimento
Aula 4 amadurecimentoAula 4 amadurecimento
Aula 4 amadurecimento
 
Aula 3 historia_dabiomol
Aula 3 historia_dabiomolAula 3 historia_dabiomol
Aula 3 historia_dabiomol
 
Aula 2 Biologia Molecular
Aula 2 Biologia MolecularAula 2 Biologia Molecular
Aula 2 Biologia Molecular
 
Aula2 lehn03 aminoácidos_peptídeosproteínas
Aula2 lehn03 aminoácidos_peptídeosproteínasAula2 lehn03 aminoácidos_peptídeosproteínas
Aula2 lehn03 aminoácidos_peptídeosproteínas
 
Aula3 lehn04 estrutura3_dproteinas
Aula3 lehn04 estrutura3_dproteinasAula3 lehn04 estrutura3_dproteinas
Aula3 lehn04 estrutura3_dproteinas
 

Último

Manual da CPSA_1_Agir com Autonomia para envio
Manual da CPSA_1_Agir com Autonomia para envioManual da CPSA_1_Agir com Autonomia para envio
Manual da CPSA_1_Agir com Autonomia para envioManuais Formação
 
Slides Lição 04, Central Gospel, O Tribunal De Cristo, 1Tr24.pptx
Slides Lição 04, Central Gospel, O Tribunal De Cristo, 1Tr24.pptxSlides Lição 04, Central Gospel, O Tribunal De Cristo, 1Tr24.pptx
Slides Lição 04, Central Gospel, O Tribunal De Cristo, 1Tr24.pptxLuizHenriquedeAlmeid6
 
RedacoesComentadasModeloAnalisarFazer.pdf
RedacoesComentadasModeloAnalisarFazer.pdfRedacoesComentadasModeloAnalisarFazer.pdf
RedacoesComentadasModeloAnalisarFazer.pdfAlissonMiranda22
 
activIDADES CUENTO lobo esta CUENTO CUARTO GRADO
activIDADES CUENTO  lobo esta  CUENTO CUARTO GRADOactivIDADES CUENTO  lobo esta  CUENTO CUARTO GRADO
activIDADES CUENTO lobo esta CUENTO CUARTO GRADOcarolinacespedes23
 
Portfolio_Trilha_Meio_Ambiente_e_Sociedade.pdf
Portfolio_Trilha_Meio_Ambiente_e_Sociedade.pdfPortfolio_Trilha_Meio_Ambiente_e_Sociedade.pdf
Portfolio_Trilha_Meio_Ambiente_e_Sociedade.pdfjanainadfsilva
 
Atividades sobre Coordenadas Geográficas
Atividades sobre Coordenadas GeográficasAtividades sobre Coordenadas Geográficas
Atividades sobre Coordenadas Geográficasprofcamilamanz
 
Literatura Brasileira - escolas literárias.ppt
Literatura Brasileira - escolas literárias.pptLiteratura Brasileira - escolas literárias.ppt
Literatura Brasileira - escolas literárias.pptMaiteFerreira4
 
CRÔNICAS DE UMA TURMA - TURMA DE 9ºANO - EASB
CRÔNICAS DE UMA TURMA - TURMA DE 9ºANO - EASBCRÔNICAS DE UMA TURMA - TURMA DE 9ºANO - EASB
CRÔNICAS DE UMA TURMA - TURMA DE 9ºANO - EASBAline Santana
 
AULA SOBRE AMERICA LATINA E ANGLO SAXONICA.pptx
AULA SOBRE AMERICA LATINA E ANGLO SAXONICA.pptxAULA SOBRE AMERICA LATINA E ANGLO SAXONICA.pptx
AULA SOBRE AMERICA LATINA E ANGLO SAXONICA.pptxLaurindo6
 
Música Meu Abrigo - Texto e atividade
Música   Meu   Abrigo  -   Texto e atividadeMúsica   Meu   Abrigo  -   Texto e atividade
Música Meu Abrigo - Texto e atividadeMary Alvarenga
 
"É melhor praticar para a nota" - Como avaliar comportamentos em contextos de...
"É melhor praticar para a nota" - Como avaliar comportamentos em contextos de..."É melhor praticar para a nota" - Como avaliar comportamentos em contextos de...
"É melhor praticar para a nota" - Como avaliar comportamentos em contextos de...Rosalina Simão Nunes
 
Grupo Tribalhista - Música Velha Infância (cruzadinha e caça palavras)
Grupo Tribalhista - Música Velha Infância (cruzadinha e caça palavras)Grupo Tribalhista - Música Velha Infância (cruzadinha e caça palavras)
Grupo Tribalhista - Música Velha Infância (cruzadinha e caça palavras)Mary Alvarenga
 
A Arte de Escrever Poemas - Dia das Mães
A Arte de Escrever Poemas - Dia das MãesA Arte de Escrever Poemas - Dia das Mães
A Arte de Escrever Poemas - Dia das MãesMary Alvarenga
 
GÊNERO TEXTUAL - TIRINHAS - Charges - Cartum
GÊNERO TEXTUAL - TIRINHAS - Charges - CartumGÊNERO TEXTUAL - TIRINHAS - Charges - Cartum
GÊNERO TEXTUAL - TIRINHAS - Charges - CartumAugusto Costa
 
PROVA - ESTUDO CONTEMPORÂNEO E TRANSVERSAL: LEITURA DE IMAGENS, GRÁFICOS E MA...
PROVA - ESTUDO CONTEMPORÂNEO E TRANSVERSAL: LEITURA DE IMAGENS, GRÁFICOS E MA...PROVA - ESTUDO CONTEMPORÂNEO E TRANSVERSAL: LEITURA DE IMAGENS, GRÁFICOS E MA...
PROVA - ESTUDO CONTEMPORÂNEO E TRANSVERSAL: LEITURA DE IMAGENS, GRÁFICOS E MA...azulassessoria9
 
Aula de História Ensino Médio Mesopotâmia.pdf
Aula de História Ensino Médio Mesopotâmia.pdfAula de História Ensino Médio Mesopotâmia.pdf
Aula de História Ensino Médio Mesopotâmia.pdfFernandaMota99
 
PROGRAMA DE AÇÃO 2024 - MARIANA DA SILVA MORAES.pdf
PROGRAMA DE AÇÃO 2024 - MARIANA DA SILVA MORAES.pdfPROGRAMA DE AÇÃO 2024 - MARIANA DA SILVA MORAES.pdf
PROGRAMA DE AÇÃO 2024 - MARIANA DA SILVA MORAES.pdfMarianaMoraesMathias
 
PROVA - ESTUDO CONTEMPORÂNEO E TRANSVERSAL: LEITURA DE IMAGENS, GRÁFICOS E MA...
PROVA - ESTUDO CONTEMPORÂNEO E TRANSVERSAL: LEITURA DE IMAGENS, GRÁFICOS E MA...PROVA - ESTUDO CONTEMPORÂNEO E TRANSVERSAL: LEITURA DE IMAGENS, GRÁFICOS E MA...
PROVA - ESTUDO CONTEMPORÂNEO E TRANSVERSAL: LEITURA DE IMAGENS, GRÁFICOS E MA...azulassessoria9
 
VARIEDADES LINGUÍSTICAS - 1. pptx
VARIEDADES        LINGUÍSTICAS - 1. pptxVARIEDADES        LINGUÍSTICAS - 1. pptx
VARIEDADES LINGUÍSTICAS - 1. pptxMarlene Cunhada
 
Livro O QUE É LUGAR DE FALA - Autora Djamila Ribeiro
Livro O QUE É LUGAR DE FALA  - Autora Djamila RibeiroLivro O QUE É LUGAR DE FALA  - Autora Djamila Ribeiro
Livro O QUE É LUGAR DE FALA - Autora Djamila RibeiroMarcele Ravasio
 

Último (20)

Manual da CPSA_1_Agir com Autonomia para envio
Manual da CPSA_1_Agir com Autonomia para envioManual da CPSA_1_Agir com Autonomia para envio
Manual da CPSA_1_Agir com Autonomia para envio
 
Slides Lição 04, Central Gospel, O Tribunal De Cristo, 1Tr24.pptx
Slides Lição 04, Central Gospel, O Tribunal De Cristo, 1Tr24.pptxSlides Lição 04, Central Gospel, O Tribunal De Cristo, 1Tr24.pptx
Slides Lição 04, Central Gospel, O Tribunal De Cristo, 1Tr24.pptx
 
RedacoesComentadasModeloAnalisarFazer.pdf
RedacoesComentadasModeloAnalisarFazer.pdfRedacoesComentadasModeloAnalisarFazer.pdf
RedacoesComentadasModeloAnalisarFazer.pdf
 
activIDADES CUENTO lobo esta CUENTO CUARTO GRADO
activIDADES CUENTO  lobo esta  CUENTO CUARTO GRADOactivIDADES CUENTO  lobo esta  CUENTO CUARTO GRADO
activIDADES CUENTO lobo esta CUENTO CUARTO GRADO
 
Portfolio_Trilha_Meio_Ambiente_e_Sociedade.pdf
Portfolio_Trilha_Meio_Ambiente_e_Sociedade.pdfPortfolio_Trilha_Meio_Ambiente_e_Sociedade.pdf
Portfolio_Trilha_Meio_Ambiente_e_Sociedade.pdf
 
Atividades sobre Coordenadas Geográficas
Atividades sobre Coordenadas GeográficasAtividades sobre Coordenadas Geográficas
Atividades sobre Coordenadas Geográficas
 
Literatura Brasileira - escolas literárias.ppt
Literatura Brasileira - escolas literárias.pptLiteratura Brasileira - escolas literárias.ppt
Literatura Brasileira - escolas literárias.ppt
 
CRÔNICAS DE UMA TURMA - TURMA DE 9ºANO - EASB
CRÔNICAS DE UMA TURMA - TURMA DE 9ºANO - EASBCRÔNICAS DE UMA TURMA - TURMA DE 9ºANO - EASB
CRÔNICAS DE UMA TURMA - TURMA DE 9ºANO - EASB
 
AULA SOBRE AMERICA LATINA E ANGLO SAXONICA.pptx
AULA SOBRE AMERICA LATINA E ANGLO SAXONICA.pptxAULA SOBRE AMERICA LATINA E ANGLO SAXONICA.pptx
AULA SOBRE AMERICA LATINA E ANGLO SAXONICA.pptx
 
Música Meu Abrigo - Texto e atividade
Música   Meu   Abrigo  -   Texto e atividadeMúsica   Meu   Abrigo  -   Texto e atividade
Música Meu Abrigo - Texto e atividade
 
"É melhor praticar para a nota" - Como avaliar comportamentos em contextos de...
"É melhor praticar para a nota" - Como avaliar comportamentos em contextos de..."É melhor praticar para a nota" - Como avaliar comportamentos em contextos de...
"É melhor praticar para a nota" - Como avaliar comportamentos em contextos de...
 
Grupo Tribalhista - Música Velha Infância (cruzadinha e caça palavras)
Grupo Tribalhista - Música Velha Infância (cruzadinha e caça palavras)Grupo Tribalhista - Música Velha Infância (cruzadinha e caça palavras)
Grupo Tribalhista - Música Velha Infância (cruzadinha e caça palavras)
 
A Arte de Escrever Poemas - Dia das Mães
A Arte de Escrever Poemas - Dia das MãesA Arte de Escrever Poemas - Dia das Mães
A Arte de Escrever Poemas - Dia das Mães
 
GÊNERO TEXTUAL - TIRINHAS - Charges - Cartum
GÊNERO TEXTUAL - TIRINHAS - Charges - CartumGÊNERO TEXTUAL - TIRINHAS - Charges - Cartum
GÊNERO TEXTUAL - TIRINHAS - Charges - Cartum
 
PROVA - ESTUDO CONTEMPORÂNEO E TRANSVERSAL: LEITURA DE IMAGENS, GRÁFICOS E MA...
PROVA - ESTUDO CONTEMPORÂNEO E TRANSVERSAL: LEITURA DE IMAGENS, GRÁFICOS E MA...PROVA - ESTUDO CONTEMPORÂNEO E TRANSVERSAL: LEITURA DE IMAGENS, GRÁFICOS E MA...
PROVA - ESTUDO CONTEMPORÂNEO E TRANSVERSAL: LEITURA DE IMAGENS, GRÁFICOS E MA...
 
Aula de História Ensino Médio Mesopotâmia.pdf
Aula de História Ensino Médio Mesopotâmia.pdfAula de História Ensino Médio Mesopotâmia.pdf
Aula de História Ensino Médio Mesopotâmia.pdf
 
PROGRAMA DE AÇÃO 2024 - MARIANA DA SILVA MORAES.pdf
PROGRAMA DE AÇÃO 2024 - MARIANA DA SILVA MORAES.pdfPROGRAMA DE AÇÃO 2024 - MARIANA DA SILVA MORAES.pdf
PROGRAMA DE AÇÃO 2024 - MARIANA DA SILVA MORAES.pdf
 
PROVA - ESTUDO CONTEMPORÂNEO E TRANSVERSAL: LEITURA DE IMAGENS, GRÁFICOS E MA...
PROVA - ESTUDO CONTEMPORÂNEO E TRANSVERSAL: LEITURA DE IMAGENS, GRÁFICOS E MA...PROVA - ESTUDO CONTEMPORÂNEO E TRANSVERSAL: LEITURA DE IMAGENS, GRÁFICOS E MA...
PROVA - ESTUDO CONTEMPORÂNEO E TRANSVERSAL: LEITURA DE IMAGENS, GRÁFICOS E MA...
 
VARIEDADES LINGUÍSTICAS - 1. pptx
VARIEDADES        LINGUÍSTICAS - 1. pptxVARIEDADES        LINGUÍSTICAS - 1. pptx
VARIEDADES LINGUÍSTICAS - 1. pptx
 
Livro O QUE É LUGAR DE FALA - Autora Djamila Ribeiro
Livro O QUE É LUGAR DE FALA  - Autora Djamila RibeiroLivro O QUE É LUGAR DE FALA  - Autora Djamila Ribeiro
Livro O QUE É LUGAR DE FALA - Autora Djamila Ribeiro
 

Encontrando similaridades de sequências

  • 1. Encontrando similaridades de sequências Prof. Dr. Francisco Prosdocimi
  • 2. Propagação de informação • Como dados sobre a estrutura, função e evolução de biomoléculas estão mesclados na informação presente nas sequências de Estrutura Função biomoléculas? Evolução • Dada uma sequência A’ altamente similar a uma sequência A’’ e um pouco menos similar a uma sequência A’’’, o que se poderá dizer A’’’ A’’ A’ sobre o compartilhamento de função e estrutura entre estas moléculas? Limite da inferência?
  • 3. Primeiros estudos filogenético-moleculares • 1970 Estudos bioquímicos clássicos: proteína a proteína • Similaridade de sequências em globinas foi visto como prova de ancestralidade comum – Propriedades fisico-químicas e biológicas • As hipóteses filogenéticas podem ser baseadas apenas nas sequências das biomoléculas?
  • 4. Moléculas como documentos da história evolutiva • Zuckerkandl e Pauling, 1965 • A análise da sequência de DNA e genomas carrega informação, os semantídeos • Jamais discutiram como a busca por similaridades em semantídeos deveria ser realizada Ecologia, linguagem, semântica molecular Genes codificadores de proteínas, promotores, sítios de ligação a fatores de transcrição, centrômeros, telômeros, micro-RNAs, etc.
  • 5. Uma questão metodológica • Embora esteja claro que as sequências das biomoléculas dão informações sobre estrutura, função e evolução, como proceder essa comparação? • Zuckerkandl e Pauling (1965) não entram nesta questão • O alinhamento de sequências
  • 6. O alinhamento de sequências  Consiste no processo de comparar duas ou mais sequências (de nucleotídeos ou aminoácidos) de forma a se observar seu nível de similaridade  Comparação de strings  Identificação de substrings compartilhadas  Uma das mais poderosas técnicas da bioinformática
  • 7. Tipos de alinhamento • Simples X Múltiplo • Local X Global • Heurístico X Ótimo Score = 276 bits (139), Expect = 3e-78 Identities = 139/139 (100%) Strand = Plus / Plus Query: 326 aggtgtaaaaccgtttgaatgcacttattgttataaaggattcactcgaaattctgatct 385 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| Sbjct: 560 aggtgtaaaaccgtttgaatgcacttattgttataaaggattcactcgaaattctgatct 619 Query: 386 tcataagcacatcgacgctgttcacaaaggtctcaagcctttcggatgtgaagtatgcca 445 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| Sbjct: 620 tcataagcacatcgacgctgttcacaaaggtctcaagcctttcggatgtgaagtatgcca 679 Query: 446 gcgaaacttctctcagaaa 464 ||||||||||||||||||| Sbjct: 680 gcgaaacttctctcagaaa 698
  • 8. Alinhamento Simples • Aquele realizado entre seqüências de DNA ou proteínas, desde que duas a duas Score = 652 bits (329), Expect = 0.0 Identities = 240/240 (100%) Interpretando os valores Strand = Plus / Plus Query: 1 ctttcaagatgaacgaaccaactggtgtcgggccaacatttgctgatgcatgcgatgatg 60 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| Sbjct: 136 ctttcaagatgaacgaaccaactggtgtcgggccaacatttgctgatgcatgcgatgatg 195 Query: 61 gcgaacttatcagcatttgttgtctttgtggtaaaacgttttcaagtcagagtcttctac 120 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| Sbjct: 196 gcgaacttatcagcatttgttgtctttgtggtaaaacgttttcaagtcagagtcttctac 255 Query: 121 acaaacattttgaattgatgcatgaaggtacggaaatagatactgaacagtatgatctaa 180 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| Sbjct: 256 acaaacattttgaattgatgcatgaaggtacggaaatagatactgaacagtatgatctaa 315 Query: 181 gtggatttgccgctatggggaatgaacaaggtcgtaaaagtaatggtgaagaagatgcaa 240 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| Sbjct: 316 gtggatttgccgctatggggaatgaacaaggtcgtaaaagtaatggtgaagaagatgcaa 375
  • 9. Alinhamento múltiplo • Aquele realizado entre MAIS DE DUAS seqüências de DNA ou proteínas Seq1 ------------------------------------------------------------ Seq4 -GCACGAGGACTGTGA-----ACCGAATCGGTTCAGTAAAATGTTCAATTGTGCGCTGGA Seq2 ------------------------------GTTCAGTAAAATGTTCAATTGTGCGCTGGA Seq3 GGCACGAGGGCTACGACTGTGAACGAATCGGTTCAGTAAAATGTTCAATTGTGCGCTGGA Seq1 ------------------------------------------------------------ Seq4 ATCTATTGTGTAGACTATTAACTATGGAATTTTACTTCACATTGACTAAAAAGCTGAGCA Seq2 ATCTATTGTGTAGACT-TTAACTATGGAATTTTACTTCACATTGACTAAAAAGCTGAGCA Seq3 ATCTATTGTGTAGACTATTAACTATGGAATTTTACTTCACATT-ACTAAAAAGCTGAGCA Seq1 ---------------------CTTTCAAGATGAACGAACCAACTGGTGTCGGGCCAACAT Seq4 AATATACCTGGAGCGTTCAGACTTTCAAGATGAACGAACCAACTGGTGTCGGGCCAACAT Seq2 AATATACCTGGAGCGTTCAGACTTTCAAGATGAACGAACCAACTGGTGTCGGGCCAACAT Seq3 AATATACCTGGAGCGTTCAGACTTTCAAGATGAACGAACCAACTGGTGTCGGGCCAACAT ***************************************
  • 10. Alinhamentos Global e Local • Global: as seqs são alinhadas de ponta a ponta • Local: pedaços das seqs é que são comparados Qual deles é melhor?
  • 11. Alinhamentos ótimo e heurístico • heurística -- do dicionário Houaiss Acepções ¦ substantivo feminino 1 arte de inventar, de fazer descobertas; ciência que tem por objeto a descoberta dos fatos 1.1 Rubrica: história. ramo da História voltado à pesquisa de fontes e documentos 1.2 Rubrica: informática. método de investigação baseado na aproximação progressiva de um dado problema 1.3 Rubrica: pedagogia. método educacional que consiste em fazer descobrir pelo aluno o que se lhe quer ensinar LOGO: • Alinhamento ótimo: produz o melhor resultado computacionalmente possível • Alinhamento heurístico: produz um resultado o mais próximo possível do resultado ótimo, mas, principalmente, produz um resultado de maneira muito veloz
  • 12. Ferramentas de alinhamento Tipo de Precisão do Número de seqüências Programa Alinhamento Alinhamento a serem alinhadas BLAST2Sequences Local Heurístico 2 SWAT Local Ótimo 2 (Smith-Waterman) ClustalW Global Heurístico N Multalin Global Heurístico N Needleman-Wunsch Global Ótimo 2
  • 13. Desafios pragmáticos • A escolha do tipo de alinhamento a ser usado depende se a similaridade observada entre as sequências que se deseja comparar é local ou global • Que tipo de similaridade se busca? – Diferença semântica entre unidades carregadoras de informação – Algoritmos diferentes são necessários para alinhar tipos de diferentes de informação molecular
  • 14. Desafios pragmáticos • O alinhamento de maior escore é mesmo aquele que apresenta maior informação biológica? Maior escore no alinhamento global • Se sabemos a função de A; se A parece com B; se B parece com C, podemos inferir que a função de A B OK! C é igual à de A? – A questão do sinal e do ruído – A sujeira das bases de dados de B C OK! sequências – Similar, putative, close to A C ? Se (1) e (2), LOGO (3)?
  • 15. Confiança em alinhamentos • Alinhamentos do tipo I – Rápidos, heurísticos, sujos Query Seq Sequence – Par a par DB – Contra bases de dados grandes • Alinhamentos do tipo II – Lentos, ótimos – Otimizados manualmente – Múltiplos – Lida com uma quantidade limitada de sequências
  • 16. Métricas para o alinhamento • Gibbs and McIntyre, 1970 • Diagrama 2D • Similaridades observadas nas diagonais • Permite identificar mutações, inserções, deleções, inversões, etc
  • 17. Needleman-Wunsch • Alinhamento global, 1970 • Baseado em técnicas computacionais de programação dinâmica – Quebra o problema em sub-problemas (recursividade) – Máximo número de caracteres alinhados • Passos – Montagem da tabela • Produção de condições iniciais • Definição de regras recursivas – Definição de regra de conclusão
  • 18. Preenchimento da Matriz de Similaridades • Métricas de pontuação – Match – Mismatch – Gap • Métricas de preenchimento da matriz
  • 19. Regra de conclusão • Comece do fim • Volte sempre pelo menor número vizinho – Se houver mais de uma possibilidade, há mais de um alinhamento ótimo • Imprima o alinhamento
  • 20. Needleman-Wunsch • 1970: alinhamento simples, ótimo e global • Complexidade algorítmica – Implementação original: T(n) = O (n3) – Implementação moderna: T(n) = O (n2) • Questão biológica: – O programa vai sempre alinhar, mas... qual a interpretação biológica do alinhamento?
  • 21. E o alinhamento local? • Adiciona-se duas regras simples – Na montagem da matriz – Na resolução do problema 1. O número zero como valor alternativo ao preenchimento da matriz – Isso impede a matriz de ter números negativos 2. Na resolução obtém-se os resultados locais – Começa-se com a célula de maior pontuação e retorna-se até o zero
  • 22. Smith-Waterman • 1981 – Alinhamento local • Definição de zonas de alta similaridade • Definição de estatísticas de escore – Melhorado com Altschul e o e-value do BLAST http://download.boulder.ibm.com/ibmdl/pub /software/dw/java/j-seqalign-pdf.pdf
  • 23. Temple Smith and Michael Waterman • Algoritmo garante o alinhamento de maior escore • HSP – High-scoring segment pair Waterman and Smith
  • 24. BLAST • Basic Local Alignment Search Tool • Heurística eficiente, permite busca rápida em bancos de dados enormes • O segredo: – Cria uma semente de tamanho fixo Stephen Frank Altschul (1957-) – O banco de dados do BLAST já possui é um matemático americano, dados pré-computados de todas as co-criador do BLAST sementes (w=11 dna; w=4 prot) • Faz busca das sementes • Estende as sementes diagonalmente
  • 25. BLAST hit • O e-value – Representa a chance estatística de um certo alinhamento ser encontrado ao acaso – Normalizado pelo tamanho do banco de dados E = Kmn-ʎS • Número de HSP com escore pelo menos S que podem ocorrer ao acaso • m e n são os tamanhos das sequências alinhadas • K ajusta para o tamanho da base de dados • ʎ parâmetro de escala para o sistema de escores • Trabalho mais citado da década de 1990 (http://www.sciencewatch.com/ july-aug2000/sw_july-aug2000_p age3.htm)
  • 26. História do alinhamento de sequências • 1970: Needleman-Wunsch – Usavam só valores positivos – Matches positivos; mismatches = 0 – Problemas com os gaps • Fim dos anos 70 – Os gaps não devem ser considerados como mismatches, eles devem ser penalizados – Números negativos entram em cena • 1981: Smith and Waterman • 1985: Lipman & Pearson, FASTA algorigthm – Primeira tentativa de heurística • 1990: Altschul et al., BLAST – Heurística mais eficiente, 3-4x + rápido que o FASTA – Estatística mais adequada
  • 27. E o sistema de escores? • Para alinhar nucleotídeos, um esquema simples de matches, mismatches e gaps pode ser adequado • Mas e para o alinhamento de proteínas?
  • 28. Um sistema de escores para proteínas • 20 x 20 aminoácidos = 400 combinações – Qual o valor para as trocas? • Proximidade físico-química das cadeias laterais dos aminoácidos • Matrizes de substituição – Método dedutivo • Teórico • Baseado em mutações no DNA e no código genético – Método indutivo • Tabulação dos dados observados em proteínas reais
  • 29. Zuckerkandl e Pauling • Definiram primeiro sistema de métricas usando método dedutivo – Valores de 0, 1, 2 ou 3 eram dados para diferentes alinhamentos aminoácidos de acordo com diferenças mutacionais entre seus códons • Matrizes baseadas em código genético são hoje pouco usadas – Embora a evolução do código genético seja uma área de grande interesse na biologia computacional
  • 30. Outras matrizes dedutivas • Baseadas em química de aminoácidos • Deve levar em consideração apenas alguns aspectos, deixando de lado outros – Complexidade da estrutura aminoacídica – É impossível partir todos os aa’s em grupos sem sobreposição
  • 31. Atlas da estrutura de proteínas • 1965 • Apresentava todas as sequências de proteínas existentes • Introduzia o conceito de famílias de proteínas • Método indutivo: – As matrizes de aminoácidos deveriam ser obtidas através da observação de frequências de substituição em proteínas reais
  • 32. O atlas da estrutura de proteínas • Continha sequências de proteínas de várias espécies – Insulinas, citocromos C – Vários mamíferos, vertebrados, bactérias • Definia a origem comum das sequências de proteínas • Construção de alinhamentos Margaret Belle (Oakley) múltiplos Dayhoff (1925 – 1983) foi – Estudos das substituições e de sua uma físico-química significância evolutiva americana
  • 33. Accepted Point Mutations (PAM) • Observação de alinhamentos de famílias protéicas – Mutações aceitáveis seriam aquelas observadas, não “retiradas” pela seleção natural • 1982, o atlas prescrevia dois eventos distintos: – Ocorrência da mutação – Aceitação da mutação pela seleção natural quer dizer melhora Motoo Kimura (1924-1994) foi um biólogo japonês • 1968, teoria neutralista de Kimura – A aceitação da mutação não necessariamente quer dizer melhora
  • 34. A busca por escores de substituição • A matriz PAM – Dayhoff, 1978 • 1,572 mutações em 71 famílias de proteínas – 1 PAM = chance média de mutação em 1% dos aminoácidos – 100 PAMs = chance de uma mutação por aminoácido • Mesmo aminoácido pode mudar mais de uma vez • Pode haver retorno ao estado inicial
  • 35. A matrix PAM1 • Para gerar as matrizes posteriores, basta multiplicar a matriz por ela mesma N vezes Adapted from Figure 82. Atlas of Protein Sequence and Structure, Suppl 3, 1978, M.O. Dayhoff, ed. National Biomedical Research Foundation, 1979. (http://www.icp.ucl.ac.be/~opperd/private/pam1.html)
  • 36. Problemas da PAM • Assume proteína inteira quando se sabe que a proteína evolui em módulos • Assume que a mutação em sequências próximas pode ser extrapolada para sequências distantes (através da multiplicação da matriz) • Entrou em desuso em prol das matrizes BLOSUM – Embora se diga que seja melhor para procurar similaridades em sequências proximamente relacionadas
  • 37. Matrizes BLOSUM • BLOcks Substitution Matrix • Henikoff e Henikoff, 1992 • Seleção de fragmentos de alinhamentos (BLOCKS) – Representam regiões + conservadas • Baseado num dataset muito maior Stephen Henikoff do que o da matriz PAM – Captura informações mais distantes evolutivamente
  • 38. BLOSUM 62 • Tabulada pela similaridade das sequências a partir da qual foi construída • Mais utilizada hoje: BLOSUM62 • Utilizada pelo BLAST
  • 39. Alinhamento de sequências • Várias variáveis influenciam o alinhamento e podem dar resultados diferentes • É preciso compreender os programas para saber o que se está analisando – Algoritmo de comparação (Local, global) – Heurística – Diferentes matrizes de substituição/pontuação – Valores de pontuação para gaps
  • 40. Calibragem dos gaps • “Valores para gaps teem sido selecionados ao longo dos anos por tentativa e erro... A maioria dos programas de alinhamento apresenta um valor default para os gaps que tem uma relação com os valores dados para as substituições” (Altschul, 2006)
  • 41. O problema do alinhamento de sequências • Nenhum algoritmo pode, entretanto, resolver a questão biológica: a similaridade que Estrutura Função observamos contém sinais Sequência biológicos importantes? Evolução – Elas representam ancestralidade comum – É possível fazer inferência de estrutura e função a partir do alinhamento?
  • 42. Conclusões • Os dois fatos – “Em sequências biomoleculares, alta similaridade de sequência frequentemente implica em similaridade funcional ou estrutural” – “Em sequências biomoleculares, alta similaridade de sequência frequentemente implica em relação evolutiva” (Mushegian, 2004) • O alinhamento fornece subsídios para a inferência e ela é feita de forma razoavelmente subjetiva pelo pesquisador – A responsabilidade do pesquisador