SlideShare uma empresa Scribd logo
1 de 39
Métodos de alinhamento de
  sequencias biológicas
        DRA. ADRIANA DANTAS
     UERGS, BENTO GONÇALVES, RS
Introdução

                                                ?
- Uma forma rápida de agregar alguma informação sobre
uma sequência desconhecida é compará-la com um
banco de dados de sequências com funções conhecidas
- Esta comparação é feita através de alinhamentos par a
par entre as sequências. Isto é, se o banco de dados
possuir 1000 sequências conhecidas serão realizados
1000 alinhamentos
- Tipicamente são usados os bancos de dados mundiais (NCBI, EMBL)




        Fonte: http://www3.ebi.ac.uk/Services/DBStats/




- Atualmente uma busca nesses bancos faz 100,000,000 de alinhamentos
Existem vários programas de alinhamentos com diferentes metodologias,
sendo que o mais utilizado é o BLAST
Relevância biológica
- Para o biólogo é essencial que esses alinhamentos indiquem uma
real similaridade entre as sequências (estatisticamente significantes)
- Similaridade x Homologia
   - identidade = número que indica a quantidade de nucleotídeos
   alinhados
   - similaridade = considera a probabilidade do alinhamento ter
   ocorrido por acaso (e-value). Considera todos os outros
   possíveis alinhamentos
   - homologia = dividem a mesma ancestralidade com significado
   evolutivo
Outras aplicações

- Reconstruçãoda sequência consensu a partir de sobreposições
de fragmentos de sequências (montagens de sequencias de DNA)
- Alinhamento entre sequências de ESTs e DNA genômico
- Comparação entre proteínas e DNA
- Construção de mapas físicos
- Comparação entre genomas
- ...
Alinhamentos
o    A comparação entre sequências de DNA de organismos
    diferentes é baseada no conceito de que estes organismos
    originaram-se de um ancestral comum.
o   No contexto de evolução as sequências de DNA sofrem
    mutações. Estas modificações locais entre os nucleotídeos
    podem ser :
    o    Inserções : inserção de uma base ou várias bases na
        sequência
    o   Deleções : deleção de uma base ou mais bases na sequência
    o   Substituições : substituição de uma base por outra
o     Portanto um programa de alinhamento de sequências
    biológicas tem que considerar essas mutações
Exemplo :
                                 Gap = -2




       Match = 1      Mismatch = -1



- Gaps representam as inserções e deleções entre as sequências
- O melhor alinhamento entre duas sequências é aquele que
maximiza o score :
   - Score = #Matchs * (1) + #Mismatch * (-1) + #Gaps * (-2)
            = 24 – 4 – 10 = 10
Modelos para alinhamentos
- Alinhamento global
    - útil quando as duas sequências tem tamanhos próximos
    - Exemplo de programa : CLUSTAL


-Alinhamento local
    - útil para alinhamento entre sequências de tamanhos diferentes e também
    para sequências com apenas alguns trechos conservados
    - Exemplo de programa : BLAST E FASTA


-Alinhamento semi-global (ou pontas livres)
    - útil para encontrar sobreposições de fragmentos de sequenciamento
    - Exemplo de programa : PHRAP E CAP3
Alinhamento global
- Alinhamento de GACATTG com GATCAATG

 1a linha e 1a coluna de M são fáceis de computar:
           - G A C A T T G
    -      0      -2     -4 -6 -8 -10 -12 -14
    G     -2
    A     -4       G     GA
    T     -6       -     - -
    C     -8
    A   -10
    A   -12                           Lembre-se, penalidade
                                      de 1 gap = -2 e de dois
    T   -14                           gaps = -4
    G   -16

               http://bioweb.pasteur.fr/seqanal/interfaces/stretcher-simple.html
-    G      A      C     A      T       T G
         -      0   -2     -4    -6     -8 -10 -12 -14
         G     -2
         A     -4
         T     -6
         C     -8
         A   -10
         A   -12                        [i,j]=p(i,j)
         T   -14
         G   -16

- Para
    um elemento da matriz [i,j] qualquer, temos p(i,j) = 1 se for
um match e p(i,j) = -1 se for um mismatch.
-    G       A        C      A      T       T G
     -        0    -2      -4      -6      -8 -10 -12 -14
     G       -2
     A       -4
     T       -6
     C       -8
     A     -10                  [i-1,j-1] [i-1,j]
     A     -12                     [i,j-1] [i,j] = max([i-1,j] - 2,
     T     -14
                                                p(i,j),
                                                          [i-1,j-1] +
     G     -16                                            [i,j-1] - 2)

-O  valor de [i,j] é definido exclusivamente pelos elementos [i-1,j-1]
(diagonal), [i,j-1] (esquerda) e [i-1,j] (acima).
- Construindo o alinhamento

                           A           G             C
              0          -2            -4            -6

       A     -2           1            -1            -3

       A     -4           -1           0             -2
       A     -6           -3           -2            -1

       C     -8           -5           -4            -1

 No alinhamento global o alinhamento deve ser construído a partir
 do extremo da matriz
Alinhamento local (Smith-Waterman)
http://bioweb.pasteur.fr/seqanal/interfaces/water.html

                  -     G        A       C       A         T       T G
        -        0       0       0        0      0         0       0       0
        G        0
        A        0
        T        0
        C        0
        A        0                   [i-1,j-1] [i-1,j]
        A        0                      [i,j-1] [i,j] = max([i-1,j] - 2,
                                                                   [i-1,j-1] +
        T        0                                       p(i,j),
        G        0                                                 [i,j-1] – 2,
                                                                   0 zero)
- No alinhamento local a primeira linha e coluna são inicializadas com
zeros e os valores [i,j] da matriz inteira nunca ficam menores que zero
No alinhamento local o alinhamento deve ser construído partir do
maior score da matriz e para quando encontrar um score=0
Alinhamento semi-global

- Não penaliza espaços nas extremidades do
  alinhamento.
- Exemplo CAGCA –CTTGGATTCTCGC
                   || | | | |
             - - - CAGCGTGG - - - - - - - -
- No global teríamos,
         CAGCA – CTTGGATTCTCGC
         CAGC - - - - - - G - T - - - - - -
- Qual dos dois alinhamentos é mais
  interessante ?
- No alinhamento semi-global a primeira linha e coluna são
inicializadas com zeros. O resto é igual ao alinhamento global
- A abordagem de programação dinâmica é importante pois garante o melhor
alinhamento entre duas seguências, mas ainda temos um problema :
    - Lembram-se disso : se o alinhamento de 2 sequências de 100 pb leva 1
    segundo, o alinhamento de sequências de 10 Mpb (genoma de
    Saccharomyces) leva 377 anos
- A abordagem alternativa é conhecida como o método de k-tuplas, no qual
não é garantido encontrar o alinhamento ótimo (heurística) mas é
significantemente mais rápido. Com esse método os conceitos de alinhamento
discutidos acima foram modificados dando origem aos programas de
alinhamento local :
    - BLAST (Basic Local Align Sequence Tool) : Nucleic Acid Research 25
    (1990), 3389
    - FASTA : PNAS 85 (1988), 2444-2448
- Basicamente este método identifica uma série de palavras curtas em uma das
sequências (word size) e depois realiza uma busca exata por essas palavras nas
sequências a serem comparadas, filtrando assim os possíveis candidatos.
Alinhando proteínas




- Alinhamento proteína-proteína
- Alinhamento nucleotídeo-proteína
- Alinhamento proteína-nucleotídeo
- Alinhamento nucleotídeo-nucleotídeo (feito em proteínas)
Matrizes de substituição
- BLOSUM (BLOcks of amino acid SUbstitution Matrix )




     - I e V => Hidrofóbicos
     - D e W => D (carga negativa) e W (aromático)
     - C => pontes de sulfeto (estrutural)
-A matriz foi construída a partir de alinhamentos múltiplos globais
de 504 grupos de proteínas




 - BLOSUM 62 : grupos com similaridade >62%

 - BLOSUM 80 : grupos com similaridade >80%
 - BLOSUM 45 : grupos com similaridade >45%
  Query Length   Substitution Matrix
  <35            PAM-30
  35-50          PAM-70
  50-85          BLOSUM-80
  >85            BLOSUM-62                    PNAS 89 (1992), 10915-19919
BLAST
• Basic Local Alignment Search Tool
• Algoritmo BLAST (Alstchul et al.; 1990 – J. Biol., 215,
  403-410)
• Implementações: NCBI BLAST e WU-BLAST
• Acesso via web / local (linux)
• Consulta de seqüências em BDs biológicos (nt ou proteínas)
• Alinhamento – sobreposição de trechos semelhante de duas
  seqüências (seqs). BLAST traz pontuação e mostra
  alinhamentos.
• Similaridade – grau de semelhança de seqs num alinhamento.
• Homologia – genes com ancestral comum
• BDs – nucleotídeos, proteínas, domínios,
  genomas específicos, dados particulares
• Blastp – prot / prot (distantes)
• Blastn – nt / nt (próximos)
• Blastx – nt trad / prot (novas seqs)
• Tblastn – prot / nt trad (regiões não anotadas)
• Tblastx – nt trad / nt trad
Query       BD Compara Programa
       nt        nt    nt    blastn
   nt (trad)    aa     aa     blastx
      aa        aa     aa    blastp
      aa     nt (trad) aa    tblastn
   nt (trad) nt (trad) aa    tblastx
Query = formato da seq de entrada.
BD = formato das seqs do BD.
nt (trad) = seq em nt traduzida pelo programa.
Compara = o que é comparado, nucleotídeos (nt) ou aminoácidos (aa).
Programa = um dos cinco principais tipos de blast.
BLAST – resultado




        Escolher BD




            http://www.ncbi.nlm.nih.gov/blast/
ERRO!!



    Domínio encontrado
ID facilita busca
Link




       Corte 1e-5
1    64
               query
               subject
1   71   134
BLAST – exemplos
>nucleotídeo 1
GTACAAAAAAGTTGGATTTAACTTTAATAGCTATATTAGTCAGTAATGTTATTGTTTGAT
GAAGGATTTTTTTATTAATAACTATTATTTTTATTTTGTTAAATAAAGGAAATAAGAGTT
ATAGAGGAATTTTTAATTATTTTGTTATTCAAGAAACTCTAGGATTGTTGTTTTTATTTT
TTTCTAGTAATTATATTCAGTTTATTATTTTAATAATGAAGATTGGAGTACCACCATTTC
ACTTTTGGGTTTTTAGTGTTACTAATAGTATTTTTAATTATGGGTTAGTGTGGTTTTTAA
CTATACAGATGTTACCTTTACTGGTAGTTTTATTACAGTTATTTGCTTCTGATATAGTGT
ATTTATTTCTTTTTGGTTTGTTTAGTTGTTATCAAGAGATGTTTATGCTGAAGGTATACA
GTACTTTATTAGTTGTATCATCAACTGAGTCTTTTAATTGA

>proteína 1
MSLKDFFERIEPDFEKGGKYEKFYALFEAAYTIFYTPGKVNKGKTHVRDNLDLKRMMITV
WACAFPAMFV
GMYNVGLQAQLALVAGFATPDVWQVSLFSMFGTELTANSGWPALMWYGACFFLPIYAVT
FAVGGIWEVLF
ASIRGHEVNEGFFVTSILFALTLPATIPLWMVALGITFGVVVAKEVFGGTGRNFLNPALAG
RAFLFFAYP
LNMSGDTSWVVADGYSGATALSQAAAGTLDYAINQNWWDSFFGFIPGSVGEVSTLAILLG
GLVIIYTRIA
SWRIVGGVMVGMIAISTLLNVVGSDTNPMFAMPWYWHLVLGGFAFGMMFMATDPVSAS
FTNQAKWAYGIL
IGAMAVFIRVINPAFPEGMMLAILFANLFAPLFDHFVVQANIKRRIARG


                                    http://www.ncbi.nlm.nih.gov/blast/
BLAST local
• Pode ser instalado localmente (Linux)
• BDs e atualizações
• Facilidades
  – Velocidade de buscas
  – Maleabilidade
  – Automatização
  – Dados locais
  – Independe de internet
-Download
    - ftp://ftp.ncbi.nih.gov/blast
- Preparação do banco de dados
    - formatdb –i <arquivo fasta db> -p T/F :
        - <arquivo fasta db> é o arquivo que contêm todas as sequências em
        nucleotídeo ou proteína que formarão o banco de dados do blast
        - -p T para arquivo fasta de proteínas e –p F para nucleotídeos
- Comparação via blast
    - blastall –i <arquivo fasta> -p blastn/blastx/blastp/tblastx/tblastx –d
    <arquivo fasta db> -o <arquivo de saída> -e 1e-5
        - -i arquivo fasta a ser comparado com o banco <arquivo fasta db>
        - -p tipo de comparação a ser realizada
        - -d banco de dados utilizado na comparação
        - -o arquivo de saída
        - -e evalue de corte
Resumo

- Revisão   BLAST
- PHI-BLAST
- PSI-BLAST
-BLAST2SEQS
Revisão
    Query       BD Compara Programa
       nt        nt    nt    blastn
   nt (trad)    aa     aa     blastx
      aa        aa     aa    blastp
      aa     nt (trad) aa    tblastn
   nt (trad) nt (trad) aa    tblastx
Query = formato da seq de entrada.
BD = formato das seqs do BD.
nt (trad) = seq em nt traduzida pelo programa.
Compara = o que é comparado, nucleotídeos (nt) ou aminoácidos (aa).
Programa = um dos cinco principais tipos de blast.
1    64
               query
               subject
1   71   134
PHI-BLAST
-Éum blastp com a opção de passar uma outra sequência curta ou
um padrão servindo como um vínculo para a consulta




     N - Qualquer nucleotídeo
     N(3) - Uma sequência de três nucleotídeos
                                                 Ex :
     N(2,4) - Uma sequência de 2,3 ou 4
     nucleotídeos                                [CG](5)TG{A}N(1,5)C
     [AC] - pode ser um A ou um C
     {AG} - não pode ser nem A e nem G
PSI-BLAST
-É  um blastp interativo no qual a matriz (BLOSUM), após a primeira
interação, é refeita com base nos alinhamentos entre as proteínas
resultantes da consulta :
        - uma posicão conservada no alinhamento recebe um score
alto e uma posição não conservada um score baixo
- É útil para encontrar membros distantes de famílias de proteínas
BL2SEQS
- Faz um blast de uma sequência contra a outra (blastn/blastx/blastp/tblastx/tblastn




                              -

Mais conteúdo relacionado

Mais procurados

Replicacao e transcriçao DNA procariotos
Replicacao e transcriçao DNA procariotosReplicacao e transcriçao DNA procariotos
Replicacao e transcriçao DNA procariotosUERGS
 
Terceira semana gastrulação
Terceira semana gastrulaçãoTerceira semana gastrulação
Terceira semana gastrulaçãoJoão Monteiro
 
Núcleo e divisão celular
Núcleo e divisão celularNúcleo e divisão celular
Núcleo e divisão celularUERGS
 
Tecido nervoso
Tecido nervosoTecido nervoso
Tecido nervosoURCA
 
áCidos nucléicos o código da vida und 3
áCidos nucléicos  o código da vida und 3áCidos nucléicos  o código da vida und 3
áCidos nucléicos o código da vida und 3César Milani
 
Slides da aula de Biologia (Renato) sobre Reino Monera
Slides da aula de Biologia (Renato) sobre Reino MoneraSlides da aula de Biologia (Renato) sobre Reino Monera
Slides da aula de Biologia (Renato) sobre Reino MoneraTurma Olímpica
 
Analise de hibridização
Analise de  hibridizaçãoAnalise de  hibridização
Analise de hibridizaçãoJ. Lima
 
Divisão Celular (Power Point)
Divisão Celular (Power Point)Divisão Celular (Power Point)
Divisão Celular (Power Point)Bio
 
Fisiologia Humana 1 - Introdução à Fisiologia Humana
Fisiologia Humana 1 - Introdução à Fisiologia HumanaFisiologia Humana 1 - Introdução à Fisiologia Humana
Fisiologia Humana 1 - Introdução à Fisiologia HumanaHerbert Santana
 
Embriologia - Super Super Med
Embriologia - Super Super MedEmbriologia - Super Super Med
Embriologia - Super Super Medemanuel
 
Sistema cardioascular: coração
Sistema cardioascular:   coraçãoSistema cardioascular:   coração
Sistema cardioascular: coraçãoAna Castro
 
Engenharia genética
Engenharia genéticaEngenharia genética
Engenharia genéticapaulober
 
Núcleo celular
Núcleo celularNúcleo celular
Núcleo celularMARCIAMP
 
Aula de Clonagem e Vetores e bibliotecas de DNA
Aula de Clonagem e Vetores e bibliotecas de DNAAula de Clonagem e Vetores e bibliotecas de DNA
Aula de Clonagem e Vetores e bibliotecas de DNAJaqueline Almeida
 

Mais procurados (20)

Replicacao e transcriçao DNA procariotos
Replicacao e transcriçao DNA procariotosReplicacao e transcriçao DNA procariotos
Replicacao e transcriçao DNA procariotos
 
Alelos múltiplos
Alelos múltiplosAlelos múltiplos
Alelos múltiplos
 
Sistema ABO
Sistema ABOSistema ABO
Sistema ABO
 
Terceira semana gastrulação
Terceira semana gastrulaçãoTerceira semana gastrulação
Terceira semana gastrulação
 
Núcleo e divisão celular
Núcleo e divisão celularNúcleo e divisão celular
Núcleo e divisão celular
 
Tecido nervoso
Tecido nervosoTecido nervoso
Tecido nervoso
 
Transcrição gênica
Transcrição gênicaTranscrição gênica
Transcrição gênica
 
áCidos nucléicos o código da vida und 3
áCidos nucléicos  o código da vida und 3áCidos nucléicos  o código da vida und 3
áCidos nucléicos o código da vida und 3
 
Slides da aula de Biologia (Renato) sobre Reino Monera
Slides da aula de Biologia (Renato) sobre Reino MoneraSlides da aula de Biologia (Renato) sobre Reino Monera
Slides da aula de Biologia (Renato) sobre Reino Monera
 
Analise de hibridização
Analise de  hibridizaçãoAnalise de  hibridização
Analise de hibridização
 
Divisão Celular (Power Point)
Divisão Celular (Power Point)Divisão Celular (Power Point)
Divisão Celular (Power Point)
 
Projeto Genoma
Projeto Genoma Projeto Genoma
Projeto Genoma
 
Fisiologia Humana 1 - Introdução à Fisiologia Humana
Fisiologia Humana 1 - Introdução à Fisiologia HumanaFisiologia Humana 1 - Introdução à Fisiologia Humana
Fisiologia Humana 1 - Introdução à Fisiologia Humana
 
Embriologia - Super Super Med
Embriologia - Super Super MedEmbriologia - Super Super Med
Embriologia - Super Super Med
 
Sistema cardioascular: coração
Sistema cardioascular:   coraçãoSistema cardioascular:   coração
Sistema cardioascular: coração
 
Engenharia genética
Engenharia genéticaEngenharia genética
Engenharia genética
 
Embriologia
EmbriologiaEmbriologia
Embriologia
 
Núcleo celular
Núcleo celularNúcleo celular
Núcleo celular
 
Meiose (1)
Meiose (1)Meiose (1)
Meiose (1)
 
Aula de Clonagem e Vetores e bibliotecas de DNA
Aula de Clonagem e Vetores e bibliotecas de DNAAula de Clonagem e Vetores e bibliotecas de DNA
Aula de Clonagem e Vetores e bibliotecas de DNA
 

Semelhante a Métodos de alinhamento de sequências biológicas

Plano de aula 1 º ano ensino medio - 1º bimestre
Plano de aula  1 º ano ensino medio - 1º bimestrePlano de aula  1 º ano ensino medio - 1º bimestre
Plano de aula 1 º ano ensino medio - 1º bimestreAngela Machado Verissimo
 
Plano de aula 1 º ano ensino medio - 1º bimestre
Plano de aula  1 º ano ensino medio - 1º bimestrePlano de aula  1 º ano ensino medio - 1º bimestre
Plano de aula 1 º ano ensino medio - 1º bimestreAngela Machado Verissimo
 
Algebra linear lista vi - autovalores e autovetores - unid iii
Algebra linear   lista vi - autovalores e autovetores - unid iiiAlgebra linear   lista vi - autovalores e autovetores - unid iii
Algebra linear lista vi - autovalores e autovetores - unid iiiDenise Oliveira
 
13 introducao a analise de algoritmos
13   introducao a analise de algoritmos13   introducao a analise de algoritmos
13 introducao a analise de algoritmosRicardo Bolanho
 
Algoritmo Needleman-Wunsch
Algoritmo Needleman-WunschAlgoritmo Needleman-Wunsch
Algoritmo Needleman-WunschMarcos Castro
 
Modelagem e inversão em coordenadas esféricas na gravimetria
Modelagem e inversão em coordenadas esféricas na gravimetriaModelagem e inversão em coordenadas esféricas na gravimetria
Modelagem e inversão em coordenadas esféricas na gravimetriaLeonardo Uieda
 
áLgebra linear apostila ii determinantes
áLgebra linear apostila ii   determinantesáLgebra linear apostila ii   determinantes
áLgebra linear apostila ii determinantesEng Amb
 
Linguagem Prolog - Antonio Rufino
Linguagem Prolog - Antonio RufinoLinguagem Prolog - Antonio Rufino
Linguagem Prolog - Antonio RufinoAntonio Rufino
 
Ita2009 3dia
Ita2009 3diaIta2009 3dia
Ita2009 3diacavip
 
PC_2020-2_EP07_Paridade. Inversa. Crescimento_GABARITO.pdf
PC_2020-2_EP07_Paridade. Inversa. Crescimento_GABARITO.pdfPC_2020-2_EP07_Paridade. Inversa. Crescimento_GABARITO.pdf
PC_2020-2_EP07_Paridade. Inversa. Crescimento_GABARITO.pdfssuserce7c52
 
Capitulo 1scilab
Capitulo 1scilabCapitulo 1scilab
Capitulo 1scilabwjunior
 
Introdução ao MATLAB
Introdução ao MATLABIntrodução ao MATLAB
Introdução ao MATLABCaioTelefonica
 
Aula 05 - Transformada de Laplace.pdf
Aula 05 - Transformada de Laplace.pdfAula 05 - Transformada de Laplace.pdf
Aula 05 - Transformada de Laplace.pdfPedroTVSouza
 
Slide sobre Bioinformatica testeteste.pdf
Slide sobre Bioinformatica testeteste.pdfSlide sobre Bioinformatica testeteste.pdf
Slide sobre Bioinformatica testeteste.pdfCianeDias2
 
Determinantes Sistemas Lineares
Determinantes Sistemas LinearesDeterminantes Sistemas Lineares
Determinantes Sistemas LinearesISJ
 
Determinantes sistemas lineares
Determinantes sistemas linearesDeterminantes sistemas lineares
Determinantes sistemas linearesISJ
 
Determinantes sistemas lineares
Determinantes sistemas linearesDeterminantes sistemas lineares
Determinantes sistemas linearesISJ
 
Funções, Equações e Inequações Trigonométricas
Funções, Equações e Inequações TrigonométricasFunções, Equações e Inequações Trigonométricas
Funções, Equações e Inequações TrigonométricasEverton Moraes
 
Ita2006 3dia
Ita2006 3diaIta2006 3dia
Ita2006 3diacavip
 

Semelhante a Métodos de alinhamento de sequências biológicas (20)

Plano de aula 1 º ano ensino medio - 1º bimestre
Plano de aula  1 º ano ensino medio - 1º bimestrePlano de aula  1 º ano ensino medio - 1º bimestre
Plano de aula 1 º ano ensino medio - 1º bimestre
 
Plano de aula 1 º ano ensino medio - 1º bimestre
Plano de aula  1 º ano ensino medio - 1º bimestrePlano de aula  1 º ano ensino medio - 1º bimestre
Plano de aula 1 º ano ensino medio - 1º bimestre
 
Aula 4 poe
Aula 4 poeAula 4 poe
Aula 4 poe
 
Algebra linear lista vi - autovalores e autovetores - unid iii
Algebra linear   lista vi - autovalores e autovetores - unid iiiAlgebra linear   lista vi - autovalores e autovetores - unid iii
Algebra linear lista vi - autovalores e autovetores - unid iii
 
13 introducao a analise de algoritmos
13   introducao a analise de algoritmos13   introducao a analise de algoritmos
13 introducao a analise de algoritmos
 
Algoritmo Needleman-Wunsch
Algoritmo Needleman-WunschAlgoritmo Needleman-Wunsch
Algoritmo Needleman-Wunsch
 
Modelagem e inversão em coordenadas esféricas na gravimetria
Modelagem e inversão em coordenadas esféricas na gravimetriaModelagem e inversão em coordenadas esféricas na gravimetria
Modelagem e inversão em coordenadas esféricas na gravimetria
 
áLgebra linear apostila ii determinantes
áLgebra linear apostila ii   determinantesáLgebra linear apostila ii   determinantes
áLgebra linear apostila ii determinantes
 
Linguagem Prolog - Antonio Rufino
Linguagem Prolog - Antonio RufinoLinguagem Prolog - Antonio Rufino
Linguagem Prolog - Antonio Rufino
 
Ita2009 3dia
Ita2009 3diaIta2009 3dia
Ita2009 3dia
 
PC_2020-2_EP07_Paridade. Inversa. Crescimento_GABARITO.pdf
PC_2020-2_EP07_Paridade. Inversa. Crescimento_GABARITO.pdfPC_2020-2_EP07_Paridade. Inversa. Crescimento_GABARITO.pdf
PC_2020-2_EP07_Paridade. Inversa. Crescimento_GABARITO.pdf
 
Capitulo 1scilab
Capitulo 1scilabCapitulo 1scilab
Capitulo 1scilab
 
Introdução ao MATLAB
Introdução ao MATLABIntrodução ao MATLAB
Introdução ao MATLAB
 
Aula 05 - Transformada de Laplace.pdf
Aula 05 - Transformada de Laplace.pdfAula 05 - Transformada de Laplace.pdf
Aula 05 - Transformada de Laplace.pdf
 
Slide sobre Bioinformatica testeteste.pdf
Slide sobre Bioinformatica testeteste.pdfSlide sobre Bioinformatica testeteste.pdf
Slide sobre Bioinformatica testeteste.pdf
 
Determinantes Sistemas Lineares
Determinantes Sistemas LinearesDeterminantes Sistemas Lineares
Determinantes Sistemas Lineares
 
Determinantes sistemas lineares
Determinantes sistemas linearesDeterminantes sistemas lineares
Determinantes sistemas lineares
 
Determinantes sistemas lineares
Determinantes sistemas linearesDeterminantes sistemas lineares
Determinantes sistemas lineares
 
Funções, Equações e Inequações Trigonométricas
Funções, Equações e Inequações TrigonométricasFunções, Equações e Inequações Trigonométricas
Funções, Equações e Inequações Trigonométricas
 
Ita2006 3dia
Ita2006 3diaIta2006 3dia
Ita2006 3dia
 

Mais de UERGS

Aula 1 - Biodiversidade e os Recursos Genéticos [Salvo automaticamente].pptx
Aula 1 - Biodiversidade e os Recursos Genéticos [Salvo automaticamente].pptxAula 1 - Biodiversidade e os Recursos Genéticos [Salvo automaticamente].pptx
Aula 1 - Biodiversidade e os Recursos Genéticos [Salvo automaticamente].pptxUERGS
 
Nutrigenômica e nutrigenética
Nutrigenômica e nutrigenéticaNutrigenômica e nutrigenética
Nutrigenômica e nutrigenéticaUERGS
 
Introdução a genetica
Introdução a geneticaIntrodução a genetica
Introdução a geneticaUERGS
 
Princípios gerais da conservação de alimentos
Princípios gerais da conservação de alimentosPrincípios gerais da conservação de alimentos
Princípios gerais da conservação de alimentosUERGS
 
Definição, classificação, composição e conservação aula 2
Definição, classificação, composição e conservação aula 2Definição, classificação, composição e conservação aula 2
Definição, classificação, composição e conservação aula 2UERGS
 
Conservação por utilização de temperaturas
Conservação por utilização de temperaturasConservação por utilização de temperaturas
Conservação por utilização de temperaturasUERGS
 
Conservação pelo uso do frio
Conservação pelo uso do frioConservação pelo uso do frio
Conservação pelo uso do frioUERGS
 
Tópicos especiais biodiesel
Tópicos especiais   biodieselTópicos especiais   biodiesel
Tópicos especiais biodieselUERGS
 
Bioquimica de alimentos proteases
Bioquimica de alimentos   proteasesBioquimica de alimentos   proteases
Bioquimica de alimentos proteasesUERGS
 
Bioquimica da maturação das frutas
Bioquimica da maturação das frutasBioquimica da maturação das frutas
Bioquimica da maturação das frutasUERGS
 
Controle do amadurecimento e senescência dos frutos
Controle do amadurecimento e senescência dos frutosControle do amadurecimento e senescência dos frutos
Controle do amadurecimento e senescência dos frutosUERGS
 
Instrumentos óticos
Instrumentos óticosInstrumentos óticos
Instrumentos óticosUERGS
 
Analise espectro eletromagnética
Analise espectro eletromagnéticaAnalise espectro eletromagnética
Analise espectro eletromagnéticaUERGS
 
Bioquímica de alimentos - Carboidrases
Bioquímica de alimentos - CarboidrasesBioquímica de alimentos - Carboidrases
Bioquímica de alimentos - CarboidrasesUERGS
 
Enzimas
EnzimasEnzimas
EnzimasUERGS
 
Recuperação de áreas degradadas
Recuperação de áreas degradadasRecuperação de áreas degradadas
Recuperação de áreas degradadasUERGS
 
Segurança alimentar e ogms
Segurança alimentar e ogmsSegurança alimentar e ogms
Segurança alimentar e ogmsUERGS
 
Impacto ambiental, analise de riscos
Impacto ambiental, analise de riscosImpacto ambiental, analise de riscos
Impacto ambiental, analise de riscosUERGS
 
Impacto ambiental dos resíduos agroindustriais
Impacto ambiental dos resíduos agroindustriaisImpacto ambiental dos resíduos agroindustriais
Impacto ambiental dos resíduos agroindustriaisUERGS
 
Resíduos agroindustriais
Resíduos agroindustriaisResíduos agroindustriais
Resíduos agroindustriaisUERGS
 

Mais de UERGS (20)

Aula 1 - Biodiversidade e os Recursos Genéticos [Salvo automaticamente].pptx
Aula 1 - Biodiversidade e os Recursos Genéticos [Salvo automaticamente].pptxAula 1 - Biodiversidade e os Recursos Genéticos [Salvo automaticamente].pptx
Aula 1 - Biodiversidade e os Recursos Genéticos [Salvo automaticamente].pptx
 
Nutrigenômica e nutrigenética
Nutrigenômica e nutrigenéticaNutrigenômica e nutrigenética
Nutrigenômica e nutrigenética
 
Introdução a genetica
Introdução a geneticaIntrodução a genetica
Introdução a genetica
 
Princípios gerais da conservação de alimentos
Princípios gerais da conservação de alimentosPrincípios gerais da conservação de alimentos
Princípios gerais da conservação de alimentos
 
Definição, classificação, composição e conservação aula 2
Definição, classificação, composição e conservação aula 2Definição, classificação, composição e conservação aula 2
Definição, classificação, composição e conservação aula 2
 
Conservação por utilização de temperaturas
Conservação por utilização de temperaturasConservação por utilização de temperaturas
Conservação por utilização de temperaturas
 
Conservação pelo uso do frio
Conservação pelo uso do frioConservação pelo uso do frio
Conservação pelo uso do frio
 
Tópicos especiais biodiesel
Tópicos especiais   biodieselTópicos especiais   biodiesel
Tópicos especiais biodiesel
 
Bioquimica de alimentos proteases
Bioquimica de alimentos   proteasesBioquimica de alimentos   proteases
Bioquimica de alimentos proteases
 
Bioquimica da maturação das frutas
Bioquimica da maturação das frutasBioquimica da maturação das frutas
Bioquimica da maturação das frutas
 
Controle do amadurecimento e senescência dos frutos
Controle do amadurecimento e senescência dos frutosControle do amadurecimento e senescência dos frutos
Controle do amadurecimento e senescência dos frutos
 
Instrumentos óticos
Instrumentos óticosInstrumentos óticos
Instrumentos óticos
 
Analise espectro eletromagnética
Analise espectro eletromagnéticaAnalise espectro eletromagnética
Analise espectro eletromagnética
 
Bioquímica de alimentos - Carboidrases
Bioquímica de alimentos - CarboidrasesBioquímica de alimentos - Carboidrases
Bioquímica de alimentos - Carboidrases
 
Enzimas
EnzimasEnzimas
Enzimas
 
Recuperação de áreas degradadas
Recuperação de áreas degradadasRecuperação de áreas degradadas
Recuperação de áreas degradadas
 
Segurança alimentar e ogms
Segurança alimentar e ogmsSegurança alimentar e ogms
Segurança alimentar e ogms
 
Impacto ambiental, analise de riscos
Impacto ambiental, analise de riscosImpacto ambiental, analise de riscos
Impacto ambiental, analise de riscos
 
Impacto ambiental dos resíduos agroindustriais
Impacto ambiental dos resíduos agroindustriaisImpacto ambiental dos resíduos agroindustriais
Impacto ambiental dos resíduos agroindustriais
 
Resíduos agroindustriais
Resíduos agroindustriaisResíduos agroindustriais
Resíduos agroindustriais
 

Métodos de alinhamento de sequências biológicas

  • 1. Métodos de alinhamento de sequencias biológicas DRA. ADRIANA DANTAS UERGS, BENTO GONÇALVES, RS
  • 2. Introdução ? - Uma forma rápida de agregar alguma informação sobre uma sequência desconhecida é compará-la com um banco de dados de sequências com funções conhecidas - Esta comparação é feita através de alinhamentos par a par entre as sequências. Isto é, se o banco de dados possuir 1000 sequências conhecidas serão realizados 1000 alinhamentos
  • 3. - Tipicamente são usados os bancos de dados mundiais (NCBI, EMBL) Fonte: http://www3.ebi.ac.uk/Services/DBStats/ - Atualmente uma busca nesses bancos faz 100,000,000 de alinhamentos
  • 4. Existem vários programas de alinhamentos com diferentes metodologias, sendo que o mais utilizado é o BLAST
  • 5. Relevância biológica - Para o biólogo é essencial que esses alinhamentos indiquem uma real similaridade entre as sequências (estatisticamente significantes) - Similaridade x Homologia - identidade = número que indica a quantidade de nucleotídeos alinhados - similaridade = considera a probabilidade do alinhamento ter ocorrido por acaso (e-value). Considera todos os outros possíveis alinhamentos - homologia = dividem a mesma ancestralidade com significado evolutivo
  • 6.
  • 7. Outras aplicações - Reconstruçãoda sequência consensu a partir de sobreposições de fragmentos de sequências (montagens de sequencias de DNA) - Alinhamento entre sequências de ESTs e DNA genômico - Comparação entre proteínas e DNA - Construção de mapas físicos - Comparação entre genomas - ...
  • 8. Alinhamentos o A comparação entre sequências de DNA de organismos diferentes é baseada no conceito de que estes organismos originaram-se de um ancestral comum. o No contexto de evolução as sequências de DNA sofrem mutações. Estas modificações locais entre os nucleotídeos podem ser : o Inserções : inserção de uma base ou várias bases na sequência o Deleções : deleção de uma base ou mais bases na sequência o Substituições : substituição de uma base por outra o Portanto um programa de alinhamento de sequências biológicas tem que considerar essas mutações
  • 9. Exemplo : Gap = -2 Match = 1 Mismatch = -1 - Gaps representam as inserções e deleções entre as sequências - O melhor alinhamento entre duas sequências é aquele que maximiza o score : - Score = #Matchs * (1) + #Mismatch * (-1) + #Gaps * (-2) = 24 – 4 – 10 = 10
  • 10. Modelos para alinhamentos - Alinhamento global - útil quando as duas sequências tem tamanhos próximos - Exemplo de programa : CLUSTAL -Alinhamento local - útil para alinhamento entre sequências de tamanhos diferentes e também para sequências com apenas alguns trechos conservados - Exemplo de programa : BLAST E FASTA -Alinhamento semi-global (ou pontas livres) - útil para encontrar sobreposições de fragmentos de sequenciamento - Exemplo de programa : PHRAP E CAP3
  • 11. Alinhamento global - Alinhamento de GACATTG com GATCAATG 1a linha e 1a coluna de M são fáceis de computar: - G A C A T T G - 0 -2 -4 -6 -8 -10 -12 -14 G -2 A -4 G GA T -6 - - - C -8 A -10 A -12 Lembre-se, penalidade de 1 gap = -2 e de dois T -14 gaps = -4 G -16 http://bioweb.pasteur.fr/seqanal/interfaces/stretcher-simple.html
  • 12. - G A C A T T G - 0 -2 -4 -6 -8 -10 -12 -14 G -2 A -4 T -6 C -8 A -10 A -12 [i,j]=p(i,j) T -14 G -16 - Para um elemento da matriz [i,j] qualquer, temos p(i,j) = 1 se for um match e p(i,j) = -1 se for um mismatch.
  • 13. - G A C A T T G - 0 -2 -4 -6 -8 -10 -12 -14 G -2 A -4 T -6 C -8 A -10 [i-1,j-1] [i-1,j] A -12 [i,j-1] [i,j] = max([i-1,j] - 2, T -14 p(i,j), [i-1,j-1] + G -16 [i,j-1] - 2) -O valor de [i,j] é definido exclusivamente pelos elementos [i-1,j-1] (diagonal), [i,j-1] (esquerda) e [i-1,j] (acima).
  • 14. - Construindo o alinhamento A G C 0 -2 -4 -6 A -2 1 -1 -3 A -4 -1 0 -2 A -6 -3 -2 -1 C -8 -5 -4 -1 No alinhamento global o alinhamento deve ser construído a partir do extremo da matriz
  • 15. Alinhamento local (Smith-Waterman) http://bioweb.pasteur.fr/seqanal/interfaces/water.html - G A C A T T G - 0 0 0 0 0 0 0 0 G 0 A 0 T 0 C 0 A 0 [i-1,j-1] [i-1,j] A 0 [i,j-1] [i,j] = max([i-1,j] - 2, [i-1,j-1] + T 0 p(i,j), G 0 [i,j-1] – 2, 0 zero) - No alinhamento local a primeira linha e coluna são inicializadas com zeros e os valores [i,j] da matriz inteira nunca ficam menores que zero
  • 16. No alinhamento local o alinhamento deve ser construído partir do maior score da matriz e para quando encontrar um score=0
  • 17. Alinhamento semi-global - Não penaliza espaços nas extremidades do alinhamento. - Exemplo CAGCA –CTTGGATTCTCGC || | | | | - - - CAGCGTGG - - - - - - - - - No global teríamos, CAGCA – CTTGGATTCTCGC CAGC - - - - - - G - T - - - - - - - Qual dos dois alinhamentos é mais interessante ?
  • 18. - No alinhamento semi-global a primeira linha e coluna são inicializadas com zeros. O resto é igual ao alinhamento global
  • 19. - A abordagem de programação dinâmica é importante pois garante o melhor alinhamento entre duas seguências, mas ainda temos um problema : - Lembram-se disso : se o alinhamento de 2 sequências de 100 pb leva 1 segundo, o alinhamento de sequências de 10 Mpb (genoma de Saccharomyces) leva 377 anos - A abordagem alternativa é conhecida como o método de k-tuplas, no qual não é garantido encontrar o alinhamento ótimo (heurística) mas é significantemente mais rápido. Com esse método os conceitos de alinhamento discutidos acima foram modificados dando origem aos programas de alinhamento local : - BLAST (Basic Local Align Sequence Tool) : Nucleic Acid Research 25 (1990), 3389 - FASTA : PNAS 85 (1988), 2444-2448 - Basicamente este método identifica uma série de palavras curtas em uma das sequências (word size) e depois realiza uma busca exata por essas palavras nas sequências a serem comparadas, filtrando assim os possíveis candidatos.
  • 20. Alinhando proteínas - Alinhamento proteína-proteína - Alinhamento nucleotídeo-proteína - Alinhamento proteína-nucleotídeo - Alinhamento nucleotídeo-nucleotídeo (feito em proteínas)
  • 21. Matrizes de substituição - BLOSUM (BLOcks of amino acid SUbstitution Matrix ) - I e V => Hidrofóbicos - D e W => D (carga negativa) e W (aromático) - C => pontes de sulfeto (estrutural)
  • 22. -A matriz foi construída a partir de alinhamentos múltiplos globais de 504 grupos de proteínas - BLOSUM 62 : grupos com similaridade >62% - BLOSUM 80 : grupos com similaridade >80% - BLOSUM 45 : grupos com similaridade >45% Query Length Substitution Matrix <35 PAM-30 35-50 PAM-70 50-85 BLOSUM-80 >85 BLOSUM-62 PNAS 89 (1992), 10915-19919
  • 23. BLAST • Basic Local Alignment Search Tool • Algoritmo BLAST (Alstchul et al.; 1990 – J. Biol., 215, 403-410) • Implementações: NCBI BLAST e WU-BLAST • Acesso via web / local (linux) • Consulta de seqüências em BDs biológicos (nt ou proteínas) • Alinhamento – sobreposição de trechos semelhante de duas seqüências (seqs). BLAST traz pontuação e mostra alinhamentos. • Similaridade – grau de semelhança de seqs num alinhamento. • Homologia – genes com ancestral comum
  • 24. • BDs – nucleotídeos, proteínas, domínios, genomas específicos, dados particulares • Blastp – prot / prot (distantes) • Blastn – nt / nt (próximos) • Blastx – nt trad / prot (novas seqs) • Tblastn – prot / nt trad (regiões não anotadas) • Tblastx – nt trad / nt trad
  • 25. Query BD Compara Programa nt nt nt blastn nt (trad) aa aa blastx aa aa aa blastp aa nt (trad) aa tblastn nt (trad) nt (trad) aa tblastx Query = formato da seq de entrada. BD = formato das seqs do BD. nt (trad) = seq em nt traduzida pelo programa. Compara = o que é comparado, nucleotídeos (nt) ou aminoácidos (aa). Programa = um dos cinco principais tipos de blast.
  • 26. BLAST – resultado Escolher BD http://www.ncbi.nlm.nih.gov/blast/
  • 27. ERRO!! Domínio encontrado ID facilita busca
  • 28.
  • 29. Link Corte 1e-5
  • 30. 1 64 query subject 1 71 134
  • 31. BLAST – exemplos >nucleotídeo 1 GTACAAAAAAGTTGGATTTAACTTTAATAGCTATATTAGTCAGTAATGTTATTGTTTGAT GAAGGATTTTTTTATTAATAACTATTATTTTTATTTTGTTAAATAAAGGAAATAAGAGTT ATAGAGGAATTTTTAATTATTTTGTTATTCAAGAAACTCTAGGATTGTTGTTTTTATTTT TTTCTAGTAATTATATTCAGTTTATTATTTTAATAATGAAGATTGGAGTACCACCATTTC ACTTTTGGGTTTTTAGTGTTACTAATAGTATTTTTAATTATGGGTTAGTGTGGTTTTTAA CTATACAGATGTTACCTTTACTGGTAGTTTTATTACAGTTATTTGCTTCTGATATAGTGT ATTTATTTCTTTTTGGTTTGTTTAGTTGTTATCAAGAGATGTTTATGCTGAAGGTATACA GTACTTTATTAGTTGTATCATCAACTGAGTCTTTTAATTGA >proteína 1 MSLKDFFERIEPDFEKGGKYEKFYALFEAAYTIFYTPGKVNKGKTHVRDNLDLKRMMITV WACAFPAMFV GMYNVGLQAQLALVAGFATPDVWQVSLFSMFGTELTANSGWPALMWYGACFFLPIYAVT FAVGGIWEVLF ASIRGHEVNEGFFVTSILFALTLPATIPLWMVALGITFGVVVAKEVFGGTGRNFLNPALAG RAFLFFAYP LNMSGDTSWVVADGYSGATALSQAAAGTLDYAINQNWWDSFFGFIPGSVGEVSTLAILLG GLVIIYTRIA SWRIVGGVMVGMIAISTLLNVVGSDTNPMFAMPWYWHLVLGGFAFGMMFMATDPVSAS FTNQAKWAYGIL IGAMAVFIRVINPAFPEGMMLAILFANLFAPLFDHFVVQANIKRRIARG http://www.ncbi.nlm.nih.gov/blast/
  • 32. BLAST local • Pode ser instalado localmente (Linux) • BDs e atualizações • Facilidades – Velocidade de buscas – Maleabilidade – Automatização – Dados locais – Independe de internet
  • 33. -Download - ftp://ftp.ncbi.nih.gov/blast - Preparação do banco de dados - formatdb –i <arquivo fasta db> -p T/F : - <arquivo fasta db> é o arquivo que contêm todas as sequências em nucleotídeo ou proteína que formarão o banco de dados do blast - -p T para arquivo fasta de proteínas e –p F para nucleotídeos - Comparação via blast - blastall –i <arquivo fasta> -p blastn/blastx/blastp/tblastx/tblastx –d <arquivo fasta db> -o <arquivo de saída> -e 1e-5 - -i arquivo fasta a ser comparado com o banco <arquivo fasta db> - -p tipo de comparação a ser realizada - -d banco de dados utilizado na comparação - -o arquivo de saída - -e evalue de corte
  • 34. Resumo - Revisão BLAST - PHI-BLAST - PSI-BLAST -BLAST2SEQS
  • 35. Revisão Query BD Compara Programa nt nt nt blastn nt (trad) aa aa blastx aa aa aa blastp aa nt (trad) aa tblastn nt (trad) nt (trad) aa tblastx Query = formato da seq de entrada. BD = formato das seqs do BD. nt (trad) = seq em nt traduzida pelo programa. Compara = o que é comparado, nucleotídeos (nt) ou aminoácidos (aa). Programa = um dos cinco principais tipos de blast.
  • 36. 1 64 query subject 1 71 134
  • 37. PHI-BLAST -Éum blastp com a opção de passar uma outra sequência curta ou um padrão servindo como um vínculo para a consulta N - Qualquer nucleotídeo N(3) - Uma sequência de três nucleotídeos Ex : N(2,4) - Uma sequência de 2,3 ou 4 nucleotídeos [CG](5)TG{A}N(1,5)C [AC] - pode ser um A ou um C {AG} - não pode ser nem A e nem G
  • 38. PSI-BLAST -É um blastp interativo no qual a matriz (BLOSUM), após a primeira interação, é refeita com base nos alinhamentos entre as proteínas resultantes da consulta : - uma posicão conservada no alinhamento recebe um score alto e uma posição não conservada um score baixo - É útil para encontrar membros distantes de famílias de proteínas
  • 39. BL2SEQS - Faz um blast de uma sequência contra a outra (blastn/blastx/blastp/tblastx/tblastn -