SlideShare uma empresa Scribd logo
1 de 39
Baixar para ler offline
Métodos de alinhamento de
  sequencias biológicas
        DRA. ADRIANA DANTAS
     UERGS, BENTO GONÇALVES, RS
Introdução

                                                ?
- Uma forma rápida de agregar alguma informação sobre
uma sequência desconhecida é compará-la com um
banco de dados de sequências com funções conhecidas
- Esta comparação é feita através de alinhamentos par a
par entre as sequências. Isto é, se o banco de dados
possuir 1000 sequências conhecidas serão realizados
1000 alinhamentos
- Tipicamente são usados os bancos de dados mundiais (NCBI, EMBL)




        Fonte: http://www3.ebi.ac.uk/Services/DBStats/




- Atualmente uma busca nesses bancos faz 100,000,000 de alinhamentos
Existem vários programas de alinhamentos com diferentes metodologias,
sendo que o mais utilizado é o BLAST
Relevância biológica
- Para o biólogo é essencial que esses alinhamentos indiquem uma
real similaridade entre as sequências (estatisticamente significantes)
- Similaridade x Homologia
   - identidade = número que indica a quantidade de nucleotídeos
   alinhados
   - similaridade = considera a probabilidade do alinhamento ter
   ocorrido por acaso (e-value). Considera todos os outros
   possíveis alinhamentos
   - homologia = dividem a mesma ancestralidade com significado
   evolutivo
Alinhamentos 2011 2
Outras aplicações

- Reconstruçãoda sequência consensu a partir de sobreposições
de fragmentos de sequências (montagens de sequencias de DNA)
- Alinhamento entre sequências de ESTs e DNA genômico
- Comparação entre proteínas e DNA
- Construção de mapas físicos
- Comparação entre genomas
- ...
Alinhamentos
o    A comparação entre sequências de DNA de organismos
    diferentes é baseada no conceito de que estes organismos
    originaram-se de um ancestral comum.
o   No contexto de evolução as sequências de DNA sofrem
    mutações. Estas modificações locais entre os nucleotídeos
    podem ser :
    o    Inserções : inserção de uma base ou várias bases na
        sequência
    o   Deleções : deleção de uma base ou mais bases na sequência
    o   Substituições : substituição de uma base por outra
o     Portanto um programa de alinhamento de sequências
    biológicas tem que considerar essas mutações
Exemplo :
                                 Gap = -2




       Match = 1      Mismatch = -1



- Gaps representam as inserções e deleções entre as sequências
- O melhor alinhamento entre duas sequências é aquele que
maximiza o score :
   - Score = #Matchs * (1) + #Mismatch * (-1) + #Gaps * (-2)
            = 24 – 4 – 10 = 10
Modelos para alinhamentos
- Alinhamento global
    - útil quando as duas sequências tem tamanhos próximos
    - Exemplo de programa : CLUSTAL


-Alinhamento local
    - útil para alinhamento entre sequências de tamanhos diferentes e também
    para sequências com apenas alguns trechos conservados
    - Exemplo de programa : BLAST E FASTA


-Alinhamento semi-global (ou pontas livres)
    - útil para encontrar sobreposições de fragmentos de sequenciamento
    - Exemplo de programa : PHRAP E CAP3
Alinhamento global
- Alinhamento de GACATTG com GATCAATG

 1a linha e 1a coluna de M são fáceis de computar:
           - G A C A T T G
    -      0      -2     -4 -6 -8 -10 -12 -14
    G     -2
    A     -4       G     GA
    T     -6       -     - -
    C     -8
    A   -10
    A   -12                           Lembre-se, penalidade
                                      de 1 gap = -2 e de dois
    T   -14                           gaps = -4
    G   -16

               http://bioweb.pasteur.fr/seqanal/interfaces/stretcher-simple.html
-    G      A      C     A      T       T G
         -      0   -2     -4    -6     -8 -10 -12 -14
         G     -2
         A     -4
         T     -6
         C     -8
         A   -10
         A   -12                        [i,j]=p(i,j)
         T   -14
         G   -16

- Para
    um elemento da matriz [i,j] qualquer, temos p(i,j) = 1 se for
um match e p(i,j) = -1 se for um mismatch.
-    G       A        C      A      T       T G
     -        0    -2      -4      -6      -8 -10 -12 -14
     G       -2
     A       -4
     T       -6
     C       -8
     A     -10                  [i-1,j-1] [i-1,j]
     A     -12                     [i,j-1] [i,j] = max([i-1,j] - 2,
     T     -14
                                                p(i,j),
                                                          [i-1,j-1] +
     G     -16                                            [i,j-1] - 2)

-O  valor de [i,j] é definido exclusivamente pelos elementos [i-1,j-1]
(diagonal), [i,j-1] (esquerda) e [i-1,j] (acima).
- Construindo o alinhamento

                           A           G             C
              0          -2            -4            -6

       A     -2           1            -1            -3

       A     -4           -1           0             -2
       A     -6           -3           -2            -1

       C     -8           -5           -4            -1

 No alinhamento global o alinhamento deve ser construído a partir
 do extremo da matriz
Alinhamento local (Smith-Waterman)
http://bioweb.pasteur.fr/seqanal/interfaces/water.html

                  -     G        A       C       A         T       T G
        -        0       0       0        0      0         0       0       0
        G        0
        A        0
        T        0
        C        0
        A        0                   [i-1,j-1] [i-1,j]
        A        0                      [i,j-1] [i,j] = max([i-1,j] - 2,
                                                                   [i-1,j-1] +
        T        0                                       p(i,j),
        G        0                                                 [i,j-1] – 2,
                                                                   0 zero)
- No alinhamento local a primeira linha e coluna são inicializadas com
zeros e os valores [i,j] da matriz inteira nunca ficam menores que zero
No alinhamento local o alinhamento deve ser construído partir do
maior score da matriz e para quando encontrar um score=0
Alinhamento semi-global

- Não penaliza espaços nas extremidades do
  alinhamento.
- Exemplo CAGCA –CTTGGATTCTCGC
                   || | | | |
             - - - CAGCGTGG - - - - - - - -
- No global teríamos,
         CAGCA – CTTGGATTCTCGC
         CAGC - - - - - - G - T - - - - - -
- Qual dos dois alinhamentos é mais
  interessante ?
- No alinhamento semi-global a primeira linha e coluna são
inicializadas com zeros. O resto é igual ao alinhamento global
- A abordagem de programação dinâmica é importante pois garante o melhor
alinhamento entre duas seguências, mas ainda temos um problema :
    - Lembram-se disso : se o alinhamento de 2 sequências de 100 pb leva 1
    segundo, o alinhamento de sequências de 10 Mpb (genoma de
    Saccharomyces) leva 377 anos
- A abordagem alternativa é conhecida como o método de k-tuplas, no qual
não é garantido encontrar o alinhamento ótimo (heurística) mas é
significantemente mais rápido. Com esse método os conceitos de alinhamento
discutidos acima foram modificados dando origem aos programas de
alinhamento local :
    - BLAST (Basic Local Align Sequence Tool) : Nucleic Acid Research 25
    (1990), 3389
    - FASTA : PNAS 85 (1988), 2444-2448
- Basicamente este método identifica uma série de palavras curtas em uma das
sequências (word size) e depois realiza uma busca exata por essas palavras nas
sequências a serem comparadas, filtrando assim os possíveis candidatos.
Alinhando proteínas




- Alinhamento proteína-proteína
- Alinhamento nucleotídeo-proteína
- Alinhamento proteína-nucleotídeo
- Alinhamento nucleotídeo-nucleotídeo (feito em proteínas)
Matrizes de substituição
- BLOSUM (BLOcks of amino acid SUbstitution Matrix )




     - I e V => Hidrofóbicos
     - D e W => D (carga negativa) e W (aromático)
     - C => pontes de sulfeto (estrutural)
-A matriz foi construída a partir de alinhamentos múltiplos globais
de 504 grupos de proteínas




 - BLOSUM 62 : grupos com similaridade >62%

 - BLOSUM 80 : grupos com similaridade >80%
 - BLOSUM 45 : grupos com similaridade >45%
  Query Length   Substitution Matrix
  <35            PAM-30
  35-50          PAM-70
  50-85          BLOSUM-80
  >85            BLOSUM-62                    PNAS 89 (1992), 10915-19919
BLAST
• Basic Local Alignment Search Tool
• Algoritmo BLAST (Alstchul et al.; 1990 – J. Biol., 215,
  403-410)
• Implementações: NCBI BLAST e WU-BLAST
• Acesso via web / local (linux)
• Consulta de seqüências em BDs biológicos (nt ou proteínas)
• Alinhamento – sobreposição de trechos semelhante de duas
  seqüências (seqs). BLAST traz pontuação e mostra
  alinhamentos.
• Similaridade – grau de semelhança de seqs num alinhamento.
• Homologia – genes com ancestral comum
• BDs – nucleotídeos, proteínas, domínios,
  genomas específicos, dados particulares
• Blastp – prot / prot (distantes)
• Blastn – nt / nt (próximos)
• Blastx – nt trad / prot (novas seqs)
• Tblastn – prot / nt trad (regiões não anotadas)
• Tblastx – nt trad / nt trad
Query       BD Compara Programa
       nt        nt    nt    blastn
   nt (trad)    aa     aa     blastx
      aa        aa     aa    blastp
      aa     nt (trad) aa    tblastn
   nt (trad) nt (trad) aa    tblastx
Query = formato da seq de entrada.
BD = formato das seqs do BD.
nt (trad) = seq em nt traduzida pelo programa.
Compara = o que é comparado, nucleotídeos (nt) ou aminoácidos (aa).
Programa = um dos cinco principais tipos de blast.
BLAST – resultado




        Escolher BD




            http://www.ncbi.nlm.nih.gov/blast/
ERRO!!



    Domínio encontrado
ID facilita busca
Alinhamentos 2011 2
Link




       Corte 1e-5
1    64
               query
               subject
1   71   134
BLAST – exemplos
>nucleotídeo 1
GTACAAAAAAGTTGGATTTAACTTTAATAGCTATATTAGTCAGTAATGTTATTGTTTGAT
GAAGGATTTTTTTATTAATAACTATTATTTTTATTTTGTTAAATAAAGGAAATAAGAGTT
ATAGAGGAATTTTTAATTATTTTGTTATTCAAGAAACTCTAGGATTGTTGTTTTTATTTT
TTTCTAGTAATTATATTCAGTTTATTATTTTAATAATGAAGATTGGAGTACCACCATTTC
ACTTTTGGGTTTTTAGTGTTACTAATAGTATTTTTAATTATGGGTTAGTGTGGTTTTTAA
CTATACAGATGTTACCTTTACTGGTAGTTTTATTACAGTTATTTGCTTCTGATATAGTGT
ATTTATTTCTTTTTGGTTTGTTTAGTTGTTATCAAGAGATGTTTATGCTGAAGGTATACA
GTACTTTATTAGTTGTATCATCAACTGAGTCTTTTAATTGA

>proteína 1
MSLKDFFERIEPDFEKGGKYEKFYALFEAAYTIFYTPGKVNKGKTHVRDNLDLKRMMITV
WACAFPAMFV
GMYNVGLQAQLALVAGFATPDVWQVSLFSMFGTELTANSGWPALMWYGACFFLPIYAVT
FAVGGIWEVLF
ASIRGHEVNEGFFVTSILFALTLPATIPLWMVALGITFGVVVAKEVFGGTGRNFLNPALAG
RAFLFFAYP
LNMSGDTSWVVADGYSGATALSQAAAGTLDYAINQNWWDSFFGFIPGSVGEVSTLAILLG
GLVIIYTRIA
SWRIVGGVMVGMIAISTLLNVVGSDTNPMFAMPWYWHLVLGGFAFGMMFMATDPVSAS
FTNQAKWAYGIL
IGAMAVFIRVINPAFPEGMMLAILFANLFAPLFDHFVVQANIKRRIARG


                                    http://www.ncbi.nlm.nih.gov/blast/
BLAST local
• Pode ser instalado localmente (Linux)
• BDs e atualizações
• Facilidades
  – Velocidade de buscas
  – Maleabilidade
  – Automatização
  – Dados locais
  – Independe de internet
-Download
    - ftp://ftp.ncbi.nih.gov/blast
- Preparação do banco de dados
    - formatdb –i <arquivo fasta db> -p T/F :
        - <arquivo fasta db> é o arquivo que contêm todas as sequências em
        nucleotídeo ou proteína que formarão o banco de dados do blast
        - -p T para arquivo fasta de proteínas e –p F para nucleotídeos
- Comparação via blast
    - blastall –i <arquivo fasta> -p blastn/blastx/blastp/tblastx/tblastx –d
    <arquivo fasta db> -o <arquivo de saída> -e 1e-5
        - -i arquivo fasta a ser comparado com o banco <arquivo fasta db>
        - -p tipo de comparação a ser realizada
        - -d banco de dados utilizado na comparação
        - -o arquivo de saída
        - -e evalue de corte
Resumo

- Revisão   BLAST
- PHI-BLAST
- PSI-BLAST
-BLAST2SEQS
Revisão
    Query       BD Compara Programa
       nt        nt    nt    blastn
   nt (trad)    aa     aa     blastx
      aa        aa     aa    blastp
      aa     nt (trad) aa    tblastn
   nt (trad) nt (trad) aa    tblastx
Query = formato da seq de entrada.
BD = formato das seqs do BD.
nt (trad) = seq em nt traduzida pelo programa.
Compara = o que é comparado, nucleotídeos (nt) ou aminoácidos (aa).
Programa = um dos cinco principais tipos de blast.
1    64
               query
               subject
1   71   134
PHI-BLAST
-Éum blastp com a opção de passar uma outra sequência curta ou
um padrão servindo como um vínculo para a consulta




     N - Qualquer nucleotídeo
     N(3) - Uma sequência de três nucleotídeos
                                                 Ex :
     N(2,4) - Uma sequência de 2,3 ou 4
     nucleotídeos                                [CG](5)TG{A}N(1,5)C
     [AC] - pode ser um A ou um C
     {AG} - não pode ser nem A e nem G
PSI-BLAST
-É  um blastp interativo no qual a matriz (BLOSUM), após a primeira
interação, é refeita com base nos alinhamentos entre as proteínas
resultantes da consulta :
        - uma posicão conservada no alinhamento recebe um score
alto e uma posição não conservada um score baixo
- É útil para encontrar membros distantes de famílias de proteínas
BL2SEQS
- Faz um blast de uma sequência contra a outra (blastn/blastx/blastp/tblastx/tblastn




                              -

Mais conteúdo relacionado

Mais procurados

Regulação e expressão gênica bacteriana
Regulação e expressão gênica bacterianaRegulação e expressão gênica bacteriana
Regulação e expressão gênica bacterianaUERGS
 
Introdução à Programação
Introdução à ProgramaçãoIntrodução à Programação
Introdução à ProgramaçãoMario Sergio
 
Aula 2 replicação, transcrição e tradução
Aula 2   replicação, transcrição e traduçãoAula 2   replicação, transcrição e tradução
Aula 2 replicação, transcrição e traduçãoFabio Artesanatos
 
Estrategias purificacao analises proteínas
Estrategias purificacao analises proteínasEstrategias purificacao analises proteínas
Estrategias purificacao analises proteínaskantidio
 
Reações de Substituição Nucleofílica e de Eliminação
Reações de Substituição Nucleofílica e de EliminaçãoReações de Substituição Nucleofílica e de Eliminação
Reações de Substituição Nucleofílica e de EliminaçãoJosé Nunes da Silva Jr.
 
Instalando e conectando banco de dados PostgreSQL + extensão espacial PostGIS...
Instalando e conectando banco de dados PostgreSQL + extensão espacial PostGIS...Instalando e conectando banco de dados PostgreSQL + extensão espacial PostGIS...
Instalando e conectando banco de dados PostgreSQL + extensão espacial PostGIS...Lucas Cavalcante
 
Lista de exercicios algoritmos resolvida-
Lista de exercicios   algoritmos  resolvida-Lista de exercicios   algoritmos  resolvida-
Lista de exercicios algoritmos resolvida-Mauro Pereira
 
Variaveis locais e globais
Variaveis locais e globaisVariaveis locais e globais
Variaveis locais e globais111111119
 
Sistemas tampão do organismo
Sistemas tampão do organismoSistemas tampão do organismo
Sistemas tampão do organismoEmmanuel Souza
 
Aula 03 tipos de fontes e uso do multimetro em fontes
Aula 03 tipos de fontes e uso do multimetro em fontesAula 03 tipos de fontes e uso do multimetro em fontes
Aula 03 tipos de fontes e uso do multimetro em fontesAlexandrino Sitoe
 
Bioquimica i 02 carboidratos
Bioquimica i 02   carboidratosBioquimica i 02   carboidratos
Bioquimica i 02 carboidratosJucie Vasconcelos
 
Introdução à Biologia Molecular
Introdução à Biologia MolecularIntrodução à Biologia Molecular
Introdução à Biologia MolecularMarcos Castro
 
Metabolismo de aminoácidos fsp
Metabolismo de aminoácidos fspMetabolismo de aminoácidos fsp
Metabolismo de aminoácidos fspMessias Miranda
 

Mais procurados (20)

Adição eletrofílica
Adição eletrofílicaAdição eletrofílica
Adição eletrofílica
 
Regulação e expressão gênica bacteriana
Regulação e expressão gênica bacterianaRegulação e expressão gênica bacteriana
Regulação e expressão gênica bacteriana
 
Introdução à Programação
Introdução à ProgramaçãoIntrodução à Programação
Introdução à Programação
 
Aula 2 replicação, transcrição e tradução
Aula 2   replicação, transcrição e traduçãoAula 2   replicação, transcrição e tradução
Aula 2 replicação, transcrição e tradução
 
Estrategias purificacao analises proteínas
Estrategias purificacao analises proteínasEstrategias purificacao analises proteínas
Estrategias purificacao analises proteínas
 
Reações de Substituição Nucleofílica e de Eliminação
Reações de Substituição Nucleofílica e de EliminaçãoReações de Substituição Nucleofílica e de Eliminação
Reações de Substituição Nucleofílica e de Eliminação
 
2 representação sep
2 representação sep2 representação sep
2 representação sep
 
Instalando e conectando banco de dados PostgreSQL + extensão espacial PostGIS...
Instalando e conectando banco de dados PostgreSQL + extensão espacial PostGIS...Instalando e conectando banco de dados PostgreSQL + extensão espacial PostGIS...
Instalando e conectando banco de dados PostgreSQL + extensão espacial PostGIS...
 
Lista de exercicios algoritmos resolvida-
Lista de exercicios   algoritmos  resolvida-Lista de exercicios   algoritmos  resolvida-
Lista de exercicios algoritmos resolvida-
 
Variaveis locais e globais
Variaveis locais e globaisVariaveis locais e globais
Variaveis locais e globais
 
Rna
RnaRna
Rna
 
Cromatografia em Camada Delgada
Cromatografia em Camada DelgadaCromatografia em Camada Delgada
Cromatografia em Camada Delgada
 
Clp aprendizagem clic2 weg
Clp aprendizagem clic2 wegClp aprendizagem clic2 weg
Clp aprendizagem clic2 weg
 
Sistemas tampão do organismo
Sistemas tampão do organismoSistemas tampão do organismo
Sistemas tampão do organismo
 
Aula 03 tipos de fontes e uso do multimetro em fontes
Aula 03 tipos de fontes e uso do multimetro em fontesAula 03 tipos de fontes e uso do multimetro em fontes
Aula 03 tipos de fontes e uso do multimetro em fontes
 
Bioquimica i 02 carboidratos
Bioquimica i 02   carboidratosBioquimica i 02   carboidratos
Bioquimica i 02 carboidratos
 
Introdução à Biologia Molecular
Introdução à Biologia MolecularIntrodução à Biologia Molecular
Introdução à Biologia Molecular
 
Metabolismo de aminoácidos fsp
Metabolismo de aminoácidos fspMetabolismo de aminoácidos fsp
Metabolismo de aminoácidos fsp
 
Conceito de processos
Conceito de processosConceito de processos
Conceito de processos
 
Sdac
SdacSdac
Sdac
 

Semelhante a Alinhamentos 2011 2

Plano de aula 1 º ano ensino medio - 1º bimestre
Plano de aula  1 º ano ensino medio - 1º bimestrePlano de aula  1 º ano ensino medio - 1º bimestre
Plano de aula 1 º ano ensino medio - 1º bimestreAngela Machado Verissimo
 
Plano de aula 1 º ano ensino medio - 1º bimestre
Plano de aula  1 º ano ensino medio - 1º bimestrePlano de aula  1 º ano ensino medio - 1º bimestre
Plano de aula 1 º ano ensino medio - 1º bimestreAngela Machado Verissimo
 
Algebra linear lista vi - autovalores e autovetores - unid iii
Algebra linear   lista vi - autovalores e autovetores - unid iiiAlgebra linear   lista vi - autovalores e autovetores - unid iii
Algebra linear lista vi - autovalores e autovetores - unid iiiDenise Oliveira
 
13 introducao a analise de algoritmos
13   introducao a analise de algoritmos13   introducao a analise de algoritmos
13 introducao a analise de algoritmosRicardo Bolanho
 
Algoritmo Needleman-Wunsch
Algoritmo Needleman-WunschAlgoritmo Needleman-Wunsch
Algoritmo Needleman-WunschMarcos Castro
 
Modelagem e inversão em coordenadas esféricas na gravimetria
Modelagem e inversão em coordenadas esféricas na gravimetriaModelagem e inversão em coordenadas esféricas na gravimetria
Modelagem e inversão em coordenadas esféricas na gravimetriaLeonardo Uieda
 
áLgebra linear apostila ii determinantes
áLgebra linear apostila ii   determinantesáLgebra linear apostila ii   determinantes
áLgebra linear apostila ii determinantesEng Amb
 
Linguagem Prolog - Antonio Rufino
Linguagem Prolog - Antonio RufinoLinguagem Prolog - Antonio Rufino
Linguagem Prolog - Antonio RufinoAntonio Rufino
 
Ita2009 3dia
Ita2009 3diaIta2009 3dia
Ita2009 3diacavip
 
PC_2020-2_EP07_Paridade. Inversa. Crescimento_GABARITO.pdf
PC_2020-2_EP07_Paridade. Inversa. Crescimento_GABARITO.pdfPC_2020-2_EP07_Paridade. Inversa. Crescimento_GABARITO.pdf
PC_2020-2_EP07_Paridade. Inversa. Crescimento_GABARITO.pdfssuserce7c52
 
Capitulo 1scilab
Capitulo 1scilabCapitulo 1scilab
Capitulo 1scilabwjunior
 
Introdução ao MATLAB
Introdução ao MATLABIntrodução ao MATLAB
Introdução ao MATLABCaioTelefonica
 
Aula 05 - Transformada de Laplace.pdf
Aula 05 - Transformada de Laplace.pdfAula 05 - Transformada de Laplace.pdf
Aula 05 - Transformada de Laplace.pdfPedroTVSouza
 
Slide sobre Bioinformatica testeteste.pdf
Slide sobre Bioinformatica testeteste.pdfSlide sobre Bioinformatica testeteste.pdf
Slide sobre Bioinformatica testeteste.pdfCianeDias2
 
Determinantes Sistemas Lineares
Determinantes Sistemas LinearesDeterminantes Sistemas Lineares
Determinantes Sistemas LinearesISJ
 
Determinantes sistemas lineares
Determinantes sistemas linearesDeterminantes sistemas lineares
Determinantes sistemas linearesISJ
 
Determinantes sistemas lineares
Determinantes sistemas linearesDeterminantes sistemas lineares
Determinantes sistemas linearesISJ
 
Funções, Equações e Inequações Trigonométricas
Funções, Equações e Inequações TrigonométricasFunções, Equações e Inequações Trigonométricas
Funções, Equações e Inequações TrigonométricasEverton Moraes
 
Ita2006 3dia
Ita2006 3diaIta2006 3dia
Ita2006 3diacavip
 

Semelhante a Alinhamentos 2011 2 (20)

Plano de aula 1 º ano ensino medio - 1º bimestre
Plano de aula  1 º ano ensino medio - 1º bimestrePlano de aula  1 º ano ensino medio - 1º bimestre
Plano de aula 1 º ano ensino medio - 1º bimestre
 
Plano de aula 1 º ano ensino medio - 1º bimestre
Plano de aula  1 º ano ensino medio - 1º bimestrePlano de aula  1 º ano ensino medio - 1º bimestre
Plano de aula 1 º ano ensino medio - 1º bimestre
 
Aula 4 poe
Aula 4 poeAula 4 poe
Aula 4 poe
 
Algebra linear lista vi - autovalores e autovetores - unid iii
Algebra linear   lista vi - autovalores e autovetores - unid iiiAlgebra linear   lista vi - autovalores e autovetores - unid iii
Algebra linear lista vi - autovalores e autovetores - unid iii
 
13 introducao a analise de algoritmos
13   introducao a analise de algoritmos13   introducao a analise de algoritmos
13 introducao a analise de algoritmos
 
Algoritmo Needleman-Wunsch
Algoritmo Needleman-WunschAlgoritmo Needleman-Wunsch
Algoritmo Needleman-Wunsch
 
Modelagem e inversão em coordenadas esféricas na gravimetria
Modelagem e inversão em coordenadas esféricas na gravimetriaModelagem e inversão em coordenadas esféricas na gravimetria
Modelagem e inversão em coordenadas esféricas na gravimetria
 
áLgebra linear apostila ii determinantes
áLgebra linear apostila ii   determinantesáLgebra linear apostila ii   determinantes
áLgebra linear apostila ii determinantes
 
Linguagem Prolog - Antonio Rufino
Linguagem Prolog - Antonio RufinoLinguagem Prolog - Antonio Rufino
Linguagem Prolog - Antonio Rufino
 
Ita2009 3dia
Ita2009 3diaIta2009 3dia
Ita2009 3dia
 
PC_2020-2_EP07_Paridade. Inversa. Crescimento_GABARITO.pdf
PC_2020-2_EP07_Paridade. Inversa. Crescimento_GABARITO.pdfPC_2020-2_EP07_Paridade. Inversa. Crescimento_GABARITO.pdf
PC_2020-2_EP07_Paridade. Inversa. Crescimento_GABARITO.pdf
 
Capitulo 1scilab
Capitulo 1scilabCapitulo 1scilab
Capitulo 1scilab
 
Introdução ao MATLAB
Introdução ao MATLABIntrodução ao MATLAB
Introdução ao MATLAB
 
Aula 05 - Transformada de Laplace.pdf
Aula 05 - Transformada de Laplace.pdfAula 05 - Transformada de Laplace.pdf
Aula 05 - Transformada de Laplace.pdf
 
Slide sobre Bioinformatica testeteste.pdf
Slide sobre Bioinformatica testeteste.pdfSlide sobre Bioinformatica testeteste.pdf
Slide sobre Bioinformatica testeteste.pdf
 
Determinantes Sistemas Lineares
Determinantes Sistemas LinearesDeterminantes Sistemas Lineares
Determinantes Sistemas Lineares
 
Determinantes sistemas lineares
Determinantes sistemas linearesDeterminantes sistemas lineares
Determinantes sistemas lineares
 
Determinantes sistemas lineares
Determinantes sistemas linearesDeterminantes sistemas lineares
Determinantes sistemas lineares
 
Funções, Equações e Inequações Trigonométricas
Funções, Equações e Inequações TrigonométricasFunções, Equações e Inequações Trigonométricas
Funções, Equações e Inequações Trigonométricas
 
Ita2006 3dia
Ita2006 3diaIta2006 3dia
Ita2006 3dia
 

Mais de UERGS

Aula 1 - Biodiversidade e os Recursos Genéticos [Salvo automaticamente].pptx
Aula 1 - Biodiversidade e os Recursos Genéticos [Salvo automaticamente].pptxAula 1 - Biodiversidade e os Recursos Genéticos [Salvo automaticamente].pptx
Aula 1 - Biodiversidade e os Recursos Genéticos [Salvo automaticamente].pptxUERGS
 
Nutrigenômica e nutrigenética
Nutrigenômica e nutrigenéticaNutrigenômica e nutrigenética
Nutrigenômica e nutrigenéticaUERGS
 
Introdução a genetica
Introdução a geneticaIntrodução a genetica
Introdução a geneticaUERGS
 
Princípios gerais da conservação de alimentos
Princípios gerais da conservação de alimentosPrincípios gerais da conservação de alimentos
Princípios gerais da conservação de alimentosUERGS
 
Definição, classificação, composição e conservação aula 2
Definição, classificação, composição e conservação aula 2Definição, classificação, composição e conservação aula 2
Definição, classificação, composição e conservação aula 2UERGS
 
Conservação por utilização de temperaturas
Conservação por utilização de temperaturasConservação por utilização de temperaturas
Conservação por utilização de temperaturasUERGS
 
Conservação pelo uso do frio
Conservação pelo uso do frioConservação pelo uso do frio
Conservação pelo uso do frioUERGS
 
Tópicos especiais biodiesel
Tópicos especiais   biodieselTópicos especiais   biodiesel
Tópicos especiais biodieselUERGS
 
Bioquimica de alimentos proteases
Bioquimica de alimentos   proteasesBioquimica de alimentos   proteases
Bioquimica de alimentos proteasesUERGS
 
Bioquimica da maturação das frutas
Bioquimica da maturação das frutasBioquimica da maturação das frutas
Bioquimica da maturação das frutasUERGS
 
Controle do amadurecimento e senescência dos frutos
Controle do amadurecimento e senescência dos frutosControle do amadurecimento e senescência dos frutos
Controle do amadurecimento e senescência dos frutosUERGS
 
Instrumentos óticos
Instrumentos óticosInstrumentos óticos
Instrumentos óticosUERGS
 
Analise espectro eletromagnética
Analise espectro eletromagnéticaAnalise espectro eletromagnética
Analise espectro eletromagnéticaUERGS
 
Bioquímica de alimentos - Carboidrases
Bioquímica de alimentos - CarboidrasesBioquímica de alimentos - Carboidrases
Bioquímica de alimentos - CarboidrasesUERGS
 
Enzimas
EnzimasEnzimas
EnzimasUERGS
 
Recuperação de áreas degradadas
Recuperação de áreas degradadasRecuperação de áreas degradadas
Recuperação de áreas degradadasUERGS
 
Segurança alimentar e ogms
Segurança alimentar e ogmsSegurança alimentar e ogms
Segurança alimentar e ogmsUERGS
 
Impacto ambiental, analise de riscos
Impacto ambiental, analise de riscosImpacto ambiental, analise de riscos
Impacto ambiental, analise de riscosUERGS
 
Impacto ambiental dos resíduos agroindustriais
Impacto ambiental dos resíduos agroindustriaisImpacto ambiental dos resíduos agroindustriais
Impacto ambiental dos resíduos agroindustriaisUERGS
 
Resíduos agroindustriais
Resíduos agroindustriaisResíduos agroindustriais
Resíduos agroindustriaisUERGS
 

Mais de UERGS (20)

Aula 1 - Biodiversidade e os Recursos Genéticos [Salvo automaticamente].pptx
Aula 1 - Biodiversidade e os Recursos Genéticos [Salvo automaticamente].pptxAula 1 - Biodiversidade e os Recursos Genéticos [Salvo automaticamente].pptx
Aula 1 - Biodiversidade e os Recursos Genéticos [Salvo automaticamente].pptx
 
Nutrigenômica e nutrigenética
Nutrigenômica e nutrigenéticaNutrigenômica e nutrigenética
Nutrigenômica e nutrigenética
 
Introdução a genetica
Introdução a geneticaIntrodução a genetica
Introdução a genetica
 
Princípios gerais da conservação de alimentos
Princípios gerais da conservação de alimentosPrincípios gerais da conservação de alimentos
Princípios gerais da conservação de alimentos
 
Definição, classificação, composição e conservação aula 2
Definição, classificação, composição e conservação aula 2Definição, classificação, composição e conservação aula 2
Definição, classificação, composição e conservação aula 2
 
Conservação por utilização de temperaturas
Conservação por utilização de temperaturasConservação por utilização de temperaturas
Conservação por utilização de temperaturas
 
Conservação pelo uso do frio
Conservação pelo uso do frioConservação pelo uso do frio
Conservação pelo uso do frio
 
Tópicos especiais biodiesel
Tópicos especiais   biodieselTópicos especiais   biodiesel
Tópicos especiais biodiesel
 
Bioquimica de alimentos proteases
Bioquimica de alimentos   proteasesBioquimica de alimentos   proteases
Bioquimica de alimentos proteases
 
Bioquimica da maturação das frutas
Bioquimica da maturação das frutasBioquimica da maturação das frutas
Bioquimica da maturação das frutas
 
Controle do amadurecimento e senescência dos frutos
Controle do amadurecimento e senescência dos frutosControle do amadurecimento e senescência dos frutos
Controle do amadurecimento e senescência dos frutos
 
Instrumentos óticos
Instrumentos óticosInstrumentos óticos
Instrumentos óticos
 
Analise espectro eletromagnética
Analise espectro eletromagnéticaAnalise espectro eletromagnética
Analise espectro eletromagnética
 
Bioquímica de alimentos - Carboidrases
Bioquímica de alimentos - CarboidrasesBioquímica de alimentos - Carboidrases
Bioquímica de alimentos - Carboidrases
 
Enzimas
EnzimasEnzimas
Enzimas
 
Recuperação de áreas degradadas
Recuperação de áreas degradadasRecuperação de áreas degradadas
Recuperação de áreas degradadas
 
Segurança alimentar e ogms
Segurança alimentar e ogmsSegurança alimentar e ogms
Segurança alimentar e ogms
 
Impacto ambiental, analise de riscos
Impacto ambiental, analise de riscosImpacto ambiental, analise de riscos
Impacto ambiental, analise de riscos
 
Impacto ambiental dos resíduos agroindustriais
Impacto ambiental dos resíduos agroindustriaisImpacto ambiental dos resíduos agroindustriais
Impacto ambiental dos resíduos agroindustriais
 
Resíduos agroindustriais
Resíduos agroindustriaisResíduos agroindustriais
Resíduos agroindustriais
 

Alinhamentos 2011 2

  • 1. Métodos de alinhamento de sequencias biológicas DRA. ADRIANA DANTAS UERGS, BENTO GONÇALVES, RS
  • 2. Introdução ? - Uma forma rápida de agregar alguma informação sobre uma sequência desconhecida é compará-la com um banco de dados de sequências com funções conhecidas - Esta comparação é feita através de alinhamentos par a par entre as sequências. Isto é, se o banco de dados possuir 1000 sequências conhecidas serão realizados 1000 alinhamentos
  • 3. - Tipicamente são usados os bancos de dados mundiais (NCBI, EMBL) Fonte: http://www3.ebi.ac.uk/Services/DBStats/ - Atualmente uma busca nesses bancos faz 100,000,000 de alinhamentos
  • 4. Existem vários programas de alinhamentos com diferentes metodologias, sendo que o mais utilizado é o BLAST
  • 5. Relevância biológica - Para o biólogo é essencial que esses alinhamentos indiquem uma real similaridade entre as sequências (estatisticamente significantes) - Similaridade x Homologia - identidade = número que indica a quantidade de nucleotídeos alinhados - similaridade = considera a probabilidade do alinhamento ter ocorrido por acaso (e-value). Considera todos os outros possíveis alinhamentos - homologia = dividem a mesma ancestralidade com significado evolutivo
  • 7. Outras aplicações - Reconstruçãoda sequência consensu a partir de sobreposições de fragmentos de sequências (montagens de sequencias de DNA) - Alinhamento entre sequências de ESTs e DNA genômico - Comparação entre proteínas e DNA - Construção de mapas físicos - Comparação entre genomas - ...
  • 8. Alinhamentos o A comparação entre sequências de DNA de organismos diferentes é baseada no conceito de que estes organismos originaram-se de um ancestral comum. o No contexto de evolução as sequências de DNA sofrem mutações. Estas modificações locais entre os nucleotídeos podem ser : o Inserções : inserção de uma base ou várias bases na sequência o Deleções : deleção de uma base ou mais bases na sequência o Substituições : substituição de uma base por outra o Portanto um programa de alinhamento de sequências biológicas tem que considerar essas mutações
  • 9. Exemplo : Gap = -2 Match = 1 Mismatch = -1 - Gaps representam as inserções e deleções entre as sequências - O melhor alinhamento entre duas sequências é aquele que maximiza o score : - Score = #Matchs * (1) + #Mismatch * (-1) + #Gaps * (-2) = 24 – 4 – 10 = 10
  • 10. Modelos para alinhamentos - Alinhamento global - útil quando as duas sequências tem tamanhos próximos - Exemplo de programa : CLUSTAL -Alinhamento local - útil para alinhamento entre sequências de tamanhos diferentes e também para sequências com apenas alguns trechos conservados - Exemplo de programa : BLAST E FASTA -Alinhamento semi-global (ou pontas livres) - útil para encontrar sobreposições de fragmentos de sequenciamento - Exemplo de programa : PHRAP E CAP3
  • 11. Alinhamento global - Alinhamento de GACATTG com GATCAATG 1a linha e 1a coluna de M são fáceis de computar: - G A C A T T G - 0 -2 -4 -6 -8 -10 -12 -14 G -2 A -4 G GA T -6 - - - C -8 A -10 A -12 Lembre-se, penalidade de 1 gap = -2 e de dois T -14 gaps = -4 G -16 http://bioweb.pasteur.fr/seqanal/interfaces/stretcher-simple.html
  • 12. - G A C A T T G - 0 -2 -4 -6 -8 -10 -12 -14 G -2 A -4 T -6 C -8 A -10 A -12 [i,j]=p(i,j) T -14 G -16 - Para um elemento da matriz [i,j] qualquer, temos p(i,j) = 1 se for um match e p(i,j) = -1 se for um mismatch.
  • 13. - G A C A T T G - 0 -2 -4 -6 -8 -10 -12 -14 G -2 A -4 T -6 C -8 A -10 [i-1,j-1] [i-1,j] A -12 [i,j-1] [i,j] = max([i-1,j] - 2, T -14 p(i,j), [i-1,j-1] + G -16 [i,j-1] - 2) -O valor de [i,j] é definido exclusivamente pelos elementos [i-1,j-1] (diagonal), [i,j-1] (esquerda) e [i-1,j] (acima).
  • 14. - Construindo o alinhamento A G C 0 -2 -4 -6 A -2 1 -1 -3 A -4 -1 0 -2 A -6 -3 -2 -1 C -8 -5 -4 -1 No alinhamento global o alinhamento deve ser construído a partir do extremo da matriz
  • 15. Alinhamento local (Smith-Waterman) http://bioweb.pasteur.fr/seqanal/interfaces/water.html - G A C A T T G - 0 0 0 0 0 0 0 0 G 0 A 0 T 0 C 0 A 0 [i-1,j-1] [i-1,j] A 0 [i,j-1] [i,j] = max([i-1,j] - 2, [i-1,j-1] + T 0 p(i,j), G 0 [i,j-1] – 2, 0 zero) - No alinhamento local a primeira linha e coluna são inicializadas com zeros e os valores [i,j] da matriz inteira nunca ficam menores que zero
  • 16. No alinhamento local o alinhamento deve ser construído partir do maior score da matriz e para quando encontrar um score=0
  • 17. Alinhamento semi-global - Não penaliza espaços nas extremidades do alinhamento. - Exemplo CAGCA –CTTGGATTCTCGC || | | | | - - - CAGCGTGG - - - - - - - - - No global teríamos, CAGCA – CTTGGATTCTCGC CAGC - - - - - - G - T - - - - - - - Qual dos dois alinhamentos é mais interessante ?
  • 18. - No alinhamento semi-global a primeira linha e coluna são inicializadas com zeros. O resto é igual ao alinhamento global
  • 19. - A abordagem de programação dinâmica é importante pois garante o melhor alinhamento entre duas seguências, mas ainda temos um problema : - Lembram-se disso : se o alinhamento de 2 sequências de 100 pb leva 1 segundo, o alinhamento de sequências de 10 Mpb (genoma de Saccharomyces) leva 377 anos - A abordagem alternativa é conhecida como o método de k-tuplas, no qual não é garantido encontrar o alinhamento ótimo (heurística) mas é significantemente mais rápido. Com esse método os conceitos de alinhamento discutidos acima foram modificados dando origem aos programas de alinhamento local : - BLAST (Basic Local Align Sequence Tool) : Nucleic Acid Research 25 (1990), 3389 - FASTA : PNAS 85 (1988), 2444-2448 - Basicamente este método identifica uma série de palavras curtas em uma das sequências (word size) e depois realiza uma busca exata por essas palavras nas sequências a serem comparadas, filtrando assim os possíveis candidatos.
  • 20. Alinhando proteínas - Alinhamento proteína-proteína - Alinhamento nucleotídeo-proteína - Alinhamento proteína-nucleotídeo - Alinhamento nucleotídeo-nucleotídeo (feito em proteínas)
  • 21. Matrizes de substituição - BLOSUM (BLOcks of amino acid SUbstitution Matrix ) - I e V => Hidrofóbicos - D e W => D (carga negativa) e W (aromático) - C => pontes de sulfeto (estrutural)
  • 22. -A matriz foi construída a partir de alinhamentos múltiplos globais de 504 grupos de proteínas - BLOSUM 62 : grupos com similaridade >62% - BLOSUM 80 : grupos com similaridade >80% - BLOSUM 45 : grupos com similaridade >45% Query Length Substitution Matrix <35 PAM-30 35-50 PAM-70 50-85 BLOSUM-80 >85 BLOSUM-62 PNAS 89 (1992), 10915-19919
  • 23. BLAST • Basic Local Alignment Search Tool • Algoritmo BLAST (Alstchul et al.; 1990 – J. Biol., 215, 403-410) • Implementações: NCBI BLAST e WU-BLAST • Acesso via web / local (linux) • Consulta de seqüências em BDs biológicos (nt ou proteínas) • Alinhamento – sobreposição de trechos semelhante de duas seqüências (seqs). BLAST traz pontuação e mostra alinhamentos. • Similaridade – grau de semelhança de seqs num alinhamento. • Homologia – genes com ancestral comum
  • 24. • BDs – nucleotídeos, proteínas, domínios, genomas específicos, dados particulares • Blastp – prot / prot (distantes) • Blastn – nt / nt (próximos) • Blastx – nt trad / prot (novas seqs) • Tblastn – prot / nt trad (regiões não anotadas) • Tblastx – nt trad / nt trad
  • 25. Query BD Compara Programa nt nt nt blastn nt (trad) aa aa blastx aa aa aa blastp aa nt (trad) aa tblastn nt (trad) nt (trad) aa tblastx Query = formato da seq de entrada. BD = formato das seqs do BD. nt (trad) = seq em nt traduzida pelo programa. Compara = o que é comparado, nucleotídeos (nt) ou aminoácidos (aa). Programa = um dos cinco principais tipos de blast.
  • 26. BLAST – resultado Escolher BD http://www.ncbi.nlm.nih.gov/blast/
  • 27. ERRO!! Domínio encontrado ID facilita busca
  • 29. Link Corte 1e-5
  • 30. 1 64 query subject 1 71 134
  • 31. BLAST – exemplos >nucleotídeo 1 GTACAAAAAAGTTGGATTTAACTTTAATAGCTATATTAGTCAGTAATGTTATTGTTTGAT GAAGGATTTTTTTATTAATAACTATTATTTTTATTTTGTTAAATAAAGGAAATAAGAGTT ATAGAGGAATTTTTAATTATTTTGTTATTCAAGAAACTCTAGGATTGTTGTTTTTATTTT TTTCTAGTAATTATATTCAGTTTATTATTTTAATAATGAAGATTGGAGTACCACCATTTC ACTTTTGGGTTTTTAGTGTTACTAATAGTATTTTTAATTATGGGTTAGTGTGGTTTTTAA CTATACAGATGTTACCTTTACTGGTAGTTTTATTACAGTTATTTGCTTCTGATATAGTGT ATTTATTTCTTTTTGGTTTGTTTAGTTGTTATCAAGAGATGTTTATGCTGAAGGTATACA GTACTTTATTAGTTGTATCATCAACTGAGTCTTTTAATTGA >proteína 1 MSLKDFFERIEPDFEKGGKYEKFYALFEAAYTIFYTPGKVNKGKTHVRDNLDLKRMMITV WACAFPAMFV GMYNVGLQAQLALVAGFATPDVWQVSLFSMFGTELTANSGWPALMWYGACFFLPIYAVT FAVGGIWEVLF ASIRGHEVNEGFFVTSILFALTLPATIPLWMVALGITFGVVVAKEVFGGTGRNFLNPALAG RAFLFFAYP LNMSGDTSWVVADGYSGATALSQAAAGTLDYAINQNWWDSFFGFIPGSVGEVSTLAILLG GLVIIYTRIA SWRIVGGVMVGMIAISTLLNVVGSDTNPMFAMPWYWHLVLGGFAFGMMFMATDPVSAS FTNQAKWAYGIL IGAMAVFIRVINPAFPEGMMLAILFANLFAPLFDHFVVQANIKRRIARG http://www.ncbi.nlm.nih.gov/blast/
  • 32. BLAST local • Pode ser instalado localmente (Linux) • BDs e atualizações • Facilidades – Velocidade de buscas – Maleabilidade – Automatização – Dados locais – Independe de internet
  • 33. -Download - ftp://ftp.ncbi.nih.gov/blast - Preparação do banco de dados - formatdb –i <arquivo fasta db> -p T/F : - <arquivo fasta db> é o arquivo que contêm todas as sequências em nucleotídeo ou proteína que formarão o banco de dados do blast - -p T para arquivo fasta de proteínas e –p F para nucleotídeos - Comparação via blast - blastall –i <arquivo fasta> -p blastn/blastx/blastp/tblastx/tblastx –d <arquivo fasta db> -o <arquivo de saída> -e 1e-5 - -i arquivo fasta a ser comparado com o banco <arquivo fasta db> - -p tipo de comparação a ser realizada - -d banco de dados utilizado na comparação - -o arquivo de saída - -e evalue de corte
  • 34. Resumo - Revisão BLAST - PHI-BLAST - PSI-BLAST -BLAST2SEQS
  • 35. Revisão Query BD Compara Programa nt nt nt blastn nt (trad) aa aa blastx aa aa aa blastp aa nt (trad) aa tblastn nt (trad) nt (trad) aa tblastx Query = formato da seq de entrada. BD = formato das seqs do BD. nt (trad) = seq em nt traduzida pelo programa. Compara = o que é comparado, nucleotídeos (nt) ou aminoácidos (aa). Programa = um dos cinco principais tipos de blast.
  • 36. 1 64 query subject 1 71 134
  • 37. PHI-BLAST -Éum blastp com a opção de passar uma outra sequência curta ou um padrão servindo como um vínculo para a consulta N - Qualquer nucleotídeo N(3) - Uma sequência de três nucleotídeos Ex : N(2,4) - Uma sequência de 2,3 ou 4 nucleotídeos [CG](5)TG{A}N(1,5)C [AC] - pode ser um A ou um C {AG} - não pode ser nem A e nem G
  • 38. PSI-BLAST -É um blastp interativo no qual a matriz (BLOSUM), após a primeira interação, é refeita com base nos alinhamentos entre as proteínas resultantes da consulta : - uma posicão conservada no alinhamento recebe um score alto e uma posição não conservada um score baixo - É útil para encontrar membros distantes de famílias de proteínas
  • 39. BL2SEQS - Faz um blast de uma sequência contra a outra (blastn/blastx/blastp/tblastx/tblastn -