Alinhamentos 2011 2

781 visualizações

Publicada em

0 comentários
1 gostou
Estatísticas
Notas
  • Seja o primeiro a comentar

Sem downloads
Visualizações
Visualizações totais
781
No SlideShare
0
A partir de incorporações
0
Número de incorporações
2
Ações
Compartilhamentos
0
Downloads
42
Comentários
0
Gostaram
1
Incorporações 0
Nenhuma incorporação

Nenhuma nota no slide

Alinhamentos 2011 2

  1. 1. Métodos de alinhamento de sequencias biológicas DRA. ADRIANA DANTAS UERGS, BENTO GONÇALVES, RS
  2. 2. Introdução ?- Uma forma rápida de agregar alguma informação sobreuma sequência desconhecida é compará-la com umbanco de dados de sequências com funções conhecidas- Esta comparação é feita através de alinhamentos par apar entre as sequências. Isto é, se o banco de dadospossuir 1000 sequências conhecidas serão realizados1000 alinhamentos
  3. 3. - Tipicamente são usados os bancos de dados mundiais (NCBI, EMBL) Fonte: http://www3.ebi.ac.uk/Services/DBStats/- Atualmente uma busca nesses bancos faz 100,000,000 de alinhamentos
  4. 4. Existem vários programas de alinhamentos com diferentes metodologias,sendo que o mais utilizado é o BLAST
  5. 5. Relevância biológica- Para o biólogo é essencial que esses alinhamentos indiquem umareal similaridade entre as sequências (estatisticamente significantes)- Similaridade x Homologia - identidade = número que indica a quantidade de nucleotídeos alinhados - similaridade = considera a probabilidade do alinhamento ter ocorrido por acaso (e-value). Considera todos os outros possíveis alinhamentos - homologia = dividem a mesma ancestralidade com significado evolutivo
  6. 6. Outras aplicações- Reconstruçãoda sequência consensu a partir de sobreposiçõesde fragmentos de sequências (montagens de sequencias de DNA)- Alinhamento entre sequências de ESTs e DNA genômico- Comparação entre proteínas e DNA- Construção de mapas físicos- Comparação entre genomas- ...
  7. 7. Alinhamentoso A comparação entre sequências de DNA de organismos diferentes é baseada no conceito de que estes organismos originaram-se de um ancestral comum.o No contexto de evolução as sequências de DNA sofrem mutações. Estas modificações locais entre os nucleotídeos podem ser : o Inserções : inserção de uma base ou várias bases na sequência o Deleções : deleção de uma base ou mais bases na sequência o Substituições : substituição de uma base por outrao Portanto um programa de alinhamento de sequências biológicas tem que considerar essas mutações
  8. 8. Exemplo : Gap = -2 Match = 1 Mismatch = -1- Gaps representam as inserções e deleções entre as sequências- O melhor alinhamento entre duas sequências é aquele quemaximiza o score : - Score = #Matchs * (1) + #Mismatch * (-1) + #Gaps * (-2) = 24 – 4 – 10 = 10
  9. 9. Modelos para alinhamentos- Alinhamento global - útil quando as duas sequências tem tamanhos próximos - Exemplo de programa : CLUSTAL-Alinhamento local - útil para alinhamento entre sequências de tamanhos diferentes e também para sequências com apenas alguns trechos conservados - Exemplo de programa : BLAST E FASTA-Alinhamento semi-global (ou pontas livres) - útil para encontrar sobreposições de fragmentos de sequenciamento - Exemplo de programa : PHRAP E CAP3
  10. 10. Alinhamento global- Alinhamento de GACATTG com GATCAATG 1a linha e 1a coluna de M são fáceis de computar: - G A C A T T G - 0 -2 -4 -6 -8 -10 -12 -14 G -2 A -4 G GA T -6 - - - C -8 A -10 A -12 Lembre-se, penalidade de 1 gap = -2 e de dois T -14 gaps = -4 G -16 http://bioweb.pasteur.fr/seqanal/interfaces/stretcher-simple.html
  11. 11. - G A C A T T G - 0 -2 -4 -6 -8 -10 -12 -14 G -2 A -4 T -6 C -8 A -10 A -12 [i,j]=p(i,j) T -14 G -16- Para um elemento da matriz [i,j] qualquer, temos p(i,j) = 1 se forum match e p(i,j) = -1 se for um mismatch.
  12. 12. - G A C A T T G - 0 -2 -4 -6 -8 -10 -12 -14 G -2 A -4 T -6 C -8 A -10 [i-1,j-1] [i-1,j] A -12 [i,j-1] [i,j] = max([i-1,j] - 2, T -14 p(i,j), [i-1,j-1] + G -16 [i,j-1] - 2)-O valor de [i,j] é definido exclusivamente pelos elementos [i-1,j-1](diagonal), [i,j-1] (esquerda) e [i-1,j] (acima).
  13. 13. - Construindo o alinhamento A G C 0 -2 -4 -6 A -2 1 -1 -3 A -4 -1 0 -2 A -6 -3 -2 -1 C -8 -5 -4 -1 No alinhamento global o alinhamento deve ser construído a partir do extremo da matriz
  14. 14. Alinhamento local (Smith-Waterman)http://bioweb.pasteur.fr/seqanal/interfaces/water.html - G A C A T T G - 0 0 0 0 0 0 0 0 G 0 A 0 T 0 C 0 A 0 [i-1,j-1] [i-1,j] A 0 [i,j-1] [i,j] = max([i-1,j] - 2, [i-1,j-1] + T 0 p(i,j), G 0 [i,j-1] – 2, 0 zero)- No alinhamento local a primeira linha e coluna são inicializadas comzeros e os valores [i,j] da matriz inteira nunca ficam menores que zero
  15. 15. No alinhamento local o alinhamento deve ser construído partir domaior score da matriz e para quando encontrar um score=0
  16. 16. Alinhamento semi-global- Não penaliza espaços nas extremidades do alinhamento.- Exemplo CAGCA –CTTGGATTCTCGC || | | | | - - - CAGCGTGG - - - - - - - -- No global teríamos, CAGCA – CTTGGATTCTCGC CAGC - - - - - - G - T - - - - - -- Qual dos dois alinhamentos é mais interessante ?
  17. 17. - No alinhamento semi-global a primeira linha e coluna sãoinicializadas com zeros. O resto é igual ao alinhamento global
  18. 18. - A abordagem de programação dinâmica é importante pois garante o melhoralinhamento entre duas seguências, mas ainda temos um problema : - Lembram-se disso : se o alinhamento de 2 sequências de 100 pb leva 1 segundo, o alinhamento de sequências de 10 Mpb (genoma de Saccharomyces) leva 377 anos- A abordagem alternativa é conhecida como o método de k-tuplas, no qualnão é garantido encontrar o alinhamento ótimo (heurística) mas ésignificantemente mais rápido. Com esse método os conceitos de alinhamentodiscutidos acima foram modificados dando origem aos programas dealinhamento local : - BLAST (Basic Local Align Sequence Tool) : Nucleic Acid Research 25 (1990), 3389 - FASTA : PNAS 85 (1988), 2444-2448- Basicamente este método identifica uma série de palavras curtas em uma dassequências (word size) e depois realiza uma busca exata por essas palavras nassequências a serem comparadas, filtrando assim os possíveis candidatos.
  19. 19. Alinhando proteínas- Alinhamento proteína-proteína- Alinhamento nucleotídeo-proteína- Alinhamento proteína-nucleotídeo- Alinhamento nucleotídeo-nucleotídeo (feito em proteínas)
  20. 20. Matrizes de substituição- BLOSUM (BLOcks of amino acid SUbstitution Matrix ) - I e V => Hidrofóbicos - D e W => D (carga negativa) e W (aromático) - C => pontes de sulfeto (estrutural)
  21. 21. -A matriz foi construída a partir de alinhamentos múltiplos globaisde 504 grupos de proteínas - BLOSUM 62 : grupos com similaridade >62% - BLOSUM 80 : grupos com similaridade >80% - BLOSUM 45 : grupos com similaridade >45% Query Length Substitution Matrix <35 PAM-30 35-50 PAM-70 50-85 BLOSUM-80 >85 BLOSUM-62 PNAS 89 (1992), 10915-19919
  22. 22. BLAST• Basic Local Alignment Search Tool• Algoritmo BLAST (Alstchul et al.; 1990 – J. Biol., 215, 403-410)• Implementações: NCBI BLAST e WU-BLAST• Acesso via web / local (linux)• Consulta de seqüências em BDs biológicos (nt ou proteínas)• Alinhamento – sobreposição de trechos semelhante de duas seqüências (seqs). BLAST traz pontuação e mostra alinhamentos.• Similaridade – grau de semelhança de seqs num alinhamento.• Homologia – genes com ancestral comum
  23. 23. • BDs – nucleotídeos, proteínas, domínios, genomas específicos, dados particulares• Blastp – prot / prot (distantes)• Blastn – nt / nt (próximos)• Blastx – nt trad / prot (novas seqs)• Tblastn – prot / nt trad (regiões não anotadas)• Tblastx – nt trad / nt trad
  24. 24. Query BD Compara Programa nt nt nt blastn nt (trad) aa aa blastx aa aa aa blastp aa nt (trad) aa tblastn nt (trad) nt (trad) aa tblastxQuery = formato da seq de entrada.BD = formato das seqs do BD.nt (trad) = seq em nt traduzida pelo programa.Compara = o que é comparado, nucleotídeos (nt) ou aminoácidos (aa).Programa = um dos cinco principais tipos de blast.
  25. 25. BLAST – resultado Escolher BD http://www.ncbi.nlm.nih.gov/blast/
  26. 26. ERRO!! Domínio encontradoID facilita busca
  27. 27. Link Corte 1e-5
  28. 28. 1 64 query subject1 71 134
  29. 29. BLAST – exemplos>nucleotídeo 1GTACAAAAAAGTTGGATTTAACTTTAATAGCTATATTAGTCAGTAATGTTATTGTTTGATGAAGGATTTTTTTATTAATAACTATTATTTTTATTTTGTTAAATAAAGGAAATAAGAGTTATAGAGGAATTTTTAATTATTTTGTTATTCAAGAAACTCTAGGATTGTTGTTTTTATTTTTTTCTAGTAATTATATTCAGTTTATTATTTTAATAATGAAGATTGGAGTACCACCATTTCACTTTTGGGTTTTTAGTGTTACTAATAGTATTTTTAATTATGGGTTAGTGTGGTTTTTAACTATACAGATGTTACCTTTACTGGTAGTTTTATTACAGTTATTTGCTTCTGATATAGTGTATTTATTTCTTTTTGGTTTGTTTAGTTGTTATCAAGAGATGTTTATGCTGAAGGTATACAGTACTTTATTAGTTGTATCATCAACTGAGTCTTTTAATTGA>proteína 1MSLKDFFERIEPDFEKGGKYEKFYALFEAAYTIFYTPGKVNKGKTHVRDNLDLKRMMITVWACAFPAMFVGMYNVGLQAQLALVAGFATPDVWQVSLFSMFGTELTANSGWPALMWYGACFFLPIYAVTFAVGGIWEVLFASIRGHEVNEGFFVTSILFALTLPATIPLWMVALGITFGVVVAKEVFGGTGRNFLNPALAGRAFLFFAYPLNMSGDTSWVVADGYSGATALSQAAAGTLDYAINQNWWDSFFGFIPGSVGEVSTLAILLGGLVIIYTRIASWRIVGGVMVGMIAISTLLNVVGSDTNPMFAMPWYWHLVLGGFAFGMMFMATDPVSASFTNQAKWAYGILIGAMAVFIRVINPAFPEGMMLAILFANLFAPLFDHFVVQANIKRRIARG http://www.ncbi.nlm.nih.gov/blast/
  30. 30. BLAST local• Pode ser instalado localmente (Linux)• BDs e atualizações• Facilidades – Velocidade de buscas – Maleabilidade – Automatização – Dados locais – Independe de internet
  31. 31. -Download - ftp://ftp.ncbi.nih.gov/blast- Preparação do banco de dados - formatdb –i <arquivo fasta db> -p T/F : - <arquivo fasta db> é o arquivo que contêm todas as sequências em nucleotídeo ou proteína que formarão o banco de dados do blast - -p T para arquivo fasta de proteínas e –p F para nucleotídeos- Comparação via blast - blastall –i <arquivo fasta> -p blastn/blastx/blastp/tblastx/tblastx –d <arquivo fasta db> -o <arquivo de saída> -e 1e-5 - -i arquivo fasta a ser comparado com o banco <arquivo fasta db> - -p tipo de comparação a ser realizada - -d banco de dados utilizado na comparação - -o arquivo de saída - -e evalue de corte
  32. 32. Resumo- Revisão BLAST- PHI-BLAST- PSI-BLAST-BLAST2SEQS
  33. 33. Revisão Query BD Compara Programa nt nt nt blastn nt (trad) aa aa blastx aa aa aa blastp aa nt (trad) aa tblastn nt (trad) nt (trad) aa tblastxQuery = formato da seq de entrada.BD = formato das seqs do BD.nt (trad) = seq em nt traduzida pelo programa.Compara = o que é comparado, nucleotídeos (nt) ou aminoácidos (aa).Programa = um dos cinco principais tipos de blast.
  34. 34. 1 64 query subject1 71 134
  35. 35. PHI-BLAST-Éum blastp com a opção de passar uma outra sequência curta ouum padrão servindo como um vínculo para a consulta N - Qualquer nucleotídeo N(3) - Uma sequência de três nucleotídeos Ex : N(2,4) - Uma sequência de 2,3 ou 4 nucleotídeos [CG](5)TG{A}N(1,5)C [AC] - pode ser um A ou um C {AG} - não pode ser nem A e nem G
  36. 36. PSI-BLAST-É um blastp interativo no qual a matriz (BLOSUM), após a primeirainteração, é refeita com base nos alinhamentos entre as proteínasresultantes da consulta : - uma posicão conservada no alinhamento recebe um scorealto e uma posição não conservada um score baixo- É útil para encontrar membros distantes de famílias de proteínas
  37. 37. BL2SEQS- Faz um blast de uma sequência contra a outra (blastn/blastx/blastp/tblastx/tblastn -

×