1. Curs de Formació UEB
Eines bioinformàtiques per a la
investigació biomèdica
1r bloc: Introducció a la
Bioinformàtica i les bases de dades
Aplicacions guiades:
3ª sessió:
Blast. Genome Browsers.
Ferran Briansó (tècnic UEB)
ferran.brianso@vhir.org
https://ueb.ir.vhebron.net
Vall d'Hebron Institut de Recerca 21/06/2011
2. Sesión 3 – Índice de contenidos
BLAST
- Motivación: predicción funcional
- Similaridad vs Homología
- Alineamiento por parejas
– Sistemas de puntuación
– Sistemas de puntuación para proteínas
– Matrices de substitución (PAM, BLOSUM)
- BLAST (Alineamiento contra BD)
– Blast en NCBI
– ¿Cómo funciona?
– Parámetros, criterios, Bit-scores, E-values
– ¿Dónde cortar?
– ¿Existe homología?
GENOME BROWSERS
- Ensembl
- NCBI Map Viewer
- UCSC
- VEGA
Vall d'Hebron Institut de Recerca 21/06/2011
3. BLAST
Búsqueda de homologías
Vall d'Hebron Institut de Recerca 21/06/2011
4. Predicción funcional de una
proteína/gen
- Secuencia problema:
Queremos averiguar sus posibles propiedades.
- La evolución es un proceso conservativo
Cambian los residuos en una secuencia pero se conservan
las propiedades bioquímicas y los procesos fisiológicos
- Si somos capaces de encontrar secuencias
homólogas a la secuencia problema podemos
inferir que ésta “debe de tener” propiedades
similares a las de la secuencia conocida.
- La búsqueda (el hallazgo, de hecho) de secuencias
homólogas puede ser una vía para predecir la
función de una proteína o un gen.
Vall d'Hebron Institut de Recerca 21/06/2011
5. Similaridad vs Homología
- Homología:
- Descendencia de un ancestro común
- Medida cualitativa: dos secuencias son homólogas o
no lo son
- Similaridad
- Medida cuantitativa para determinar el grado de
relación entre dos secuencias
- Podemos usar una medida de similaridad para inferir
homología
Vall d'Hebron Institut de Recerca 21/06/2011
6. Sistemas de puntuación
- Queremos medir el grado de similaridad de dos secuencias
- Es necesario definir un criterio(sistema de puntuación)
que evalue esta similaridad
Ejemplo:
- Match=1
- Mismatch=0
S= A T G C A G T
T= A T A A G T
Vall d'Hebron Institut de Recerca 21/06/2011
7. Sistemas de puntuación
- El alineamiento de las secuencias puede aumentar
la puntuación:
- Match=1
S= A T G C A G T
- Mismatch=0
T= A T A A G T
- Gap=-1 p(s,t) 1 1 0 0 0 0 Σ= 2
S= A T G C A G T
T= A T A A ▬ G T
p(s,t) 1 1 0 0 -1 1 1 Σ= 3
S= A T G C A G T
T= A T ▬ A A G T
Vall d'Hebron Institut de Recerca 21/06/2011
8. Sistemas de puntuación
- Match=1 S= A T G C A G T
T= A T A A G T
- Mismatch=-1 p(s,t) 1 1 -1 -1 -1 -1 Σ= -2
- Gap Open=-3
- Gap Ext.=-2
S= A T G C A G T
T= A T A A ▬ G T
p(s,t) 1 1 -1 -1 -5 1 1 Σ= -3
S= A T G C A G T
T= A T ▬ A A G T
p(s,t) 1 1 -5 -1 1 1 1 Σ= -1
Vall d'Hebron Institut de Recerca 21/06/2011
9. Sistemas de puntuación
para proteínas
- Match=1
- Mismatch=0
- Gap=-1
S= T T Y G A P P W C S
T= − T G Y A P P P W S
p(s,t) -1 1 0 0 1 1 1 0 0 1 Σ= 4
S= T T Y G A P P W C S
T= T G Y A P P P W S −
Vall d'Hebron Institut de Recerca 21/06/2011
10. Sistemas de puntuación
para proteínas
Los AA tienen distintas propiedades
posibilidades distintas de ser sustituidos unos
por otros en la evolucion
tiny
P
aliphatic C S+S small
G
I A G S
V CSH N
L T D
hydrophobic M Y K E
F Q
W H R
positive
aromatic polar
charged
Vall d'Hebron Institut de Recerca 21/06/2011
11. Matrices de substitución
A 4
R
N
-1 5
-2 0 6
Pairwise alignment scores
D -2 -2 1 6 are determined using a
C 0 -3 -3 -3 9 scoring matrix such as
Q -1 1 0 0 -3 5
E -1 0 0 2 -4 2 5 Blosum62
G 0 -2 0 -1 -3 -2 -2 6
H -2 0 1 -1 -3 0 0 -2 8
I -1 -3 -3 -3 -1 -3 -3 -4 -3 4
L -1 -2 -3 -4 -1 -2 -3 -4 -3 2 4
K -1 2 0 -1 -1 1 1 -2 -1 -3 -2 5
M -1 -2 -2 -3 -1 0 -2 -3 -2 1 2 -1 5
F -2 -3 -3 -3 -2 -3 -3 -3 -1 0 0 -3 0 6
P -1 -2 -2 -1 -3 -1 -1 -2 -2 -3 -3 -1 -2 -4 7
S 1 -1 1 0 -1 0 0 0 -1 -2 -2 0 -1 -2 -1 4
T 0 -1 0 -1 -1 -1 -1 -2 -2 -1 -1 -1 -1 -2 -1 1 5
W -3 -3 -4 -4 -2 -2 -3 -2 -2 -3 -2 -3 -1 1 -4 -3 -2 11
Y -2 -2 -2 -3 -2 -1 -2 -3 2 -1 -1 -2 -1 3 -3 -2 -2 2 7
V 0 -3 -3 -3 -1 -2 -2 -3 -3 3 1 -2 1 -1 -2 -2 0 -3 -1 4
A R N D C Q E G H I L K M F P S T W Y V
Vall d'Hebron Institut de Recerca 21/06/2011
12. Matrices de substitución
BLOSUM62
S= T T Y G A P P W C S
T= − T G Y A P P P W S
p(s,t) -1 5 -3 -3 4 7 7 -4 -2 4 Σ= 14
S= T T Y G A P P W C S
T= T G Y A P P P W − S
Vall d'Hebron Institut de Recerca 21/06/2011
13. Matrices de substitución
- No hay una matriz única que se pueda usar siempre
- Según la familia de proteínas y el grado de similitud
esperado se usará una u otra
- Las más utilizadas PAM y BLOSUM
- PAM: Percent Accepted Mutation Matrix
- Derivadas de alineamientos globales de secuencias próximas
- PAM40 PAM250. A mayor nº, mayor distancia evolutiva
- BLOSUM: BLOcks of amino acid SUbstitution Matrix
- Derivadas de alineamientos locales de secuencias distantes
- BLOSUM90 BLOSUM45 El nº representa porcentaje de
identidad
Vall d'Hebron Institut de Recerca 21/06/2011
14. Matrices de substitución
- Generalmente, la matrices BLOSUM funcionan mejor que
las PAM para búsquedas de similaridad local(Henikoff &
Henikoff, 1993).
- Cuando comparamos proteinas cercanas deberíamos
usar matrices PAM mas bajas o BLOSUM mas altas,
mientras que para proteinas distantes sería mas
conveniente el uso de matrices PAM mas altas o
BLOSUM mas bajas.
- Para búsquedas en BBDD sin información previa es
bastante comun el uso de una BLOSUM62.
Vall d'Hebron Institut de Recerca 21/06/2011
15. Alineamiento contra BD
Supongamos que buscamos secuencias homólogas a nuestra
secuencia problema.
- Una estrategia posible es hacer alineamientos contra una
base de datos de secuencias.
- El algoritmo de Smith-Waterman obtiene un alineamiento
local óptimo, dado un sistema de puntuacion dado
- Demasiado lento para buscar contra una BBDD
Vall d'Hebron Institut de Recerca 21/06/2011
16. Alineamiento vs BD
- El algoritmo BLAST(Basic Local Alignment Search Tool)
permite un rápida comparación(alineamiento) de una
secuencia problema contra una BBDD
- Es rápido y preciso (ademas, accesible via web)
- Algoritmo heurístico: puede obviar alineamientos
óptimos
Vall d'Hebron Institut de Recerca 21/06/2011
21. ¿Cómo funciona Blast?
- Fase 1: compilar una lista de palabras (w=3) con
score por encima de un threshold T (high-
scoring segment pairs (HSPs))
- Ejemplo: búsqueda para “human RBP”
…FSGTWYA…
Lista de palabras (w=3):
FSG SGT GTW TWY WYA
YSG TGT ATW SWY WFA
FTG SVT GSW TWF WYS
Vall d'Hebron Institut de Recerca 21/06/2011
22. ¿Cómo funciona Blast?
Fase 2:
- Escaneo de la base de datos para buscar
entradas que coincidan con la lista
compilada.
- Esto es relativamente rápido y fácil.
Vall d'Hebron Institut de Recerca 21/06/2011
23. ¿Cómo funciona Blast?
- Fase 3: cuando encontramos un hit
(es decir, una coincidencia entre una palabra y una entrada de la
BBDD), extender el hit en ambas direcciones.
- Calcular los “scores” a cada paso (usando la matriz de
substitución)
- Parar cuando la puntuación cae por debajo de cierto “cutoff”.
KENFDKARFSGTWYAMAKKDPEG RBP (query)
MKGLDIQKVAGTWYSLAMAASD lactoglobulin (hit)
extender extender
Hit!
Vall d'Hebron Institut de Recerca 21/06/2011
26. Bit-scores
- El valor de la puntuaciones obtenidas por un
emparejamiento carecen de sentido si no se
tiene en cuenta el tamaño de la base de datos
y el sistema de puntuación
- Los Bit-scores normalizan las puntuaciones
para independizarlas de ambos factores de
forma que podamos compararlas
Vall d'Hebron Institut de Recerca 21/06/2011
27. E-values
E = Kmn e-λS
- Dada una secuencia que ha obtenido una puntuacion E-
value es el número esperado de puntuaciones iguales o
superiores a las de dicha secuencia atribuibles al azar.
- Un E-value de 10 para una coincidencia significa, que, en
una base de datos de secuencias aleatorias del mismo
tamaño en la que se ha realizado la búsqueda, se podría
esperar encontrar hasta 10 coincidencias con la misma
puntuación o similar.
- El E-value es la medida de corte más utilizada en las
búsquedas en bases de datos. Sólo se informa de las
coincidencias que superan un nivel mínimo
- El E-value oscila entre 0 y cualquier valor
Vall d'Hebron Institut de Recerca 21/06/2011
28. ¿Dónde cortar?
- Valores bajos de E se pueden interpretar como un p-
valor (probabilidad de encontrar por azar una secuencia
con la misma puntuación o superior)
- Si queremos seguridad de que las seqs. que
encontramos son realmente homologas (mas
especificidad), tomaremos valores de corte pequeños
(E=0.05, 0.1 + Bit scores altos + Alto porcentaje de
identidad)
- Si, en cambio, nos interesa explorar y priorizamos no
perder información por delante de la seguridad (mas
sensibilidad), podemos relajar el punto de corte (E=1,
10 + Bit scores normales + Alto porcentaje de
identidad)
Vall d'Hebron Institut de Recerca 21/06/2011
29. ¿Existe homología?
>gb|AAA60147.1| placental protein 14 [Homo sapiens]
Length=162
Score = 33.9 bits (76), Expect = 0.34
Identities = 24/107 (22%), Positives = 46/107 (42%), Gaps = 11/107 (10%)
Query 28 RVKENFDKARFSGTWYAMAKKDPEGLFLQDNIVAEFSVDETGQMSATAKGRVRLLNNWD-
86
+ K++ + + +GTW++MA + L + A V T + +L+ W+
Sbjct 5 QTKQDLELPKLAGTWHSMAMA-TNNISLMATLKAPLRVHITSLLPTPEDNLEIVLHRWEN
63
Query 87 -VCADMVGTFTDTEDPAKFKMKYWGVASFLQKGNDDHWIVDTDYDTY 132
C + T +P KFK+ Y ++ ++DTDYD +
Sbjct 64 NSCVEKKVLGEKTGNPKKFKINYTVA--------NEATLLDTDYDNF 102
- RBP4 y PAEP:
Bit-score bajo, E-value 0.34, 22% identidad (“zona gris”).
- Pero son, en efecto, homólogas. Se puede comprovar
con una búsqueda BLAST con PAEP como secuencia
“query”, y se encuentran muchas lipocalinas.
Vall d'Hebron Institut de Recerca 21/06/2011