SlideShare uma empresa Scribd logo
1 de 32
Baixar para ler offline
Curs de Formació UEB

        Eines bioinformàtiques per a la
            investigació biomèdica
                   1r bloc: Introducció a la
        Bioinformàtica i les bases de dades

           Aplicacions guiades:
     3ª sessió:
      Blast. Genome Browsers.

                   Ferran Briansó (tècnic UEB)
                       ferran.brianso@vhir.org
                      https://ueb.ir.vhebron.net

Vall d'Hebron Institut de Recerca                  21/06/2011
Sesión 3 – Índice de contenidos
          BLAST
          - Motivación: predicción funcional
          - Similaridad vs Homología
          - Alineamiento por parejas
              – Sistemas de puntuación
              – Sistemas de puntuación para proteínas
              – Matrices de substitución (PAM, BLOSUM)
          - BLAST (Alineamiento contra BD)
              – Blast en NCBI
              – ¿Cómo funciona?
              – Parámetros, criterios, Bit-scores, E-values
              – ¿Dónde cortar?
              – ¿Existe homología?

          GENOME BROWSERS
          - Ensembl
          - NCBI Map Viewer
          - UCSC
          - VEGA
Vall d'Hebron Institut de Recerca                         21/06/2011
BLAST
        Búsqueda de homologías




Vall d'Hebron Institut de Recerca   21/06/2011
Predicción funcional de una
                        proteína/gen

      - Secuencia problema:
          Queremos averiguar sus posibles propiedades.
      - La evolución es un proceso conservativo
          Cambian los residuos en una secuencia pero se conservan
            las propiedades bioquímicas y los procesos fisiológicos
      - Si somos capaces de encontrar secuencias
         homólogas a la secuencia problema podemos
         inferir que ésta “debe de tener” propiedades
         similares a las de la secuencia conocida.
      - La búsqueda (el hallazgo, de hecho) de secuencias
         homólogas puede ser una vía para predecir la
         función de una proteína o un gen.




Vall d'Hebron Institut de Recerca                           21/06/2011
Similaridad vs Homología
      - Homología:
          - Descendencia de un ancestro común
          - Medida cualitativa: dos secuencias son homólogas o
             no lo son

      - Similaridad
          - Medida cuantitativa para determinar el grado de
             relación entre dos secuencias
          - Podemos usar una medida de similaridad para inferir
             homología



Vall d'Hebron Institut de Recerca                        21/06/2011
Sistemas de puntuación
      - Queremos medir el grado de similaridad de dos secuencias

      - Es necesario definir un criterio(sistema de puntuación)
      que evalue esta similaridad


       Ejemplo:
                                - Match=1
                                - Mismatch=0


                               S=     A   T   G   C   A   G   T
                               T=     A   T   A   A   G   T




Vall d'Hebron Institut de Recerca                                 21/06/2011
Sistemas de puntuación
       - El alineamiento de las secuencias puede aumentar
        la puntuación:

        - Match=1
                                    S=       A   T   G   C   A    G   T
        - Mismatch=0
                                    T=       A   T   A   A   G    T
        - Gap=-1                    p(s,t)   1   1   0   0   0    0       Σ=   2


                                    S=       A   T   G   C   A    G   T
                                    T=       A   T   A   A   ▬    G   T
                                    p(s,t)   1   1   0   0   -1   1   1   Σ=   3


                                    S=       A   T   G   C   A    G   T
                                    T=       A   T   ▬   A   A    G   T


Vall d'Hebron Institut de Recerca                                         21/06/2011
Sistemas de puntuación


       - Match=1                    S=       A   T   G    C    A    G    T
                                    T=       A   T   A    A    G    T
       - Mismatch=-1                p(s,t)   1   1   -1   -1   -1   -1       Σ=   -2
       - Gap Open=-3
       - Gap Ext.=-2
                                    S=       A   T   G    C    A    G    T
                                    T=       A   T   A    A    ▬    G    T
                                    p(s,t)   1   1   -1   -1   -5   1    1   Σ=   -3


                                    S=       A   T   G    C    A    G    T
                                    T=       A   T   ▬    A    A    G    T
                                    p(s,t)   1   1   -5   -1   1    1    1   Σ=   -1




Vall d'Hebron Institut de Recerca                                            21/06/2011
Sistemas de puntuación
                     para proteínas

       - Match=1
       - Mismatch=0
       - Gap=-1


                  S=        T    T   Y   G   A   P   P   W   C   S
                  T=        −    T   G   Y   A   P   P   P   W   S
                  p(s,t)    -1   1   0   0   1   1   1   0   0   1   Σ=   4


                  S=        T    T   Y   G   A   P   P   W   C   S
                  T=        T    G   Y   A   P   P   P   W   S   −




Vall d'Hebron Institut de Recerca                                    21/06/2011
Sistemas de puntuación
                     para proteínas
     
          Los AA tienen distintas propiedades 
          posibilidades distintas de ser sustituidos unos
          por otros en la evolucion
                                                                       tiny
                                                  P
            aliphatic                C S+S                                     small
                                                    G
                             I               A   G            S
                                     V             CSH            N
                                 L               T            D
         hydrophobic     M               Y            K       E
                                     F                            Q
                                             W   H        R
                                                                         positive
     aromatic                                                         polar
                                                          charged


Vall d'Hebron Institut de Recerca                                             21/06/2011
Matrices de substitución
A    4
R
N
    -1 5
    -2 0 6
                              Pairwise alignment scores
D   -2 -2 1 6                 are determined using a
C    0 -3 -3 -3 9             scoring matrix such as
Q   -1 1 0 0 -3 5
E   -1 0 0 2 -4 2 5           Blosum62
G    0 -2 0 -1 -3 -2 -2 6
H   -2 0 1 -1 -3 0 0 -2 8
I   -1 -3 -3 -3 -1 -3 -3 -4 -3 4
L   -1 -2 -3 -4 -1 -2 -3 -4 -3 2 4
K   -1 2 0 -1 -1 1 1 -2 -1 -3 -2 5
M   -1 -2 -2 -3 -1 0 -2 -3 -2 1 2 -1 5
F   -2 -3 -3 -3 -2 -3 -3 -3 -1 0 0 -3 0 6
P   -1 -2 -2 -1 -3 -1 -1 -2 -2 -3 -3 -1 -2 -4 7
S    1 -1 1 0 -1 0 0 0 -1 -2 -2 0 -1 -2 -1 4
T    0 -1 0 -1 -1 -1 -1 -2 -2 -1 -1 -1 -1 -2 -1 1 5
W   -3 -3 -4 -4 -2 -2 -3 -2 -2 -3 -2 -3 -1 1 -4 -3 -2 11
Y   -2 -2 -2 -3 -2 -1 -2 -3 2 -1 -1 -2 -1 3 -3 -2 -2 2 7
V    0 -3 -3 -3 -1 -2 -2 -3 -3 3 1 -2 1 -1 -2 -2 0 -3 -1 4
    A R N D C Q E G H I           L K M F P S T W Y V


Vall d'Hebron Institut de Recerca                 21/06/2011
Matrices de substitución

       BLOSUM62


             S=        T    T   Y    G    A   P   P   W    C    S
             T=        −    T   G    Y    A   P   P   P    W    S
             p(s,t)    -1   5   -3   -3   4   7   7   -4   -2   4   Σ= 14


             S=        T    T   Y    G    A   P   P   W    C    S
             T=        T    G   Y    A    P   P   P   W    −    S




Vall d'Hebron Institut de Recerca                                    21/06/2011
Matrices de substitución
      - No hay una matriz única que se pueda usar siempre

      - Según la familia de proteínas y el grado de similitud
         esperado se usará una u otra

      - Las más utilizadas PAM y BLOSUM
          - PAM: Percent Accepted Mutation Matrix
               - Derivadas de alineamientos globales de secuencias próximas
               - PAM40  PAM250. A mayor nº, mayor distancia evolutiva

          - BLOSUM: BLOcks of amino acid SUbstitution Matrix
               - Derivadas de alineamientos locales de secuencias distantes
               - BLOSUM90  BLOSUM45 El nº representa porcentaje de
                  identidad




Vall d'Hebron Institut de Recerca                                    21/06/2011
Matrices de substitución
      - Generalmente, la matrices BLOSUM funcionan mejor que
         las PAM para búsquedas de similaridad local(Henikoff &
         Henikoff, 1993).

      - Cuando comparamos proteinas cercanas deberíamos
         usar matrices PAM mas bajas o BLOSUM mas altas,
         mientras que para proteinas distantes sería mas
         conveniente el uso de matrices PAM mas altas o
         BLOSUM mas bajas.

      - Para búsquedas en BBDD sin información previa es
         bastante comun el uso de una BLOSUM62.




Vall d'Hebron Institut de Recerca                       21/06/2011
Alineamiento contra BD
      Supongamos que buscamos secuencias homólogas a nuestra
        secuencia problema.

      - Una estrategia posible es hacer alineamientos contra una
        base de datos de secuencias.

      - El algoritmo de Smith-Waterman obtiene un alineamiento
        local óptimo, dado un sistema de puntuacion dado

      - Demasiado lento para buscar contra una BBDD




Vall d'Hebron Institut de Recerca                          21/06/2011
Alineamiento vs BD

      - El algoritmo BLAST(Basic Local Alignment Search Tool)
         permite un rápida comparación(alineamiento) de una
         secuencia problema contra una BBDD

      - Es rápido y preciso (ademas, accesible via web)

      - Algoritmo heurístico: puede obviar alineamientos
         óptimos




Vall d'Hebron Institut de Recerca                          21/06/2011
Blast en NCBI




Vall d'Hebron Institut de Recerca        21/06/2011
Blast en NCBI




Vall d'Hebron Institut de Recerca        21/06/2011
Ejemplo




Vall d'Hebron Institut de Recerca        21/06/2011
Ejemplo




Vall d'Hebron Institut de Recerca        21/06/2011
¿Cómo funciona Blast?
      - Fase 1: compilar una lista de palabras (w=3) con
         score por encima de un threshold T (high-
         scoring segment pairs (HSPs))

      - Ejemplo: búsqueda para “human RBP”
         …FSGTWYA…

         Lista de palabras (w=3):
         FSG SGT GTW TWY WYA
         YSG TGT ATW SWY WFA
         FTG SVT GSW TWF WYS



Vall d'Hebron Institut de Recerca                21/06/2011
¿Cómo funciona Blast?
     Fase 2:

     - Escaneo de la base de datos para buscar
       entradas que coincidan con la lista
       compilada.

     - Esto es relativamente rápido y fácil.




Vall d'Hebron Institut de Recerca          21/06/2011
¿Cómo funciona Blast?
     -   Fase 3: cuando encontramos un hit
     (es decir, una coincidencia entre una palabra y una entrada de la
        BBDD), extender el hit en ambas direcciones.
     - Calcular los “scores” a cada paso (usando la matriz de
        substitución)
     - Parar cuando la puntuación cae por debajo de cierto “cutoff”.




         KENFDKARFSGTWYAMAKKDPEG                    RBP (query)
         MKGLDIQKVAGTWYSLAMAASD                     lactoglobulin (hit)

              extender              extender
                             Hit!

Vall d'Hebron Institut de Recerca                               21/06/2011
Parámetros del algoritmo




Vall d'Hebron Institut de Recerca     21/06/2011
Criterios de selección




Vall d'Hebron Institut de Recerca        21/06/2011
Bit-scores

     - El valor de la puntuaciones obtenidas por un
        emparejamiento carecen de sentido si no se
        tiene en cuenta el tamaño de la base de datos
        y el sistema de puntuación

     - Los Bit-scores normalizan las puntuaciones
        para independizarlas de ambos factores de
        forma que podamos compararlas




Vall d'Hebron Institut de Recerca              21/06/2011
E-values

         E = Kmn e-λS
     - Dada una secuencia que ha obtenido una puntuacion E-
        value es el número esperado de puntuaciones iguales o
        superiores a las de dicha secuencia atribuibles al azar.
     - Un E-value de 10 para una coincidencia significa, que, en
        una base de datos de secuencias aleatorias del mismo
        tamaño en la que se ha realizado la búsqueda, se podría
        esperar encontrar hasta 10 coincidencias con la misma
        puntuación o similar.
     - El E-value es la medida de corte más utilizada en las
        búsquedas en bases de datos. Sólo se informa de las
        coincidencias que superan un nivel mínimo
     - El E-value oscila entre 0 y cualquier valor


Vall d'Hebron Institut de Recerca                        21/06/2011
¿Dónde cortar?
     - Valores bajos de E se pueden interpretar como un p-
        valor (probabilidad de encontrar por azar una secuencia
        con la misma puntuación o superior)

     - Si queremos seguridad de que las seqs. que
        encontramos son realmente homologas (mas
        especificidad), tomaremos valores de corte pequeños
        (E=0.05, 0.1 + Bit scores altos + Alto porcentaje de
        identidad)

     - Si, en cambio, nos interesa explorar y priorizamos no
        perder información por delante de la seguridad (mas
        sensibilidad), podemos relajar el punto de corte (E=1,
        10 + Bit scores normales + Alto porcentaje de
        identidad)


Vall d'Hebron Institut de Recerca                        21/06/2011
¿Existe homología?
     >gb|AAA60147.1| placental protein 14 [Homo sapiens]
     Length=162
      Score = 33.9 bits (76), Expect = 0.34
      Identities = 24/107 (22%), Positives = 46/107 (42%), Gaps = 11/107 (10%)
     Query 28    RVKENFDKARFSGTWYAMAKKDPEGLFLQDNIVAEFSVDETGQMSATAKGRVRLLNNWD-
     86
                 + K++ + + +GTW++MA       + L   + A    V T +          +L+ W+
     Sbjct 5     QTKQDLELPKLAGTWHSMAMA-TNNISLMATLKAPLRVHITSLLPTPEDNLEIVLHRWEN
     63
     Query 87    -VCADMVGTFTDTEDPAKFKMKYWGVASFLQKGNDDHWIVDTDYDTY 132
                   C +       T +P KFK+ Y            ++ ++DTDYD +
     Sbjct 64    NSCVEKKVLGEKTGNPKKFKINYTVA--------NEATLLDTDYDNF 102


     - RBP4 y PAEP:
     Bit-score bajo, E-value 0.34, 22% identidad (“zona gris”).

     - Pero son, en efecto, homólogas. Se puede comprovar
     con una búsqueda BLAST con PAEP como secuencia
     “query”, y se encuentran muchas lipocalinas.


Vall d'Hebron Institut de Recerca                                 21/06/2011
Genome browsers




Vall d'Hebron Institut de Recerca   21/06/2011
Sesión 3 – Índice de contenidos
          BLAST
          - Motivación: predicción funcional
          - Similaridad vs Homología
          - Alineamiento por parejas
              – Sistemas de puntuación
              – Sistemas de puntuación para proteínas
              – Matrices de substitución (PAM, BLOSUM)
          - BLAST (Alineamiento contra BD)
              – Blast en NCBI
              – ¿Cómo funciona?
              – Parámetros, criterios, Bit-scores, E-values
              – ¿Dónde cortar?
              – ¿Existe homología?

          GENOME BROWSERS
          - Ensembl
          - NCBI Map Viewer
          - UCSC
          - VEGA
Vall d'Hebron Institut de Recerca                         21/06/2011
Genome Browsers

     Ensembl
                 http://www.ensembl.org

     NCBI Map Viewer
         http://www.ncbi.nlm.nih.gov/projects/mapview


     UCSC Genome Browser
                 http://genome.ucsc.edu/

     VEGA Genome Browser
                 http://vega.sanger.ac.uk
Vall d'Hebron Institut de Recerca                  21/06/2011

Mais conteúdo relacionado

Mais de VHIR Vall d’Hebron Institut de Recerca

Introduction to Galaxy (UEB-UAT Bioinformatics Course - Session 2.2 - VHIR, B...
Introduction to Galaxy (UEB-UAT Bioinformatics Course - Session 2.2 - VHIR, B...Introduction to Galaxy (UEB-UAT Bioinformatics Course - Session 2.2 - VHIR, B...
Introduction to Galaxy (UEB-UAT Bioinformatics Course - Session 2.2 - VHIR, B...VHIR Vall d’Hebron Institut de Recerca
 
NGS Applications II (UEB-UAT Bioinformatics Course - Session 2.1.3 - VHIR, Ba...
NGS Applications II (UEB-UAT Bioinformatics Course - Session 2.1.3 - VHIR, Ba...NGS Applications II (UEB-UAT Bioinformatics Course - Session 2.1.3 - VHIR, Ba...
NGS Applications II (UEB-UAT Bioinformatics Course - Session 2.1.3 - VHIR, Ba...VHIR Vall d’Hebron Institut de Recerca
 
NGS Applications I (UEB-UAT Bioinformatics Course - Session 2.1.2 - VHIR, Bar...
NGS Applications I (UEB-UAT Bioinformatics Course - Session 2.1.2 - VHIR, Bar...NGS Applications I (UEB-UAT Bioinformatics Course - Session 2.1.2 - VHIR, Bar...
NGS Applications I (UEB-UAT Bioinformatics Course - Session 2.1.2 - VHIR, Bar...VHIR Vall d’Hebron Institut de Recerca
 
NGS Introduction and Technology Overview (UEB-UAT Bioinformatics Course - Ses...
NGS Introduction and Technology Overview (UEB-UAT Bioinformatics Course - Ses...NGS Introduction and Technology Overview (UEB-UAT Bioinformatics Course - Ses...
NGS Introduction and Technology Overview (UEB-UAT Bioinformatics Course - Ses...VHIR Vall d’Hebron Institut de Recerca
 
Storing and Accessing Information. Databases and Queries (UEB-UAT Bioinformat...
Storing and Accessing Information. Databases and Queries (UEB-UAT Bioinformat...Storing and Accessing Information. Databases and Queries (UEB-UAT Bioinformat...
Storing and Accessing Information. Databases and Queries (UEB-UAT Bioinformat...VHIR Vall d’Hebron Institut de Recerca
 
Introduction to Bioinformatics (UEB-UAT Bioinformatics Course - Session 1.1 -...
Introduction to Bioinformatics (UEB-UAT Bioinformatics Course - Session 1.1 -...Introduction to Bioinformatics (UEB-UAT Bioinformatics Course - Session 1.1 -...
Introduction to Bioinformatics (UEB-UAT Bioinformatics Course - Session 1.1 -...VHIR Vall d’Hebron Institut de Recerca
 
Genome Browsing, Genomic Data Mining and Genome Data Visualization with Ensem...
Genome Browsing, Genomic Data Mining and Genome Data Visualization with Ensem...Genome Browsing, Genomic Data Mining and Genome Data Visualization with Ensem...
Genome Browsing, Genomic Data Mining and Genome Data Visualization with Ensem...VHIR Vall d’Hebron Institut de Recerca
 
Curso de Genómica - UAT (VHIR) 2012 - Análisis de datos de expression génica
Curso de Genómica - UAT (VHIR) 2012 - Análisis de datos de expression génicaCurso de Genómica - UAT (VHIR) 2012 - Análisis de datos de expression génica
Curso de Genómica - UAT (VHIR) 2012 - Análisis de datos de expression génicaVHIR Vall d’Hebron Institut de Recerca
 
Curso de Genómica - UAT (VHIR) 2012 - Tecnologías de Ultrasecuenciación y de ...
Curso de Genómica - UAT (VHIR) 2012 - Tecnologías de Ultrasecuenciación y de ...Curso de Genómica - UAT (VHIR) 2012 - Tecnologías de Ultrasecuenciación y de ...
Curso de Genómica - UAT (VHIR) 2012 - Tecnologías de Ultrasecuenciación y de ...VHIR Vall d’Hebron Institut de Recerca
 
Curso de Genómica - UAT (VHIR) 2012 - Aplicaciones de las tecnologías de alto...
Curso de Genómica - UAT (VHIR) 2012 - Aplicaciones de las tecnologías de alto...Curso de Genómica - UAT (VHIR) 2012 - Aplicaciones de las tecnologías de alto...
Curso de Genómica - UAT (VHIR) 2012 - Aplicaciones de las tecnologías de alto...VHIR Vall d’Hebron Institut de Recerca
 

Mais de VHIR Vall d’Hebron Institut de Recerca (20)

Introduction to Galaxy (UEB-UAT Bioinformatics Course - Session 2.2 - VHIR, B...
Introduction to Galaxy (UEB-UAT Bioinformatics Course - Session 2.2 - VHIR, B...Introduction to Galaxy (UEB-UAT Bioinformatics Course - Session 2.2 - VHIR, B...
Introduction to Galaxy (UEB-UAT Bioinformatics Course - Session 2.2 - VHIR, B...
 
NGS Applications II (UEB-UAT Bioinformatics Course - Session 2.1.3 - VHIR, Ba...
NGS Applications II (UEB-UAT Bioinformatics Course - Session 2.1.3 - VHIR, Ba...NGS Applications II (UEB-UAT Bioinformatics Course - Session 2.1.3 - VHIR, Ba...
NGS Applications II (UEB-UAT Bioinformatics Course - Session 2.1.3 - VHIR, Ba...
 
NGS Applications I (UEB-UAT Bioinformatics Course - Session 2.1.2 - VHIR, Bar...
NGS Applications I (UEB-UAT Bioinformatics Course - Session 2.1.2 - VHIR, Bar...NGS Applications I (UEB-UAT Bioinformatics Course - Session 2.1.2 - VHIR, Bar...
NGS Applications I (UEB-UAT Bioinformatics Course - Session 2.1.2 - VHIR, Bar...
 
NGS Introduction and Technology Overview (UEB-UAT Bioinformatics Course - Ses...
NGS Introduction and Technology Overview (UEB-UAT Bioinformatics Course - Ses...NGS Introduction and Technology Overview (UEB-UAT Bioinformatics Course - Ses...
NGS Introduction and Technology Overview (UEB-UAT Bioinformatics Course - Ses...
 
Storing and Accessing Information. Databases and Queries (UEB-UAT Bioinformat...
Storing and Accessing Information. Databases and Queries (UEB-UAT Bioinformat...Storing and Accessing Information. Databases and Queries (UEB-UAT Bioinformat...
Storing and Accessing Information. Databases and Queries (UEB-UAT Bioinformat...
 
Introduction to Bioinformatics (UEB-UAT Bioinformatics Course - Session 1.1 -...
Introduction to Bioinformatics (UEB-UAT Bioinformatics Course - Session 1.1 -...Introduction to Bioinformatics (UEB-UAT Bioinformatics Course - Session 1.1 -...
Introduction to Bioinformatics (UEB-UAT Bioinformatics Course - Session 1.1 -...
 
Genome Browsing, Genomic Data Mining and Genome Data Visualization with Ensem...
Genome Browsing, Genomic Data Mining and Genome Data Visualization with Ensem...Genome Browsing, Genomic Data Mining and Genome Data Visualization with Ensem...
Genome Browsing, Genomic Data Mining and Genome Data Visualization with Ensem...
 
Information management at vhir ueb using tiki-cms
Information management at vhir ueb using tiki-cmsInformation management at vhir ueb using tiki-cms
Information management at vhir ueb using tiki-cms
 
Introduction to Metagenomics Data Analysis - UEB-VHIR - 2013
Introduction to Metagenomics Data Analysis - UEB-VHIR - 2013Introduction to Metagenomics Data Analysis - UEB-VHIR - 2013
Introduction to Metagenomics Data Analysis - UEB-VHIR - 2013
 
Curso de Genómica - UAT (VHIR) 2012 - Análisis de datos de RT-qPCR
Curso de Genómica - UAT (VHIR) 2012 - Análisis de datos de RT-qPCRCurso de Genómica - UAT (VHIR) 2012 - Análisis de datos de RT-qPCR
Curso de Genómica - UAT (VHIR) 2012 - Análisis de datos de RT-qPCR
 
Curso de Genómica - UAT (VHIR) 2012 - RT-qPCR
Curso de Genómica - UAT (VHIR) 2012 - RT-qPCRCurso de Genómica - UAT (VHIR) 2012 - RT-qPCR
Curso de Genómica - UAT (VHIR) 2012 - RT-qPCR
 
Curso de Genómica - UAT (VHIR) 2012 - Análisis de datos de expression génica
Curso de Genómica - UAT (VHIR) 2012 - Análisis de datos de expression génicaCurso de Genómica - UAT (VHIR) 2012 - Análisis de datos de expression génica
Curso de Genómica - UAT (VHIR) 2012 - Análisis de datos de expression génica
 
Curso de Genómica - UAT (VHIR) 2012 - Microarrays
Curso de Genómica - UAT (VHIR) 2012 - MicroarraysCurso de Genómica - UAT (VHIR) 2012 - Microarrays
Curso de Genómica - UAT (VHIR) 2012 - Microarrays
 
Curso de Genómica - UAT (VHIR) 2012 - Arrays de Proteínas Zeptosens
 Curso de Genómica - UAT (VHIR) 2012 - Arrays de Proteínas Zeptosens Curso de Genómica - UAT (VHIR) 2012 - Arrays de Proteínas Zeptosens
Curso de Genómica - UAT (VHIR) 2012 - Arrays de Proteínas Zeptosens
 
Curso de Genómica - UAT (VHIR) 2012 - Análisis de datos de NGS
Curso de Genómica - UAT (VHIR) 2012 - Análisis de datos de NGSCurso de Genómica - UAT (VHIR) 2012 - Análisis de datos de NGS
Curso de Genómica - UAT (VHIR) 2012 - Análisis de datos de NGS
 
Curso de Genómica - UAT (VHIR) 2012 - Tecnologías de Ultrasecuenciación y de ...
Curso de Genómica - UAT (VHIR) 2012 - Tecnologías de Ultrasecuenciación y de ...Curso de Genómica - UAT (VHIR) 2012 - Tecnologías de Ultrasecuenciación y de ...
Curso de Genómica - UAT (VHIR) 2012 - Tecnologías de Ultrasecuenciación y de ...
 
Curso de Genómica - UAT (VHIR) 2012 - Aplicaciones de las tecnologías de alto...
Curso de Genómica - UAT (VHIR) 2012 - Aplicaciones de las tecnologías de alto...Curso de Genómica - UAT (VHIR) 2012 - Aplicaciones de las tecnologías de alto...
Curso de Genómica - UAT (VHIR) 2012 - Aplicaciones de las tecnologías de alto...
 
Course VHIR-UCTS-UEB - Session 3 - Statistical Analysis
Course VHIR-UCTS-UEB - Session 3 -  Statistical AnalysisCourse VHIR-UCTS-UEB - Session 3 -  Statistical Analysis
Course VHIR-UCTS-UEB - Session 3 - Statistical Analysis
 
Course VHIR-UCTS-UEB - Session 2 - RTqPCR
Course VHIR-UCTS-UEB - Session 2 -  RTqPCRCourse VHIR-UCTS-UEB - Session 2 -  RTqPCR
Course VHIR-UCTS-UEB - Session 2 - RTqPCR
 
Course VHIR-UCTS-UEB - Session 1 - Microarrays
Course VHIR-UCTS-UEB - Session 1 - MicroarraysCourse VHIR-UCTS-UEB - Session 1 - Microarrays
Course VHIR-UCTS-UEB - Session 1 - Microarrays
 

Último

pruebas unitarias unitarias en java con JUNIT
pruebas unitarias unitarias en java con JUNITpruebas unitarias unitarias en java con JUNIT
pruebas unitarias unitarias en java con JUNITMaricarmen Sánchez Ruiz
 
Global Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft FabricGlobal Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft FabricKeyla Dolores Méndez
 
guía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan Josephguía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan JosephBRAYANJOSEPHPEREZGOM
 
Herramientas de corte de alta velocidad.pptx
Herramientas de corte de alta velocidad.pptxHerramientas de corte de alta velocidad.pptx
Herramientas de corte de alta velocidad.pptxRogerPrieto3
 
Proyecto integrador. Las TIC en la sociedad S4.pptx
Proyecto integrador. Las TIC en la sociedad S4.pptxProyecto integrador. Las TIC en la sociedad S4.pptx
Proyecto integrador. Las TIC en la sociedad S4.pptx241521559
 
Presentación guía sencilla en Microsoft Excel.pptx
Presentación guía sencilla en Microsoft Excel.pptxPresentación guía sencilla en Microsoft Excel.pptx
Presentación guía sencilla en Microsoft Excel.pptxLolaBunny11
 
Redes direccionamiento y subredes ipv4 2024 .pdf
Redes direccionamiento y subredes ipv4 2024 .pdfRedes direccionamiento y subredes ipv4 2024 .pdf
Redes direccionamiento y subredes ipv4 2024 .pdfsoporteupcology
 
EPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial UninoveEPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial UninoveFagnerLisboa3
 
KELA Presentacion Costa Rica 2024 - evento Protégeles
KELA Presentacion Costa Rica 2024 - evento ProtégelesKELA Presentacion Costa Rica 2024 - evento Protégeles
KELA Presentacion Costa Rica 2024 - evento ProtégelesFundación YOD YOD
 
trabajotecologiaisabella-240424003133-8f126965.pdf
trabajotecologiaisabella-240424003133-8f126965.pdftrabajotecologiaisabella-240424003133-8f126965.pdf
trabajotecologiaisabella-240424003133-8f126965.pdfIsabellaMontaomurill
 
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...silviayucra2
 
CLASE DE TECNOLOGIA E INFORMATICA PRIMARIA
CLASE  DE TECNOLOGIA E INFORMATICA PRIMARIACLASE  DE TECNOLOGIA E INFORMATICA PRIMARIA
CLASE DE TECNOLOGIA E INFORMATICA PRIMARIAWilbisVega
 
Trabajo Mas Completo De Excel en clase tecnología
Trabajo Mas Completo De Excel en clase tecnologíaTrabajo Mas Completo De Excel en clase tecnología
Trabajo Mas Completo De Excel en clase tecnologíassuserf18419
 
International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)GDGSucre
 
9egb-lengua y Literatura.pdf_texto del estudiante
9egb-lengua y Literatura.pdf_texto del estudiante9egb-lengua y Literatura.pdf_texto del estudiante
9egb-lengua y Literatura.pdf_texto del estudianteAndreaHuertas24
 

Último (15)

pruebas unitarias unitarias en java con JUNIT
pruebas unitarias unitarias en java con JUNITpruebas unitarias unitarias en java con JUNIT
pruebas unitarias unitarias en java con JUNIT
 
Global Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft FabricGlobal Azure Lima 2024 - Integración de Datos con Microsoft Fabric
Global Azure Lima 2024 - Integración de Datos con Microsoft Fabric
 
guía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan Josephguía de registro de slideshare por Brayan Joseph
guía de registro de slideshare por Brayan Joseph
 
Herramientas de corte de alta velocidad.pptx
Herramientas de corte de alta velocidad.pptxHerramientas de corte de alta velocidad.pptx
Herramientas de corte de alta velocidad.pptx
 
Proyecto integrador. Las TIC en la sociedad S4.pptx
Proyecto integrador. Las TIC en la sociedad S4.pptxProyecto integrador. Las TIC en la sociedad S4.pptx
Proyecto integrador. Las TIC en la sociedad S4.pptx
 
Presentación guía sencilla en Microsoft Excel.pptx
Presentación guía sencilla en Microsoft Excel.pptxPresentación guía sencilla en Microsoft Excel.pptx
Presentación guía sencilla en Microsoft Excel.pptx
 
Redes direccionamiento y subredes ipv4 2024 .pdf
Redes direccionamiento y subredes ipv4 2024 .pdfRedes direccionamiento y subredes ipv4 2024 .pdf
Redes direccionamiento y subredes ipv4 2024 .pdf
 
EPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial UninoveEPA-pdf resultado da prova presencial Uninove
EPA-pdf resultado da prova presencial Uninove
 
KELA Presentacion Costa Rica 2024 - evento Protégeles
KELA Presentacion Costa Rica 2024 - evento ProtégelesKELA Presentacion Costa Rica 2024 - evento Protégeles
KELA Presentacion Costa Rica 2024 - evento Protégeles
 
trabajotecologiaisabella-240424003133-8f126965.pdf
trabajotecologiaisabella-240424003133-8f126965.pdftrabajotecologiaisabella-240424003133-8f126965.pdf
trabajotecologiaisabella-240424003133-8f126965.pdf
 
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
POWER POINT YUCRAElabore una PRESENTACIÓN CORTA sobre el video película: La C...
 
CLASE DE TECNOLOGIA E INFORMATICA PRIMARIA
CLASE  DE TECNOLOGIA E INFORMATICA PRIMARIACLASE  DE TECNOLOGIA E INFORMATICA PRIMARIA
CLASE DE TECNOLOGIA E INFORMATICA PRIMARIA
 
Trabajo Mas Completo De Excel en clase tecnología
Trabajo Mas Completo De Excel en clase tecnologíaTrabajo Mas Completo De Excel en clase tecnología
Trabajo Mas Completo De Excel en clase tecnología
 
International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)International Women's Day Sucre 2024 (IWD)
International Women's Day Sucre 2024 (IWD)
 
9egb-lengua y Literatura.pdf_texto del estudiante
9egb-lengua y Literatura.pdf_texto del estudiante9egb-lengua y Literatura.pdf_texto del estudiante
9egb-lengua y Literatura.pdf_texto del estudiante
 

Curs einesbioinformatiques juny2011_bloc1_sessio3

  • 1. Curs de Formació UEB Eines bioinformàtiques per a la investigació biomèdica 1r bloc: Introducció a la Bioinformàtica i les bases de dades Aplicacions guiades: 3ª sessió: Blast. Genome Browsers. Ferran Briansó (tècnic UEB) ferran.brianso@vhir.org https://ueb.ir.vhebron.net Vall d'Hebron Institut de Recerca 21/06/2011
  • 2. Sesión 3 – Índice de contenidos BLAST - Motivación: predicción funcional - Similaridad vs Homología - Alineamiento por parejas – Sistemas de puntuación – Sistemas de puntuación para proteínas – Matrices de substitución (PAM, BLOSUM) - BLAST (Alineamiento contra BD) – Blast en NCBI – ¿Cómo funciona? – Parámetros, criterios, Bit-scores, E-values – ¿Dónde cortar? – ¿Existe homología? GENOME BROWSERS - Ensembl - NCBI Map Viewer - UCSC - VEGA Vall d'Hebron Institut de Recerca 21/06/2011
  • 3. BLAST Búsqueda de homologías Vall d'Hebron Institut de Recerca 21/06/2011
  • 4. Predicción funcional de una proteína/gen - Secuencia problema: Queremos averiguar sus posibles propiedades. - La evolución es un proceso conservativo Cambian los residuos en una secuencia pero se conservan las propiedades bioquímicas y los procesos fisiológicos - Si somos capaces de encontrar secuencias homólogas a la secuencia problema podemos inferir que ésta “debe de tener” propiedades similares a las de la secuencia conocida. - La búsqueda (el hallazgo, de hecho) de secuencias homólogas puede ser una vía para predecir la función de una proteína o un gen. Vall d'Hebron Institut de Recerca 21/06/2011
  • 5. Similaridad vs Homología - Homología: - Descendencia de un ancestro común - Medida cualitativa: dos secuencias son homólogas o no lo son - Similaridad - Medida cuantitativa para determinar el grado de relación entre dos secuencias - Podemos usar una medida de similaridad para inferir homología Vall d'Hebron Institut de Recerca 21/06/2011
  • 6. Sistemas de puntuación - Queremos medir el grado de similaridad de dos secuencias - Es necesario definir un criterio(sistema de puntuación) que evalue esta similaridad Ejemplo: - Match=1 - Mismatch=0 S= A T G C A G T T= A T A A G T Vall d'Hebron Institut de Recerca 21/06/2011
  • 7. Sistemas de puntuación - El alineamiento de las secuencias puede aumentar la puntuación: - Match=1 S= A T G C A G T - Mismatch=0 T= A T A A G T - Gap=-1 p(s,t) 1 1 0 0 0 0 Σ= 2 S= A T G C A G T T= A T A A ▬ G T p(s,t) 1 1 0 0 -1 1 1 Σ= 3 S= A T G C A G T T= A T ▬ A A G T Vall d'Hebron Institut de Recerca 21/06/2011
  • 8. Sistemas de puntuación - Match=1 S= A T G C A G T T= A T A A G T - Mismatch=-1 p(s,t) 1 1 -1 -1 -1 -1 Σ= -2 - Gap Open=-3 - Gap Ext.=-2 S= A T G C A G T T= A T A A ▬ G T p(s,t) 1 1 -1 -1 -5 1 1 Σ= -3 S= A T G C A G T T= A T ▬ A A G T p(s,t) 1 1 -5 -1 1 1 1 Σ= -1 Vall d'Hebron Institut de Recerca 21/06/2011
  • 9. Sistemas de puntuación para proteínas - Match=1 - Mismatch=0 - Gap=-1 S= T T Y G A P P W C S T= − T G Y A P P P W S p(s,t) -1 1 0 0 1 1 1 0 0 1 Σ= 4 S= T T Y G A P P W C S T= T G Y A P P P W S − Vall d'Hebron Institut de Recerca 21/06/2011
  • 10. Sistemas de puntuación para proteínas  Los AA tienen distintas propiedades  posibilidades distintas de ser sustituidos unos por otros en la evolucion tiny P aliphatic C S+S small G I A G S V CSH N L T D hydrophobic M Y K E F Q W H R positive aromatic polar charged Vall d'Hebron Institut de Recerca 21/06/2011
  • 11. Matrices de substitución A 4 R N -1 5 -2 0 6 Pairwise alignment scores D -2 -2 1 6 are determined using a C 0 -3 -3 -3 9 scoring matrix such as Q -1 1 0 0 -3 5 E -1 0 0 2 -4 2 5 Blosum62 G 0 -2 0 -1 -3 -2 -2 6 H -2 0 1 -1 -3 0 0 -2 8 I -1 -3 -3 -3 -1 -3 -3 -4 -3 4 L -1 -2 -3 -4 -1 -2 -3 -4 -3 2 4 K -1 2 0 -1 -1 1 1 -2 -1 -3 -2 5 M -1 -2 -2 -3 -1 0 -2 -3 -2 1 2 -1 5 F -2 -3 -3 -3 -2 -3 -3 -3 -1 0 0 -3 0 6 P -1 -2 -2 -1 -3 -1 -1 -2 -2 -3 -3 -1 -2 -4 7 S 1 -1 1 0 -1 0 0 0 -1 -2 -2 0 -1 -2 -1 4 T 0 -1 0 -1 -1 -1 -1 -2 -2 -1 -1 -1 -1 -2 -1 1 5 W -3 -3 -4 -4 -2 -2 -3 -2 -2 -3 -2 -3 -1 1 -4 -3 -2 11 Y -2 -2 -2 -3 -2 -1 -2 -3 2 -1 -1 -2 -1 3 -3 -2 -2 2 7 V 0 -3 -3 -3 -1 -2 -2 -3 -3 3 1 -2 1 -1 -2 -2 0 -3 -1 4 A R N D C Q E G H I L K M F P S T W Y V Vall d'Hebron Institut de Recerca 21/06/2011
  • 12. Matrices de substitución BLOSUM62 S= T T Y G A P P W C S T= − T G Y A P P P W S p(s,t) -1 5 -3 -3 4 7 7 -4 -2 4 Σ= 14 S= T T Y G A P P W C S T= T G Y A P P P W − S Vall d'Hebron Institut de Recerca 21/06/2011
  • 13. Matrices de substitución - No hay una matriz única que se pueda usar siempre - Según la familia de proteínas y el grado de similitud esperado se usará una u otra - Las más utilizadas PAM y BLOSUM - PAM: Percent Accepted Mutation Matrix - Derivadas de alineamientos globales de secuencias próximas - PAM40  PAM250. A mayor nº, mayor distancia evolutiva - BLOSUM: BLOcks of amino acid SUbstitution Matrix - Derivadas de alineamientos locales de secuencias distantes - BLOSUM90  BLOSUM45 El nº representa porcentaje de identidad Vall d'Hebron Institut de Recerca 21/06/2011
  • 14. Matrices de substitución - Generalmente, la matrices BLOSUM funcionan mejor que las PAM para búsquedas de similaridad local(Henikoff & Henikoff, 1993). - Cuando comparamos proteinas cercanas deberíamos usar matrices PAM mas bajas o BLOSUM mas altas, mientras que para proteinas distantes sería mas conveniente el uso de matrices PAM mas altas o BLOSUM mas bajas. - Para búsquedas en BBDD sin información previa es bastante comun el uso de una BLOSUM62. Vall d'Hebron Institut de Recerca 21/06/2011
  • 15. Alineamiento contra BD Supongamos que buscamos secuencias homólogas a nuestra secuencia problema. - Una estrategia posible es hacer alineamientos contra una base de datos de secuencias. - El algoritmo de Smith-Waterman obtiene un alineamiento local óptimo, dado un sistema de puntuacion dado - Demasiado lento para buscar contra una BBDD Vall d'Hebron Institut de Recerca 21/06/2011
  • 16. Alineamiento vs BD - El algoritmo BLAST(Basic Local Alignment Search Tool) permite un rápida comparación(alineamiento) de una secuencia problema contra una BBDD - Es rápido y preciso (ademas, accesible via web) - Algoritmo heurístico: puede obviar alineamientos óptimos Vall d'Hebron Institut de Recerca 21/06/2011
  • 17. Blast en NCBI Vall d'Hebron Institut de Recerca 21/06/2011
  • 18. Blast en NCBI Vall d'Hebron Institut de Recerca 21/06/2011
  • 19. Ejemplo Vall d'Hebron Institut de Recerca 21/06/2011
  • 20. Ejemplo Vall d'Hebron Institut de Recerca 21/06/2011
  • 21. ¿Cómo funciona Blast? - Fase 1: compilar una lista de palabras (w=3) con score por encima de un threshold T (high- scoring segment pairs (HSPs)) - Ejemplo: búsqueda para “human RBP” …FSGTWYA… Lista de palabras (w=3): FSG SGT GTW TWY WYA YSG TGT ATW SWY WFA FTG SVT GSW TWF WYS Vall d'Hebron Institut de Recerca 21/06/2011
  • 22. ¿Cómo funciona Blast? Fase 2: - Escaneo de la base de datos para buscar entradas que coincidan con la lista compilada. - Esto es relativamente rápido y fácil. Vall d'Hebron Institut de Recerca 21/06/2011
  • 23. ¿Cómo funciona Blast? - Fase 3: cuando encontramos un hit (es decir, una coincidencia entre una palabra y una entrada de la BBDD), extender el hit en ambas direcciones. - Calcular los “scores” a cada paso (usando la matriz de substitución) - Parar cuando la puntuación cae por debajo de cierto “cutoff”. KENFDKARFSGTWYAMAKKDPEG RBP (query) MKGLDIQKVAGTWYSLAMAASD lactoglobulin (hit) extender extender Hit! Vall d'Hebron Institut de Recerca 21/06/2011
  • 24. Parámetros del algoritmo Vall d'Hebron Institut de Recerca 21/06/2011
  • 25. Criterios de selección Vall d'Hebron Institut de Recerca 21/06/2011
  • 26. Bit-scores - El valor de la puntuaciones obtenidas por un emparejamiento carecen de sentido si no se tiene en cuenta el tamaño de la base de datos y el sistema de puntuación - Los Bit-scores normalizan las puntuaciones para independizarlas de ambos factores de forma que podamos compararlas Vall d'Hebron Institut de Recerca 21/06/2011
  • 27. E-values E = Kmn e-λS - Dada una secuencia que ha obtenido una puntuacion E- value es el número esperado de puntuaciones iguales o superiores a las de dicha secuencia atribuibles al azar. - Un E-value de 10 para una coincidencia significa, que, en una base de datos de secuencias aleatorias del mismo tamaño en la que se ha realizado la búsqueda, se podría esperar encontrar hasta 10 coincidencias con la misma puntuación o similar. - El E-value es la medida de corte más utilizada en las búsquedas en bases de datos. Sólo se informa de las coincidencias que superan un nivel mínimo - El E-value oscila entre 0 y cualquier valor Vall d'Hebron Institut de Recerca 21/06/2011
  • 28. ¿Dónde cortar? - Valores bajos de E se pueden interpretar como un p- valor (probabilidad de encontrar por azar una secuencia con la misma puntuación o superior) - Si queremos seguridad de que las seqs. que encontramos son realmente homologas (mas especificidad), tomaremos valores de corte pequeños (E=0.05, 0.1 + Bit scores altos + Alto porcentaje de identidad) - Si, en cambio, nos interesa explorar y priorizamos no perder información por delante de la seguridad (mas sensibilidad), podemos relajar el punto de corte (E=1, 10 + Bit scores normales + Alto porcentaje de identidad) Vall d'Hebron Institut de Recerca 21/06/2011
  • 29. ¿Existe homología? >gb|AAA60147.1| placental protein 14 [Homo sapiens] Length=162 Score = 33.9 bits (76), Expect = 0.34 Identities = 24/107 (22%), Positives = 46/107 (42%), Gaps = 11/107 (10%) Query 28 RVKENFDKARFSGTWYAMAKKDPEGLFLQDNIVAEFSVDETGQMSATAKGRVRLLNNWD- 86 + K++ + + +GTW++MA + L + A V T + +L+ W+ Sbjct 5 QTKQDLELPKLAGTWHSMAMA-TNNISLMATLKAPLRVHITSLLPTPEDNLEIVLHRWEN 63 Query 87 -VCADMVGTFTDTEDPAKFKMKYWGVASFLQKGNDDHWIVDTDYDTY 132 C + T +P KFK+ Y ++ ++DTDYD + Sbjct 64 NSCVEKKVLGEKTGNPKKFKINYTVA--------NEATLLDTDYDNF 102 - RBP4 y PAEP: Bit-score bajo, E-value 0.34, 22% identidad (“zona gris”). - Pero son, en efecto, homólogas. Se puede comprovar con una búsqueda BLAST con PAEP como secuencia “query”, y se encuentran muchas lipocalinas. Vall d'Hebron Institut de Recerca 21/06/2011
  • 30. Genome browsers Vall d'Hebron Institut de Recerca 21/06/2011
  • 31. Sesión 3 – Índice de contenidos BLAST - Motivación: predicción funcional - Similaridad vs Homología - Alineamiento por parejas – Sistemas de puntuación – Sistemas de puntuación para proteínas – Matrices de substitución (PAM, BLOSUM) - BLAST (Alineamiento contra BD) – Blast en NCBI – ¿Cómo funciona? – Parámetros, criterios, Bit-scores, E-values – ¿Dónde cortar? – ¿Existe homología? GENOME BROWSERS - Ensembl - NCBI Map Viewer - UCSC - VEGA Vall d'Hebron Institut de Recerca 21/06/2011
  • 32. Genome Browsers Ensembl http://www.ensembl.org NCBI Map Viewer http://www.ncbi.nlm.nih.gov/projects/mapview UCSC Genome Browser http://genome.ucsc.edu/ VEGA Genome Browser http://vega.sanger.ac.uk Vall d'Hebron Institut de Recerca 21/06/2011