Dmontaner dissertation slides

Avances Metodológicos en el
Análisis Funcional de
Estudios Genómicos
David Montaner González
Departamento de Bioquímica y Biología Molecular
Universidad de Valencia
Programa de Doctorado en Biotecnología
Tésis dirigida por Joaquín Dopazo Blázquez
18 Julio de 2013

David Montaner

Análisis Funcional de Datos Genómicos

1/24

Compendio de Publicaciones

2006 Next station in microarray data analysis: GEPAS.
2008 New trends in the analysis of functional genomic data.
2009 Gene set internal coherence in the context of functional
proﬁling.
2010 Multidimensional gene set analysis of genomic data.

David Montaner


2/24

Interpretación de datos recogidos en experimentos genómicos

DATOS ←− INFORMACI ÓN CONOCIDA

• Interesa entender la función que realizan los genes
• Miles de variables: los genes
• Cientos de bases de datos: la información “conocida”
• Necesita metodologías estadísticas
• Necesita herramientas bioinformáticas
David Montaner


3/24

Datos Genómicos I
Datos experimentales:
• medidas relativas a los genes: expresión, metilación,

número de copias, pérdida de heterocigosidad . . .
• no siempre recolectados en laboratorio
• recogidos para responder cuestiones planteada a priori
• “universo” implícito de genes; variables en sentido

estadístico
• es información nueva que nunca nadie ha “visto” antes

David Montaner


4/24

Datos Genómicos II

clase
gen1
gen2
gen3
gen4
gen4

A
-0.45
-1.55
-0.89
-0.60
…

A
1.78
0.95
-1.27
-0.67
…

A
0.39
0.92
-0.18
1.44
…

David Montaner

B
-0.28
-1.41
-0.68
0.04
…

B
0.23
0.94
0.58
-0.61
…

B
-0.08
-0.30
-0.07
1.03
…


5/24

Análisis Datos Genómicos
Para cada gen se plantea una hipótesis estadística que
modeliza la pregunta de interés sobre el gen:
• se resume en un estadístico,

p-valor . . . o índice numérico continuo
asociado a cada gen.
• ordena los genes acorde con cierta

propiedad biológica implícita en la
pregunta.
• que debe ser interpretada . . .

David Montaner

ID
gen1
gen2
gen3
gen4
gen5
gen6
gen7
…

X
1.23
2.74
-0.34
1.32
-2.02
0.45
0.93
…


6/24

Bases de Datos Genómicos

Información genómica ya conocida:
• lo que sabe el investigador que plantea el problema
• la información descubierta y validada en estudios previos:

publicaciones
• la información registrada en bases de datos: anotación

David Montaner


7/24

Anotación de los genes
• Es generalmente información de tipo dicotómico o binario.
• Guardada como etiquetas asociadas con los genes.
• Agrupa los genes en bloques funcionales que superponen

entre si.
• Para la función biológica caracterizada por cada etiqueta,

sabemos qué genes realizan la función y cuáles no.

gen
gene1
gene2
gene3
gene1
gene2
gene4
…

Información
GO:0055114
GO:0055114
GO:0055114
GO:0044281
GO:0044281
GO:0006120
…

gene1
gene2
gene3
gene4
…

David Montaner

label 1
1
1
0
1
…

label 2
1
1
0
0
…

label 3
0
0
1
1
…


…
…
…
…
…
…

8/24

Análisis Funcional: Interpretación
• Cambio en la unidad

biológica de interés
• Reducción de la

cantidad de
variables estudiadas
• Interpretación

biológica más
asequible

ind.
1.23
2.74
-0.34
1.32
…
David Montaner

bloque
1
1
0
1
…


9/24

Metodología: Regresión Logística
Para cada bloque funcional modelizamos la probabilidad π de
que un gen pertenezca al bloque como función del índice x
calculado para dicho gen: π(x)
g1
g2
g3
g4
…

label 1 (Y)
1
1
0
1
…

index (X)
1.23
2.74
-0.34
1.32
…

log

π(x)
= κ + αx
1 − π(x)

α > 0 → asociación con índice +
α < 0 → asociación con índice −
α = 0 → no asociación

David Montaner


10/24

Regresión Logística: Ventajas
• Modelo estadístico clásico:

metodología validada, software disponible, . . .
• Puede ser aplicado a cualquier tipo de dato genómico ya

que sólo depende del índice derivado.
• Permite un análisis modular ; interesante por la facilidad de

computo y por la sencillez de la interpretación.
• Permite controlar otro tipo de variables, ej. la longitud de

los genes.
• Permite incluir no sólo una, sino varias variables

genómicas para interpretar funcionalmente a la vez:
análisis multidimensional
• Permite incluir pesos que moderen la importancia

asignada a cada gen dentro del bloque
David Montaner


11/24

Análisis Multidimensional
Datos experimentales medidos para varias características
genómicas a la vez; por ejemplo expresión diferencial y
metilación diferencial.
Bloque
1
1
0
1
0
0
0
…

exp.
1.23
2.74
-0.34
1.32
-2.02
0.45
0.93
…

met.
-2.3
1.4
-0.1
1.5
2.0
-1.9
0.8
…

log

π
= κ + α x1 + β x2 + γ x1 x2
1−π

La interpretación se realiza según el
signo de los coeﬁcientes α, β y γ.

David Montaner


12/24

Análisis Multidimensional
La estimación de los parámetros en la ecuación nos permite
encontrar y deﬁnir la dependencia de un bloque funcional
respecto de dos características genómicas a la vez.
log

π
= κ + α x1 + β x2 + γ x1 x2
1−π
α = 0
β > 0
(pattern: yh)

γ = 0

+Y
α < 0
β > 0
(pattern: q2f)
α < 0
β = 0
(pattern: xl)

David Montaner

α > 0
β > 0
(pattern: q1f)
+X
α > 0
β < 0
(pattern: q4f)

α < 0
β < 0
(pattern: q3f)

α > 0
β = 0
(pattern: xh)

α = 0
β < 0

(pattern: yl)


13/24

Patrón estándar univariante
α = 0
β > 0
(pattern: yh)

γ = 0

+Y
α < 0
β > 0
(pattern: q2f)

α > 0
β > 0
(pattern: q1f)

α < 0
β < 0
(pattern: q3f)

α < 0
β = 0
(pattern: xl)

α > 0
β < 0
(pattern: q4f)

+X

α > 0
β = 0
(pattern: xh)

α = 0
β < 0

(pattern: yl)

γ < 0

γ > 0

Quadrant 2 +Y
α < 0
β > 0
(pattern: q2i)

+Y

+X

Quadrant 1
α > 0
β > 0
(pattern: q1i)

γ > 0

γ < 0
+Y

+X

Quadrant 3
α < 0
β < 0
(pattern: q3i)

γ > 0

+X

+Y

+X

+Y

Quadrant 4
α > 0
β < 0
(pattern: q3i)

Quadrant 1
α = 0
β = 0
(pattern: b13)
+X

Quadrant 3
α = 0
β = 0
(pattern: b13)

Quadrant 2
+Y
α = 0
β = 0
(pattern: b24)

γ < 0
+X

Quadrant 4
α = 0
β = 0
(pattern: b24)

David Montaner


14/24

Patrón de interacción
α = 0
β > 0
(pattern: yh)

γ = 0

+Y
α < 0
β > 0
(pattern: q2f)

α > 0
β > 0
(pattern: q1f)

α < 0
β < 0
(pattern: q3f)

α < 0
β = 0
(pattern: xl)

α > 0
β < 0
(pattern: q4f)

+X

α > 0
β = 0
(pattern: xh)

α = 0
β < 0

(pattern: yl)

γ < 0

γ > 0

Quadrant 2 +Y
α < 0
β > 0
(pattern: q2i)

+Y

+X

Quadrant 1
α > 0
β > 0
(pattern: q1i)

γ > 0

γ < 0
+Y

+X

Quadrant 3
α < 0
β < 0
(pattern: q3i)

γ > 0

+X

+Y

+X

+Y

Quadrant 4
α > 0
β < 0
(pattern: q3i)

Quadrant 1
α = 0
β = 0
(pattern: b13)
+X

Quadrant 3
α = 0
β = 0
(pattern: b13)

Quadrant 2
+Y
α = 0
β = 0
(pattern: b24)

γ < 0
+X

Quadrant 4
α = 0
β = 0
(pattern: b24)

David Montaner


15/24

Patrón bimodal
α = 0
β > 0
(pattern: yh)

γ = 0

+Y
α < 0
β > 0
(pattern: q2f)

α > 0
β > 0
(pattern: q1f)

α < 0
β < 0
(pattern: q3f)

α < 0
β = 0
(pattern: xl)

α > 0
β < 0
(pattern: q4f)

+X

α > 0
β = 0
(pattern: xh)

α = 0
β < 0

(pattern: yl)

γ < 0

γ > 0

Quadrant 2 +Y
α < 0
β > 0
(pattern: q2i)

+Y

+X

Quadrant 1
α > 0
β > 0
(pattern: q1i)

γ > 0

γ < 0
+Y

+X

Quadrant 3
α < 0
β < 0
(pattern: q3i)

γ > 0

+X

+Y

+X

+Y

Quadrant 4
α > 0
β < 0
(pattern: q3i)

Quadrant 1
α = 0
β = 0
(pattern: b13)
+X

Quadrant 3
α = 0
β = 0
(pattern: b13)

Quadrant 2
+Y
α = 0
β = 0
(pattern: b24)

γ < 0
+X

Quadrant 4
α = 0
β = 0
(pattern: b24)

David Montaner


16/24

Análisis ponderado
No todos los genes son igual de importantes dentro de cada
bloque funcional. Los modelos logísticos nos permiten tener en
cuenta la importancia de cada gen en el análisis de cada uno
de los bloques.

Datos con pesos
Bloque
1
1
0
1
0
0
0

Indice
1.23
2.74
-0.34
1.32
-2.02
0.45
0.93

Peso
0.1
0.3
0.2
0.1
0.1
0.1
0.1

David Montaner

Datos sin pesos “equivalentes”
Bloque
1
1
1
1
0
0
1
0
0
0

Indice
1.23
2.74
2.74
2.74
-0.34
-0.34
1.32
-2.02
0.45
0.93

Peso
0.1
0.1
0.1
0.1
0.1
0.1
0.1
0.1
0.1
0.1


∗
∗
∗
+
+

17/24

Estimación empírica de la
importancia de cada gen
• 3000 arrays bajados de GEO (30.000 en siguientes

versiones del estudio).
• Estimación de la correlación entre cada gen y cada bloque

funcional (GO y KEGG)
• Derivamos una distancia entre cada gen y cada bloque

funcional. Esta distancia representa lo coherente que es el
gen dentro del bloque.
• Usamos la inversa de la distancia para ponderar cada gen
en el análisis de cada bloque funcional.
Resultados
• El método logístico ponderado es más sensible y detecta
más bloques enriquecidos.
• Un primer modelo para trabajar con la idea de pertenencia
no discreta de un gen a una función.
David Montaner


18/24

Coherencia interna de los bloques I
Los métodos de análisis funcional para datos de expresión
asumen implícitamente que los genes dentro de los bloques
están correlacionada.
Sin embargo esto no se había evaluado nunca antes con datos
reales:
• Estimación de la correlación entre cada pareja de genes.
• Estimación de la correlación media de grupos de genes de

distintos tamaños seleccionados de forma aleatoria.
• Comparación de la correlación interna de los bloques de

GO y de KEGG con bloques aleatorios del mismo tamaño.
• Derivamos un índice de coherencia interna para cada

bloque funcional.

David Montaner


19/24

Coherencia interna de los bloques II
• La coherencia interna de

los bloques en general es
incluso menor de lo
esperado.
• El índice de coherencia

estimado para cada bloque
nos permite ﬁltrar los
bloques no coherentes
antes de introducirlos en el
análisis funcional.

David Montaner


20/24

Conclusiones I
1

La regresión logística es una metodología apropiada para
realizar análisis de enriquecimiento funcional.

2

El análisis funcional combinado de varias características
genómicas es viable además de biológicamente relevante.

3

Los bloques funcionales de genes descritos en las bases
de datos son, en ultima instancia, entidades heterogéneas.
Esta heterogeneidad puede ser estimada a partir de datos
previos y dicha estimación utilizada para realizar análisis
de enriquecimiento funcional más precisos.

4

Las rutas de KEGG y los bloques descritos en el Gene
Ontology son internamente menos coherente de lo
esperado en lo que respecta a la expresión génica.
David Montaner


21/24

Conclusiones II
5

En todo experimento genómico hay implícito un “universo”
de genes del que depende la interpretación de los
resultados.

6

Los genes que muestran los mayores cambios o
diferencias de expresión en un estudio no son siempre los
más relevantes desde el punto de vista biológico.

7

Los métodos de enriquecimiento funcional incrementan la
potencia del análisis ya que:
• incorporan la información adicional de la anotación.
• combinan la información de varios genes.
• reducen el espacio de variables observadas (del espacio

de genes al espacio de bloques).

David Montaner


22/24

Conclusiones III
8

La separación de los diferentes pasos del análisis en
módulos facilita la implementación de algoritmos, el trabajo
de análisis y, sobre todo, la interpretación biológica de los
resultados.

9

Desde el punto de vista estadístico es interesante resaltar
que, en el enfoque modular, los propios resultados
estadísticos de un paso del análisis se convierten en los
nuevos datos para analizar en el paso siguiente.

10

La presentación adecuada de los resultados de
experimentos genómicos es esencial, no sólo por estética,
sino por que su comprensión y exploración depende de
dicha presentación.

David Montaner


23/24

Conclusiones IV

11

Incluir varios métodos para realizar el mismo estudio
estadístico en el software de análisis genómico ayuda al
usuario a entender los resultados de forma intuitiva.

12

Las herramientas web son una forma eﬁciente y cómoda
de hacer disponibles los nuevos métodos a los
investigadores.

David Montaner


24/24

Dmontaner dissertation slides

Recomendados

Recomendados

Más contenido relacionado

Destacado

Destacado (6)

Similar a Dmontaner dissertation slides

Similar a Dmontaner dissertation slides (20)

Más de David Montaner

Más de David Montaner (6)

Dmontaner dissertation slides