Este documento presenta un resumen de la tesis doctoral de David Montaner sobre el análisis funcional de datos genómicos. Describe los avances metodológicos realizados por el autor en el uso de regresión logística y análisis multidimensional para interpretar datos genómicos a nivel de conjuntos de genes. Además, propone una metodología para estimar la importancia relativa de cada gen dentro de los conjuntos funcionales.
Seguimiento y Evaluación OnLine de Trabajos de Prácticas en Asignaturas de Es...
Dmontaner dissertation slides
1. Avances Metodológicos en el
Análisis Funcional de
Estudios Genómicos
David Montaner González
Departamento de Bioquímica y Biología Molecular
Universidad de Valencia
Programa de Doctorado en Biotecnología
Tésis dirigida por Joaquín Dopazo Blázquez
18 Julio de 2013
David Montaner
Análisis Funcional de Datos Genómicos
1/24
2. Compendio de Publicaciones
2006 Next station in microarray data analysis: GEPAS.
2008 New trends in the analysis of functional genomic data.
2009 Gene set internal coherence in the context of functional
profiling.
2010 Multidimensional gene set analysis of genomic data.
David Montaner
Análisis Funcional de Datos Genómicos
2/24
3. Análisis Funcional de Datos Genómicos
Interpretación de datos recogidos en experimentos genómicos
DATOS ←− INFORMACI ÓN CONOCIDA
• Interesa entender la función que realizan los genes
• Miles de variables: los genes
• Cientos de bases de datos: la información “conocida”
• Necesita metodologías estadísticas
• Necesita herramientas bioinformáticas
David Montaner
Análisis Funcional de Datos Genómicos
3/24
4. Datos Genómicos I
Datos experimentales:
• medidas relativas a los genes: expresión, metilación,
número de copias, pérdida de heterocigosidad . . .
• no siempre recolectados en laboratorio
• recogidos para responder cuestiones planteada a priori
• “universo” implícito de genes; variables en sentido
estadístico
• es información nueva que nunca nadie ha “visto” antes
David Montaner
Análisis Funcional de Datos Genómicos
4/24
6. Análisis Datos Genómicos
Para cada gen se plantea una hipótesis estadística que
modeliza la pregunta de interés sobre el gen:
• se resume en un estadístico,
p-valor . . . o índice numérico continuo
asociado a cada gen.
• ordena los genes acorde con cierta
propiedad biológica implícita en la
pregunta.
• que debe ser interpretada . . .
David Montaner
ID
gen1
gen2
gen3
gen4
gen5
gen6
gen7
…
X
1.23
2.74
-0.34
1.32
-2.02
0.45
0.93
…
Análisis Funcional de Datos Genómicos
6/24
7. Bases de Datos Genómicos
Información genómica ya conocida:
• lo que sabe el investigador que plantea el problema
• la información descubierta y validada en estudios previos:
publicaciones
• la información registrada en bases de datos: anotación
David Montaner
Análisis Funcional de Datos Genómicos
7/24
8. Anotación de los genes
• Es generalmente información de tipo dicotómico o binario.
• Guardada como etiquetas asociadas con los genes.
• Agrupa los genes en bloques funcionales que superponen
entre si.
• Para la función biológica caracterizada por cada etiqueta,
sabemos qué genes realizan la función y cuáles no.
gen
gene1
gene2
gene3
gene1
gene2
gene4
…
Información
GO:0055114
GO:0055114
GO:0055114
GO:0044281
GO:0044281
GO:0006120
…
gene1
gene2
gene3
gene4
…
David Montaner
label 1
1
1
0
1
…
label 2
1
1
0
0
…
label 3
0
0
1
1
…
Análisis Funcional de Datos Genómicos
…
…
…
…
…
…
8/24
9. Análisis Funcional: Interpretación
• Cambio en la unidad
biológica de interés
• Reducción de la
cantidad de
variables estudiadas
• Interpretación
biológica más
asequible
ind.
1.23
2.74
-0.34
1.32
…
David Montaner
bloque
1
1
0
1
…
Análisis Funcional de Datos Genómicos
9/24
10. Metodología: Regresión Logística
Para cada bloque funcional modelizamos la probabilidad π de
que un gen pertenezca al bloque como función del índice x
calculado para dicho gen: π(x)
g1
g2
g3
g4
…
label 1 (Y)
1
1
0
1
…
index (X)
1.23
2.74
-0.34
1.32
…
log
π(x)
= κ + αx
1 − π(x)
α > 0 → asociación con índice +
α < 0 → asociación con índice −
α = 0 → no asociación
David Montaner
Análisis Funcional de Datos Genómicos
10/24
11. Regresión Logística: Ventajas
• Modelo estadístico clásico:
metodología validada, software disponible, . . .
• Puede ser aplicado a cualquier tipo de dato genómico ya
que sólo depende del índice derivado.
• Permite un análisis modular ; interesante por la facilidad de
computo y por la sencillez de la interpretación.
• Permite controlar otro tipo de variables, ej. la longitud de
los genes.
• Permite incluir no sólo una, sino varias variables
genómicas para interpretar funcionalmente a la vez:
análisis multidimensional
• Permite incluir pesos que moderen la importancia
asignada a cada gen dentro del bloque
David Montaner
Análisis Funcional de Datos Genómicos
11/24
12. Análisis Multidimensional
Datos experimentales medidos para varias características
genómicas a la vez; por ejemplo expresión diferencial y
metilación diferencial.
Bloque
1
1
0
1
0
0
0
…
exp.
1.23
2.74
-0.34
1.32
-2.02
0.45
0.93
…
met.
-2.3
1.4
-0.1
1.5
2.0
-1.9
0.8
…
log
π
= κ + α x1 + β x2 + γ x1 x2
1−π
La interpretación se realiza según el
signo de los coeficientes α, β y γ.
David Montaner
Análisis Funcional de Datos Genómicos
12/24
13. Análisis Multidimensional
La estimación de los parámetros en la ecuación nos permite
encontrar y definir la dependencia de un bloque funcional
respecto de dos características genómicas a la vez.
log
π
= κ + α x1 + β x2 + γ x1 x2
1−π
α = 0
β > 0
(pattern: yh)
γ = 0
+Y
α < 0
β > 0
(pattern: q2f)
α < 0
β = 0
(pattern: xl)
David Montaner
α > 0
β > 0
(pattern: q1f)
+X
α > 0
β < 0
(pattern: q4f)
α < 0
β < 0
(pattern: q3f)
α > 0
β = 0
(pattern: xh)
α = 0
β < 0
(pattern: yl)
Análisis Funcional de Datos Genómicos
13/24
17. Análisis ponderado
No todos los genes son igual de importantes dentro de cada
bloque funcional. Los modelos logísticos nos permiten tener en
cuenta la importancia de cada gen en el análisis de cada uno
de los bloques.
Datos con pesos
Bloque
1
1
0
1
0
0
0
Indice
1.23
2.74
-0.34
1.32
-2.02
0.45
0.93
Peso
0.1
0.3
0.2
0.1
0.1
0.1
0.1
David Montaner
Datos sin pesos “equivalentes”
Bloque
1
1
1
1
0
0
1
0
0
0
Indice
1.23
2.74
2.74
2.74
-0.34
-0.34
1.32
-2.02
0.45
0.93
Peso
0.1
0.1
0.1
0.1
0.1
0.1
0.1
0.1
0.1
0.1
Análisis Funcional de Datos Genómicos
∗
∗
∗
+
+
17/24
18. Estimación empírica de la
importancia de cada gen
• 3000 arrays bajados de GEO (30.000 en siguientes
versiones del estudio).
• Estimación de la correlación entre cada gen y cada bloque
funcional (GO y KEGG)
• Derivamos una distancia entre cada gen y cada bloque
funcional. Esta distancia representa lo coherente que es el
gen dentro del bloque.
• Usamos la inversa de la distancia para ponderar cada gen
en el análisis de cada bloque funcional.
Resultados
• El método logístico ponderado es más sensible y detecta
más bloques enriquecidos.
• Un primer modelo para trabajar con la idea de pertenencia
no discreta de un gen a una función.
David Montaner
Análisis Funcional de Datos Genómicos
18/24
19. Coherencia interna de los bloques I
Los métodos de análisis funcional para datos de expresión
asumen implícitamente que los genes dentro de los bloques
están correlacionada.
Sin embargo esto no se había evaluado nunca antes con datos
reales:
• Estimación de la correlación entre cada pareja de genes.
• Estimación de la correlación media de grupos de genes de
distintos tamaños seleccionados de forma aleatoria.
• Comparación de la correlación interna de los bloques de
GO y de KEGG con bloques aleatorios del mismo tamaño.
• Derivamos un índice de coherencia interna para cada
bloque funcional.
David Montaner
Análisis Funcional de Datos Genómicos
19/24
20. Coherencia interna de los bloques II
• La coherencia interna de
los bloques en general es
incluso menor de lo
esperado.
• El índice de coherencia
estimado para cada bloque
nos permite filtrar los
bloques no coherentes
antes de introducirlos en el
análisis funcional.
David Montaner
Análisis Funcional de Datos Genómicos
20/24
21. Conclusiones I
1
La regresión logística es una metodología apropiada para
realizar análisis de enriquecimiento funcional.
2
El análisis funcional combinado de varias características
genómicas es viable además de biológicamente relevante.
3
Los bloques funcionales de genes descritos en las bases
de datos son, en ultima instancia, entidades heterogéneas.
Esta heterogeneidad puede ser estimada a partir de datos
previos y dicha estimación utilizada para realizar análisis
de enriquecimiento funcional más precisos.
4
Las rutas de KEGG y los bloques descritos en el Gene
Ontology son internamente menos coherente de lo
esperado en lo que respecta a la expresión génica.
David Montaner
Análisis Funcional de Datos Genómicos
21/24
22. Conclusiones II
5
En todo experimento genómico hay implícito un “universo”
de genes del que depende la interpretación de los
resultados.
6
Los genes que muestran los mayores cambios o
diferencias de expresión en un estudio no son siempre los
más relevantes desde el punto de vista biológico.
7
Los métodos de enriquecimiento funcional incrementan la
potencia del análisis ya que:
• incorporan la información adicional de la anotación.
• combinan la información de varios genes.
• reducen el espacio de variables observadas (del espacio
de genes al espacio de bloques).
David Montaner
Análisis Funcional de Datos Genómicos
22/24
23. Conclusiones III
8
La separación de los diferentes pasos del análisis en
módulos facilita la implementación de algoritmos, el trabajo
de análisis y, sobre todo, la interpretación biológica de los
resultados.
9
Desde el punto de vista estadístico es interesante resaltar
que, en el enfoque modular, los propios resultados
estadísticos de un paso del análisis se convierten en los
nuevos datos para analizar en el paso siguiente.
10
La presentación adecuada de los resultados de
experimentos genómicos es esencial, no sólo por estética,
sino por que su comprensión y exploración depende de
dicha presentación.
David Montaner
Análisis Funcional de Datos Genómicos
23/24
24. Conclusiones IV
11
Incluir varios métodos para realizar el mismo estudio
estadístico en el software de análisis genómico ayuda al
usuario a entender los resultados de forma intuitiva.
12
Las herramientas web son una forma eficiente y cómoda
de hacer disponibles los nuevos métodos a los
investigadores.
David Montaner
Análisis Funcional de Datos Genómicos
24/24