SlideShare una empresa de Scribd logo
1 de 24
Descargar para leer sin conexión
Avances Metodológicos en el
Análisis Funcional de
Estudios Genómicos
David Montaner González
Departamento de Bioquímica y Biología Molecular
Universidad de Valencia
Programa de Doctorado en Biotecnología
Tésis dirigida por Joaquín Dopazo Blázquez
18 Julio de 2013

David Montaner

Análisis Funcional de Datos Genómicos

1/24
Compendio de Publicaciones

2006 Next station in microarray data analysis: GEPAS.
2008 New trends in the analysis of functional genomic data.
2009 Gene set internal coherence in the context of functional
profiling.
2010 Multidimensional gene set analysis of genomic data.

David Montaner

Análisis Funcional de Datos Genómicos

2/24
Análisis Funcional de Datos Genómicos
Interpretación de datos recogidos en experimentos genómicos

DATOS ←− INFORMACI ÓN CONOCIDA

• Interesa entender la función que realizan los genes
• Miles de variables: los genes
• Cientos de bases de datos: la información “conocida”
• Necesita metodologías estadísticas
• Necesita herramientas bioinformáticas
David Montaner

Análisis Funcional de Datos Genómicos

3/24
Datos Genómicos I
Datos experimentales:
• medidas relativas a los genes: expresión, metilación,

número de copias, pérdida de heterocigosidad . . .
• no siempre recolectados en laboratorio
• recogidos para responder cuestiones planteada a priori
• “universo” implícito de genes; variables en sentido

estadístico
• es información nueva que nunca nadie ha “visto” antes

David Montaner

Análisis Funcional de Datos Genómicos

4/24
Datos Genómicos II

clase
gen1
gen2
gen3
gen4
gen4

A
-0.45
-1.55
-0.89
-0.60
…

A
1.78
0.95
-1.27
-0.67
…

A
0.39
0.92
-0.18
1.44
…

David Montaner

B
-0.28
-1.41
-0.68
0.04
…

B
0.23
0.94
0.58
-0.61
…

B
-0.08
-0.30
-0.07
1.03
…

Análisis Funcional de Datos Genómicos

5/24
Análisis Datos Genómicos
Para cada gen se plantea una hipótesis estadística que
modeliza la pregunta de interés sobre el gen:
• se resume en un estadístico,

p-valor . . . o índice numérico continuo
asociado a cada gen.
• ordena los genes acorde con cierta

propiedad biológica implícita en la
pregunta.
• que debe ser interpretada . . .

David Montaner

ID
gen1
gen2
gen3
gen4
gen5
gen6
gen7
…

X
1.23
2.74
-0.34
1.32
-2.02
0.45
0.93
…

Análisis Funcional de Datos Genómicos

6/24
Bases de Datos Genómicos

Información genómica ya conocida:
• lo que sabe el investigador que plantea el problema
• la información descubierta y validada en estudios previos:

publicaciones
• la información registrada en bases de datos: anotación

David Montaner

Análisis Funcional de Datos Genómicos

7/24
Anotación de los genes
• Es generalmente información de tipo dicotómico o binario.
• Guardada como etiquetas asociadas con los genes.
• Agrupa los genes en bloques funcionales que superponen

entre si.
• Para la función biológica caracterizada por cada etiqueta,

sabemos qué genes realizan la función y cuáles no.

gen
gene1
gene2
gene3
gene1
gene2
gene4
…

Información
GO:0055114
GO:0055114
GO:0055114
GO:0044281
GO:0044281
GO:0006120
…

gene1
gene2
gene3
gene4
…

David Montaner

label 1
1
1
0
1
…

label 2
1
1
0
0
…

label 3
0
0
1
1
…

Análisis Funcional de Datos Genómicos

…
…
…
…
…
…

8/24
Análisis Funcional: Interpretación
• Cambio en la unidad

biológica de interés
• Reducción de la

cantidad de
variables estudiadas
• Interpretación

biológica más
asequible

ind.
1.23
2.74
-0.34
1.32
…
David Montaner

bloque
1
1
0
1
…

Análisis Funcional de Datos Genómicos

9/24
Metodología: Regresión Logística
Para cada bloque funcional modelizamos la probabilidad π de
que un gen pertenezca al bloque como función del índice x
calculado para dicho gen: π(x)
g1
g2
g3
g4
…

label 1 (Y)
1
1
0
1
…

index (X)
1.23
2.74
-0.34
1.32
…

log

π(x)
= κ + αx
1 − π(x)

α > 0 → asociación con índice +
α < 0 → asociación con índice −
α = 0 → no asociación

David Montaner

Análisis Funcional de Datos Genómicos

10/24
Regresión Logística: Ventajas
• Modelo estadístico clásico:

metodología validada, software disponible, . . .
• Puede ser aplicado a cualquier tipo de dato genómico ya

que sólo depende del índice derivado.
• Permite un análisis modular ; interesante por la facilidad de

computo y por la sencillez de la interpretación.
• Permite controlar otro tipo de variables, ej. la longitud de

los genes.
• Permite incluir no sólo una, sino varias variables

genómicas para interpretar funcionalmente a la vez:
análisis multidimensional
• Permite incluir pesos que moderen la importancia

asignada a cada gen dentro del bloque
David Montaner

Análisis Funcional de Datos Genómicos

11/24
Análisis Multidimensional
Datos experimentales medidos para varias características
genómicas a la vez; por ejemplo expresión diferencial y
metilación diferencial.
Bloque
1
1
0
1
0
0
0
…

exp.
1.23
2.74
-0.34
1.32
-2.02
0.45
0.93
…

met.
-2.3
1.4
-0.1
1.5
2.0
-1.9
0.8
…

log

π
= κ + α x1 + β x2 + γ x1 x2
1−π

La interpretación se realiza según el
signo de los coeficientes α, β y γ.

David Montaner

Análisis Funcional de Datos Genómicos

12/24
Análisis Multidimensional
La estimación de los parámetros en la ecuación nos permite
encontrar y definir la dependencia de un bloque funcional
respecto de dos características genómicas a la vez.
log

π
= κ + α x1 + β x2 + γ x1 x2
1−π
α = 0
β > 0
(pattern: yh)

γ = 0

+Y
α < 0
β > 0
(pattern: q2f)
α < 0
β = 0
(pattern: xl)

 

David Montaner

α > 0
β > 0
(pattern: q1f)
+X
α > 0
β < 0
(pattern: q4f)

α < 0
β < 0
(pattern: q3f)

α > 0
β = 0
(pattern: xh)

α = 0
β < 0
 
(pattern: yl)

Análisis Funcional de Datos Genómicos

13/24
Patrón estándar univariante
α = 0
β > 0
(pattern: yh)

γ = 0

+Y
α < 0
β > 0
(pattern: q2f)

α > 0
β > 0
(pattern: q1f)

α < 0
β < 0
(pattern: q3f)

α < 0
β = 0
(pattern: xl)

α > 0
β < 0
(pattern: q4f)

+X

α > 0
β = 0
(pattern: xh)

α = 0
β < 0
 
(pattern: yl)

 

γ < 0

γ > 0

Quadrant 2 +Y
α < 0
β > 0
(pattern: q2i)

+Y

+X

Quadrant 1
α > 0
β > 0
(pattern: q1i)

γ > 0

γ < 0
+Y

 

+X

Quadrant 3
α < 0
β < 0
(pattern: q3i)

γ > 0

+X

+Y

+X

+Y

 

Quadrant 4
α > 0
β < 0
(pattern: q3i)

Quadrant 1
α = 0
β = 0
(pattern: b13)
+X

Quadrant 3
α = 0
β = 0
(pattern: b13)

Quadrant 2
+Y
α = 0
β = 0
(pattern: b24)

γ < 0
+X

 

 

Quadrant 4
α = 0
β = 0
(pattern: b24)

David Montaner

Análisis Funcional de Datos Genómicos

14/24
Patrón de interacción
α = 0
β > 0
(pattern: yh)

γ = 0

+Y
α < 0
β > 0
(pattern: q2f)

α > 0
β > 0
(pattern: q1f)

α < 0
β < 0
(pattern: q3f)

α < 0
β = 0
(pattern: xl)

α > 0
β < 0
(pattern: q4f)

+X

α > 0
β = 0
(pattern: xh)

α = 0
β < 0
 
(pattern: yl)

 

γ < 0

γ > 0

Quadrant 2 +Y
α < 0
β > 0
(pattern: q2i)

+Y

+X

Quadrant 1
α > 0
β > 0
(pattern: q1i)

γ > 0

γ < 0
+Y

 

+X

Quadrant 3
α < 0
β < 0
(pattern: q3i)

γ > 0

+X

+Y

+X

+Y

 

Quadrant 4
α > 0
β < 0
(pattern: q3i)

Quadrant 1
α = 0
β = 0
(pattern: b13)
+X

Quadrant 3
α = 0
β = 0
(pattern: b13)

Quadrant 2
+Y
α = 0
β = 0
(pattern: b24)

γ < 0
+X

 

 

Quadrant 4
α = 0
β = 0
(pattern: b24)

David Montaner

Análisis Funcional de Datos Genómicos

15/24
Patrón bimodal
α = 0
β > 0
(pattern: yh)

γ = 0

+Y
α < 0
β > 0
(pattern: q2f)

α > 0
β > 0
(pattern: q1f)

α < 0
β < 0
(pattern: q3f)

α < 0
β = 0
(pattern: xl)

α > 0
β < 0
(pattern: q4f)

+X

α > 0
β = 0
(pattern: xh)

α = 0
β < 0
 
(pattern: yl)

 

γ < 0

γ > 0

Quadrant 2 +Y
α < 0
β > 0
(pattern: q2i)

+Y

+X

Quadrant 1
α > 0
β > 0
(pattern: q1i)

γ > 0

γ < 0
+Y

 

+X

Quadrant 3
α < 0
β < 0
(pattern: q3i)

γ > 0

+X

+Y

+X

+Y

 

Quadrant 4
α > 0
β < 0
(pattern: q3i)

Quadrant 1
α = 0
β = 0
(pattern: b13)
+X

Quadrant 3
α = 0
β = 0
(pattern: b13)

Quadrant 2
+Y
α = 0
β = 0
(pattern: b24)

γ < 0
+X

 

 

Quadrant 4
α = 0
β = 0
(pattern: b24)

David Montaner

Análisis Funcional de Datos Genómicos

16/24
Análisis ponderado
No todos los genes son igual de importantes dentro de cada
bloque funcional. Los modelos logísticos nos permiten tener en
cuenta la importancia de cada gen en el análisis de cada uno
de los bloques.

Datos con pesos
Bloque
1
1
0
1
0
0
0

Indice
1.23
2.74
-0.34
1.32
-2.02
0.45
0.93

Peso
0.1
0.3
0.2
0.1
0.1
0.1
0.1

David Montaner

Datos sin pesos “equivalentes”
Bloque
1
1
1
1
0
0
1
0
0
0

Indice
1.23
2.74
2.74
2.74
-0.34
-0.34
1.32
-2.02
0.45
0.93

Peso
0.1
0.1
0.1
0.1
0.1
0.1
0.1
0.1
0.1
0.1

Análisis Funcional de Datos Genómicos

∗
∗
∗
+
+

17/24
Estimación empírica de la
importancia de cada gen
• 3000 arrays bajados de GEO (30.000 en siguientes

versiones del estudio).
• Estimación de la correlación entre cada gen y cada bloque

funcional (GO y KEGG)
• Derivamos una distancia entre cada gen y cada bloque

funcional. Esta distancia representa lo coherente que es el
gen dentro del bloque.
• Usamos la inversa de la distancia para ponderar cada gen
en el análisis de cada bloque funcional.
Resultados
• El método logístico ponderado es más sensible y detecta
más bloques enriquecidos.
• Un primer modelo para trabajar con la idea de pertenencia
no discreta de un gen a una función.
David Montaner

Análisis Funcional de Datos Genómicos

18/24
Coherencia interna de los bloques I
Los métodos de análisis funcional para datos de expresión
asumen implícitamente que los genes dentro de los bloques
están correlacionada.
Sin embargo esto no se había evaluado nunca antes con datos
reales:
• Estimación de la correlación entre cada pareja de genes.
• Estimación de la correlación media de grupos de genes de

distintos tamaños seleccionados de forma aleatoria.
• Comparación de la correlación interna de los bloques de

GO y de KEGG con bloques aleatorios del mismo tamaño.
• Derivamos un índice de coherencia interna para cada

bloque funcional.

David Montaner

Análisis Funcional de Datos Genómicos

19/24
Coherencia interna de los bloques II
• La coherencia interna de

los bloques en general es
incluso menor de lo
esperado.
• El índice de coherencia

estimado para cada bloque
nos permite filtrar los
bloques no coherentes
antes de introducirlos en el
análisis funcional.

David Montaner

Análisis Funcional de Datos Genómicos

20/24
Conclusiones I
1

La regresión logística es una metodología apropiada para
realizar análisis de enriquecimiento funcional.

2

El análisis funcional combinado de varias características
genómicas es viable además de biológicamente relevante.

3

Los bloques funcionales de genes descritos en las bases
de datos son, en ultima instancia, entidades heterogéneas.
Esta heterogeneidad puede ser estimada a partir de datos
previos y dicha estimación utilizada para realizar análisis
de enriquecimiento funcional más precisos.

4

Las rutas de KEGG y los bloques descritos en el Gene
Ontology son internamente menos coherente de lo
esperado en lo que respecta a la expresión génica.
David Montaner

Análisis Funcional de Datos Genómicos

21/24
Conclusiones II
5

En todo experimento genómico hay implícito un “universo”
de genes del que depende la interpretación de los
resultados.

6

Los genes que muestran los mayores cambios o
diferencias de expresión en un estudio no son siempre los
más relevantes desde el punto de vista biológico.

7

Los métodos de enriquecimiento funcional incrementan la
potencia del análisis ya que:
• incorporan la información adicional de la anotación.
• combinan la información de varios genes.
• reducen el espacio de variables observadas (del espacio

de genes al espacio de bloques).

David Montaner

Análisis Funcional de Datos Genómicos

22/24
Conclusiones III
8

La separación de los diferentes pasos del análisis en
módulos facilita la implementación de algoritmos, el trabajo
de análisis y, sobre todo, la interpretación biológica de los
resultados.

9

Desde el punto de vista estadístico es interesante resaltar
que, en el enfoque modular, los propios resultados
estadísticos de un paso del análisis se convierten en los
nuevos datos para analizar en el paso siguiente.

10

La presentación adecuada de los resultados de
experimentos genómicos es esencial, no sólo por estética,
sino por que su comprensión y exploración depende de
dicha presentación.

David Montaner

Análisis Funcional de Datos Genómicos

23/24
Conclusiones IV

11

Incluir varios métodos para realizar el mismo estudio
estadístico en el software de análisis genómico ayuda al
usuario a entender los resultados de forma intuitiva.

12

Las herramientas web son una forma eficiente y cómoda
de hacer disponibles los nuevos métodos a los
investigadores.

David Montaner

Análisis Funcional de Datos Genómicos

24/24

Más contenido relacionado

Destacado (6)

Dissertation Proposal Ppt
Dissertation Proposal PptDissertation Proposal Ppt
Dissertation Proposal Ppt
 
Ppt tesis doctoral iñaki ortega
Ppt tesis doctoral iñaki ortegaPpt tesis doctoral iñaki ortega
Ppt tesis doctoral iñaki ortega
 
Dissertation oral defense presentation
Dissertation   oral defense presentationDissertation   oral defense presentation
Dissertation oral defense presentation
 
My research proposal.ppt
My research proposal.pptMy research proposal.ppt
My research proposal.ppt
 
Powerpoint Presentation of PhD Viva
Powerpoint Presentation of PhD VivaPowerpoint Presentation of PhD Viva
Powerpoint Presentation of PhD Viva
 
Thesis Power Point Presentation
Thesis Power Point PresentationThesis Power Point Presentation
Thesis Power Point Presentation
 

Similar a Dmontaner dissertation slides

ELABORACION DE DENDOGRAMAS A PARTIR DE ARTICULOS CIENTIFICOS UTILIZANDO EL P...
 ELABORACION DE DENDOGRAMAS A PARTIR DE ARTICULOS CIENTIFICOS UTILIZANDO EL P... ELABORACION DE DENDOGRAMAS A PARTIR DE ARTICULOS CIENTIFICOS UTILIZANDO EL P...
ELABORACION DE DENDOGRAMAS A PARTIR DE ARTICULOS CIENTIFICOS UTILIZANDO EL P...
MaribelMamaniGoya
 
Clase de introducción a la estadística
Clase de introducción a la estadísticaClase de introducción a la estadística
Clase de introducción a la estadística
Daniel Remondegui
 
8. Curso_Proyectos-Adminisitración FGE5 S08.pdf
8. Curso_Proyectos-Adminisitración FGE5 S08.pdf8. Curso_Proyectos-Adminisitración FGE5 S08.pdf
8. Curso_Proyectos-Adminisitración FGE5 S08.pdf
WilferCA
 
Curso de Genómica - UAT (VHIR) 2012 - Análisis de datos de expression génica
Curso de Genómica - UAT (VHIR) 2012 - Análisis de datos de expression génicaCurso de Genómica - UAT (VHIR) 2012 - Análisis de datos de expression génica
Curso de Genómica - UAT (VHIR) 2012 - Análisis de datos de expression génica
VHIR Vall d’Hebron Institut de Recerca
 
Diseño experimental. sep unipaz
Diseño experimental. sep unipazDiseño experimental. sep unipaz
Diseño experimental. sep unipaz
vlakxmir
 
Rey diapositiva diapositivas_c10
Rey diapositiva diapositivas_c10Rey diapositiva diapositivas_c10
Rey diapositiva diapositivas_c10
Jose Turcios
 

Similar a Dmontaner dissertation slides (20)

PROGRAMA BIOINFORMATICO MEGA DNA.pdf
PROGRAMA BIOINFORMATICO MEGA DNA.pdfPROGRAMA BIOINFORMATICO MEGA DNA.pdf
PROGRAMA BIOINFORMATICO MEGA DNA.pdf
 
Informe MEGA BIOTECNOLOGIA (1).pdf
Informe MEGA BIOTECNOLOGIA (1).pdfInforme MEGA BIOTECNOLOGIA (1).pdf
Informe MEGA BIOTECNOLOGIA (1).pdf
 
ELABORACION DE DENDOGRAMAS A PARTIR DE ARTICULOS CIENTIFICOS UTILIZANDO EL P...
 ELABORACION DE DENDOGRAMAS A PARTIR DE ARTICULOS CIENTIFICOS UTILIZANDO EL P... ELABORACION DE DENDOGRAMAS A PARTIR DE ARTICULOS CIENTIFICOS UTILIZANDO EL P...
ELABORACION DE DENDOGRAMAS A PARTIR DE ARTICULOS CIENTIFICOS UTILIZANDO EL P...
 
TRABAJO N°1 - BIOTECNOLOGIA.pdf
TRABAJO N°1 - BIOTECNOLOGIA.pdfTRABAJO N°1 - BIOTECNOLOGIA.pdf
TRABAJO N°1 - BIOTECNOLOGIA.pdf
 
Xpin algoritmos genéticos
Xpin   algoritmos genéticosXpin   algoritmos genéticos
Xpin algoritmos genéticos
 
El proceso de las investigaciones científicas en Ciencias Sociales
El proceso de las investigaciones científicas en Ciencias SocialesEl proceso de las investigaciones científicas en Ciencias Sociales
El proceso de las investigaciones científicas en Ciencias Sociales
 
9. bioinformatica bases de datos.
9. bioinformatica bases de datos.9. bioinformatica bases de datos.
9. bioinformatica bases de datos.
 
Ensayos y datos confiables: Clave para la toma de buenas decisiones en los pr...
Ensayos y datos confiables: Clave para la toma de buenas decisiones en los pr...Ensayos y datos confiables: Clave para la toma de buenas decisiones en los pr...
Ensayos y datos confiables: Clave para la toma de buenas decisiones en los pr...
 
Bioinformatica calidad y alineamiento de secuencia de adn y generacion de a...
Bioinformatica   calidad y alineamiento de secuencia de adn y generacion de a...Bioinformatica   calidad y alineamiento de secuencia de adn y generacion de a...
Bioinformatica calidad y alineamiento de secuencia de adn y generacion de a...
 
Clase de introducción a la estadística
Clase de introducción a la estadísticaClase de introducción a la estadística
Clase de introducción a la estadística
 
Datamining y Machine Learning para Ciencias Biológicas
Datamining y Machine Learning para Ciencias BiológicasDatamining y Machine Learning para Ciencias Biológicas
Datamining y Machine Learning para Ciencias Biológicas
 
Bioinformatica
BioinformaticaBioinformatica
Bioinformatica
 
8. Curso_Proyectos-Adminisitración FGE5 S08.pdf
8. Curso_Proyectos-Adminisitración FGE5 S08.pdf8. Curso_Proyectos-Adminisitración FGE5 S08.pdf
8. Curso_Proyectos-Adminisitración FGE5 S08.pdf
 
Transcriptomica PDF
Transcriptomica PDFTranscriptomica PDF
Transcriptomica PDF
 
INFORME PRACTICA N°1-ALINEAMIENTO DE ADN - GRUPO 3A.pdf
INFORME PRACTICA N°1-ALINEAMIENTO DE ADN - GRUPO 3A.pdfINFORME PRACTICA N°1-ALINEAMIENTO DE ADN - GRUPO 3A.pdf
INFORME PRACTICA N°1-ALINEAMIENTO DE ADN - GRUPO 3A.pdf
 
Curso de Genómica - UAT (VHIR) 2012 - Análisis de datos de expression génica
Curso de Genómica - UAT (VHIR) 2012 - Análisis de datos de expression génicaCurso de Genómica - UAT (VHIR) 2012 - Análisis de datos de expression génica
Curso de Genómica - UAT (VHIR) 2012 - Análisis de datos de expression génica
 
Inteligencia Artificial en Bioinformática. Algunas Aplicaciones.
Inteligencia Artificial en Bioinformática. Algunas Aplicaciones.Inteligencia Artificial en Bioinformática. Algunas Aplicaciones.
Inteligencia Artificial en Bioinformática. Algunas Aplicaciones.
 
Diseño experimental. sep unipaz
Diseño experimental. sep unipazDiseño experimental. sep unipaz
Diseño experimental. sep unipaz
 
Rey diapositiva diapositivas_c10
Rey diapositiva diapositivas_c10Rey diapositiva diapositivas_c10
Rey diapositiva diapositivas_c10
 
Informe bio
Informe bioInforme bio
Informe bio
 

Más de David Montaner (6)

100,000 Genomes Project.
100,000 Genomes Project.100,000 Genomes Project.
100,000 Genomes Project.
 
dmontaner at cipf_2014
dmontaner at cipf_2014dmontaner at cipf_2014
dmontaner at cipf_2014
 
Biostatistics Unit at CIPF
Biostatistics Unit at CIPFBiostatistics Unit at CIPF
Biostatistics Unit at CIPF
 
Bioinformatics Introduction
Bioinformatics IntroductionBioinformatics Introduction
Bioinformatics Introduction
 
Genometra Empresas Innovadoras Valencia
Genometra Empresas Innovadoras ValenciaGenometra Empresas Innovadoras Valencia
Genometra Empresas Innovadoras Valencia
 
Seguimiento y Evaluación OnLine de Trabajos de Prácticas en Asignaturas de Es...
Seguimiento y Evaluación OnLine de Trabajos de Prácticas en Asignaturas de Es...Seguimiento y Evaluación OnLine de Trabajos de Prácticas en Asignaturas de Es...
Seguimiento y Evaluación OnLine de Trabajos de Prácticas en Asignaturas de Es...
 

Dmontaner dissertation slides

  • 1. Avances Metodológicos en el Análisis Funcional de Estudios Genómicos David Montaner González Departamento de Bioquímica y Biología Molecular Universidad de Valencia Programa de Doctorado en Biotecnología Tésis dirigida por Joaquín Dopazo Blázquez 18 Julio de 2013 David Montaner Análisis Funcional de Datos Genómicos 1/24
  • 2. Compendio de Publicaciones 2006 Next station in microarray data analysis: GEPAS. 2008 New trends in the analysis of functional genomic data. 2009 Gene set internal coherence in the context of functional profiling. 2010 Multidimensional gene set analysis of genomic data. David Montaner Análisis Funcional de Datos Genómicos 2/24
  • 3. Análisis Funcional de Datos Genómicos Interpretación de datos recogidos en experimentos genómicos DATOS ←− INFORMACI ÓN CONOCIDA • Interesa entender la función que realizan los genes • Miles de variables: los genes • Cientos de bases de datos: la información “conocida” • Necesita metodologías estadísticas • Necesita herramientas bioinformáticas David Montaner Análisis Funcional de Datos Genómicos 3/24
  • 4. Datos Genómicos I Datos experimentales: • medidas relativas a los genes: expresión, metilación, número de copias, pérdida de heterocigosidad . . . • no siempre recolectados en laboratorio • recogidos para responder cuestiones planteada a priori • “universo” implícito de genes; variables en sentido estadístico • es información nueva que nunca nadie ha “visto” antes David Montaner Análisis Funcional de Datos Genómicos 4/24
  • 5. Datos Genómicos II clase gen1 gen2 gen3 gen4 gen4 A -0.45 -1.55 -0.89 -0.60 … A 1.78 0.95 -1.27 -0.67 … A 0.39 0.92 -0.18 1.44 … David Montaner B -0.28 -1.41 -0.68 0.04 … B 0.23 0.94 0.58 -0.61 … B -0.08 -0.30 -0.07 1.03 … Análisis Funcional de Datos Genómicos 5/24
  • 6. Análisis Datos Genómicos Para cada gen se plantea una hipótesis estadística que modeliza la pregunta de interés sobre el gen: • se resume en un estadístico, p-valor . . . o índice numérico continuo asociado a cada gen. • ordena los genes acorde con cierta propiedad biológica implícita en la pregunta. • que debe ser interpretada . . . David Montaner ID gen1 gen2 gen3 gen4 gen5 gen6 gen7 … X 1.23 2.74 -0.34 1.32 -2.02 0.45 0.93 … Análisis Funcional de Datos Genómicos 6/24
  • 7. Bases de Datos Genómicos Información genómica ya conocida: • lo que sabe el investigador que plantea el problema • la información descubierta y validada en estudios previos: publicaciones • la información registrada en bases de datos: anotación David Montaner Análisis Funcional de Datos Genómicos 7/24
  • 8. Anotación de los genes • Es generalmente información de tipo dicotómico o binario. • Guardada como etiquetas asociadas con los genes. • Agrupa los genes en bloques funcionales que superponen entre si. • Para la función biológica caracterizada por cada etiqueta, sabemos qué genes realizan la función y cuáles no. gen gene1 gene2 gene3 gene1 gene2 gene4 … Información GO:0055114 GO:0055114 GO:0055114 GO:0044281 GO:0044281 GO:0006120 … gene1 gene2 gene3 gene4 … David Montaner label 1 1 1 0 1 … label 2 1 1 0 0 … label 3 0 0 1 1 … Análisis Funcional de Datos Genómicos … … … … … … 8/24
  • 9. Análisis Funcional: Interpretación • Cambio en la unidad biológica de interés • Reducción de la cantidad de variables estudiadas • Interpretación biológica más asequible ind. 1.23 2.74 -0.34 1.32 … David Montaner bloque 1 1 0 1 … Análisis Funcional de Datos Genómicos 9/24
  • 10. Metodología: Regresión Logística Para cada bloque funcional modelizamos la probabilidad π de que un gen pertenezca al bloque como función del índice x calculado para dicho gen: π(x) g1 g2 g3 g4 … label 1 (Y) 1 1 0 1 … index (X) 1.23 2.74 -0.34 1.32 … log π(x) = κ + αx 1 − π(x) α > 0 → asociación con índice + α < 0 → asociación con índice − α = 0 → no asociación David Montaner Análisis Funcional de Datos Genómicos 10/24
  • 11. Regresión Logística: Ventajas • Modelo estadístico clásico: metodología validada, software disponible, . . . • Puede ser aplicado a cualquier tipo de dato genómico ya que sólo depende del índice derivado. • Permite un análisis modular ; interesante por la facilidad de computo y por la sencillez de la interpretación. • Permite controlar otro tipo de variables, ej. la longitud de los genes. • Permite incluir no sólo una, sino varias variables genómicas para interpretar funcionalmente a la vez: análisis multidimensional • Permite incluir pesos que moderen la importancia asignada a cada gen dentro del bloque David Montaner Análisis Funcional de Datos Genómicos 11/24
  • 12. Análisis Multidimensional Datos experimentales medidos para varias características genómicas a la vez; por ejemplo expresión diferencial y metilación diferencial. Bloque 1 1 0 1 0 0 0 … exp. 1.23 2.74 -0.34 1.32 -2.02 0.45 0.93 … met. -2.3 1.4 -0.1 1.5 2.0 -1.9 0.8 … log π = κ + α x1 + β x2 + γ x1 x2 1−π La interpretación se realiza según el signo de los coeficientes α, β y γ. David Montaner Análisis Funcional de Datos Genómicos 12/24
  • 13. Análisis Multidimensional La estimación de los parámetros en la ecuación nos permite encontrar y definir la dependencia de un bloque funcional respecto de dos características genómicas a la vez. log π = κ + α x1 + β x2 + γ x1 x2 1−π α = 0 β > 0 (pattern: yh) γ = 0 +Y α < 0 β > 0 (pattern: q2f) α < 0 β = 0 (pattern: xl)   David Montaner α > 0 β > 0 (pattern: q1f) +X α > 0 β < 0 (pattern: q4f) α < 0 β < 0 (pattern: q3f) α > 0 β = 0 (pattern: xh) α = 0 β < 0   (pattern: yl) Análisis Funcional de Datos Genómicos 13/24
  • 14. Patrón estándar univariante α = 0 β > 0 (pattern: yh) γ = 0 +Y α < 0 β > 0 (pattern: q2f) α > 0 β > 0 (pattern: q1f) α < 0 β < 0 (pattern: q3f) α < 0 β = 0 (pattern: xl) α > 0 β < 0 (pattern: q4f) +X α > 0 β = 0 (pattern: xh) α = 0 β < 0   (pattern: yl)   γ < 0 γ > 0 Quadrant 2 +Y α < 0 β > 0 (pattern: q2i) +Y +X Quadrant 1 α > 0 β > 0 (pattern: q1i) γ > 0 γ < 0 +Y   +X Quadrant 3 α < 0 β < 0 (pattern: q3i) γ > 0 +X +Y +X +Y   Quadrant 4 α > 0 β < 0 (pattern: q3i) Quadrant 1 α = 0 β = 0 (pattern: b13) +X Quadrant 3 α = 0 β = 0 (pattern: b13) Quadrant 2 +Y α = 0 β = 0 (pattern: b24) γ < 0 +X     Quadrant 4 α = 0 β = 0 (pattern: b24) David Montaner Análisis Funcional de Datos Genómicos 14/24
  • 15. Patrón de interacción α = 0 β > 0 (pattern: yh) γ = 0 +Y α < 0 β > 0 (pattern: q2f) α > 0 β > 0 (pattern: q1f) α < 0 β < 0 (pattern: q3f) α < 0 β = 0 (pattern: xl) α > 0 β < 0 (pattern: q4f) +X α > 0 β = 0 (pattern: xh) α = 0 β < 0   (pattern: yl)   γ < 0 γ > 0 Quadrant 2 +Y α < 0 β > 0 (pattern: q2i) +Y +X Quadrant 1 α > 0 β > 0 (pattern: q1i) γ > 0 γ < 0 +Y   +X Quadrant 3 α < 0 β < 0 (pattern: q3i) γ > 0 +X +Y +X +Y   Quadrant 4 α > 0 β < 0 (pattern: q3i) Quadrant 1 α = 0 β = 0 (pattern: b13) +X Quadrant 3 α = 0 β = 0 (pattern: b13) Quadrant 2 +Y α = 0 β = 0 (pattern: b24) γ < 0 +X     Quadrant 4 α = 0 β = 0 (pattern: b24) David Montaner Análisis Funcional de Datos Genómicos 15/24
  • 16. Patrón bimodal α = 0 β > 0 (pattern: yh) γ = 0 +Y α < 0 β > 0 (pattern: q2f) α > 0 β > 0 (pattern: q1f) α < 0 β < 0 (pattern: q3f) α < 0 β = 0 (pattern: xl) α > 0 β < 0 (pattern: q4f) +X α > 0 β = 0 (pattern: xh) α = 0 β < 0   (pattern: yl)   γ < 0 γ > 0 Quadrant 2 +Y α < 0 β > 0 (pattern: q2i) +Y +X Quadrant 1 α > 0 β > 0 (pattern: q1i) γ > 0 γ < 0 +Y   +X Quadrant 3 α < 0 β < 0 (pattern: q3i) γ > 0 +X +Y +X +Y   Quadrant 4 α > 0 β < 0 (pattern: q3i) Quadrant 1 α = 0 β = 0 (pattern: b13) +X Quadrant 3 α = 0 β = 0 (pattern: b13) Quadrant 2 +Y α = 0 β = 0 (pattern: b24) γ < 0 +X     Quadrant 4 α = 0 β = 0 (pattern: b24) David Montaner Análisis Funcional de Datos Genómicos 16/24
  • 17. Análisis ponderado No todos los genes son igual de importantes dentro de cada bloque funcional. Los modelos logísticos nos permiten tener en cuenta la importancia de cada gen en el análisis de cada uno de los bloques. Datos con pesos Bloque 1 1 0 1 0 0 0 Indice 1.23 2.74 -0.34 1.32 -2.02 0.45 0.93 Peso 0.1 0.3 0.2 0.1 0.1 0.1 0.1 David Montaner Datos sin pesos “equivalentes” Bloque 1 1 1 1 0 0 1 0 0 0 Indice 1.23 2.74 2.74 2.74 -0.34 -0.34 1.32 -2.02 0.45 0.93 Peso 0.1 0.1 0.1 0.1 0.1 0.1 0.1 0.1 0.1 0.1 Análisis Funcional de Datos Genómicos ∗ ∗ ∗ + + 17/24
  • 18. Estimación empírica de la importancia de cada gen • 3000 arrays bajados de GEO (30.000 en siguientes versiones del estudio). • Estimación de la correlación entre cada gen y cada bloque funcional (GO y KEGG) • Derivamos una distancia entre cada gen y cada bloque funcional. Esta distancia representa lo coherente que es el gen dentro del bloque. • Usamos la inversa de la distancia para ponderar cada gen en el análisis de cada bloque funcional. Resultados • El método logístico ponderado es más sensible y detecta más bloques enriquecidos. • Un primer modelo para trabajar con la idea de pertenencia no discreta de un gen a una función. David Montaner Análisis Funcional de Datos Genómicos 18/24
  • 19. Coherencia interna de los bloques I Los métodos de análisis funcional para datos de expresión asumen implícitamente que los genes dentro de los bloques están correlacionada. Sin embargo esto no se había evaluado nunca antes con datos reales: • Estimación de la correlación entre cada pareja de genes. • Estimación de la correlación media de grupos de genes de distintos tamaños seleccionados de forma aleatoria. • Comparación de la correlación interna de los bloques de GO y de KEGG con bloques aleatorios del mismo tamaño. • Derivamos un índice de coherencia interna para cada bloque funcional. David Montaner Análisis Funcional de Datos Genómicos 19/24
  • 20. Coherencia interna de los bloques II • La coherencia interna de los bloques en general es incluso menor de lo esperado. • El índice de coherencia estimado para cada bloque nos permite filtrar los bloques no coherentes antes de introducirlos en el análisis funcional. David Montaner Análisis Funcional de Datos Genómicos 20/24
  • 21. Conclusiones I 1 La regresión logística es una metodología apropiada para realizar análisis de enriquecimiento funcional. 2 El análisis funcional combinado de varias características genómicas es viable además de biológicamente relevante. 3 Los bloques funcionales de genes descritos en las bases de datos son, en ultima instancia, entidades heterogéneas. Esta heterogeneidad puede ser estimada a partir de datos previos y dicha estimación utilizada para realizar análisis de enriquecimiento funcional más precisos. 4 Las rutas de KEGG y los bloques descritos en el Gene Ontology son internamente menos coherente de lo esperado en lo que respecta a la expresión génica. David Montaner Análisis Funcional de Datos Genómicos 21/24
  • 22. Conclusiones II 5 En todo experimento genómico hay implícito un “universo” de genes del que depende la interpretación de los resultados. 6 Los genes que muestran los mayores cambios o diferencias de expresión en un estudio no son siempre los más relevantes desde el punto de vista biológico. 7 Los métodos de enriquecimiento funcional incrementan la potencia del análisis ya que: • incorporan la información adicional de la anotación. • combinan la información de varios genes. • reducen el espacio de variables observadas (del espacio de genes al espacio de bloques). David Montaner Análisis Funcional de Datos Genómicos 22/24
  • 23. Conclusiones III 8 La separación de los diferentes pasos del análisis en módulos facilita la implementación de algoritmos, el trabajo de análisis y, sobre todo, la interpretación biológica de los resultados. 9 Desde el punto de vista estadístico es interesante resaltar que, en el enfoque modular, los propios resultados estadísticos de un paso del análisis se convierten en los nuevos datos para analizar en el paso siguiente. 10 La presentación adecuada de los resultados de experimentos genómicos es esencial, no sólo por estética, sino por que su comprensión y exploración depende de dicha presentación. David Montaner Análisis Funcional de Datos Genómicos 23/24
  • 24. Conclusiones IV 11 Incluir varios métodos para realizar el mismo estudio estadístico en el software de análisis genómico ayuda al usuario a entender los resultados de forma intuitiva. 12 Las herramientas web son una forma eficiente y cómoda de hacer disponibles los nuevos métodos a los investigadores. David Montaner Análisis Funcional de Datos Genómicos 24/24