Données métabolomiques, apprentissage et ondelettes
1. Données métabolomiques : apprentissage et
ondelettes
Nathalie Villa-Vialaneix
http://www.nathalievilla.org
Institut de Mathématiques de Toulouse
IUT de Carcassonne (Université de Perpignan)
Groupe de travail BioPuces, INRA de Castanet
12 mars 2010
2. Présentation générales des données
Les données ont été fournies par Alain Paris (INRA) : il s’agit
d’enregistrements de données metabolomiques (H NMR) d’urine
de souris : 950 variables de 0.50 ppm à 9.99 ppm.
3. Présentation générales des données
Les données ont été fournies par Alain Paris (INRA) : il s’agit
d’enregistrements de données metabolomiques (H NMR) d’urine
de souris : 950 variables de 0.50 ppm à 9.99 ppm.
4. Présentation générales des données
Les données ont été fournies par Alain Paris (INRA) : il s’agit
d’enregistrements de données metabolomiques (H NMR) d’urine
de souris : 950 variables de 0.50 ppm à 9.99 ppm.
Par des procédures automatiques, les pics ont été alignés et la
ligne de base (partiellement) corrigée.
5. Problématique biologique
Etude des effets de l’ingestion de Hypochoeris radicata (HR)
ou pissenlit toxique sur le métabolisme : les fleurs de cette
plante sont en effet responsables d’une maladie mortelle pour les
cheveaux: “Australian stringhalt” (atteinte du système nerveux,
tremblements ...)
6. Problématique biologique
Etude des effets de l’ingestion de Hypochoeris radicata (HR)
ou pissenlit toxique sur le métabolisme : les fleurs de cette
plante sont en effet responsables d’une maladie mortelle pour les
cheveaux: “Australian stringhalt” (atteinte du système nerveux,
tremblements ...)
Les expériences ont été réalisées sur 72 souris.
8. Description des expériences
Les souris se répartissent en plusieurs groupes selon :
leurs sexes : 36 mâles ; 36 femelles
la dose quotidienne de HR ingérée : 0 (contrôle) : 24 souris
; 3% : 24 souris ; 9% : 24 souris
9. Description des expériences
Les souris se répartissent en plusieurs groupes selon :
leurs sexes : 36 mâles ; 36 femelles
la dose quotidienne de HR ingérée : 0 (contrôle) : 24 souris
; 3% : 24 souris ; 9% : 24 souris
3 dates de décès : 8ème jour : 24 souris ; 15ème : 24 souris
; 21ième : 24 souris
10. Description des expériences
Les souris se répartissent en plusieurs groupes selon :
leurs sexes : 36 mâles ; 36 femelles
la dose quotidienne de HR ingérée : 0 (contrôle) : 24 souris
; 3% : 24 souris ; 9% : 24 souris
3 dates de décès : 8ème jour : 24 souris ; 15ème : 24 souris
; 21ième : 24 souris
⇒ 18 groupes (mais les groupes issus des dates de décès ne sont
pas très pertinent pour la question étudiée).
11. Jours de mesure
L’urine a été collectée les jours suivants :
Jours 0 1 4 8 11 15 18 21
Nb d’observations 68 68 68 66 46 44 19 18
12. Jours de mesure
L’urine a été collectée les jours suivants :
Jours 0 1 4 8 11 15 18 21
Nb d’observations 68 68 68 66 46 44 19 18
Pour chaque souris, de 2 à 22 mesures ont été effectuées.
13. Jours de mesure
L’urine a été collectée les jours suivants :
Jours 0 1 4 8 11 15 18 21
Nb d’observations 68 68 68 66 46 44 19 18
Pour chaque souris, de 2 à 22 mesures ont été effectuées.
Au final, 397 observations de 950 variables.
14. Principe de base de la décomposition en ondelettes
Pour un entier donné J, le spectre f peut être décomposé au
niveau J par :
f(x) =
k
αk 2−J/2
Ψ(2−J
x − k) +
J
j=1 k
βjk 2−j/2
Φ 2−j
x − k
15. Principe de base de la décomposition en ondelettes
Pour un entier donné J, le spectre f peut être décomposé au
niveau J par :
f(x) =
k
αk 2−J/2
Ψ(2−J
x − k)
Tendance basée sur l’ondelette père Ψ
+
J
j=1 k
βjk 2−j/2
Φ 2−j
x − k
16. Principe de base de la décomposition en ondelettes
Pour un entier donné J, le spectre f peut être décomposé au
niveau J par :
f(x) =
k
αk 2−J/2
Ψ(2−J
x − k)
Tendance basée sur l’ondelette père Ψ
+
J
j=1 k
βjk 2−j/2
Φ 2−j
x − k
Détails aux niveaux 1, . . . , J
basés sur l’ondelette mère Φ
21. Cas particulier : Les ondelettes de Haar
Partant d’un signal discrétisé (β0,1, . . . , β0,2n ), la transformation
discrète en ondelettes de Haar consiste en le processus itératif :
Coefficients de tendance : βj,k =
βj−1,2k−1+βj−1,2k
√
2
pour
j = 1, . . . , n et k = 1, . . . , 2n−j
;
Coefficients de détails : αj,k =
βj−1,2k −βj−1,2k−1
√
2
pour j = 1, . . . , n
et k = 1, . . . , 2n−j
22. Cas particulier : Les ondelettes de Haar
Partant d’un signal discrétisé (β0,1, . . . , β0,2n ), la transformation
discrète en ondelettes de Haar consiste en le processus itératif :
Coefficients de tendance : βj,k =
βj−1,2k−1+βj−1,2k
√
2
pour
j = 1, . . . , n et k = 1, . . . , 2n−j
;
Coefficients de détails : αj,k =
βj−1,2k −βj−1,2k−1
√
2
pour j = 1, . . . , n
et k = 1, . . . , 2n−j
Dans la suite, on conserve, les coefficients de détails les plus
fins (α1,k )k et les coefficients de détails les plus fins du spectre
translaté (β0,2, . . . , β0,2n , 0). L’ensemble suffit pour reconstituer le
spectre initial.
25. Procédure de normalisation choisie
Déterminer la médiane de chaque jour pour chaque
coefficient d’ondelette dans le groupe contrôle.
Utiliser ces valeurs pour normaliser toutes les observations.
26. Procédure de normalisation choisie
Déterminer la médiane de chaque jour pour chaque
coefficient d’ondelette dans le groupe contrôle.
Utiliser ces valeurs pour normaliser toutes les observations.
Avant normalisation :
q
q
q
q
0 1 4 8 11 15 18 21
−0.20.00.20.40.6
D2.444
Day
Waveletcoefficients
q
q
q
q
q
0 1 4 8 11 15 18 21
−0.20−0.100.000.10
D.78
Waveletcoefficients
q
q
q
0 1 4 8 11 15 18 21
0.00.51.01.52.02.5
D.332
Day
Waveletcoefficients
q
q
q
q
q
q
q
0 1 4 8 11 15 18 21
−1.5−1.0−0.5
D2.289
Waveletcoefficients
27. Procédure de normalisation choisie
Déterminer la médiane de chaque jour pour chaque
coefficient d’ondelette dans le groupe contrôle.
Utiliser ces valeurs pour normaliser toutes les observations.
Après normalisation :
q
q
q
q
0 1 4 8 11 18
−2−1012
D2.444
Day
Waveletcoefficients
q
q
q
q
q
0 1 4 8 11 18
−3−1012
D.78
Waveletcoefficients
q
q q
0 1 4 8 11 18
−3−10123
D.332
Day
Waveletbcoefficients
q
qq
q
q
q
q
0 1 4 8 11 18
−3−10123
D2.289
Waveletcoefficients
31. Métabolites impliquées dans le phénomène
2 4 6 8 10
05101520
La plupart correspondent à des métabolites connues et
impliquées dans le processus biologique (selon une étude
préliminaire).
32. Motivations
L’idée est de valider l’impact de l’ingestion de HR sur le
métabolome en essayant de prédire, à partir des coefficients
d’ondelette normalisés et réduits, la dose totale de HR
ingérée. Si la prédiction s’avère être de bonne qualité, l’impact
n’est pas un artefac des données mais valide la dépendance
biologique.
33. Motivations
L’idée est de valider l’impact de l’ingestion de HR sur le
métabolome en essayant de prédire, à partir des coefficients
d’ondelette normalisés et réduits, la dose totale de HR
ingérée. Si la prédiction s’avère être de bonne qualité, l’impact
n’est pas un artefac des données mais valide la dépendance
biologique.
Méthodes comparées :
random forest
ridge regression
LASSO
Elasticnet
Partial Least Squares (PLS)
sparse PLS
34. Méthologie
Séparation des données en apprentissage et test en
respectant l’équilibre des 18 groupes présentés en
introduction ;
Apprentissage des 6 méthodes sur les données
d’apprentissage avec calibration des hyperparamètres par
validation croisée ;
Calcul de l’erreur quadratique moyenne sur les données
de test.
35. Méthologie
Séparation des données en apprentissage et test en
respectant l’équilibre des 18 groupes présentés en
introduction ;
Apprentissage des 6 méthodes sur les données
d’apprentissage avec calibration des hyperparamètres par
validation croisée ;
Calcul de l’erreur quadratique moyenne sur les données
de test.
Cette procédure a été répétée 250 fois.
39. ELN : Coefficients impliqués
2 4 6 8 10
05101520
ppm
Certains coefficients sont les mêmes que ceux connus et
précédemment identifés, certains métabolites manquent dans la
liste, certains métabolites de la liste semblent inconnus. ⇒ effet
d’échelle ?
40. Perspectives et questions
Normalisation actuelle ? Modèle à effets mixtes ?
Qu’est-ce qui est pertinent pour la recherche des coefficients
les plus importants dans ELN ?