Données métabolomiques, apprentissage et ondelettes

Données métabolomiques : apprentissage et
ondelettes
Nathalie Villa-Vialaneix
http://www.nathalievilla.org
Institut de Mathématiques de Toulouse
IUT de Carcassonne (Université de Perpignan)
Groupe de travail BioPuces, INRA de Castanet
12 mars 2010

Présentation générales des données
Les données ont été fournies par Alain Paris (INRA) : il s’agit
d’enregistrements de données metabolomiques (H NMR) d’urine
de souris : 950 variables de 0.50 ppm à 9.99 ppm.

Présentation générales des données
Les données ont été fournies par Alain Paris (INRA) : il s’agit
d’enregistrements de données metabolomiques (H NMR) d’urine
de souris : 950 variables de 0.50 ppm à 9.99 ppm.
Par des procédures automatiques, les pics ont été alignés et la
ligne de base (partiellement) corrigée.

Problématique biologique
Etude des effets de l’ingestion de Hypochoeris radicata (HR)
ou pissenlit toxique sur le métabolisme : les ﬂeurs de cette
plante sont en effet responsables d’une maladie mortelle pour les
cheveaux: “Australian stringhalt” (atteinte du système nerveux,
tremblements ...)

Problématique biologique
Etude des effets de l’ingestion de Hypochoeris radicata (HR)
ou pissenlit toxique sur le métabolisme : les ﬂeurs de cette
plante sont en effet responsables d’une maladie mortelle pour les
cheveaux: “Australian stringhalt” (atteinte du système nerveux,
tremblements ...)
Les expériences ont été réalisées sur 72 souris.

Description des expériences
Les souris se répartissent en plusieurs groupes selon :
leurs sexes : 36 mâles ; 36 femelles

la dose quotidienne de HR ingérée : 0 (contrôle) : 24 souris
; 3% : 24 souris ; 9% : 24 souris

; 3% : 24 souris ; 9% : 24 souris
3 dates de décès : 8ème jour : 24 souris ; 15ème : 24 souris
; 21ième : 24 souris

; 3% : 24 souris ; 9% : 24 souris
3 dates de décès : 8ème jour : 24 souris ; 15ème : 24 souris
; 21ième : 24 souris
⇒ 18 groupes (mais les groupes issus des dates de décès ne sont
pas très pertinent pour la question étudiée).

Jours de mesure
L’urine a été collectée les jours suivants :
Jours 0 1 4 8 11 15 18 21
Nb d’observations 68 68 68 66 46 44 19 18

Jours de mesure
Jours 0 1 4 8 11 15 18 21
Pour chaque souris, de 2 à 22 mesures ont été effectuées.

Jours de mesure
Jours 0 1 4 8 11 15 18 21
Pour chaque souris, de 2 à 22 mesures ont été effectuées.
Au ﬁnal, 397 observations de 950 variables.

Principe de base de la décomposition en ondelettes
Pour un entier donné J, le spectre f peut être décomposé au
niveau J par :
f(x) =
k
αk 2−J/2
Ψ(2−J
x − k) +
J
j=1 k
βjk 2−j/2
Φ 2−j
x − k

niveau J par :
f(x) =
k
αk 2−J/2
Ψ(2−J
x − k)
Tendance basée sur l’ondelette père Ψ
+
J
j=1 k
βjk 2−j/2
Φ 2−j
x − k

niveau J par :
f(x) =
k
αk 2−J/2
Ψ(2−J
x − k)
Tendance basée sur l’ondelette père Ψ
+
J
j=1 k
βjk 2−j/2
Φ 2−j
x − k
Détails aux niveaux 1, . . . , J
basés sur l’ondelette mère Φ

Exemple de décomposition hiérarchique sur un spectre
de métabolome
↓

Exemple de décomposition hiérarchique sur un spectre
de métabolome
...
Détails 1 à 8
↓

Cas particulier : Les ondelettes de Haar
Partant d’un signal discrétisé (β0,1, . . . , β0,2n ), la transformation
discrète en ondelettes de Haar consiste en le processus itératif :
Coefﬁcients de tendance : βj,k =
βj−1,2k−1+βj−1,2k
√
2
pour
j = 1, . . . , n et k = 1, . . . , 2n−j
;
Coefﬁcients de détails : αj,k =
βj−1,2k −βj−1,2k−1
√
2
pour j = 1, . . . , n
et k = 1, . . . , 2n−j

Cas particulier : Les ondelettes de Haar
Partant d’un signal discrétisé (β0,1, . . . , β0,2n ), la transformation
discrète en ondelettes de Haar consiste en le processus itératif :
Coefficients de tendance : βj,k =
βj−1,2k−1+βj−1,2k
√
2
pour
j = 1, . . . , n et k = 1, . . . , 2n−j
;
Coefficients de détails : αj,k =
βj−1,2k −βj−1,2k−1
√
2
pour j = 1, . . . , n
et k = 1, . . . , 2n−j
Dans la suite, on conserve, les coefficients de détails les plus
fins (α1,k )k et les coefficients de détails les plus fins du spectre
translaté (β0,2, . . . , β0,2n , 0). L’ensemble suffit pour reconstituer le
spectre initial.

Coefﬁcients d’ondelettes retenus
D.1 D.57 D.125 D.297 D.370 D.443 D2.41 D2.120 D2.304 D2.389 D2.474
−40−2002040
Before scaling
D.1 D.57 D.125 D.297 D.370 D.443 D2.41 D2.120 D2.304 D2.389 D2.474
−15−10−5051015
After scaling

Problème de normalisation
q
q
qq
q
q
q q
q
q
q
q
q q
q
q
qq
q
q
qq
q
q
q
q
q
qq
q
q
q
qq
q
q
q
q
q
q
q
q q
q
q
q
q
q
q qq
q
q
q
q q q
q
q
q
q q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
qq
q
q
q
q q
q
q
q
q
q
q
q q
qq q
q
qq
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
qq
q
q
qq
q
−10 −5 0 5 10 15
−10−505
PC1 vs. PC2
PC1
PC2
q
q
q
q
q
q
q
q
Day 0
Day 1
Day 4
Day 8
Day 11
Day 15
Day 18
Day 21
q
q
q
q
q
q
q q
q
q
q
q
q qq
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq q
q
q
qq
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
qq q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q qq
q
q
qq
q q
q
q
q
q
q
q
q
qq
q
q
q
q q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
qq
q
−10 −5 0 5 10 15
−20−10010
PC1 vs. PC3
PC1
PC3
q
q
q
q
q
q
q
q
Day 0
Day 1
Day 4
Day 8
Day 11
Day 15
Day 18
Day 21
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
qq
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
−10 −5 0 5 10 15
−15−505101520
PC1 vs. PC4
PC1
PC4
q
q
q
q
q
q
q
q
Day 0
Day 1
Day 4
Day 8
Day 11
Day 15
Day 18
Day 21
q
q
q
q
q
q
qq
q
q
q
q
qq q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qqq
q
q
q q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
qqq
q
q
qq
q q
q
q
q
q
q
q
q
qq
q
q
q
qq
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
qq
q
−10 −5 0 5
−20−10010
PC2 vs. PC3
PC2
PC3
q
q
q
q
q
q
q
q
Day 0
Day 1
Day 4
Day 8
Day 11
Day 15
Day 18
Day 21
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
qq
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
qq
q
q
q
qq
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
−15−505101520
PC2 vs. PC4
PC4
q
q
q
q
q
q
q
q
Day 0
Day 1
Day 4
Day 8
Day 11
Day 15
Day 18
Day 21
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
qq
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q q
q
q
q
qq
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
−15−505101520
PC3 vs. PC4
PC4
q
q
q
q
q
q
q
q
Day 0
Day 1
Day 4
Day 8
Day 11
Day 15
Day 18
Day 21
ACP des coefﬁ-
cients : mise en
valeur du jour de
prélèvement pour
le groupe contrôle

Procédure de normalisation choisie
Déterminer la médiane de chaque jour pour chaque
coefﬁcient d’ondelette dans le groupe contrôle.
Utiliser ces valeurs pour normaliser toutes les observations.

Avant normalisation :
q
q
q
q
0 1 4 8 11 15 18 21
−0.20.00.20.40.6
D2.444
Day
Waveletcoefficients
q
q
q
q
q
0 1 4 8 11 15 18 21
−0.20−0.100.000.10
D.78
Waveletcoefficients
q
q
q
0 1 4 8 11 15 18 21
0.00.51.01.52.02.5
D.332
Day
Waveletcoefficients
q
q
q
q
q
q
q
0 1 4 8 11 15 18 21
−1.5−1.0−0.5
D2.289
Waveletcoefficients

Après normalisation :
q
q
q
q
0 1 4 8 11 18
−2−1012
D2.444
Day
Waveletcoefficients
q
q
q
q
q
0 1 4 8 11 18
−3−1012
D.78
Waveletcoefficients
q
q q
0 1 4 8 11 18
−3−10123
D.332
Day
Waveletbcoefficients
q
qq
q
q
q
q
0 1 4 8 11 18
−3−10123
D2.289
Waveletcoefficients

APC après normalisation
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
qq
q
q q
q
qq
q
q
q qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q q
q
q qq
q
qq q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
−10 −5 0 5 10 15
0246810
PC1 vs. PC2
PC1
PC2
q
q
q
q
q
q
q
q
Day 0
Day 1
Day 4
Day 8
Day 11
Day 15
Day 18
Day 21
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
qq
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
qq
q
−10 −5 0 5 10 15
−10−5051015
PC1 vs. PC3
PC1
PC3
q
q
q
q
q
q
q
q
Day 0
Day 1
Day 4
Day 8
Day 11
Day 15
Day 18
Day 21
q
q
q
q
q
q
q
qq
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
qq
q
q
q
q
q
q
qq
qq
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
qq
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
−10 −5 0 5 10 15
−505
PC1 vs. PC4
PC1
PC4
q
q
q
q
q
q
q
q
Day 0
Day 1
Day 4
Day 8
Day 11
Day 15
Day 18
Day 21
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
qq
q
0 2 4 6 8 10 12
−10−5051015
PC2 vs. PC3
PC2
PC3
q
q
q
q
q
q
q
q
Day 0
Day 1
Day 4
Day 8
Day 11
Day 15
Day 18
Day 21
q
q
q
q
q
q
q
q q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q q
q
q
q
q
q
q
q q
qq
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
qq
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
−505
PC2 vs. PC4
PC4
q
q
q
q
q
q
q
q
Day 0
Day 1
Day 4
Day 8
Day 11
Day 15
Day 18
Day 21
q
q
q
q
q
q
q
qq
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q q
q
q
q
q
q
q
qq
q q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
−505
PC3 vs. PC4
PC4
q
q
q
q
q
q
q
q
Day 0
Day 1
Day 4
Day 8
Day 11
Day 15
Day 18
Day 21
ACP des coef-
ﬁcients : mise
en valeur du jour
de prélèvement
pour le groupe
contrôle après
normalisation

Lien entre ACP et dose totale ingérée
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q qq
qq
q
q
q q
q
q
qq
q
q
q
qq
q
qqq
q
q q
q
q
q
q
q q
qq
qq
q
q
q
q
q
qq
qq
q
q
q qq q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
qq
q
q
qq q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
qq
q
q qq
qq
q
q
q
q
qqq
q
q
q
q
q q
q
q
qqq
q
qq
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
qq
q
q
qqq
q
q
q q q
q
q
q
q
q
qq
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
qq
q
q
q
q
q
qqq
qq
q
q q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q q
q
qq
q
q
qq
q
q
q
q
qq
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q q
qq
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
qq
q q
q
q
q
q
q
−10 0 5 15
−30−20−10010
PC1 vs. PC2
PC1
PC2
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
TD 0
TD 3
TD 9
TD 12
TD 24
TD 33
TD 36
TD 45
TD 54
TD 63
TD 72
TD 99
TD 135
TD 162
TD 189 q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
qq q
q
qq
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q qq
q
qq
q
q
q
qq
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q q
q
q
q
q
qqq
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
−10 0 5 15
−100102030
PC1 vs. PC3
PC1
PC3
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
TD 0
TD 3
TD 9
TD 12
TD 24
TD 33
TD 36
TD 45
TD 54
TD 63
TD 72
TD 99
TD 135
TD 162
TD 189
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
qqq
q
q
q
q
q
q
qq
q q
q
q
q
q
q
q qq
q q
q
q
qq
q
q
q q
q
q
q q
q
qqq
qq q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q qq
q
q
q
q
q
q
q
qq
q q
q
q
qq
q
q
q
q
qq
q
q
qq
qq
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
qq
q
qq
q
qqq
qq
q q
q
q
qq
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q q
q
qq
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
qq
qq
q
qq
q
q
q
q
q
q
q
qq
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
qq q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
qq
q
q
q
q
q
qq
q
q
q q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
qq
q
q
q
qq
q
q
q
q
q
q
−10 0 5 15
−20−1001020304050
PC1 vs. PC4
PC1
PC4
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
TD 0
TD 3
TD 9
TD 12
TD 24
TD 33
TD 36
TD 45
TD 54
TD 63
TD 72
TD 99
TD 135
TD 162
TD 189
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
qqq
q
qq
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
qqq
q
qq
q
q
q
qq
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
qq
q
q
q
q
qqq
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
−100102030
PC2 vs. PC3
PC3
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
TD 0
TD 3
TD 9
TD 12
TD 24
TD 33
TD 36
TD 45
TD 54
TD 63
TD 72
TD 99
TD 135
TD 162
TD 189
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q qq
q
q
q
q
q
q
q q
qq
q
q
q
q
q
qqq
qq
q
q
qq
q
q
q q
q
q
qq
q
qqq
qqq
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
qqq
q
q
q
q
q
q
q
qq
qq
q
q
q q
q
q
q
q
qq
q
q
qq
qq
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
qq
q
qq
q
qqq
qq
q q
q
q
qq
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
qq
q
qq
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q q
qq
q
q q
q
q
q
q
q
q
q
qq
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
qqq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
qq
q
q
q
q
q
qq
q
q
qq
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
qq
q
q
q
qq
q
q
q
q
q
q
−20−1001020304050
PC2 vs. PC4
PC4
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
TD 0
TD 3
TD 9
TD 12
TD 24
TD 33
TD 36
TD 45
TD 54
TD 63
TD 72
TD 99
TD 135
TD 162
TD 189
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
qqq
q
q
q
q
q
q
qq
qq
q
q
q
q
q
q q q
q q
q
q
qq
q
q
qq
q
q
qq
q
qqq
q qq
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
qqq
q
q
q
q
q
q
q
q q
qq
q
q
qq
q
q
q
q
qq
q
q
qq
qq
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
qq
q
qq
q
qqq
q q
qq
q
q
qq
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
qq
q
q q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
qq
q q
q
qq
q
q
q
q
q
q
q
qq
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
qqq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
qq
q
q
q
q
q
q q
q
q
qq
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
qq
q
q
q
q q
q
q
q
q
q
q
−20−1001020304050
PC3 vs. PC4
PC4
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
TD 0
TD 3
TD 9
TD 12
TD 24
TD 33
TD 36
TD 45
TD 54
TD 63
TD 72
TD 99
TD 135
TD 162
TD 189
ACP des coef-
ﬁcients : mise
en valeur de
la dose totale
ingérée après
normalisation

Métabolites impliquées dans le phénomène
2 4 6 8 10
05101520

Métabolites impliquées dans le phénomène
2 4 6 8 10
05101520
La plupart correspondent à des métabolites connues et
impliquées dans le processus biologique (selon une étude
préliminaire).

Motivations
L’idée est de valider l’impact de l’ingestion de HR sur le
métabolome en essayant de prédire, à partir des coefﬁcients
d’ondelette normalisés et réduits, la dose totale de HR
ingérée. Si la prédiction s’avère être de bonne qualité, l’impact
n’est pas un artefac des données mais valide la dépendance
biologique.

Motivations
L’idée est de valider l’impact de l’ingestion de HR sur le
métabolome en essayant de prédire, à partir des coefﬁcients
d’ondelette normalisés et réduits, la dose totale de HR
ingérée. Si la prédiction s’avère être de bonne qualité, l’impact
n’est pas un artefac des données mais valide la dépendance
biologique.
Méthodes comparées :
random forest
ridge regression
LASSO
Elasticnet
Partial Least Squares (PLS)
sparse PLS

Méthologie
Séparation des données en apprentissage et test en
respectant l’équilibre des 18 groupes présentés en
introduction ;
Apprentissage des 6 méthodes sur les données
d’apprentissage avec calibration des hyperparamètres par
validation croisée ;
Calcul de l’erreur quadratique moyenne sur les données
de test.

Méthologie
Séparation des données en apprentissage et test en
respectant l’équilibre des 18 groupes présentés en
introduction ;
Apprentissage des 6 méthodes sur les données
d’apprentissage avec calibration des hyperparamètres par
validation croisée ;
Calcul de l’erreur quadratique moyenne sur les données
de test.
Cette procédure a été répétée 250 fois.

Résultats
q
q
q
q qq
q
q
qq
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
qq
q
q
q
Lasso
Ridge
ELN0.1
ELN0.25
ELN0.5
ELN0.75
PLS
SPLS5
SPLS10
SPLS20
RF
14
16
18
20
22
24

ELN : Qualité de prédiction
q
q
q
q
qqq
qqqqqq
q
q
q
qq
q
q
qqqqqqqqqqqq
q
qq
q
qq
q
q
qqqqq
q
q
q
qqq
q
qqqqq
q
qq
qqq
q
qqq
q
q
q
q
q
qqqq
qqq
q
q
q
q
q
q
qq
qqq
qq
qq
q
q
q
qq
q
qq
qq
q
q
q
q
qq
q
q
q
qqq
q
qqq
qqq
q
qq
q
q qq
qqq
qq
q
q
q
q
qqq
q
q
qqqqqqq
q
q
qq
q
q
q
q
qq
q
q
qq
q
qqqq
q
q
q
q
qq
q
qq
qq
q
qqq
q
q
q
q
q
q
qq
qq
q
q
q
q
qqq
q
q
q
q
qq
q
q
q
q
qq
qq
q
q
q
q
qqq
q
qq
q
qq
q
q
q
q
q
qq
q
q
q
q
q
q
q
qqqq
q
q
qq
q
q
qq
qq
q
qq
qq
qq
q
q
q
q
q
q
q
qq
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
qqq
q
q
q
q
q
qq
q
q
q
qqqqqq
q
q
qq
q
q
q
q
q
q
q
qq
q
qqq
q
qq
qq
qq
qq
q
qq
q
q
qqq
q
qq
q
qqq
qqq
q
q
qq
qq
q
q
qq
qq
q
q
q
qqq
q
qq
qqqq
qq
q
q
q
qq
q
qq
qq
q
q
q
q
qq
q
q
0 50 100 150
050100150
Mixing: 10%
True value
Predictedvalue
q
q
q
q
qqq
qqqqqq
q
q
q
qq
q
q
qqq
q
q
qqqq
qqq
q
qq
q
q
q
q
q
qqqqq
q
q
q
qqq
q
qqqqq
q
qq
qqq
q
qqq
q
q
q
q
q
qq
q
q
qqq
q
q
q
q
qqqq
qqq
qq
qq
q
qq
qq
q
qq
qq
q
q
q
q
qq
q
q
q
qqq
q
q
qq
qqq
q
qq
q
q qq
qqq
q
q
q
qqq
q
qq
q
q
qqqqqq
q
qq
qq
q
q
q
q
qq
q
q
qq
q
qqqq
q
q
qq
qq
q
qq
qq
q
qqqq
q
q
q
q
q
qq
qq
q
q
q
q
qqq
q
q
q
q
qq
qq
q
q
qq
qq
q
q
q
q
qqq
q
qq
q
qq
q
q
q
q
q
qqq
q
q
q
q
q
q
qqqq
q
q
q
q
q
q
qq
qq
q
qq
q
q
qq
q
q
q
q
q
q
q
q
q
qq
q
q
q
qq
q
q
q
qq
q
q
q
q
qqq
q
q
q
q
q
qqq
q
q
qqq
qq
q
q
q
qqq
q
q
q
q
q
q
qq
q
qq
q
q
qq
qq
qq
q
q
q
qq
q
q
qqq
q
qq
q
qqq
qqq
q
q
qq
qq
q
q
qq
qq
q
q
q
qqqq
qq
qqqq
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
0 50 100 150
050100150
Mixing: 25%
True value
Predictedvalue

ELN : Coefﬁcients impliqués
2 4 6 8 10
05101520
ppm

ELN : Coefﬁcients impliqués
2 4 6 8 10
05101520
ppm
Certains coefﬁcients sont les mêmes que ceux connus et
précédemment identifés, certains métabolites manquent dans la
liste, certains métabolites de la liste semblent inconnus. ⇒ effet
d’échelle ?

Perspectives et questions
Normalisation actuelle ? Modèle à effets mixtes ?
Qu’est-ce qui est pertinent pour la recherche des coefﬁcients
les plus importants dans ELN ?

Données métabolomiques, apprentissage et ondelettes

Recomendados

Recomendados

Mais conteúdo relacionado

Semelhante a Données métabolomiques, apprentissage et ondelettes

Semelhante a Données métabolomiques, apprentissage et ondelettes (9)

Mais de tuxette

Mais de tuxette (20)

Données métabolomiques, apprentissage et ondelettes