SlideShare uma empresa Scribd logo
1 de 82
Baixar para ler offline
SVM & FDA
Toulouse,
7 avril 2006
Nathalie V
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Discrimination de courbes par SVM
Nathalie Villa-Vialaneix
Équipe GRIMM, Université Toulouse Le Mirail
villa@univ-tlse2.fr
GREMAQ, 7 avril 2006
SVM & FDA
Toulouse,
7 avril 2006
Nathalie V
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Thématiques de recherche développées
NN pour FDA
(approche par régression inverse)
SVM & FDA
Toulouse,
7 avril 2006
Nathalie V
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Thématiques de recherche développées
NN pour FDA SVM pour FDA
(approche par régression inverse) (approches proj., spline, FIR. . . )
SVM & FDA
Toulouse,
7 avril 2006
Nathalie V
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Thématiques de recherche développées
NN pour FDA SVM pour FDA
(approche par régression inverse) (approches proj., spline, FIR. . . )
Projets GEODE
SVM & FDA
Toulouse,
7 avril 2006
Nathalie V
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Thématiques de recherche développées
NN pour FDA SVM pour FDA
(approche par régression inverse) (approches proj., spline, FIR. . . )
Projets GEODE ENAC
SVM & FDA
Toulouse,
7 avril 2006
Nathalie V
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Thématiques de recherche développées
NN pour FDA SVM pour FDA
(approche par régression inverse) (approches proj., spline, FIR. . . )
Projets GEODE ENAC FRAMESPA
SVM & FDA
Toulouse,
7 avril 2006
Nathalie V
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Thématiques de recherche développées
NN pour FDA SVM pour FDA
(approche par régression inverse) (approches proj., spline, FIR. . . )
Projets GEODE ENAC FRAMESPA
SVM & FDA
Toulouse,
7 avril 2006
Nathalie V
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Sommaire
1 Analyse des données fonctionnelles
2 Principe des SVM
3 Noyaux pour FDA
Approche par projection
Approche par splines d’interpolation
Approche par régression inverse
SVM & FDA
Toulouse,
7 avril 2006
Nathalie V
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Sommaire
1 Analyse des données fonctionnelles
2 Principe des SVM
3 Noyaux pour FDA
Approche par projection
Approche par splines d’interpolation
Approche par régression inverse
SVM & FDA
Toulouse,
7 avril 2006
Nathalie V
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Les données fonctionnelles : Définition
Données classiques : chaque observation est un vecteur
de RD
;
SVM & FDA
Toulouse,
7 avril 2006
Nathalie V
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Les données fonctionnelles : Définition
Données classiques : chaque observation est un vecteur
de RD
;
Données fonctionnelles : chaque observation est une
fonction d’un espace de dimension infinie (L2
τ , par
exemple ; espace de Hilbert, en général).
SVM & FDA
Toulouse,
7 avril 2006
Nathalie V
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Exemples
Représentation temporelle (reconnaissance vocale 1
)
0 2000 4000 6000 8000
−1.0−0.50.00.51.0
Temps (ms)
Frequences
Boat
Goat
But : Reconnaître le mot. . .
1
Données disponibles sur
http ://www.math.univ-montp2.fr/˜biau/bbwdata.tgz
SVM & FDA
Toulouse,
7 avril 2006
Nathalie V
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Exemples
Courbe de réponse (chimiométrie 1
)
0 20 40 60 80 100
2345
Longueur d’onde
Absorbance
But : Déterminer le taux de graisse. . .
1
Tecator database disponible sur
http ://lib.stat.cmu.edu/datasets/tecator
SVM & FDA
Toulouse,
7 avril 2006
Nathalie V
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Exemple de problèmes en FDA (1)
Problèmes d’inversion d’opérateurs
ΓX = E(X ⊗ X) − E(X) ⊗ E(X) est de Hilbert-Schmidt ⇒ Γ−1
X
est
non borné (ce n’est pas un opérateur continu de L2
τ ) ! !
SVM & FDA
Toulouse,
7 avril 2006
Nathalie V
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Exemple de problèmes en FDA (1)
Problèmes d’inversion d’opérateurs
ΓX = E(X ⊗ X) − E(X) ⊗ E(X) est de Hilbert-Schmidt ⇒ Γ−1
X
est
non borné (ce n’est pas un opérateur continu de L2
τ ) ! !
Conséquence au niveau de l’estimation
Γn
X
= 1
n
n
i=1 xi ⊗ xi − X ⊗ X est mal conditionné ⇒ nécessité de
pénalisation ou de régularisation.
SVM & FDA
Toulouse,
7 avril 2006
Nathalie V
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Les données fonctionnelles en pratique
Soit X une variable aléatoire fonctionnelle,
on ne connaît jamais complètement les observations
(xi)i=1,...,n de X !
SVM & FDA
Toulouse,
7 avril 2006
Nathalie V
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Les données fonctionnelles en pratique
Soit X une variable aléatoire fonctionnelle,
on ne connaît jamais complètement les observations
(xi)i=1,...,n de X !
on dispose de xi(ti
1
), . . . , xi(ti
D
) ;
dans le pire cas, le nombre et la place des points de
discrétisation dépendent de l’observation.
SVM & FDA
Toulouse,
7 avril 2006
Nathalie V
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Exemple de problèmes en FDA (2)
D’un point de vue pratique...
représenter les fonctions observées et les fonctions
paramètres ;
SVM & FDA
Toulouse,
7 avril 2006
Nathalie V
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Exemple de problèmes en FDA (2)
D’un point de vue pratique...
représenter les fonctions observées et les fonctions
paramètres ;
n < D, les observations pour un même individu sont
fortement corrélées (fonction sous-jacente) ⇒ problèmes
mal posés, méthodes usuelles souvent inapplicables
directement.
SVM & FDA
Toulouse,
7 avril 2006
Nathalie V
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Sommaire
1 Analyse des données fonctionnelles
2 Principe des SVM
3 Noyaux pour FDA
Approche par projection
Approche par splines d’interpolation
Approche par régression inverse
SVM & FDA
Toulouse,
7 avril 2006
Nathalie V
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Rappel sur le principe SVM
Le problème
Soit X ∈ H et Y ∈ {−1; 1}.
On cherche à déterminer la valeur de Y connaissant la variable
X.
SVM & FDA
Toulouse,
7 avril 2006
Nathalie V
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Rappel sur le principe SVM
Le problème
Soit X ∈ H et Y ∈ {−1; 1}.
On cherche à déterminer la valeur de Y connaissant la variable
X.
Les données
On dispose de n réalisations indépendantes de (X, Y) :
(x1, y1), . . . , (xn, yn).
SVM & FDA
Toulouse,
7 avril 2006
Nathalie V
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Discrimination linéaire à marge optimale
SVM & FDA
Toulouse,
7 avril 2006
Nathalie V
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Discrimination linéaire à marge optimale
SVM & FDA
Toulouse,
7 avril 2006
Nathalie V
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Discrimination linéaire à marge optimale
w
marge : 1
w 2
Vecteur Support
SVM & FDA
Toulouse,
7 avril 2006
Nathalie V
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Discrimination linéaire à marge optimale
w
marge : 1
w 2
Vecteur Support
On cherche w tel que :
minw,b w, w ,
sous les contraintes : yi( w, xi + b) ≥ 1, 1 ≤ i ≤ n.
SVM & FDA
Toulouse,
7 avril 2006
Nathalie V
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Discrimination linéaire à marge souple
SVM & FDA
Toulouse,
7 avril 2006
Nathalie V
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Discrimination linéaire à marge souple
SVM & FDA
Toulouse,
7 avril 2006
Nathalie V
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Discrimination linéaire à marge souple
w
marge : 1
w 2
Vecteur Support
SVM & FDA
Toulouse,
7 avril 2006
Nathalie V
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Discrimination linéaire à marge souple
w
marge : 1
w 2
Vecteur Support
On cherche w tel que :
minw,b,ξ w, w + C n
i=1 ξi,
sous les contraintes : yi( w, xi + b) ≥ 1 − ξi, 1 ≤ i ≤ n,
ξi ≥ 0, 1 ≤ i ≤ n.
SVM & FDA
Toulouse,
7 avril 2006
Nathalie V
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Envoyer les données dans un espace de grande
dimension
Espace initial H
SVM & FDA
Toulouse,
7 avril 2006
Nathalie V
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Envoyer les données dans un espace de grande
dimension
Espace initial H Espace image X
Φ (non linéaire)
SVM & FDA
Toulouse,
7 avril 2006
Nathalie V
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Envoyer les données dans un espace de grande
dimension
Espace initial H Espace image X
Φ (non linéaire)
SVM & FDA
Toulouse,
7 avril 2006
Nathalie V
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Envoyer les données dans un espace de grande
dimension
Espace initial H Espace image X
Φ (non linéaire)
On cherche w tel que :
(PC,X) minw,b,ξ w, w + C n
i=1 ξi,
sous les contraintes : yi( w, Φ(xi) + b) ≥ 1 − ξi, 1 ≤ i ≤ n,
ξi ≥ 0, 1 ≤ i ≤ n.
SVM & FDA
Toulouse,
7 avril 2006
Nathalie V
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Intérêt du non linéaire
Formulation régularisation : (PC,X) ⇔
(Rλ,X) min
f∈X
1
n
n
i=1
max(0, 1 − yif(xi)) + λ f, f X.
SVM & FDA
Toulouse,
7 avril 2006
Nathalie V
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Intérêt du non linéaire
Formulation régularisation : (PC,X) ⇔
(Rλ,X) min
f∈X
1
n
n
i=1
max(0, 1 − yif(xi)) + λ f, f X.
Formulation duale : (PC,X) ⇔
(DC,X) maxα
n
i=1 αi − n
i=1
n
j=1 αiαjyiyj Φ(xi), Φ(xj) X,
avec N
i=1 αiyi = 0,
0 ≤ αi ≤ C, 1 ≤ i ≤ n.
SVM & FDA
Toulouse,
7 avril 2006
Nathalie V
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Intérêt du non linéaire
Formulation régularisation : (PC,X) ⇔
(Rλ,X) min
f∈X
1
n
n
i=1
max(0, 1 − yif(xi)) + λ f, f X.
Formulation duale : (PC,X) ⇔
(DC,X) maxα
n
i=1 αi − n
i=1
n
j=1 αiαjyiyj Φ(xi), Φ(xj) X,
avec N
i=1 αiyi = 0,
0 ≤ αi ≤ C, 1 ≤ i ≤ n.
Produit scalaire dans X :
∀ u, v ∈ X, K(u, v) = Φ(u), Φ(v) X
SVM & FDA
Toulouse,
7 avril 2006
Nathalie V
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Sommaire
1 Analyse des données fonctionnelles
2 Principe des SVM
3 Noyaux pour FDA
Approche par projection
Approche par splines d’interpolation
Approche par régression inverse
SVM & FDA
Toulouse,
7 avril 2006
Nathalie V
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Présentation des travaux
En collaboration avec Fabrice Rossi
Support vector machine for functional data
classification (2005), paru dans ESANN proceedings ;
Classification in Hilbert spaces with support vector
machines (2005), paru dans ASMDA proceedings ;
Support vector machine for functional data
classification (2006), paru dans Neurocomputing ;
SVM fonctionnels par interpolation spline (2006), à
paraître dans Actes du congrès de la SFdS (Journées de
Statistique).
SVM & FDA
Toulouse,
7 avril 2006
Nathalie V
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Noyaux pour FDA
Forme générale
Prétraitement : P : H → D
∀ u, v ∈ H, Q(u, v) = K(P(u), P(v)).
SVM & FDA
Toulouse,
7 avril 2006
Nathalie V
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Noyaux pour FDA
Forme générale
Prétraitement : P : H → D
∀ u, v ∈ H, Q(u, v) = K(P(u), P(v)).
1 Projections : pour VD = Vect{ψ1, . . . , ψD},
P(x) =
D
j=1
x, ψj ψj.
SVM & FDA
Toulouse,
7 avril 2006
Nathalie V
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Noyaux pour FDA
Forme générale
Prétraitement : P : H → D
∀ u, v ∈ H, Q(u, v) = K(P(u), P(v)).
1 Projections : pour VD = Vect{ψ1, . . . , ψD},
P(x) =
D
j=1
x, ψj ψj.
2 Transformations fonctionnelles : P(x) = Dq
x,. . .
SVM & FDA
Toulouse,
7 avril 2006
Nathalie V
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Noyaux pour FDA
Forme générale
Prétraitement : P : H → D
∀ u, v ∈ H, Q(u, v) = K(P(u), P(v)).
1 Projections : pour VD = Vect{ψ1, . . . , ψD},
P(x) =
D
j=1
x, ψj ψj.
2 Transformations fonctionnelles : P(x) = Dq
x,. . .
3 FIR. . .
SVM & FDA
Toulouse,
7 avril 2006
Nathalie V
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Sommaire
1 Analyse des données fonctionnelles
2 Principe des SVM
3 Noyaux pour FDA
Approche par projection
Approche par splines d’interpolation
Approche par régression inverse
SVM & FDA
Toulouse,
7 avril 2006
Nathalie V
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Une approche consistante
Approche par projection
1 (ψj)j base Hilbertienne de H : projection sur (ψj)j=1,...,d ;
SVM & FDA
Toulouse,
7 avril 2006
Nathalie V
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Une approche consistante
Approche par projection
1 (ψj)j base Hilbertienne de H : projection sur (ψj)j=1,...,d ;
2 Choix des paramètres : a ≡ d ∈ N, K ∈ Jd, C ∈ [0; Cd]
SVM & FDA
Toulouse,
7 avril 2006
Nathalie V
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Une approche consistante
Approche par projection
1 (ψj)j base Hilbertienne de H : projection sur (ψj)j=1,...,d ;
2 Choix des paramètres : a ≡ d ∈ N, K ∈ Jd, C ∈ [0; Cd]
partage des données : B1 = (x1, y1), . . . , (xl, yl) et
B2 = (xl+1, yl+1), . . . , (xn, yn) ;
SVM & FDA
Toulouse,
7 avril 2006
Nathalie V
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Une approche consistante
Approche par projection
1 (ψj)j base Hilbertienne de H : projection sur (ψj)j=1,...,d ;
2 Choix des paramètres : a ≡ d ∈ N, K ∈ Jd, C ∈ [0; Cd]
partage des données : B1 = (x1, y1), . . . , (xl, yl) et
B2 = (xl+1, yl+1), . . . , (xn, yn) ;
construction du SVM sur B1 : fa ;
SVM & FDA
Toulouse,
7 avril 2006
Nathalie V
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Une approche consistante
Approche par projection
1 (ψj)j base Hilbertienne de H : projection sur (ψj)j=1,...,d ;
2 Choix des paramètres : a ≡ d ∈ N, K ∈ Jd, C ∈ [0; Cd]
partage des données : B1 = (x1, y1), . . . , (xl, yl) et
B2 = (xl+1, yl+1), . . . , (xn, yn) ;
construction du SVM sur B1 : fa ;
choix du paramètre optimal sur B2 :
a∗
= argminaLn−lfa +
λd
√
n − l
avec Ln−lfa = 1
n−l
n
i=l+1 I{fa (xi ) yi }.
SVM & FDA
Toulouse,
7 avril 2006
Nathalie V
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Une approche consistante
Approche par projection
1 (ψj)j base Hilbertienne de H : projection sur (ψj)j=1,...,d ;
2 Choix des paramètres : a ≡ d ∈ N, K ∈ Jd, C ∈ [0; Cd]
partage des données : B1 = (x1, y1), . . . , (xl, yl) et
B2 = (xl+1, yl+1), . . . , (xn, yn) ;
construction du SVM sur B1 : fa ;
choix du paramètre optimal sur B2 :
a∗
= argminaLn−lfa +
λd
√
n − l
avec Ln−lfa = 1
n−l
n
i=l+1 I{fa (xi ) yi }.
⇒ On obtient un SVM fn.
SVM & FDA
Toulouse,
7 avril 2006
Nathalie V
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Hypothèses
Hypothèses sur la distribution de X
(H1) X prend ses valeurs dans un borné de H.
SVM & FDA
Toulouse,
7 avril 2006
Nathalie V
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Hypothèses
Hypothèses sur la distribution de X
(H1) X prend ses valeurs dans un borné de H.
Hypothèses sur les paramètres : ∀ d ≥ 1,
(H2) Jd est un ensemble fini ;
(H3) ∃Kd ∈ Jd tel que : Kd est universel et
∃νd > 0 : N(Kd, ) = O( −νd ) ;
(H4) Cd > 1 ;
(H5) d≥1 |Jd|e−2λ2
d < +∞.
SVM & FDA
Toulouse,
7 avril 2006
Nathalie V
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Hypothèses
Hypothèses sur la distribution de X
(H1) X prend ses valeurs dans un borné de H.
Hypothèses sur les paramètres : ∀ d ≥ 1,
(H2) Jd est un ensemble fini ;
(H3) ∃Kd ∈ Jd tel que : Kd est universel et
∃νd > 0 : N(Kd, ) = O( −νd ) ;
(H4) Cd > 1 ;
(H5) d≥1 |Jd|e−2λ2
d < +∞.
Hypothèses sur la validation
(H6) limn→+∞ l = +∞ ;
(H7) limn→+∞ n − l = +∞ ;
(H8) limn→+∞
l log(n−l)
n−l = 0.
SVM & FDA
Toulouse,
7 avril 2006
Nathalie V
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Convergence par procédure de validation
Théorème 1 Consistance universelle
Sous les hypothèses (H1)-(H8), fn est consistant :
Lfn
n→+∞
−−−−−→ L∗
,
où Lfn = P(fn(X) Y) et L∗
= P(f∗
(X) Y) avec
f∗
(x) =
1 si P(Y = 1|X = x) > 1/2,
−1 sinon.
SVM & FDA
Toulouse,
7 avril 2006
Nathalie V
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Application : reconnaissance vocale
Description des données et méthodes
3 problèmes et pour chaque problème, 100
enregistrements discrétisés en 8 192 points ;
SVM & FDA
Toulouse,
7 avril 2006
Nathalie V
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Application : reconnaissance vocale
Description des données et méthodes
3 problèmes et pour chaque problème, 100
enregistrements discrétisés en 8 192 points ;
Mise en œuvre de la procédure consistante :
Projection sur une base trigonométrique ;
Partage de la base de données en 50 spectres
(apprentissage) / 49 (validation) ;
Performances déterminées par leave-one-out.
SVM & FDA
Toulouse,
7 avril 2006
Nathalie V
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Application : reconnaissance vocale
Description des données et méthodes
3 problèmes et pour chaque problème, 100
enregistrements discrétisés en 8 192 points ;
Mise en œuvre de la procédure consistante :
Projection sur une base trigonométrique ;
Partage de la base de données en 50 spectres
(apprentissage) / 49 (validation) ;
Performances déterminées par leave-one-out.
Résultats
Prob. k-nn QDA SVM gau. SVM lin. SVM lin.
(proj) (proj) (direct)
yes/no 10% 7% 10% 19% 58%
boat/goat 21% 35% 8% 29% 46%
sh/ao 16% 19% 12% 25% 47%
SVM & FDA
Toulouse,
7 avril 2006
Nathalie V
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Application : Tecator data Set
Description des données et méthodes
215 spectres discrétisés en 100 points ; 2 classes : taux de
graisse >20% et <20%.
SVM & FDA
Toulouse,
7 avril 2006
Nathalie V
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Application : Tecator data Set
Description des données et méthodes
215 spectres discrétisés en 100 points ; 2 classes : taux de
graisse >20% et <20%.
Procédure :
Projection sur une base de splines cubiques (déterminée
par leave-one-out) ;
Partage aléatoire de la base de données en 60 spectres
(apprentissage) / 60 spectres (validation) ;
Performances déterminées sur un échantillon de test
aléatoire de 95 spectres.
SVM & FDA
Toulouse,
7 avril 2006
Nathalie V
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Application : Tecator data Set
Description des données et méthodes
215 spectres discrétisés en 100 points ; 2 classes : taux de
graisse >20% et <20%.
Procédure :
Projection sur une base de splines cubiques (déterminée
par leave-one-out) ;
Partage aléatoire de la base de données en 60 spectres
(apprentissage) / 60 spectres (validation) ;
Performances déterminées sur un échantillon de test
aléatoire de 95 spectres.
Résultats (Moyenne pour 250 répétitions)
Noyau Erreur moyenne (test)
Linéaire 3.38%
Linéaire sur D2
X 3.28%
Gaussien 7.5%
Gaussien sur D2
X 2.6%
SVM & FDA
Toulouse,
7 avril 2006
Nathalie V
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Sommaire
1 Analyse des données fonctionnelles
2 Principe des SVM
3 Noyaux pour FDA
Approche par projection
Approche par splines d’interpolation
Approche par régression inverse
SVM & FDA
Toulouse,
7 avril 2006
Nathalie V
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Approche directe pour SVM sur dérivées
Hypothèse de régularité
On suppose que X est régulière :
X ∈ Hm
= {x : [0; 1] → R : Dm
x existe et Dm
x ∈ L2
}.
SVM & FDA
Toulouse,
7 avril 2006
Nathalie V
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Approche directe pour SVM sur dérivées
Hypothèse de régularité
On suppose que X est régulière :
X ∈ Hm
= {x : [0; 1] → R : Dm
x existe et Dm
x ∈ L2
}.
Principe de l’interpolation L-spline
on interpole exactement les observations x1, . . . , xn aux
points de discrétisation t1, . . . , td ;
on minimise une pénalité de régularisation définie par un
opérateur différentiel :
L = Dm
+
m−1
j=1
ajDj
.
SVM & FDA
Toulouse,
7 avril 2006
Nathalie V
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Décomposition de l’espace de Sobolev
Hm
= H0 + H1 avec
H0 = KerL ;
H1 est défini par m contraintes aux bornes : RKHS de
produit scalaire h1, h2 = [0,1]
Lh1(t)Lh2(t)dt et de noyau
K.
SVM & FDA
Toulouse,
7 avril 2006
Nathalie V
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Décomposition de l’espace de Sobolev
Hm
= H0 + H1 avec
H0 = KerL ;
H1 est défini par m contraintes aux bornes : RKHS de
produit scalaire h1, h2 = [0,1]
Lh1(t)Lh2(t)dt et de noyau
K.
Exemples :
H1
avec L = I + D et x(0) = 0 (Lx = 0 ⇒ x = ae−t
et
x(0) = a) ;
H2
avec L = I + D2
et x(0) = Dx(0) = 0 ;
Hm
(m ≥ 1) avec L = Dm
et Dj
x(0) = 0, ∀ j = 1, . . . , m ;
SVM & FDA
Toulouse,
7 avril 2006
Nathalie V
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Détermination de la spline d’interpolation
On suppose Kd = (K(ti, tj))i,j=1,...,d inversible.
Spline d’interpolation
Soit x ∈ H1 alors h = PVect{K(tk ,.), k=1,...,d}(x).
SVM & FDA
Toulouse,
7 avril 2006
Nathalie V
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Détermination de la spline d’interpolation
On suppose Kd = (K(ti, tj))i,j=1,...,d inversible.
Spline d’interpolation
Soit x ∈ H1 alors h = PVect{K(tk ,.), k=1,...,d}(x).
Produit scalaire entre splines
Si x1, x2 ∈ H1,
h1, h2 H1
= x1, x2 (Rd ,K−1/2).
où xi = (xi(t1), . . . , xi(td)).
SVM & FDA
Toulouse,
7 avril 2006
Nathalie V
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Application aux SVM
On note
Gd
γ (u, v) = e
−γ u−v 2
Rd
et G∞
γ (u, v) = e
−γ u−v 2
L2
;
Kd = (K(ti, tj))i,j=1,...,d, supposée inversible ;
∀ i = 1, . . . , n, hi est la spline d’interpolation de xi
(supposée à valeurs dans H1) ;
xi = (xi(t1), . . . , xi(td)).
SVM & FDA
Toulouse,
7 avril 2006
Nathalie V
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Application aux SVM
On note
Gd
γ (u, v) = e
−γ u−v 2
Rd
et G∞
γ (u, v) = e
−γ u−v 2
L2
;
Kd = (K(ti, tj))i,j=1,...,d, supposée inversible ;
∀ i = 1, . . . , n, hi est la spline d’interpolation de xi
(supposée à valeurs dans H1) ;
xi = (xi(t1), . . . , xi(td)).
Théorème 2 SVM sur dérivées
SVM sur (Lhi)i avec noyau G∞
γ −→ φn,d
h
⇔
SVM sur (xi)i avec noyau Gd
γ ◦ K−1/2
−→ φn,d
x
SVM & FDA
Toulouse,
7 avril 2006
Nathalie V
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Hypothèses pour la consistance
Hypothèses
(H1) : X est une variable aléatoire bornée à valeurs dans
H1 ;
(H2) : (τd)d est une suite de points de discrétisation dans
[0, 1] telle que, pour tout d ≥ 1, τd = {tk }k=1,...,d, la matrice
Kd est définie positive et Span{K(t, .), t ∈ ∪d≥1τd} est
dense dans H1 ;
(H3) : (Cd
n )n est une suite de régularisation telle que
Cd
n = O(n1−βd ) pour 0 < βd < 1/d.
SVM & FDA
Toulouse,
7 avril 2006
Nathalie V
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Consistance
Théorème 3 Consistance universelle
Sous les hypothèse (H1)-(H3), le SVM φn,d
h
, avec la suite de
régularisation (Cd
n )n, est universellement consistant :
lim
n→+∞
lim
d→+∞
Lfn,d = L∗
où L∗ est l’erreur de Bayes et Lφ = P(φ(X) Y) est l’erreur de
φ.
SVM & FDA
Toulouse,
7 avril 2006
Nathalie V
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Limites et perspectives
Limites
Lorsque d est grand, interpolation = sur-adéquation aux
observations et Kd est mal conditionnée.
SVM & FDA
Toulouse,
7 avril 2006
Nathalie V
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Limites et perspectives
Limites
Lorsque d est grand, interpolation = sur-adéquation aux
observations et Kd est mal conditionnée.
Perspectives
spline de lissage sans condition aux bornes (contrôler
l’erreur commise par E(Y|SLd (X)) au lieu de E(Y|X)) ;
SVM & FDA
Toulouse,
7 avril 2006
Nathalie V
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Limites et perspectives
Limites
Lorsque d est grand, interpolation = sur-adéquation aux
observations et Kd est mal conditionnée.
Perspectives
spline de lissage sans condition aux bornes (contrôler
l’erreur commise par E(Y|SLd (X)) au lieu de E(Y|X)) ;
application sur des données réelles :
0 200 400 600 800 1000
0.40.60.81.0
Temps
Fréquence
0.67
52.33
4.33
16.67
27.67
33.25
11.25
27
4.33
0.33
17.33
18
79.67
85
17.33
5.33
60.5
0.67
15.33
SVM & FDA
Toulouse,
7 avril 2006
Nathalie V
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Sommaire
1 Analyse des données fonctionnelles
2 Principe des SVM
3 Noyaux pour FDA
Approche par projection
Approche par splines d’interpolation
Approche par régression inverse
SVM & FDA
Toulouse,
7 avril 2006
Nathalie V
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Régression inverse fonctionnelle
Modèle
Y = f( a1, X . . . aq, X , ),
où X, E( ) = 0, f inconnue, {a1, . . . , aq} linéairement
independants.
EDR = Vect{a1, . . . aq}
SVM & FDA
Toulouse,
7 avril 2006
Nathalie V
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Régression inverse fonctionnelle
Modèle
Y = f( a1, X . . . aq, X , ),
où X, E( ) = 0, f inconnue, {a1, . . . , aq} linéairement
independants.
EDR = Vect{a1, . . . aq}
Caractérisation de l’espace EDR
Si, pour A = ( X, a1 , . . . , X, aq ),
Condition de Li ∀ u ∈ H, ∃v ∈ Rq
: E( u, X |A) = vT
A,
alors E(X|Y) ∈ ΓX (EDR).
SVM & FDA
Toulouse,
7 avril 2006
Nathalie V
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Régression inverse fonctionnelle
Modèle
Y = f( a1, X . . . aq, X , ),
où X, E( ) = 0, f inconnue, {a1, . . . , aq} linéairement
independants.
EDR = Vect{a1, . . . aq}
Caractérisation de l’espace EDR
Si, pour A = ( X, a1 , . . . , X, aq ),
Condition de Li ∀ u ∈ H, ∃v ∈ Rq
: E( u, X |A) = vT
A,
alors E(X|Y) ∈ ΓX (EDR).
⇒ On choisit d’estimer a1, . . . , aq, vecteurs propres de
Γ−1
X
ΓE(X|Y).
SVM & FDA
Toulouse,
7 avril 2006
Nathalie V
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
SVM par FIR
Estimation de EDR, EDR ;
SVM & FDA
Toulouse,
7 avril 2006
Nathalie V
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
SVM par FIR
Estimation de EDR, EDR ;
Estimation de f par SVM : SVM sur PEDR(X) ;
SVM & FDA
Toulouse,
7 avril 2006
Nathalie V
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
SVM par FIR
Estimation de EDR, EDR ;
Estimation de f par SVM : SVM sur PEDR(X) ;
Résultat de consistance universelle pour ce SVM : il faut
contrôler la différence entre E(Y|X) et E(Y|Tn,q(X)) où
Tn,q(X) dépend des observations. . .
SVM & FDA
Toulouse,
7 avril 2006
Nathalie V
Analyse des
données
fonctionnelles
Principe des
SVM
Noyaux pour
FDA
Approche par
projection
Approche par splines
d’interpolation
Approche par
régression inverse
Simulations
Données simulées Waveform
2 4 6 8 10 12 14 16 18 20
−4
−2
0
2
4
6
8
Classe 1
2 4 6 8 10 12 14 16 18 20
−4
−2
0
2
4
6
8
10
Classe 2
2 4 6 8 10 12 14 16 18 20
−4
−2
0
2
4
6
8
Classe 3
300 courbes (apprentissage) / 500 courbes (validation) ;
erreur calculée sur un échantillon de 500 courbes ;
10 répétitions.
Résultats
FIR-SVM SVM R-PDA FIR-N
Moyenne (test) 13,70 15,46 15,62 14,16
Ecart type (test) 2,25 3,04 2,05 2,01
Minimum (test) 10,20 12,20 12,60 12,00
Moyenne (apprentissage) 11,73 10,17 12,47 12,37

Mais conteúdo relacionado

Mais procurados

Application de l’analyse des données fonctionnelles à l’identification de blé...
Application de l’analyse des données fonctionnelles à l’identification de blé...Application de l’analyse des données fonctionnelles à l’identification de blé...
Application de l’analyse des données fonctionnelles à l’identification de blé...tuxette
 
Planification séquentielle pour l'estimation de probabilités de défaillance
Planification séquentielle pour l'estimation de probabilités de défaillancePlanification séquentielle pour l'estimation de probabilités de défaillance
Planification séquentielle pour l'estimation de probabilités de défaillanceJulien Bect
 
Une introduction à la géométrie de l'information
Une introduction à la géométrie de l'informationUne introduction à la géométrie de l'information
Une introduction à la géométrie de l'informationFrank Nielsen
 
Fonction quadratique TS-4
Fonction quadratique TS-4Fonction quadratique TS-4
Fonction quadratique TS-4mathemathieu
 
Localisation d’une source émettrice par un réseau d’antennes
Localisation d’une source émettrice par un réseau d’antennesLocalisation d’une source émettrice par un réseau d’antennes
Localisation d’une source émettrice par un réseau d’antennesAhmed Ammar Rebai PhD
 
Chap9 : Systèmes non linéaires
Chap9 : Systèmes non linéairesChap9 : Systèmes non linéaires
Chap9 : Systèmes non linéairesMohammed TAMALI
 
Modelisation non supervisee
Modelisation non superviseeModelisation non supervisee
Modelisation non superviseeminiloka
 
NOISE: Statistiques exploratoires avec R
NOISE: Statistiques exploratoires avec RNOISE: Statistiques exploratoires avec R
NOISE: Statistiques exploratoires avec RChristian Robert
 

Mais procurados (13)

Application de l’analyse des données fonctionnelles à l’identification de blé...
Application de l’analyse des données fonctionnelles à l’identification de blé...Application de l’analyse des données fonctionnelles à l’identification de blé...
Application de l’analyse des données fonctionnelles à l’identification de blé...
 
C4 spec-adt
C4 spec-adtC4 spec-adt
C4 spec-adt
 
Planification séquentielle pour l'estimation de probabilités de défaillance
Planification séquentielle pour l'estimation de probabilités de défaillancePlanification séquentielle pour l'estimation de probabilités de défaillance
Planification séquentielle pour l'estimation de probabilités de défaillance
 
09 mouvement-2
09 mouvement-209 mouvement-2
09 mouvement-2
 
Une introduction à la géométrie de l'information
Une introduction à la géométrie de l'informationUne introduction à la géométrie de l'information
Une introduction à la géométrie de l'information
 
Fonction quadratique TS-4
Fonction quadratique TS-4Fonction quadratique TS-4
Fonction quadratique TS-4
 
Localisation d’une source émettrice par un réseau d’antennes
Localisation d’une source émettrice par un réseau d’antennesLocalisation d’une source émettrice par un réseau d’antennes
Localisation d’une source émettrice par un réseau d’antennes
 
A slides 11
A slides 11A slides 11
A slides 11
 
Chap9 : Systèmes non linéaires
Chap9 : Systèmes non linéairesChap9 : Systèmes non linéaires
Chap9 : Systèmes non linéaires
 
Modelisation non supervisee
Modelisation non superviseeModelisation non supervisee
Modelisation non supervisee
 
Théo inf
Théo infThéo inf
Théo inf
 
NOISE: Statistiques exploratoires avec R
NOISE: Statistiques exploratoires avec RNOISE: Statistiques exploratoires avec R
NOISE: Statistiques exploratoires avec R
 
Classifieur d'entropie maximale (MaxEnt)
Classifieur d'entropie maximale (MaxEnt)Classifieur d'entropie maximale (MaxEnt)
Classifieur d'entropie maximale (MaxEnt)
 

Mais de tuxette

Racines en haut et feuilles en bas : les arbres en maths
Racines en haut et feuilles en bas : les arbres en mathsRacines en haut et feuilles en bas : les arbres en maths
Racines en haut et feuilles en bas : les arbres en mathstuxette
 
Méthodes à noyaux pour l’intégration de données hétérogènes
Méthodes à noyaux pour l’intégration de données hétérogènesMéthodes à noyaux pour l’intégration de données hétérogènes
Méthodes à noyaux pour l’intégration de données hétérogènestuxette
 
Méthodologies d'intégration de données omiques
Méthodologies d'intégration de données omiquesMéthodologies d'intégration de données omiques
Méthodologies d'intégration de données omiquestuxette
 
Projets autour de l'Hi-C
Projets autour de l'Hi-CProjets autour de l'Hi-C
Projets autour de l'Hi-Ctuxette
 
Can deep learning learn chromatin structure from sequence?
Can deep learning learn chromatin structure from sequence?Can deep learning learn chromatin structure from sequence?
Can deep learning learn chromatin structure from sequence?tuxette
 
Multi-omics data integration methods: kernel and other machine learning appro...
Multi-omics data integration methods: kernel and other machine learning appro...Multi-omics data integration methods: kernel and other machine learning appro...
Multi-omics data integration methods: kernel and other machine learning appro...tuxette
 
ASTERICS : une application pour intégrer des données omiques
ASTERICS : une application pour intégrer des données omiquesASTERICS : une application pour intégrer des données omiques
ASTERICS : une application pour intégrer des données omiquestuxette
 
Autour des projets Idefics et MetaboWean
Autour des projets Idefics et MetaboWeanAutour des projets Idefics et MetaboWean
Autour des projets Idefics et MetaboWeantuxette
 
Rserve, renv, flask, Vue.js dans un docker pour intégrer des données omiques ...
Rserve, renv, flask, Vue.js dans un docker pour intégrer des données omiques ...Rserve, renv, flask, Vue.js dans un docker pour intégrer des données omiques ...
Rserve, renv, flask, Vue.js dans un docker pour intégrer des données omiques ...tuxette
 
Apprentissage pour la biologie moléculaire et l’analyse de données omiques
Apprentissage pour la biologie moléculaire et l’analyse de données omiquesApprentissage pour la biologie moléculaire et l’analyse de données omiques
Apprentissage pour la biologie moléculaire et l’analyse de données omiquestuxette
 
Quelques résultats préliminaires de l'évaluation de méthodes d'inférence de r...
Quelques résultats préliminaires de l'évaluation de méthodes d'inférence de r...Quelques résultats préliminaires de l'évaluation de méthodes d'inférence de r...
Quelques résultats préliminaires de l'évaluation de méthodes d'inférence de r...tuxette
 
Intégration de données omiques multi-échelles : méthodes à noyau et autres ap...
Intégration de données omiques multi-échelles : méthodes à noyau et autres ap...Intégration de données omiques multi-échelles : méthodes à noyau et autres ap...
Intégration de données omiques multi-échelles : méthodes à noyau et autres ap...tuxette
 
Journal club: Validation of cluster analysis results on validation data
Journal club: Validation of cluster analysis results on validation dataJournal club: Validation of cluster analysis results on validation data
Journal club: Validation of cluster analysis results on validation datatuxette
 
Overfitting or overparametrization?
Overfitting or overparametrization?Overfitting or overparametrization?
Overfitting or overparametrization?tuxette
 
Selective inference and single-cell differential analysis
Selective inference and single-cell differential analysisSelective inference and single-cell differential analysis
Selective inference and single-cell differential analysistuxette
 
SOMbrero : un package R pour les cartes auto-organisatrices
SOMbrero : un package R pour les cartes auto-organisatricesSOMbrero : un package R pour les cartes auto-organisatrices
SOMbrero : un package R pour les cartes auto-organisatricestuxette
 
Graph Neural Network for Phenotype Prediction
Graph Neural Network for Phenotype PredictionGraph Neural Network for Phenotype Prediction
Graph Neural Network for Phenotype Predictiontuxette
 
A short and naive introduction to using network in prediction models
A short and naive introduction to using network in prediction modelsA short and naive introduction to using network in prediction models
A short and naive introduction to using network in prediction modelstuxette
 
Explanable models for time series with random forest
Explanable models for time series with random forestExplanable models for time series with random forest
Explanable models for time series with random foresttuxette
 
Présentation du projet ASTERICS
Présentation du projet ASTERICSPrésentation du projet ASTERICS
Présentation du projet ASTERICStuxette
 

Mais de tuxette (20)

Racines en haut et feuilles en bas : les arbres en maths
Racines en haut et feuilles en bas : les arbres en mathsRacines en haut et feuilles en bas : les arbres en maths
Racines en haut et feuilles en bas : les arbres en maths
 
Méthodes à noyaux pour l’intégration de données hétérogènes
Méthodes à noyaux pour l’intégration de données hétérogènesMéthodes à noyaux pour l’intégration de données hétérogènes
Méthodes à noyaux pour l’intégration de données hétérogènes
 
Méthodologies d'intégration de données omiques
Méthodologies d'intégration de données omiquesMéthodologies d'intégration de données omiques
Méthodologies d'intégration de données omiques
 
Projets autour de l'Hi-C
Projets autour de l'Hi-CProjets autour de l'Hi-C
Projets autour de l'Hi-C
 
Can deep learning learn chromatin structure from sequence?
Can deep learning learn chromatin structure from sequence?Can deep learning learn chromatin structure from sequence?
Can deep learning learn chromatin structure from sequence?
 
Multi-omics data integration methods: kernel and other machine learning appro...
Multi-omics data integration methods: kernel and other machine learning appro...Multi-omics data integration methods: kernel and other machine learning appro...
Multi-omics data integration methods: kernel and other machine learning appro...
 
ASTERICS : une application pour intégrer des données omiques
ASTERICS : une application pour intégrer des données omiquesASTERICS : une application pour intégrer des données omiques
ASTERICS : une application pour intégrer des données omiques
 
Autour des projets Idefics et MetaboWean
Autour des projets Idefics et MetaboWeanAutour des projets Idefics et MetaboWean
Autour des projets Idefics et MetaboWean
 
Rserve, renv, flask, Vue.js dans un docker pour intégrer des données omiques ...
Rserve, renv, flask, Vue.js dans un docker pour intégrer des données omiques ...Rserve, renv, flask, Vue.js dans un docker pour intégrer des données omiques ...
Rserve, renv, flask, Vue.js dans un docker pour intégrer des données omiques ...
 
Apprentissage pour la biologie moléculaire et l’analyse de données omiques
Apprentissage pour la biologie moléculaire et l’analyse de données omiquesApprentissage pour la biologie moléculaire et l’analyse de données omiques
Apprentissage pour la biologie moléculaire et l’analyse de données omiques
 
Quelques résultats préliminaires de l'évaluation de méthodes d'inférence de r...
Quelques résultats préliminaires de l'évaluation de méthodes d'inférence de r...Quelques résultats préliminaires de l'évaluation de méthodes d'inférence de r...
Quelques résultats préliminaires de l'évaluation de méthodes d'inférence de r...
 
Intégration de données omiques multi-échelles : méthodes à noyau et autres ap...
Intégration de données omiques multi-échelles : méthodes à noyau et autres ap...Intégration de données omiques multi-échelles : méthodes à noyau et autres ap...
Intégration de données omiques multi-échelles : méthodes à noyau et autres ap...
 
Journal club: Validation of cluster analysis results on validation data
Journal club: Validation of cluster analysis results on validation dataJournal club: Validation of cluster analysis results on validation data
Journal club: Validation of cluster analysis results on validation data
 
Overfitting or overparametrization?
Overfitting or overparametrization?Overfitting or overparametrization?
Overfitting or overparametrization?
 
Selective inference and single-cell differential analysis
Selective inference and single-cell differential analysisSelective inference and single-cell differential analysis
Selective inference and single-cell differential analysis
 
SOMbrero : un package R pour les cartes auto-organisatrices
SOMbrero : un package R pour les cartes auto-organisatricesSOMbrero : un package R pour les cartes auto-organisatrices
SOMbrero : un package R pour les cartes auto-organisatrices
 
Graph Neural Network for Phenotype Prediction
Graph Neural Network for Phenotype PredictionGraph Neural Network for Phenotype Prediction
Graph Neural Network for Phenotype Prediction
 
A short and naive introduction to using network in prediction models
A short and naive introduction to using network in prediction modelsA short and naive introduction to using network in prediction models
A short and naive introduction to using network in prediction models
 
Explanable models for time series with random forest
Explanable models for time series with random forestExplanable models for time series with random forest
Explanable models for time series with random forest
 
Présentation du projet ASTERICS
Présentation du projet ASTERICSPrésentation du projet ASTERICS
Présentation du projet ASTERICS
 

Discrimination de courbes par SVM

  • 1. SVM & FDA Toulouse, 7 avril 2006 Nathalie V Analyse des données fonctionnelles Principe des SVM Noyaux pour FDA Approche par projection Approche par splines d’interpolation Approche par régression inverse Discrimination de courbes par SVM Nathalie Villa-Vialaneix Équipe GRIMM, Université Toulouse Le Mirail villa@univ-tlse2.fr GREMAQ, 7 avril 2006
  • 2. SVM & FDA Toulouse, 7 avril 2006 Nathalie V Analyse des données fonctionnelles Principe des SVM Noyaux pour FDA Approche par projection Approche par splines d’interpolation Approche par régression inverse Thématiques de recherche développées NN pour FDA (approche par régression inverse)
  • 3. SVM & FDA Toulouse, 7 avril 2006 Nathalie V Analyse des données fonctionnelles Principe des SVM Noyaux pour FDA Approche par projection Approche par splines d’interpolation Approche par régression inverse Thématiques de recherche développées NN pour FDA SVM pour FDA (approche par régression inverse) (approches proj., spline, FIR. . . )
  • 4. SVM & FDA Toulouse, 7 avril 2006 Nathalie V Analyse des données fonctionnelles Principe des SVM Noyaux pour FDA Approche par projection Approche par splines d’interpolation Approche par régression inverse Thématiques de recherche développées NN pour FDA SVM pour FDA (approche par régression inverse) (approches proj., spline, FIR. . . ) Projets GEODE
  • 5. SVM & FDA Toulouse, 7 avril 2006 Nathalie V Analyse des données fonctionnelles Principe des SVM Noyaux pour FDA Approche par projection Approche par splines d’interpolation Approche par régression inverse Thématiques de recherche développées NN pour FDA SVM pour FDA (approche par régression inverse) (approches proj., spline, FIR. . . ) Projets GEODE ENAC
  • 6. SVM & FDA Toulouse, 7 avril 2006 Nathalie V Analyse des données fonctionnelles Principe des SVM Noyaux pour FDA Approche par projection Approche par splines d’interpolation Approche par régression inverse Thématiques de recherche développées NN pour FDA SVM pour FDA (approche par régression inverse) (approches proj., spline, FIR. . . ) Projets GEODE ENAC FRAMESPA
  • 7. SVM & FDA Toulouse, 7 avril 2006 Nathalie V Analyse des données fonctionnelles Principe des SVM Noyaux pour FDA Approche par projection Approche par splines d’interpolation Approche par régression inverse Thématiques de recherche développées NN pour FDA SVM pour FDA (approche par régression inverse) (approches proj., spline, FIR. . . ) Projets GEODE ENAC FRAMESPA
  • 8. SVM & FDA Toulouse, 7 avril 2006 Nathalie V Analyse des données fonctionnelles Principe des SVM Noyaux pour FDA Approche par projection Approche par splines d’interpolation Approche par régression inverse Sommaire 1 Analyse des données fonctionnelles 2 Principe des SVM 3 Noyaux pour FDA Approche par projection Approche par splines d’interpolation Approche par régression inverse
  • 9. SVM & FDA Toulouse, 7 avril 2006 Nathalie V Analyse des données fonctionnelles Principe des SVM Noyaux pour FDA Approche par projection Approche par splines d’interpolation Approche par régression inverse Sommaire 1 Analyse des données fonctionnelles 2 Principe des SVM 3 Noyaux pour FDA Approche par projection Approche par splines d’interpolation Approche par régression inverse
  • 10. SVM & FDA Toulouse, 7 avril 2006 Nathalie V Analyse des données fonctionnelles Principe des SVM Noyaux pour FDA Approche par projection Approche par splines d’interpolation Approche par régression inverse Les données fonctionnelles : Définition Données classiques : chaque observation est un vecteur de RD ;
  • 11. SVM & FDA Toulouse, 7 avril 2006 Nathalie V Analyse des données fonctionnelles Principe des SVM Noyaux pour FDA Approche par projection Approche par splines d’interpolation Approche par régression inverse Les données fonctionnelles : Définition Données classiques : chaque observation est un vecteur de RD ; Données fonctionnelles : chaque observation est une fonction d’un espace de dimension infinie (L2 τ , par exemple ; espace de Hilbert, en général).
  • 12. SVM & FDA Toulouse, 7 avril 2006 Nathalie V Analyse des données fonctionnelles Principe des SVM Noyaux pour FDA Approche par projection Approche par splines d’interpolation Approche par régression inverse Exemples Représentation temporelle (reconnaissance vocale 1 ) 0 2000 4000 6000 8000 −1.0−0.50.00.51.0 Temps (ms) Frequences Boat Goat But : Reconnaître le mot. . . 1 Données disponibles sur http ://www.math.univ-montp2.fr/˜biau/bbwdata.tgz
  • 13. SVM & FDA Toulouse, 7 avril 2006 Nathalie V Analyse des données fonctionnelles Principe des SVM Noyaux pour FDA Approche par projection Approche par splines d’interpolation Approche par régression inverse Exemples Courbe de réponse (chimiométrie 1 ) 0 20 40 60 80 100 2345 Longueur d’onde Absorbance But : Déterminer le taux de graisse. . . 1 Tecator database disponible sur http ://lib.stat.cmu.edu/datasets/tecator
  • 14. SVM & FDA Toulouse, 7 avril 2006 Nathalie V Analyse des données fonctionnelles Principe des SVM Noyaux pour FDA Approche par projection Approche par splines d’interpolation Approche par régression inverse Exemple de problèmes en FDA (1) Problèmes d’inversion d’opérateurs ΓX = E(X ⊗ X) − E(X) ⊗ E(X) est de Hilbert-Schmidt ⇒ Γ−1 X est non borné (ce n’est pas un opérateur continu de L2 τ ) ! !
  • 15. SVM & FDA Toulouse, 7 avril 2006 Nathalie V Analyse des données fonctionnelles Principe des SVM Noyaux pour FDA Approche par projection Approche par splines d’interpolation Approche par régression inverse Exemple de problèmes en FDA (1) Problèmes d’inversion d’opérateurs ΓX = E(X ⊗ X) − E(X) ⊗ E(X) est de Hilbert-Schmidt ⇒ Γ−1 X est non borné (ce n’est pas un opérateur continu de L2 τ ) ! ! Conséquence au niveau de l’estimation Γn X = 1 n n i=1 xi ⊗ xi − X ⊗ X est mal conditionné ⇒ nécessité de pénalisation ou de régularisation.
  • 16. SVM & FDA Toulouse, 7 avril 2006 Nathalie V Analyse des données fonctionnelles Principe des SVM Noyaux pour FDA Approche par projection Approche par splines d’interpolation Approche par régression inverse Les données fonctionnelles en pratique Soit X une variable aléatoire fonctionnelle, on ne connaît jamais complètement les observations (xi)i=1,...,n de X !
  • 17. SVM & FDA Toulouse, 7 avril 2006 Nathalie V Analyse des données fonctionnelles Principe des SVM Noyaux pour FDA Approche par projection Approche par splines d’interpolation Approche par régression inverse Les données fonctionnelles en pratique Soit X une variable aléatoire fonctionnelle, on ne connaît jamais complètement les observations (xi)i=1,...,n de X ! on dispose de xi(ti 1 ), . . . , xi(ti D ) ; dans le pire cas, le nombre et la place des points de discrétisation dépendent de l’observation.
  • 18. SVM & FDA Toulouse, 7 avril 2006 Nathalie V Analyse des données fonctionnelles Principe des SVM Noyaux pour FDA Approche par projection Approche par splines d’interpolation Approche par régression inverse Exemple de problèmes en FDA (2) D’un point de vue pratique... représenter les fonctions observées et les fonctions paramètres ;
  • 19. SVM & FDA Toulouse, 7 avril 2006 Nathalie V Analyse des données fonctionnelles Principe des SVM Noyaux pour FDA Approche par projection Approche par splines d’interpolation Approche par régression inverse Exemple de problèmes en FDA (2) D’un point de vue pratique... représenter les fonctions observées et les fonctions paramètres ; n < D, les observations pour un même individu sont fortement corrélées (fonction sous-jacente) ⇒ problèmes mal posés, méthodes usuelles souvent inapplicables directement.
  • 20. SVM & FDA Toulouse, 7 avril 2006 Nathalie V Analyse des données fonctionnelles Principe des SVM Noyaux pour FDA Approche par projection Approche par splines d’interpolation Approche par régression inverse Sommaire 1 Analyse des données fonctionnelles 2 Principe des SVM 3 Noyaux pour FDA Approche par projection Approche par splines d’interpolation Approche par régression inverse
  • 21. SVM & FDA Toulouse, 7 avril 2006 Nathalie V Analyse des données fonctionnelles Principe des SVM Noyaux pour FDA Approche par projection Approche par splines d’interpolation Approche par régression inverse Rappel sur le principe SVM Le problème Soit X ∈ H et Y ∈ {−1; 1}. On cherche à déterminer la valeur de Y connaissant la variable X.
  • 22. SVM & FDA Toulouse, 7 avril 2006 Nathalie V Analyse des données fonctionnelles Principe des SVM Noyaux pour FDA Approche par projection Approche par splines d’interpolation Approche par régression inverse Rappel sur le principe SVM Le problème Soit X ∈ H et Y ∈ {−1; 1}. On cherche à déterminer la valeur de Y connaissant la variable X. Les données On dispose de n réalisations indépendantes de (X, Y) : (x1, y1), . . . , (xn, yn).
  • 23. SVM & FDA Toulouse, 7 avril 2006 Nathalie V Analyse des données fonctionnelles Principe des SVM Noyaux pour FDA Approche par projection Approche par splines d’interpolation Approche par régression inverse Discrimination linéaire à marge optimale
  • 24. SVM & FDA Toulouse, 7 avril 2006 Nathalie V Analyse des données fonctionnelles Principe des SVM Noyaux pour FDA Approche par projection Approche par splines d’interpolation Approche par régression inverse Discrimination linéaire à marge optimale
  • 25. SVM & FDA Toulouse, 7 avril 2006 Nathalie V Analyse des données fonctionnelles Principe des SVM Noyaux pour FDA Approche par projection Approche par splines d’interpolation Approche par régression inverse Discrimination linéaire à marge optimale w marge : 1 w 2 Vecteur Support
  • 26. SVM & FDA Toulouse, 7 avril 2006 Nathalie V Analyse des données fonctionnelles Principe des SVM Noyaux pour FDA Approche par projection Approche par splines d’interpolation Approche par régression inverse Discrimination linéaire à marge optimale w marge : 1 w 2 Vecteur Support On cherche w tel que : minw,b w, w , sous les contraintes : yi( w, xi + b) ≥ 1, 1 ≤ i ≤ n.
  • 27. SVM & FDA Toulouse, 7 avril 2006 Nathalie V Analyse des données fonctionnelles Principe des SVM Noyaux pour FDA Approche par projection Approche par splines d’interpolation Approche par régression inverse Discrimination linéaire à marge souple
  • 28. SVM & FDA Toulouse, 7 avril 2006 Nathalie V Analyse des données fonctionnelles Principe des SVM Noyaux pour FDA Approche par projection Approche par splines d’interpolation Approche par régression inverse Discrimination linéaire à marge souple
  • 29. SVM & FDA Toulouse, 7 avril 2006 Nathalie V Analyse des données fonctionnelles Principe des SVM Noyaux pour FDA Approche par projection Approche par splines d’interpolation Approche par régression inverse Discrimination linéaire à marge souple w marge : 1 w 2 Vecteur Support
  • 30. SVM & FDA Toulouse, 7 avril 2006 Nathalie V Analyse des données fonctionnelles Principe des SVM Noyaux pour FDA Approche par projection Approche par splines d’interpolation Approche par régression inverse Discrimination linéaire à marge souple w marge : 1 w 2 Vecteur Support On cherche w tel que : minw,b,ξ w, w + C n i=1 ξi, sous les contraintes : yi( w, xi + b) ≥ 1 − ξi, 1 ≤ i ≤ n, ξi ≥ 0, 1 ≤ i ≤ n.
  • 31. SVM & FDA Toulouse, 7 avril 2006 Nathalie V Analyse des données fonctionnelles Principe des SVM Noyaux pour FDA Approche par projection Approche par splines d’interpolation Approche par régression inverse Envoyer les données dans un espace de grande dimension Espace initial H
  • 32. SVM & FDA Toulouse, 7 avril 2006 Nathalie V Analyse des données fonctionnelles Principe des SVM Noyaux pour FDA Approche par projection Approche par splines d’interpolation Approche par régression inverse Envoyer les données dans un espace de grande dimension Espace initial H Espace image X Φ (non linéaire)
  • 33. SVM & FDA Toulouse, 7 avril 2006 Nathalie V Analyse des données fonctionnelles Principe des SVM Noyaux pour FDA Approche par projection Approche par splines d’interpolation Approche par régression inverse Envoyer les données dans un espace de grande dimension Espace initial H Espace image X Φ (non linéaire)
  • 34. SVM & FDA Toulouse, 7 avril 2006 Nathalie V Analyse des données fonctionnelles Principe des SVM Noyaux pour FDA Approche par projection Approche par splines d’interpolation Approche par régression inverse Envoyer les données dans un espace de grande dimension Espace initial H Espace image X Φ (non linéaire) On cherche w tel que : (PC,X) minw,b,ξ w, w + C n i=1 ξi, sous les contraintes : yi( w, Φ(xi) + b) ≥ 1 − ξi, 1 ≤ i ≤ n, ξi ≥ 0, 1 ≤ i ≤ n.
  • 35. SVM & FDA Toulouse, 7 avril 2006 Nathalie V Analyse des données fonctionnelles Principe des SVM Noyaux pour FDA Approche par projection Approche par splines d’interpolation Approche par régression inverse Intérêt du non linéaire Formulation régularisation : (PC,X) ⇔ (Rλ,X) min f∈X 1 n n i=1 max(0, 1 − yif(xi)) + λ f, f X.
  • 36. SVM & FDA Toulouse, 7 avril 2006 Nathalie V Analyse des données fonctionnelles Principe des SVM Noyaux pour FDA Approche par projection Approche par splines d’interpolation Approche par régression inverse Intérêt du non linéaire Formulation régularisation : (PC,X) ⇔ (Rλ,X) min f∈X 1 n n i=1 max(0, 1 − yif(xi)) + λ f, f X. Formulation duale : (PC,X) ⇔ (DC,X) maxα n i=1 αi − n i=1 n j=1 αiαjyiyj Φ(xi), Φ(xj) X, avec N i=1 αiyi = 0, 0 ≤ αi ≤ C, 1 ≤ i ≤ n.
  • 37. SVM & FDA Toulouse, 7 avril 2006 Nathalie V Analyse des données fonctionnelles Principe des SVM Noyaux pour FDA Approche par projection Approche par splines d’interpolation Approche par régression inverse Intérêt du non linéaire Formulation régularisation : (PC,X) ⇔ (Rλ,X) min f∈X 1 n n i=1 max(0, 1 − yif(xi)) + λ f, f X. Formulation duale : (PC,X) ⇔ (DC,X) maxα n i=1 αi − n i=1 n j=1 αiαjyiyj Φ(xi), Φ(xj) X, avec N i=1 αiyi = 0, 0 ≤ αi ≤ C, 1 ≤ i ≤ n. Produit scalaire dans X : ∀ u, v ∈ X, K(u, v) = Φ(u), Φ(v) X
  • 38. SVM & FDA Toulouse, 7 avril 2006 Nathalie V Analyse des données fonctionnelles Principe des SVM Noyaux pour FDA Approche par projection Approche par splines d’interpolation Approche par régression inverse Sommaire 1 Analyse des données fonctionnelles 2 Principe des SVM 3 Noyaux pour FDA Approche par projection Approche par splines d’interpolation Approche par régression inverse
  • 39. SVM & FDA Toulouse, 7 avril 2006 Nathalie V Analyse des données fonctionnelles Principe des SVM Noyaux pour FDA Approche par projection Approche par splines d’interpolation Approche par régression inverse Présentation des travaux En collaboration avec Fabrice Rossi Support vector machine for functional data classification (2005), paru dans ESANN proceedings ; Classification in Hilbert spaces with support vector machines (2005), paru dans ASMDA proceedings ; Support vector machine for functional data classification (2006), paru dans Neurocomputing ; SVM fonctionnels par interpolation spline (2006), à paraître dans Actes du congrès de la SFdS (Journées de Statistique).
  • 40. SVM & FDA Toulouse, 7 avril 2006 Nathalie V Analyse des données fonctionnelles Principe des SVM Noyaux pour FDA Approche par projection Approche par splines d’interpolation Approche par régression inverse Noyaux pour FDA Forme générale Prétraitement : P : H → D ∀ u, v ∈ H, Q(u, v) = K(P(u), P(v)).
  • 41. SVM & FDA Toulouse, 7 avril 2006 Nathalie V Analyse des données fonctionnelles Principe des SVM Noyaux pour FDA Approche par projection Approche par splines d’interpolation Approche par régression inverse Noyaux pour FDA Forme générale Prétraitement : P : H → D ∀ u, v ∈ H, Q(u, v) = K(P(u), P(v)). 1 Projections : pour VD = Vect{ψ1, . . . , ψD}, P(x) = D j=1 x, ψj ψj.
  • 42. SVM & FDA Toulouse, 7 avril 2006 Nathalie V Analyse des données fonctionnelles Principe des SVM Noyaux pour FDA Approche par projection Approche par splines d’interpolation Approche par régression inverse Noyaux pour FDA Forme générale Prétraitement : P : H → D ∀ u, v ∈ H, Q(u, v) = K(P(u), P(v)). 1 Projections : pour VD = Vect{ψ1, . . . , ψD}, P(x) = D j=1 x, ψj ψj. 2 Transformations fonctionnelles : P(x) = Dq x,. . .
  • 43. SVM & FDA Toulouse, 7 avril 2006 Nathalie V Analyse des données fonctionnelles Principe des SVM Noyaux pour FDA Approche par projection Approche par splines d’interpolation Approche par régression inverse Noyaux pour FDA Forme générale Prétraitement : P : H → D ∀ u, v ∈ H, Q(u, v) = K(P(u), P(v)). 1 Projections : pour VD = Vect{ψ1, . . . , ψD}, P(x) = D j=1 x, ψj ψj. 2 Transformations fonctionnelles : P(x) = Dq x,. . . 3 FIR. . .
  • 44. SVM & FDA Toulouse, 7 avril 2006 Nathalie V Analyse des données fonctionnelles Principe des SVM Noyaux pour FDA Approche par projection Approche par splines d’interpolation Approche par régression inverse Sommaire 1 Analyse des données fonctionnelles 2 Principe des SVM 3 Noyaux pour FDA Approche par projection Approche par splines d’interpolation Approche par régression inverse
  • 45. SVM & FDA Toulouse, 7 avril 2006 Nathalie V Analyse des données fonctionnelles Principe des SVM Noyaux pour FDA Approche par projection Approche par splines d’interpolation Approche par régression inverse Une approche consistante Approche par projection 1 (ψj)j base Hilbertienne de H : projection sur (ψj)j=1,...,d ;
  • 46. SVM & FDA Toulouse, 7 avril 2006 Nathalie V Analyse des données fonctionnelles Principe des SVM Noyaux pour FDA Approche par projection Approche par splines d’interpolation Approche par régression inverse Une approche consistante Approche par projection 1 (ψj)j base Hilbertienne de H : projection sur (ψj)j=1,...,d ; 2 Choix des paramètres : a ≡ d ∈ N, K ∈ Jd, C ∈ [0; Cd]
  • 47. SVM & FDA Toulouse, 7 avril 2006 Nathalie V Analyse des données fonctionnelles Principe des SVM Noyaux pour FDA Approche par projection Approche par splines d’interpolation Approche par régression inverse Une approche consistante Approche par projection 1 (ψj)j base Hilbertienne de H : projection sur (ψj)j=1,...,d ; 2 Choix des paramètres : a ≡ d ∈ N, K ∈ Jd, C ∈ [0; Cd] partage des données : B1 = (x1, y1), . . . , (xl, yl) et B2 = (xl+1, yl+1), . . . , (xn, yn) ;
  • 48. SVM & FDA Toulouse, 7 avril 2006 Nathalie V Analyse des données fonctionnelles Principe des SVM Noyaux pour FDA Approche par projection Approche par splines d’interpolation Approche par régression inverse Une approche consistante Approche par projection 1 (ψj)j base Hilbertienne de H : projection sur (ψj)j=1,...,d ; 2 Choix des paramètres : a ≡ d ∈ N, K ∈ Jd, C ∈ [0; Cd] partage des données : B1 = (x1, y1), . . . , (xl, yl) et B2 = (xl+1, yl+1), . . . , (xn, yn) ; construction du SVM sur B1 : fa ;
  • 49. SVM & FDA Toulouse, 7 avril 2006 Nathalie V Analyse des données fonctionnelles Principe des SVM Noyaux pour FDA Approche par projection Approche par splines d’interpolation Approche par régression inverse Une approche consistante Approche par projection 1 (ψj)j base Hilbertienne de H : projection sur (ψj)j=1,...,d ; 2 Choix des paramètres : a ≡ d ∈ N, K ∈ Jd, C ∈ [0; Cd] partage des données : B1 = (x1, y1), . . . , (xl, yl) et B2 = (xl+1, yl+1), . . . , (xn, yn) ; construction du SVM sur B1 : fa ; choix du paramètre optimal sur B2 : a∗ = argminaLn−lfa + λd √ n − l avec Ln−lfa = 1 n−l n i=l+1 I{fa (xi ) yi }.
  • 50. SVM & FDA Toulouse, 7 avril 2006 Nathalie V Analyse des données fonctionnelles Principe des SVM Noyaux pour FDA Approche par projection Approche par splines d’interpolation Approche par régression inverse Une approche consistante Approche par projection 1 (ψj)j base Hilbertienne de H : projection sur (ψj)j=1,...,d ; 2 Choix des paramètres : a ≡ d ∈ N, K ∈ Jd, C ∈ [0; Cd] partage des données : B1 = (x1, y1), . . . , (xl, yl) et B2 = (xl+1, yl+1), . . . , (xn, yn) ; construction du SVM sur B1 : fa ; choix du paramètre optimal sur B2 : a∗ = argminaLn−lfa + λd √ n − l avec Ln−lfa = 1 n−l n i=l+1 I{fa (xi ) yi }. ⇒ On obtient un SVM fn.
  • 51. SVM & FDA Toulouse, 7 avril 2006 Nathalie V Analyse des données fonctionnelles Principe des SVM Noyaux pour FDA Approche par projection Approche par splines d’interpolation Approche par régression inverse Hypothèses Hypothèses sur la distribution de X (H1) X prend ses valeurs dans un borné de H.
  • 52. SVM & FDA Toulouse, 7 avril 2006 Nathalie V Analyse des données fonctionnelles Principe des SVM Noyaux pour FDA Approche par projection Approche par splines d’interpolation Approche par régression inverse Hypothèses Hypothèses sur la distribution de X (H1) X prend ses valeurs dans un borné de H. Hypothèses sur les paramètres : ∀ d ≥ 1, (H2) Jd est un ensemble fini ; (H3) ∃Kd ∈ Jd tel que : Kd est universel et ∃νd > 0 : N(Kd, ) = O( −νd ) ; (H4) Cd > 1 ; (H5) d≥1 |Jd|e−2λ2 d < +∞.
  • 53. SVM & FDA Toulouse, 7 avril 2006 Nathalie V Analyse des données fonctionnelles Principe des SVM Noyaux pour FDA Approche par projection Approche par splines d’interpolation Approche par régression inverse Hypothèses Hypothèses sur la distribution de X (H1) X prend ses valeurs dans un borné de H. Hypothèses sur les paramètres : ∀ d ≥ 1, (H2) Jd est un ensemble fini ; (H3) ∃Kd ∈ Jd tel que : Kd est universel et ∃νd > 0 : N(Kd, ) = O( −νd ) ; (H4) Cd > 1 ; (H5) d≥1 |Jd|e−2λ2 d < +∞. Hypothèses sur la validation (H6) limn→+∞ l = +∞ ; (H7) limn→+∞ n − l = +∞ ; (H8) limn→+∞ l log(n−l) n−l = 0.
  • 54. SVM & FDA Toulouse, 7 avril 2006 Nathalie V Analyse des données fonctionnelles Principe des SVM Noyaux pour FDA Approche par projection Approche par splines d’interpolation Approche par régression inverse Convergence par procédure de validation Théorème 1 Consistance universelle Sous les hypothèses (H1)-(H8), fn est consistant : Lfn n→+∞ −−−−−→ L∗ , où Lfn = P(fn(X) Y) et L∗ = P(f∗ (X) Y) avec f∗ (x) = 1 si P(Y = 1|X = x) > 1/2, −1 sinon.
  • 55. SVM & FDA Toulouse, 7 avril 2006 Nathalie V Analyse des données fonctionnelles Principe des SVM Noyaux pour FDA Approche par projection Approche par splines d’interpolation Approche par régression inverse Application : reconnaissance vocale Description des données et méthodes 3 problèmes et pour chaque problème, 100 enregistrements discrétisés en 8 192 points ;
  • 56. SVM & FDA Toulouse, 7 avril 2006 Nathalie V Analyse des données fonctionnelles Principe des SVM Noyaux pour FDA Approche par projection Approche par splines d’interpolation Approche par régression inverse Application : reconnaissance vocale Description des données et méthodes 3 problèmes et pour chaque problème, 100 enregistrements discrétisés en 8 192 points ; Mise en œuvre de la procédure consistante : Projection sur une base trigonométrique ; Partage de la base de données en 50 spectres (apprentissage) / 49 (validation) ; Performances déterminées par leave-one-out.
  • 57. SVM & FDA Toulouse, 7 avril 2006 Nathalie V Analyse des données fonctionnelles Principe des SVM Noyaux pour FDA Approche par projection Approche par splines d’interpolation Approche par régression inverse Application : reconnaissance vocale Description des données et méthodes 3 problèmes et pour chaque problème, 100 enregistrements discrétisés en 8 192 points ; Mise en œuvre de la procédure consistante : Projection sur une base trigonométrique ; Partage de la base de données en 50 spectres (apprentissage) / 49 (validation) ; Performances déterminées par leave-one-out. Résultats Prob. k-nn QDA SVM gau. SVM lin. SVM lin. (proj) (proj) (direct) yes/no 10% 7% 10% 19% 58% boat/goat 21% 35% 8% 29% 46% sh/ao 16% 19% 12% 25% 47%
  • 58. SVM & FDA Toulouse, 7 avril 2006 Nathalie V Analyse des données fonctionnelles Principe des SVM Noyaux pour FDA Approche par projection Approche par splines d’interpolation Approche par régression inverse Application : Tecator data Set Description des données et méthodes 215 spectres discrétisés en 100 points ; 2 classes : taux de graisse >20% et <20%.
  • 59. SVM & FDA Toulouse, 7 avril 2006 Nathalie V Analyse des données fonctionnelles Principe des SVM Noyaux pour FDA Approche par projection Approche par splines d’interpolation Approche par régression inverse Application : Tecator data Set Description des données et méthodes 215 spectres discrétisés en 100 points ; 2 classes : taux de graisse >20% et <20%. Procédure : Projection sur une base de splines cubiques (déterminée par leave-one-out) ; Partage aléatoire de la base de données en 60 spectres (apprentissage) / 60 spectres (validation) ; Performances déterminées sur un échantillon de test aléatoire de 95 spectres.
  • 60. SVM & FDA Toulouse, 7 avril 2006 Nathalie V Analyse des données fonctionnelles Principe des SVM Noyaux pour FDA Approche par projection Approche par splines d’interpolation Approche par régression inverse Application : Tecator data Set Description des données et méthodes 215 spectres discrétisés en 100 points ; 2 classes : taux de graisse >20% et <20%. Procédure : Projection sur une base de splines cubiques (déterminée par leave-one-out) ; Partage aléatoire de la base de données en 60 spectres (apprentissage) / 60 spectres (validation) ; Performances déterminées sur un échantillon de test aléatoire de 95 spectres. Résultats (Moyenne pour 250 répétitions) Noyau Erreur moyenne (test) Linéaire 3.38% Linéaire sur D2 X 3.28% Gaussien 7.5% Gaussien sur D2 X 2.6%
  • 61. SVM & FDA Toulouse, 7 avril 2006 Nathalie V Analyse des données fonctionnelles Principe des SVM Noyaux pour FDA Approche par projection Approche par splines d’interpolation Approche par régression inverse Sommaire 1 Analyse des données fonctionnelles 2 Principe des SVM 3 Noyaux pour FDA Approche par projection Approche par splines d’interpolation Approche par régression inverse
  • 62. SVM & FDA Toulouse, 7 avril 2006 Nathalie V Analyse des données fonctionnelles Principe des SVM Noyaux pour FDA Approche par projection Approche par splines d’interpolation Approche par régression inverse Approche directe pour SVM sur dérivées Hypothèse de régularité On suppose que X est régulière : X ∈ Hm = {x : [0; 1] → R : Dm x existe et Dm x ∈ L2 }.
  • 63. SVM & FDA Toulouse, 7 avril 2006 Nathalie V Analyse des données fonctionnelles Principe des SVM Noyaux pour FDA Approche par projection Approche par splines d’interpolation Approche par régression inverse Approche directe pour SVM sur dérivées Hypothèse de régularité On suppose que X est régulière : X ∈ Hm = {x : [0; 1] → R : Dm x existe et Dm x ∈ L2 }. Principe de l’interpolation L-spline on interpole exactement les observations x1, . . . , xn aux points de discrétisation t1, . . . , td ; on minimise une pénalité de régularisation définie par un opérateur différentiel : L = Dm + m−1 j=1 ajDj .
  • 64. SVM & FDA Toulouse, 7 avril 2006 Nathalie V Analyse des données fonctionnelles Principe des SVM Noyaux pour FDA Approche par projection Approche par splines d’interpolation Approche par régression inverse Décomposition de l’espace de Sobolev Hm = H0 + H1 avec H0 = KerL ; H1 est défini par m contraintes aux bornes : RKHS de produit scalaire h1, h2 = [0,1] Lh1(t)Lh2(t)dt et de noyau K.
  • 65. SVM & FDA Toulouse, 7 avril 2006 Nathalie V Analyse des données fonctionnelles Principe des SVM Noyaux pour FDA Approche par projection Approche par splines d’interpolation Approche par régression inverse Décomposition de l’espace de Sobolev Hm = H0 + H1 avec H0 = KerL ; H1 est défini par m contraintes aux bornes : RKHS de produit scalaire h1, h2 = [0,1] Lh1(t)Lh2(t)dt et de noyau K. Exemples : H1 avec L = I + D et x(0) = 0 (Lx = 0 ⇒ x = ae−t et x(0) = a) ; H2 avec L = I + D2 et x(0) = Dx(0) = 0 ; Hm (m ≥ 1) avec L = Dm et Dj x(0) = 0, ∀ j = 1, . . . , m ;
  • 66. SVM & FDA Toulouse, 7 avril 2006 Nathalie V Analyse des données fonctionnelles Principe des SVM Noyaux pour FDA Approche par projection Approche par splines d’interpolation Approche par régression inverse Détermination de la spline d’interpolation On suppose Kd = (K(ti, tj))i,j=1,...,d inversible. Spline d’interpolation Soit x ∈ H1 alors h = PVect{K(tk ,.), k=1,...,d}(x).
  • 67. SVM & FDA Toulouse, 7 avril 2006 Nathalie V Analyse des données fonctionnelles Principe des SVM Noyaux pour FDA Approche par projection Approche par splines d’interpolation Approche par régression inverse Détermination de la spline d’interpolation On suppose Kd = (K(ti, tj))i,j=1,...,d inversible. Spline d’interpolation Soit x ∈ H1 alors h = PVect{K(tk ,.), k=1,...,d}(x). Produit scalaire entre splines Si x1, x2 ∈ H1, h1, h2 H1 = x1, x2 (Rd ,K−1/2). où xi = (xi(t1), . . . , xi(td)).
  • 68. SVM & FDA Toulouse, 7 avril 2006 Nathalie V Analyse des données fonctionnelles Principe des SVM Noyaux pour FDA Approche par projection Approche par splines d’interpolation Approche par régression inverse Application aux SVM On note Gd γ (u, v) = e −γ u−v 2 Rd et G∞ γ (u, v) = e −γ u−v 2 L2 ; Kd = (K(ti, tj))i,j=1,...,d, supposée inversible ; ∀ i = 1, . . . , n, hi est la spline d’interpolation de xi (supposée à valeurs dans H1) ; xi = (xi(t1), . . . , xi(td)).
  • 69. SVM & FDA Toulouse, 7 avril 2006 Nathalie V Analyse des données fonctionnelles Principe des SVM Noyaux pour FDA Approche par projection Approche par splines d’interpolation Approche par régression inverse Application aux SVM On note Gd γ (u, v) = e −γ u−v 2 Rd et G∞ γ (u, v) = e −γ u−v 2 L2 ; Kd = (K(ti, tj))i,j=1,...,d, supposée inversible ; ∀ i = 1, . . . , n, hi est la spline d’interpolation de xi (supposée à valeurs dans H1) ; xi = (xi(t1), . . . , xi(td)). Théorème 2 SVM sur dérivées SVM sur (Lhi)i avec noyau G∞ γ −→ φn,d h ⇔ SVM sur (xi)i avec noyau Gd γ ◦ K−1/2 −→ φn,d x
  • 70. SVM & FDA Toulouse, 7 avril 2006 Nathalie V Analyse des données fonctionnelles Principe des SVM Noyaux pour FDA Approche par projection Approche par splines d’interpolation Approche par régression inverse Hypothèses pour la consistance Hypothèses (H1) : X est une variable aléatoire bornée à valeurs dans H1 ; (H2) : (τd)d est une suite de points de discrétisation dans [0, 1] telle que, pour tout d ≥ 1, τd = {tk }k=1,...,d, la matrice Kd est définie positive et Span{K(t, .), t ∈ ∪d≥1τd} est dense dans H1 ; (H3) : (Cd n )n est une suite de régularisation telle que Cd n = O(n1−βd ) pour 0 < βd < 1/d.
  • 71. SVM & FDA Toulouse, 7 avril 2006 Nathalie V Analyse des données fonctionnelles Principe des SVM Noyaux pour FDA Approche par projection Approche par splines d’interpolation Approche par régression inverse Consistance Théorème 3 Consistance universelle Sous les hypothèse (H1)-(H3), le SVM φn,d h , avec la suite de régularisation (Cd n )n, est universellement consistant : lim n→+∞ lim d→+∞ Lfn,d = L∗ où L∗ est l’erreur de Bayes et Lφ = P(φ(X) Y) est l’erreur de φ.
  • 72. SVM & FDA Toulouse, 7 avril 2006 Nathalie V Analyse des données fonctionnelles Principe des SVM Noyaux pour FDA Approche par projection Approche par splines d’interpolation Approche par régression inverse Limites et perspectives Limites Lorsque d est grand, interpolation = sur-adéquation aux observations et Kd est mal conditionnée.
  • 73. SVM & FDA Toulouse, 7 avril 2006 Nathalie V Analyse des données fonctionnelles Principe des SVM Noyaux pour FDA Approche par projection Approche par splines d’interpolation Approche par régression inverse Limites et perspectives Limites Lorsque d est grand, interpolation = sur-adéquation aux observations et Kd est mal conditionnée. Perspectives spline de lissage sans condition aux bornes (contrôler l’erreur commise par E(Y|SLd (X)) au lieu de E(Y|X)) ;
  • 74. SVM & FDA Toulouse, 7 avril 2006 Nathalie V Analyse des données fonctionnelles Principe des SVM Noyaux pour FDA Approche par projection Approche par splines d’interpolation Approche par régression inverse Limites et perspectives Limites Lorsque d est grand, interpolation = sur-adéquation aux observations et Kd est mal conditionnée. Perspectives spline de lissage sans condition aux bornes (contrôler l’erreur commise par E(Y|SLd (X)) au lieu de E(Y|X)) ; application sur des données réelles : 0 200 400 600 800 1000 0.40.60.81.0 Temps Fréquence 0.67 52.33 4.33 16.67 27.67 33.25 11.25 27 4.33 0.33 17.33 18 79.67 85 17.33 5.33 60.5 0.67 15.33
  • 75. SVM & FDA Toulouse, 7 avril 2006 Nathalie V Analyse des données fonctionnelles Principe des SVM Noyaux pour FDA Approche par projection Approche par splines d’interpolation Approche par régression inverse Sommaire 1 Analyse des données fonctionnelles 2 Principe des SVM 3 Noyaux pour FDA Approche par projection Approche par splines d’interpolation Approche par régression inverse
  • 76. SVM & FDA Toulouse, 7 avril 2006 Nathalie V Analyse des données fonctionnelles Principe des SVM Noyaux pour FDA Approche par projection Approche par splines d’interpolation Approche par régression inverse Régression inverse fonctionnelle Modèle Y = f( a1, X . . . aq, X , ), où X, E( ) = 0, f inconnue, {a1, . . . , aq} linéairement independants. EDR = Vect{a1, . . . aq}
  • 77. SVM & FDA Toulouse, 7 avril 2006 Nathalie V Analyse des données fonctionnelles Principe des SVM Noyaux pour FDA Approche par projection Approche par splines d’interpolation Approche par régression inverse Régression inverse fonctionnelle Modèle Y = f( a1, X . . . aq, X , ), où X, E( ) = 0, f inconnue, {a1, . . . , aq} linéairement independants. EDR = Vect{a1, . . . aq} Caractérisation de l’espace EDR Si, pour A = ( X, a1 , . . . , X, aq ), Condition de Li ∀ u ∈ H, ∃v ∈ Rq : E( u, X |A) = vT A, alors E(X|Y) ∈ ΓX (EDR).
  • 78. SVM & FDA Toulouse, 7 avril 2006 Nathalie V Analyse des données fonctionnelles Principe des SVM Noyaux pour FDA Approche par projection Approche par splines d’interpolation Approche par régression inverse Régression inverse fonctionnelle Modèle Y = f( a1, X . . . aq, X , ), où X, E( ) = 0, f inconnue, {a1, . . . , aq} linéairement independants. EDR = Vect{a1, . . . aq} Caractérisation de l’espace EDR Si, pour A = ( X, a1 , . . . , X, aq ), Condition de Li ∀ u ∈ H, ∃v ∈ Rq : E( u, X |A) = vT A, alors E(X|Y) ∈ ΓX (EDR). ⇒ On choisit d’estimer a1, . . . , aq, vecteurs propres de Γ−1 X ΓE(X|Y).
  • 79. SVM & FDA Toulouse, 7 avril 2006 Nathalie V Analyse des données fonctionnelles Principe des SVM Noyaux pour FDA Approche par projection Approche par splines d’interpolation Approche par régression inverse SVM par FIR Estimation de EDR, EDR ;
  • 80. SVM & FDA Toulouse, 7 avril 2006 Nathalie V Analyse des données fonctionnelles Principe des SVM Noyaux pour FDA Approche par projection Approche par splines d’interpolation Approche par régression inverse SVM par FIR Estimation de EDR, EDR ; Estimation de f par SVM : SVM sur PEDR(X) ;
  • 81. SVM & FDA Toulouse, 7 avril 2006 Nathalie V Analyse des données fonctionnelles Principe des SVM Noyaux pour FDA Approche par projection Approche par splines d’interpolation Approche par régression inverse SVM par FIR Estimation de EDR, EDR ; Estimation de f par SVM : SVM sur PEDR(X) ; Résultat de consistance universelle pour ce SVM : il faut contrôler la différence entre E(Y|X) et E(Y|Tn,q(X)) où Tn,q(X) dépend des observations. . .
  • 82. SVM & FDA Toulouse, 7 avril 2006 Nathalie V Analyse des données fonctionnelles Principe des SVM Noyaux pour FDA Approche par projection Approche par splines d’interpolation Approche par régression inverse Simulations Données simulées Waveform 2 4 6 8 10 12 14 16 18 20 −4 −2 0 2 4 6 8 Classe 1 2 4 6 8 10 12 14 16 18 20 −4 −2 0 2 4 6 8 10 Classe 2 2 4 6 8 10 12 14 16 18 20 −4 −2 0 2 4 6 8 Classe 3 300 courbes (apprentissage) / 500 courbes (validation) ; erreur calculée sur un échantillon de 500 courbes ; 10 répétitions. Résultats FIR-SVM SVM R-PDA FIR-N Moyenne (test) 13,70 15,46 15,62 14,16 Ecart type (test) 2,25 3,04 2,05 2,01 Minimum (test) 10,20 12,20 12,60 12,00 Moyenne (apprentissage) 11,73 10,17 12,47 12,37