3. Contenu
1. Régression linéaire
2. Méthodes de lissage
i. Lisseur à bac
ii. Moyenne mobile
iii. Droite mobile
iv. Régression par noyau
v. Régression polynomiale locale
vi. Spline
3. Modèles additifs généralisés
4. Notation
X: La variable explicatrice. Dans le cas de variables
multiples, représente la matrice des variables
explicatrices.
Y: La variable réponse.
xi: La cible, pourrait être n’importe quelle valeur de
l’espace de X, par exemple une observation de X
s(xi): la valeur lissée de Y à la cible.
5. Régression linéaire
La régression linéaire établi un lien bien défini entre
deux variables.
Techniquement, la fonction est lisse, mais cela vient
de la contrainte de linéarité imposée.
Y =a + bX
11. La moyenne mobile
On défini le voisinage d’une valeur xi comme étant les N
points les plus proches de xi.
Version symétrique:
On prend les valeurs de X qui sont dans l’intervalle [i-k,i+k]
On obtient donc 2K+1 = N éléments
Aux extrémités, nous avons moins de points
Version non-symétrique
On prend l’intervalle symétrique lorsque possible
Aux extrémités, 2K+1 éléments, peu importe de leur position par
rapport à xi
12. La moyenne mobile
On prend la moyenne des Y appartenant au voisinage
défini
Une modification à cette procédure nous permet
d’obtenir la droite mobile
Au lieu de faire la moyenne des Y du voisinage, on ajuste
on modèle de régression dans ce voisinage et on prend
la valeur prédite.
s ( xi ) = a ( xi ) + b ( xi ) xi
ˆ ˆ
16. Régression par le noyau
Plutôt que de donné la même importance à tous les
points d’un voisinage, pourquoi ne pas favoriser les
points les plus proches et pénaliser les points éloignés ?
On défini le poids de chaque observation pour un xi
donné { l’aide d’une fonction de densité symétrique
(par exemple, la loi normale)
On calcule la moyenne pondérée { l’aide de ce noyau:
æ xi - x j ö
å d ç l ÷y j
j è ø
s ( xi ) =
æ x - xj ö
å è l ÷
dç i
ø
j
19. Régression polynomiale locale
Pour éviter les problème de l’estimateur noyau aux extrémités,
on pourrait abandonner la symétrie en faveur d’un voisinage
asymétrique
Ainsi, on détermine le voisinage des K plus proches voisins de xi
On calcule la distance au plus loin des proches-voisins D(xi)
On attribue aux observations le poids suivant
ì
ï æ æ 3 3
ö ö
ï ç1- ç xi - x j ÷ ÷ si xi - x j < D(xi )
W (x j ) = í ç ç D(xi ) ÷ ÷
ï è è ø ø
ï
î 0 autrement
22. Splines de régression
Simplifier le problème de régression en ajustant un
polynôme par partie.
On sépare l’espace des X en (K+1) groupes, la jonction
entre deux groupe ce nomme un nœud et nous avons
K nœuds internes.
Dans chaque groupe on ajuste un polynôme avec une
contrainte de continuité aux nœuds.
s(xi ) = bo + b1 xi + b x + b x + åq j ( xi - x j )+
2 3 3
2 i 3 i
j
23. Splines de régression
On peut écrire l’équation précédente { l’aide de K+4
polynômes de base:
K+4
s ( xi ) = å b j Pj
j=1
Les polynômes Pj forment la base des B-splines.
25. Splines de lissage
Au lieu de séparer l’espace des X en groupes, les
splines émergent naturellement du problème de
régression pénalisée suivant:
b
å{ y - f ( x )} + l ò { f ¢¢ ( t )} dt
2 2
i i
i a
Je vous épargne les détails mathématiques de
l’estimation
27. Qu’est-ce qu’une fonction « lisse » ?
La définition de lisse change selon le lisseur, mais
l’objectif général est toujours d’être moins variable
que les données brutes.
Certains lisseurs ne sont pas généralement lisses.
Le lisseur { bac est loin d’être lisse car il s’agit d’une
fonction discontinue. Mais il est moins variable que les
observations.
Les lisseurs à moyenne mobile et à droite mobile sont
continues, mais rien ne les empêche de changer
rapidement et donc d’avoir une une apparence ridée.
28. Trop, c’est comme pas assez
La difficulté est de lissée suffisamment, sans effacer
toutes les caractéristiques intéressantes de la relation
(surlissage)
Le choix du paramètre de lissage est donc critique
Sélection automatique { l’aide de la validation croisée
généralisée
37. Hypothèses
L’estimation des lisseurs ne requiert aucune
hypothèse sur la nature des données, outre qu’il
existe une forme fonctionnelle qui lie les deux
variable.
On pourrait vouloir comparer un lisseur à une droite
de régression, dans ce cas, on doit assumer que les
observations sont indépendantes et que les erreurs
sont distribuées normalement.
38. Et si on a plus d’une variable
explicatrice ?
Il existe des lisseurs de dimensions plus élevées du type
f(x1,x2), etc.
On peut généraliser le lisseur à bac, la moyenne mobile, la
droite mobile, en effectuant un maillage
On peut généraliser la régression par noyau en utilisant un
noyau multidimensionnel
On peut généraliser la régression polynomiale locale en
définissant une distance multidimensionnelle appropriée
Les splines se généralisent par ce qui est appelé « thin-plate
splines »
39. Et si on a plus d’une variable
explicatrice ?
Dans tous les cas on est confronté à la malédiction
des grands nombres
Il est donc peu pratique de penser pouvoir
représenter librement la relation qui peut exister
entre plus de deux variables explicatrices et une
variable réponse
40. Modèles additifs généralisés
Une simplification du problème est de travailler avec
une extension de la régression linéaire multiple
Y = a + f1 ( X1 ) + f2 ( X2 )
Où les fonctions fi sont obtenues par lissage
Conséquence: la relation entre X1 et Y est
indépendante de X2
41. Modèles additifs généralisés
Une des hypothèses importante des modèles linéaires
généralisés est l’hypothèse de linéarité, souvent
difficile à valider
Les modèles additifs généralisés pourraient être une
piste { emprunter pour valider l’hypothèse de
linéarité, ainsi que pour suggérer une forme
paramétrique plus appropriée