Comment faire disparaître les rides

Comment faire disparaître les
rides
Ou le statisticien esthéticien

Comment éliminer les rides

Voici un nuage de points Quelle est la tendance ?

Contenu

1. Régression linéaire
2. Méthodes de lissage
i. Lisseur à bac
ii. Moyenne mobile
iii. Droite mobile
iv. Régression par noyau
v. Régression polynomiale locale
vi. Spline
3. Modèles additifs généralisés

Notation

X: La variable explicatrice. Dans le cas de variables
multiples, représente la matrice des variables
explicatrices.
Y: La variable réponse.
xi: La cible, pourrait être n’importe quelle valeur de
l’espace de X, par exemple une observation de X
s(xi): la valeur lissée de Y à la cible.

Régression linéaire

La régression linéaire établi un lien bien défini entre
deux variables.
Techniquement, la fonction est lisse, mais cela vient
de la contrainte de linéarité imposée.

Y =a + bX

Lissage

Aucune forme imposée
Capture les caractéristiques du nuage
« Lisse »
Moins variable que les valeurs observées Y

Le lisseur à bac

On sépare le nuage de point en régions selon la
variable X et on fait la moyenne dans chaque région

La moyenne mobile

On défini le voisinage d’une valeur xi comme étant les N
points les plus proches de xi.
Version symétrique:
On prend les valeurs de X qui sont dans l’intervalle [i-k,i+k]
On obtient donc 2K+1 = N éléments
Aux extrémités, nous avons moins de points
Version non-symétrique
On prend l’intervalle symétrique lorsque possible
Aux extrémités, 2K+1 éléments, peu importe de leur position par
rapport à xi

La moyenne mobile

On prend la moyenne des Y appartenant au voisinage
défini
Une modification à cette procédure nous permet
d’obtenir la droite mobile
Au lieu de faire la moyenne des Y du voisinage, on ajuste
on modèle de régression dans ce voisinage et on prend
la valeur prédite.

s ( xi ) = a ( xi ) + b ( xi ) xi
ˆ ˆ

Régression par le noyau

Plutôt que de donné la même importance à tous les
points d’un voisinage, pourquoi ne pas favoriser les
points les plus proches et pénaliser les points éloignés ?
On défini le poids de chaque observation pour un xi
donné { l’aide d’une fonction de densité symétrique
(par exemple, la loi normale)
On calcule la moyenne pondérée { l’aide de ce noyau:
æ xi - x j ö
å d ç l ÷y j
j è ø
s ( xi ) =
æ x - xj ö
å è l ÷
dç i
ø
j

Régression polynomiale locale

Pour éviter les problème de l’estimateur noyau aux extrémités,
on pourrait abandonner la symétrie en faveur d’un voisinage
asymétrique
Ainsi, on détermine le voisinage des K plus proches voisins de xi
On calcule la distance au plus loin des proches-voisins D(xi)
On attribue aux observations le poids suivant

ì
ï æ æ 3 3
ö ö
ï ç1- ç xi - x j ÷ ÷ si xi - x j < D(xi )
W (x j ) = í ç ç D(xi ) ÷ ÷
ï è è ø ø
ï
î 0 autrement


s(xi) sera la prévision à xi du modèle de régression
pondéré { l’aide de ce poids.

Splines de régression

Simplifier le problème de régression en ajustant un
polynôme par partie.
On sépare l’espace des X en (K+1) groupes, la jonction
entre deux groupe ce nomme un nœud et nous avons
K nœuds internes.
Dans chaque groupe on ajuste un polynôme avec une
contrainte de continuité aux nœuds.
s(xi ) = bo + b1 xi + b x + b x + åq j ( xi - x j )+
2 3 3
2 i 3 i
j

Splines de régression

On peut écrire l’équation précédente { l’aide de K+4
polynômes de base:
K+4
s ( xi ) = å b j Pj
j=1
Les polynômes Pj forment la base des B-splines.

Splines de lissage

Au lieu de séparer l’espace des X en groupes, les
splines émergent naturellement du problème de
régression pénalisée suivant:
b

å{ y - f ( x )} + l ò { f ¢¢ ( t )} dt
2 2
i i
i a

Je vous épargne les détails mathématiques de
l’estimation

Qu’est-ce qu’une fonction « lisse » ?

La définition de lisse change selon le lisseur, mais
l’objectif général est toujours d’être moins variable
que les données brutes.
Certains lisseurs ne sont pas généralement lisses.
Le lisseur { bac est loin d’être lisse car il s’agit d’une
fonction discontinue. Mais il est moins variable que les
observations.
Les lisseurs à moyenne mobile et à droite mobile sont
continues, mais rien ne les empêche de changer
rapidement et donc d’avoir une une apparence ridée.

Trop, c’est comme pas assez

La difficulté est de lissée suffisamment, sans effacer
toutes les caractéristiques intéressantes de la relation
(surlissage)
Le choix du paramètre de lissage est donc critique
Sélection automatique { l’aide de la validation croisée
généralisée

Surlissage

Surlissage Lissage

Hypothèses

L’estimation des lisseurs ne requiert aucune
hypothèse sur la nature des données, outre qu’il
existe une forme fonctionnelle qui lie les deux
variable.
On pourrait vouloir comparer un lisseur à une droite
de régression, dans ce cas, on doit assumer que les
observations sont indépendantes et que les erreurs
sont distribuées normalement.

Et si on a plus d’une variable
explicatrice ?

Il existe des lisseurs de dimensions plus élevées du type
f(x1,x2), etc.
On peut généraliser le lisseur à bac, la moyenne mobile, la
droite mobile, en effectuant un maillage
On peut généraliser la régression par noyau en utilisant un
noyau multidimensionnel
On peut généraliser la régression polynomiale locale en
définissant une distance multidimensionnelle appropriée
Les splines se généralisent par ce qui est appelé « thin-plate
splines »

Et si on a plus d’une variable
explicatrice ?

Dans tous les cas on est confronté à la malédiction
des grands nombres
Il est donc peu pratique de penser pouvoir
représenter librement la relation qui peut exister
entre plus de deux variables explicatrices et une
variable réponse

Modèles additifs généralisés

Une simplification du problème est de travailler avec
une extension de la régression linéaire multiple

Y = a + f1 ( X1 ) + f2 ( X2 )
Où les fonctions fi sont obtenues par lissage
Conséquence: la relation entre X1 et Y est
indépendante de X2

Modèles additifs généralisés

Une des hypothèses importante des modèles linéaires
généralisés est l’hypothèse de linéarité, souvent
difficile à valider
Les modèles additifs généralisés pourraient être une
piste { emprunter pour valider l’hypothèse de
linéarité, ainsi que pour suggérer une forme
paramétrique plus appropriée

Comment faire disparaître les rides

Recommandé

Recommandé

Contenu connexe

Tendances

Tendances (20)

En vedette

En vedette (20)

Similaire à Comment faire disparaître les rides

Similaire à Comment faire disparaître les rides (20)

Dernier

Dernier (20)

Comment faire disparaître les rides