1. ` ´
Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012)
Mod`les de pr´vision
e e
Partie 1 - r´gression
e
Arthur Charpentier
charpentier.arthur@uqam.ca
http ://freakonometrics.blog.free.fr/
Automne 2012
1
2. ` ´
Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012)
Plan du cours
• Motivation et introduction aux mod`les de r´gression
e e
• Le mod`le lin´aire simple
e e
◦ R´sultats g´n´raux
e e e
◦ Approche matricielle
• Le mod`le lin´aire multiple
e e
◦ R´sultats g´n´raux
e e e
◦ Tests, choix de mod`le, diagnostique
e
• Aller plus loin
◦ Les mod`les non lin´aires param´triques
e e e
◦ Les mod`les non lin´aires nonparam´triques
e e e
2
3. ` ´
Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012)
Petit rappel sur la significativit´, test de H0 : βj = 0
e
Les r´sultats pr´c´dants permettent de proposer un test simple de
e e e
H0 : βj = 0 contre l’hypoth`se H1 : βj = 0.
e
La statistique de test
βj
Tj = ∼ St(n − k) sous H0 .
V ar(βj )
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -17.5791 6.7584 -2.601 0.0123 *
speed 3.9324 0.4155 9.464 1.49e-12 ***
3
4. ` ´
Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012)
Les deux lectures possibles d’un test
• donner la region de rejet, de la forme [±T1−α/2 ], avec un seuil α fix´
e
arbitrairement ( par d´
faut 95%)
• donner le seuil α tel que la r´gion de rejet soit [±t] (la plus petite region de
e
rejet ` laquelle appartienne la statistique observ´e), i.e. la probabilit´ que de
a e e
rejeter H0 si H0 ´tait vraie.
e
Dans ce dernier cas, on parle de p-value, p = P(rejeter H0 |H0 vraie) : si p est
faible, on rejette H0 , car il y a peu de chances qu’H0 soit vraie.
4
5. ` ´
Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012)
Lecture du test de Student
Region de rejet du test de Student
0.4
REJET ACCEPTATION REJET
0.3
DE H0 DE H0 DE H0
0.2
0.1
Aire totale = 5%
0.0
−6 −4 −2 0 2 4 6
5
6. ` ´
Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012)
Lecture du test de Student
p−value associée à un test de Student
0.4
0.3
0.2
0.1
Aire totale = 1,23%
0.0
−6 −4 −2 0 2 4 6
6
7. ` ´
Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012)
Analyse d’une sortie de r´gression
e
Des tests de student de H0 : βi = 0, contre H1 : βi = 0 sont propos´s, avec
e
β0 − β0 −17.5791 − 0
t0 = = = −2.601 sousH0
6.7584
V ar(β0 )
β1 − β1 3.9324 − 0
t1 = = = 9.464 sousH0
0.4155
V ar(β0 )
Ces valeurs sont ` comparer avec le quantile de Student ` 95% (` 49 degr´s de
a a a e
libert´).
e
Une alternative est d’utiliser la p-value, i.e. si Z ∼ St(49),
p0 = P(|Z| > t0 ) = 0.0123 et p1 = P(|Z| > t1 ) = 1.49 × 10−12 .
7
8. ` ´
Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012)
La p value est alors donn´e par
e
> 2*(1-pt(abs(REG$coefficients[1]/summary(REG)$coefficients[1,2]), df=n-2))
(Intercept)
0.01231882
σ = 15.38, i.e. summary(reg)$sigma
> confint(reg)
2.5 % 97.5 %
(Intercept) -31.167850 -3.990340
speed 3.096964 4.767853
Pour la constante, par exemple, l’intervalle de confiance est donn´ par
e
> REG$coefficients[1]+qt(c(.025,.975),n-2)* summary(REG)$coefficients[1,2]
[1] -31.16785 -3.99034
La matrice de variance-covariance des coefficients, Var(β) est ici
8
10. ` ´
Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012)
Introduction aux tests multiples, e.g. H0 : β1 = · · · = βj = 0
On a vu comment tester H0 : β2 = 0 et H0 : β3 = 0, mais ces deux tests peuvent
ˆtre valid´, sans pour autant avoir H0 : β2 = β3 = 0.
e e
> US=read.table("http://freakonometrics.free.fr/US.txt",
+ header=TRUE,sep=";")
> US$Density=US$Population/US$Area
> model1 = lm(Murder ~ Income + HS.Grad + Frost +
+ Population + Illiteracy + Life.Exp +
+ Area + Density, data=US)
> summary(model1)
Call:
lm(formula = Murder ~ Income + HS.Grad + Frost + Population +
Illiteracy + Life.Exp + Area + Density, data = US)
Residuals:
Min 1Q Median 3Q Max
-3.10973 -0.92363 -0.07636 0.74884 2.92362
10
11. ` ´
Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012)
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 1.121e+02 1.684e+01 6.657 5.04e-08 ***
Income 1.018e-03 6.642e-04 1.532 0.133084
HS.Grad 1.318e-02 5.315e-02 0.248 0.805412
Frost -7.301e-03 7.074e-03 -1.032 0.308040
Population 2.180e-04 6.051e-05 3.602 0.000845 ***
Illiteracy 2.208e+00 8.184e-01 2.699 0.010068 *
Life.Exp -1.579e+00 2.374e-01 -6.652 5.12e-08 ***
Area -9.413e-07 4.228e-06 -0.223 0.824911
Density -4.369e+00 1.499e+00 -2.915 0.005740 **
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
Residual standard error: 1.608 on 41 degrees of freedom
Multiple R-squared: 0.8412, Adjusted R-squared: 0.8102
F-statistic: 27.14 on 8 and 41 DF, p-value: 4.813e-14
Sur cette exemple, on valide les tests H0 : β1 = 0, H0 : β2 = 0 et H0 : β3 = 0.
Mais peut-on valider H0 : β1 = β2 = β3 = 0 ?
11
12. ` ´
Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012)
Ce test peut s’´crire de mani`re tr`s g´n´rale H0 : Rβ = q (contre H1 : Rβ = q)
e e e e e
avec ici
β0
β
1
0 1 0 0 0 · · · 0 β2 0
0 0 1 0 0 · · · 0 β3 = 0
0 0 0 1 0 · · · 0 β4 0
.
.
R . 0
βk
β
La strat´gie est de comparer deux mod`les : le mod`le non-contraint (sous H1 ),
e e e
β = argmin{(Y − Xβ) (Y − Xβ), β ∈ Rk+1 }
12
13. ` ´
Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012)
et le mod`le non-contraint (sous H1 ),
e
β = argmin{(Y − Xβ) (Y − Xβ), β ∈ Rk+1 , Rβ = q}
Pour le premier mod`le, on cherche ` minimiser
e a
h(β) = (Y − Xβ) (Y − Xβ)
et dans le second mod`le, c’est de la minimisation sous-contrainte. On optimise le
e
Lagrangien,
(β, λ) = (Y − Xβ) (Y − Xβ) + λ(Rβ − q)
Dans ce cas, les conditions du premier ordre sont
∂ (β, λ)
= 2X (Y − Xβ) + R λ = 0
∂β
et
∂ (β, λ)
= Rβ − q = 0,
∂λ
13
14. ` ´
Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012)
pour β = β . On a finallement un syst`me de deux (syst`mes d’) ´quations
e e e
XX R β XY
=
R 0 λ q
Comme β = (X X)−1 X Y , on peut ´crire
e
β = β − C[Rβ − q]
o`
u
C = (X X)−1 R [R(X X)−1 R ]−1 .
Si on pose ε = Y − X β et ε = Y − X β, alors
ε ε − ε ε = [Rβ − q] (R(X X)−1 R )[Rβ − q]
Or d’apr`s la seconde condition du premier ordre, Rβ = q. Donc sous H0 , la
e
statistique de test est
ε ε −εε n−k
F = ·
dim(q) εε
14
15. ` ´
Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012)
qui doit suivre une loi de Fisher, F(dim(q), n − k).
> (EE=sum(residuals(model1)^2))
[1] 106.0532
> model2 = lm(Murder ~
+ Population + Illiteracy + Life.Exp +
+ Area + Density, data=US)
> (EEc=sum(residuals(model2)^2))
[1] 119.6924
> (F=(EEc-EE)/3*(nrow(US)-9)/(EE))
[1] 1.757643
> 1-pf(F,3,nrow(US)-9)
[1] 0.170363
Pour savoir si on rejette, ou si on accepte H0 , on calcule la p-value,
> 1-pf(F,3,nrow(US)-9)
[1] 0.170363
i.e. on peut accepter ici H0 (les trois coefficients sont nuls simultan´ment).
e
Cette analyse de variance peut se faire via
15
16. ` ´
Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012)
> library(car)
> linearHypothesis(model1,
+ c("Income","HS.Grad","Frost"),c(0,0,0))
Linear hypothesis test
Hypothesis:
Income = 0
HS.Grad = 0
Frost = 0
Model 1: restricted model
Model 2: Murder ~ Income + HS.Grad + Frost +
Population + Illiteracy + Life.Exp + Area + Density
Res.Df RSS Df Sum of Sq F Pr(>F)
1 44 119.69
2 41 106.05 3 13.639 1.7576 0.1704
16
17. ` ´
Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012)
Diagnostique et r´gression, le R2
e
Le coefficient de d´termination R2 d´fini ` partir le rapport entre la variance des
e e a
r´sidus et la variance de Y ,
e
2 Variance non expliqu´e
e Variance expliqu´e
e
R =1− = .
Variance totale Variance totale
ou pour la version empirique
n 2
Yi − Yi
somme des carr´s des r´sidus
e e i=1
R2 = 1 − =1− n
somme des carr´s de la r´gression
e e 2
Yi − Y
i=1
17
18. ` ´
Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012)
Diagnostique et r´gression, le R2
e
On utilise pour cela la formule de d´composition de la variance
e
V ar(Y ) = V ar[E(Y |X)] + E[V ar(Y |X)] .
variance totale variance expliqu´e par X
e variance r´isudelle
e
On notera que cette grandeur est un estimateur bais´ du vrai R2 ,
e
2 k−1 2 1
E(R ) = R + [1 − R2 ] + O
n−1 n2
2
Le coefficient d’ajustement est R2 = 0.6511 et R = 0.6438.
> summary(reg)$r.squared
[1] 0.6510794
Le calcul se fait de la mani`re suivante
e
> 1-deviance(REG)/sum((Y-mean(Y))^2)
[1] 0.6510794
18
19. ` ´
Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012)
Afin de prendre en compte le nombre de param`tre, et de corriger du biais, on
e
peut utiliser le R2 ajust´,
e
2 n−1 (n − 1)R2 − (k − 1)
R = 1 − (1 − R2 ) =
n − (k − 1) − 1 n−k−2
o` (k − 1) est le nombre de variables explicatives (sans la constante). Notons que
u
2
ce R peut ˆtre n´gatif.
e e
Remarque En rajoutant des variables explicatives, on ne peut que augmenter le
R2 , mais si ces derni`res sont peu corr´l´es avec Y .
e ee
Remarque Dans un mod`le sans constante, le R2 n’a plus aucun sens. En fait,
e
sans constante, rien ne garantit que le plan de r´gression passe par le centre de
e
gravit´ du nuage, (x, y). Et donc la somme des r´sidus n’est alors pas forc´ment
e e e
nulle. La formule de d´composition de la variance n’est alors plus valide.
e
19
20. ` ´
Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012)
De l’utilisation du R2
Consid´rons une r´gression lin´aire
e e e
T INt = β0 + β1 T IFt + εt ,
o` T IN d´signe le taux d’int´rˆ nomial, T IF le taux d’inflation et T IR le taux
u e et
d’int´rˆt r´el, i.e. T IN = T IR + T IF . Au lieu de mod´liser le taux d’int´rˆt
ee e e ee
nominal en fonction de l’inflation, supposons que l’on cherche ` mod´liser le taux
a e
d’int´rˆt r´el,
ee e
T IRt = α0 + α1 T IFt + ηt .
Notons que de la premi`re ´quation T INt = β0 + β1 T IFt + εt = T IRt + T IFt , on
e e
en d´duit
e
T IRt = β0 + [β1 − 1] T IFt + εt ,
=α0 =β0 =ηt
autrement dit les deux ´quations sont ´quivalentes.
e e
20
21. ` ´
Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012)
Pourtant
2 V ar(η) V ar(η) V ar(η) 2
Rnominal =1− =1− ≥1− = Rr´el
e
V ar(T IN ) V ar(T IR + T IF ) V ar(T IR)
aussi, on peut artificiellement augmenter un R2 , tout en ´tudiant un mod`le
e e
rigoureusement ´quivalent.
e
15
10
5
0
1960 1970 1980 1990 2000
21
22. ` ´
Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012)
De l’utilisation du R2
Les sorties montrent que les deux sorties sont effectivement ´quivalence entre les
e
deux mod`les
e
> summary(lm(TIR~TIF,data=D))
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 4.65040 0.44301 10.497 8.5e-14 ***
TIF -0.29817 0.07211 -4.135 0.000149 ***
> summary(lm(TIN~TIF,data=D))
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 4.65040 0.44301 10.497 8.50e-14 ***
TIF 0.70183 0.07211 9.733 9.55e-13 ***
22
23. ` ´
Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012)
De l’utilisation du R2
Mais surtout, on note que le R2 du premier mod`le est beaucoup plus faible que
e
le second
> summary(lm(TIR~TIF,data=D))
Multiple R-Squared: 0.271, Adjusted R-squared: 0.2551
> summary(lm(TIN~TIF,data=D))
Multiple R-Squared: 0.6731, Adjusted R-squared: 0.666
23
24. ` ´
Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012)
Diagnostique dans le mod`le lin´aire
e e
La fonction plot(REG) produit 6 graphiques de diagnostique
1. r´sidus contre valeurs estim´es, (Yi , εi ) (plot of residuals against fitted values)
e e
2. (Yi , |εi |) (Scale-Location plot),
3. un graphique quantile-quantile des r´sidus (Normal Q-Q plot),
e
4. un graphique de distances de Cook (plot of Cook’s distances versus row
labels),
5. un graphique de leverage (plot of residuals against leverages)
6. (plot of Cook’s distances against leverage/(1-leverage))
Remarque dans la plupart des graphiques, on utilise les r´sidus standardis´s,
e e
i.e. ε/σ, centr´s et de variance unitaire.
e
24
31. ` ´
Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012)
Les points atypiques et influents
La notion d’outliers ou de points ab´rants.
e
La distance de Cook mesure l’impact sur la r´gression de l’absence d’une
e
observation. Aussi
n ˆ ˆ
j=1 (Yj − Yj(i) )2
Ci =
p · M SE
ou encore,
ε2
i hii
Ci =
p · M SE (1 − hii )2
−1
o` hi,i est l´l´ment diagonale de la matrice H = X (X X) X (que l’on notera
u ee
parfois hi ). Les hi = [X(X X)−1 X]i,i = Hi,i sont appel´s (leverage).
e
31
32. ` ´
Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012)
Le vecteur des leverages h = (h1 , · · · , hn ) est obtenu ais´ment sous R,
e
> diag(X%*%solve(t(X)%*%X)%*%t(X))[1:6]
[1] 0.11486131 0.11486131 0.07150365 0.07150365 0.05997080 0.04989781
> influence(REG)[1:6]
$hat
1 2 3 4 5 6
0.11486131 0.11486131 0.07150365 0.07150365 0.05997080 0.04989781
Les hypoth`ses sont que E(εi ) = 0 et V ar(εi ) = σ 2 . En r´alit´, E(εi ) = 0 mais
e e e
V ar(εi ) = [I − H]i,i σ 2 = σ 2
Notons que puisque Y = HY + ε,
ε = Y − Y = [I − H]Y = [I − H](Xβ + ε) = [I − H]ε,
et donc V ar(ε) = V ar([I − H]ε) = [I − H]σ 2 . Aussi, V ar(εi ) = [1 − hi ]σ 2 .
Les r´sidus Studentis´s sont les
e e
ε
εi = √ .
σ 1 − hi
32
33. ` ´
Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012)
Notons que Var(εi ) = 1.
> diag(X%*%solve(t(X)%*%X)%*%t(X))
> rstudent(REG)[1:6]
1 2 3 4 5 6
0.26345000 0.81607841 -0.39781154 0.81035256 0.14070334 -0.51716052
> mean(rstudent(REG))
[1] 0.01347908
> sd(rstudent(REG))
[1] 1.045681
Sur la matrice de leverage (matrice de projection orthogonale), notons que
Yi = HY = hi,i Yi + hi,j Yj .
j=i
Aussi, hi,i est le poids accord´ ` Yi pour sa propre pr´diction.
ea e
• si hi,i = 1, Yi est uniquement d´termin´ par Yi (hi,j = 0 pour j = i),
e e
• si hi,i = 0, Yi est n’est nullement influenc´ par Yi .
e
33
34. ` ´
Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012)
On parelera de point levier i si hi,i est trop grand, i.e.
• si hi,i > 2k/n, d’apr`s Hoaglin & Welsch (1978),
e
• si hi,i > 3k/n pour k > 6 et n − k > 12, d’apr`s Welleman & Welsch (1981),
e
• si hi,i > 1/2, d’apr`s Huber (1981).
e
Cette m´thode permet de d´tecter des points atypiques, ou plutˆts des points
e e o
influents.
Afin de mesurer l’impact d’une observation sur la r´gression, il peut aussi ˆtre
e e
utile de regarder les r´sultats de la r´gression si l’on supprime une des
e e
observations.
Apr`s suppression de la i`me observation, les estimateurs des moindres carr´s
e e e
s’´crivent
e
εi
β (i) = β − (X X)−1 X i ·
1 − hi,i
2 1 ε2
i
2
σ(i) = (n − k)σ
n−k−1 1 − hi,i
34
38. ` ´
Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012)
|X i (β − β (i) )|
Welsh-Kuh :W Ki = 2
σ(i) hi,i
n−1
Welsh :Wi = W Ki
1 − hi,i
vraisemblance :LDi = 2 L(β, σ 2 ) − L β (i) , σ(i)
2
Remarque : les points aberrants ont des valeurs de Y aberrantes, mais on
pourrait aussi vouloir tester une ab´ration en X.
e
38
39. ` ´
Arthur CHARPENTIER - Moddeles de previsions (ACT6420 - Automne 2012)
Analyse graphique des r´sidus, example
e
Pour illustrer, consid´rons les d´penses dans les ´coles publiques, par ´tat (aux
e e e e
U.S.A.)
> library(sandwich)
> data(PublicSchools)
>
> tail(PublicSchools)
Expenditure Income
Virginia 356 7624
Washington 415 8450
Washington DC 428 10022
West Virginia 320 6456
Wisconsin NA 7597
Wyoming 500 9096
39