Cours add-r1-part5

Arthur CHARPENTIER - Analyse des données
Analyse des données (5)
L’Analyse Discriminante, ou Scoring
Arthur Charpentier
http ://perso.univ-rennes1.fr/arthur.charpentier/
blog.univ-rennes1.fr/arthur.charpentier/
Master 2, Université Rennes 1
1

L’analyse discriminante
On cherche ici à discriminer entre deux ou plusieurs classes, définies par les
modalités d’une variable Y , qualitative, à partir d’un certain nombre de variables
explicatives X1, · · · , Xk (appelées prédicteurs), supposés quantitatifs.
Les classes sont ici définies a priori (via la variable Y ). Deux types de
discrimination sont menées en pratique
• à but descriptif : on cherche quelles sont les variables explicative (Xj) qui
discriminent le mieux
• à but predictif : on cherche à affecter un individu dans une classe, à partir de
ses variables explicatives. On parle alors de scoring
On va alors chercher les variables explicatives les plus discriminantes vis vis des
classes dtermines.
On pourra alors dterminer quel groupe appartient un individu partir de ses
caractristiques.
Par rapport aux techniques de classification on intervient ici a posteriori : Y est
la classe (que l’on cherche à expliquer).
2

Exemple introductif : infarctus du myocarde
Considérons la base suivantes, extraite de Saporta (1990), concernant des
victimes d’infarctus du myocarde, qui ont été mesurés à leur admission, avec la
féquence cardiaque (FRCAR), un indcex cardiaque(INCAR), index systolique
(INSYS), pression diastolique (PRDIA), pression artérielle pulmonaire (PAPUL),
pression venticulaire (PVENT) et résistance pulmonaire (REPUL).
> (MYOCARDE=read.table("http://perso.univ-rennes1.fr/arthur.charpentier/
+ saporta.csv",head=TRUE,sep=";"))
FRCAR INCAR INSYS PRDIA PAPUL PVENT REPUL PRONO
1 90 1.71 19.0 16 19.5 16.0 912 SURVIE
2 90 1.68 18.7 24 31.0 14.0 1476 DECES
3 120 1.40 11.7 23 29.0 8.0 1657 DECES
4 82 1.79 21.8 14 17.5 10.0 782 SURVIE
5 80 1.58 19.7 21 28.0 18.5 1418 DECES
6 80 1.13 14.1 18 23.5 9.0 1664 DECES
7 94 2.04 21.7 23 27.0 10.0 1059 SURVIE
8 80 1.19 14.9 16 21.0 16.5 1412 SURVIE
9 78 2.16 27.7 15 20.5 11.5 759 SURVIE
10 100 2.28 22.8 16 23.0 4.0 807 SURVIE
3

11 90 2.79 31.0 16 25.0 8.0 717 SURVIE
12 86 2.70 31.4 15 23.0 9.5 681 SURVIE
13 80 2.61 32.6 8 15.0 1.0 460 SURVIE
On essaye de comprendre qui va survivre à l’infarctus, et qui va décéder.
On peut faire un peu de statistique descriptive sur les deux sous-groupes.
> apply(MYOCARDE[MYOCARDE$PRONO=="DECES",1:7],2,mean)
FRCAR INCAR INSYS PRDIA PAPUL PVENT REPUL
91.551724 1.397931 15.531034 21.448276 28.431034 11.844828 1738.689655
> apply(MYOCARDE[MYOCARDE$PRONO=="SURVIE",1:7],2,mean)
87.690476 2.318333 27.202381 15.976190 22.202381 8.642857 817.214286
> apply(MYOCARDE[MYOCARDE$PRONO=="DECES",1:7],2,sd)
15.2844136 0.3808954 4.4162932 5.0750525 7.1009609 4.4843049 616.3684023
> apply(MYOCARDE[MYOCARDE$PRONO=="SURVIE",1:7],2,sd)
14.589485 0.574388 8.484433 5.125204 6.574210 4.219996 313.039508
4

q
q
q
DECES SURVIE
60708090100110120
q
DECES SURVIE
1.01.52.02.53.0
q
q
q
DECES SURVIE
1020304050
q
q
DECES SURVIE
101520253035
q
q
DECES SURVIE
1015202530354045
DECES SURVIE
5101520
5

En supposant que l’on a des vecteurs Gaussiens, on peut tester l’´egalit´e globale
via un test de Fisher,
> MYOCARDE.manova<-manova(cbind(FRCAR,INCAR,INSYS,PRDIA,PAPUL,PVENT,REPUL)~PRONO,data=MYO
> MYOCARDE.manova
Call:
manova(cbind(FRCAR, INCAR, INSYS, PRDIA, PAPUL, PVENT, REPUL) ~
PRONO, data = MYOCARDE)
Terms:
PRONO Residuals
resp 1 256 15268
resp 2 15 18
resp 3 2337 3498
resp 4 514 1798
resp 5 666 3184
resp 6 176 1293
resp 7 14566540 14655223
Deg. of Freedom 1 69
Residual standard error: 14.8754 0.50489 7.119591 5.104912 6.79289 4.329197 460.8628
6

Estimated effects may be unbalanced
> summary(MYOCARDE.manova,test="Wilks")
Df Wilks approx F num Df den Df Pr(>F)
PRONO 1 0.4545 10.8034 7 63 7.312e-09 ***
Residuals 69
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
La variable discriminante est obtenu par combinaison linéaire des 7 variables
centrées sur la moyenne générale des 2 groupes.
> lda(PRONO~.,data=MYOCARDE)
Call:
lda(PRONO ~ ., data = MYOCARDE)
Prior probabilities of groups:
DECES SURVIE
0.4084507 0.5915493
Group means:
DECES 91.55172 1.397931 15.53103 21.44828 28.43103 11.844828 1738.6897
7

SURVIE 87.69048 2.318333 27.20238 15.97619 22.20238 8.642857 817.2143
Coefficients of linear discriminants:
LD1
FRCAR -0.012743116
INCAR 1.074534545
INSYS -0.019139867
PRDIA -0.025483955
PAPUL 0.020177505
PVENT -0.037804074
REPUL -0.001353977
On pourrait tenter une ACP sur les 6 premi`eres variables, et regarder le nuage
des individus, pour voir si l’on arrive `a discriminer “simplement”.
library(ade4)
mesures=MYOCARDE[,1:6]
acp <- dudi.pca(mesures,scann = FALSE, nf = 3)
s.class(acp$li, fac=MYOCARDE$PRONO,col=c("red","blue"),xax = 1, yax = 2)
8

FRCARINCAR
INSYS
PRDIA
PAPUL
PVENT
d = 1
1
2
3
4 5
6
7
8
9
1011
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38 39
40 41
42
43
44
45
46
47
48
49
50
5152
53
54
55
56
57
58
59
60 61
62
63
64
65
66
67
68
69
70
71
9

d = 1
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
DECES
SURVIE
10

q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
−4 −2 0 2 4
−3−2−1012
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
−4 −2 0 2 4
−3−2−1012
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
Les points dans la région inférieure gauche sont pronostiqué “survie” et dans la
partie supérieure droite “décès”. On peut alors comparer les valeurs observées Y
à ces prédiction Y
> table(PRONOSTIC,MYOCARDE$PRONO)
11

PRONOSTIC DECES SURVIE
SURVIE 14 34
DECES 15 8
Yi = 0 Yi = 1
Yi = 0 vrai négatif faux négatif
Yi = 1 faux positif vrai positif
Parmi les mesures de performance de la prédiction,
P(Y = 1|Y = 1) est appelé précision
P(Y = 1|Y = 1) est appelé taux de vrais positifs
P(Y = 1|Y = 0) est appelé taux de faux positifs
On peut éventuellement représenter le taux de vrais positifs en fonction du taux
de faux positifs.
Comme on essaye d’expliquer Y (un pronostic binaire) par plusieurs variables
continues, on pourrait utiliser une régression logistique, ou probit.
12

> glm(Y~.-PRONO,data=MYOCARDE, family=binomial(link = "logit"))
Call: glm(formula = Y ~ . - PRONO, family = binomial(link = "logit"),data = MYOCARDE)
Coefficients:
(Intercept) FRCAR INCAR INSYS PRDIA PAPUL PVENT
-10.187642 0.138178 -5.862429 0.717084 -0.073668 0.016757 -0.106776
Degrees of Freedom: 70 Total (i.e. Null); 63 Residual
Null Deviance: 96.03
Residual Deviance: 41.04 AIC: 57.04
> glm(Y~.-PRONO,data=MYOCARDE, family=binomial(link = "probit"))
Call: glm(formula = Y ~ . - PRONO, family = binomial(link = "probit"),data = MYOCARDE)
Coefficients:
(Intercept) FRCAR INCAR INSYS PRDIA PAPUL PVENT
-4.677478 0.072674 -3.071761 0.366205 -0.040006 0.009804 -0.063314
Degrees of Freedom: 70 Total (i.e. Null); 63 Residual
Null Deviance: 96.03
13

Residual Deviance: 40.97 AIC: 56.97
On peut alors regarder les prédictions données par ces modèles.
> r.logit <- glm(Y~.-PRONO,data=MYOCARDE, family=binomial(link = "logit"))
> Y.logit <- predict(r.logit, type=’response’)
> r.probit <- glm(Y~.-PRONO,data=MYOCARDE, family=binomial(link = "probit"))
> Y.probit <- predict(r.probit, type=’response’)
> cbind(MYOCARDE$Y,Y.logit,Y.probit)
[,1] [,2] [,3]
1 1 0.601 0.613
2 0 0.169 0.175
3 0 0.328 0.338
4 1 0.881 0.882
5 0 0.142 0.143
6 0 0.057 0.060
7 1 0.679 0.668
8 1 0.078 0.087
9 1 0.967 0.968
10 1 0.945 0.951
11 1 0.985 0.989
12 1 0.989 0.992
14

13 1 0.999 0.999
14 1 0.999 0.999
15 1 0.988 0.992
Plus le score est proche de 0, plus on devrait se prononcer pour un décès, plus il
est proche de 1, plus on devrait être confiant dans une survie.
De manière “naturelle”, on peut fixer ce seuil à 50% : si Y < .5 on pronostique
Y = 0, et si Y = 1 si Y > .5.
On obtient alors les classements suivants, avec le même tableau pour les modèles
probit et logit
Yi = 0 Yi = 1
Yi = 0 vrai négatif faux négatif
Yi = 1 faux positif vrai positif
Yi = 0 Yi = 1
Yi = 0 25 3
Yi = 1 4 39
Mais le seuil de 50% a été fixé artibtrairement. En prenant des seuils à 30% ou
70%, on peut changer les résultats,
15

Yi = 0 Yi = 1
Yi = 0 22 2
Yi = 1 7 40
Yi = 0 Yi = 1
Yi = 0 26 9
Yi = 1 3 33
Dans un cas, on diminue le nombre de faux négatif, en augmentant le nombre de
faux positif, et l’inverser pour l’autre choix.
On a alors un trade off sur le choix du seuil : on ne peut pas bien détecter tout le
monde ! Ce problème apparaissait également sur l’ACP, lorsque l’on coupait la
région en 2.
16

q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
−4 −2 0 2 4
−3−2−1012
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
−4 −2 0 2 4
−3−2−1012
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
Notons qu’on peut “tester” la pertinence de notre classement,
> library(ROCR)
> pred=prediction(Y.probit,MYOCARDE$PRONO)
> perf=performance(pred,’tpr’,’fpr’)
> plot(perf)
17

False positive rate
Truepositiverate
0.0 0.2 0.4 0.6 0.8 1.0
0.00.20.40.60.81.0
00.20.410.610.811.01
False positive rate
Truepositiverate 0.0 0.2 0.4 0.6 0.8 1.0
0.00.20.40.60.81.0
00.20.410.610.811.01
18

Exemple introductif : les vins de Bordeaux
On considère des dégustation de Bordeaux, sur 34 années entre 1924 et 1957.
> BORDEAUX=read.table("http://perso.univ-rennes1.fr/arthur.charpentier/
+ bordeaux_R.txt",head=TRUE)
> BORDEAUX=BORDEAUX[,-1]
> head(BORDEAUX,8)
NUMERO TEMPERAT SOLEIL CHALEUR PLUIE QUALITE
1 1 3064 1201 10 361 2
2 2 3000 1053 11 338 3
3 3 3155 1133 19 393 2
4 4 3085 970 4 467 3
5 5 3245 1258 36 294 1
6 6 3267 1386 35 225 1
7 7 3080 966 13 417 3
8 8 2974 1189 12 488 3
19

1 2 3
2900300031003200330034003500
1 2 3
100011001200130014001500
q
1 2 3
10203040
1 2 3
300400500600
20

On cherche une analyse discriminante s´eparant au mieux ldes k classes,
Z1 = α0 +
p
j=1
αjXj
> lda(QUALITE~.,data=BORDEAUX)
Call:
lda(QUALITE ~ . + 1, data = BORDEAUX)
1 2 3
0.3235294 0.3235294 0.3529412
Group means:
TEMPERAT SOLEIL CHALEUR PLUIE
1 3306.364 1363.636 28.54545 305.0000
2 3140.909 1262.909 16.45455 339.6364
3 3037.333 1126.417 12.08333 430.3333
LD1 LD2
21

TEMPERAT 0.008566046 -4.625059e-05
SOLEIL 0.006773869 -5.329293e-03
CHALEUR -0.027054492 1.276362e-01
PLUIE -0.005865665 6.174556e-03
Proportion of trace:
LD1 LD2
0.9595 0.0405
On peut aussi centrer et r´eduire les variables,
X1 =
temperature − 3157.88
√
7668.456
, · · · , X4 =
pluie − 360
√
5758.039
.
> (M=apply(BORDEAUX,2,mean))
TEMPERAT SOLEIL CHALEUR PLUIE QUALITE
3157.882353 1247.323529 18.823529 360.441176 2.029412
> (S=apply(BORDEAUX,2,sd))
TEMPERAT SOLEIL CHALEUR PLUIE QUALITE
141.1843336 126.6229719 10.0165638 91.4016084 0.8343131
> BORDEAUX.CR=(BORDEAUX-matrix(rep(M,each=34),34,5))/matrix(rep(S,each=34),34,5)
22

> (LD=lda(QUALITE~.,data=BORDEAUX.CR))
Call:
lda(QUALITE ~ ., data = BORDEAUX.CR)
-1.23384339005595 -0.0352526682873127 1.16333805348132
0.3235294 0.3235294 0.3529412
Group means:
TEMPERAT SOLEIL CHALEUR PLUIE
-1.23384339005595 1.0516838 0.9185761 0.9705849 -0.6065667
-0.0352526682873127 -0.1202206 0.1230864 -0.2365067 -0.2276198
1.16333805348132 -0.8538413 -0.9548573 -0.6729050 0.7646710
LD1 LD2
TEMPERAT 1.2093914 -0.006529859
SOLEIL 0.8577274 -0.674810955
CHALEUR -0.2709930 1.278475787
PLUIE -0.5361312 0.564364371
23

Proportion of trace:
LD1 LD2
0.9595 0.0405
> PLD=predict(LD)$x
> boxplot(PLD~BORDEAUX$QUALITE)
On peut aussi utiliser la seconde variable disciminante, centrée, mais non corrélée
à Z1,
Z2 = β0 +
p
j=1
βjXj
On obtient les deux box-plot suivants
24

1 2 3
−4−2024
1 2 3
−1012
> X=predict(LD)$x[,1]; Y=predict(LD)$x[,2]
> plot(X,Y,col=BORDEAUX$QUALITE)
25

q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
−4 −2 0 2 4
−1012
1
2
3
4
5
6
7
8
9
10
11
12
13 14
15
16
17
18
19
20
21
22
23
24
25
26
2728
29
30
31
32
33
34
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
−4 −2 0 2 4
−1012
1
2
3
4
5
6
7
8
9
10
11
12
13 14
15
16
17
18
19
20
21
22
23
24
25
26
2728
29
30
31
32
33
34 q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
−4 −2 0 2 4
−4−2024
1
2
3
4
5
6
7
8
9
10
11
12
13 14
15
16
17
18
19
20
21 22
23
24
25
26
2728
29
30
31
32
33
34
26

q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
−4 −2 0 2 4
−4−2024
1
2
3
4
5
6
7
8
9
10
11
12
13 14
15
16
17
18
19
20
21 22
23
24
25
26
2728
29
30
31
32
33
34
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
−4 −2 0 2 4
−4−2024
1
2
3
4
5
6
7
8
9
10
11
12
13 14
15
16
17
18
19
20
21 22
23
24
25
26
2728
29
30
31
32
33
34
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
−4 −2 0 2 4
−4−2024
1
2
3
4
5
6
7
8
9
10
11
12
13 14
15
16
17
18
19
20
21 22
23
24
25
26
2728
29
30
31
32
33
34
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
−4 −2 0 2 4
−4−2024
q
1
2
3
4
5
6
7
8
9
10
11
12
13 14
15
16
17
18
19
20
21 22
23
24
25
26
2728
29
30
31
32
33
34
27

> AJUST=cbind(BORDEAUX[,5],predict(LD)$class,
+ BORDEAUX[,5]==as.numeric(predict(LD)$class))
> AJUST
[,1] [,2] [,3]
[1,] 2 2 1
[2,] 3 3 1
[3,] 2 3 0
[4,] 3 3 1
[5,] 1 1 1
[6,] 1 1 1
[7,] 3 3 1
[8,] 3 3 1
[9,] 3 3 1
[10,] 2 1 0
[11,] 1 1 1
[12,] 3 2 0
[13,] 3 3 1
[14,] 1 1 1
[15,] 2 2 1
[16,] 2 2 1
[17,] 2 2 1
28

[18,] 3 3 1
[19,] 2 2 1
> table(as.factor(as.numeric(AJUST[,1])),as.factor(as.numeric(AJUST[,2])))
1 2 3
1 9 2 0
2 2 8 1
3 0 2 10
29

Le reclassement
> lda(PRONO~.,data=MYOCARDE,prior=c(0.5,0.5),CV=TRUE)
> lda(PRONO~.-Y,data=MYOCARDE,prior=c(0.5,0.5),CV=TRUE)
$class
[1] DECES DECES DECES SURVIE DECES DECES SURVIE DECES SURVIE SURVIE SURVIE SURVIE S
[20] SURVIE SURVIE DECES SURVIE DECES SURVIE DECES DECES SURVIE SURVIE SURVIE SURVIE D
[39] DECES SURVIE DECES DECES SURVIE SURVIE DECES SURVIE DECES DECES DECES DECES S
[58] SURVIE SURVIE SURVIE DECES SURVIE DECES DECES SURVIE SURVIE DECES DECES SURVIE S
Levels: DECES SURVIE
$posterior
DECES SURVIE
1 0.502843989 0.4971560108
2 0.760428401 0.2395715991
3 0.898718532 0.1012814675
4 0.205819247 0.7941807532
5 0.767586744 0.2324132563
6 0.891944506 0.1080554941
[...]
67 0.988907194 0.0110928057
30

68 0.913385833 0.0866141669
69 0.038344052 0.9616559479
70 0.023091939 0.9769080611
71 0.017904179 0.9820958214
On peut changer les proportions attendues,
> lda(PRONO~.-Y,data=MYOCARDE,prior=c(0.3,0.7),CV=TRUE)
$posterior
DECES SURVIE
1 0.3023943986 0.6976056014
2 0.5763315167 0.4236684833
3 0.7917932260 0.2082067740
4 0.0999652630 0.9000347370
5 0.5859958160 0.4140041840
6 0.7796213462 0.2203786538
[...]
67 0.9744940304 0.0255059696
68 0.8188235413 0.1811764587
69 0.0168012965 0.9831987035
31

70 0.0100288802 0.9899711198
71 0.0077525353 0.9922474647
Dans le cas multinomial (plus de 2 modalit´es)
> B.LDA=lda(QUALITE~.,data=BORDEAUX,prior=c(1/3,1/3,1/3),CV=TRUE)
$class
[1] 2 3 3 3 2 1 3 3 3 1 1 2 3 2 2 2 2 3 2 1 2 1 2 1 2 1 1 3 1 2 3 2 2 3
Levels: 1 2 3
$posterior
1 2 3
1 7.037459e-03 6.295202e-01 3.634423e-01
2 7.537421e-05 5.994089e-02 9.399837e-01
3 8.143494e-03 1.822480e-01 8.096085e-01
4 1.134597e-05 2.619176e-02 9.737969e-01
5 2.536909e-01 6.212299e-01 1.250793e-01
6 8.973327e-01 1.025057e-01 1.615276e-04
7 1.127037e-05 9.005366e-03 9.909834e-01
On peut visualiser la pr´ediction du score,
> barplot(t(B.LDA$posterior),col=c("blue","green","red"))
32

q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q
0 5 10 15 20 25 30 35
0.00.20.40.60.81.0
33

Les tests
La statistique la plus classique est le taux de bien classés, i.e. P(Y = Y ).
Notons que le tableau de classement (ou matrice de confusion) est un tableau de
contingence, et on peut tester le charactere significatif de la prédiction par un
test du χ2
.
Le test du Lambda de Wilks permet de tester si les vecteurs des moyennes pour
les diffrentes groupes sont gaux ou non (ce test peut tre compris comme un
quivalent multidimensionnel du test de Fisher).
Le test du V de Rao mesure la distance entre les centre des groupes, et la
moyenne globale.
En fait ces tests ne sont possibles qu’à condition d’avoir des vecteurs Gaussiens,
avec en plus une hypothèse dégalité des matrices de variance-covariance dans
chaque groupe.
34

On peut utiliser un test de Kullback pour faire ce test, en notant que
k
i=1
ni − 1
2
log
det D
det Di
∼ χ2
sous H0,
o`u D est la matrice de variance covariance intra-groupe, Di est la matrice de
variance-covariance pour le groupe i, et ni d´esigne le nombre d’observations dans
le groupe i.
35

Un peu de formalisation
Pour commencer, supposons que Y prenne 2 modalités, notées 0 et 1. On suppose
que les m variables Xj sont continues.
Soient X0 = (X
Y =0
1 , · · · , X
Y =0
m ), X1 = (X
Y =1
1 , · · · , X
Y =1
m ),
V0 = [cov(X
Y =0
i , X
Y =0
j )] et V1 = [cov(X
Y =1
i , X
Y =1
j )].
On pose également X = (X1, · · · , Xm) et V = [cov(Xi, Xj)] (sur l’ensemble de
la population).
On note enfin ω0 et ω1 les poids de chacune des classes.
On appelle matrice de variance intercalsse la matrice de variance B des 2 centre
de gravités,
B =
1
k=0
ωk(Xk − X )(Xk − X ) ,
36

et W la matrice de variance interclasse W, moyenne des matrices Vk, i.e.
W =
1
k=0
ωkVk.
Notons que W est générallement inversible, alor que B ne l’est pas. La formule de
décomposition de la variance donne
V = W + B
(la variance totale est la somme de la moyenne des variances et de la variance des
moyennes).
On supposera les variables centrées, i.e. X = 0, i.e.
B =
1
k=0
ωkXkXk et W =
1
k=0
ωkVk, où ωk =
nk
n
.
On considère le tableau composé de la variable Y , ou plus généralement du
tableau disjonctif associé, noté A, et du tableau X des variables explicatives.
37

Notons que les 2 centres de gravit´es X0 et X1 sont mes lignes de la matrice
(A DA)−1
(A DX) o`u D est la matrice est la matrice des poids individuels.
38

L’analyse factorielle discriminante (AFD) consiste à chercher des variables
disciminantes correspondant à des vecteurs dans Rm
qui séparent au mieux le
nuage en k groupes.
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq q
q
q
q
q
q
q
q
q
q q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq q
q
q
q
q
q
qq
q
q
q
q
q
qq
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q qqq
q
q
q
q
q
q
qqq
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
qq
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
qq
q
q
q
−2 0 2 4 6
−2024
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq q
q
q
q
q
q
q
q
q
q q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq q
q
q
q
q
q
qq
q
q
q
q
q
qq
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q qqq
q
q
q
q
q
q
qqq
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
qq
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
qq
q
q
q
39

q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq q
q
q
q
q
q
q
q
q
q q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq q
q
q
q
q
q
qq
q
q
q
q
q
qq
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q qqq
q
q
q
q
q
q
qqq
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
qq
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
qq
q
q
q
−2 0 2 4 6
−2024
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq q
q
q
q
q
q
q
q
q
q q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq q
q
q
q
q
q
qq
q
q
q
q
q
qq
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q qqq
q
q
q
q
q
q
qqq
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
qq
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
qq
q
q
q
q
qq
q
q
q
q
qq
q
qq
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
qqq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qqq
qq
q
qq
q
q
q
q
q
q
qq
qq
qq
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
qq
q
q
q
q
qq
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
−4 −2 0 2 4 6
0.000.050.100.150.200.250.300.35
q qq qq q qq qq qq qqq qqqq qq qqqqq qq qqq qq qq q qqqq q qqq qqq qqq qqqq qq q qq qq qq qq qqq qq q qqqqq q qqq qq q qqqq qqqq qqq qqq qqqq qq q q qq qq q qq q qqq qq qq q qq qqq qq qqq q qq qqq qq qq q qq qqq qqqq qqq qqq q qq qq qq q qqqqq qq qqqq qq qq qq qqq qq qq qqqq qq q qq qq
q qqqq qqqq qq qqq qq qq q q qqqqqq qq qq q qq q q qqq q qqqqq qq qq qq q q qq q qq qq qqq q qqq q qqq qq qq qq qqq qq qq q qqq qqq qqqq qq qqqq qq q qqqq q qqq q qqqq q qqq qq q q qq q qq qqq qqq qqqqq qq qq q qqq q qqq q q q qqq qqqqqq qq qq qqq qq qq qqqqq qqq qqqqq q qq qqq q qqq qq
40

q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq q
q
q
q
q
q
q
q
q
q q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq q
q
q
q
q
q
qq
q
q
q
q
q
qq
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q qqq
q
q
q
q
q
q
qqq
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
qq
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
qq
q
q
q
−2 0 2 4 6
−2024
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq q
q
q
q
q
q
q
q
q
q q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq q
q
q
q
q
q
qq
q
q
q
q
q
qq
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q qqq
q
q
q
q
q
q
qqq
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
qq
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
qq
qq
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qqq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
qq
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
qq
q
q
q
q
qq
q
q
q
q
qq
qq
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
qq
q
q
q
q
−4 −2 0 2 4 6
0.000.050.100.150.200.250.300.35
qqq qq qq qqq qq q q qqqq q qq qq qqq qqq q q qqqqqq qqq q qqq q qqq qq q qqq qq qq qq qq q qqqq qq q q qq q qq qq qqqq qq qqqq q qq q qq q qq qq qq qqq q qq qqq qqq qq qq q qqq qq qq q qqq qq qq qqqqqqq qq qqq qq qqqqq qqqq q qqqqq q q qqq q qqq qq qq q qq qqqq qq qq qqq q qq qq qq qqqq
qq q qqqq qq qqqqqq q qqqq qq qq qq q qq q qq qq qq qqq q qqq qq q q qq qqq qq q qqq qqq qqqq qq qqq q qqq q qqqq qqq qq qq qq q qqq qqq q q q qq qq qq q q q qqq qqqq qq qqq q q q qq q q qq qqqq q qq q qq q qqq qq qq q qq qq qq qqqq qq q qqqq qq qq q q qqqq qq qq qqq qqqqq q q qq q qqqqqq q qq
41

On cherche un axe ayant un bon pouvoir disciminant (entre les groupes), comme
l’axe dans le second cas.
En particulier, en projetant les centres de gravités des nuages, il faut que la
dispersion soit maximale.
La matrice d’inertie du nuage de X0 et X1 est MBM (où M est une métrique de
Rm
), et l’inertie du nuage projecté selon un axe a est alors a MBMa (si
a M = 1). On cherche alors à maximiser a MBMa.
On souhaite aussi à ce que le nuage soit regroupé autour du centre de gravité (n
projection), que qui revient à minimiser a MWMa
En utilisant V = B + W, on obtient que
a MV Ma = a MBMa + a MWMa
On peut alors prendre comme critère à maximiser est le rapport de l’inertie
interclasse à l’inertie totale,
max
a{a MBMa
a MV Ma }.
42

Ce maximum est atteint si a est vecteur propre de (MV M)−1
MBM, associé à la
plus grande valeur propre.
On fait alors l’ACP du nuage des centres de gravité, avec la métrique V −1
.
43

Analyse de la variance ?
Une autre interprétation peut se faire en terme d’analyse de la variance.
A la base, l’analyse de la variance (ANOVA à un facteur) se fait de la manière
suivante : on dispose de k groupes. On dispose d’observations {X1,i, · · · , Xni,i}
pour le groupe i. En supposant Xj,i ∼ N(µi, σ2
), i.i.d. On cherche à tester
H0 : µ1 = · · · = µi = · · · = µk (= µ).
L’idée de l’analyse de la variance est d’utiliser un test de Fisher, en notant que
F =
S2
E
k − 1
·
n − k
S2
R
∼ F(k − 1, n − k),
où S2
=
1
n i,j
(Xj,i − X)2
= S2
E + S2
R,
S2
E =
1
n i
ni(Xi − X)2
et S2
R =
1
n i,j
(Xi,j − Xi)2
.
(décomposition de la variance, entre variance inter S2
E et variance intra S2
R).
44

Mais ici, comme nous disposons que p variables explicatives, on cherche la
combinaison linéaire qui maximise une statistique de type Fisher. On cherche u
qui maximise
F =
u Bu
u Wu
.
La solution est de chercher le vecteur propre associé à la plus valeur propre de
W−1
B (qui correspondent aux vecteurs propres de V −1
B).
Notons que la métrique associée à W−1
est parfois appelée métrique de
Mahalanobis.
45

Analyse de la variance avec 2 groupes
Comme k − 1 = 1, on recherche une unique variable discriminante.
Cet axe discriminant est alors la droite passant par les deux centres de gravité,
X0 et X1. Alors
u = V −1
(X0 − X1) ou W−1
(X0 − X1)
W−1
(X0 − X1) est appelé fonction de Fisher. En fait, afin de normaliser, on
considère plutôt
n0 + n1 − 2
n1 + n2
W−1
Fisher en effet, cherchait la combinaison linéaire des variables explicatives telles
que le carré de la statistique de test prenne une valeur maximale, i.e.
max
u
(Y 0 − Y 1)
n0S2
0 + n1S2
1
n0 + n1 − 2
1
n0
+
1
n1
où Y = Xu.
46

Si l’on pose Σ =
n0 + n1
n0 + n1 − 2
W, on voit que la fonction de Fisher s’écrit
max
(u (X0 − X1))2
u Σu
,
c’est à dire que u doit être proportionnel à Σ(X0 − X1).
47

Interprétation en terme de régression
Notons que si l’on régresse brutalement Y sur X1, · · · , Xp, l’estimateur par
moindre carrés s’écrit
β = (X X)−1
X Y = V −1
(X0 − X1).
Sur l’exemple préc´dant,
> base
y x1 x2
[1,] 0 -0.06842752 1.0664922282
[2,] 0 -0.01273235 -1.8565790136
[3,] 0 -2.24507861 -2.3625561698
[4,] 0 0.62173134 -1.3233327477
[5,] 0 -1.06797642 -0.4757008868
[6,] 0 0.51384396 -0.0561551010
[...]
[395,] 1 1.95266073 2.2221802298
[396,] 1 3.32203741 0.6882211866
48

[397,] 1 1.35032036 0.7791709815
[398,] 1 1.30084249 2.1642225218
[399,] 1 2.61357210 1.9169049693
[400,] 1 0.31456394 -0.4377148839
> (r=lm(y~x1+x2,data=base))
Call:
lm(formula = y ~ x1 + x2)
Coefficients:
(Intercept) x1 x2
0.3736 0.1370 0.1209
> -coef(r)[2]/coef(r)[3]
x1
-1.133024
L’axe de discrimination sera alors de pente −1.13, et la constante reflètera la
performance de la discrimination. Le plus classique étant (comme ici n1 = n0)
> (.5-coef(r)[1])/coef(r)[3]
49

(Intercept)
1.045773
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq q
q
q
q
q
q
q
q
q
q q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq q
q
q
q
q
q
qq
q
q
q
q
q
qq
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q qqq
q
q
q
q
q
q
qqq
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
qq
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
qq
q
q
q
−2 0 2 4 6
−2024
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq q
q
q
q
q
q
q
q
q
q q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq q
q
q
q
q
q
qq
q
q
q
q
q
qq
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q qqq
q
q
q
q
q
q
qqq
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
qq
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq q
q
q
q
q
q
q
q
q
q q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq q
q
q
q
q
q
qq
q
q
q
q
q
qq
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q qqq
q
q
q
q
q
q
qqq
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
qq
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
qq
q
q
q
−2 0 2 4 6
−2024
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq q
q
q
q
q
q
q
q
q
q q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq q
q
q
q
q
q
qq
q
q
q
q
q
qq
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q qqq
q
q
q
q
q
q
qqq
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
qq
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
qq
q
q
q
50

Règle d’affectation
Une fois déterminé la direction de l’axe de discrimination, il reste à choisir où
positionner cet axe.
Une règle naturelle consiste à calculer la distance de l’observation aux centres de
gravités, puis à affecter en prenant la distance la plus faible. Mais il faut encore
choisir la distance à retenir... La métrique la plus usuelle est celle de
Mahalanobis, i.e. W−1
.
51

Méthode de scoring, approche bayésienne
On cherche ici à affecter un individu à l’une des classes, compte tenu de ses
modalités x. On l’affecte à la classe k pour laquelle la probabilité
P(Y = y|X = x) est maximale.
52

Méthode de scoring, exemple Gaussien
Supposons que X|Y = y suive une loi Gaussienne, N(µy, Σy), i.e.
f(x|Y = y) =
1
(2π)k det Σy
exp −
1
2
(x − µy) Σ−1
y (x − µy) .
Le critère que l’on cherche à maximiser est alors pyf(x|Y = y), ou son
logarithme, i.e.
(x − µy) Σ−1
y (x − µy) − 2 log py + log det Σy.
On parle alors de règle d’affectation quadratique.
Si l’on suppose les matrices de variance-covariance Σy constante, on obtient une
règle d’affectation linéaire.
53

Exemple Gaussien, une variable explicative
−4 −2 0 2 4 6
0.000.050.100.150.200.25
qq qq qq qq qqq qq q qqq qq qqq q qq qq q qq qq qqq q qqq qqq qq qq qq qqq qq qq qq qqq qqqq q qq qq q qqq qq qq qq qq qq qq qq qq qqq qqqq q q qqqq q qq qq qqq qqq q q qqq qq qqq qq qq qqq qq qq qqq qq qq q qq qqq qq q qq qq qqq qq qqq q q qqq qq qqq q qqq qq q q qq qq q q qq q qq qqq q qqq qq
q q qq qq q qq qq qqq qq qqq q q qq qq q qqq qqqq q qqq qq q qq qq q qq qqq qq qq q q qq qq qq qqq qq qq qqq qqq qqq qqq qq q q qq qq qqq q qq qq qq q qq qqq q qqq qq q qqq qqq q q q qq qq qq q qq q qq q qq qq qq qqq qq q qqqqq q q qqq qq qq q qqqq qq qqq qqqqq qq q qq qq qqq qqq qqq qq qq q qq qq
54

Exemple Gaussien, deux variable explicative
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
qq
q
qq
q
q
q q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q qq
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
−2 0 2 4 6
−4−20246
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
qq
q
qq
q
q
q q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q qq
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.005
0.01
0.015
0.02
0.025
0.03
0.035
0.01
0.02
0.02
0.03
0.03
0.04
0.05
0.06
0.07
55

Exemple Gaussien, interprétation
si les probabilités py sont ´gales, alors on affecte l’individu à la classe pour laquelle
la distance entre x et le centre de gravité du nuage est minimale.
Si l’on a deux groupes, on affecte x à la classe 0 si
x Σ−1
(µ0 − µ1) >
1
2
(µ0 − µ1) Σ−1
(µ0 − µ1) + log
p1
p0
.
On parlera de méthodes paramétriques de classification. Notons qu’il est possible
d’utiliser des méthodes de type k-plus proches voisins, où on recherche les k
voisins les plus proches de x, et x sera affecté à la classe majoritaire parmi ses
voisins.
56

L’utilisation des r´egressions
−4 −2 0 2 4
0.00.20.40.60.81.0
57

L’utilisation des régressions
Ici, on cherche un modèle qui pourrait estimer Y en fonction d’une - ou plusieurs
- variables explicatives X. Y prend ici souvent deux valeurs 0 et 1, et sera
modélisée par la variable latente Y , continue entre 0 et 1.
On interprètera alors Y = 0.1 comme “il y a 10% de chances que Y = 1”.
On introduit alors le rapport des chances, “odds” ou “cote”,
p1 =
P(Y = 1)
1 − P(Y = 1)
E.g. si P(Y = 1) = 90%, alors p1 = 0.9/0.1 = 9 : on a 9 fois plus de chance
d’observer Y = 1 que Y = 0.
On passe de ce rapport de chance (défini sur R+
) à une variable définie sur R
(pour utiliser un modèle linéaire) en prenant le logarithme : on défini la
transformation logit
logit(p) = log
p
1 − p
, d’inverse logit−1
(y) =
exp(y)
1 + exp(y)
.
58

La régression logistique
On suppose ici que X|Y = y suive une loi Gaussienne, N(µy, Σy). Aussi,
X|Y = 0 a pour densité φ0 et X|Y = 1 a pour densité φ1.
Comme les probabilités a posteriori sont une fonction logistique du score, on a
log
φ1(x)
φ0(x)
= β x
On en déduit que
P(Y = 1|X = x) =
p1φ1(x)
p1φ1(x) + p0φ0(x)
=
p1φ1(x)
p0φ0(x)
1 +
p1φ1(x)
p0φ0(x)
et donc
P(Y = 1|X = x) =
exp(β x + log(p1/p0))
1 + exp(β x + log(p1/p0))
,
59

et de manière symm´trique
P(Y = 0|X = x) =
1
.
La vraisemblance de β est alors
β|x =
i
φ0(xi)
i
φ1(xi)
or, d’après la formule de Bayes,
φ0(x) =
P(Y = 0|X = x)[p0φ0(x) + p1φ1(x)]
p0
et donc
β|x =
1
pn0
0 pn1
1 i
P(Y = 0|X = xi)
i
P(Y = 1|X = xi)
i
[f(xi)]
où f(xi) = p0φ0(x) + p1φ1(x). Cette fonction étant inconnue, on utilise une
60

méthode de maximum de vraisemblance conditionnelle,
max
β
exp(β x + log(p1/p0))
1
qui n’admet pas de solution explicite.
On utilise une règle d’affectation simple : on affecte au groupe 1 si
β x + log
p1
p0
> 0.
61

−4 −2 0 2 4
0.00.20.40.60.81.0
62

Cas multinomial ordonné
Dans le cas des notations des vins de Bordeaux, on peut condiérer les données
comme étant ordonnées. La variable Y prend les valeurs 1, 2 et 3.
On peut alors créer deux variables dichotomiques
Y1 =



0 si Y = 1
1 si Y = 2, 3
et Y2 =



0 si Y = 1, 2
1 si Y = 3
de telle sorte que Y = 1 + Y1 + Y2. On fait alors deux régressions, que l’on va
sommer
> BORDEAUX$y1=BORDEAUX$QUALITE>1
> BORDEAUX$y2=BORDEAUX$QUALITE>2
> r1 <- glm(y1~TEMPERAT+SOLEIL+CHALEUR+PLUIE, data=BORDEAUX, family=binomial)
> r2 <- glm(y2~TEMPERAT+SOLEIL+CHALEUR+PLUIE, data=BORDEAUX, family=binomial)
> BORDEAUX$y1p <- predict(r1, type=’response’)
> BORDEAUX$y2p <- predict(r2, type=’response’)
> BORDEAUX$yP=1+BORDEAUX$y1p+BORDEAUX$y2p
> BORDEAUX
63

TEMPERAT SOLEIL CHALEUR PLUIE QUALITE y1 y2 yP y1p y2p
1 3064 1201 10 361 2 TRUE FALSE 2.123215 0.9902598703 1.329547e-01
2 3000 1053 11 338 3 TRUE TRUE 2.978320 0.9988771543 9.794432e-01
3 3155 1133 19 393 2 TRUE FALSE 2.756925 0.9823799308 7.745449e-01
4 3085 970 4 467 3 TRUE TRUE 2.975201 0.9997584698 9.754428e-01
5 3245 1258 36 294 1 FALSE FALSE 1.335511 0.3114261037 2.408500e-02
6 3267 1386 35 225 1 FALSE FALSE 1.025203 0.0252024785 3.309122e-07
7 3080 966 13 417 3 TRUE TRUE 2.998444 0.9994389749 9.990046e-01
8 2974 1189 12 488 3 TRUE TRUE 2.999847 0.9998466254 1.000000e+00
9 3038 1103 14 677 3 TRUE TRUE 2.999992 0.9999924418 1.000000e+00
10 3318 1310 29 427 2 TRUE FALSE 1.485805 0.4513896402 3.441497e-02
11 3317 1362 25 326 1 FALSE FALSE 1.077266 0.0772657691 1.882255e-08
12 3182 1171 28 326 3 TRUE TRUE 2.194081 0.8655663939 3.285148e-01
13 2998 1102 9 349 3 TRUE TRUE 2.954208 0.9986316794 9.555765e-01
14 3221 1424 21 382 1 FALSE FALSE 1.464454 0.4632192585 1.234297e-03
64

Cas multinomial nonordonné
Sinon sous R, on utilise plus généralement la commande suivante
> library(nnet)
> (M=multinom(QUALITE~TEMPERAT+SOLEIL+CHALEUR+PLUIE, data=BORDEAUX))
converged
Call:
multinom(formula = QUALITE ~ TEMPERAT + SOLEIL + CHALEUR + PLUIE,
data = BORDEAUX)
Coefficients:
(Intercept) TEMPERAT SOLEIL CHALEUR PLUIE
2 55.84574 -0.01534060 -0.008522957 -0.03456657 0.01639574
3 222.75077 -0.07528596 -0.020627710 0.51944417 0.08425525
Residual Deviance: 22.46474
AIC: 42.46474
> predict(M)
[1] 2 3 3 3 1 1 3 3 3 1 1 2 3 1 2 2 2 3 2 1 1 1 2 1 2 1 1 3 1 2 3 2 3 3
Levels: 1 2 3
> BORDEAUX$QUALITE
65

[1] 2 3 2 3 1 1 3 3 3 2 1 3 3 1 2 2 2 3 2 1 2 1 2 1 2 1 2 3 1 1 3 1 3 3
66

Analyse discriminante et ACP
Il est possible de voir l’analyse discriminante comme un cas particulier d’ACP
avec la métrique de Mahalanobis.
Soit X la matrice des données quantitatives, n × k. On dispose d’une variable Y
prenant m modalités (le plus simple étant 2). On note alors G la matrice des
barycentres des classes, i.e. m × k.
67

L’analyse discriminante avec R
Sous R, la library(ade4) propose la fonction discrim. Sinon library(MASS) propose la
fonction lda.
Sinon, les r´egressions probit et logit sont des cas particulier de la fonction glm,
avec
glm( ... , family=binomial(link = "logit")
glm( ... , family=binomial(link = "probit")
68

Cours add-r1-part5

Recomendados

Recomendados

Mais conteúdo relacionado

Destaque

Destaque (20)

Mais de Arthur Charpentier

Mais de Arthur Charpentier (20)

Cours add-r1-part5