SlideShare uma empresa Scribd logo
1 de 68
Baixar para ler offline
Arthur CHARPENTIER - Analyse des donn´ees
Analyse des donn´ees (5)
L’Analyse Discriminante, ou Scoring
Arthur Charpentier
http ://perso.univ-rennes1.fr/arthur.charpentier/
blog.univ-rennes1.fr/arthur.charpentier/
Master 2, Universit´e Rennes 1
1
Arthur CHARPENTIER - Analyse des donn´ees
L’analyse discriminante
On cherche ici `a discriminer entre deux ou plusieurs classes, d´efinies par les
modalit´es d’une variable Y , qualitative, `a partir d’un certain nombre de variables
explicatives X1, · · · , Xk (appel´ees pr´edicteurs), suppos´es quantitatifs.
Les classes sont ici d´efinies a priori (via la variable Y ). Deux types de
discrimination sont men´ees en pratique
• `a but descriptif : on cherche quelles sont les variables explicative (Xj) qui
discriminent le mieux
• `a but predictif : on cherche `a affecter un individu dans une classe, `a partir de
ses variables explicatives. On parle alors de scoring
On va alors chercher les variables explicatives les plus discriminantes vis vis des
classes dtermines.
On pourra alors dterminer quel groupe appartient un individu partir de ses
caractristiques.
Par rapport aux techniques de classification on intervient ici a posteriori : Y est
la classe (que l’on cherche `a expliquer).
2
Arthur CHARPENTIER - Analyse des donn´ees
Exemple introductif : infarctus du myocarde
Consid´erons la base suivantes, extraite de Saporta (1990), concernant des
victimes d’infarctus du myocarde, qui ont ´et´e mesur´es `a leur admission, avec la
f´equence cardiaque (FRCAR), un indcex cardiaque(INCAR), index systolique
(INSYS), pression diastolique (PRDIA), pression art´erielle pulmonaire (PAPUL),
pression venticulaire (PVENT) et r´esistance pulmonaire (REPUL).
> (MYOCARDE=read.table("http://perso.univ-rennes1.fr/arthur.charpentier/
+ saporta.csv",head=TRUE,sep=";"))
FRCAR INCAR INSYS PRDIA PAPUL PVENT REPUL PRONO
1 90 1.71 19.0 16 19.5 16.0 912 SURVIE
2 90 1.68 18.7 24 31.0 14.0 1476 DECES
3 120 1.40 11.7 23 29.0 8.0 1657 DECES
4 82 1.79 21.8 14 17.5 10.0 782 SURVIE
5 80 1.58 19.7 21 28.0 18.5 1418 DECES
6 80 1.13 14.1 18 23.5 9.0 1664 DECES
7 94 2.04 21.7 23 27.0 10.0 1059 SURVIE
8 80 1.19 14.9 16 21.0 16.5 1412 SURVIE
9 78 2.16 27.7 15 20.5 11.5 759 SURVIE
10 100 2.28 22.8 16 23.0 4.0 807 SURVIE
3
Arthur CHARPENTIER - Analyse des donn´ees
11 90 2.79 31.0 16 25.0 8.0 717 SURVIE
12 86 2.70 31.4 15 23.0 9.5 681 SURVIE
13 80 2.61 32.6 8 15.0 1.0 460 SURVIE
On essaye de comprendre qui va survivre `a l’infarctus, et qui va d´ec´eder.
On peut faire un peu de statistique descriptive sur les deux sous-groupes.
> apply(MYOCARDE[MYOCARDE$PRONO=="DECES",1:7],2,mean)
FRCAR INCAR INSYS PRDIA PAPUL PVENT REPUL
91.551724 1.397931 15.531034 21.448276 28.431034 11.844828 1738.689655
> apply(MYOCARDE[MYOCARDE$PRONO=="SURVIE",1:7],2,mean)
FRCAR INCAR INSYS PRDIA PAPUL PVENT REPUL
87.690476 2.318333 27.202381 15.976190 22.202381 8.642857 817.214286
> apply(MYOCARDE[MYOCARDE$PRONO=="DECES",1:7],2,sd)
FRCAR INCAR INSYS PRDIA PAPUL PVENT REPUL
15.2844136 0.3808954 4.4162932 5.0750525 7.1009609 4.4843049 616.3684023
> apply(MYOCARDE[MYOCARDE$PRONO=="SURVIE",1:7],2,sd)
FRCAR INCAR INSYS PRDIA PAPUL PVENT REPUL
14.589485 0.574388 8.484433 5.125204 6.574210 4.219996 313.039508
4
Arthur CHARPENTIER - Analyse des donn´ees
q
q
q
DECES SURVIE
60708090100110120
q
DECES SURVIE
1.01.52.02.53.0
q
q
q
DECES SURVIE
1020304050
q
q
DECES SURVIE
101520253035
q
q
DECES SURVIE
1015202530354045
DECES SURVIE
5101520
5
Arthur CHARPENTIER - Analyse des donn´ees
En supposant que l’on a des vecteurs Gaussiens, on peut tester l’´egalit´e globale
via un test de Fisher,
> MYOCARDE.manova<-manova(cbind(FRCAR,INCAR,INSYS,PRDIA,PAPUL,PVENT,REPUL)~PRONO,data=MYO
> MYOCARDE.manova
Call:
manova(cbind(FRCAR, INCAR, INSYS, PRDIA, PAPUL, PVENT, REPUL) ~
PRONO, data = MYOCARDE)
Terms:
PRONO Residuals
resp 1 256 15268
resp 2 15 18
resp 3 2337 3498
resp 4 514 1798
resp 5 666 3184
resp 6 176 1293
resp 7 14566540 14655223
Deg. of Freedom 1 69
Residual standard error: 14.8754 0.50489 7.119591 5.104912 6.79289 4.329197 460.8628
6
Arthur CHARPENTIER - Analyse des donn´ees
Estimated effects may be unbalanced
> summary(MYOCARDE.manova,test="Wilks")
Df Wilks approx F num Df den Df Pr(>F)
PRONO 1 0.4545 10.8034 7 63 7.312e-09 ***
Residuals 69
---
Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1
La variable discriminante est obtenu par combinaison lin´eaire des 7 variables
centr´ees sur la moyenne g´en´erale des 2 groupes.
> lda(PRONO~.,data=MYOCARDE)
Call:
lda(PRONO ~ ., data = MYOCARDE)
Prior probabilities of groups:
DECES SURVIE
0.4084507 0.5915493
Group means:
FRCAR INCAR INSYS PRDIA PAPUL PVENT REPUL
DECES 91.55172 1.397931 15.53103 21.44828 28.43103 11.844828 1738.6897
7
Arthur CHARPENTIER - Analyse des donn´ees
SURVIE 87.69048 2.318333 27.20238 15.97619 22.20238 8.642857 817.2143
Coefficients of linear discriminants:
LD1
FRCAR -0.012743116
INCAR 1.074534545
INSYS -0.019139867
PRDIA -0.025483955
PAPUL 0.020177505
PVENT -0.037804074
REPUL -0.001353977
On pourrait tenter une ACP sur les 6 premi`eres variables, et regarder le nuage
des individus, pour voir si l’on arrive `a discriminer “simplement”.
library(ade4)
mesures=MYOCARDE[,1:6]
acp <- dudi.pca(mesures,scann = FALSE, nf = 3)
s.class(acp$li, fac=MYOCARDE$PRONO,col=c("red","blue"),xax = 1, yax = 2)
8
Arthur CHARPENTIER - Analyse des donn´ees
FRCARINCAR
INSYS
PRDIA
PAPUL
PVENT
d = 1
1
2
3
4 5
6
7
8
9
1011
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38 39
40 41
42
43
44
45
46
47
48
49
50
5152
53
54
55
56
57
58
59
60 61
62
63
64
65
66
67
68
69
70
71
9
Arthur CHARPENTIER - Analyse des donn´ees
d = 1
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
DECES
SURVIE
10
Arthur CHARPENTIER - Analyse des donn´ees
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
−4 −2 0 2 4
−3−2−1012
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
−4 −2 0 2 4
−3−2−1012
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
Les points dans la r´egion inf´erieure gauche sont pronostiqu´e “survie” et dans la
partie sup´erieure droite “d´ec`es”. On peut alors comparer les valeurs observ´ees Y
`a ces pr´ediction Y
> table(PRONOSTIC,MYOCARDE$PRONO)
11
Arthur CHARPENTIER - Analyse des donn´ees
PRONOSTIC DECES SURVIE
SURVIE 14 34
DECES 15 8
Yi = 0 Yi = 1
Yi = 0 vrai n´egatif faux n´egatif
Yi = 1 faux positif vrai positif
Parmi les mesures de performance de la pr´ediction,
P(Y = 1|Y = 1) est appel´e pr´ecision
P(Y = 1|Y = 1) est appel´e taux de vrais positifs
P(Y = 1|Y = 0) est appel´e taux de faux positifs
On peut ´eventuellement repr´esenter le taux de vrais positifs en fonction du taux
de faux positifs.
Comme on essaye d’expliquer Y (un pronostic binaire) par plusieurs variables
continues, on pourrait utiliser une r´egression logistique, ou probit.
12
Arthur CHARPENTIER - Analyse des donn´ees
> glm(Y~.-PRONO,data=MYOCARDE, family=binomial(link = "logit"))
Call: glm(formula = Y ~ . - PRONO, family = binomial(link = "logit"),data = MYOCARDE)
Coefficients:
(Intercept) FRCAR INCAR INSYS PRDIA PAPUL PVENT
-10.187642 0.138178 -5.862429 0.717084 -0.073668 0.016757 -0.106776
Degrees of Freedom: 70 Total (i.e. Null); 63 Residual
Null Deviance: 96.03
Residual Deviance: 41.04 AIC: 57.04
> glm(Y~.-PRONO,data=MYOCARDE, family=binomial(link = "probit"))
Call: glm(formula = Y ~ . - PRONO, family = binomial(link = "probit"),data = MYOCARDE)
Coefficients:
(Intercept) FRCAR INCAR INSYS PRDIA PAPUL PVENT
-4.677478 0.072674 -3.071761 0.366205 -0.040006 0.009804 -0.063314
Degrees of Freedom: 70 Total (i.e. Null); 63 Residual
Null Deviance: 96.03
13
Arthur CHARPENTIER - Analyse des donn´ees
Residual Deviance: 40.97 AIC: 56.97
On peut alors regarder les pr´edictions donn´ees par ces mod`eles.
> r.logit <- glm(Y~.-PRONO,data=MYOCARDE, family=binomial(link = "logit"))
> Y.logit <- predict(r.logit, type=’response’)
> r.probit <- glm(Y~.-PRONO,data=MYOCARDE, family=binomial(link = "probit"))
> Y.probit <- predict(r.probit, type=’response’)
> cbind(MYOCARDE$Y,Y.logit,Y.probit)
[,1] [,2] [,3]
1 1 0.601 0.613
2 0 0.169 0.175
3 0 0.328 0.338
4 1 0.881 0.882
5 0 0.142 0.143
6 0 0.057 0.060
7 1 0.679 0.668
8 1 0.078 0.087
9 1 0.967 0.968
10 1 0.945 0.951
11 1 0.985 0.989
12 1 0.989 0.992
14
Arthur CHARPENTIER - Analyse des donn´ees
13 1 0.999 0.999
14 1 0.999 0.999
15 1 0.988 0.992
Plus le score est proche de 0, plus on devrait se prononcer pour un d´ec`es, plus il
est proche de 1, plus on devrait ˆetre confiant dans une survie.
De mani`ere “naturelle”, on peut fixer ce seuil `a 50% : si Y < .5 on pronostique
Y = 0, et si Y = 1 si Y > .5.
On obtient alors les classements suivants, avec le mˆeme tableau pour les mod`eles
probit et logit
Yi = 0 Yi = 1
Yi = 0 vrai n´egatif faux n´egatif
Yi = 1 faux positif vrai positif
Yi = 0 Yi = 1
Yi = 0 25 3
Yi = 1 4 39
Mais le seuil de 50% a ´et´e fix´e artibtrairement. En prenant des seuils `a 30% ou
70%, on peut changer les r´esultats,
15
Arthur CHARPENTIER - Analyse des donn´ees
Yi = 0 Yi = 1
Yi = 0 22 2
Yi = 1 7 40
Yi = 0 Yi = 1
Yi = 0 26 9
Yi = 1 3 33
Dans un cas, on diminue le nombre de faux n´egatif, en augmentant le nombre de
faux positif, et l’inverser pour l’autre choix.
On a alors un trade off sur le choix du seuil : on ne peut pas bien d´etecter tout le
monde ! Ce probl`eme apparaissait ´egalement sur l’ACP, lorsque l’on coupait la
r´egion en 2.
16
Arthur CHARPENTIER - Analyse des donn´ees
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
−4 −2 0 2 4
−3−2−1012
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
−4 −2 0 2 4
−3−2−1012
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
Notons qu’on peut “tester” la pertinence de notre classement,
> library(ROCR)
> pred=prediction(Y.probit,MYOCARDE$PRONO)
> perf=performance(pred,’tpr’,’fpr’)
> plot(perf)
17
Arthur CHARPENTIER - Analyse des donn´ees
False positive rate
Truepositiverate
0.0 0.2 0.4 0.6 0.8 1.0
0.00.20.40.60.81.0
00.20.410.610.811.01
False positive rate
Truepositiverate 0.0 0.2 0.4 0.6 0.8 1.0
0.00.20.40.60.81.0
00.20.410.610.811.01
18
Arthur CHARPENTIER - Analyse des donn´ees
Exemple introductif : les vins de Bordeaux
On consid`ere des d´egustation de Bordeaux, sur 34 ann´ees entre 1924 et 1957.
> BORDEAUX=read.table("http://perso.univ-rennes1.fr/arthur.charpentier/
+ bordeaux_R.txt",head=TRUE)
> BORDEAUX=BORDEAUX[,-1]
> head(BORDEAUX,8)
NUMERO TEMPERAT SOLEIL CHALEUR PLUIE QUALITE
1 1 3064 1201 10 361 2
2 2 3000 1053 11 338 3
3 3 3155 1133 19 393 2
4 4 3085 970 4 467 3
5 5 3245 1258 36 294 1
6 6 3267 1386 35 225 1
7 7 3080 966 13 417 3
8 8 2974 1189 12 488 3
19
Arthur CHARPENTIER - Analyse des donn´ees
1 2 3
2900300031003200330034003500
1 2 3
100011001200130014001500
q
1 2 3
10203040
1 2 3
300400500600
20
Arthur CHARPENTIER - Analyse des donn´ees
On cherche une analyse discriminante s´eparant au mieux ldes k classes,
Z1 = α0 +
p
j=1
αjXj
> lda(QUALITE~.,data=BORDEAUX)
Call:
lda(QUALITE ~ . + 1, data = BORDEAUX)
Prior probabilities of groups:
1 2 3
0.3235294 0.3235294 0.3529412
Group means:
TEMPERAT SOLEIL CHALEUR PLUIE
1 3306.364 1363.636 28.54545 305.0000
2 3140.909 1262.909 16.45455 339.6364
3 3037.333 1126.417 12.08333 430.3333
Coefficients of linear discriminants:
LD1 LD2
21
Arthur CHARPENTIER - Analyse des donn´ees
TEMPERAT 0.008566046 -4.625059e-05
SOLEIL 0.006773869 -5.329293e-03
CHALEUR -0.027054492 1.276362e-01
PLUIE -0.005865665 6.174556e-03
Proportion of trace:
LD1 LD2
0.9595 0.0405
On peut aussi centrer et r´eduire les variables,
X1 =
temperature − 3157.88
√
7668.456
, · · · , X4 =
pluie − 360
√
5758.039
.
> (M=apply(BORDEAUX,2,mean))
TEMPERAT SOLEIL CHALEUR PLUIE QUALITE
3157.882353 1247.323529 18.823529 360.441176 2.029412
> (S=apply(BORDEAUX,2,sd))
TEMPERAT SOLEIL CHALEUR PLUIE QUALITE
141.1843336 126.6229719 10.0165638 91.4016084 0.8343131
> BORDEAUX.CR=(BORDEAUX-matrix(rep(M,each=34),34,5))/matrix(rep(S,each=34),34,5)
22
Arthur CHARPENTIER - Analyse des donn´ees
> (LD=lda(QUALITE~.,data=BORDEAUX.CR))
Call:
lda(QUALITE ~ ., data = BORDEAUX.CR)
Prior probabilities of groups:
-1.23384339005595 -0.0352526682873127 1.16333805348132
0.3235294 0.3235294 0.3529412
Group means:
TEMPERAT SOLEIL CHALEUR PLUIE
-1.23384339005595 1.0516838 0.9185761 0.9705849 -0.6065667
-0.0352526682873127 -0.1202206 0.1230864 -0.2365067 -0.2276198
1.16333805348132 -0.8538413 -0.9548573 -0.6729050 0.7646710
Coefficients of linear discriminants:
LD1 LD2
TEMPERAT 1.2093914 -0.006529859
SOLEIL 0.8577274 -0.674810955
CHALEUR -0.2709930 1.278475787
PLUIE -0.5361312 0.564364371
23
Arthur CHARPENTIER - Analyse des donn´ees
Proportion of trace:
LD1 LD2
0.9595 0.0405
> PLD=predict(LD)$x
> boxplot(PLD~BORDEAUX$QUALITE)
On peut aussi utiliser la seconde variable disciminante, centr´ee, mais non corr´el´ee
`a Z1,
Z2 = β0 +
p
j=1
βjXj
On obtient les deux box-plot suivants
24
Arthur CHARPENTIER - Analyse des donn´ees
1 2 3
−4−2024
1 2 3
−1012
> X=predict(LD)$x[,1]; Y=predict(LD)$x[,2]
> plot(X,Y,col=BORDEAUX$QUALITE)
25
Arthur CHARPENTIER - Analyse des donn´ees
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
−4 −2 0 2 4
−1012
1
2
3
4
5
6
7
8
9
10
11
12
13 14
15
16
17
18
19
20
21
22
23
24
25
26
2728
29
30
31
32
33
34
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
−4 −2 0 2 4
−1012
1
2
3
4
5
6
7
8
9
10
11
12
13 14
15
16
17
18
19
20
21
22
23
24
25
26
2728
29
30
31
32
33
34 q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
−4 −2 0 2 4
−4−2024
1
2
3
4
5
6
7
8
9
10
11
12
13 14
15
16
17
18
19
20
21 22
23
24
25
26
2728
29
30
31
32
33
34
26
Arthur CHARPENTIER - Analyse des donn´ees
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
−4 −2 0 2 4
−4−2024
1
2
3
4
5
6
7
8
9
10
11
12
13 14
15
16
17
18
19
20
21 22
23
24
25
26
2728
29
30
31
32
33
34
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
−4 −2 0 2 4
−4−2024
1
2
3
4
5
6
7
8
9
10
11
12
13 14
15
16
17
18
19
20
21 22
23
24
25
26
2728
29
30
31
32
33
34
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
−4 −2 0 2 4
−4−2024
1
2
3
4
5
6
7
8
9
10
11
12
13 14
15
16
17
18
19
20
21 22
23
24
25
26
2728
29
30
31
32
33
34
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
−4 −2 0 2 4
−4−2024
q
1
2
3
4
5
6
7
8
9
10
11
12
13 14
15
16
17
18
19
20
21 22
23
24
25
26
2728
29
30
31
32
33
34
27
Arthur CHARPENTIER - Analyse des donn´ees
> AJUST=cbind(BORDEAUX[,5],predict(LD)$class,
+ BORDEAUX[,5]==as.numeric(predict(LD)$class))
> AJUST
[,1] [,2] [,3]
[1,] 2 2 1
[2,] 3 3 1
[3,] 2 3 0
[4,] 3 3 1
[5,] 1 1 1
[6,] 1 1 1
[7,] 3 3 1
[8,] 3 3 1
[9,] 3 3 1
[10,] 2 1 0
[11,] 1 1 1
[12,] 3 2 0
[13,] 3 3 1
[14,] 1 1 1
[15,] 2 2 1
[16,] 2 2 1
[17,] 2 2 1
28
Arthur CHARPENTIER - Analyse des donn´ees
[18,] 3 3 1
[19,] 2 2 1
> table(as.factor(as.numeric(AJUST[,1])),as.factor(as.numeric(AJUST[,2])))
1 2 3
1 9 2 0
2 2 8 1
3 0 2 10
29
Arthur CHARPENTIER - Analyse des donn´ees
Le reclassement
> lda(PRONO~.,data=MYOCARDE,prior=c(0.5,0.5),CV=TRUE)
> lda(PRONO~.-Y,data=MYOCARDE,prior=c(0.5,0.5),CV=TRUE)
$class
[1] DECES DECES DECES SURVIE DECES DECES SURVIE DECES SURVIE SURVIE SURVIE SURVIE S
[20] SURVIE SURVIE DECES SURVIE DECES SURVIE DECES DECES SURVIE SURVIE SURVIE SURVIE D
[39] DECES SURVIE DECES DECES SURVIE SURVIE DECES SURVIE DECES DECES DECES DECES S
[58] SURVIE SURVIE SURVIE DECES SURVIE DECES DECES SURVIE SURVIE DECES DECES SURVIE S
Levels: DECES SURVIE
$posterior
DECES SURVIE
1 0.502843989 0.4971560108
2 0.760428401 0.2395715991
3 0.898718532 0.1012814675
4 0.205819247 0.7941807532
5 0.767586744 0.2324132563
6 0.891944506 0.1080554941
[...]
67 0.988907194 0.0110928057
30
Arthur CHARPENTIER - Analyse des donn´ees
68 0.913385833 0.0866141669
69 0.038344052 0.9616559479
70 0.023091939 0.9769080611
71 0.017904179 0.9820958214
On peut changer les proportions attendues,
> lda(PRONO~.-Y,data=MYOCARDE,prior=c(0.3,0.7),CV=TRUE)
$posterior
DECES SURVIE
1 0.3023943986 0.6976056014
2 0.5763315167 0.4236684833
3 0.7917932260 0.2082067740
4 0.0999652630 0.9000347370
5 0.5859958160 0.4140041840
6 0.7796213462 0.2203786538
[...]
67 0.9744940304 0.0255059696
68 0.8188235413 0.1811764587
69 0.0168012965 0.9831987035
31
Arthur CHARPENTIER - Analyse des donn´ees
70 0.0100288802 0.9899711198
71 0.0077525353 0.9922474647
Dans le cas multinomial (plus de 2 modalit´es)
> B.LDA=lda(QUALITE~.,data=BORDEAUX,prior=c(1/3,1/3,1/3),CV=TRUE)
$class
[1] 2 3 3 3 2 1 3 3 3 1 1 2 3 2 2 2 2 3 2 1 2 1 2 1 2 1 1 3 1 2 3 2 2 3
Levels: 1 2 3
$posterior
1 2 3
1 7.037459e-03 6.295202e-01 3.634423e-01
2 7.537421e-05 5.994089e-02 9.399837e-01
3 8.143494e-03 1.822480e-01 8.096085e-01
4 1.134597e-05 2.619176e-02 9.737969e-01
5 2.536909e-01 6.212299e-01 1.250793e-01
6 8.973327e-01 1.025057e-01 1.615276e-04
7 1.127037e-05 9.005366e-03 9.909834e-01
On peut visualiser la pr´ediction du score,
> barplot(t(B.LDA$posterior),col=c("blue","green","red"))
32
Arthur CHARPENTIER - Analyse des donn´ees
q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q
0 5 10 15 20 25 30 35
0.00.20.40.60.81.0
33
Arthur CHARPENTIER - Analyse des donn´ees
Les tests
La statistique la plus classique est le taux de bien class´es, i.e. P(Y = Y ).
Notons que le tableau de classement (ou matrice de confusion) est un tableau de
contingence, et on peut tester le charactere significatif de la pr´ediction par un
test du χ2
.
Le test du Lambda de Wilks permet de tester si les vecteurs des moyennes pour
les diffrentes groupes sont gaux ou non (ce test peut tre compris comme un
quivalent multidimensionnel du test de Fisher).
Le test du V de Rao mesure la distance entre les centre des groupes, et la
moyenne globale.
En fait ces tests ne sont possibles qu’`a condition d’avoir des vecteurs Gaussiens,
avec en plus une hypoth`ese d´egalit´e des matrices de variance-covariance dans
chaque groupe.
34
Arthur CHARPENTIER - Analyse des donn´ees
On peut utiliser un test de Kullback pour faire ce test, en notant que
k
i=1
ni − 1
2
log
det D
det Di
∼ χ2
sous H0,
o`u D est la matrice de variance covariance intra-groupe, Di est la matrice de
variance-covariance pour le groupe i, et ni d´esigne le nombre d’observations dans
le groupe i.
35
Arthur CHARPENTIER - Analyse des donn´ees
Un peu de formalisation
Pour commencer, supposons que Y prenne 2 modalit´es, not´ees 0 et 1. On suppose
que les m variables Xj sont continues.
Soient X0 = (X
Y =0
1 , · · · , X
Y =0
m ), X1 = (X
Y =1
1 , · · · , X
Y =1
m ),
V0 = [cov(X
Y =0
i , X
Y =0
j )] et V1 = [cov(X
Y =1
i , X
Y =1
j )].
On pose ´egalement X = (X1, · · · , Xm) et V = [cov(Xi, Xj)] (sur l’ensemble de
la population).
On note enfin ω0 et ω1 les poids de chacune des classes.
On appelle matrice de variance intercalsse la matrice de variance B des 2 centre
de gravit´es,
B =
1
k=0
ωk(Xk − X )(Xk − X ) ,
36
Arthur CHARPENTIER - Analyse des donn´ees
et W la matrice de variance interclasse W, moyenne des matrices Vk, i.e.
W =
1
k=0
ωkVk.
Notons que W est g´en´erallement inversible, alor que B ne l’est pas. La formule de
d´ecomposition de la variance donne
V = W + B
(la variance totale est la somme de la moyenne des variances et de la variance des
moyennes).
On supposera les variables centr´ees, i.e. X = 0, i.e.
B =
1
k=0
ωkXkXk et W =
1
k=0
ωkVk, o`u ωk =
nk
n
.
On consid`ere le tableau compos´e de la variable Y , ou plus g´en´eralement du
tableau disjonctif associ´e, not´e A, et du tableau X des variables explicatives.
37
Arthur CHARPENTIER - Analyse des donn´ees
Notons que les 2 centres de gravit´es X0 et X1 sont mes lignes de la matrice
(A DA)−1
(A DX) o`u D est la matrice est la matrice des poids individuels.
38
Arthur CHARPENTIER - Analyse des donn´ees
L’analyse factorielle discriminante (AFD) consiste `a chercher des variables
disciminantes correspondant `a des vecteurs dans Rm
qui s´eparent au mieux le
nuage en k groupes.
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq q
q
q
q
q
q
q
q
q
q q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq q
q
q
q
q
q
qq
q
q
q
q
q
qq
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q qqq
q
q
q
q
q
q
qqq
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
qq
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
qq
q
q
q
−2 0 2 4 6
−2024
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq q
q
q
q
q
q
q
q
q
q q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq q
q
q
q
q
q
qq
q
q
q
q
q
qq
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q qqq
q
q
q
q
q
q
qqq
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
qq
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
qq
q
q
q
39
Arthur CHARPENTIER - Analyse des donn´ees
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq q
q
q
q
q
q
q
q
q
q q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq q
q
q
q
q
q
qq
q
q
q
q
q
qq
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q qqq
q
q
q
q
q
q
qqq
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
qq
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
qq
q
q
q
−2 0 2 4 6
−2024
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq q
q
q
q
q
q
q
q
q
q q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq q
q
q
q
q
q
qq
q
q
q
q
q
qq
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q qqq
q
q
q
q
q
q
qqq
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
qq
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
qq
q
q
q
q
qq
q
q
q
q
qq
q
qq
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
qqq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qqq
qq
q
qq
q
q
q
q
q
q
qq
qq
qq
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
qq
q
q
q
q
qq
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
−4 −2 0 2 4 6
0.000.050.100.150.200.250.300.35
q qq qq q qq qq qq qqq qqqq qq qqqqq qq qqq qq qq q qqqq q qqq qqq qqq qqqq qq q qq qq qq qq qqq qq q qqqqq q qqq qq q qqqq qqqq qqq qqq qqqq qq q q qq qq q qq q qqq qq qq q qq qqq qq qqq q qq qqq qq qq q qq qqq qqqq qqq qqq q qq qq qq q qqqqq qq qqqq qq qq qq qqq qq qq qqqq qq q qq qq
q qqqq qqqq qq qqq qq qq q q qqqqqq qq qq q qq q q qqq q qqqqq qq qq qq q q qq q qq qq qqq q qqq q qqq qq qq qq qqq qq qq q qqq qqq qqqq qq qqqq qq q qqqq q qqq q qqqq q qqq qq q q qq q qq qqq qqq qqqqq qq qq q qqq q qqq q q q qqq qqqqqq qq qq qqq qq qq qqqqq qqq qqqqq q qq qqq q qqq qq
40
Arthur CHARPENTIER - Analyse des donn´ees
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq q
q
q
q
q
q
q
q
q
q q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq q
q
q
q
q
q
qq
q
q
q
q
q
qq
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q qqq
q
q
q
q
q
q
qqq
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
qq
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
qq
q
q
q
−2 0 2 4 6
−2024
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq q
q
q
q
q
q
q
q
q
q q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq q
q
q
q
q
q
qq
q
q
q
q
q
qq
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q qqq
q
q
q
q
q
q
qqq
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
qq
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
qq
qq
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qqq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
qq
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
qq
q
q
q
q
qq
q
q
q
q
qq
qq
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
qq
q
q
q
q
−4 −2 0 2 4 6
0.000.050.100.150.200.250.300.35
qqq qq qq qqq qq q q qqqq q qq qq qqq qqq q q qqqqqq qqq q qqq q qqq qq q qqq qq qq qq qq q qqqq qq q q qq q qq qq qqqq qq qqqq q qq q qq q qq qq qq qqq q qq qqq qqq qq qq q qqq qq qq q qqq qq qq qqqqqqq qq qqq qq qqqqq qqqq q qqqqq q q qqq q qqq qq qq q qq qqqq qq qq qqq q qq qq qq qqqq
qq q qqqq qq qqqqqq q qqqq qq qq qq q qq q qq qq qq qqq q qqq qq q q qq qqq qq q qqq qqq qqqq qq qqq q qqq q qqqq qqq qq qq qq q qqq qqq q q q qq qq qq q q q qqq qqqq qq qqq q q q qq q q qq qqqq q qq q qq q qqq qq qq q qq qq qq qqqq qq q qqqq qq qq q q qqqq qq qq qqq qqqqq q q qq q qqqqqq q qq
41
Arthur CHARPENTIER - Analyse des donn´ees
On cherche un axe ayant un bon pouvoir disciminant (entre les groupes), comme
l’axe dans le second cas.
En particulier, en projetant les centres de gravit´es des nuages, il faut que la
dispersion soit maximale.
La matrice d’inertie du nuage de X0 et X1 est MBM (o`u M est une m´etrique de
Rm
), et l’inertie du nuage project´e selon un axe a est alors a MBMa (si
a M = 1). On cherche alors `a maximiser a MBMa.
On souhaite aussi `a ce que le nuage soit regroup´e autour du centre de gravit´e (n
projection), que qui revient `a minimiser a MWMa
En utilisant V = B + W, on obtient que
a MV Ma = a MBMa + a MWMa
On peut alors prendre comme crit`ere `a maximiser est le rapport de l’inertie
interclasse `a l’inertie totale,
max
a{a MBMa
a MV Ma }.
42
Arthur CHARPENTIER - Analyse des donn´ees
Ce maximum est atteint si a est vecteur propre de (MV M)−1
MBM, associ´e `a la
plus grande valeur propre.
On fait alors l’ACP du nuage des centres de gravit´e, avec la m´etrique V −1
.
43
Arthur CHARPENTIER - Analyse des donn´ees
Analyse de la variance ?
Une autre interpr´etation peut se faire en terme d’analyse de la variance.
A la base, l’analyse de la variance (ANOVA `a un facteur) se fait de la mani`ere
suivante : on dispose de k groupes. On dispose d’observations {X1,i, · · · , Xni,i}
pour le groupe i. En supposant Xj,i ∼ N(µi, σ2
), i.i.d. On cherche `a tester
H0 : µ1 = · · · = µi = · · · = µk (= µ).
L’id´ee de l’analyse de la variance est d’utiliser un test de Fisher, en notant que
F =
S2
E
k − 1
·
n − k
S2
R
∼ F(k − 1, n − k),
o`u S2
=
1
n i,j
(Xj,i − X)2
= S2
E + S2
R,
S2
E =
1
n i
ni(Xi − X)2
et S2
R =
1
n i,j
(Xi,j − Xi)2
.
(d´ecomposition de la variance, entre variance inter S2
E et variance intra S2
R).
44
Arthur CHARPENTIER - Analyse des donn´ees
Mais ici, comme nous disposons que p variables explicatives, on cherche la
combinaison lin´eaire qui maximise une statistique de type Fisher. On cherche u
qui maximise
F =
u Bu
u Wu
.
La solution est de chercher le vecteur propre associ´e `a la plus valeur propre de
W−1
B (qui correspondent aux vecteurs propres de V −1
B).
Notons que la m´etrique associ´ee `a W−1
est parfois appel´ee m´etrique de
Mahalanobis.
45
Arthur CHARPENTIER - Analyse des donn´ees
Analyse de la variance avec 2 groupes
Comme k − 1 = 1, on recherche une unique variable discriminante.
Cet axe discriminant est alors la droite passant par les deux centres de gravit´e,
X0 et X1. Alors
u = V −1
(X0 − X1) ou W−1
(X0 − X1)
W−1
(X0 − X1) est appel´e fonction de Fisher. En fait, afin de normaliser, on
consid`ere plutˆot
n0 + n1 − 2
n1 + n2
W−1
Fisher en effet, cherchait la combinaison lin´eaire des variables explicatives telles
que le carr´e de la statistique de test prenne une valeur maximale, i.e.
max
u
(Y 0 − Y 1)
n0S2
0 + n1S2
1
n0 + n1 − 2
1
n0
+
1
n1
o`u Y = Xu.
46
Arthur CHARPENTIER - Analyse des donn´ees
Si l’on pose Σ =
n0 + n1
n0 + n1 − 2
W, on voit que la fonction de Fisher s’´ecrit
max
(u (X0 − X1))2
u Σu
,
c’est `a dire que u doit ˆetre proportionnel `a Σ(X0 − X1).
47
Arthur CHARPENTIER - Analyse des donn´ees
Interpr´etation en terme de r´egression
Notons que si l’on r´egresse brutalement Y sur X1, · · · , Xp, l’estimateur par
moindre carr´es s’´ecrit
β = (X X)−1
X Y = V −1
(X0 − X1).
Sur l’exemple pr´ec´dant,
> base
y x1 x2
[1,] 0 -0.06842752 1.0664922282
[2,] 0 -0.01273235 -1.8565790136
[3,] 0 -2.24507861 -2.3625561698
[4,] 0 0.62173134 -1.3233327477
[5,] 0 -1.06797642 -0.4757008868
[6,] 0 0.51384396 -0.0561551010
[...]
[395,] 1 1.95266073 2.2221802298
[396,] 1 3.32203741 0.6882211866
48
Arthur CHARPENTIER - Analyse des donn´ees
[397,] 1 1.35032036 0.7791709815
[398,] 1 1.30084249 2.1642225218
[399,] 1 2.61357210 1.9169049693
[400,] 1 0.31456394 -0.4377148839
> (r=lm(y~x1+x2,data=base))
Call:
lm(formula = y ~ x1 + x2)
Coefficients:
(Intercept) x1 x2
0.3736 0.1370 0.1209
> -coef(r)[2]/coef(r)[3]
x1
-1.133024
L’axe de discrimination sera alors de pente −1.13, et la constante refl`etera la
performance de la discrimination. Le plus classique ´etant (comme ici n1 = n0)
> (.5-coef(r)[1])/coef(r)[3]
49
Arthur CHARPENTIER - Analyse des donn´ees
(Intercept)
1.045773
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq q
q
q
q
q
q
q
q
q
q q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq q
q
q
q
q
q
qq
q
q
q
q
q
qq
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q qqq
q
q
q
q
q
q
qqq
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
qq
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
qq
q
q
q
−2 0 2 4 6
−2024
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq q
q
q
q
q
q
q
q
q
q q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq q
q
q
q
q
q
qq
q
q
q
q
q
qq
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q qqq
q
q
q
q
q
q
qqq
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
qq
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq q
q
q
q
q
q
q
q
q
q q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq q
q
q
q
q
q
qq
q
q
q
q
q
qq
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q qqq
q
q
q
q
q
q
qqq
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
qq
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
qq
q
q
q
−2 0 2 4 6
−2024
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq q
q
q
q
q
q
q
q
q
q q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq q
q
q
q
q
q
qq
q
q
q
q
q
qq
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q qqq
q
q
q
q
q
q
qqq
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
qq
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
qq
q
q
q
50
Arthur CHARPENTIER - Analyse des donn´ees
R`egle d’affectation
Une fois d´etermin´e la direction de l’axe de discrimination, il reste `a choisir o`u
positionner cet axe.
Une r`egle naturelle consiste `a calculer la distance de l’observation aux centres de
gravit´es, puis `a affecter en prenant la distance la plus faible. Mais il faut encore
choisir la distance `a retenir... La m´etrique la plus usuelle est celle de
Mahalanobis, i.e. W−1
.
51
Arthur CHARPENTIER - Analyse des donn´ees
M´ethode de scoring, approche bay´esienne
On cherche ici `a affecter un individu `a l’une des classes, compte tenu de ses
modalit´es x. On l’affecte `a la classe k pour laquelle la probabilit´e
P(Y = y|X = x) est maximale.
52
Arthur CHARPENTIER - Analyse des donn´ees
M´ethode de scoring, exemple Gaussien
Supposons que X|Y = y suive une loi Gaussienne, N(µy, Σy), i.e.
f(x|Y = y) =
1
(2π)k det Σy
exp −
1
2
(x − µy) Σ−1
y (x − µy) .
Le crit`ere que l’on cherche `a maximiser est alors pyf(x|Y = y), ou son
logarithme, i.e.
(x − µy) Σ−1
y (x − µy) − 2 log py + log det Σy.
On parle alors de r`egle d’affectation quadratique.
Si l’on suppose les matrices de variance-covariance Σy constante, on obtient une
r`egle d’affectation lin´eaire.
53
Arthur CHARPENTIER - Analyse des donn´ees
Exemple Gaussien, une variable explicative
−4 −2 0 2 4 6
0.000.050.100.150.200.25
qq qq qq qq qqq qq q qqq qq qqq q qq qq q qq qq qqq q qqq qqq qq qq qq qqq qq qq qq qqq qqqq q qq qq q qqq qq qq qq qq qq qq qq qq qqq qqqq q q qqqq q qq qq qqq qqq q q qqq qq qqq qq qq qqq qq qq qqq qq qq q qq qqq qq q qq qq qqq qq qqq q q qqq qq qqq q qqq qq q q qq qq q q qq q qq qqq q qqq qq
q q qq qq q qq qq qqq qq qqq q q qq qq q qqq qqqq q qqq qq q qq qq q qq qqq qq qq q q qq qq qq qqq qq qq qqq qqq qqq qqq qq q q qq qq qqq q qq qq qq q qq qqq q qqq qq q qqq qqq q q q qq qq qq q qq q qq q qq qq qq qqq qq q qqqqq q q qqq qq qq q qqqq qq qqq qqqqq qq q qq qq qqq qqq qqq qq qq q qq qq
54
Arthur CHARPENTIER - Analyse des donn´ees
Exemple Gaussien, deux variable explicative
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
qq
q
qq
q
q
q q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q qq
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
−2 0 2 4 6
−4−20246
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
qq
q
qq
q
q
q q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q qq
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
qq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.005
0.01
0.015
0.02
0.025
0.03
0.035
0.01
0.02
0.02
0.03
0.03
0.04
0.05
0.06
0.07
55
Arthur CHARPENTIER - Analyse des donn´ees
Exemple Gaussien, interpr´etation
si les probabilit´es py sont ´gales, alors on affecte l’individu `a la classe pour laquelle
la distance entre x et le centre de gravit´e du nuage est minimale.
Si l’on a deux groupes, on affecte x `a la classe 0 si
x Σ−1
(µ0 − µ1) >
1
2
(µ0 − µ1) Σ−1
(µ0 − µ1) + log
p1
p0
.
On parlera de m´ethodes param´etriques de classification. Notons qu’il est possible
d’utiliser des m´ethodes de type k-plus proches voisins, o`u on recherche les k
voisins les plus proches de x, et x sera affect´e `a la classe majoritaire parmi ses
voisins.
56
Arthur CHARPENTIER - Analyse des donn´ees
L’utilisation des r´egressions
qq qq qq qq qqq qq q qqq qq qqq q qq qq q qq qq qqq q qqq qqq qq qq qq qqq qq qq qq qqq qqqq q qq qq q qqq qq qq qq qq qq qq qq qq qqq qqqq q q qqqq q qq qq qqq qqq q q qqq qq qqq qq qq qqq qq qq qqq qq qq q qq qqq qq q qq qq qqq qq qqq q q qqq qq qqq q qqq qq q q qq qq q q qq q qq qqq q qqq qq
−4 −2 0 2 4
0.00.20.40.60.81.0
q q qq qq q qq qq qqq qq qqq q q qq qq q qqq qqqq q qqq qq q qq qq q qq qqq qq qq q q qq qq qq qqq qq qq qqq qqq qqq qqq qq q q qq qq qqq q qq qq qq q qq qqq q qqq qq q qqq qqq q q q qq qq qq q qq q qq q qq qq qq qqq qq q qqqqq q q qqq qq qq q qqqq qq qqq qqqqq qq q qq qq qqq qqq qqq qq qq q qq qq
qq qq qq qq qqq qq q qqq qq qqq q qq qq q qq qq qqq q qqq qqq qq qq qq qqq qq qq qq qqq qqqq q qq qq q qqq qq qq qq qq qq qq qq qq qqq qqqq q q qqqq q qq qq qqq qqq q q qqq qq qqq qq qq qqq qq qq qqq qq qq q qq qqq qq q qq qq qqq qq qqq q q qqq qq qqq q qqq qq q q qq qq q q qq q qq qqq q qqq qq
57
Arthur CHARPENTIER - Analyse des donn´ees
L’utilisation des r´egressions
Ici, on cherche un mod`ele qui pourrait estimer Y en fonction d’une - ou plusieurs
- variables explicatives X. Y prend ici souvent deux valeurs 0 et 1, et sera
mod´elis´ee par la variable latente Y , continue entre 0 et 1.
On interpr`etera alors Y = 0.1 comme “il y a 10% de chances que Y = 1”.
On introduit alors le rapport des chances, “odds” ou “cote”,
p1 =
P(Y = 1)
1 − P(Y = 1)
E.g. si P(Y = 1) = 90%, alors p1 = 0.9/0.1 = 9 : on a 9 fois plus de chance
d’observer Y = 1 que Y = 0.
On passe de ce rapport de chance (d´efini sur R+
) `a une variable d´efinie sur R
(pour utiliser un mod`ele lin´eaire) en prenant le logarithme : on d´efini la
transformation logit
logit(p) = log
p
1 − p
, d’inverse logit−1
(y) =
exp(y)
1 + exp(y)
.
58
Arthur CHARPENTIER - Analyse des donn´ees
La r´egression logistique
On suppose ici que X|Y = y suive une loi Gaussienne, N(µy, Σy). Aussi,
X|Y = 0 a pour densit´e φ0 et X|Y = 1 a pour densit´e φ1.
Comme les probabilit´es a posteriori sont une fonction logistique du score, on a
log
φ1(x)
φ0(x)
= β x
On en d´eduit que
P(Y = 1|X = x) =
p1φ1(x)
p1φ1(x) + p0φ0(x)
=
p1φ1(x)
p0φ0(x)
1 +
p1φ1(x)
p0φ0(x)
et donc
P(Y = 1|X = x) =
exp(β x + log(p1/p0))
1 + exp(β x + log(p1/p0))
,
59
Arthur CHARPENTIER - Analyse des donn´ees
et de mani`ere symm´trique
P(Y = 0|X = x) =
1
1 + exp(β x + log(p1/p0))
.
La vraisemblance de β est alors
β|x =
i
φ0(xi)
i
φ1(xi)
or, d’apr`es la formule de Bayes,
φ0(x) =
P(Y = 0|X = x)[p0φ0(x) + p1φ1(x)]
p0
et donc
β|x =
1
pn0
0 pn1
1 i
P(Y = 0|X = xi)
i
P(Y = 1|X = xi)
i
[f(xi)]
o`u f(xi) = p0φ0(x) + p1φ1(x). Cette fonction ´etant inconnue, on utilise une
60
Arthur CHARPENTIER - Analyse des donn´ees
m´ethode de maximum de vraisemblance conditionnelle,
max
β
exp(β x + log(p1/p0))
1 + exp(β x + log(p1/p0))
1
1 + exp(β x + log(p1/p0))
qui n’admet pas de solution explicite.
On utilise une r`egle d’affectation simple : on affecte au groupe 1 si
β x + log
p1
p0
> 0.
61
Arthur CHARPENTIER - Analyse des donn´ees
qq qq qq qq qqq qq q qqq qq qqq q qq qq q qq qq qqq q qqq qqq qq qq qq qqq qq qq qq qqq qqqq q qq qq q qqq qq qq qq qq qq qq qq qq qqq qqqq q q qqqq q qq qq qqq qqq q q qqq qq qqq qq qq qqq qq qq qqq qq qq q qq qqq qq q qq qq qqq qq qqq q q qqq qq qqq q qqq qq q q qq qq q q qq q qq qqq q qqq qq
−4 −2 0 2 4
0.00.20.40.60.81.0
q q qq qq q qq qq qqq qq qqq q q qq qq q qqq qqqq q qqq qq q qq qq q qq qqq qq qq q q qq qq qq qqq qq qq qqq qqq qqq qqq qq q q qq qq qqq q qq qq qq q qq qqq q qqq qq q qqq qqq q q q qq qq qq q qq q qq q qq qq qq qqq qq q qqqqq q q qqq qq qq q qqqq qq qqq qqqqq qq q qq qq qqq qqq qqq qq qq q qq qq
qq qq qq qq qqq qq q qqq qq qqq q qq qq q qq qq qqq q qqq qqq qq qq qq qqq qq qq qq qqq qqqq q qq qq q qqq qq qq qq qq qq qq qq qq qqq qqqq q q qqqq q qq qq qqq qqq q q qqq qq qqq qq qq qqq qq qq qqq qq qq q qq qqq qq q qq qq qqq qq qqq q q qqq qq qqq q qqq qq q q qq qq q q qq q qq qqq q qqq qq
62
Arthur CHARPENTIER - Analyse des donn´ees
Cas multinomial ordonn´e
Dans le cas des notations des vins de Bordeaux, on peut condi´erer les donn´ees
comme ´etant ordonn´ees. La variable Y prend les valeurs 1, 2 et 3.
On peut alors cr´eer deux variables dichotomiques
Y1 =



0 si Y = 1
1 si Y = 2, 3
et Y2 =



0 si Y = 1, 2
1 si Y = 3
de telle sorte que Y = 1 + Y1 + Y2. On fait alors deux r´egressions, que l’on va
sommer
> BORDEAUX$y1=BORDEAUX$QUALITE>1
> BORDEAUX$y2=BORDEAUX$QUALITE>2
> r1 <- glm(y1~TEMPERAT+SOLEIL+CHALEUR+PLUIE, data=BORDEAUX, family=binomial)
> r2 <- glm(y2~TEMPERAT+SOLEIL+CHALEUR+PLUIE, data=BORDEAUX, family=binomial)
> BORDEAUX$y1p <- predict(r1, type=’response’)
> BORDEAUX$y2p <- predict(r2, type=’response’)
> BORDEAUX$yP=1+BORDEAUX$y1p+BORDEAUX$y2p
> BORDEAUX
63
Arthur CHARPENTIER - Analyse des donn´ees
TEMPERAT SOLEIL CHALEUR PLUIE QUALITE y1 y2 yP y1p y2p
1 3064 1201 10 361 2 TRUE FALSE 2.123215 0.9902598703 1.329547e-01
2 3000 1053 11 338 3 TRUE TRUE 2.978320 0.9988771543 9.794432e-01
3 3155 1133 19 393 2 TRUE FALSE 2.756925 0.9823799308 7.745449e-01
4 3085 970 4 467 3 TRUE TRUE 2.975201 0.9997584698 9.754428e-01
5 3245 1258 36 294 1 FALSE FALSE 1.335511 0.3114261037 2.408500e-02
6 3267 1386 35 225 1 FALSE FALSE 1.025203 0.0252024785 3.309122e-07
7 3080 966 13 417 3 TRUE TRUE 2.998444 0.9994389749 9.990046e-01
8 2974 1189 12 488 3 TRUE TRUE 2.999847 0.9998466254 1.000000e+00
9 3038 1103 14 677 3 TRUE TRUE 2.999992 0.9999924418 1.000000e+00
10 3318 1310 29 427 2 TRUE FALSE 1.485805 0.4513896402 3.441497e-02
11 3317 1362 25 326 1 FALSE FALSE 1.077266 0.0772657691 1.882255e-08
12 3182 1171 28 326 3 TRUE TRUE 2.194081 0.8655663939 3.285148e-01
13 2998 1102 9 349 3 TRUE TRUE 2.954208 0.9986316794 9.555765e-01
14 3221 1424 21 382 1 FALSE FALSE 1.464454 0.4632192585 1.234297e-03
64
Arthur CHARPENTIER - Analyse des donn´ees
Cas multinomial nonordonn´e
Sinon sous R, on utilise plus g´en´eralement la commande suivante
> library(nnet)
> (M=multinom(QUALITE~TEMPERAT+SOLEIL+CHALEUR+PLUIE, data=BORDEAUX))
converged
Call:
multinom(formula = QUALITE ~ TEMPERAT + SOLEIL + CHALEUR + PLUIE,
data = BORDEAUX)
Coefficients:
(Intercept) TEMPERAT SOLEIL CHALEUR PLUIE
2 55.84574 -0.01534060 -0.008522957 -0.03456657 0.01639574
3 222.75077 -0.07528596 -0.020627710 0.51944417 0.08425525
Residual Deviance: 22.46474
AIC: 42.46474
> predict(M)
[1] 2 3 3 3 1 1 3 3 3 1 1 2 3 1 2 2 2 3 2 1 1 1 2 1 2 1 1 3 1 2 3 2 3 3
Levels: 1 2 3
> BORDEAUX$QUALITE
65
Arthur CHARPENTIER - Analyse des donn´ees
[1] 2 3 2 3 1 1 3 3 3 2 1 3 3 1 2 2 2 3 2 1 2 1 2 1 2 1 2 3 1 1 3 1 3 3
66
Arthur CHARPENTIER - Analyse des donn´ees
Analyse discriminante et ACP
Il est possible de voir l’analyse discriminante comme un cas particulier d’ACP
avec la m´etrique de Mahalanobis.
Soit X la matrice des donn´ees quantitatives, n × k. On dispose d’une variable Y
prenant m modalit´es (le plus simple ´etant 2). On note alors G la matrice des
barycentres des classes, i.e. m × k.
67
Arthur CHARPENTIER - Analyse des donn´ees
L’analyse discriminante avec R
Sous R, la library(ade4) propose la fonction discrim. Sinon library(MASS) propose la
fonction lda.
Sinon, les r´egressions probit et logit sont des cas particulier de la fonction glm,
avec
glm( ... , family=binomial(link = "logit")
glm( ... , family=binomial(link = "probit")
68

Mais conteúdo relacionado

Destaque (20)

Cours add-r1-part2
Cours add-r1-part2Cours add-r1-part2
Cours add-r1-part2
 
Cours add-r1-part4
Cours add-r1-part4Cours add-r1-part4
Cours add-r1-part4
 
Cours add-r1-part0
Cours add-r1-part0Cours add-r1-part0
Cours add-r1-part0
 
Cours add-r1-part1
Cours add-r1-part1Cours add-r1-part1
Cours add-r1-part1
 
Cours add-r1-part3
Cours add-r1-part3Cours add-r1-part3
Cours add-r1-part3
 
Slides ensae-2016-1
Slides ensae-2016-1Slides ensae-2016-1
Slides ensae-2016-1
 
Slides ensae-2016-2
Slides ensae-2016-2Slides ensae-2016-2
Slides ensae-2016-2
 
Slides ensae-2016-6
Slides ensae-2016-6Slides ensae-2016-6
Slides ensae-2016-6
 
Slides ensae-2016-8
Slides ensae-2016-8Slides ensae-2016-8
Slides ensae-2016-8
 
Slides ensae-2016-9
Slides ensae-2016-9Slides ensae-2016-9
Slides ensae-2016-9
 
Slides ensae-2016-7
Slides ensae-2016-7Slides ensae-2016-7
Slides ensae-2016-7
 
Slides ensae-2016-5
Slides ensae-2016-5Slides ensae-2016-5
Slides ensae-2016-5
 
Slides ensae-2016-3
Slides ensae-2016-3Slides ensae-2016-3
Slides ensae-2016-3
 
Pricing Game, 100% Data Sciences
Pricing Game, 100% Data SciencesPricing Game, 100% Data Sciences
Pricing Game, 100% Data Sciences
 
Slides ensae-2016-4
Slides ensae-2016-4Slides ensae-2016-4
Slides ensae-2016-4
 
Slides ensae-2016-10
Slides ensae-2016-10Slides ensae-2016-10
Slides ensae-2016-10
 
Slides ensae-2016-11
Slides ensae-2016-11Slides ensae-2016-11
Slides ensae-2016-11
 
Graduate Econometrics Course, part 4, 2017
Graduate Econometrics Course, part 4, 2017Graduate Econometrics Course, part 4, 2017
Graduate Econometrics Course, part 4, 2017
 
Econometrics, PhD Course, #1 Nonlinearities
Econometrics, PhD Course, #1 NonlinearitiesEconometrics, PhD Course, #1 Nonlinearities
Econometrics, PhD Course, #1 Nonlinearities
 
Slides econometrics-2017-graduate-2
Slides econometrics-2017-graduate-2Slides econometrics-2017-graduate-2
Slides econometrics-2017-graduate-2
 

Mais de Arthur Charpentier (20)

Family History and Life Insurance
Family History and Life InsuranceFamily History and Life Insurance
Family History and Life Insurance
 
ACT6100 introduction
ACT6100 introductionACT6100 introduction
ACT6100 introduction
 
Family History and Life Insurance (UConn actuarial seminar)
Family History and Life Insurance (UConn actuarial seminar)Family History and Life Insurance (UConn actuarial seminar)
Family History and Life Insurance (UConn actuarial seminar)
 
Control epidemics
Control epidemics Control epidemics
Control epidemics
 
STT5100 Automne 2020, introduction
STT5100 Automne 2020, introductionSTT5100 Automne 2020, introduction
STT5100 Automne 2020, introduction
 
Family History and Life Insurance
Family History and Life InsuranceFamily History and Life Insurance
Family History and Life Insurance
 
Machine Learning in Actuarial Science & Insurance
Machine Learning in Actuarial Science & InsuranceMachine Learning in Actuarial Science & Insurance
Machine Learning in Actuarial Science & Insurance
 
Reinforcement Learning in Economics and Finance
Reinforcement Learning in Economics and FinanceReinforcement Learning in Economics and Finance
Reinforcement Learning in Economics and Finance
 
Optimal Control and COVID-19
Optimal Control and COVID-19Optimal Control and COVID-19
Optimal Control and COVID-19
 
Slides OICA 2020
Slides OICA 2020Slides OICA 2020
Slides OICA 2020
 
Lausanne 2019 #3
Lausanne 2019 #3Lausanne 2019 #3
Lausanne 2019 #3
 
Lausanne 2019 #4
Lausanne 2019 #4Lausanne 2019 #4
Lausanne 2019 #4
 
Lausanne 2019 #2
Lausanne 2019 #2Lausanne 2019 #2
Lausanne 2019 #2
 
Lausanne 2019 #1
Lausanne 2019 #1Lausanne 2019 #1
Lausanne 2019 #1
 
Side 2019 #10
Side 2019 #10Side 2019 #10
Side 2019 #10
 
Side 2019 #11
Side 2019 #11Side 2019 #11
Side 2019 #11
 
Side 2019 #12
Side 2019 #12Side 2019 #12
Side 2019 #12
 
Side 2019 #9
Side 2019 #9Side 2019 #9
Side 2019 #9
 
Side 2019 #8
Side 2019 #8Side 2019 #8
Side 2019 #8
 
Side 2019 #7
Side 2019 #7Side 2019 #7
Side 2019 #7
 

Cours add-r1-part5

  • 1. Arthur CHARPENTIER - Analyse des donn´ees Analyse des donn´ees (5) L’Analyse Discriminante, ou Scoring Arthur Charpentier http ://perso.univ-rennes1.fr/arthur.charpentier/ blog.univ-rennes1.fr/arthur.charpentier/ Master 2, Universit´e Rennes 1 1
  • 2. Arthur CHARPENTIER - Analyse des donn´ees L’analyse discriminante On cherche ici `a discriminer entre deux ou plusieurs classes, d´efinies par les modalit´es d’une variable Y , qualitative, `a partir d’un certain nombre de variables explicatives X1, · · · , Xk (appel´ees pr´edicteurs), suppos´es quantitatifs. Les classes sont ici d´efinies a priori (via la variable Y ). Deux types de discrimination sont men´ees en pratique • `a but descriptif : on cherche quelles sont les variables explicative (Xj) qui discriminent le mieux • `a but predictif : on cherche `a affecter un individu dans une classe, `a partir de ses variables explicatives. On parle alors de scoring On va alors chercher les variables explicatives les plus discriminantes vis vis des classes dtermines. On pourra alors dterminer quel groupe appartient un individu partir de ses caractristiques. Par rapport aux techniques de classification on intervient ici a posteriori : Y est la classe (que l’on cherche `a expliquer). 2
  • 3. Arthur CHARPENTIER - Analyse des donn´ees Exemple introductif : infarctus du myocarde Consid´erons la base suivantes, extraite de Saporta (1990), concernant des victimes d’infarctus du myocarde, qui ont ´et´e mesur´es `a leur admission, avec la f´equence cardiaque (FRCAR), un indcex cardiaque(INCAR), index systolique (INSYS), pression diastolique (PRDIA), pression art´erielle pulmonaire (PAPUL), pression venticulaire (PVENT) et r´esistance pulmonaire (REPUL). > (MYOCARDE=read.table("http://perso.univ-rennes1.fr/arthur.charpentier/ + saporta.csv",head=TRUE,sep=";")) FRCAR INCAR INSYS PRDIA PAPUL PVENT REPUL PRONO 1 90 1.71 19.0 16 19.5 16.0 912 SURVIE 2 90 1.68 18.7 24 31.0 14.0 1476 DECES 3 120 1.40 11.7 23 29.0 8.0 1657 DECES 4 82 1.79 21.8 14 17.5 10.0 782 SURVIE 5 80 1.58 19.7 21 28.0 18.5 1418 DECES 6 80 1.13 14.1 18 23.5 9.0 1664 DECES 7 94 2.04 21.7 23 27.0 10.0 1059 SURVIE 8 80 1.19 14.9 16 21.0 16.5 1412 SURVIE 9 78 2.16 27.7 15 20.5 11.5 759 SURVIE 10 100 2.28 22.8 16 23.0 4.0 807 SURVIE 3
  • 4. Arthur CHARPENTIER - Analyse des donn´ees 11 90 2.79 31.0 16 25.0 8.0 717 SURVIE 12 86 2.70 31.4 15 23.0 9.5 681 SURVIE 13 80 2.61 32.6 8 15.0 1.0 460 SURVIE On essaye de comprendre qui va survivre `a l’infarctus, et qui va d´ec´eder. On peut faire un peu de statistique descriptive sur les deux sous-groupes. > apply(MYOCARDE[MYOCARDE$PRONO=="DECES",1:7],2,mean) FRCAR INCAR INSYS PRDIA PAPUL PVENT REPUL 91.551724 1.397931 15.531034 21.448276 28.431034 11.844828 1738.689655 > apply(MYOCARDE[MYOCARDE$PRONO=="SURVIE",1:7],2,mean) FRCAR INCAR INSYS PRDIA PAPUL PVENT REPUL 87.690476 2.318333 27.202381 15.976190 22.202381 8.642857 817.214286 > apply(MYOCARDE[MYOCARDE$PRONO=="DECES",1:7],2,sd) FRCAR INCAR INSYS PRDIA PAPUL PVENT REPUL 15.2844136 0.3808954 4.4162932 5.0750525 7.1009609 4.4843049 616.3684023 > apply(MYOCARDE[MYOCARDE$PRONO=="SURVIE",1:7],2,sd) FRCAR INCAR INSYS PRDIA PAPUL PVENT REPUL 14.589485 0.574388 8.484433 5.125204 6.574210 4.219996 313.039508 4
  • 5. Arthur CHARPENTIER - Analyse des donn´ees q q q DECES SURVIE 60708090100110120 q DECES SURVIE 1.01.52.02.53.0 q q q DECES SURVIE 1020304050 q q DECES SURVIE 101520253035 q q DECES SURVIE 1015202530354045 DECES SURVIE 5101520 5
  • 6. Arthur CHARPENTIER - Analyse des donn´ees En supposant que l’on a des vecteurs Gaussiens, on peut tester l’´egalit´e globale via un test de Fisher, > MYOCARDE.manova<-manova(cbind(FRCAR,INCAR,INSYS,PRDIA,PAPUL,PVENT,REPUL)~PRONO,data=MYO > MYOCARDE.manova Call: manova(cbind(FRCAR, INCAR, INSYS, PRDIA, PAPUL, PVENT, REPUL) ~ PRONO, data = MYOCARDE) Terms: PRONO Residuals resp 1 256 15268 resp 2 15 18 resp 3 2337 3498 resp 4 514 1798 resp 5 666 3184 resp 6 176 1293 resp 7 14566540 14655223 Deg. of Freedom 1 69 Residual standard error: 14.8754 0.50489 7.119591 5.104912 6.79289 4.329197 460.8628 6
  • 7. Arthur CHARPENTIER - Analyse des donn´ees Estimated effects may be unbalanced > summary(MYOCARDE.manova,test="Wilks") Df Wilks approx F num Df den Df Pr(>F) PRONO 1 0.4545 10.8034 7 63 7.312e-09 *** Residuals 69 --- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05 . 0.1 1 La variable discriminante est obtenu par combinaison lin´eaire des 7 variables centr´ees sur la moyenne g´en´erale des 2 groupes. > lda(PRONO~.,data=MYOCARDE) Call: lda(PRONO ~ ., data = MYOCARDE) Prior probabilities of groups: DECES SURVIE 0.4084507 0.5915493 Group means: FRCAR INCAR INSYS PRDIA PAPUL PVENT REPUL DECES 91.55172 1.397931 15.53103 21.44828 28.43103 11.844828 1738.6897 7
  • 8. Arthur CHARPENTIER - Analyse des donn´ees SURVIE 87.69048 2.318333 27.20238 15.97619 22.20238 8.642857 817.2143 Coefficients of linear discriminants: LD1 FRCAR -0.012743116 INCAR 1.074534545 INSYS -0.019139867 PRDIA -0.025483955 PAPUL 0.020177505 PVENT -0.037804074 REPUL -0.001353977 On pourrait tenter une ACP sur les 6 premi`eres variables, et regarder le nuage des individus, pour voir si l’on arrive `a discriminer “simplement”. library(ade4) mesures=MYOCARDE[,1:6] acp <- dudi.pca(mesures,scann = FALSE, nf = 3) s.class(acp$li, fac=MYOCARDE$PRONO,col=c("red","blue"),xax = 1, yax = 2) 8
  • 9. Arthur CHARPENTIER - Analyse des donn´ees FRCARINCAR INSYS PRDIA PAPUL PVENT d = 1 1 2 3 4 5 6 7 8 9 1011 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 5152 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 9
  • 10. Arthur CHARPENTIER - Analyse des donn´ees d = 1 q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q DECES SURVIE 10
  • 11. Arthur CHARPENTIER - Analyse des donn´ees q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q −4 −2 0 2 4 −3−2−1012 q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q −4 −2 0 2 4 −3−2−1012 qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q Les points dans la r´egion inf´erieure gauche sont pronostiqu´e “survie” et dans la partie sup´erieure droite “d´ec`es”. On peut alors comparer les valeurs observ´ees Y `a ces pr´ediction Y > table(PRONOSTIC,MYOCARDE$PRONO) 11
  • 12. Arthur CHARPENTIER - Analyse des donn´ees PRONOSTIC DECES SURVIE SURVIE 14 34 DECES 15 8 Yi = 0 Yi = 1 Yi = 0 vrai n´egatif faux n´egatif Yi = 1 faux positif vrai positif Parmi les mesures de performance de la pr´ediction, P(Y = 1|Y = 1) est appel´e pr´ecision P(Y = 1|Y = 1) est appel´e taux de vrais positifs P(Y = 1|Y = 0) est appel´e taux de faux positifs On peut ´eventuellement repr´esenter le taux de vrais positifs en fonction du taux de faux positifs. Comme on essaye d’expliquer Y (un pronostic binaire) par plusieurs variables continues, on pourrait utiliser une r´egression logistique, ou probit. 12
  • 13. Arthur CHARPENTIER - Analyse des donn´ees > glm(Y~.-PRONO,data=MYOCARDE, family=binomial(link = "logit")) Call: glm(formula = Y ~ . - PRONO, family = binomial(link = "logit"),data = MYOCARDE) Coefficients: (Intercept) FRCAR INCAR INSYS PRDIA PAPUL PVENT -10.187642 0.138178 -5.862429 0.717084 -0.073668 0.016757 -0.106776 Degrees of Freedom: 70 Total (i.e. Null); 63 Residual Null Deviance: 96.03 Residual Deviance: 41.04 AIC: 57.04 > glm(Y~.-PRONO,data=MYOCARDE, family=binomial(link = "probit")) Call: glm(formula = Y ~ . - PRONO, family = binomial(link = "probit"),data = MYOCARDE) Coefficients: (Intercept) FRCAR INCAR INSYS PRDIA PAPUL PVENT -4.677478 0.072674 -3.071761 0.366205 -0.040006 0.009804 -0.063314 Degrees of Freedom: 70 Total (i.e. Null); 63 Residual Null Deviance: 96.03 13
  • 14. Arthur CHARPENTIER - Analyse des donn´ees Residual Deviance: 40.97 AIC: 56.97 On peut alors regarder les pr´edictions donn´ees par ces mod`eles. > r.logit <- glm(Y~.-PRONO,data=MYOCARDE, family=binomial(link = "logit")) > Y.logit <- predict(r.logit, type=’response’) > r.probit <- glm(Y~.-PRONO,data=MYOCARDE, family=binomial(link = "probit")) > Y.probit <- predict(r.probit, type=’response’) > cbind(MYOCARDE$Y,Y.logit,Y.probit) [,1] [,2] [,3] 1 1 0.601 0.613 2 0 0.169 0.175 3 0 0.328 0.338 4 1 0.881 0.882 5 0 0.142 0.143 6 0 0.057 0.060 7 1 0.679 0.668 8 1 0.078 0.087 9 1 0.967 0.968 10 1 0.945 0.951 11 1 0.985 0.989 12 1 0.989 0.992 14
  • 15. Arthur CHARPENTIER - Analyse des donn´ees 13 1 0.999 0.999 14 1 0.999 0.999 15 1 0.988 0.992 Plus le score est proche de 0, plus on devrait se prononcer pour un d´ec`es, plus il est proche de 1, plus on devrait ˆetre confiant dans une survie. De mani`ere “naturelle”, on peut fixer ce seuil `a 50% : si Y < .5 on pronostique Y = 0, et si Y = 1 si Y > .5. On obtient alors les classements suivants, avec le mˆeme tableau pour les mod`eles probit et logit Yi = 0 Yi = 1 Yi = 0 vrai n´egatif faux n´egatif Yi = 1 faux positif vrai positif Yi = 0 Yi = 1 Yi = 0 25 3 Yi = 1 4 39 Mais le seuil de 50% a ´et´e fix´e artibtrairement. En prenant des seuils `a 30% ou 70%, on peut changer les r´esultats, 15
  • 16. Arthur CHARPENTIER - Analyse des donn´ees Yi = 0 Yi = 1 Yi = 0 22 2 Yi = 1 7 40 Yi = 0 Yi = 1 Yi = 0 26 9 Yi = 1 3 33 Dans un cas, on diminue le nombre de faux n´egatif, en augmentant le nombre de faux positif, et l’inverser pour l’autre choix. On a alors un trade off sur le choix du seuil : on ne peut pas bien d´etecter tout le monde ! Ce probl`eme apparaissait ´egalement sur l’ACP, lorsque l’on coupait la r´egion en 2. 16
  • 17. Arthur CHARPENTIER - Analyse des donn´ees q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q −4 −2 0 2 4 −3−2−1012 qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q −4 −2 0 2 4 −3−2−1012 qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq qqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqqq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q Notons qu’on peut “tester” la pertinence de notre classement, > library(ROCR) > pred=prediction(Y.probit,MYOCARDE$PRONO) > perf=performance(pred,’tpr’,’fpr’) > plot(perf) 17
  • 18. Arthur CHARPENTIER - Analyse des donn´ees False positive rate Truepositiverate 0.0 0.2 0.4 0.6 0.8 1.0 0.00.20.40.60.81.0 00.20.410.610.811.01 False positive rate Truepositiverate 0.0 0.2 0.4 0.6 0.8 1.0 0.00.20.40.60.81.0 00.20.410.610.811.01 18
  • 19. Arthur CHARPENTIER - Analyse des donn´ees Exemple introductif : les vins de Bordeaux On consid`ere des d´egustation de Bordeaux, sur 34 ann´ees entre 1924 et 1957. > BORDEAUX=read.table("http://perso.univ-rennes1.fr/arthur.charpentier/ + bordeaux_R.txt",head=TRUE) > BORDEAUX=BORDEAUX[,-1] > head(BORDEAUX,8) NUMERO TEMPERAT SOLEIL CHALEUR PLUIE QUALITE 1 1 3064 1201 10 361 2 2 2 3000 1053 11 338 3 3 3 3155 1133 19 393 2 4 4 3085 970 4 467 3 5 5 3245 1258 36 294 1 6 6 3267 1386 35 225 1 7 7 3080 966 13 417 3 8 8 2974 1189 12 488 3 19
  • 20. Arthur CHARPENTIER - Analyse des donn´ees 1 2 3 2900300031003200330034003500 1 2 3 100011001200130014001500 q 1 2 3 10203040 1 2 3 300400500600 20
  • 21. Arthur CHARPENTIER - Analyse des donn´ees On cherche une analyse discriminante s´eparant au mieux ldes k classes, Z1 = α0 + p j=1 αjXj > lda(QUALITE~.,data=BORDEAUX) Call: lda(QUALITE ~ . + 1, data = BORDEAUX) Prior probabilities of groups: 1 2 3 0.3235294 0.3235294 0.3529412 Group means: TEMPERAT SOLEIL CHALEUR PLUIE 1 3306.364 1363.636 28.54545 305.0000 2 3140.909 1262.909 16.45455 339.6364 3 3037.333 1126.417 12.08333 430.3333 Coefficients of linear discriminants: LD1 LD2 21
  • 22. Arthur CHARPENTIER - Analyse des donn´ees TEMPERAT 0.008566046 -4.625059e-05 SOLEIL 0.006773869 -5.329293e-03 CHALEUR -0.027054492 1.276362e-01 PLUIE -0.005865665 6.174556e-03 Proportion of trace: LD1 LD2 0.9595 0.0405 On peut aussi centrer et r´eduire les variables, X1 = temperature − 3157.88 √ 7668.456 , · · · , X4 = pluie − 360 √ 5758.039 . > (M=apply(BORDEAUX,2,mean)) TEMPERAT SOLEIL CHALEUR PLUIE QUALITE 3157.882353 1247.323529 18.823529 360.441176 2.029412 > (S=apply(BORDEAUX,2,sd)) TEMPERAT SOLEIL CHALEUR PLUIE QUALITE 141.1843336 126.6229719 10.0165638 91.4016084 0.8343131 > BORDEAUX.CR=(BORDEAUX-matrix(rep(M,each=34),34,5))/matrix(rep(S,each=34),34,5) 22
  • 23. Arthur CHARPENTIER - Analyse des donn´ees > (LD=lda(QUALITE~.,data=BORDEAUX.CR)) Call: lda(QUALITE ~ ., data = BORDEAUX.CR) Prior probabilities of groups: -1.23384339005595 -0.0352526682873127 1.16333805348132 0.3235294 0.3235294 0.3529412 Group means: TEMPERAT SOLEIL CHALEUR PLUIE -1.23384339005595 1.0516838 0.9185761 0.9705849 -0.6065667 -0.0352526682873127 -0.1202206 0.1230864 -0.2365067 -0.2276198 1.16333805348132 -0.8538413 -0.9548573 -0.6729050 0.7646710 Coefficients of linear discriminants: LD1 LD2 TEMPERAT 1.2093914 -0.006529859 SOLEIL 0.8577274 -0.674810955 CHALEUR -0.2709930 1.278475787 PLUIE -0.5361312 0.564364371 23
  • 24. Arthur CHARPENTIER - Analyse des donn´ees Proportion of trace: LD1 LD2 0.9595 0.0405 > PLD=predict(LD)$x > boxplot(PLD~BORDEAUX$QUALITE) On peut aussi utiliser la seconde variable disciminante, centr´ee, mais non corr´el´ee `a Z1, Z2 = β0 + p j=1 βjXj On obtient les deux box-plot suivants 24
  • 25. Arthur CHARPENTIER - Analyse des donn´ees 1 2 3 −4−2024 1 2 3 −1012 > X=predict(LD)$x[,1]; Y=predict(LD)$x[,2] > plot(X,Y,col=BORDEAUX$QUALITE) 25
  • 26. Arthur CHARPENTIER - Analyse des donn´ees q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q −4 −2 0 2 4 −1012 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 2728 29 30 31 32 33 34 q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q −4 −2 0 2 4 −1012 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 2728 29 30 31 32 33 34 q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q −4 −2 0 2 4 −4−2024 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 2728 29 30 31 32 33 34 26
  • 27. Arthur CHARPENTIER - Analyse des donn´ees q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q −4 −2 0 2 4 −4−2024 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 2728 29 30 31 32 33 34 q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q −4 −2 0 2 4 −4−2024 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 2728 29 30 31 32 33 34 q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q −4 −2 0 2 4 −4−2024 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 2728 29 30 31 32 33 34 q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q −4 −2 0 2 4 −4−2024 q 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 2728 29 30 31 32 33 34 27
  • 28. Arthur CHARPENTIER - Analyse des donn´ees > AJUST=cbind(BORDEAUX[,5],predict(LD)$class, + BORDEAUX[,5]==as.numeric(predict(LD)$class)) > AJUST [,1] [,2] [,3] [1,] 2 2 1 [2,] 3 3 1 [3,] 2 3 0 [4,] 3 3 1 [5,] 1 1 1 [6,] 1 1 1 [7,] 3 3 1 [8,] 3 3 1 [9,] 3 3 1 [10,] 2 1 0 [11,] 1 1 1 [12,] 3 2 0 [13,] 3 3 1 [14,] 1 1 1 [15,] 2 2 1 [16,] 2 2 1 [17,] 2 2 1 28
  • 29. Arthur CHARPENTIER - Analyse des donn´ees [18,] 3 3 1 [19,] 2 2 1 > table(as.factor(as.numeric(AJUST[,1])),as.factor(as.numeric(AJUST[,2]))) 1 2 3 1 9 2 0 2 2 8 1 3 0 2 10 29
  • 30. Arthur CHARPENTIER - Analyse des donn´ees Le reclassement > lda(PRONO~.,data=MYOCARDE,prior=c(0.5,0.5),CV=TRUE) > lda(PRONO~.-Y,data=MYOCARDE,prior=c(0.5,0.5),CV=TRUE) $class [1] DECES DECES DECES SURVIE DECES DECES SURVIE DECES SURVIE SURVIE SURVIE SURVIE S [20] SURVIE SURVIE DECES SURVIE DECES SURVIE DECES DECES SURVIE SURVIE SURVIE SURVIE D [39] DECES SURVIE DECES DECES SURVIE SURVIE DECES SURVIE DECES DECES DECES DECES S [58] SURVIE SURVIE SURVIE DECES SURVIE DECES DECES SURVIE SURVIE DECES DECES SURVIE S Levels: DECES SURVIE $posterior DECES SURVIE 1 0.502843989 0.4971560108 2 0.760428401 0.2395715991 3 0.898718532 0.1012814675 4 0.205819247 0.7941807532 5 0.767586744 0.2324132563 6 0.891944506 0.1080554941 [...] 67 0.988907194 0.0110928057 30
  • 31. Arthur CHARPENTIER - Analyse des donn´ees 68 0.913385833 0.0866141669 69 0.038344052 0.9616559479 70 0.023091939 0.9769080611 71 0.017904179 0.9820958214 On peut changer les proportions attendues, > lda(PRONO~.-Y,data=MYOCARDE,prior=c(0.3,0.7),CV=TRUE) $posterior DECES SURVIE 1 0.3023943986 0.6976056014 2 0.5763315167 0.4236684833 3 0.7917932260 0.2082067740 4 0.0999652630 0.9000347370 5 0.5859958160 0.4140041840 6 0.7796213462 0.2203786538 [...] 67 0.9744940304 0.0255059696 68 0.8188235413 0.1811764587 69 0.0168012965 0.9831987035 31
  • 32. Arthur CHARPENTIER - Analyse des donn´ees 70 0.0100288802 0.9899711198 71 0.0077525353 0.9922474647 Dans le cas multinomial (plus de 2 modalit´es) > B.LDA=lda(QUALITE~.,data=BORDEAUX,prior=c(1/3,1/3,1/3),CV=TRUE) $class [1] 2 3 3 3 2 1 3 3 3 1 1 2 3 2 2 2 2 3 2 1 2 1 2 1 2 1 1 3 1 2 3 2 2 3 Levels: 1 2 3 $posterior 1 2 3 1 7.037459e-03 6.295202e-01 3.634423e-01 2 7.537421e-05 5.994089e-02 9.399837e-01 3 8.143494e-03 1.822480e-01 8.096085e-01 4 1.134597e-05 2.619176e-02 9.737969e-01 5 2.536909e-01 6.212299e-01 1.250793e-01 6 8.973327e-01 1.025057e-01 1.615276e-04 7 1.127037e-05 9.005366e-03 9.909834e-01 On peut visualiser la pr´ediction du score, > barplot(t(B.LDA$posterior),col=c("blue","green","red")) 32
  • 33. Arthur CHARPENTIER - Analyse des donn´ees q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q 0 5 10 15 20 25 30 35 0.00.20.40.60.81.0 33
  • 34. Arthur CHARPENTIER - Analyse des donn´ees Les tests La statistique la plus classique est le taux de bien class´es, i.e. P(Y = Y ). Notons que le tableau de classement (ou matrice de confusion) est un tableau de contingence, et on peut tester le charactere significatif de la pr´ediction par un test du χ2 . Le test du Lambda de Wilks permet de tester si les vecteurs des moyennes pour les diffrentes groupes sont gaux ou non (ce test peut tre compris comme un quivalent multidimensionnel du test de Fisher). Le test du V de Rao mesure la distance entre les centre des groupes, et la moyenne globale. En fait ces tests ne sont possibles qu’`a condition d’avoir des vecteurs Gaussiens, avec en plus une hypoth`ese d´egalit´e des matrices de variance-covariance dans chaque groupe. 34
  • 35. Arthur CHARPENTIER - Analyse des donn´ees On peut utiliser un test de Kullback pour faire ce test, en notant que k i=1 ni − 1 2 log det D det Di ∼ χ2 sous H0, o`u D est la matrice de variance covariance intra-groupe, Di est la matrice de variance-covariance pour le groupe i, et ni d´esigne le nombre d’observations dans le groupe i. 35
  • 36. Arthur CHARPENTIER - Analyse des donn´ees Un peu de formalisation Pour commencer, supposons que Y prenne 2 modalit´es, not´ees 0 et 1. On suppose que les m variables Xj sont continues. Soient X0 = (X Y =0 1 , · · · , X Y =0 m ), X1 = (X Y =1 1 , · · · , X Y =1 m ), V0 = [cov(X Y =0 i , X Y =0 j )] et V1 = [cov(X Y =1 i , X Y =1 j )]. On pose ´egalement X = (X1, · · · , Xm) et V = [cov(Xi, Xj)] (sur l’ensemble de la population). On note enfin ω0 et ω1 les poids de chacune des classes. On appelle matrice de variance intercalsse la matrice de variance B des 2 centre de gravit´es, B = 1 k=0 ωk(Xk − X )(Xk − X ) , 36
  • 37. Arthur CHARPENTIER - Analyse des donn´ees et W la matrice de variance interclasse W, moyenne des matrices Vk, i.e. W = 1 k=0 ωkVk. Notons que W est g´en´erallement inversible, alor que B ne l’est pas. La formule de d´ecomposition de la variance donne V = W + B (la variance totale est la somme de la moyenne des variances et de la variance des moyennes). On supposera les variables centr´ees, i.e. X = 0, i.e. B = 1 k=0 ωkXkXk et W = 1 k=0 ωkVk, o`u ωk = nk n . On consid`ere le tableau compos´e de la variable Y , ou plus g´en´eralement du tableau disjonctif associ´e, not´e A, et du tableau X des variables explicatives. 37
  • 38. Arthur CHARPENTIER - Analyse des donn´ees Notons que les 2 centres de gravit´es X0 et X1 sont mes lignes de la matrice (A DA)−1 (A DX) o`u D est la matrice est la matrice des poids individuels. 38
  • 39. Arthur CHARPENTIER - Analyse des donn´ees L’analyse factorielle discriminante (AFD) consiste `a chercher des variables disciminantes correspondant `a des vecteurs dans Rm qui s´eparent au mieux le nuage en k groupes. q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q qq q q q q q q q q q q q q q q qq q q q q q q qq q q q q q qq q q q q q q q qq q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qqq q q q q q q qqq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q qq q q q q q q qq q q q q q q q q q qq q q q −2 0 2 4 6 −2024 q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q qq q q q q q q q q q q q q q q qq q q q q q q qq q q q q q qq q q q q q q q qq q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qqq q q q q q q qqq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q qq q q q q q q qq q q q q q q q q q qq q q q 39
  • 40. Arthur CHARPENTIER - Analyse des donn´ees q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q qq q q q q q q q q q q q q q q qq q q q q q q qq q q q q q qq q q q q q q q qq q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qqq q q q q q q qqq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q qq q q q q q q qq q q q q q q q q q qq q q q −2 0 2 4 6 −2024 q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q qq q q q q q q q q q q q q q q qq q q q q q q qq q q q q q qq q q q q q q q qq q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qqq q q q q q q qqq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q qq q q q q q q qq q q q q q q q q q qq q q q q q q q q q q q q q q q qq q q qq q q q q qq q q q q qq q qq q q q qq q q q q q q q q q q q q q qqq q q q q q q q q q q q q q q q q q qqq qq q qq q q q q q q qq qq qq q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q qq q q q q q q q q q q q q q q q q q qq q q q q qq q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q qq q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q qq q q q q qq q qq q q q q q q q q q q q q q q q q qq −4 −2 0 2 4 6 0.000.050.100.150.200.250.300.35 q qq qq q qq qq qq qqq qqqq qq qqqqq qq qqq qq qq q qqqq q qqq qqq qqq qqqq qq q qq qq qq qq qqq qq q qqqqq q qqq qq q qqqq qqqq qqq qqq qqqq qq q q qq qq q qq q qqq qq qq q qq qqq qq qqq q qq qqq qq qq q qq qqq qqqq qqq qqq q qq qq qq q qqqqq qq qqqq qq qq qq qqq qq qq qqqq qq q qq qq q qqqq qqqq qq qqq qq qq q q qqqqqq qq qq q qq q q qqq q qqqqq qq qq qq q q qq q qq qq qqq q qqq q qqq qq qq qq qqq qq qq q qqq qqq qqqq qq qqqq qq q qqqq q qqq q qqqq q qqq qq q q qq q qq qqq qqq qqqqq qq qq q qqq q qqq q q q qqq qqqqqq qq qq qqq qq qq qqqqq qqq qqqqq q qq qqq q qqq qq 40
  • 41. Arthur CHARPENTIER - Analyse des donn´ees q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q qq q q q q q q q q q q q q q q qq q q q q q q qq q q q q q qq q q q q q q q qq q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qqq q q q q q q qqq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q qq q q q q q q qq q q q q q q q q q qq q q q −2 0 2 4 6 −2024 q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q qq q q q q q q q q q q q q q q qq q q q q q q qq q q q q q qq q q q q q q q qq q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qqq q q q q q q qqq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q qq q q q q q q qq q q q q q q q q q qq q q q q q q q q q q q qq qq q q q q q q q q q q q qq q q q q q q q q qq q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qqq q q q q q q q q q q q q q q q q qq q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q qq qq q qq q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q qq qq q q q q qq q q q q qq qq q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q qq q q q q q q q q q q q q q q q q q q qq q qq q q q q −4 −2 0 2 4 6 0.000.050.100.150.200.250.300.35 qqq qq qq qqq qq q q qqqq q qq qq qqq qqq q q qqqqqq qqq q qqq q qqq qq q qqq qq qq qq qq q qqqq qq q q qq q qq qq qqqq qq qqqq q qq q qq q qq qq qq qqq q qq qqq qqq qq qq q qqq qq qq q qqq qq qq qqqqqqq qq qqq qq qqqqq qqqq q qqqqq q q qqq q qqq qq qq q qq qqqq qq qq qqq q qq qq qq qqqq qq q qqqq qq qqqqqq q qqqq qq qq qq q qq q qq qq qq qqq q qqq qq q q qq qqq qq q qqq qqq qqqq qq qqq q qqq q qqqq qqq qq qq qq q qqq qqq q q q qq qq qq q q q qqq qqqq qq qqq q q q qq q q qq qqqq q qq q qq q qqq qq qq q qq qq qq qqqq qq q qqqq qq qq q q qqqq qq qq qqq qqqqq q q qq q qqqqqq q qq 41
  • 42. Arthur CHARPENTIER - Analyse des donn´ees On cherche un axe ayant un bon pouvoir disciminant (entre les groupes), comme l’axe dans le second cas. En particulier, en projetant les centres de gravit´es des nuages, il faut que la dispersion soit maximale. La matrice d’inertie du nuage de X0 et X1 est MBM (o`u M est une m´etrique de Rm ), et l’inertie du nuage project´e selon un axe a est alors a MBMa (si a M = 1). On cherche alors `a maximiser a MBMa. On souhaite aussi `a ce que le nuage soit regroup´e autour du centre de gravit´e (n projection), que qui revient `a minimiser a MWMa En utilisant V = B + W, on obtient que a MV Ma = a MBMa + a MWMa On peut alors prendre comme crit`ere `a maximiser est le rapport de l’inertie interclasse `a l’inertie totale, max a{a MBMa a MV Ma }. 42
  • 43. Arthur CHARPENTIER - Analyse des donn´ees Ce maximum est atteint si a est vecteur propre de (MV M)−1 MBM, associ´e `a la plus grande valeur propre. On fait alors l’ACP du nuage des centres de gravit´e, avec la m´etrique V −1 . 43
  • 44. Arthur CHARPENTIER - Analyse des donn´ees Analyse de la variance ? Une autre interpr´etation peut se faire en terme d’analyse de la variance. A la base, l’analyse de la variance (ANOVA `a un facteur) se fait de la mani`ere suivante : on dispose de k groupes. On dispose d’observations {X1,i, · · · , Xni,i} pour le groupe i. En supposant Xj,i ∼ N(µi, σ2 ), i.i.d. On cherche `a tester H0 : µ1 = · · · = µi = · · · = µk (= µ). L’id´ee de l’analyse de la variance est d’utiliser un test de Fisher, en notant que F = S2 E k − 1 · n − k S2 R ∼ F(k − 1, n − k), o`u S2 = 1 n i,j (Xj,i − X)2 = S2 E + S2 R, S2 E = 1 n i ni(Xi − X)2 et S2 R = 1 n i,j (Xi,j − Xi)2 . (d´ecomposition de la variance, entre variance inter S2 E et variance intra S2 R). 44
  • 45. Arthur CHARPENTIER - Analyse des donn´ees Mais ici, comme nous disposons que p variables explicatives, on cherche la combinaison lin´eaire qui maximise une statistique de type Fisher. On cherche u qui maximise F = u Bu u Wu . La solution est de chercher le vecteur propre associ´e `a la plus valeur propre de W−1 B (qui correspondent aux vecteurs propres de V −1 B). Notons que la m´etrique associ´ee `a W−1 est parfois appel´ee m´etrique de Mahalanobis. 45
  • 46. Arthur CHARPENTIER - Analyse des donn´ees Analyse de la variance avec 2 groupes Comme k − 1 = 1, on recherche une unique variable discriminante. Cet axe discriminant est alors la droite passant par les deux centres de gravit´e, X0 et X1. Alors u = V −1 (X0 − X1) ou W−1 (X0 − X1) W−1 (X0 − X1) est appel´e fonction de Fisher. En fait, afin de normaliser, on consid`ere plutˆot n0 + n1 − 2 n1 + n2 W−1 Fisher en effet, cherchait la combinaison lin´eaire des variables explicatives telles que le carr´e de la statistique de test prenne une valeur maximale, i.e. max u (Y 0 − Y 1) n0S2 0 + n1S2 1 n0 + n1 − 2 1 n0 + 1 n1 o`u Y = Xu. 46
  • 47. Arthur CHARPENTIER - Analyse des donn´ees Si l’on pose Σ = n0 + n1 n0 + n1 − 2 W, on voit que la fonction de Fisher s’´ecrit max (u (X0 − X1))2 u Σu , c’est `a dire que u doit ˆetre proportionnel `a Σ(X0 − X1). 47
  • 48. Arthur CHARPENTIER - Analyse des donn´ees Interpr´etation en terme de r´egression Notons que si l’on r´egresse brutalement Y sur X1, · · · , Xp, l’estimateur par moindre carr´es s’´ecrit β = (X X)−1 X Y = V −1 (X0 − X1). Sur l’exemple pr´ec´dant, > base y x1 x2 [1,] 0 -0.06842752 1.0664922282 [2,] 0 -0.01273235 -1.8565790136 [3,] 0 -2.24507861 -2.3625561698 [4,] 0 0.62173134 -1.3233327477 [5,] 0 -1.06797642 -0.4757008868 [6,] 0 0.51384396 -0.0561551010 [...] [395,] 1 1.95266073 2.2221802298 [396,] 1 3.32203741 0.6882211866 48
  • 49. Arthur CHARPENTIER - Analyse des donn´ees [397,] 1 1.35032036 0.7791709815 [398,] 1 1.30084249 2.1642225218 [399,] 1 2.61357210 1.9169049693 [400,] 1 0.31456394 -0.4377148839 > (r=lm(y~x1+x2,data=base)) Call: lm(formula = y ~ x1 + x2) Coefficients: (Intercept) x1 x2 0.3736 0.1370 0.1209 > -coef(r)[2]/coef(r)[3] x1 -1.133024 L’axe de discrimination sera alors de pente −1.13, et la constante refl`etera la performance de la discrimination. Le plus classique ´etant (comme ici n1 = n0) > (.5-coef(r)[1])/coef(r)[3] 49
  • 50. Arthur CHARPENTIER - Analyse des donn´ees (Intercept) 1.045773 q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q qq q q q q q q q q q q q q q q qq q q q q q q qq q q q q q qq q q q q q q q qq q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qqq q q q q q q qqq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q qq q q q q q q qq q q q q q q q q q qq q q q −2 0 2 4 6 −2024 q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q qq q q q q q q q q q q q q q q qq q q q q q q qq q q q q q qq q q q q q q q qq q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qqq q q q q q q qqq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q qq q q q q q q qq q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q qq q q q q q q q q q q q q q q qq q q q q q q qq q q q q q qq q q q q q q q qq q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qqq q q q q q q qqq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q qq q q q q q q qq q q q q q q q q q qq q q q −2 0 2 4 6 −2024 q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q qq q q q q q q q q q q q q q q qq q q q q q q qq q q q q q qq q q q q q q q qq q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qqq q q q q q q qqq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q qq q q q q q q qq q q q q q q q q q qq q q q 50
  • 51. Arthur CHARPENTIER - Analyse des donn´ees R`egle d’affectation Une fois d´etermin´e la direction de l’axe de discrimination, il reste `a choisir o`u positionner cet axe. Une r`egle naturelle consiste `a calculer la distance de l’observation aux centres de gravit´es, puis `a affecter en prenant la distance la plus faible. Mais il faut encore choisir la distance `a retenir... La m´etrique la plus usuelle est celle de Mahalanobis, i.e. W−1 . 51
  • 52. Arthur CHARPENTIER - Analyse des donn´ees M´ethode de scoring, approche bay´esienne On cherche ici `a affecter un individu `a l’une des classes, compte tenu de ses modalit´es x. On l’affecte `a la classe k pour laquelle la probabilit´e P(Y = y|X = x) est maximale. 52
  • 53. Arthur CHARPENTIER - Analyse des donn´ees M´ethode de scoring, exemple Gaussien Supposons que X|Y = y suive une loi Gaussienne, N(µy, Σy), i.e. f(x|Y = y) = 1 (2π)k det Σy exp − 1 2 (x − µy) Σ−1 y (x − µy) . Le crit`ere que l’on cherche `a maximiser est alors pyf(x|Y = y), ou son logarithme, i.e. (x − µy) Σ−1 y (x − µy) − 2 log py + log det Σy. On parle alors de r`egle d’affectation quadratique. Si l’on suppose les matrices de variance-covariance Σy constante, on obtient une r`egle d’affectation lin´eaire. 53
  • 54. Arthur CHARPENTIER - Analyse des donn´ees Exemple Gaussien, une variable explicative −4 −2 0 2 4 6 0.000.050.100.150.200.25 qq qq qq qq qqq qq q qqq qq qqq q qq qq q qq qq qqq q qqq qqq qq qq qq qqq qq qq qq qqq qqqq q qq qq q qqq qq qq qq qq qq qq qq qq qqq qqqq q q qqqq q qq qq qqq qqq q q qqq qq qqq qq qq qqq qq qq qqq qq qq q qq qqq qq q qq qq qqq qq qqq q q qqq qq qqq q qqq qq q q qq qq q q qq q qq qqq q qqq qq q q qq qq q qq qq qqq qq qqq q q qq qq q qqq qqqq q qqq qq q qq qq q qq qqq qq qq q q qq qq qq qqq qq qq qqq qqq qqq qqq qq q q qq qq qqq q qq qq qq q qq qqq q qqq qq q qqq qqq q q q qq qq qq q qq q qq q qq qq qq qqq qq q qqqqq q q qqq qq qq q qqqq qq qqq qqqqq qq q qq qq qqq qqq qqq qq qq q qq qq 54
  • 55. Arthur CHARPENTIER - Analyse des donn´ees Exemple Gaussien, deux variable explicative q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q qq q qq q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q qq q q q q q q q q q q q q qq q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q −2 0 2 4 6 −4−20246 q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q qq q qq q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q qq q q q q q q q q q q q q qq q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.005 0.01 0.015 0.02 0.025 0.03 0.035 0.01 0.02 0.02 0.03 0.03 0.04 0.05 0.06 0.07 55
  • 56. Arthur CHARPENTIER - Analyse des donn´ees Exemple Gaussien, interpr´etation si les probabilit´es py sont ´gales, alors on affecte l’individu `a la classe pour laquelle la distance entre x et le centre de gravit´e du nuage est minimale. Si l’on a deux groupes, on affecte x `a la classe 0 si x Σ−1 (µ0 − µ1) > 1 2 (µ0 − µ1) Σ−1 (µ0 − µ1) + log p1 p0 . On parlera de m´ethodes param´etriques de classification. Notons qu’il est possible d’utiliser des m´ethodes de type k-plus proches voisins, o`u on recherche les k voisins les plus proches de x, et x sera affect´e `a la classe majoritaire parmi ses voisins. 56
  • 57. Arthur CHARPENTIER - Analyse des donn´ees L’utilisation des r´egressions qq qq qq qq qqq qq q qqq qq qqq q qq qq q qq qq qqq q qqq qqq qq qq qq qqq qq qq qq qqq qqqq q qq qq q qqq qq qq qq qq qq qq qq qq qqq qqqq q q qqqq q qq qq qqq qqq q q qqq qq qqq qq qq qqq qq qq qqq qq qq q qq qqq qq q qq qq qqq qq qqq q q qqq qq qqq q qqq qq q q qq qq q q qq q qq qqq q qqq qq −4 −2 0 2 4 0.00.20.40.60.81.0 q q qq qq q qq qq qqq qq qqq q q qq qq q qqq qqqq q qqq qq q qq qq q qq qqq qq qq q q qq qq qq qqq qq qq qqq qqq qqq qqq qq q q qq qq qqq q qq qq qq q qq qqq q qqq qq q qqq qqq q q q qq qq qq q qq q qq q qq qq qq qqq qq q qqqqq q q qqq qq qq q qqqq qq qqq qqqqq qq q qq qq qqq qqq qqq qq qq q qq qq qq qq qq qq qqq qq q qqq qq qqq q qq qq q qq qq qqq q qqq qqq qq qq qq qqq qq qq qq qqq qqqq q qq qq q qqq qq qq qq qq qq qq qq qq qqq qqqq q q qqqq q qq qq qqq qqq q q qqq qq qqq qq qq qqq qq qq qqq qq qq q qq qqq qq q qq qq qqq qq qqq q q qqq qq qqq q qqq qq q q qq qq q q qq q qq qqq q qqq qq 57
  • 58. Arthur CHARPENTIER - Analyse des donn´ees L’utilisation des r´egressions Ici, on cherche un mod`ele qui pourrait estimer Y en fonction d’une - ou plusieurs - variables explicatives X. Y prend ici souvent deux valeurs 0 et 1, et sera mod´elis´ee par la variable latente Y , continue entre 0 et 1. On interpr`etera alors Y = 0.1 comme “il y a 10% de chances que Y = 1”. On introduit alors le rapport des chances, “odds” ou “cote”, p1 = P(Y = 1) 1 − P(Y = 1) E.g. si P(Y = 1) = 90%, alors p1 = 0.9/0.1 = 9 : on a 9 fois plus de chance d’observer Y = 1 que Y = 0. On passe de ce rapport de chance (d´efini sur R+ ) `a une variable d´efinie sur R (pour utiliser un mod`ele lin´eaire) en prenant le logarithme : on d´efini la transformation logit logit(p) = log p 1 − p , d’inverse logit−1 (y) = exp(y) 1 + exp(y) . 58
  • 59. Arthur CHARPENTIER - Analyse des donn´ees La r´egression logistique On suppose ici que X|Y = y suive une loi Gaussienne, N(µy, Σy). Aussi, X|Y = 0 a pour densit´e φ0 et X|Y = 1 a pour densit´e φ1. Comme les probabilit´es a posteriori sont une fonction logistique du score, on a log φ1(x) φ0(x) = β x On en d´eduit que P(Y = 1|X = x) = p1φ1(x) p1φ1(x) + p0φ0(x) = p1φ1(x) p0φ0(x) 1 + p1φ1(x) p0φ0(x) et donc P(Y = 1|X = x) = exp(β x + log(p1/p0)) 1 + exp(β x + log(p1/p0)) , 59
  • 60. Arthur CHARPENTIER - Analyse des donn´ees et de mani`ere symm´trique P(Y = 0|X = x) = 1 1 + exp(β x + log(p1/p0)) . La vraisemblance de β est alors β|x = i φ0(xi) i φ1(xi) or, d’apr`es la formule de Bayes, φ0(x) = P(Y = 0|X = x)[p0φ0(x) + p1φ1(x)] p0 et donc β|x = 1 pn0 0 pn1 1 i P(Y = 0|X = xi) i P(Y = 1|X = xi) i [f(xi)] o`u f(xi) = p0φ0(x) + p1φ1(x). Cette fonction ´etant inconnue, on utilise une 60
  • 61. Arthur CHARPENTIER - Analyse des donn´ees m´ethode de maximum de vraisemblance conditionnelle, max β exp(β x + log(p1/p0)) 1 + exp(β x + log(p1/p0)) 1 1 + exp(β x + log(p1/p0)) qui n’admet pas de solution explicite. On utilise une r`egle d’affectation simple : on affecte au groupe 1 si β x + log p1 p0 > 0. 61
  • 62. Arthur CHARPENTIER - Analyse des donn´ees qq qq qq qq qqq qq q qqq qq qqq q qq qq q qq qq qqq q qqq qqq qq qq qq qqq qq qq qq qqq qqqq q qq qq q qqq qq qq qq qq qq qq qq qq qqq qqqq q q qqqq q qq qq qqq qqq q q qqq qq qqq qq qq qqq qq qq qqq qq qq q qq qqq qq q qq qq qqq qq qqq q q qqq qq qqq q qqq qq q q qq qq q q qq q qq qqq q qqq qq −4 −2 0 2 4 0.00.20.40.60.81.0 q q qq qq q qq qq qqq qq qqq q q qq qq q qqq qqqq q qqq qq q qq qq q qq qqq qq qq q q qq qq qq qqq qq qq qqq qqq qqq qqq qq q q qq qq qqq q qq qq qq q qq qqq q qqq qq q qqq qqq q q q qq qq qq q qq q qq q qq qq qq qqq qq q qqqqq q q qqq qq qq q qqqq qq qqq qqqqq qq q qq qq qqq qqq qqq qq qq q qq qq qq qq qq qq qqq qq q qqq qq qqq q qq qq q qq qq qqq q qqq qqq qq qq qq qqq qq qq qq qqq qqqq q qq qq q qqq qq qq qq qq qq qq qq qq qqq qqqq q q qqqq q qq qq qqq qqq q q qqq qq qqq qq qq qqq qq qq qqq qq qq q qq qqq qq q qq qq qqq qq qqq q q qqq qq qqq q qqq qq q q qq qq q q qq q qq qqq q qqq qq 62
  • 63. Arthur CHARPENTIER - Analyse des donn´ees Cas multinomial ordonn´e Dans le cas des notations des vins de Bordeaux, on peut condi´erer les donn´ees comme ´etant ordonn´ees. La variable Y prend les valeurs 1, 2 et 3. On peut alors cr´eer deux variables dichotomiques Y1 =    0 si Y = 1 1 si Y = 2, 3 et Y2 =    0 si Y = 1, 2 1 si Y = 3 de telle sorte que Y = 1 + Y1 + Y2. On fait alors deux r´egressions, que l’on va sommer > BORDEAUX$y1=BORDEAUX$QUALITE>1 > BORDEAUX$y2=BORDEAUX$QUALITE>2 > r1 <- glm(y1~TEMPERAT+SOLEIL+CHALEUR+PLUIE, data=BORDEAUX, family=binomial) > r2 <- glm(y2~TEMPERAT+SOLEIL+CHALEUR+PLUIE, data=BORDEAUX, family=binomial) > BORDEAUX$y1p <- predict(r1, type=’response’) > BORDEAUX$y2p <- predict(r2, type=’response’) > BORDEAUX$yP=1+BORDEAUX$y1p+BORDEAUX$y2p > BORDEAUX 63
  • 64. Arthur CHARPENTIER - Analyse des donn´ees TEMPERAT SOLEIL CHALEUR PLUIE QUALITE y1 y2 yP y1p y2p 1 3064 1201 10 361 2 TRUE FALSE 2.123215 0.9902598703 1.329547e-01 2 3000 1053 11 338 3 TRUE TRUE 2.978320 0.9988771543 9.794432e-01 3 3155 1133 19 393 2 TRUE FALSE 2.756925 0.9823799308 7.745449e-01 4 3085 970 4 467 3 TRUE TRUE 2.975201 0.9997584698 9.754428e-01 5 3245 1258 36 294 1 FALSE FALSE 1.335511 0.3114261037 2.408500e-02 6 3267 1386 35 225 1 FALSE FALSE 1.025203 0.0252024785 3.309122e-07 7 3080 966 13 417 3 TRUE TRUE 2.998444 0.9994389749 9.990046e-01 8 2974 1189 12 488 3 TRUE TRUE 2.999847 0.9998466254 1.000000e+00 9 3038 1103 14 677 3 TRUE TRUE 2.999992 0.9999924418 1.000000e+00 10 3318 1310 29 427 2 TRUE FALSE 1.485805 0.4513896402 3.441497e-02 11 3317 1362 25 326 1 FALSE FALSE 1.077266 0.0772657691 1.882255e-08 12 3182 1171 28 326 3 TRUE TRUE 2.194081 0.8655663939 3.285148e-01 13 2998 1102 9 349 3 TRUE TRUE 2.954208 0.9986316794 9.555765e-01 14 3221 1424 21 382 1 FALSE FALSE 1.464454 0.4632192585 1.234297e-03 64
  • 65. Arthur CHARPENTIER - Analyse des donn´ees Cas multinomial nonordonn´e Sinon sous R, on utilise plus g´en´eralement la commande suivante > library(nnet) > (M=multinom(QUALITE~TEMPERAT+SOLEIL+CHALEUR+PLUIE, data=BORDEAUX)) converged Call: multinom(formula = QUALITE ~ TEMPERAT + SOLEIL + CHALEUR + PLUIE, data = BORDEAUX) Coefficients: (Intercept) TEMPERAT SOLEIL CHALEUR PLUIE 2 55.84574 -0.01534060 -0.008522957 -0.03456657 0.01639574 3 222.75077 -0.07528596 -0.020627710 0.51944417 0.08425525 Residual Deviance: 22.46474 AIC: 42.46474 > predict(M) [1] 2 3 3 3 1 1 3 3 3 1 1 2 3 1 2 2 2 3 2 1 1 1 2 1 2 1 1 3 1 2 3 2 3 3 Levels: 1 2 3 > BORDEAUX$QUALITE 65
  • 66. Arthur CHARPENTIER - Analyse des donn´ees [1] 2 3 2 3 1 1 3 3 3 2 1 3 3 1 2 2 2 3 2 1 2 1 2 1 2 1 2 3 1 1 3 1 3 3 66
  • 67. Arthur CHARPENTIER - Analyse des donn´ees Analyse discriminante et ACP Il est possible de voir l’analyse discriminante comme un cas particulier d’ACP avec la m´etrique de Mahalanobis. Soit X la matrice des donn´ees quantitatives, n × k. On dispose d’une variable Y prenant m modalit´es (le plus simple ´etant 2). On note alors G la matrice des barycentres des classes, i.e. m × k. 67
  • 68. Arthur CHARPENTIER - Analyse des donn´ees L’analyse discriminante avec R Sous R, la library(ade4) propose la fonction discrim. Sinon library(MASS) propose la fonction lda. Sinon, les r´egressions probit et logit sont des cas particulier de la fonction glm, avec glm( ... , family=binomial(link = "logit") glm( ... , family=binomial(link = "probit") 68