1. Arthur CHARPENTIER - Analyse des donn´ees
Analyse des donn´ees (1)
L’Analyse en Composantes Principales
Arthur Charpentier
http ://perso.univ-rennes1.fr/arthur.charpentier/
blog.univ-rennes1.fr/arthur.charpentier/
Master 2, Universit´e Rennes 1
1
2. Arthur CHARPENTIER - Analyse des donn´ees
Introduction `a l’analyse des donn´ees
Dans ce cours, nous verrrons essentiellement deux types de m´ethodes
• les m´ethodes factorielles, o`u on cherchera `a r´eduire le nombre de variables en
les r´esumant en un petit nombre de composantes synth´etiques
◦ en particulier l’ACP, Analyse en Composantes Principales si les variables
sont quantitatives
◦ en particulier l’AC, Analyse des Correspondances si les variables sont
qualitatives, o`u on cherchera les liens entre les modalit´es, avec l’ACF
Analyse des Correspondances Factorielles (simples) dans le cas o`u on dispose
de 2 variables, et l’ACM Analyse des Correspondances Multiples dans le cas
o`u on dispose de plus de 2 variables
2
3. Arthur CHARPENTIER - Analyse des donn´ees
Introduction `a l’analyse des donn´ees
• les m´ethodes de classification, o`u on cherchera `a r´eduire la taille de l’ensemble
des individus en les regroupant en un petit nombre de groupes homog`enes
◦ en particulier la CAH, Classification Ascendante Hi´erarchique ...
◦ en particulier l’Analyse Discriminante ...
Remarque Ce cours est davantage un cours d’alg`ebre lin´eaire qu’un cours de
probabilit´e ou de statistique. Mais une interpr´etation sera parfois possible en
terme de moyenne ou de variance (voire de covariance).
3
4. Arthur CHARPENTIER - Analyse des donn´ees
Exemple, ville et (in)s´ecurit´e
“Le palmar`es des d´epartements : o`u vit-on en s´ecurit´e ?, dans L’Express (no
2589, 15 f´evrier 2001)
• infra Nombre d’infractions totale pour 1000 habitants (2000)
• vvi Nombre de vols avec violance pour 1000 habitants (2000)
• auto Nombre de vols d’automobiles pour 1000 habitants (2000)
> add=read.table("http://perso.univ-rennes1.fr/arthur.charpentier/securite.txt",header=TRU
> base=add[,2:ncol(add)]
> rownames(base)=add$dep
> base=base[,c(1,6,9)]
> head(base)
infra vvi auto
D1 44.11 0.27 4.47
D2 45.97 0.55 4.39
D3 38.83 0.41 2.39
D4 49.68 0.21 4.17
D5 47.67 0.33 2.35
D6 109.21 4.10 8.83
4
8. Arthur CHARPENTIER - Analyse des donn´ees
Exemple, ville et (in)s´ecurit´e
Les variables semblent plutˆot corr´el´ees positivement,
> cor(base)
infra vvi auto
infra 1.0000000 0.8583172 0.7808855
vvi 0.8583172 1.0000000 0.5032206
auto 0.7808855 0.5032206 1.0000000
Supposons que l’on cherche `a regrouper les villes “proches”.
=⇒ Comme on a du mal `a voir dans R3
, on va essayer de projeter le nuage.
• projection sur un axe (droite)
• projection sur un plan
8
18. Arthur CHARPENTIER - Analyse des donn´ees
Un peu de g´eom´etrie euclidienne
On observe n individus, et q variables (quantitatives, sur R).
Les nuages de points peuvent se d´ecomposer de deux mani`eres,
– l’espace des individus, i.e. Rq
– l’espace des variables, i.e. Rn
On note xij l’observation de la j`eme variable sur le i`eme individu.
variables
1 · · · j · · · q
individus 1 x11 · · · x1j · · · x1q
...
...
...
...
i xi1 · · · xij · · · xiq
...
...
...
...
n xn1 · · · xnj · · · xnq
18
19. Arthur CHARPENTIER - Analyse des donn´ees
Un peu de g´eom´etrie euclidienne
Chaque individu est charact´eris´e par Li = (xi1, · · · , xiq)t
, appartenant `a Rq
,
exprim´e dans la base canonique {e1, · · · , eq}.
Definition 1. Les points individus dans l’espace vectoriel Rq
, muni´e de
{e1, · · · , eq} est appel´e espace des individus.
=⇒ comment mesurer la distance entre deux individus ?
19
20. Arthur CHARPENTIER - Analyse des donn´ees
Distance entre individus
Definition 2. Soit D une matrice diagonale q × q, dont les ´el´ements diagonaux
sont strictement positifs (dii > 0 pour i = 1, · · · , q). Alors la fonction
ϕ : Rq
× Rq
→ R d´efinie par
(u, v) → ut
Dv =
q
j=1
djjujvj
est un produit scalaire, not´e < ·, · >D.
Definition 3. Soit D une telle matrice diagonale q × q, et < ·, · >D le produit
scalaire associ´e. On note alors · D la norme associ´ee,
u D =
√
< u, u >D =
q
j=1
djjujuj
et dD(·, ·) la distance associ´ee,
dD(u, v) = u − v D.
20
21. Arthur CHARPENTIER - Analyse des donn´ees
Exemples de produits scalaires
• D = Id correspond au produit scalaire canonique, < u, v >Id=
q
j=1
ujvj
• Consid´erons le produit scalaire associ´e `a D =
3/4 0
0 1/4
Les points `a ´egale distance de l’origine 0 sont les points M = (x, y) ∈ R2
tels que
0M D = α > 0, i.e.
3
4
x2
+
1
4
y2
= α,
c’est `a dire une ellipse dans R2
.
21
22. Arthur CHARPENTIER - Analyse des donn´ees
D´eformation de l’espace
−2 −1 0 1 2
−2−1012
Produit scalaire canonique, Id
q
−2 −1 0 1 2
−2−1012
Produit scalaire associé à la matrice D
q
22
23. Arthur CHARPENTIER - Analyse des donn´ees
Les m´etriques usuelles
Il y a fondamentalement trois types de m´etriques `a retenir,
• la m´etrique usuelle i.e. M = I, la matrice identi´e
Dans ce cas, la distance d´epend de l’unit´e de mesure, et de la dispersion des
variables.
• la m´etrique r´eduite i.e. M = diag(s−2
1 , · · · , s−2
q ), la matrice diagonale des
inverses des variances empiriques
Rappelons que pour une s´erie d’observations {x1, · · · , xq}, la moyenne
(empirique) est
mx = x =
1
n
n
i=1
xi
et que la variance (empirique) est
s2
x =
1
n
n
i=1
(xi − x)2
=
1
n
n
i=1
x2
i − x2
.
23
24. Arthur CHARPENTIER - Analyse des donn´ees
Enfin, rappelons que la covariance entre x et y est
sxy =
1
n
n
i=1
(xi − x)(yi − y) =
1
n
n
i=1
xiyi − xy.
On appele corr´elation (au sens de Pearson) la grandeur
rxy =
sxy
sxsy
=
n
i=1(xi − x)(yi − y)
n
i=1(xi − x)2 ·
n
i=1(yi − y)2
.
• la m´etrique transform´ee i.e. M = T T,
Cela est ´equivalent `a travailler avec la m´etrique classique I sur le tableau
transform´ee XT .
Notons que pour toute matrice symm´etrique positive M, il existe une telle
matrice T, appel´e racine carr´ee de M
24
25. Arthur CHARPENTIER - Analyse des donn´ees
D´eformation de l’espace
Proposition 4. Munir l’espace de la m´etrique issue de D q × q, diagonale, est
´equivalent `a attribuer des poids {
√
d11, · · · , dqq} aux q variables et d’utiliser la
m´etrique canonique.
D´emonstration. Pour tout u, v ∈ Rq
,
< u, v >D= ut
Dv =
q
j=1
djjujvj =
q
j=1
djjuj djjvj
soit < u, v >D=< ˜u, ˜v >Id o`u ˜u = (˜u1, · · · , ˜uq), ˜uj = djjuj.
25
26. Arthur CHARPENTIER - Analyse des donn´ees
Les variables, cas de la dimension 2
On cherche ici `a mesurer une distance, ou une proximit´e, entre des variables.
Intuitivement, cette notion doit ˆetre proche de la notion de corr´elation.
Soient deux variables X1 et X2 continues.
Remarque La r´egression propose d’´etudier le lien entre deux variables, dans
l’optique d’en utiliser une pour pr´evoir l’autre.
26
28. Arthur CHARPENTIER - Analyse des donn´ees
q
q
q
q
qq
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
qqq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
qq
q
q
q
−2 −1 0 1 2
−2−1012
q
q
q
q
qq
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
qqq
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q
q q
q
q
q
q
q
q
q
q
q
q
q
q
q
qq
q
q
q
q
q
qq
q
q
q
−2 −1 0 1 2
−2−1012
q
q
q
On peut montrer que cet axe passe par le centre de gravit´e du nuage (comme les
deux autres r´egressions).
Changeons les coordonn´ees pour simplifier, Y1 = X1 − X1 et Y2 = X2 − X2. On
notera O ce barycentre, X les points d’origine et P les projections
28
29. Arthur CHARPENTIER - Analyse des donn´ees
orthongonales. On cherche `a minimiser
I =
n
i=1
XiPi
2
=
n
i=1
OiXi
2
− OiPi
2
(qu’on appelera inertie),
par des propri´et´es d’orthogonalit´e. Les points O et X ´etant fixer, si u est le
vecteur directeur de l’axe, u = (a, b), suppos´e unitaire, minimiser I devient `a
maximiser
I2 =
n
i=1
OiPi
2
= (Y u) Y Y uu (Y Y )uu (nΣ)u
o`u Σ correspond `a la matrice de variance-covariance de Y (et donc de X).
Σ est symm´etrique, elle poss`ede toujours deux valeurs propres, et deux vecteurs
propres, et
Σ = UΛU =
u1,1 u1,2
u2,1 u2,2
λ1 0
0 λ2
u1,1 u1,2
u2,1 u2,2
29
30. Arthur CHARPENTIER - Analyse des donn´ees
o`u U est une matrice othonorm´ee. Aussi,
I2 = λ1α2
+ λ2β2
≤ max{λ1, λ2} [α2
+ β2
]
=1
,
o`u (α, β) sont les nouvelles coordon´ees de u.
L’inertie ne peut donc d´epasser la plus grande valeur propre (on supposera que
c’est λ1), et elle atteint cette valeur lorsque u est le premier vecteur propre.
=⇒ l’axe principal d’un nuage de points bivari´e est le vecteur propre associ´e `a la
plus grande valeur propre de la matrice de variance-covariance des deux variables.
Ce r´esultat va se g´en´eraliser en plus grande dimension.
30
31. Arthur CHARPENTIER - Analyse des donn´ees
L’espace des variables
De la mˆeme mani`ere, chaque variable est charact´eris´e par Cj = (x1j, · · · , xnj)t
,
appartenant `a Rn
, exprim´e dans la base canonique {f1, · · · , fn}.
G´en´eralement, dans l’espace des variables, un poids identique sera donn´e `a
chaque individu.
31
33. Arthur CHARPENTIER - Analyse des donn´ees
Sous R, on peut utiliser le code suivant
> library(mnormt);library(rgl)
> mu <- c(0,0,0)
> Sigma <- matrix(c(1,0.5,0.4,0.5,1,-0.5,0.4,-0.5,1), 3, 3)
> Z <- rmnorm(80, mu, Sigma)
> plot3d(Z,type="s",col="blue")
> plot3d(ellipse3d(cor(Z)),col="light green",alpha=0.5,add=TRUE)
=⇒ la recherche d’axes principaux est li´e `a la recherche des axes de l’ellipse.
33
34. Arthur CHARPENTIER - Analyse des donn´ees
Projeter un nuage de points
Attention des points proches dans Rk
ont des projections proches, mais deux
points dont les projections sont proches ne sont pas n´ecessairement proches.
34
35. Arthur CHARPENTIER - Analyse des donn´ees
Projeter des points, la notion d’inertie
Consid´erons le tableau de donn´ees X = (xij)1≤i≤n,1≤j≤q = {L1, · · · , Ln}.
L’espace individus (de Rq
) est muni de la m´etrique issue D.
Definition 5. On appelle inertie du nuage des points {L1, · · · , Ln} la quantit´e
I(X, D) =
n
i=1
di Li
2
D =
n
i=1
q
j=1
diDjjx2
ij
=⇒ on cherche des axes ou des plans de projections telle que l’intertie soit
maximale.
35