O slideshow foi denunciado.
Utilizamos seu perfil e dados de atividades no LinkedIn para personalizar e exibir anúncios mais relevantes. Altere suas preferências de anúncios quando desejar.

Analyse en Composantes Principales

154 visualizações

Publicada em

Méthode d'Analyse en Composantes Principales dans la perspective de son utilisation pour réduire la dimensionnalité dans le cadre d'un traitement par réseau de neurones.
Ce document s'inscrit dans un travail global sur l'Intelligence artificielle.

Publicada em: Dados e análise
  • Login to see the comments

  • Seja a primeira pessoa a gostar disto

Analyse en Composantes Principales

  1. 1. Analyse en Composantes Principales Introduction L’analyse en composantes principales (ACP) appartient à la famille des méthodes d’analyse de données. Elle a été proposée en 1901 par Karl Pearson. L’ACP s’appuie essentiellement sur de la géométrie, de l’algèbre linéaire et les statistiques. Face au fléau de la dimensionnalité que connaissent les algorithmes de machine learning à réseaux de neurones profonds, l’intérêt pour cette méthode a été renouvelé. En effet sa capacité à réduire la dimension des données à traiter permet d’améliorer la performance des algorithmes et, au-delà, de réduire le risque de surapprentissage. L’ACP est considérée comme étant une méthode d’apprentissage automatique non supervisé. 201J. DABOUNOU - FST DE SETTAT
  2. 2. Analyse en Composantes Principales Objectifs • Réduire le nombre de variables en les résumant à un nombre plus petit de composantes synthétiques • Construire des groupes d’individus qui présentent des similitudes • Extraire les principales caractéristiques des individus pour éventuellement les utiliser dans des algorithmes d’apprentissage automatique • Permettre une représentation graphique optimale des informations recueillies • Disposer d’outils permettant l’interprétation des résultats obtenus. Lors de l’analyse en composante principale on s’intéresse aux similitudes entre les individus et aux corrélations entre les variables. 202J. DABOUNOU - FST DE SETTAT
  3. 3. Analyse en Composantes Principales Données à manipuler On se donne I individus Xi et J variables quantitatives Vj avec xij la valeur de la variable Vj pour l’individu Xi. Ces données sont représentées sous forme matricielle par : X = Ou tout simplement X = Les lignes représentent les individus et les colonnes les variables. V1 V2 … VJ X1 x11 x12 x1J X2 x21 x22 x2J ⁞ XI xI1 xI2 xIJ x11 x12 … x1J x21 x22 x2J ⁞ ⁞ ⁞ xI1 xI2 xIJ 203J. DABOUNOU - FST DE SETTAT
  4. 4. Analyse en Composantes Principales Exemple : Dans le tableau ci-dessous on considère les notes de 10 étudiants dans 5 modules : Dans les cas concrets, il s’agit souvent de tableaux avec beaucoup plus de données. Il arrive que l’on traite des millions d’individus et des centaines de milliers de variables. Il est commode que le nombre d’individus soit largement supérieur aux nombre de variables. 204J. DABOUNOU - FST DE SETTAT
  5. 5. Analyse en Composantes Principales Espaces des données Les lignes qui représentent les I individus, notées Xi sont considérées comme appartenant à RJ. Les colonnes qui représentent les J variables Vj , appartiennent à RI. Pour chaque j, on calcule la moyenne des valeurs prises par la variable Vj : Ensuite, on remplace dans la matrice X chaque colonne par la variable centrée correspondante. On obtient alors : XCentrée = Pour simplifier on va par la suite maintenir la notation de la matrice X pour désigner XCentrée.   I 1i ijj x I 1 x x11 x12 x1J x21 x22 x2J xI1 xI2 xIJ 1x 2x Jx 1x 2x Jx 1x 2x Jx 205J. DABOUNOU - FST DE SETTAT
  6. 6. Analyse en Composantes Principales Exemple : Pour le tableau des notes des étudiants on obtient : Lorsque les variables sont centrées, la moyenne de chaque variable devient nulle. Par contre l’écart type reste le même. La translation n’affecte pas la dispersion des valeurs d’une variable. X = 206J. DABOUNOU - FST DE SETTAT
  7. 7. Analyse en Composantes Principales Analyse des individus dans l’espace des variables On projette les I vecteurs lignes représentant les individus dans l’espace RJ. On obtient un graphique similaire à celui-ci-dessous : Soit D1 une droite qui passe par l’origine et u1 un vecteur unitaire de de cette droite. On note O1i la projection de Xi sur D1. O RJ u1 Xi O1i D1 207J. DABOUNOU - FST DE SETTAT
  8. 8. Analyse des individus dans l’espace des variables On considère O11, O12, …, O1I, les projections des points X1, X2, …, XI sur D1. On a : Analyse en Composantes Principales O RJ u1 Xi O1i D1 208J. DABOUNOU - FST DE SETTAT
  9. 9. Analyse des individus dans l’espace des variables Les points O11, O12, …, O1I, les projections des points X1, X2, …, XI sur D1. L’analyse de cette série, notamment en terme de variance, peut nous renseigner sur la variance globale des points Xi dans l’espace RJ. On cherche alors, pour commencer, à trouver la direction D1 qui réalise un maximum de variance des points projetés O1i i=1,I. Cela revient à dire que D1 maximise la dispersion des points projetés parmi toutes les directions passant par l’origine O. Analyse en Composantes Principales u1 D1 O O1i 209J. DABOUNOU - FST DE SETTAT
  10. 10. Matrice des variances covariance Soit  s’appelle matrice de variance covariance. Si on pose  = ( skl), k,l=1,J alors skl est la covariance des variables Vk et Vl. En particulier si k=l, skk est la variance de la variable Vk. skl = var(Vk , Vl) et skk = var(Vk) On voit facilement que XtX et  ont les mêmes vecteurs propres et (à un facteur I près) les mêmes valeurs propres et d’un autre côté, ces matrices sont symétriques et semi-définies positives, donc possèdent r valeurs propres positives, r étant le rang de XtX (ou de ). On a toujours r  min(I,J). On pose 1  2  … r  0 les valeurs propres et u1, u2, …, ur les vecteurs propres associés. Analyse en Composantes Principales XXΣ t I 1  210J. DABOUNOU - FST DE SETTAT
  11. 11. Analyse des individus dans l’espace des variables Il s’agit d’un problème d’optimisation: Trouver u1 qui maximise : I1 étant l’inertie expliquée par la droite D1. On remarque déjà que maximiser : Revient à minimiser Ainsi la droite D1 recherchée est celle qui soit la plus proche du nuage de points Xi. Analyse en Composantes Principales O RJ u1 Xi O1i D1   I 1i 2 i1 1 I 1 I OO   I 1i 2 i1 1 I 1 I OO  I 1i 2 ii 1OX 211J. DABOUNOU - FST DE SETTAT
  12. 12. Analyse des individus dans l’espace des variables On a pour tout i=1,I: OO1i = Xiu1. Xi étant considéré comme un vecteur ligne. Donc choisir u1 unitaire qui maximise Revient à trouver u1 unitaire qui maximise (Xu1)t.(Xu1) = u1 t XtXu1. On utilise la méthode de Lagrange. Soit  le multiplicateur de Lagrange. On va alors maximiser le Lagrangien: L(u1) = u1 t XtXu1 - (u1 t u1 - 1) Le maximum est atteint lorsque la dérivée suivante s’annule : On a ainsi deux conditions à satisfaire : • u1 doit être vecteur propre de XtX associé à une valeur propre 1 • Cette valeur propre 1 doit être la plus grande des valeurs propres de XtX. Analyse en Composantes Principales O RJ u1 Xi O1i D1  I 1i 2 i1 1 I 1 I OO 022 L 11 t 1    uXuX u 212J. DABOUNOU - FST DE SETTAT
  13. 13. Axes de l’ACP L’ACP permet de représenter les individus (nuage de points) dans l’espace des variables dans la base (u1, u2, …, ur). Les vecteurs propres ui sont unitaires et deux à deux orthogonaux. Par ailleurs, on considère que l’information contenue dans les données correspond à la variance globale des variables (dispersion des points). Donc à l’inertie globale, égale à trace(XtX). Or on sait que Analyse en Composantes Principales 213J. DABOUNOU - FST DE SETTAT )...( I 1 )(trace I 1 )var()(traceglobale_Inertie r21 t J 1j j    XX VΣ O RJ u1 Xi O1i D1 u2 D2 I 1
  14. 14. Composantes principales Les points O11, O12, …, O1I sont les projections des points X1, X2, …, XI sur D1 et on a : Soit le vecteur F1= (O11, O12, …, O1I)tRJ. De même, O21, O22, … O2I sont les projections des points X1, X2, …, XI sur D2 et on a : Soit le vecteur F2= (O21, O22, … O2I)tRJ. … Et enfin Or1, Or2, …, OrI sont les projections des points X1, X2, …, XI sur Dr et on a : Soit le vecteur Fr= (Or1, Or2, … OrI)tRJ, espace des variables. Analyse en Composantes Principales 214J. DABOUNOU - FST DE SETTAT D1 O O1i u1 O2i Ori O RJ u1 Xi O1i D1 u2 O2i D2 D2 u2 O Dr ur O ⁞   I 1i 2 i1 1OO   I 1i 2 i2 2OO   I 1i 2 ir rOO
  15. 15. Composantes principales Les vecteurs F1, F2,…, Fr sont appelés composantes principales. On a F1 = X u1, F2 = X u2, …, Fr = X ur. La matrice X peut être remplacée, dans la base orthonormée (u1, u2, …, ur) par la matrice de composantes principales C = [ F1 F2 … Fr ] Ce qui permet de réduire la dimension des données puisque rJ sans perte d’information (Inertie globale). En effet: trace(XtX) = 1 + 2 +…+ r = u1 tXtXu1 + u2 tXtXu2 + …+ ur tXtXur = F1t F1 + F2t F2 + …+ Frt Fr = trace(Ct C) Analyse en Composantes Principales 215J. DABOUNOU - FST DE SETTAT D1 O O1i u1 O2i Ori O RJ u1 Xi O1i D1 u2 O2i D2 D2 u2 O Dr ur O ⁞
  16. 16. Analyse en Composantes Principales 216J. DABOUNOU - FST DE SETTAT D1 O O1i u1 O2i Ori D2 u2 O Dr ur O ⁞ Réduction de la dimensionnalité Il arrive souvent que pour s très inférieur au rang r on ait : Cela exprime le fait qu’à partir de s << r la variance des composantes principales (ou, autrement dit les valeurs propres) devient négligeable (voir figure ci-dessous). Dans ce cas La matrice X peut être remplacée, sans risque de perte d’information significative, par la matrice C = [ F1 F2 … Fs ] dans le sous-espace engendré par la famille orthonormée (u1, u2, …, us). Ce qui permet de réduire la dimension des données puisque s << r J. 1 ... ... r21 s21    Dans le contexte du machine learning, la contribution des composantes principales de faible variance est souvent considérée comme un bruit. Le fait de les négliger améliore l’apprentissage en réduisant le risque d’overfitting (surappretissage).
  17. 17. Le plan factoriel Le plan défini par le couple de vecteurs propres (u1, u2) est appelé plan factoriel. Il s’agit du plan : - qui est globalement le plus proche des points représentant les individus - sur lequel ces points se déforment le moins possible par projection - qui explique le mieux possible l’inertie projetée - tel que les points projetés dessus visualisent le mieux possible (par rapport à tout autre plan) la disposition des individus dans l’espace RJ. D’ailleurs ces quatre conditions sont équivalentes. Cette visualisation est d’autant plus fidèle au nuage de points que le taux est proche de 1. Analyse en Composantes Principales 217J. DABOUNOU - FST DE SETTAT r21 21 ...  
  18. 18. Exemple de matrice des variances covariance On considère notre exemple des notes des étudiants. On a alors Analyse en Composantes Principales XtX =  = Valeurs propres de XtX : 1 = 358,171559  2 = 120,66  1 = 18,189547  2 = 15,923189  r = 4,657534  0 218J. DABOUNOU - FST DE SETTAT
  19. 19. Exemple de matrice des variances covariance On obtient pour la matrice de passage P et la matrice diagonale des valeurs propres D : Analyse en Composantes Principales Avec XtX = Pt D P 219J. DABOUNOU - FST DE SETTAT P = D =

×