Anúncio

Cours 01.pptx

27 de Mar de 2023
Anúncio

Mais conteúdo relacionado

Anúncio

Cours 01.pptx

  1. 1-Introduction : ce TP est sur les logiciels statistiques qui incluent des méthodes statistiques multivariées telles que l'Analyse en Composantes Principales (ACP), l'Analyse Factorielle (AF) et l'Analyse Factorielle Multiple (AFM). Ces méthodes sont utilisées pour réduire les dimensions de données multidimensionnelles et extraire des variables latentes à partir d'un ensemble de variables observées. Elles sont couramment utilisées en recherche, en sciences sociales et dans de nombreux autres domaines pour explorer les relations entre les variables. 2-Les logiciels utilisés: Dans ce TP, nous explorerons six logiciels statistiques qui incluent ces méthodes: R, SAS, SPSS, Python, IBM SPSS Amos, et JMP. Nous commencerons par une brève description de chaque méthode, suivi d'une présentation de chaque logiciel et des instructions d'installation. Nous allons également voir comment importer les données, effectuer des analyses et interpréter les résultats.. Ensuite, nous examinerons chaque logiciel statistique en détail, en explorant les différentes fonctionnalités et modules disponibles pour l'ACP, l'AF et l'AFM. 3-Objectif: A la fin de ce TP l’etudiant sera familiariser avec les différentes méthodes et logiciels disponibles pour l'analyse de données multivariées. En acquérant une connaissance pratique de ces méthodes et outils, vous serez mieux capable pour analyser des données complexes dans votre propre recherche et travail.
  2. L’objectif du TP Les méthodes statistiques multivariées :
  3. R: R est un langage de programmation gratuit et open-source pour le calcul statistique et la visualisation de données. Il possède plusieurs packages pour implémentention de l'ACP, l'AF et l'AFM, y compris "FactoMineR", "psych" et "MFAg". R et RStudio sont deux logiciels différents, mais liés entre eux. R peut être utilisé en ligne de commande ou avec IDE, RStudio est un choix populaire pour les utilisateurs de R car il facilite l'écriture, l'exécution et la gestion du code R, ainsi que l'analyse et la visualisation des données. Rstudio: est un environnement de développement intégré (IDE) pour R. Il fournit une interface utilisateur graphique conviviale pour travailler avec R R & Rstudio :
  4. Voici les étapes d'installation pour les logiciels R et RStudio : Installation de R : 1.Accédez au site web officiel de R : https://cran.r-project.org/ 2.Choisissez la version de R appropriée pour votre système d'exploitation (Windows, Mac, …). 2.Cliquez sur Download R for windows si vous êtes sur Windows.
  5. 3. Cliquez sur base ou install R for the first time.
  6. 3. Cliquez sur Download R-4.2…. for Windows 4. Ouvrez le fichier d'installation téléchargé et suivez les instructions à l'écran pour installer R sur votre ordinateur
  7. Installation de RStudio : 1.Accédez au site web officiel de RStudio : https://www.rstudio.com/products/rstudio/download/ 2.Cliquez Download RStudio Desktop for windows. 3.Ouvrez le fichier d'installation téléchargé et suivez les instructions à l'écran pour installer RStudio sur votre ordinateur. 4.Lorsque l'installation est terminée, lancez RStudio. 5.RStudio devrait automatiquement détecter l'installation de R sur votre ordinateur et s'y connecter.
  8. Les packages R utilisés: l existe plusieurs packages R qui peuvent être utilisés pour effectuer une analyse en composantes principales (ACP). Voici quelques exemples de packages couramment utilisés pour l'ACP: • stats : Ce package est inclus dans l'installation de base de R et contient des fonctions pour l'analyse de données statistiques, y compris l'ACP. • FactoMineR : Ce package fournit une gamme d'outils pour l'analyse de données multidimensionnelles, y compris l'ACP, l'analyse factorielle des correspondances et l'analyse factorielle multiple. • ade4 : Ce package fournit des fonctions pour l'analyse de données multivariées, y compris l'ACP et l'analyse canonique des corrélations. • psych : Ce package fournit une gamme de fonctions pour l'analyse psychométrique, y compris l'ACP et l'analyse factorielle exploratoire. • PCAmixdata : Ce package fournit des fonctions pour l'analyse en composantes principales mixte, qui est utilisée pour traiter des données contenant à la fois des variables quantitatives et qualitatives. Analyse en composante principales sur R
  9. Installation des packages R Pour installer un package dans R : 1. vous pouvez utiliser directement la fonction install.packages(“nom de package”) dans R. Par exemple, pour installer le package FactoMineR, vous pouvez exécuter la commande suivante dans R : install.packages("FactoMineR") , 2. Cliquer entrer et selectionner une Miror 3. Cliquer ok
  10. Vous pouvez egalement installer un package dans RStudio, en suivant ces étapes : 1. Ouvrir Rstudio => Cliquez sur l'onglet "Packages" dans le panneau en bas à droite => Cliquez sur le bouton "Installer"Dans la boîte de dialogue => Saisissez le nom du package que vous souhaitez installer dans le champ "Packages". Vous pouvez également sélectionner plusieurs packages en séparant leurs noms par une virgule.. Vous pouvez également choisir d'installer à partir d'un fichier local si vous avez déjà téléchargé le package. => Cliquez sur le bouton "Installer" pour démarrer le processus d'installation.
  11. Application numérique (Examen Add 2023 ESGEN) Compte tenu de l'attention croissante portée à la qualité de l'éducation, le classement des universités est devenu un indicateur important de la qualité institutionnelle. Afin de classifier les 05 écoles nationales supérieures du pôle universitaire Koléa, on a adopté un classement selon des variables, Ci-dessous les principales variables. Articles : Nombre d'articles publiés Citations : Nombre de Citations. Enseignement : l'environnement d'apprentissage % Nbr.Etud : Nombre d'étudiants. Innovation : Le développement technologique et Innovation %. Ratio : Ratio professeurs / étudiants. Avis : Avis du recruteur Webometrics :la présence des universités sur le web, (la taille des Websites, la richesse des fichiers et la visibilité sur 100). Les résultats sont comme suit : Articles Citations Enseignement Innovation Nbr.Etud Ratio Avis Webometrics ESGEN 5 5 27.5 5.00% 1000 4% 90.00% 11 ESC 13 11 11.2 1.00% 1500 4% 50.00% 6 EHEC 6 5 12.3 2.00% 1100 15% 50.00% 25 ENSSEA 14 13 5 2.00% 1600 3% 60.00% 12 ENSM 5 7 11 1.50% 1000 15% 60.00% 24
  12. ci-dessous un code qui permet d’effectuer une analyse ACP dans RStudio à l'aide du package FactoMineR, y compris les étapes d’importation des données à partir d'un fichier Excel, créer une data-frame de données et générer des graphiques pour aider à analyser les résultats. # Install required packages install.packages("devtools") install.packages("FactoMineR") install.packages("readxl") # Load required libraries library(FactoMineR) library(readxl) # Import data from Excel my_data <- read_excel("path/to/my/data.xlsx") # Create a data frame my_df <- data.frame(my_data) # Check summary of the data summary(my_df) # Perform PCA analysis pca_res <- PCA(my_df, graph = FALSE) # Generate scree plot fviz_screeplot(pca_res, addlabels = TRUE) # Generate biplot fviz_pca_biplot(pca_res, col.var = "contrib", repel = TRUE)
  13. Explication du code (ligne par ligne) # Install required packages install.packages("devtools") install.packages("FactoMineR") install.packages("readxl") Ce code RStudio installe trois packages R à l'aide de la fonction install.packages(). Les packages qui seront installés sont devtools, FactoMineR et readxl.  Devtools: est un package qui fournit un ensemble d'outils pour le développement et l'installation de packages R. En installant devtools, l'utilisateur accède à un ensemble de fonctions qui simplifient le processus d'installation et de gestion des packages R.  FactoMineR est un package d'analyse de données multivariées qui contient un plusieurs méthodes, telles que l’ACP, l’AFC, la classifixation ..etc.  Readxl: est un package permettant d'importer des données Excel dans R.
  14. Explication du code (ligne par ligne) # Load required libraries library(FactoMineR) library(readxl) La fonction library() est utilisée pour charger les bibliothèques R dans la session R en cours, rendant leurs fonctions et objets disponibles pour l’utilisation dans le code R. Ce code RStudio permet de lire les données d'un fichier Excel et les stocké dans une variable appelée my_data. La fonction utilisée pour lire le fichier Excel est read_excel() du package readxl. L'argument dans fonction read_excel() est le chemin d'accès au fichier Excel. Dans ce cas, il est spécifié comme "path/to/my/data.xlsx". Vous devez remplacer ce chemin de fichier par le chemin de fichier réel de votre propre fichier Excel. Une fois la fonction read_excel() est exécutée avec l'argument de chemin de fichier approprié, les données du fichier Excel sont importés dans R et stockées dans la variable my_data. # Import data from Excel my_data <- read_excel("path/to/my/data.xlsx")
  15. Explication du code (ligne par ligne) La fonction data.frame() est utilisée pour créer une nouvelle trame de données dans R. Cette fonction prend en entrée un ou plusieurs vecteurs ou matrices de données, et renvoie un nouvel objet de trame de données avec ces éléments de données disposés en colonnes. Dans ce cas, my_data est une matrice ou un ensemble de données qui a été précédemment défini ou chargé dans l'environnement R. La fonction data.frame() est utilisée pour créer un nouvel objet de bloc de données appelé my_df qui contient les mêmes éléments de données que my_data, mais organisés en colonnes dans un bloc de données. # Create a data frame my_df <- data.frame(my_data)
  16. Explication du code (ligne par ligne) # Check summary of the data summary(my_df) Ce code RStudio génère un résumé des données dans la trame de données appelée my_df. La fonction summary() est une fonction R intégrée qui fournit un résumé rapide de la distribution des données, y compris les valeurs minimales et maximales, la médiane, les quartiles, la moyenne et l'écart type pour chaque colonne du bloc de données. La fonction summary() est souvent utilisée au début du processus d'analyse des données pour avoir une idée rapide des données , cela nous permettra de choisir entre une ACP normé ou centré.
  17. Explication du code (ligne par ligne) # Perform PCA analysis pca_res <- PCA(my_df, graph = FALSE) La fonction PCA est appelée, qui est une fonction du package "FactoMineR", utilisée pour effectuer une analyse en composantes principales sur les données. Le premier argument de la fonction PCA est "my_df", qui est la trame de données en cours d'analyse. Le deuxième argument est "graph = FALSE", qui est un argument facultatif qui spécifie s'il faut ou non créer une sortie graphique de la PCA. Dans ce cas, il est défini sur "FALSE", ce qui signifie qu'aucune sortie graphique ne sera produite. Le résultat de l'analyse PCA est enregistré dans une variable nommée "pca_res". Cette variable contiendra des informations sur les principales composantes extraites des données, ainsi que d'autres informations liées à l'analyse ACP.
  18. Explication du code (ligne par ligne) # Generate scree plot fviz_screeplot(pca_res, addlabels = TRUE) fviz_screeplot : il s'agit de la fonction utilisée pour générer le scree plot. Il fait partie du package FactoMineR et nécessite deux entrées : l'objet de résultat PCA (pca_res dans ce cas) et s'il faut ou non ajouter des étiquettes au tracé (addlabels = TRUE). pca_res : il s'agit de l'objet de résultat PCA généré à l'aide de la fonction PCA() du package FactoMineR. Il contient les résultats de l'analyse PCA, tels que les valeurs propres, les chargements et les scores. addlabels = TRUE : ce paramètre indique à la fonction fviz_screeplot d'ajouter des étiquettes au tracé d'éboulis, qui affichera le pourcentage de variance expliqué par chaque composant principal (ou facteur). le scree plot permet de visualiser la proportion de variance expliquée par chaque composante principale (ou facteur) dans l'analyse PCA. qui aide le lettrage à déterminer le nombre de composantes principales à retenir dans l'analyse
  19. Explication du code (ligne par ligne) # Generate biplot fviz_pca_biplot(pca_res, col.var = "contrib", repel = TRUE) fviz_pca_biplot : il s'agit d'une fonction du package FactoMineR qui crée un biplot d'un résultat PCA. pca_res : il s'agit de l'objet de résultat PCA obtenu lors de l'exécution d'une analyse PCA sur certaines données. col.var = "contrib": Cet argument spécifie que les couleurs des variables dans le biplot doivent être basées sur leur contribution aux composantes principales. repel = TRUE : cet argument spécifie que les étiquettes de variable dans le biplot doivent être repoussées les unes des autres pour éviter les chevauchements. Dans l'ensemble, la fonction fviz_pca_biplot prend l'objet de résultat PCA et produit un biplot qui montre les relations entre les variables et les composants principaux. Les couleurs des variables indiquent leur contribution aux composantes principales et les étiquettes des variables sont positionnées de manière à minimiser le chevauchement.
  20. write a code to perform Factorial Analysis in Rstudio using the package FactoMineR , show how importing the data using read excel , creating a data frame, summary of the data, and generating graphs that helps to analyse results , and explain the code line by line
  21. # Load required packages library(FactoMineR) library(readxl) library(ggplot2) # Import data from Excel file data <- read_excel("path/to/file.xlsx") # Create a data frame df <- data.frame(data) # Summary of the data summary(df) # Perform Factorial Analysis fa_res <- FactoMineR::PCA(df, graph = FALSE) # Plot Scree plot ggplot(fa_res$eig, aes(x=dim, y=eigenvalue)) + geom_bar(stat="identity", fill="steelblue") + geom_line(aes(x=dim, y=cumulative)) + labs(title="Scree Plot", x="Dimension", y="Eigenvalue/Cumulative Variance") # Generate biplot fviz_pca_biplot(fa_res, col.var = "contrib", repel = TRUE)
Anúncio