Ce TD est celui du cours "L1 COURS Numérique et Société".
Il vise, par une introduction à la manipulation des données, la compréhension de l'open data dans la perspectives d'une data analyse. On y apprend à utiliser Un Tableau et un outil de visualisation des données.
Elaborer la stratégie de communication - tout ce qu'il faut savoir.
L1 TD Numérique et Société
1. +
TD - Transition numérique et
Espace Public
Manipulation de données et Intelligence
stratégique
2. +Objectifs de ce cours
➢ Comprendre le monde des données et leur usage pour
des prises de décision stratégique
➢ Utiliser un tableau comme introduction aux bases de
données (Google Spreadsheet)
➢ Utiliser un outil de data visualisation pour concevoir des
tableaux de bord interactifs d’aide à la décision
(https://public.tableau.com/en-us/s/).
Pour une Introduction :
Installer Tableau : https://www.youtube.com/watch?v=uLj2EJwhPRQ
3. +Data et prise de décision
Avant de prendre une décision,
➢ il est important d’avoir une connaissance la plus objective
de la situation préalable.
➢ Il est important d’avoir une connaissance de la situation
conséquente à votre décision pour en évaluer l’efficacité.
Pour avoir cette connaissance, il est nécessaire de mettre en
place une démarche rationnelle d’analyse de la situation
sur les bases de données de qualités (Data Analysis) afin
➢ de décrire la situation
➢ de comparer la situation à d’autres situations de référence
➢ d’expliquer la situation au regard d’une autre situation
➢ de projeter la situation au regard d’une situation futur
Pour mettre en place cette démarche, il faut
Poser un problème(0) > construire le modèle de donnée(1) >
collecter les données(2) > analyser les données(3) >
interpréter les données(4) > répondre au problème(5)
5. +Individus, Groupe et Échantillon
Chaque analyse s'appuie sur un ou plusieurs individus (Évaluation,
Observation, Appel) qui peuvent être regroupés en un groupe d'individu (élève
ou "année scolaire") en synthétisant les données grâce à une fonction
mathématique(moyenne, max, dernière, etc).
L'étude est soit quasi exhaustive (plus de 80% de la population) soit
échantillonnée, c.-à-d. basée sur une petite partie de la population. Mais dans
ce cas se pose la question de la représentativité de l'échantillon.
Il existe plusieurs méthodes d'échantillonnage qui sont très discutées en
sciences des données :
⮚ Méthodes probabilistes ou aléatoires
⮚ Méthodes des strates ou des grappes
⮚ Méthodes des quotas
⮚ Méthodes « proche en proche » ou boule de neige
S'il n'est pas possible de s'assurer de la représentativité d'un échantillon, on
dira que la méthode est exploratoire. Les conclusions ne sont donc pas
généralisables à l'ensemble de la population. Sachant qu'un ensemble
concordant d'étude exploratoire fait avancer la science ou à l'inverse crée de
lourdes controverses (Voir Pr. Raoult et le COVID 19).
6. +Structure logique des données
DonnéesIndicesConceptProblème
Elève en
Décrochage
scolaire
Niveau
Moyennes de math
Note DM
Notes DS
Moyenne français
...Absences
nb
abscences
Justifié ?
durée
date
Troubles
entre
élèves
Type de
trouble
violence
avec
l'autorité
Chaque objet étudié est un fait de concepts, objet de l’esprit
construit, que l’on appelle parfois facteur que l’on appréhende
à partir de nombreux indicateurs
7. +Type de données
Il existe 3 types de données dans les approches quantitativistes
Données binaires : c'est l'échelle primitive en analyse de donnée (0/1)
Données qualitatives : Toute variable qualitative est un ensemble de
variables binaires liées entre elles logiquement. Cet ensemble est soit
⮚ à choix exclusif : le choix d'une qualité exclut nécessairement les autres
⮚ à choix multiple : on peut choisir plusieurs qualités d'un même
ensemble.
Données quantitatives : Toute variable mesurable par une quantité. On
distingue les variables
⮚ discrètes (bien souvent des entiers) : qui sont aussi des variables
qualitatives ordonnées quantitativement avec un nombre de valeurs finies
⮚ continues : qui sont véritablement des nombres avec un nombre de
valeurs infinies (souvent à faible proportion)
⮚ Le Temps est une donnée quantitative particulière
Les indices : qui sont des variables produit par des fonctions mathématiques
à partir de données élémentaires.
Pour des besoins pratiques d'analyse, on doit bien souvent recoder des
variables en des variables de nature différente
8. +Base de données
Une base de données est un ensemble d'objets étudiés (Table) pour qui
chaque individu est unique, décrit par des données brutes (aucun indice ni
champ calculés)
C'est à partir des bases de données que l'on forme des vues (souvent une
table unique) qui sont des regroupements synthétiques des données à partir
de fonction mathématiques.
Observations
…
Elèves
IDEleve
NomEleve
Adresse
…
Présences
IDAppel
IDEleve
absence
…
Appels
IDAppel
Date
…
Évaluation
IDEvaluation
IDEleve
note
…
Epreuves
IDEpreuves
Matière
Professeur
NomEleve Observations Moyenne Absences IndiceAlert
NomEleve sum(IDObs) sum(note<10) sum(appel=0) Obs+Moy+Aler
t
BasededonnéesVue
9. + TP 1 – Préparer et Recoder ses
données dans Tableau
10. +Importer ses données dans tableau
1. Les fichiers texte
Importer un fichier texte simple (.csv ou .txt) : le simple (une table) et le plus
universel
2. Les fichiers de logiciel statistiques
Importer un fichier Excel
3. Nettoyer les données à l'aide des fonctions
- Nommer plage de données
- Trier les données
- Filtrer les données
- Rechercher/Remplacer
- Convertir les formats de données
- Différencier les Valeurs manquantes (NA), null ou 0 ?
11. +Recoder ses données dans tableau
Recoder avec les fonctions logiques IF
- Quali vers binaire
La variable binaire sert souvent à répondre à une question précise et élémentaire oui/non. ex
dans la variable classe de l’élève (6ème/5ème/4ème/3ème), sont-ce des classes européennes
(oui/non) ?
- quanti vers binaire
Avec la variable nombre d’absence(n), cet élève est-il au-dessus de la moyenne des absences
par élève de l’établissement (oui/non)
- quanti vers quali
La variable quanti peut être simplifiée avec une échelle qualitative plus simple mais aussi (et/ou)
plus informative. Nombre d’observation de comportement (n) devient (“En dessous de la
moyenne”, “Au-dessus de la moyenne” “Très au-dessus de la moyenne”)
- quali vers quanti
Une variable qualitative qui s’appuie sur une échelle implicite peut devenir une variable
quantitative discrète. Par exemple Niveau de diplôme des parents (“Sans”, “Bep/3ème”, “Bac”,
“Supérieur”) devient (0, 1, 2, 3).
12. +Normaliser les données
1. Les Rangs
En transformant des valeurs quantitatives en Rang (1ère valeur, seconde, etc…) on peut mieux les
comparer car il n’y a plus d’unité ni d’étendues différentes qui fausseraient les comparaisons : comparer le
poids de l’éléphant et la dose en médicament.
2. Centrer et réduire une variable
On peut faire la même pratique en calculant à quel point la valeur s’éloigne (en écart type) de sa moyenne
(même unité et à peu près même étendue)
Centrée = Différence à la moyenne
Réduite = Centrée/L'ecart-type
3. Les quantiles
- Quantiles 25, 50 (médiane), 75
- min et max
4. Les outliers
Il y a toujours des individus “extraordinaire” par rapport à la normale (en trop ou en pas assez). Il est bien
de pouvoir les repérer pour les étudier à part en les retirant du groupe, car il déforme les données
(discussion sur moyenne et médiane)
- IQR = Q3-Q1
- Outsup = Q3 + 1.5*IQR
- Outinf = Q1 – 1.5*IQR
- Ou +/- 3*SD
13. +Importer ses données dans tableau
1. Les fichiers texte
Fichier texte simple (.csv ou .txt) : le simple (une table) et le plus universel
Fichier texte complexe (.Json ou .xml) : plusieurs tables imbriquées dans une
table élémentaire grâce à un codage hiérarchique
2. Les fichiers de logiciel statistiques
Excel
R
SAS
SPSS
3. La connection au serveur de base de données
Connecteur spécifique ou Connecteur Base de données
4. Les serveurs web de données
Google Spreadsheet
Serveur web data connecteur par API
15. +Analyser les données
1. Analyse monovariée
- Qualitative (Répartition décroissante)
- Quantitative discrète
- Constante ou linéaire
- Géométrique
- Binomiale et/ou de Poisson
- Quantative continue
- Boite à moustache
- Loi normale
- Loi de Pareto
2. Analyse Bi Variée
- Quali/Quali (dénombrement double)
- Quali/Quanti (Analyse de la variation)
- Quanti/Quanti (Corrélation
- Temporel
16. +
Principes de data visualisation multiples
■ Les éléments signifiants quantitatifs
■ Une aire
■ Un trait
■ Couleur
■ Les éléments signifiants
qualitatifs/discrets
■ Couleur
■ forme
■ Les indicateurs globaux
■ Moyenne, total etc
■ Le choix des données
■ Transformation (logistique)
■ Le type de formes
■ Les axes (origine <>0, ordre des
catégories)
■ Les grilles
■ Les fonds
■ Les titres et légendes (situées)
■ Les filtres
Les unités Le fond
17. +
Grouper, filtrer et set dynamique
Grouper des données
Établir des filtres interactifs
Repérer des ensembles de données
Manuel
Dynamique
Animation
Annotation