SlideShare uma empresa Scribd logo
1 de 94
Baixar para ler offline
Introduction à SPSS
Technique d’analyse quantitative des
données I
Professeur: Karim DOUMI
Karim DOUMI
SPSS
1
Chapitre 1 : Fonctionnement de SPSS
Généralités
• SPSS est un outil statistique permettant des…
– …analyses simples:
• Statistiques descriptives,statistiques inférentielle….
tests d’hypothèse…….
– …analyses plus sophistiquées:
• Analyses multivariées
– … des graphiques
• Les analyses se font à partir des données
saisies!!!
– La qualité des analyses statistiques est fonction de
la qualité des données saisies
Karim DOUMI
SPSS
2
Fonctionnement de SPSS:
Généralités
• Quatre types de fichiers utilisés:
– Un fichier des données de l’étude
• Fichier texte (.txt) ou excel (.xls)
• BD (access, Mysql, oracle…..)
– Un fichier d’édition des données (.sav)
– Un fichier de syntaxe (.sps)
– Un fichier de résultats (.spo)
Karim DOUMI
SPSS
3
Fonctionnement de SPSS:
Fichier de données
• Ce fichier n’appartient pas à SPSS:
– Peut prendre diverses formes (Excel, base de données, fichier
texte,…).
– Avantages du fichier texte:
• Utilisation sur PC ou Macintosh.
• Peut être lu par n’importe quel programme de traitement de
texte.
• Résiste au temps et à l’évolution des diverses versions des
logiciels.
– Création du fichier texte:
• Utilisation du bloc-notes ou enregistrement dans WORD ou EXCEL
sous le format texte
Karim DOUMI
SPSS
4
Karim DOUMI
SPSS
5
Description des principales fenêtres :
• File : permet la gestion des fichiers (ex. : ouvrir un nouveau fichier, fermer,
enregistrer,
etc.).
• Edit : permet d’effectuer les opérations de traitement de texte (ex. : copier, couper,
coller,
etc.).
• View : permet de définir les options de l’écran (ex. : barres d’outils).
• Data : traite tout ce qui est lié à la gestion de la barre de données (ex. : définir une
variable, insérer une variable, etc.).
• Transform : permet d’effectuer les différentes opérations de transformation des
variables
(ex. : recodification, catégorisation, création d’indices, etc.).
• Analyse : permet toutes les analyses statistiques que SPSS permet d’effectuer (ex. :
analyses descriptives, corrélations, régressions, etc.).
• Graphs : présente tous les types de graphiques que SPSS permet de créer (ex. :
histogrammes, etc.).
• Utilities : comprend les utilitaires sur le programme (ex. : infos sur les fichiers, infos
sur
les variables, etc.).
• Windows : permet la gestion des fenêtres.
Help : outil d’aide à l’utilisation du logiciel.
Karim DOUMI
SPSS
6
La définition des variables
Name : sert à donner un nom à la variable. Le nom ne doit pas dépasser 8 caractères et il est recommandé de ne
pas utiliser de caractères accentués. Il doit bien représenter la variable pour vous permettre de la
reconnaître facilement.
Type : sert à décrire la variable et le format de la colonne. Il est recommandé de laisser l’option «numeric» qui
est indiquée par défaut. Pour les décimales «decimal places», vous pouvez les laisser égales à 2 ou les
mettre à 0, selon la situation.
Label : permet de donner une identification plus explicite à la variable qui sera affichée dans les différents
calculs statistiques.
Values : permet de définir les valeurs que peuvent prendre la variable.
Missing : permet d’indiquer si la variable peut accepter ou non des valeurs manquantes. Remarque : la saisie des
données manquantes se fait habituellement en effectuant un simple «retour» (c’est la méthode
recommandée). Si vous avez prévu d’utiliser des codes spécifiques (ex. : 9, 99, etc.), il faut les définir dans
«missing».
Columns : permet de terminer la largeur de la colonne. Vous pouvez augmenter ou réduire la taille de la
colonne.
Align : sert à aligner les données à l’intérieur des cellules.
Scale : permet de définir le type de l’échelle (nominale, ordinale, intervalles et ratio).
Karim DOUMI
SPSS
7
Fonctionnement de SPSS:
Fichier de données
• Dans un fichier texte, les données de chaque
sujet sont entrées successivement, séparées par
un « ; » une « , », une espace ou une tabulation.
– Il est préférable d’utiliser un « ; » ou une espace
– Exemple:
• Variables: identification (id), sexe du sujet (sexe, où f=1, h=2) et âge
(age) on entrera:
1 1 28  participant 1 est une femme de 28 ans
2 2 33  participant 2 est un homme de 33 ans
3 2 32  participant 3 est un homme de 32 ans
etc.
Karim DOUMI
SPSS
8
Fonctionnement de SPSS:
Fichier de données
• Le fichier de données inclut les valeurs
numériques associées à vos données
• Ex. 7 pour signifier “totalement en accord” ou 1 pour
signifier que le participant est un homme
• Principes généraux de saisie:
– Chaque ligne = 1 participant
– Chaque colonne = 1 variable
Karim DOUMI
SPSS
9
Fonctionnement de SPSS:
Fichier d’édition des données
• Pour insérer les données dans ce fichier:
– Saisie des données manuellement
– Importation du fichier avec la syntaxe:
Karim DOUMI
SPSS
GET DATA /TYPE = TXT
/FILE = 'C:Ex2.txt'
/DELCASE = LINE
/DELIMITERS = "t"
/ARRANGEMENT = DELIMITED
/FIRSTCASE = 2
/IMPORTCASE = FIRST 1000
/VARIABLES =
ID F3.2
L100KM F6.2
CHEVAPEU F3.2
POIDS A9
ACCEL F5.2
ORIGIN F3.2
NBCYL F3.2
ANNEE A8
.
CACHE.
EXECUTE.
GET DATA /TYPE=XLS
/FILE='C:Ex2.xls'
/SHEET=name 'Ex2'
/CELLRANGE=full
/READNAMES=on .
10
Fonctionnement de SPSS:
Fichier d’édition des données
• Pour insérer les données dans ce fichier:
– Avec le menu
• Suivre les étapes affichées à l’écran
Karim DOUMI
SPSS
11
Fonctionnement de SPSS:
Fichier d’édition des données
• Attribuer un nom/code
à chaque variable
– Pour SPSS 12 et moins,
max de 8 lettres/chiffres,
mais débutant
nécessairement par une
lettre
– Choisir des codes
significatifs
– Conserver par écrit les
codes des variables!!!
Karim DOUMI
SPSS
12
Karim DOUMI
SPSS
ID identification du participant
Code variable Signification
motivation à supprimer ses émotions
13
Fonctionnement de SPSS:
Fichier d’édition des données
• Attribuer une étiquette
à chaque variable
– Les codes sont limités.
On peut dans SPSS
attribuer une étiquette
(label), laquelle permet
de mieux se retrouver
• Onglet “variable view”
pour modifier les
paramètres des variables
Karim DOUMI
SPSS
14
Fonctionnement de SPSS:
Fichier d’édition des données
• Les données à saisir
dans SPSS sont
numériques:
– Chaque modalité de
réponse peut se voir
attribuer une étiquette
(Values)
Karim DOUMI
SPSS
15
Fonctionnement de SPSS:
Fichier d’édition des données
• Valeurs manquantes:
– Il importe d’attribuer un
code pour les valeurs
manquantes; ceci facilite
la vérification du fichier
de données
– On doit spécifier à SPSS
un code pour signaler
l’existence d’une valeur
manquante
• Ex. -999 pour une échelle
allant de 1 à 7.
Karim DOUMI
SPSS
16
Fonctionnement de SPSS:
Fichier syntaxe
• Les analyses avec SPSS se font:
1.Par les menus ou
2.Par les syntaxes
• Plus complexe à première vue, elle comporte des
avantages majeurs:
– Certains types d’analyses ou de sous-commandes ne sont pas
disponibles via le menu.
– En spécifiant tous les paramètres de votre analyse vous êtes
plus à même de contrôler les résultats obtenus.
Karim DOUMI
SPSS
17
Fonctionnement de SPSS:
Fichier syntaxe
• Le logiciel SPSS reconnaît un ensemble défini de
commandes et de sous-commandes.
– Plusieurs d'entre elles seront vues lors des cours
– Sinon, guide en .pdf dans le menu d’aide
• Le fichier syntaxe est un fichier de commandes
– Elles indiquent à SPSS quoi faire avec les données
– Les commandes et sous-commandes sont séparées par
une barre oblique (/)
– Aucun accent ne doit être employé dans les commandes,
sous-commandes et noms de variables
– Il ne faut pas oublier que les commandes SPSS se
terminent toujours par un point.
Karim DOUMI
SPSS
18
Fonctionnement de SPSS:
Fichier syntaxe
Karim DOUMI
SPSS
19
Fonctionnement de SPSS:
Fichier syntaxe
Karim DOUMI
SPSS
20
Fonctionnement de SPSS:
Fichier résultats
Karim DOUMI
SPSS
21
Calculer une Variable
Il arrive très souvent que les variables brutes d'une base de
données ne soient pas suffisantes pour effectuer certaines
analyses. On peut avoir besoin de créer une ou des nouvelles
variables à partir des variables existantes, comme dans les cas
suivants :
• Créer une variable qui contient la racine carrée d'une variable
existante
• Calculer la moyenne ou la somme d'une série de variables
existantes…
La commande Compute sert à créer de nouvelles variables sur
la base de fonctions arithmétiques, statistiques ou logiques.
Karim DOUMI
SPSS
22
Karim DOUMI
SPSS
Calculer une Variable
Exemple
23
• Cette nouvelle variable sera la moyenne des réponses données par chaque sujet
aux questions Q01, Q02, Q03,
• Allez dans le menu Transformer et choisissez Calculer la variable.
• Dans la boite de dialogue, écrivez, dans Variable cible (étiquette), MOYSAT (c’est
le nom de la variable).
• Ensuite, allez dans la boite Groupe de fonctions et cliquez à deux reprises
sur Statistiques (il est dans le bas de la liste, vous devez utiliser l’ascenseur à
droite). Vous verrez dans la boite Fonctions et variables spéciales la
fonction Mean sur laquelle vous devez aussi cliquer à deux reprises.
• Dans la boite du haut, vous verrez apparaître MEAN (?, ?). Vous devez alors insérer
les variables Q01, Q02, Q03 dans la parenthèse
Karim DOUMI
SPSS
Calculer une Variable
Exemple
24
• Vous pouvez également écrire à la main la commande dans la boite…
Karim DOUMI
SPSS
Calculer une Variable
Exemple
25
Exercice sur la commande CALCULER : par syntaxe
• Maintenant, éliminez la variable MOYSAT de la matrice de données (cliquez au
haut de la colonne sur le nom de la variable, puis dans le menu Édition, cliquez
sur Effacer ou, plus simplement, sur le bouton effacer ou supprimer de votre
clavier).
• Pour copier la commande à l’intérieur d’un fichier Syntaxe recommencez les
étapes précédentes et remplacez le par
• Le texte copié dans cette fenêtre devrait se lire comme suit :
Karim DOUMI
SPSS
Calculer une Variable
Exemple
26
faites la même chose en créant la variable « AGEX ».(âge exacte de l’individu)
Voici ce que devrait contenir maintenant votre fichier Syntaxe
Karim DOUMI
SPSS
Calculer une Variable
Exemple
27
Création d’une variable
La commande recode sert à créer de nouvelles variables (ou à
modifier des variables existantes) sur la base d’un
regroupement des valeurs qu'on appelle aussi clé de
recodage. Voici quelques situations dans lesquelles vous
pouvez utiliser le recodage :
• À partir d'une variable contenant la note d'examen sur 20,
créer une nouvelle variable qui recode la note en lettre (A+, A-
, A, etc..)
• Recoder les valeurs d'items inversés dans une échelle de
mesure
• Diminuer le nombre de catégories d'une variable catégorielle
en les regroupant différemment
Karim DOUMI
SPSS
28
Imaginons que nous voulons réaliser des analyses comparant les gens en
formation (STATUT = 1) et les autres (STATUT = 2, 3 ou 4). Pour cela, il nous faut
créer une variable qui diminue le nombre de catégories de 4 à 2. :
Allez encore une fois dans le menu Transformer, puis sélectionnez Création de
variables
Recodez la variable STATUT de sorte que les sujets qui ont répondu 1 auront la
valeur 1 (en formation) alors que ceux qui ont la valeur 2, 3 ou 4 auront
maintenant la valeur 2 (autres).
Dans la boite de dialogue principale, inscrivez STATUTX dans la boite Nom de
l’encadré.
Inscrivez ensuite Statut recodé dans la boite Étiquette du même encadré.
Cliquez sur Karim DOUMI
SPSS
Création d’une Variable
Exemple
29
Apres il faut Changer les anciennes valeurs par les nouvelles valeurs.
Karim DOUMI
SPSS
Création d’une Variable
Exemple
30
Exercice sur la commande Recode : par syntaxe
Pour les 3 variables a la fois la syntaxe est la suivante:
Karim DOUMI
SPSS
Création d’une Variable
Exemple
31
Les expressions conditionnelles permettent de calculer des variables
selon une condition, donc qui s’applique à des sujets ou des observations
(lignes) qui répondent à certains critères que nous allons définir selon nos
besoins avec cette commande.
La résultante des expressions conditionnelles peut créer une nouvelle
variable ou bien transformer les valeurs d'une variable existante. Dans le
dernier cas, il faut s'assurer que l'écrasement des valeurs originales ne
porte pas à conséquence
Voici l’apparence Syntaxe la commande de cet exercice.
IF (sexe = 1) satis1=MEAN (q01, q03, q05).
Littéralement, elle signifie que SI la valeur de la variable SEXE est égale à «
1 », la valeur de la variable SATIS1 sera égale à la moyenne des valeurs des
variables Q01, Q03 et Q05.
Karim DOUMI
SPSS
Expression conditionnelle (IF)
32
En utilisant le langage SPS:
Karim DOUMI
SPSS
Expression conditionnelle (IF)
33
Sélection de cas:
• Pour certaines analyses, il peut être nécessaire de filtrer une partie des
observations (cas) pour obtenir des résultats auprès d'un sous-groupe
spécifique d'observations.
• Il est possible de sélectionner une ou des observations à l’aide de un ou
d'une combinaison de critères, soit par la boite de dialogue, soit en
utilisant une commande SYNTAXE.
• Les conditions de sélection peuvent être uniques ou multiples. Dans le cas
d’une seule condition, on inscrit la variable sur laquelle repose la sélection
avec la condition formulée grâce aux conditions arithmétiques (<, >, =, <=,
>=, <>).
• Toutes les conditions multiples (deux variables ou plus) doivent utiliser les
opérateurs logiques (AND et OR) pour séparer les conditions.
• Pour faire une sélection de cas de manière interactive, allez dans le
menu Données, puis cliquez sur Sélectionnez des observations.
Karim DOUMI
SPSS
34
Sélection de cas:
Karim DOUMI
SPSS
Pour faire une sélection de cas
de manière interactive, allez
dans le menu Données, puis
cliquez sur Sélectionnez des
observations.
35
Sélection de cas:
Dans la première boite de dialogue,
vous devez déterminer la stratégie de
sélection que vous allez utiliser. Vous
avez plusieurs choix, mais le plus
populaire est sans contredit Selon
une condition logique. Dans ce cas, la
sélection se fait à partir de la
condition que vous énoncez. Nous
allons donc voir cette stratégie en
premier et préciser les autres par la
suite
Karim DOUMI
SPSS
36
Sélection de cas
Exemple :
pour choisir
les hommes de plus de
30 ans, on entrerait
dans la boite:
Sexe = 1 AND
age > 30
Karim DOUMI
SPSS
37
Sélection de cas:
Si vous préférez
taper la commande
manuellement,
vous devriez créer
la syntaxe suivante:
Karim DOUMI
SPSS
38
Sélection de cas:
Karim DOUMI
SPSS
39
Les autres stratégies de sélection
• Dans la boite de dialogue Sélection de cas,
vous avez bien sûr la stratégie Si que nous
venons de voir, mais aussi d’autres choix. Voici
une brève description pour chacun.
• Toutes les observations : vous ne faites pas
de sélection, vous utilisez toutes les
observations. Très utile quand vous voulez
revenir à la base initiale et annuler une
condition préalablement établie.
• Par échantillonnage aléatoire : sélection
d'observations aléatoire. Vous choisissez à ce
moment combien de cas vous voulez dans
votre échantillon, soit en pourcentage
(Environ _ % de toutes les observations), soit
en précisant un nombre d'observations parmi
les X premiers (Exactement _ observations à
partir des premières _ Observations).
• Utiliser une variable de filtre : enfin, vous pouvez
faire une sélection en ne conservant que les cas qui
ont des valeurs valides pour une variable filtre. Vous
n'avez qu'à transférer la variable filtre dans la boite
prévue à cet effet. Karim DOUMI
SPSS
40
Corrélation, régression linéaire
simple avec SPSS
41
Karim DOUMI
SPSS
Chapitre 2 : Corrélation,
régression et causalité
La régression simple indique la nature de la liaison linéaire entre
deux variables (quantitatives). La corrélation indique le degré de
linéarité entre deux variables (quantitatives). Ainsi l’analyse de
régression fournit une fonction entière (une droite par exemple)
alors que l’analyse de corrélation fournit un simple nombre – un
indice qui renseigne sur l’intensité avec laquelle 2 variables évoluent
ensemble. Ces 2 techniques sont donc complémentaires. L’analyse
causale enfin va plus loin en précisant le sens de la relation, le
chemin de la cause à l’effet.
Introduction : précisions sémantiques
Karim DOUMI
SPSS
42
Chapitre 2 : Corrélation,
régression et causalité
Exemple
Si je m’intéresse au lien entre le temps hebdomadaire moyen passé à travailler (X) et la note obtenue
au partiel (Y) :
• L’analyse de régression permet de déterminer une fonction qui lie les deux variables : ex : « Y =
aX + b »
• L’analyse de corrélation renseigne sur l’intensité du lien entre les deux variables : ex : « le lien est
fort et très significatif ».
• L’analyse causale détermine le sens de la relation : ex « temps de travail  note au partiel »
Karim DOUMI
SPSS
43
Chapitre 2 : Corrélation, régression et causalité
5.1. Analyse bivariée
Corrélation entre deux variables quantitatives
– Le coefficient de corrélation de Pearson r est une mesure
d’association (d’interdépendance) entre deux variables métriques
– Il mesure l’intensité de la co-variation entre les deux variables :
les deux variables, mesurées sur le même ensemble d’observations, varient-elles de façon
analogue (si pour une observation, l’une prend une valeur élevée, l’autre a également une
valeur élevée) ?
Karim DOUMI
SPSS
44
Chapitre 2: Corrélation, régression et causalité
5.1. Analyse bivariée
Calcul du coefficient de corrélation de Pearson :
• r est toujours compris entre –1 et 1
• si r est proche de –1 alors le lien est fort et négatif (quand 1 des 2 variables augmente l’autre
diminue), alors que si r est proche de 1 le lien est fort et positif (quand 1 des deux variable augmente,
l’autre augmente aussi)
• si r est proche de 0 alors il n’y a pas de lien entre x et y
)().(
)cov(
yx
xy
r


Karim DOUMI
SPSS
45
Chapitre 2: Corrélation, régression et causalité
5.1. Analyse bivariée
r et r2 :
• Comme r indique le degré de la relation entre la variation d’une variable et celle d’une autre
variable, il peut également représenter la décomposition de la variation totale (en étant au carré). On
retiendra que r2 = variation expliquée  variation totale
 r2 mesure la proportion de la variation d’une variable qui est expliquée par l’autre.
• r et r2 sont des mesures symétriques d’association : la corrélation entre X et Y est la même que la
corrélation entre Y et X. Il n’est pas important de savoir quelle est la variable indépendante et quelle
est la variable dépendante.
Karim DOUMI
SPSS
46
Chapitre 2: Corrélation, régression et causalité
5.1. Analyse bivariée
Interprétation du R2 :
Variance expliquée : R², coefficient de détermination (proportion de variance totale de Y
qui n’est pas due à l’erreur, ou encore proportion de la variance de Y expliquée par la
variance de X)
–R² = 0 : la variable indépendante n’explique rien
–R² = 1 : la variable explique complètement Y
–R² = 0,11 : 11% des variations de Y sont expliquées par le modèle
Karim DOUMI
SPSS
47
Chapitre 2: Corrélation, régression et causalité
5.1. Analyse bivariée
Précisons tout de suite que r indique la force d’une relation linéaire. Si on a r = 0, cela
signifie qu’il n’y a pas de relation linéaire entre X et Y, mais cela ne signifie pas que les 2
variables ne sont pas liées !!! Il peut très bien y avoir une relation non linéaire entre elles non
traduite par r.  Faites un graph !
Y
X
Illustration : Il existe
bien une relation entre X
et Y, mais non linéaire. Ici
r = 0
Karim DOUMI
SPSS
48
Chapitre 2: Corrélation, régression et causalité
5.1. Analyse bivariée
Le coefficient de corrélation linéaire r renseigne sur l’intensité du lien entre 2 variables quantitatives.
Il doit être complété afin de déterminer si l’éventuel lien mis à jour est significatif ou non. On utilise
pour cela un test t :
Remarque : sous SPPS, la probabilité critique du test est fournie par la rubrique « sig. (bilatérale) »
r
nrt 2
1
2.


Karim DOUMI
SPSS
49
Chapitre 2: Corrélation, régression et causalité
5.1. Analyse bivariée
Exemple SPSS : y a-t-il un lien entre la taille de l’unité sociale de visite (le nombre de personnes
qui forment le groupe) et le temps passé dans le musée d’art ?
• H0 : il n’y a aucun lien entre ces deux variables (r=0)
• H1 : il existe un lien entre ces deux variables (r0)
Analyse  Corrélation Bivariée
Résultat : coefficient de corrélation linéaire de Pearson : r (entre -1 et 1)
Karim DOUMI
SPSS
50
Chapitre 2: Corrélation, régression et causalité
5.1. Analyse bivariée
Corrélations
1 ,078
, ,071
542 538
,078 1
,071 ,
538 613
Corrélation de Pearson
Sig. (bilatérale)
N
Corrélation de Pearson
Sig. (bilatérale)
N
durée estimée de la visite
taille de l'unité sociale
durée
estimée de
la v isite
taille de l'unité
sociale
Le coefficient de Pearson est faible et non significatif. On conclut qu’il n’existe pas de lien entre
la durée de la visite et la taille de l’unité sociale de visite
Karim DOUMI
SPSS
51
Chapitre 2: Corrélation, régression et causalité
5.1. Analyse bivariée
Exercice
BDD Employes de SPSS : y’a-t-il une corrélation positive significative entre salaire actuel et salaire à
l’embauche ? Entre salaire actuel et nombre de mois d’ancienneté ?
Karim DOUMI
SPSS
52
Chapitre 2: Corrélation, régression et causalité
5.1. Analyse bivariée
Corrélations
1,000 ,880** ,084
, ,000 ,067
474 474 474
,880** 1,000 -,020
,000 , ,668
474 474 474
,084 -,020 1,000
,067 ,668 ,
474 474 474
Corrélation de Pearson
Sig. (bilatérale)
N
Corrélation de Pearson
Sig. (bilatérale)
N
Corrélation de Pearson
Sig. (bilatérale)
N
Salaire courant
Salaire d'embauche
Ancienneté (nombre
de mois)
Salaire
courant
Salaire
d'embauche
Ancienneté
(nombre de
mois)
La corrélation est signif icativ e au niveau 0.01 (bilatéral).**.
Corrélation positive forte et
significative
Corrélation positive faible et non
significative
Karim DOUMI
SPSS
53
Chapitre 2: Corrélation, régression et causalité
5.1. Analyse bivariée
Réponse :
On veut calculer la corrélation entre Y (attitude envers la ville) et X (durée de résidence dans la ville),
après contrôle d’une troisième variable Z (l’importance du climat).
On commence par calculer les corrélations simples entre chaque variables :
rYX = 0,9361
rYZ = 0,7334
rXZ = 0,5495
Karim DOUMI
SPSS
54
Chapitre 2: Corrélation, régression et causalité
5.1. Analyse bivariée
Corrélations
1,000 ,936** ,733**
, ,000 ,007
12 12 12
,936** 1,000 ,550
,000 , ,064
12 12 12
,733** ,550 1,000
,007 ,064 ,
12 12 12
Corrélation de Pearson
Sig. (bilatérale)
N
Corrélation de Pearson
Sig. (bilatérale)
N
Corrélation de Pearson
Sig. (bilatérale)
N
ATT_VILL
DURÉE_RÉ
IMP_CLIM
ATT_VILL DURÉE_RÉ IMP_CLIM
La corrélation est signif icativ e au niv eau 0.01 (bilatéral).**.
Analyse  Corrélation  Bivariée
Karim DOUMI
SPSS
55
Chapitre 2: Corrélation, régression et causalité
5.1. Analyse bivariée
La régression simple :
Elle consiste à déterminer une équation qui relie 2 variables quantitatives. Contrairement à la
corrélation simple, elle nécessite d’identifier l’une des 2 variables comme étant dépendante (à
expliquer) et l’autre comme étant indépendante (explicative). Remarquons tout de même que cette
méthode n’implique pas de causalité.
Le modèle type est de la forme :
Yi = β0 + β1Xi + ei avec Y = variable dépendante (à expliquer)
X = variable indépendante (ou explicative)
β0 = ordonnée à l’origine de la droite β1 = pente de la droite
ei = terme d’erreur associé à la ième observation
Karim DOUMI
SPSS
56
Chapitre 2: Corrélation, régression et causalité
5.1. Analyse bivariée
La régression simple, vocabulaire :
•Coefficient de détermination r2 : proportion de la variation totale de Y expliquée par la variation
de X
• Valeur estimée (ou prédite) de Yi : Ŷi = a + bx avec Ŷi la valeur estimée de Yi et a et b les
estimateurs respectifs de β0 et β1.
• Coefficient de régression : le paramètre b est appelé coefficient de régression non standardisé.
• L’écart-type résiduel (SEE) : c’est l’écart-type des erreurs (valeurs réelles Y moins valeurs
estimées Ŷ).
• Erreur type (SEb): estimation de l’écart-type de b
Karim DOUMI
SPSS
57
Chapitre 2: Corrélation, régression et causalité
5.1. Analyse bivariée
La régression simple, vocabulaire (suite) :
•Coefficient de régression standardisé (coefficient bêta) : il correspond à la pente obtenue par la
régression de Y sur X lorsque les données sont standardisées.
• Somme des erreurs au carré : les distances de tous les points à la droite de régression sont
élevées au carré et additionnées pour obtenir la somme des erreurs au carré, qui est une mesure de
l’erreur totale
• Statistique t : valeur du t de Student à n-2 degrés de liberté, afin de rejeter ou non H0. Cette
statistique est associée à sa probabilité critique (significative lorsqu’elle est < 0,05)
Karim DOUMI
SPSS
58
Chapitre 2: Corrélation, régression et causalité
5.1. Analyse bivariée
Les étapes d’une analyse de régression simple :
1. La première étape consiste à représenter le nuage de points, variable dépendante sur l’axe
vertical et variable indépendante sur l’axe horizontal.
Cela permet de se faire une idée sur le type de lien (est-ce linéaire ?) et de détecter les éventuelles
valeurs extrêmes qui risquent de perturber l’analyse.
Sous SPSS : Graph  Diagramme de dispersion  Simple
Karim DOUMI
SPSS
59
Chapitre 2: Corrélation, régression et causalité
5.1. Analyse bivariée
DURÉE_RÉ
20100
ATT_VILL
12
10
8
6
4
2
0
Karim DOUMI
SPSS
60
Chapitre 2: Corrélation, régression et causalité
5.1. Analyse bivariée
2. Il s’agit ensuite de trouver les caractéristiques de la droite qui décrit le mieux les données. On
utilise généralement la méthode des moindres carrés. Elle consiste à déterminer la droite de
régression qui minimise le carré des distances verticales entre les points et la droite.
Avec une équation du type Yi = β0 + β1Xi + ei la distance verticale du point à la droite est
représenté par ei.
Les distances de tous les points à la droite élevés au carrés et additionnés forment la somme des
carrés des erreurs, ou « erreur totale », notée
 Le but est que cette valeur soit minimale (que les distances verticales soient minimisées)
ej
2
Karim DOUMI
SPSS
61
DURÉE_RÉ
20100
12
10
8
6
4
2
0
y = β0 + β1x
ei
Yi
Ŷi
Karim DOUMI
SPSS
62
Chapitre 2: Corrélation, régression et causalité
5.1. Analyse bivariée
3. Estimation des paramètres de la droite :
Dans la plupart des cas, β0 et β1 sont inconnues et estimées à partir des observations de l’échantillon
en utilisant l’équation : Ŷi = a + bxi
Où Ŷi est la valeur estimée ou prédite de Yi et a et b sont les estimateurs respectifs de β0 et β1. La
constante b, qui est la pente de la droite de régression est généralement appelée coefficient de
régression non standardisé. C’est la variation attendue de Y quand X varie d’une unité.
)(
)cov(
XV
XY
b XbYa 
Karim DOUMI
SPSS
63
Chapitre 2: Corrélation, régression et causalité
5.1. Analyse bivariée
4. Estimation du coefficient de régression standardisé :
La standardisation est le procédé par lequel les données brutes sont transformées en nouvelles
variables, ayant une moyenne de 0 et une variance de 1. L’ordonnée à l’origine prend alors une valeur
de 0. La pente obtenue par la régression de Y par rapport à X (BYX) est alors la même que celle
obtenue par la régression de X par rapport à Y (BXY).
En outre, chacun de ces coefficients de régression standardisés (bêta) est égal au coefficient de
régression simple entre X et Y : BYX = BXY = rXY
Il existe une relation simple entre les coefficients de régression standardisés et non standardisés : BYX
= bXY(SX/SY)
Karim DOUMI
SPSS
64
Chapitre 2: Corrélation, régression et causalité
5.1. Analyse bivariée
5. Test d’hypothèse :
En toute rigueur, la signification statistique de la relation linéaire entre X et Y doit faire l’objet d’un
test d’hypothèse. On pose :
H0 : β1 = 0 et H1 : β1  0
H0 implique qu’il n’y a pas de relation linéaire entre X et Y, tandis que l’hypothèse alternative H1 en
suppose une, positive ou négative. On utilise un test bilatéral t à n-2 degrés de liberté associé à une
probabilité critique pour déterminer la significativité de β1.
Avec b coefficient de régression et SEb l’estimation de l’écart-type de b.
bSE
bt
Karim DOUMI
SPSS
65
Chapitre 2: Corrélation, régression et causalité
5.1. Analyse bivariée
Exercice
En utilisant la BDD SPSS « attitude envers la ville », réalisez une étude de corrélation et de régression
entre la variable dépendante attitude envers la ville et la variable indépendante durée de résidence.
Analyse  Régression  Linéaire
Karim DOUMI
SPSS
66
Chapitre 2: Corrélation, régression et causalité
5.1. Analyse bivariée
Récapitulatif du modèle
,936a ,876 ,864 1,2233
Modèle
1
R R-deux R-deux ajusté
Erreur
standard de
l'estimation
Valeurs prédites : (constantes), DURÉE_RÉa.
Analyse de corrélation :
Karim DOUMI
SPSS
67
Chapitre 2: Corrélation, régression et causalité
5.1. Analyse bivariée
Récapitulatif du modèle
,936a ,876 ,864 1,2233
Modèle
1
R R-deux R-deux ajusté
Erreur
standard de
l'estimation
Valeurs prédites : (constantes), DURÉE_RÉa.
Analyse de corrélation :
La durée de résidence dans la ville explique à
87,6 % l’attitude
Le R2 ajustée permet de corriger le R2 en
fonction du nombre de variable. Ici, pas
d’incidence.
Coefficient de Pearson
SEE
Karim DOUMI
SPSS
68
ANOVAb
105,952 1 105,952 70,803 ,000a
14,964 10 1,496
120,917 11
Régression
Résidu
Total
Modèle
1
Somme
des carrés ddl Carré moy en F Signif ication
Valeurs prédites : (constantes), DURÉE_RÉa.
Variable dépendante : ATT_VILLb.
Chapitre 2: Corrélation, régression et causalité
5.1. Analyse bivariée
Significativité du modèle de corrélation :
Karim DOUMI
SPSS
69
ANOVAb
105,952 1 105,952 70,803 ,000a
14,964 10 1,496
120,917 11
Régression
Résidu
Total
Modèle
1
Somme
des carrés ddl Carré moy en F Signif ication
Valeurs prédites : (constantes), DURÉE_RÉa.
Variable dépendante : ATT_VILLb.
Chapitre 2: Corrélation, régression et causalité
5.1. Analyse bivariée
Significativité du modèle de corrélation : Somme des carrés  ddl
SSY = SSreg + SSres
La statistique F calculée pour 1 et 10 ddl correspond à une
proba critique < 0,05. La relation entre X et Y est positive
et significative.
Karim DOUMI
SPSS
70
Coefficientsa
1,079 ,743 1,452 ,177
,590 ,070 ,936 8,414 ,000
(constante)
DURÉE_RÉ
Modèle
1
B
Erreur
standard
Coeff icients non
standardisés
Bêta
Coeff icien
ts
standardi
sés
t Signif ication
Variable dépendante : ATT_VILLa.
Chapitre 2: Corrélation, régression et causalité
5.1. Analyse bivariée
Paramètres du modèle de corrélation :
Karim DOUMI
SPSS
71
Coefficientsa
1,079 ,743 1,452 ,177
,590 ,070 ,936 8,414 ,000
(constante)
DURÉE_RÉ
Modèle
1
B
Erreur
standard
Coeff icients non
standardisés
Bêta
Coeff icien
ts
standardi
sés
t Signif ication
Variable dépendante : ATT_VILLa.
Chapitre 2: Corrélation, régression et causalité
5.1. Analyse bivariée
Paramètres du modèle de corrélation : BYX = BXY = rXY
Attitude (Ŷ) = 1,079 + 0,590
(durée de résidence)
T = 0,5900,070=8,414 avec 12-2 ddl. Proba critique
associée < 0,05 ce qui confirme le test F : relation positive
significative entre X et Y
Karim DOUMI
SPSS
72
Karim DOUMI
SPSS
Exemple
73
Chapitre 2: Corrélation, régression et causalité
5.1. Analyse bivariée
Hypothèses implicites posées lors de l’estimation des paramètres :
H1 : Le terme d’erreur est normalement distribué (pour chaque valeur fixe de X la distribution de Y
est normale).
H2 : Les moyennes de toutes ces distributions normales de Y, pour X donné, forment une droite
dont la pente est b.
H3 : La moyenne du terme d’erreur est 0.
H4 : La variance du terme d’erreur est constante, et ne dépend pas des valeurs prises par X.
H5 : Les termes d’erreur ne sont pas corrélés (les observations ont été réalisées indépendamment les
unes des autres).
Karim DOUMI
SPSS
74
Chapitre 2: Corrélation, régression et causalité
5.1. Analyse bivariée
Exercice
1) Réalisez une analyse de corrélation et de régression dans BDD « employés » entre salaire et salaire
embauche.
2) BDD « enquête du comportement des américains en 1993 » : peut-on expliquer la tendance à être
libéral ou conservateur (variable métrique à 7 modalités « affilpol ») en fonction du revenu du
répondant ?
3) Reprenez la BDD « enquête du comportement des américains en 1993 » et réalisez une nouvelle
analyse de corrélation et de régression susceptibles de présenter un intérêt, entre les variables de
votre choix.
Karim DOUMI
SPSS
75
Chapitre 2: Corrélation, régression et causalité
5.1. Analyse bivariée
Corrélation ou régression simple ?
Les deux méthodes donnent des résultats totalement équivalents, et les conclusions qui peuvent en
être tirées sont identiques (R² est, dans le cas de la régression simple, le carré de r)
 On choisira la régression lorsque l’objectif est d’estimer un modèle de prédiction (ex : prédire les
ventes par les dépenses publicitaires)
Karim DOUMI
SPSS
76
Chapitre 2: Corrélation, régression et causalité
5.2. Analyse multivariée
Principe : étudier les relations entre n variables prises simultanément (n>2)
Méthodes :
Explicative : régression multiple, analyse discriminante
Descriptive : analyse factorielle des correspondances (AFC), analyse en composantes principales
(ACP)
Nature des variables :
Métrique : régression multiple (explicative) et ACP (descriptive)
Nominale : analyse discriminante (explicative), analyse factorielle (descriptive)
Karim DOUMI
SPSS
77
Chapitre 2: Corrélation, régression et causalité
5.2. Analyse multivariée
Pourquoi réaliser des régressions multivariées ?
Limite de la régression simple : un phénomène a rarement une seule cause. Par exemple, qu’est-ce qui
explique les ventes d’un produit ?
Le budget pub, le budget force de vente, le prix, le nombre de points de vente, etc.
La régression multiple permet, elle, de confirmer une relation de cause à effet entre variables, c’est-à-
dire expliquer les variations d’une variable par plusieurs autres variables. Si cette relation est
confirmée, il faut alors évaluer son intensité.
Karim DOUMI
SPSS
78
Chapitre 2: Corrélation, régression et causalité
5.2. Analyse multivariée
Méthode :
Y est la variable quantitative à expliquer (dépendante), et X1, X2, …, Xi, les i variables explicatives
(indépendantes) quantitatives (à la rigueur binaires). La forme générale du modèle est :
Y = β0 + β1 X1 + β2 X2 + …. + βi Xi + ε avec ε minimum.
On recherche une fonction f qui lie les valeurs de Y à celle des X et telle que f(Xi) soit le « plus
proche possible » de Y.
Dans la pratique, on calcule l’équation :
Ŷ = b0 + b1 X1 + b2 X2 + …. + bi Xi
Karim DOUMI
SPSS
79
Chapitre 2: Corrélation, régression et causalité
5.2. Analyse multivariée
Présentation des résultats sous SPSS (1/4):
Analyse  Régression  Linéaire
• La significativité globale du modèle est fournie à l’aide d’un test F et une probabilité associée
• Le R² ajusté indique le % de variance de Y expliquée par l’équation (ajustée au nombre de variables
indépendantes et à la taille de l’échantillon)
• Le coefficient de corrélation multiple R tend vers 1 lorsque la relation est forte, vers 0 lorsqu’elle
est nulle
1
)1(
2
22



kn
k
ajusté RRR
Karim DOUMI
SPSS
80
Chapitre 2: Corrélation, régression et causalité
5.2. Analyse multivariée
Présentation des résultats sous SPSS (2/4) :
• Les coefficients β, dits coefficients de régression partiels représentent la variation attendue de Y
quand Xi varie d’une unité mais que les autres variables indépendantes sont maintenues constantes.
A chacun d’entre eux est associé un tests t pour en estimer la significativité.
• Pour comparer la contribution relative des Xi à Y, il suffit de comparer les valeurs absolues des t
associés ou de lire les coefficients de régression partiels standardisés Bêta (moyenne=0 et écart-
type=1) qui permettent la comparaison entre Xi alors même que celles-ci ont des unités de mesure
différentes (exemple, pour estimer les ventes d’un magasin : surface en m², nombre de produits en
promo, proximité du centre ville en km etc.)
Karim DOUMI
SPSS
81
Chapitre 2: Corrélation, régression et causalité
5.2. Analyse multivariée
Présentation des résultats sous SPSS (3/4) :
• Il est nécessaire de tester la colinéarité, car la multicolinéarité entre variables explicatives biaisent les
estimations de R² :
 Il faut étudier la tolérance : pourcentage de la variable explicative non expliquée par les autres
variables explicatives (elle doit être proche de 1, et en tout cas > 0,3)
 Il faut aussi étudier le VIF (variance inflation factor) : degré d’augmentation de l’erreur lié à
la multicolinéarité (le VIF doit être inférieur à 4)
Karim DOUMI
SPSS
82
Chapitre 2: Corrélation, régression et causalité
5.2. Analyse multivariée
Présentation des résultats sous SPSS (4/4) :
• Enfin, il est nécessaire d’examiner les résidus. Le résidu ei est la différence entre la valeur observée
yi et la valeur calculée par le modèle Ŷi. Ces erreurs ei s’expliquent d’une part par l’effet des variables
non prises en compte dans le modèle, et d’autre part par des variations aléatoires. Pour que
l’interprétation du modèle soit valide, il faut que les résidus se répartissent de manière aléatoire
autour de la valeur calculée. Pour vérifier ce dernier point, il suffit d’examiner le diagramme PP-
Gaussien : il ne doit y avoir aucune forme apparente dans la distribution des résidus
Karim DOUMI
SPSS
83
Chapitre 2: Corrélation, régression et causalité
5.2. Analyse multivariée
Exercice
Peut-on expliquer l’attitude envers la ville en fonction de la durée de résidence et de l’importance
accordée au climat ?
Karim DOUMI
SPSS
84
Récapitulatif du modèle
,972a
,945 ,933 ,8597
Modèle
1
R R-deux R-deux ajusté
Erreur
standard de
l'estimation
Valeurs prédites : (constantes), IMP_CLIM, DURÉE_RÉa.
Chapitre 2: Corrélation, régression et causalité
5.2. Analyse multivariée
Réponse :
Sous SPSS : Analyse  Régression  Linéaire
Karim DOUMI
SPSS
85
Récapitulatif du modèle
,972a
,945 ,933 ,8597
Modèle
1
R R-deux R-deux ajusté
Erreur
standard de
l'estimation
Valeurs prédites : (constantes), IMP_CLIM, DURÉE_RÉa.
Chapitre 2: Corrélation, régression et causalité
5.2. Analyse multivariée
Réponse :
Le modèle « explique » 93,3 % de la variance
de Y
La relation est forte
SEE
Karim DOUMI
SPSS
86
ANOVAb
114,264 2 57,132 77,294 ,000a
6,652 9 ,739
120,917 11
Régression
Résidu
Total
Modèle
1
Somme
des carrés ddl Carré moy en F Signif ication
Valeurs prédites : (constantes), IMP_CLIM, DURÉE_RÉa.
Variable dépendante : ATT_VILLb.
Chapitre 2: Corrélation, régression et causalité
5.2. Analyse multivariée
Réponse :
Sous SPSS : Analyse  Régression  Linéaire
Statistiques : test de colinéarité
Diagrammes : diagramme P-P gaussien
Karim DOUMI
SPSS
87
ANOVAb
114,264 2 57,132 77,294 ,000a
6,652 9 ,739
120,917 11
Régression
Résidu
Total
Modèle
1
Somme
des carrés ddl Carré moy en F Signif ication
Valeurs prédites : (constantes), IMP_CLIM, DURÉE_RÉa.
Variable dépendante : ATT_VILLb.
Chapitre 2: Corrélation, régression et causalité
5.2. Analyse multivariée
Réponse :
Le test F est associé à une probabilité d’erreur < 5 %. Le modèle
est donc globalement significatif
Karim DOUMI
SPSS
88
Coefficientsa
,337 ,567 ,595 ,567
,481 ,059 ,764 8,160 ,000 ,698 1,433
,289 ,086 ,314 3,353 ,008 ,698 1,433
(constante)
DURÉE_RÉ
IMP_CLIM
Modèle
1
B
Erreur
standard
Coeff icients non
standardisés
Bêta
Coeff icien
ts
standardi
sés
t Signif ication Tolérance VIF
Statistiques de
colinéarité
Variable dépendante : ATT_VILLa.
Chapitre 2: Corrélation, régression et causalité
5.2. Analyse multivariée
Réponse :
89
Karim DOUMI
SPSS
Coefficientsa
,337 ,567 ,595 ,567
,481 ,059 ,764 8,160 ,000 ,698 1,433
,289 ,086 ,314 3,353 ,008 ,698 1,433
(constante)
DURÉE_RÉ
IMP_CLIM
Modèle
1
B
Erreur
standard
Coeff icients non
standardisés
Bêta
Coeff icien
ts
standardi
sés
t Signif ication Tolérance VIF
Statistiques de
colinéarité
Variable dépendante : ATT_VILLa.
Chapitre 2: Corrélation, régression et causalité
5.2. Analyse multivariée
Réponse :
β1 et β2 sont significatifs. Ces 2 facteurs
sont donc importants pour expliquer Y
L’équation de la droite de régression est : Ŷ = 0,337 +
0,481X1 + 0,289X2
Pas de problème de
multicolinéarité
Karim DOUMI
SPSS
90
Diagramme gaussien P-P de régression de Résidu standardisé
Variable dépendante: ATT_VILL
Probabilité cumulée observée
1,00,75,50,250,00
1,00
,75
,50
,25
0,00
Chapitre 2: Corrélation, régression et causalité
5.2. Analyse multivariée
Réponse :
on de résidu
Ŷi (Yi calculé)
Yi observés
Pour l’observation i, on
estime ei par la distance
entre le point et la droite
Y=y
Karim DOUMI
SPSS
91
Chapitre 2: Corrélation, régression et causalité
5.2. Analyse multivariée
La régression pas à pas :
Le but de la régression pas à pas est de sélectionner, à partir d’un grand nombre de variables
explicatives, un petit sous-ensemble de variables qui expliquent la plus grande partie de la variation
de la variable dépendante (à expliquer).
Les variables explicatives sont introduites ou retirées une à une de l’équation que l’on cherche à
optimiser.
2 méthodes sont possibles :
Karim DOUMI
SPSS
92
Chapitre 2: Corrélation, régression et causalité
5.2. Analyse multivariée
• Régression pas à pas ascendante : les variables sont entrées dans le modèle les unes après les
autres, en recherchant d’abord la variable Xi la plus explicative, puis celle qui explique le plus la part
de variance restant à expliquer etc.
• Régression pas à pas descendante : les variables sont éliminées du modèle global les unes après
les autres, en éliminant d’abord la variable Xi la moins explicative de Y, puis celle qui explique le
moins la variance restant à expliquer etc.
Karim DOUMI
SPSS
93
Chapitre 2: Corrélation, régression et causalité
5.2. Analyse multivariée
Conclusion sur la régression multiple :
•Choisir la régression si l’objectif est un modèle de prédiction
•Bien réfléchir au statut des variables dépendante et indépendantes
•Disposer de variances suffisantes sur les variables introduites dans le modèle.
•Ne retenir que les β significatifs.
•Éviter les données avec des valeurs extrêmes ou aberrantes
Karim DOUMI
SPSS
94

Mais conteúdo relacionado

Mais procurados

Cours etat des soldes de gestion (s4 analyse financière)
Cours etat des soldes de gestion (s4 analyse financière)Cours etat des soldes de gestion (s4 analyse financière)
Cours etat des soldes de gestion (s4 analyse financière)Jamal Yasser
 
Excel ppt.ppt
Excel ppt.pptExcel ppt.ppt
Excel ppt.pptBadarSaf
 
Analyse en Composantes Principales
Analyse en Composantes PrincipalesAnalyse en Composantes Principales
Analyse en Composantes PrincipalesJaouad Dabounou
 
Les arbres de décisions
Les arbres de décisionsLes arbres de décisions
Les arbres de décisionsMariem Chaaben
 
Regression lineaire simple
Regression lineaire simpleRegression lineaire simple
Regression lineaire simpleMehdi Rajawi
 
Spss les premieres notions 1
Spss les premieres notions 1Spss les premieres notions 1
Spss les premieres notions 1Adad Med Chérif
 
S1 mq i - statistique descriptive i - résumés des chapitres
S1   mq i - statistique descriptive i - résumés des chapitresS1   mq i - statistique descriptive i - résumés des chapitres
S1 mq i - statistique descriptive i - résumés des chapitresAbdeslam ELMOUDEN
 
Ch.ii approches du managementt (1)
Ch.ii approches du managementt (1)Ch.ii approches du managementt (1)
Ch.ii approches du managementt (1)Amjad Soltani
 
Mettre en place une démarche de gestion des connaissances
Mettre en place une démarche de gestion des connaissancesMettre en place une démarche de gestion des connaissances
Mettre en place une démarche de gestion des connaissancesTayssirLimem
 
Correction examen-java-avancé-1
Correction examen-java-avancé-1Correction examen-java-avancé-1
Correction examen-java-avancé-1vangogue
 
Cartes de controle.ppt
Cartes de controle.pptCartes de controle.ppt
Cartes de controle.pptBilalBouyousfi
 
Cours echantillonnage et estimations
Cours echantillonnage et estimationsCours echantillonnage et estimations
Cours echantillonnage et estimationsMehdi Rajawi
 
livre-de-Management-exercices-corrigés-PDF.pdf
livre-de-Management-exercices-corrigés-PDF.pdflivre-de-Management-exercices-corrigés-PDF.pdf
livre-de-Management-exercices-corrigés-PDF.pdfABID824803
 
Construire une problématique de recherche
Construire une problématique de recherche Construire une problématique de recherche
Construire une problématique de recherche Hubert Maisonneuve
 
Analyse de données avec SPSS (1).pdf
Analyse de données avec SPSS (1).pdfAnalyse de données avec SPSS (1).pdf
Analyse de données avec SPSS (1).pdfImadSa
 

Mais procurados (20)

Cours etat des soldes de gestion (s4 analyse financière)
Cours etat des soldes de gestion (s4 analyse financière)Cours etat des soldes de gestion (s4 analyse financière)
Cours etat des soldes de gestion (s4 analyse financière)
 
Excel ppt.ppt
Excel ppt.pptExcel ppt.ppt
Excel ppt.ppt
 
Gestion financière
Gestion financière Gestion financière
Gestion financière
 
Analyse en Composantes Principales
Analyse en Composantes PrincipalesAnalyse en Composantes Principales
Analyse en Composantes Principales
 
Questionnaire sous spss
Questionnaire sous spssQuestionnaire sous spss
Questionnaire sous spss
 
Les arbres de décisions
Les arbres de décisionsLes arbres de décisions
Les arbres de décisions
 
Calcul des prévisions
Calcul des prévisionsCalcul des prévisions
Calcul des prévisions
 
Regression lineaire simple
Regression lineaire simpleRegression lineaire simple
Regression lineaire simple
 
Spss les premieres notions 1
Spss les premieres notions 1Spss les premieres notions 1
Spss les premieres notions 1
 
S1 mq i - statistique descriptive i - résumés des chapitres
S1   mq i - statistique descriptive i - résumés des chapitresS1   mq i - statistique descriptive i - résumés des chapitres
S1 mq i - statistique descriptive i - résumés des chapitres
 
Ch.ii approches du managementt (1)
Ch.ii approches du managementt (1)Ch.ii approches du managementt (1)
Ch.ii approches du managementt (1)
 
PFE L'entrepreneuriat social
PFE L'entrepreneuriat socialPFE L'entrepreneuriat social
PFE L'entrepreneuriat social
 
Soutenance projet
Soutenance projetSoutenance projet
Soutenance projet
 
Mettre en place une démarche de gestion des connaissances
Mettre en place une démarche de gestion des connaissancesMettre en place une démarche de gestion des connaissances
Mettre en place une démarche de gestion des connaissances
 
Correction examen-java-avancé-1
Correction examen-java-avancé-1Correction examen-java-avancé-1
Correction examen-java-avancé-1
 
Cartes de controle.ppt
Cartes de controle.pptCartes de controle.ppt
Cartes de controle.ppt
 
Cours echantillonnage et estimations
Cours echantillonnage et estimationsCours echantillonnage et estimations
Cours echantillonnage et estimations
 
livre-de-Management-exercices-corrigés-PDF.pdf
livre-de-Management-exercices-corrigés-PDF.pdflivre-de-Management-exercices-corrigés-PDF.pdf
livre-de-Management-exercices-corrigés-PDF.pdf
 
Construire une problématique de recherche
Construire une problématique de recherche Construire une problématique de recherche
Construire une problématique de recherche
 
Analyse de données avec SPSS (1).pdf
Analyse de données avec SPSS (1).pdfAnalyse de données avec SPSS (1).pdf
Analyse de données avec SPSS (1).pdf
 

Semelhante a Cours doumi spss 2013 2014

chapitre 3 Initiation au logiciel SPSS et traitement des données issues des ...
chapitre 3 Initiation au logiciel SPSS et traitement des données issues des  ...chapitre 3 Initiation au logiciel SPSS et traitement des données issues des  ...
chapitre 3 Initiation au logiciel SPSS et traitement des données issues des ...Hamidou Leyo Idriss
 
PPT2_Introduction traitement donnees SPSS_PNIN_Niger.pptx
PPT2_Introduction traitement donnees SPSS_PNIN_Niger.pptxPPT2_Introduction traitement donnees SPSS_PNIN_Niger.pptx
PPT2_Introduction traitement donnees SPSS_PNIN_Niger.pptximphouda
 
Mamadou Aguibou DIALLO - STATA
Mamadou Aguibou DIALLO - STATAMamadou Aguibou DIALLO - STATA
Mamadou Aguibou DIALLO - STATAoutiquanti
 
R FOR DATA ANALYSIS_DATAFRAMES1.pptx
R FOR DATA ANALYSIS_DATAFRAMES1.pptxR FOR DATA ANALYSIS_DATAFRAMES1.pptx
R FOR DATA ANALYSIS_DATAFRAMES1.pptxAbdoulayeWakhabDIOP
 
Guide_dintroduction_au_logiciel_SPSS.pdf
Guide_dintroduction_au_logiciel_SPSS.pdfGuide_dintroduction_au_logiciel_SPSS.pdf
Guide_dintroduction_au_logiciel_SPSS.pdfAliAITMOHAND1
 
Ayoub's Cours of Excel
Ayoub's Cours of ExcelAyoub's Cours of Excel
Ayoub's Cours of ExcelAyoub Ben Ali
 
Data Mining (Partie 2).pdf
Data Mining (Partie 2).pdfData Mining (Partie 2).pdf
Data Mining (Partie 2).pdfOuailChoukhairi
 
La démo DAX, le langage de Power BI [webinaire]
La démo DAX, le langage de Power BI [webinaire]La démo DAX, le langage de Power BI [webinaire]
La démo DAX, le langage de Power BI [webinaire]Technologia Formation
 
Outilsdanalysefonctionnellesadt 160919140831
Outilsdanalysefonctionnellesadt 160919140831Outilsdanalysefonctionnellesadt 160919140831
Outilsdanalysefonctionnellesadt 160919140831Lénaïc CAPELLE
 
Exploitation des moyens numériques mix
Exploitation des moyens numériques mixExploitation des moyens numériques mix
Exploitation des moyens numériques mixkamali az
 
Cour excel informatique de gestion semestre4
Cour excel informatique de gestion semestre4Cour excel informatique de gestion semestre4
Cour excel informatique de gestion semestre4Jamal Yasser
 
Salesforce Einstein analytics - Formation sur les-bases - By iMalka
Salesforce Einstein analytics - Formation sur les-bases - By iMalkaSalesforce Einstein analytics - Formation sur les-bases - By iMalka
Salesforce Einstein analytics - Formation sur les-bases - By iMalkaIlan Malka
 
Gestion et exploitation de données de test
Gestion et exploitation de données de testGestion et exploitation de données de test
Gestion et exploitation de données de testAlexandre STANURSKI
 
Scilab pour les vrais débutants
Scilab pour les vrais débutantsScilab pour les vrais débutants
Scilab pour les vrais débutantsScilab
 

Semelhante a Cours doumi spss 2013 2014 (20)

chapitre 3 Initiation au logiciel SPSS et traitement des données issues des ...
chapitre 3 Initiation au logiciel SPSS et traitement des données issues des  ...chapitre 3 Initiation au logiciel SPSS et traitement des données issues des  ...
chapitre 3 Initiation au logiciel SPSS et traitement des données issues des ...
 
PPT2_Introduction traitement donnees SPSS_PNIN_Niger.pptx
PPT2_Introduction traitement donnees SPSS_PNIN_Niger.pptxPPT2_Introduction traitement donnees SPSS_PNIN_Niger.pptx
PPT2_Introduction traitement donnees SPSS_PNIN_Niger.pptx
 
Mamadou Aguibou DIALLO - STATA
Mamadou Aguibou DIALLO - STATAMamadou Aguibou DIALLO - STATA
Mamadou Aguibou DIALLO - STATA
 
Presentation du progiciel
Presentation du progicielPresentation du progiciel
Presentation du progiciel
 
Une Introduction à R
Une Introduction à RUne Introduction à R
Une Introduction à R
 
R FOR DATA ANALYSIS_DATAFRAMES1.pptx
R FOR DATA ANALYSIS_DATAFRAMES1.pptxR FOR DATA ANALYSIS_DATAFRAMES1.pptx
R FOR DATA ANALYSIS_DATAFRAMES1.pptx
 
Guide_dintroduction_au_logiciel_SPSS.pdf
Guide_dintroduction_au_logiciel_SPSS.pdfGuide_dintroduction_au_logiciel_SPSS.pdf
Guide_dintroduction_au_logiciel_SPSS.pdf
 
Cours 01.pptx
Cours 01.pptxCours 01.pptx
Cours 01.pptx
 
Ayoub's Cours of Excel
Ayoub's Cours of ExcelAyoub's Cours of Excel
Ayoub's Cours of Excel
 
Memo stad professionnel
Memo stad professionnelMemo stad professionnel
Memo stad professionnel
 
Langage sas acp
Langage sas acpLangage sas acp
Langage sas acp
 
Data Mining (Partie 2).pdf
Data Mining (Partie 2).pdfData Mining (Partie 2).pdf
Data Mining (Partie 2).pdf
 
La démo DAX, le langage de Power BI [webinaire]
La démo DAX, le langage de Power BI [webinaire]La démo DAX, le langage de Power BI [webinaire]
La démo DAX, le langage de Power BI [webinaire]
 
Outilsdanalysefonctionnellesadt 160919140831
Outilsdanalysefonctionnellesadt 160919140831Outilsdanalysefonctionnellesadt 160919140831
Outilsdanalysefonctionnellesadt 160919140831
 
JasperReport
JasperReportJasperReport
JasperReport
 
Exploitation des moyens numériques mix
Exploitation des moyens numériques mixExploitation des moyens numériques mix
Exploitation des moyens numériques mix
 
Cour excel informatique de gestion semestre4
Cour excel informatique de gestion semestre4Cour excel informatique de gestion semestre4
Cour excel informatique de gestion semestre4
 
Salesforce Einstein analytics - Formation sur les-bases - By iMalka
Salesforce Einstein analytics - Formation sur les-bases - By iMalkaSalesforce Einstein analytics - Formation sur les-bases - By iMalka
Salesforce Einstein analytics - Formation sur les-bases - By iMalka
 
Gestion et exploitation de données de test
Gestion et exploitation de données de testGestion et exploitation de données de test
Gestion et exploitation de données de test
 
Scilab pour les vrais débutants
Scilab pour les vrais débutantsScilab pour les vrais débutants
Scilab pour les vrais débutants
 

Cours doumi spss 2013 2014

  • 1. Introduction à SPSS Technique d’analyse quantitative des données I Professeur: Karim DOUMI Karim DOUMI SPSS 1
  • 2. Chapitre 1 : Fonctionnement de SPSS Généralités • SPSS est un outil statistique permettant des… – …analyses simples: • Statistiques descriptives,statistiques inférentielle…. tests d’hypothèse……. – …analyses plus sophistiquées: • Analyses multivariées – … des graphiques • Les analyses se font à partir des données saisies!!! – La qualité des analyses statistiques est fonction de la qualité des données saisies Karim DOUMI SPSS 2
  • 3. Fonctionnement de SPSS: Généralités • Quatre types de fichiers utilisés: – Un fichier des données de l’étude • Fichier texte (.txt) ou excel (.xls) • BD (access, Mysql, oracle…..) – Un fichier d’édition des données (.sav) – Un fichier de syntaxe (.sps) – Un fichier de résultats (.spo) Karim DOUMI SPSS 3
  • 4. Fonctionnement de SPSS: Fichier de données • Ce fichier n’appartient pas à SPSS: – Peut prendre diverses formes (Excel, base de données, fichier texte,…). – Avantages du fichier texte: • Utilisation sur PC ou Macintosh. • Peut être lu par n’importe quel programme de traitement de texte. • Résiste au temps et à l’évolution des diverses versions des logiciels. – Création du fichier texte: • Utilisation du bloc-notes ou enregistrement dans WORD ou EXCEL sous le format texte Karim DOUMI SPSS 4
  • 6. Description des principales fenêtres : • File : permet la gestion des fichiers (ex. : ouvrir un nouveau fichier, fermer, enregistrer, etc.). • Edit : permet d’effectuer les opérations de traitement de texte (ex. : copier, couper, coller, etc.). • View : permet de définir les options de l’écran (ex. : barres d’outils). • Data : traite tout ce qui est lié à la gestion de la barre de données (ex. : définir une variable, insérer une variable, etc.). • Transform : permet d’effectuer les différentes opérations de transformation des variables (ex. : recodification, catégorisation, création d’indices, etc.). • Analyse : permet toutes les analyses statistiques que SPSS permet d’effectuer (ex. : analyses descriptives, corrélations, régressions, etc.). • Graphs : présente tous les types de graphiques que SPSS permet de créer (ex. : histogrammes, etc.). • Utilities : comprend les utilitaires sur le programme (ex. : infos sur les fichiers, infos sur les variables, etc.). • Windows : permet la gestion des fenêtres. Help : outil d’aide à l’utilisation du logiciel. Karim DOUMI SPSS 6
  • 7. La définition des variables Name : sert à donner un nom à la variable. Le nom ne doit pas dépasser 8 caractères et il est recommandé de ne pas utiliser de caractères accentués. Il doit bien représenter la variable pour vous permettre de la reconnaître facilement. Type : sert à décrire la variable et le format de la colonne. Il est recommandé de laisser l’option «numeric» qui est indiquée par défaut. Pour les décimales «decimal places», vous pouvez les laisser égales à 2 ou les mettre à 0, selon la situation. Label : permet de donner une identification plus explicite à la variable qui sera affichée dans les différents calculs statistiques. Values : permet de définir les valeurs que peuvent prendre la variable. Missing : permet d’indiquer si la variable peut accepter ou non des valeurs manquantes. Remarque : la saisie des données manquantes se fait habituellement en effectuant un simple «retour» (c’est la méthode recommandée). Si vous avez prévu d’utiliser des codes spécifiques (ex. : 9, 99, etc.), il faut les définir dans «missing». Columns : permet de terminer la largeur de la colonne. Vous pouvez augmenter ou réduire la taille de la colonne. Align : sert à aligner les données à l’intérieur des cellules. Scale : permet de définir le type de l’échelle (nominale, ordinale, intervalles et ratio). Karim DOUMI SPSS 7
  • 8. Fonctionnement de SPSS: Fichier de données • Dans un fichier texte, les données de chaque sujet sont entrées successivement, séparées par un « ; » une « , », une espace ou une tabulation. – Il est préférable d’utiliser un « ; » ou une espace – Exemple: • Variables: identification (id), sexe du sujet (sexe, où f=1, h=2) et âge (age) on entrera: 1 1 28  participant 1 est une femme de 28 ans 2 2 33  participant 2 est un homme de 33 ans 3 2 32  participant 3 est un homme de 32 ans etc. Karim DOUMI SPSS 8
  • 9. Fonctionnement de SPSS: Fichier de données • Le fichier de données inclut les valeurs numériques associées à vos données • Ex. 7 pour signifier “totalement en accord” ou 1 pour signifier que le participant est un homme • Principes généraux de saisie: – Chaque ligne = 1 participant – Chaque colonne = 1 variable Karim DOUMI SPSS 9
  • 10. Fonctionnement de SPSS: Fichier d’édition des données • Pour insérer les données dans ce fichier: – Saisie des données manuellement – Importation du fichier avec la syntaxe: Karim DOUMI SPSS GET DATA /TYPE = TXT /FILE = 'C:Ex2.txt' /DELCASE = LINE /DELIMITERS = "t" /ARRANGEMENT = DELIMITED /FIRSTCASE = 2 /IMPORTCASE = FIRST 1000 /VARIABLES = ID F3.2 L100KM F6.2 CHEVAPEU F3.2 POIDS A9 ACCEL F5.2 ORIGIN F3.2 NBCYL F3.2 ANNEE A8 . CACHE. EXECUTE. GET DATA /TYPE=XLS /FILE='C:Ex2.xls' /SHEET=name 'Ex2' /CELLRANGE=full /READNAMES=on . 10
  • 11. Fonctionnement de SPSS: Fichier d’édition des données • Pour insérer les données dans ce fichier: – Avec le menu • Suivre les étapes affichées à l’écran Karim DOUMI SPSS 11
  • 12. Fonctionnement de SPSS: Fichier d’édition des données • Attribuer un nom/code à chaque variable – Pour SPSS 12 et moins, max de 8 lettres/chiffres, mais débutant nécessairement par une lettre – Choisir des codes significatifs – Conserver par écrit les codes des variables!!! Karim DOUMI SPSS 12
  • 13. Karim DOUMI SPSS ID identification du participant Code variable Signification motivation à supprimer ses émotions 13
  • 14. Fonctionnement de SPSS: Fichier d’édition des données • Attribuer une étiquette à chaque variable – Les codes sont limités. On peut dans SPSS attribuer une étiquette (label), laquelle permet de mieux se retrouver • Onglet “variable view” pour modifier les paramètres des variables Karim DOUMI SPSS 14
  • 15. Fonctionnement de SPSS: Fichier d’édition des données • Les données à saisir dans SPSS sont numériques: – Chaque modalité de réponse peut se voir attribuer une étiquette (Values) Karim DOUMI SPSS 15
  • 16. Fonctionnement de SPSS: Fichier d’édition des données • Valeurs manquantes: – Il importe d’attribuer un code pour les valeurs manquantes; ceci facilite la vérification du fichier de données – On doit spécifier à SPSS un code pour signaler l’existence d’une valeur manquante • Ex. -999 pour une échelle allant de 1 à 7. Karim DOUMI SPSS 16
  • 17. Fonctionnement de SPSS: Fichier syntaxe • Les analyses avec SPSS se font: 1.Par les menus ou 2.Par les syntaxes • Plus complexe à première vue, elle comporte des avantages majeurs: – Certains types d’analyses ou de sous-commandes ne sont pas disponibles via le menu. – En spécifiant tous les paramètres de votre analyse vous êtes plus à même de contrôler les résultats obtenus. Karim DOUMI SPSS 17
  • 18. Fonctionnement de SPSS: Fichier syntaxe • Le logiciel SPSS reconnaît un ensemble défini de commandes et de sous-commandes. – Plusieurs d'entre elles seront vues lors des cours – Sinon, guide en .pdf dans le menu d’aide • Le fichier syntaxe est un fichier de commandes – Elles indiquent à SPSS quoi faire avec les données – Les commandes et sous-commandes sont séparées par une barre oblique (/) – Aucun accent ne doit être employé dans les commandes, sous-commandes et noms de variables – Il ne faut pas oublier que les commandes SPSS se terminent toujours par un point. Karim DOUMI SPSS 18
  • 19. Fonctionnement de SPSS: Fichier syntaxe Karim DOUMI SPSS 19
  • 20. Fonctionnement de SPSS: Fichier syntaxe Karim DOUMI SPSS 20
  • 21. Fonctionnement de SPSS: Fichier résultats Karim DOUMI SPSS 21
  • 22. Calculer une Variable Il arrive très souvent que les variables brutes d'une base de données ne soient pas suffisantes pour effectuer certaines analyses. On peut avoir besoin de créer une ou des nouvelles variables à partir des variables existantes, comme dans les cas suivants : • Créer une variable qui contient la racine carrée d'une variable existante • Calculer la moyenne ou la somme d'une série de variables existantes… La commande Compute sert à créer de nouvelles variables sur la base de fonctions arithmétiques, statistiques ou logiques. Karim DOUMI SPSS 22
  • 23. Karim DOUMI SPSS Calculer une Variable Exemple 23
  • 24. • Cette nouvelle variable sera la moyenne des réponses données par chaque sujet aux questions Q01, Q02, Q03, • Allez dans le menu Transformer et choisissez Calculer la variable. • Dans la boite de dialogue, écrivez, dans Variable cible (étiquette), MOYSAT (c’est le nom de la variable). • Ensuite, allez dans la boite Groupe de fonctions et cliquez à deux reprises sur Statistiques (il est dans le bas de la liste, vous devez utiliser l’ascenseur à droite). Vous verrez dans la boite Fonctions et variables spéciales la fonction Mean sur laquelle vous devez aussi cliquer à deux reprises. • Dans la boite du haut, vous verrez apparaître MEAN (?, ?). Vous devez alors insérer les variables Q01, Q02, Q03 dans la parenthèse Karim DOUMI SPSS Calculer une Variable Exemple 24
  • 25. • Vous pouvez également écrire à la main la commande dans la boite… Karim DOUMI SPSS Calculer une Variable Exemple 25
  • 26. Exercice sur la commande CALCULER : par syntaxe • Maintenant, éliminez la variable MOYSAT de la matrice de données (cliquez au haut de la colonne sur le nom de la variable, puis dans le menu Édition, cliquez sur Effacer ou, plus simplement, sur le bouton effacer ou supprimer de votre clavier). • Pour copier la commande à l’intérieur d’un fichier Syntaxe recommencez les étapes précédentes et remplacez le par • Le texte copié dans cette fenêtre devrait se lire comme suit : Karim DOUMI SPSS Calculer une Variable Exemple 26
  • 27. faites la même chose en créant la variable « AGEX ».(âge exacte de l’individu) Voici ce que devrait contenir maintenant votre fichier Syntaxe Karim DOUMI SPSS Calculer une Variable Exemple 27
  • 28. Création d’une variable La commande recode sert à créer de nouvelles variables (ou à modifier des variables existantes) sur la base d’un regroupement des valeurs qu'on appelle aussi clé de recodage. Voici quelques situations dans lesquelles vous pouvez utiliser le recodage : • À partir d'une variable contenant la note d'examen sur 20, créer une nouvelle variable qui recode la note en lettre (A+, A- , A, etc..) • Recoder les valeurs d'items inversés dans une échelle de mesure • Diminuer le nombre de catégories d'une variable catégorielle en les regroupant différemment Karim DOUMI SPSS 28
  • 29. Imaginons que nous voulons réaliser des analyses comparant les gens en formation (STATUT = 1) et les autres (STATUT = 2, 3 ou 4). Pour cela, il nous faut créer une variable qui diminue le nombre de catégories de 4 à 2. : Allez encore une fois dans le menu Transformer, puis sélectionnez Création de variables Recodez la variable STATUT de sorte que les sujets qui ont répondu 1 auront la valeur 1 (en formation) alors que ceux qui ont la valeur 2, 3 ou 4 auront maintenant la valeur 2 (autres). Dans la boite de dialogue principale, inscrivez STATUTX dans la boite Nom de l’encadré. Inscrivez ensuite Statut recodé dans la boite Étiquette du même encadré. Cliquez sur Karim DOUMI SPSS Création d’une Variable Exemple 29
  • 30. Apres il faut Changer les anciennes valeurs par les nouvelles valeurs. Karim DOUMI SPSS Création d’une Variable Exemple 30
  • 31. Exercice sur la commande Recode : par syntaxe Pour les 3 variables a la fois la syntaxe est la suivante: Karim DOUMI SPSS Création d’une Variable Exemple 31
  • 32. Les expressions conditionnelles permettent de calculer des variables selon une condition, donc qui s’applique à des sujets ou des observations (lignes) qui répondent à certains critères que nous allons définir selon nos besoins avec cette commande. La résultante des expressions conditionnelles peut créer une nouvelle variable ou bien transformer les valeurs d'une variable existante. Dans le dernier cas, il faut s'assurer que l'écrasement des valeurs originales ne porte pas à conséquence Voici l’apparence Syntaxe la commande de cet exercice. IF (sexe = 1) satis1=MEAN (q01, q03, q05). Littéralement, elle signifie que SI la valeur de la variable SEXE est égale à « 1 », la valeur de la variable SATIS1 sera égale à la moyenne des valeurs des variables Q01, Q03 et Q05. Karim DOUMI SPSS Expression conditionnelle (IF) 32
  • 33. En utilisant le langage SPS: Karim DOUMI SPSS Expression conditionnelle (IF) 33
  • 34. Sélection de cas: • Pour certaines analyses, il peut être nécessaire de filtrer une partie des observations (cas) pour obtenir des résultats auprès d'un sous-groupe spécifique d'observations. • Il est possible de sélectionner une ou des observations à l’aide de un ou d'une combinaison de critères, soit par la boite de dialogue, soit en utilisant une commande SYNTAXE. • Les conditions de sélection peuvent être uniques ou multiples. Dans le cas d’une seule condition, on inscrit la variable sur laquelle repose la sélection avec la condition formulée grâce aux conditions arithmétiques (<, >, =, <=, >=, <>). • Toutes les conditions multiples (deux variables ou plus) doivent utiliser les opérateurs logiques (AND et OR) pour séparer les conditions. • Pour faire une sélection de cas de manière interactive, allez dans le menu Données, puis cliquez sur Sélectionnez des observations. Karim DOUMI SPSS 34
  • 35. Sélection de cas: Karim DOUMI SPSS Pour faire une sélection de cas de manière interactive, allez dans le menu Données, puis cliquez sur Sélectionnez des observations. 35
  • 36. Sélection de cas: Dans la première boite de dialogue, vous devez déterminer la stratégie de sélection que vous allez utiliser. Vous avez plusieurs choix, mais le plus populaire est sans contredit Selon une condition logique. Dans ce cas, la sélection se fait à partir de la condition que vous énoncez. Nous allons donc voir cette stratégie en premier et préciser les autres par la suite Karim DOUMI SPSS 36
  • 37. Sélection de cas Exemple : pour choisir les hommes de plus de 30 ans, on entrerait dans la boite: Sexe = 1 AND age > 30 Karim DOUMI SPSS 37
  • 38. Sélection de cas: Si vous préférez taper la commande manuellement, vous devriez créer la syntaxe suivante: Karim DOUMI SPSS 38
  • 39. Sélection de cas: Karim DOUMI SPSS 39
  • 40. Les autres stratégies de sélection • Dans la boite de dialogue Sélection de cas, vous avez bien sûr la stratégie Si que nous venons de voir, mais aussi d’autres choix. Voici une brève description pour chacun. • Toutes les observations : vous ne faites pas de sélection, vous utilisez toutes les observations. Très utile quand vous voulez revenir à la base initiale et annuler une condition préalablement établie. • Par échantillonnage aléatoire : sélection d'observations aléatoire. Vous choisissez à ce moment combien de cas vous voulez dans votre échantillon, soit en pourcentage (Environ _ % de toutes les observations), soit en précisant un nombre d'observations parmi les X premiers (Exactement _ observations à partir des premières _ Observations). • Utiliser une variable de filtre : enfin, vous pouvez faire une sélection en ne conservant que les cas qui ont des valeurs valides pour une variable filtre. Vous n'avez qu'à transférer la variable filtre dans la boite prévue à cet effet. Karim DOUMI SPSS 40
  • 41. Corrélation, régression linéaire simple avec SPSS 41 Karim DOUMI SPSS
  • 42. Chapitre 2 : Corrélation, régression et causalité La régression simple indique la nature de la liaison linéaire entre deux variables (quantitatives). La corrélation indique le degré de linéarité entre deux variables (quantitatives). Ainsi l’analyse de régression fournit une fonction entière (une droite par exemple) alors que l’analyse de corrélation fournit un simple nombre – un indice qui renseigne sur l’intensité avec laquelle 2 variables évoluent ensemble. Ces 2 techniques sont donc complémentaires. L’analyse causale enfin va plus loin en précisant le sens de la relation, le chemin de la cause à l’effet. Introduction : précisions sémantiques Karim DOUMI SPSS 42
  • 43. Chapitre 2 : Corrélation, régression et causalité Exemple Si je m’intéresse au lien entre le temps hebdomadaire moyen passé à travailler (X) et la note obtenue au partiel (Y) : • L’analyse de régression permet de déterminer une fonction qui lie les deux variables : ex : « Y = aX + b » • L’analyse de corrélation renseigne sur l’intensité du lien entre les deux variables : ex : « le lien est fort et très significatif ». • L’analyse causale détermine le sens de la relation : ex « temps de travail  note au partiel » Karim DOUMI SPSS 43
  • 44. Chapitre 2 : Corrélation, régression et causalité 5.1. Analyse bivariée Corrélation entre deux variables quantitatives – Le coefficient de corrélation de Pearson r est une mesure d’association (d’interdépendance) entre deux variables métriques – Il mesure l’intensité de la co-variation entre les deux variables : les deux variables, mesurées sur le même ensemble d’observations, varient-elles de façon analogue (si pour une observation, l’une prend une valeur élevée, l’autre a également une valeur élevée) ? Karim DOUMI SPSS 44
  • 45. Chapitre 2: Corrélation, régression et causalité 5.1. Analyse bivariée Calcul du coefficient de corrélation de Pearson : • r est toujours compris entre –1 et 1 • si r est proche de –1 alors le lien est fort et négatif (quand 1 des 2 variables augmente l’autre diminue), alors que si r est proche de 1 le lien est fort et positif (quand 1 des deux variable augmente, l’autre augmente aussi) • si r est proche de 0 alors il n’y a pas de lien entre x et y )().( )cov( yx xy r   Karim DOUMI SPSS 45
  • 46. Chapitre 2: Corrélation, régression et causalité 5.1. Analyse bivariée r et r2 : • Comme r indique le degré de la relation entre la variation d’une variable et celle d’une autre variable, il peut également représenter la décomposition de la variation totale (en étant au carré). On retiendra que r2 = variation expliquée  variation totale  r2 mesure la proportion de la variation d’une variable qui est expliquée par l’autre. • r et r2 sont des mesures symétriques d’association : la corrélation entre X et Y est la même que la corrélation entre Y et X. Il n’est pas important de savoir quelle est la variable indépendante et quelle est la variable dépendante. Karim DOUMI SPSS 46
  • 47. Chapitre 2: Corrélation, régression et causalité 5.1. Analyse bivariée Interprétation du R2 : Variance expliquée : R², coefficient de détermination (proportion de variance totale de Y qui n’est pas due à l’erreur, ou encore proportion de la variance de Y expliquée par la variance de X) –R² = 0 : la variable indépendante n’explique rien –R² = 1 : la variable explique complètement Y –R² = 0,11 : 11% des variations de Y sont expliquées par le modèle Karim DOUMI SPSS 47
  • 48. Chapitre 2: Corrélation, régression et causalité 5.1. Analyse bivariée Précisons tout de suite que r indique la force d’une relation linéaire. Si on a r = 0, cela signifie qu’il n’y a pas de relation linéaire entre X et Y, mais cela ne signifie pas que les 2 variables ne sont pas liées !!! Il peut très bien y avoir une relation non linéaire entre elles non traduite par r.  Faites un graph ! Y X Illustration : Il existe bien une relation entre X et Y, mais non linéaire. Ici r = 0 Karim DOUMI SPSS 48
  • 49. Chapitre 2: Corrélation, régression et causalité 5.1. Analyse bivariée Le coefficient de corrélation linéaire r renseigne sur l’intensité du lien entre 2 variables quantitatives. Il doit être complété afin de déterminer si l’éventuel lien mis à jour est significatif ou non. On utilise pour cela un test t : Remarque : sous SPPS, la probabilité critique du test est fournie par la rubrique « sig. (bilatérale) » r nrt 2 1 2.   Karim DOUMI SPSS 49
  • 50. Chapitre 2: Corrélation, régression et causalité 5.1. Analyse bivariée Exemple SPSS : y a-t-il un lien entre la taille de l’unité sociale de visite (le nombre de personnes qui forment le groupe) et le temps passé dans le musée d’art ? • H0 : il n’y a aucun lien entre ces deux variables (r=0) • H1 : il existe un lien entre ces deux variables (r0) Analyse  Corrélation Bivariée Résultat : coefficient de corrélation linéaire de Pearson : r (entre -1 et 1) Karim DOUMI SPSS 50
  • 51. Chapitre 2: Corrélation, régression et causalité 5.1. Analyse bivariée Corrélations 1 ,078 , ,071 542 538 ,078 1 ,071 , 538 613 Corrélation de Pearson Sig. (bilatérale) N Corrélation de Pearson Sig. (bilatérale) N durée estimée de la visite taille de l'unité sociale durée estimée de la v isite taille de l'unité sociale Le coefficient de Pearson est faible et non significatif. On conclut qu’il n’existe pas de lien entre la durée de la visite et la taille de l’unité sociale de visite Karim DOUMI SPSS 51
  • 52. Chapitre 2: Corrélation, régression et causalité 5.1. Analyse bivariée Exercice BDD Employes de SPSS : y’a-t-il une corrélation positive significative entre salaire actuel et salaire à l’embauche ? Entre salaire actuel et nombre de mois d’ancienneté ? Karim DOUMI SPSS 52
  • 53. Chapitre 2: Corrélation, régression et causalité 5.1. Analyse bivariée Corrélations 1,000 ,880** ,084 , ,000 ,067 474 474 474 ,880** 1,000 -,020 ,000 , ,668 474 474 474 ,084 -,020 1,000 ,067 ,668 , 474 474 474 Corrélation de Pearson Sig. (bilatérale) N Corrélation de Pearson Sig. (bilatérale) N Corrélation de Pearson Sig. (bilatérale) N Salaire courant Salaire d'embauche Ancienneté (nombre de mois) Salaire courant Salaire d'embauche Ancienneté (nombre de mois) La corrélation est signif icativ e au niveau 0.01 (bilatéral).**. Corrélation positive forte et significative Corrélation positive faible et non significative Karim DOUMI SPSS 53
  • 54. Chapitre 2: Corrélation, régression et causalité 5.1. Analyse bivariée Réponse : On veut calculer la corrélation entre Y (attitude envers la ville) et X (durée de résidence dans la ville), après contrôle d’une troisième variable Z (l’importance du climat). On commence par calculer les corrélations simples entre chaque variables : rYX = 0,9361 rYZ = 0,7334 rXZ = 0,5495 Karim DOUMI SPSS 54
  • 55. Chapitre 2: Corrélation, régression et causalité 5.1. Analyse bivariée Corrélations 1,000 ,936** ,733** , ,000 ,007 12 12 12 ,936** 1,000 ,550 ,000 , ,064 12 12 12 ,733** ,550 1,000 ,007 ,064 , 12 12 12 Corrélation de Pearson Sig. (bilatérale) N Corrélation de Pearson Sig. (bilatérale) N Corrélation de Pearson Sig. (bilatérale) N ATT_VILL DURÉE_RÉ IMP_CLIM ATT_VILL DURÉE_RÉ IMP_CLIM La corrélation est signif icativ e au niv eau 0.01 (bilatéral).**. Analyse  Corrélation  Bivariée Karim DOUMI SPSS 55
  • 56. Chapitre 2: Corrélation, régression et causalité 5.1. Analyse bivariée La régression simple : Elle consiste à déterminer une équation qui relie 2 variables quantitatives. Contrairement à la corrélation simple, elle nécessite d’identifier l’une des 2 variables comme étant dépendante (à expliquer) et l’autre comme étant indépendante (explicative). Remarquons tout de même que cette méthode n’implique pas de causalité. Le modèle type est de la forme : Yi = β0 + β1Xi + ei avec Y = variable dépendante (à expliquer) X = variable indépendante (ou explicative) β0 = ordonnée à l’origine de la droite β1 = pente de la droite ei = terme d’erreur associé à la ième observation Karim DOUMI SPSS 56
  • 57. Chapitre 2: Corrélation, régression et causalité 5.1. Analyse bivariée La régression simple, vocabulaire : •Coefficient de détermination r2 : proportion de la variation totale de Y expliquée par la variation de X • Valeur estimée (ou prédite) de Yi : Ŷi = a + bx avec Ŷi la valeur estimée de Yi et a et b les estimateurs respectifs de β0 et β1. • Coefficient de régression : le paramètre b est appelé coefficient de régression non standardisé. • L’écart-type résiduel (SEE) : c’est l’écart-type des erreurs (valeurs réelles Y moins valeurs estimées Ŷ). • Erreur type (SEb): estimation de l’écart-type de b Karim DOUMI SPSS 57
  • 58. Chapitre 2: Corrélation, régression et causalité 5.1. Analyse bivariée La régression simple, vocabulaire (suite) : •Coefficient de régression standardisé (coefficient bêta) : il correspond à la pente obtenue par la régression de Y sur X lorsque les données sont standardisées. • Somme des erreurs au carré : les distances de tous les points à la droite de régression sont élevées au carré et additionnées pour obtenir la somme des erreurs au carré, qui est une mesure de l’erreur totale • Statistique t : valeur du t de Student à n-2 degrés de liberté, afin de rejeter ou non H0. Cette statistique est associée à sa probabilité critique (significative lorsqu’elle est < 0,05) Karim DOUMI SPSS 58
  • 59. Chapitre 2: Corrélation, régression et causalité 5.1. Analyse bivariée Les étapes d’une analyse de régression simple : 1. La première étape consiste à représenter le nuage de points, variable dépendante sur l’axe vertical et variable indépendante sur l’axe horizontal. Cela permet de se faire une idée sur le type de lien (est-ce linéaire ?) et de détecter les éventuelles valeurs extrêmes qui risquent de perturber l’analyse. Sous SPSS : Graph  Diagramme de dispersion  Simple Karim DOUMI SPSS 59
  • 60. Chapitre 2: Corrélation, régression et causalité 5.1. Analyse bivariée DURÉE_RÉ 20100 ATT_VILL 12 10 8 6 4 2 0 Karim DOUMI SPSS 60
  • 61. Chapitre 2: Corrélation, régression et causalité 5.1. Analyse bivariée 2. Il s’agit ensuite de trouver les caractéristiques de la droite qui décrit le mieux les données. On utilise généralement la méthode des moindres carrés. Elle consiste à déterminer la droite de régression qui minimise le carré des distances verticales entre les points et la droite. Avec une équation du type Yi = β0 + β1Xi + ei la distance verticale du point à la droite est représenté par ei. Les distances de tous les points à la droite élevés au carrés et additionnés forment la somme des carrés des erreurs, ou « erreur totale », notée  Le but est que cette valeur soit minimale (que les distances verticales soient minimisées) ej 2 Karim DOUMI SPSS 61
  • 62. DURÉE_RÉ 20100 12 10 8 6 4 2 0 y = β0 + β1x ei Yi Ŷi Karim DOUMI SPSS 62
  • 63. Chapitre 2: Corrélation, régression et causalité 5.1. Analyse bivariée 3. Estimation des paramètres de la droite : Dans la plupart des cas, β0 et β1 sont inconnues et estimées à partir des observations de l’échantillon en utilisant l’équation : Ŷi = a + bxi Où Ŷi est la valeur estimée ou prédite de Yi et a et b sont les estimateurs respectifs de β0 et β1. La constante b, qui est la pente de la droite de régression est généralement appelée coefficient de régression non standardisé. C’est la variation attendue de Y quand X varie d’une unité. )( )cov( XV XY b XbYa  Karim DOUMI SPSS 63
  • 64. Chapitre 2: Corrélation, régression et causalité 5.1. Analyse bivariée 4. Estimation du coefficient de régression standardisé : La standardisation est le procédé par lequel les données brutes sont transformées en nouvelles variables, ayant une moyenne de 0 et une variance de 1. L’ordonnée à l’origine prend alors une valeur de 0. La pente obtenue par la régression de Y par rapport à X (BYX) est alors la même que celle obtenue par la régression de X par rapport à Y (BXY). En outre, chacun de ces coefficients de régression standardisés (bêta) est égal au coefficient de régression simple entre X et Y : BYX = BXY = rXY Il existe une relation simple entre les coefficients de régression standardisés et non standardisés : BYX = bXY(SX/SY) Karim DOUMI SPSS 64
  • 65. Chapitre 2: Corrélation, régression et causalité 5.1. Analyse bivariée 5. Test d’hypothèse : En toute rigueur, la signification statistique de la relation linéaire entre X et Y doit faire l’objet d’un test d’hypothèse. On pose : H0 : β1 = 0 et H1 : β1  0 H0 implique qu’il n’y a pas de relation linéaire entre X et Y, tandis que l’hypothèse alternative H1 en suppose une, positive ou négative. On utilise un test bilatéral t à n-2 degrés de liberté associé à une probabilité critique pour déterminer la significativité de β1. Avec b coefficient de régression et SEb l’estimation de l’écart-type de b. bSE bt Karim DOUMI SPSS 65
  • 66. Chapitre 2: Corrélation, régression et causalité 5.1. Analyse bivariée Exercice En utilisant la BDD SPSS « attitude envers la ville », réalisez une étude de corrélation et de régression entre la variable dépendante attitude envers la ville et la variable indépendante durée de résidence. Analyse  Régression  Linéaire Karim DOUMI SPSS 66
  • 67. Chapitre 2: Corrélation, régression et causalité 5.1. Analyse bivariée Récapitulatif du modèle ,936a ,876 ,864 1,2233 Modèle 1 R R-deux R-deux ajusté Erreur standard de l'estimation Valeurs prédites : (constantes), DURÉE_RÉa. Analyse de corrélation : Karim DOUMI SPSS 67
  • 68. Chapitre 2: Corrélation, régression et causalité 5.1. Analyse bivariée Récapitulatif du modèle ,936a ,876 ,864 1,2233 Modèle 1 R R-deux R-deux ajusté Erreur standard de l'estimation Valeurs prédites : (constantes), DURÉE_RÉa. Analyse de corrélation : La durée de résidence dans la ville explique à 87,6 % l’attitude Le R2 ajustée permet de corriger le R2 en fonction du nombre de variable. Ici, pas d’incidence. Coefficient de Pearson SEE Karim DOUMI SPSS 68
  • 69. ANOVAb 105,952 1 105,952 70,803 ,000a 14,964 10 1,496 120,917 11 Régression Résidu Total Modèle 1 Somme des carrés ddl Carré moy en F Signif ication Valeurs prédites : (constantes), DURÉE_RÉa. Variable dépendante : ATT_VILLb. Chapitre 2: Corrélation, régression et causalité 5.1. Analyse bivariée Significativité du modèle de corrélation : Karim DOUMI SPSS 69
  • 70. ANOVAb 105,952 1 105,952 70,803 ,000a 14,964 10 1,496 120,917 11 Régression Résidu Total Modèle 1 Somme des carrés ddl Carré moy en F Signif ication Valeurs prédites : (constantes), DURÉE_RÉa. Variable dépendante : ATT_VILLb. Chapitre 2: Corrélation, régression et causalité 5.1. Analyse bivariée Significativité du modèle de corrélation : Somme des carrés  ddl SSY = SSreg + SSres La statistique F calculée pour 1 et 10 ddl correspond à une proba critique < 0,05. La relation entre X et Y est positive et significative. Karim DOUMI SPSS 70
  • 71. Coefficientsa 1,079 ,743 1,452 ,177 ,590 ,070 ,936 8,414 ,000 (constante) DURÉE_RÉ Modèle 1 B Erreur standard Coeff icients non standardisés Bêta Coeff icien ts standardi sés t Signif ication Variable dépendante : ATT_VILLa. Chapitre 2: Corrélation, régression et causalité 5.1. Analyse bivariée Paramètres du modèle de corrélation : Karim DOUMI SPSS 71
  • 72. Coefficientsa 1,079 ,743 1,452 ,177 ,590 ,070 ,936 8,414 ,000 (constante) DURÉE_RÉ Modèle 1 B Erreur standard Coeff icients non standardisés Bêta Coeff icien ts standardi sés t Signif ication Variable dépendante : ATT_VILLa. Chapitre 2: Corrélation, régression et causalité 5.1. Analyse bivariée Paramètres du modèle de corrélation : BYX = BXY = rXY Attitude (Ŷ) = 1,079 + 0,590 (durée de résidence) T = 0,5900,070=8,414 avec 12-2 ddl. Proba critique associée < 0,05 ce qui confirme le test F : relation positive significative entre X et Y Karim DOUMI SPSS 72
  • 74. Chapitre 2: Corrélation, régression et causalité 5.1. Analyse bivariée Hypothèses implicites posées lors de l’estimation des paramètres : H1 : Le terme d’erreur est normalement distribué (pour chaque valeur fixe de X la distribution de Y est normale). H2 : Les moyennes de toutes ces distributions normales de Y, pour X donné, forment une droite dont la pente est b. H3 : La moyenne du terme d’erreur est 0. H4 : La variance du terme d’erreur est constante, et ne dépend pas des valeurs prises par X. H5 : Les termes d’erreur ne sont pas corrélés (les observations ont été réalisées indépendamment les unes des autres). Karim DOUMI SPSS 74
  • 75. Chapitre 2: Corrélation, régression et causalité 5.1. Analyse bivariée Exercice 1) Réalisez une analyse de corrélation et de régression dans BDD « employés » entre salaire et salaire embauche. 2) BDD « enquête du comportement des américains en 1993 » : peut-on expliquer la tendance à être libéral ou conservateur (variable métrique à 7 modalités « affilpol ») en fonction du revenu du répondant ? 3) Reprenez la BDD « enquête du comportement des américains en 1993 » et réalisez une nouvelle analyse de corrélation et de régression susceptibles de présenter un intérêt, entre les variables de votre choix. Karim DOUMI SPSS 75
  • 76. Chapitre 2: Corrélation, régression et causalité 5.1. Analyse bivariée Corrélation ou régression simple ? Les deux méthodes donnent des résultats totalement équivalents, et les conclusions qui peuvent en être tirées sont identiques (R² est, dans le cas de la régression simple, le carré de r)  On choisira la régression lorsque l’objectif est d’estimer un modèle de prédiction (ex : prédire les ventes par les dépenses publicitaires) Karim DOUMI SPSS 76
  • 77. Chapitre 2: Corrélation, régression et causalité 5.2. Analyse multivariée Principe : étudier les relations entre n variables prises simultanément (n>2) Méthodes : Explicative : régression multiple, analyse discriminante Descriptive : analyse factorielle des correspondances (AFC), analyse en composantes principales (ACP) Nature des variables : Métrique : régression multiple (explicative) et ACP (descriptive) Nominale : analyse discriminante (explicative), analyse factorielle (descriptive) Karim DOUMI SPSS 77
  • 78. Chapitre 2: Corrélation, régression et causalité 5.2. Analyse multivariée Pourquoi réaliser des régressions multivariées ? Limite de la régression simple : un phénomène a rarement une seule cause. Par exemple, qu’est-ce qui explique les ventes d’un produit ? Le budget pub, le budget force de vente, le prix, le nombre de points de vente, etc. La régression multiple permet, elle, de confirmer une relation de cause à effet entre variables, c’est-à- dire expliquer les variations d’une variable par plusieurs autres variables. Si cette relation est confirmée, il faut alors évaluer son intensité. Karim DOUMI SPSS 78
  • 79. Chapitre 2: Corrélation, régression et causalité 5.2. Analyse multivariée Méthode : Y est la variable quantitative à expliquer (dépendante), et X1, X2, …, Xi, les i variables explicatives (indépendantes) quantitatives (à la rigueur binaires). La forme générale du modèle est : Y = β0 + β1 X1 + β2 X2 + …. + βi Xi + ε avec ε minimum. On recherche une fonction f qui lie les valeurs de Y à celle des X et telle que f(Xi) soit le « plus proche possible » de Y. Dans la pratique, on calcule l’équation : Ŷ = b0 + b1 X1 + b2 X2 + …. + bi Xi Karim DOUMI SPSS 79
  • 80. Chapitre 2: Corrélation, régression et causalité 5.2. Analyse multivariée Présentation des résultats sous SPSS (1/4): Analyse  Régression  Linéaire • La significativité globale du modèle est fournie à l’aide d’un test F et une probabilité associée • Le R² ajusté indique le % de variance de Y expliquée par l’équation (ajustée au nombre de variables indépendantes et à la taille de l’échantillon) • Le coefficient de corrélation multiple R tend vers 1 lorsque la relation est forte, vers 0 lorsqu’elle est nulle 1 )1( 2 22    kn k ajusté RRR Karim DOUMI SPSS 80
  • 81. Chapitre 2: Corrélation, régression et causalité 5.2. Analyse multivariée Présentation des résultats sous SPSS (2/4) : • Les coefficients β, dits coefficients de régression partiels représentent la variation attendue de Y quand Xi varie d’une unité mais que les autres variables indépendantes sont maintenues constantes. A chacun d’entre eux est associé un tests t pour en estimer la significativité. • Pour comparer la contribution relative des Xi à Y, il suffit de comparer les valeurs absolues des t associés ou de lire les coefficients de régression partiels standardisés Bêta (moyenne=0 et écart- type=1) qui permettent la comparaison entre Xi alors même que celles-ci ont des unités de mesure différentes (exemple, pour estimer les ventes d’un magasin : surface en m², nombre de produits en promo, proximité du centre ville en km etc.) Karim DOUMI SPSS 81
  • 82. Chapitre 2: Corrélation, régression et causalité 5.2. Analyse multivariée Présentation des résultats sous SPSS (3/4) : • Il est nécessaire de tester la colinéarité, car la multicolinéarité entre variables explicatives biaisent les estimations de R² :  Il faut étudier la tolérance : pourcentage de la variable explicative non expliquée par les autres variables explicatives (elle doit être proche de 1, et en tout cas > 0,3)  Il faut aussi étudier le VIF (variance inflation factor) : degré d’augmentation de l’erreur lié à la multicolinéarité (le VIF doit être inférieur à 4) Karim DOUMI SPSS 82
  • 83. Chapitre 2: Corrélation, régression et causalité 5.2. Analyse multivariée Présentation des résultats sous SPSS (4/4) : • Enfin, il est nécessaire d’examiner les résidus. Le résidu ei est la différence entre la valeur observée yi et la valeur calculée par le modèle Ŷi. Ces erreurs ei s’expliquent d’une part par l’effet des variables non prises en compte dans le modèle, et d’autre part par des variations aléatoires. Pour que l’interprétation du modèle soit valide, il faut que les résidus se répartissent de manière aléatoire autour de la valeur calculée. Pour vérifier ce dernier point, il suffit d’examiner le diagramme PP- Gaussien : il ne doit y avoir aucune forme apparente dans la distribution des résidus Karim DOUMI SPSS 83
  • 84. Chapitre 2: Corrélation, régression et causalité 5.2. Analyse multivariée Exercice Peut-on expliquer l’attitude envers la ville en fonction de la durée de résidence et de l’importance accordée au climat ? Karim DOUMI SPSS 84
  • 85. Récapitulatif du modèle ,972a ,945 ,933 ,8597 Modèle 1 R R-deux R-deux ajusté Erreur standard de l'estimation Valeurs prédites : (constantes), IMP_CLIM, DURÉE_RÉa. Chapitre 2: Corrélation, régression et causalité 5.2. Analyse multivariée Réponse : Sous SPSS : Analyse  Régression  Linéaire Karim DOUMI SPSS 85
  • 86. Récapitulatif du modèle ,972a ,945 ,933 ,8597 Modèle 1 R R-deux R-deux ajusté Erreur standard de l'estimation Valeurs prédites : (constantes), IMP_CLIM, DURÉE_RÉa. Chapitre 2: Corrélation, régression et causalité 5.2. Analyse multivariée Réponse : Le modèle « explique » 93,3 % de la variance de Y La relation est forte SEE Karim DOUMI SPSS 86
  • 87. ANOVAb 114,264 2 57,132 77,294 ,000a 6,652 9 ,739 120,917 11 Régression Résidu Total Modèle 1 Somme des carrés ddl Carré moy en F Signif ication Valeurs prédites : (constantes), IMP_CLIM, DURÉE_RÉa. Variable dépendante : ATT_VILLb. Chapitre 2: Corrélation, régression et causalité 5.2. Analyse multivariée Réponse : Sous SPSS : Analyse  Régression  Linéaire Statistiques : test de colinéarité Diagrammes : diagramme P-P gaussien Karim DOUMI SPSS 87
  • 88. ANOVAb 114,264 2 57,132 77,294 ,000a 6,652 9 ,739 120,917 11 Régression Résidu Total Modèle 1 Somme des carrés ddl Carré moy en F Signif ication Valeurs prédites : (constantes), IMP_CLIM, DURÉE_RÉa. Variable dépendante : ATT_VILLb. Chapitre 2: Corrélation, régression et causalité 5.2. Analyse multivariée Réponse : Le test F est associé à une probabilité d’erreur < 5 %. Le modèle est donc globalement significatif Karim DOUMI SPSS 88
  • 89. Coefficientsa ,337 ,567 ,595 ,567 ,481 ,059 ,764 8,160 ,000 ,698 1,433 ,289 ,086 ,314 3,353 ,008 ,698 1,433 (constante) DURÉE_RÉ IMP_CLIM Modèle 1 B Erreur standard Coeff icients non standardisés Bêta Coeff icien ts standardi sés t Signif ication Tolérance VIF Statistiques de colinéarité Variable dépendante : ATT_VILLa. Chapitre 2: Corrélation, régression et causalité 5.2. Analyse multivariée Réponse : 89 Karim DOUMI SPSS
  • 90. Coefficientsa ,337 ,567 ,595 ,567 ,481 ,059 ,764 8,160 ,000 ,698 1,433 ,289 ,086 ,314 3,353 ,008 ,698 1,433 (constante) DURÉE_RÉ IMP_CLIM Modèle 1 B Erreur standard Coeff icients non standardisés Bêta Coeff icien ts standardi sés t Signif ication Tolérance VIF Statistiques de colinéarité Variable dépendante : ATT_VILLa. Chapitre 2: Corrélation, régression et causalité 5.2. Analyse multivariée Réponse : β1 et β2 sont significatifs. Ces 2 facteurs sont donc importants pour expliquer Y L’équation de la droite de régression est : Ŷ = 0,337 + 0,481X1 + 0,289X2 Pas de problème de multicolinéarité Karim DOUMI SPSS 90
  • 91. Diagramme gaussien P-P de régression de Résidu standardisé Variable dépendante: ATT_VILL Probabilité cumulée observée 1,00,75,50,250,00 1,00 ,75 ,50 ,25 0,00 Chapitre 2: Corrélation, régression et causalité 5.2. Analyse multivariée Réponse : on de résidu Ŷi (Yi calculé) Yi observés Pour l’observation i, on estime ei par la distance entre le point et la droite Y=y Karim DOUMI SPSS 91
  • 92. Chapitre 2: Corrélation, régression et causalité 5.2. Analyse multivariée La régression pas à pas : Le but de la régression pas à pas est de sélectionner, à partir d’un grand nombre de variables explicatives, un petit sous-ensemble de variables qui expliquent la plus grande partie de la variation de la variable dépendante (à expliquer). Les variables explicatives sont introduites ou retirées une à une de l’équation que l’on cherche à optimiser. 2 méthodes sont possibles : Karim DOUMI SPSS 92
  • 93. Chapitre 2: Corrélation, régression et causalité 5.2. Analyse multivariée • Régression pas à pas ascendante : les variables sont entrées dans le modèle les unes après les autres, en recherchant d’abord la variable Xi la plus explicative, puis celle qui explique le plus la part de variance restant à expliquer etc. • Régression pas à pas descendante : les variables sont éliminées du modèle global les unes après les autres, en éliminant d’abord la variable Xi la moins explicative de Y, puis celle qui explique le moins la variance restant à expliquer etc. Karim DOUMI SPSS 93
  • 94. Chapitre 2: Corrélation, régression et causalité 5.2. Analyse multivariée Conclusion sur la régression multiple : •Choisir la régression si l’objectif est un modèle de prédiction •Bien réfléchir au statut des variables dépendante et indépendantes •Disposer de variances suffisantes sur les variables introduites dans le modèle. •Ne retenir que les β significatifs. •Éviter les données avec des valeurs extrêmes ou aberrantes Karim DOUMI SPSS 94