La corrélation de Pearson, qui est un test paramétrique, sert à croiser 2 variables quantitatives discrètes ou continues ( valeurs mesurées à l’aide d’intervalles ou de rapport).
3. La corrélation de Pearson, qui est un test paramétrique, sert à
croiser 2 variables quantitatives discrètes ou continues ( valeurs
mesurées à l’aide d’intervalles ou de rapport). Cette corrélation est
exprimé par le coefficient « r » qui indique le sens et l’intensité de
cette liaison. -1≤ 𝒓 ≤ 𝟏
1. r est proche de 0, la corrélation n’existe pas entre X et Y
2. 0.0 < r < 0.5 : Très faible
3. r est proche de 1, la corrélation très forte positive entre X et Y
4. r est proche de -1, la corrélation très forte négative entre X et Y
D’une manière générale, Au fur est mesure que r s’approche de +1 ou
-1, la corrélation est forte. Quand r s’approche de plus près de « 0 »,
la corrélation est faible, voire nulle.
La corrélation est donc définie par le sens et l’intensité de la liaison
des 2 variables.
Corrélation positive (0 < r < 1) : relation proportionnelle
Corrélation négative ( Corrélation négative (-1 < r < 0) : relation inversement
proportionnelle
La corrélation de Spearman « ρ », quant à elle, sert à croiser 2 variables
dont l’une est mesurée à l’aide de l’échelle ordinale.
4. On peut appréhender beaucoup mieux le sens et l’intensité de la
corrélation par un examen visuel . On fait appel, donc, au nuage
de points (scatter diagrams). C’est intersection des 2 variables.
Le coefficient de corrélation linéaire r est tel que -1≤ 𝒓 ≤ 𝟏
5. Y est la variable dépendante (à expliquer, à prédire) et que X est la variable indépendante
(explicative, prédicteur). On peut dire que les valeurs de X permettent de prédire les valeurs
de X. Cependant , en statistique, il y a 3 types de variable : variable dépendante, variable
indépendante et variable de contrôle. Cette dernière peut avoir un effet négatif sur la
prédiction. Elle doit être maintenue constante dans l’analyse de corrélation, exemple
conduite à haute vitesse (VI), risque d’accident (VD) et l’état de santé du conducteur,
l’état des routes, état du véhicule ( les variables de contrôle).
Variables qu’on peut leur appliquer l’analyse de corrélation
Variable X (indépendante) Variable Y (dépendante)
Taille Poids
Revenus Dépenses
Taux de précipitation Rendement agricole
Industrialisation Pollution
Dépenses Epargne
Tabagisme Cancer des poumons
Hauteur des bâtiments Vitesse de l’air
Conduire à haute vitesse Risque d’accident
Distance Temps
6. Dans l’analyse de corrélation , on évoque souvent la covariance qui est la
moyenne des produits moins le produit des moyens . Comme la variance , la
covariance n’a pas de signification tangible. Pour quelle soit un indicateur
interprétable , il faut passez au coefficient de corrélation linéaire . C’est à l’image
de la variance interprétée par l’écart-type (standard deviation) qui est racine carré
de sigma =variance .
Relation est linéaire
Données sont indépendantes
Choix de la méthode
Méthode paramétrique (variables quantitatives) : coefficient de Pearson
Méthode non- paramétrique (variable qualitative) : coefficient de Spearman
la distribution des variables suivent la loi normale
7. Exemple d’analyse de corrélation
Variable indépendance : Démographie
Variable dépendante : Demande de logements
Variable indépendante X Variable dépendante Y
Démographie en million Demande de logements en millier
7 30
10 65
14 80
18 105
22 140
26 185
31 204
34 230
37 260
40 340
Données fictives
8. La question de recherche
« Est-ce que la démographie galopante est responsable
de la hausse de la demande en logements »
Formulation des hypothèses
• Hypothèse nulle (H₀ ). Il n ’existe pas de relation
entre la démographie et la demande en logements
• Hypothèse alternative (H₁). Il existe une relation
entre la démographie et la demande en logements,
9. Toutes les conditions citées ci-avant sont respectées
Vérification de la normalité de la distribution des 2 variables .
Procédure
Les variables sont indépendantes
10. 1. Analyse
2. Statistiques descriptives
3. Explorer
4.Transférez les variables (Démographie et demande en logements) dans le
champ « liste variables dépendantes »
5. Cliquez sur Diagrammes
6. Puis cochez Histogramme et graphes de répartitions avec tests
7. Poursuivre , en fin OK
11. Tableau 1:
Dans ce tableau, il est indiqué le nombre de l’effectif n=10 et le nombre
manquant n=0 .
12. Tableau 2: C’est l’analyse
descriptive – des 2 variables
Démographie et demande en
logements .
- La moyenne
- Ecart-type
- Asymétrie (Skewness )
- Aplatissement (kurtosis)
Quand les données sont
distribuées selon la loi
normale, skewness et
kurtosis tendent vers
« zéro »
Pour la variable
démographie
skewness= - 0,007
Kurtosis = -1,357
13. Tableau3: tableau de normalité
Ici , nous avons 2 tests: Kolmogorov-Smirnov (KS) et Shapiro-Wilk (SW) , le 1er
n’est pas assez puissant et la majorité de statisticiens recommandent l’utilisation du
2ème test.
Même pour tester la normalité des variables, on doit émettre les deux hypothèses
H₀ et H₁
Pour H₀ (hypothèse nulle), les données sont normalement distribuées .
Si la signification > 0,05 alors H₀ est maintenue et H₁ est rejetée .
On voit clairement sur le tableau que le KS et SW pour les 2 variables,
démographie et demande en logement sont supérieurs à 0,05. Donc, la
loi de normalité est de rigueur pour le 2 variables.
14. • Histogramme de la variable « demande en
logements » . Le graphe de cette variable suit
approximativement la forme de la cloche qui
incarne la loi normale.
15. Pour incérer la forme de cloche dans l’histogramme :
• Cliquer sur l’histogramme lui même de la variable « Demande en
logement »
• Choisir la forme de cloche
• Fermer
17. 1.Transférer le 2 variables vers le champs « variable »
2. Cliquer Option
3. Choisir Moyenne et écarts-types
4. Poursuivre
5. Cocher Pearson (test de Pearson)
6. Cocher Repérer les corrélations significations
7. Ok
19. - Sur ce tableau, il s’agit d’indiquer la moyenne et l'écart-types des 2
variables.
- Pour la variable Démographie , la moyenne est 23,80 et l’écart
type de 11,688
- Pour la variable demande en logements, la moyenne est de 163.90
et l’écart-type de 97.44 , avec le nombre de l’effectif N de 10.
20. • Ce tableau montre la corrélation entre les 2 variables. Le croisement entre la démographie et la
démographie donne la corrélation de Pearson de 1, ce qui est tout à fait normal, la relation est très
forte. Puis, le croisement entre démographie et Demande en logements , la corrélation de
Pearson est de 0,987, ce qui signifie que la relation entre les 2 variables est très forte car 0,987 est
très proche de 1 .
• Aussi, l’hypothèse nulle H₀ est rejetée et H₁ (hypothèse alternative) est retenue car la relation entre
les 2 variables est très significative , p-value=0,000 <0,05 (0,05 le niveau de signification) .
Mais cela ne signifie pas que la démographie est la cause de la hausse de la demande de
logements