Test de corrélation simple et test de Normalité

Test de corrélation simple
Et test de Normalité
Université d’Oum El Bouaghi
Faculté des sciences de la terre et de
l’architecture
∑. µ. Α. ρ

Rappel théorique
Analyse de corrélation sur le logiciel SPSS.

La corrélation de Pearson, qui est un test paramétrique, sert à
croiser 2 variables quantitatives discrètes ou continues ( valeurs
mesurées à l’aide d’intervalles ou de rapport). Cette corrélation est
exprimé par le coefficient « r » qui indique le sens et l’intensité de
cette liaison. -1≤ 𝒓 ≤ 𝟏
1. r est proche de 0, la corrélation n’existe pas entre X et Y
2. 0.0 < r < 0.5 : Très faible
3. r est proche de 1, la corrélation très forte positive entre X et Y
4. r est proche de -1, la corrélation très forte négative entre X et Y
D’une manière générale, Au fur est mesure que r s’approche de +1 ou
-1, la corrélation est forte. Quand r s’approche de plus près de « 0 »,
la corrélation est faible, voire nulle.
La corrélation est donc définie par le sens et l’intensité de la liaison
des 2 variables.
 Corrélation positive (0 < r < 1) : relation proportionnelle
 Corrélation négative ( Corrélation négative (-1 < r < 0) : relation inversement
proportionnelle
La corrélation de Spearman « ρ », quant à elle, sert à croiser 2 variables
dont l’une est mesurée à l’aide de l’échelle ordinale.

On peut appréhender beaucoup mieux le sens et l’intensité de la
corrélation par un examen visuel . On fait appel, donc, au nuage
de points (scatter diagrams). C’est intersection des 2 variables.
Le coefficient de corrélation linéaire r est tel que -1≤ 𝒓 ≤ 𝟏

Y est la variable dépendante (à expliquer, à prédire) et que X est la variable indépendante
(explicative, prédicteur). On peut dire que les valeurs de X permettent de prédire les valeurs
de X. Cependant , en statistique, il y a 3 types de variable : variable dépendante, variable
indépendante et variable de contrôle. Cette dernière peut avoir un effet négatif sur la
prédiction. Elle doit être maintenue constante dans l’analyse de corrélation, exemple
conduite à haute vitesse (VI), risque d’accident (VD) et l’état de santé du conducteur,
l’état des routes, état du véhicule ( les variables de contrôle).
Variables qu’on peut leur appliquer l’analyse de corrélation
Variable X (indépendante) Variable Y (dépendante)
Taille Poids
Revenus Dépenses
Taux de précipitation Rendement agricole
Industrialisation Pollution
Dépenses Epargne
Tabagisme Cancer des poumons
Hauteur des bâtiments Vitesse de l’air
Conduire à haute vitesse Risque d’accident
Distance Temps

Dans l’analyse de corrélation , on évoque souvent la covariance qui est la
moyenne des produits moins le produit des moyens . Comme la variance , la
covariance n’a pas de signification tangible. Pour quelle soit un indicateur
interprétable , il faut passez au coefficient de corrélation linéaire . C’est à l’image
de la variance interprétée par l’écart-type (standard deviation) qui est racine carré
de sigma =variance .
 Relation est linéaire
 Données sont indépendantes
 Choix de la méthode
 Méthode paramétrique (variables quantitatives) : coefficient de Pearson
 Méthode non- paramétrique (variable qualitative) : coefficient de Spearman
 la distribution des variables suivent la loi normale

Exemple d’analyse de corrélation
Variable indépendance : Démographie
Variable dépendante : Demande de logements
Variable indépendante X Variable dépendante Y
Démographie en million Demande de logements en millier
7 30
10 65
14 80
18 105
22 140
26 185
31 204
34 230
37 260
40 340
Données fictives

La question de recherche
« Est-ce que la démographie galopante est responsable
de la hausse de la demande en logements »
Formulation des hypothèses
• Hypothèse nulle (H₀ ). Il n ’existe pas de relation
entre la démographie et la demande en logements
• Hypothèse alternative (H₁). Il existe une relation
entre la démographie et la demande en logements,

Toutes les conditions citées ci-avant sont respectées
 Vérification de la normalité de la distribution des 2 variables .
Procédure
 Les variables sont indépendantes

1. Analyse
2. Statistiques descriptives
3. Explorer
4.Transférez les variables (Démographie et demande en logements) dans le
champ « liste variables dépendantes »
5. Cliquez sur Diagrammes
6. Puis cochez Histogramme et graphes de répartitions avec tests
7. Poursuivre , en fin OK

Tableau 1:
Dans ce tableau, il est indiqué le nombre de l’effectif n=10 et le nombre
manquant n=0 .

Tableau 2: C’est l’analyse
descriptive – des 2 variables
Démographie et demande en
logements .
- La moyenne
- Ecart-type
- Asymétrie (Skewness )
- Aplatissement (kurtosis)
Quand les données sont
distribuées selon la loi
normale, skewness et
kurtosis tendent vers
« zéro »
Pour la variable
démographie
skewness= - 0,007
Kurtosis = -1,357

Tableau3: tableau de normalité
Ici , nous avons 2 tests: Kolmogorov-Smirnov (KS) et Shapiro-Wilk (SW) , le 1er
n’est pas assez puissant et la majorité de statisticiens recommandent l’utilisation du
2ème test.
Même pour tester la normalité des variables, on doit émettre les deux hypothèses
H₀ et H₁
Pour H₀ (hypothèse nulle), les données sont normalement distribuées .
Si la signification > 0,05 alors H₀ est maintenue et H₁ est rejetée .
On voit clairement sur le tableau que le KS et SW pour les 2 variables,
démographie et demande en logement sont supérieurs à 0,05. Donc, la
loi de normalité est de rigueur pour le 2 variables.

• Histogramme de la variable « demande en
logements » . Le graphe de cette variable suit
approximativement la forme de la cloche qui
incarne la loi normale.

Pour incérer la forme de cloche dans l’histogramme :
• Cliquer sur l’histogramme lui même de la variable « Demande en
logement »
• Choisir la forme de cloche
• Fermer

Coefficient de Pearson
Méthode paramétrique (variables quantitatives)

1.Transférer le 2 variables vers le champs « variable »
2. Cliquer Option
3. Choisir Moyenne et écarts-types
4. Poursuivre
5. Cocher Pearson (test de Pearson)
6. Cocher Repérer les corrélations significations
7. Ok

Résultat
1er tableau: statistiques descriptives
2ème tableau : Corrélations

- Sur ce tableau, il s’agit d’indiquer la moyenne et l'écart-types des 2
variables.
- Pour la variable Démographie , la moyenne est 23,80 et l’écart
type de 11,688
- Pour la variable demande en logements, la moyenne est de 163.90
et l’écart-type de 97.44 , avec le nombre de l’effectif N de 10.

• Ce tableau montre la corrélation entre les 2 variables. Le croisement entre la démographie et la
démographie donne la corrélation de Pearson de 1, ce qui est tout à fait normal, la relation est très
forte. Puis, le croisement entre démographie et Demande en logements , la corrélation de
Pearson est de 0,987, ce qui signifie que la relation entre les 2 variables est très forte car 0,987 est
très proche de 1 .
• Aussi, l’hypothèse nulle H₀ est rejetée et H₁ (hypothèse alternative) est retenue car la relation entre
les 2 variables est très significative , p-value=0,000 <0,05 (0,05 le niveau de signification) .
Mais cela ne signifie pas que la démographie est la cause de la hausse de la demande de
logements

Merci pour votre attention
Prof. Adad Mohamed Chérif

Test de corrélation simple et test de Normalité

Recomendados

Recomendados

Mais conteúdo relacionado

Mais procurados

Mais procurados (20)

Destaque

Destaque (20)

Semelhante a Test de corrélation simple et test de Normalité

Semelhante a Test de corrélation simple et test de Normalité (20)

Mais de Adad Med Chérif

Mais de Adad Med Chérif (15)

Último

Último (20)

Test de corrélation simple et test de Normalité