SlideShare uma empresa Scribd logo
1 de 55
Baixar para ler offline
Notions essentielles
de statistique
Livret 2/4
La méthode statistique
Tests relatifs aux fréquences
et au khi-deux ( 
)
Youcef Elmeddah
Table des matières
AVERTISSEMENT ..................................................................................................... 1
PRÉREQUIS INDISPENSABLES À L'ÉTUDE DE CE LIVRET… ...............................................................1
COMMENT TRAITER UN EXERCICE DE STATISTIQUE ? ......................................................................1
CONSEILS GÉNÉRAUX DE TRAVAIL ...........................................................................................................2
Séquence de travail n° 1 3
INTERPRÉTATION STATISTIQUE............................................................................ 3
I. ESTIMATION DES PARAMÈTRES D'UNE POPULATION.....................................................................4
1. Distributions d'échantillonnage.......................................................................................4
2. Estimation ponctuelle d'un paramètre .............................................................................5
3. Estimation d'un paramètre par intervalle de confiance....................................................6
4. Cas d'un caractère qualitatif : estimation et intervalle de confiance d'une
fréquence (ou d'une proportion) ..........................................................................................7
5. Cas d'un caractère quantitatif .........................................................................................9
1. Estimation ponctuelle de la moyenne et de la variance .............................................. 9
2. Estimation de la moyenne par intervalle de confiance.............................................. 10
II. PRINCIPE GÉNÉRAL DES TESTS STATISTIQUES..............................................................................15
1. Comment formuler un problème en statistique ? ..........................................................15
2. Comment résoudre un problème en statistique ? ..........................................................15
1. La méthode statistique............................................................................................... 15
2. Application................................................................................................................ 16
3. Hypothèses nulle et alternative......................................................................................16
4. Risques d'erreurs ...........................................................................................................18
5. Antagonisme entre les deux risques d'erreurs et puissance d'un test.............................19
6. Les tests d'hypothèse ....................................................................................................20
1. Tests de conformité.................................................................................................... 20
2. Tests d'homogénéité ou d'égalité ou tests de comparaison ....................................... 20
3. Tests d'ajustement...................................................................................................... 20
4. Tests d'indépendance................................................................................................. 20
7. Test bilatéral - Test unilatéral.......................................................................................21
Séquence de travail n° 2 23
TESTS RELATIFS AUX FRÉQUENCES ................................................................. 23
I. COMPARAISON D'UNE FRÉQUENCE OBSERVÉE P0 À UNE FRÉQUENCE
THÉORIQUE P OU TEST DE CONFORMITÉ D'UNE FRÉQUENCE............................................24
1. Position du problème et réalisation du test....................................................................24
II
2. Exemples.......................................................................................................................25
II. COMPARAISON DE DEUX FRÉQUENCES OBSERVÉES SUR DEUX POPULATIONS
OU TEST D'HOMOGÉNÉITÉ DE DEUX FRÉQUENCES..................................................................28
1. Position du problème.....................................................................................................28
2. Exemples.......................................................................................................................29
Séquence de travail n° 3 31
TEST DU KHI-DEUX OU C2.................................................................................. 31
I. POSITION DU PROBLÈME : CAS GÉNÉRAL .........................................................................................32
1. Procédure de calcul .......................................................................................................32
2. Intérêts du test du c2......................................................................................................33
II. COMPARAISON D'UNE RÉPARTITION OBSERVÉE À UNE RÉPARTITION
THÉORIQUE : TESTS DE CONFORMITÉ ET TESTS D'AJUSTEMENT.......................................34
1. Mise en place du test .....................................................................................................34
2. Tests de conformité .......................................................................................................35
3. Tests d'ajustement .........................................................................................................35
1. Exemple d'ajustement à une loi normale................................................................... 35
2. Exemple d'ajustement à une loi de Poisson............................................................... 37
III. COMPARAISON DE RÉPARTITIONS OBSERVÉES ENTRE ELLES : TEST
D'HOMOGÉNÉITÉ...................................................................................................................................39
1. Position du problème et présentation des données........................................................39
2. Calcul des valeurs théoriques........................................................................................39
3. Exemple.........................................................................................................................40
IV. CAS PARTICULIER : COMPARAISON DE DEUX FRÉQUENCES..................................................41
TABLE I.................................................................................................................... 43
TABLE DE LA DISTRIBUTION NORMALE RÉDUITE .............................................................................43
TABLE II................................................................................................................... 44
TABLE DE LA LOI NORMALE CENTRÉE, RÉDUITE N (0,1) OU TABLE DE L'ÉCART
RÉDUIT ......................................................................................................................................................44
TABLE III.................................................................................................................. 45
TABLE DE STUDENT.......................................................................................................................................45
TABLE IV ................................................................................................................. 46
TABLE DU C2 ..................................................................................................................................................46
BIBLIOGRAPHIE ..................................................................................................... 47
_______________________________________________________________________________
1 ______________________________________________________________________________
Averstissement
AVERTISSEMENT
Ce document se propose de vous fournir l'essentiel des connaissances qui vous permettront de
mieux comprendre les concepts et de connaître les outils de la statistique. C'est un ouvrage
d'initiation dont l'objectif principal est l'acquisition des techniques de base de la statistique
ainsi que l'interprétation des résultats qui en découlent. Pour cela, les fondements
mathématiques des théories exposées ne sont pas développés. Nous avons pensé que ce
document est destiné surtout à des utilisateurs de l'outil statistique et non à des théoriciens.
Afin de répondre aux difficultés que rencontrent les étudiants pour transposer les
connaissances théoriques à l'application pratique, le document réunit l'essentiel des
connaissances avec de nombreux exemples d'application illustrant les parties théoriques.
Les connaissances importantes , qu'il faut absolument garder à l'esprit, sont
signalées en grisé dans le texte.
Les connaissances s’enchaînent dans un ordre logique. Chaque nouvelle notion introduite
suppose que d’autres notions sont connues.
En commençant par découvrir ces nouvelles notions, notamment à l’aide des exemples
proposés, vous pouvez rencontrer des difficultés dues à une mauvaise assimilation de notions
précédentes.
Il faut donc systématiquement revenir en arrière et reprendre le cours mal assimilé. Ces allers
et retours dans le cours sont presque inévitables. Ne soyez donc pas découragés pour autant.
Vous verrez alors que, petit à petit, les nouvelles notions s’éclaircissent et se mémorisent de
mieux en mieux.
PRÉREQUIS INDISPENSABLES À L'ÉTUDE DE CE LIVRET…
Dans ce livret, nous exposons d'abord les méthodes statistiques à travers l'estimation des
paramètres d'une population qui ne sont jamais connus en pratique, puis le principe général
des tests statistiques. Nous appliquerons alors ces méthodes aux problèmes relatifs à la
comparaison des fréquences puis au test du 2.
Pour une meilleure assimilation des connaissances exposées, l'étude de ce livret suppose une
bonne connaissance :
• des paramètres de position notamment de la moyenne arithmétique et de ses propriétés ;
• des paramètres de dispersion notamment de la variance et de l'écart type (formules,
propriétés…)
• des probabilités
• des lois de probabilités en particulier, la loi binomiale et la loi normale
Si vous avez des difficultés à remobiliser ces notions supposées acquises, reportez-vous au
premier livret 16 R6.
COMMENT TRAITER UN EXERCICE DE STATISTIQUE ?
La rédaction d’un exercice d’un test d’évaluation, d’un devoir ou à une épreuve d'examen,
doit être réalisée avec le plus grand soin.
_______________________________________________________________________________
2 ______________________________________________________________________________
Averstissement
• Faites d’abord une première lecture rapide de l’énoncé de manière à situer le problème posé
en relation avec votre programme.
- Quelles sont les données (nature de la variable, loi de probabilité, taille de
l’échantillon, paramètres donnés…) ?
- Que vous demande-t-on ?
- Les questions sont-elles liées ?
- Quelle table statistique utiliser ?
• Commencez alors par résoudre l’exercice sur du brouillon, question par question.
• A l'examen, on vous jugera à la démarche adoptée pour résoudre les exercices mais aussi à
la rédaction et à la présentation du travail fourni, que beaucoup d'étudiants négligent en se
contentant par exemple,
- d' « appliquer » des formules sans expliquer les conditions d'applications,
- d'aboutir par le calcul à des décisions « statistiques » mais sans une interprétation rigoureuse
de leurs conclusions.
Si vous rédigez, c’est pour être lu. Soignez vos copies. N’imposez pas à votre correcteur de
vous « déchiffrer ». Il peut se lasser…
Vous risquez alors de perdre des points inutilement.
- Faites attention aux calculs numériques et aux unités. Les ordres de grandeurs doivent être
respectés.
- Chaque résultat final d’une question doit être souligné proprement et suivi d’une petite
conclusion.
CONSEILS GÉNÉRAUX DE TRAVAIL
Ce livret se présente sous forme de séquences de travail visant des objectifs pédagogiques
formulés dès le départ. Les évaluations qui vous sont proposées à la fin des séquences visent à
vérifier l'atteinte des objectifs visés par la séquence de travail proposée.
Pour cela, nous vous conseillons :
• de travailler aussi régulièrement que possible ;
• d'éloigner de votre vue tout ce qui peut vous distraire : magazines, journaux, radio, télé…
• d'avoir toujours sous la main une calculatrice, du brouillon, un crayon de papier et une
gomme ;
• de vérifier, chaque fois que vous avez un doute, les calculs développés ;
• de traiter la totalité des exercices d'application proposés avant de passer à la séquence
suivante ;
• d'établir une fiche de synthèse à la fin de chaque séquence de travail ; elle vous sera très utile
pour la séquence suivante ;
• si vous avez la chance d'avoir un micro et de maîtriser EXCEL, n'hésitez pas à rentrer les
données des exercices proposés et de faire exécuter les calculs par le logiciel ; cela vous
permettra de faire des simulations en changeant les données pour « voir ce qui se passe ».
Tous les enseignants et pédagogues connaissent très bien la difficulté de rédiger un cours
de statistique. Tous savent combien il est délicat de traiter un problème de statistique en
faisant l'impasse sur des concepts qui le sous-tendent. Ceux qui se référeront au présent
document voudront bien l'utiliser avec indulgence et en nous communiquant,
éventuellement, leurs remarques et suggestions. Nous les remercions par avance.
_______________________________________________________________________________
3 ______________________________________________________________________________
4. Interprétation statistique
Séquence de travail n° 1
8 h
INTERPRÉTATION STATISTIQUE
• Échantillonnage
• Méthode statistique 4
Objectifs pédagogiques :
A la fin de cette séquence, mais étape par étape, vous devriez être capable :
1. de comprendre et d'expliquer les bases théoriques de l'estimation par
intervalle de confiance des fréquences et des moyennes d'une population ;
2. d'estimer une fréquence, une moyenne et une variance d'une population :
- ponctuellement
- par intervalle de confiance
à différents seuils de signification ;
3. de formuler un problème en statistique ;
4. de développer une démarche pour la résolution d'un problème statistique ;
5. de distinguer les différents types de tests statistiques.
_______________________________________________________________________________
4 ______________________________________________________________________________
4. Interprétation statistique
_______________________________________________________________________________
5 ______________________________________________________________________________
4. Interprétation statistique
I. ESTIMATION DES PARAMÈTRES D'UNE POPULATION
1. Distributions d'échantillonnage
Une population est un ensemble d'individus (animaux, exploitations, parcelles…) auxquels
on s'intéresse ; sa taille est généralement infinie ou alors suffisamment grande pour être
considérée comme telle.
Soit un caractère donné présent dans une population P. Ce caractère peut être défini par sa
fréquence ou sa moyenne et sa variance au sein de cette population.
Il est évident que, vu la taille de la population, en général très grande, on ne peut pas, pour des
raisons purement pratiques et/ou économiques, étudier ce caractère sur la population elle-
même.
• Que fait-on alors ?
On extrait dans ce cas un échantillon de taille n censé représenter aussi fidèlement que
possible cette population.
L'échantillonnage ou le sondage est l'ensemble des opérations qui ont pour objectif de prélever
dans une population les individus devant constituer un échantillon. Cet échantillonnage est, le
plus souvent, dit aléatoire (ou au hasard) et simple :
• aléatoire indique que tous les individus de la population ont la même probabilité, connue et
non nulle, de faire partie de l'échantillon ;
• simple indique que les individus de l'échantillon sont prélevés indépendamment les uns des
autres.
L'échantillonnage a une importance pratique considérable car l'inférence statistique a pour
but de porter un jugement sur l'ensemble des individus de la population étudiée à partir des
observations effectuées sur l'échantillon obtenu à partir de cette population.
Cette manière de procéder pose alors le problème des fluctuations d'échantillonnage du
paramètre étudié (fréquence, moyenne, variance…).
En effet, si on extrait plusieurs échantillons représentatifs de taille n fixée, on n'aura pas
forcément toujours les mêmes valeurs pour le paramètre étudié. Autrement dit, à partir d'un
échantillon, nous n'avons que des paramètres estimés.
Il existe deux méthodes d'échantillonnage :
• la méthode dite exhaustive consistant à extraire plusieurs échantillons de taille n,
indépendamment les uns des autres et sans les remettre dans la population lorsqu'on passe
d'un tirage à l'autre ;
_______________________________________________________________________________
6 ______________________________________________________________________________
4. Interprétation statistique
• la méthode dite non exhaustive consistant à extraire plusieurs échantillons de taille n,
indépendamment les uns des autres mais en remettant, à chaque tirage, l'échantillon dans la
population.
C'est cette deuxième méthode que l'on considérera dans tous les tests statistiques.
Pourquoi ?
Tout simplement parce que la taille de l'échantillon étant très faible, comparée à
celle de la population, les calculs et le raisonnement statistiques se simplifient au
maximum dans ce cas.
Soient une population de mesures et un paramètre de cette population noté  (moyenne,
variance, fréquence…). Constituons à partir de cette population une série d'échantillons
possibles de même effectif, prélevés dans des conditions identiques ; pour chaque échantillon,
on peut calculer une valeur correspondant au paramètre étudié : d1 , d2 , … … dn ; ces valeurs
peuvent être considérés comme des valeurs observées d'une même variable aléatoire D.
On voudrait par exemple déterminer :
• la moyenne de la variable D : E (D)
• la variance de la variable D : V (D) , ou son écart type qui est l'erreur standard.
• la distribution de la variable D, appelée distribution d'échantillonnage ; c'est la
distribution des différentes valeurs que peut prendre le paramètre D, pour les différents
échantillons d'effectif fixé qu'il est possible d'extraire de la population étudiée.
Dans ces conditions,
•  est une constante généralement inconnue et relative à la population ;
• D est une variable relative aux échantillons ;
• E (D) et V(D) sont des constantes relatives à la population et à un type d'échantillon.
2. Estimation ponctuelle d'un paramètre
Toute estimation d'un paramètre est entachée d'erreurs. C'est la raison pour laquelle,
chaque fois que l'on fait une estimation, on doit préciser les conditions de sa validité.
• L'estimateur est dit biaisé lorsqu'il ne reflète pas correctement le paramètre estimé ;
• dans le cas contraire, l'estimateur est dit non biaisé.
Le paramètre de la population étudiée est inconnu. On extrait de la population un
échantillon de n valeurs observées. Il faudra donc, à partir des valeurs observées, obtenir une
estimation du paramètre . On utilise pour cela un estimateur du paramètre , noté
généralement par un ^ au-dessus du paramètre estimé, fonction des valeurs observées, qui sert
à estimer , ou qui permet d'obtenir une estimation de .
La théorie des estimateurs repose sur deux conditions :
_______________________________________________________________________________
7 ______________________________________________________________________________
4. Interprétation statistique
• l'estimateur doit être sans biais ou non biaisé ; en général, une variable aléatoire 
^
est un
estimateur sans biais d'un paramètre  si :
E (^ ) = 
• la variance de l'estimateur doit être minimum :
V (^ ) = min
L'estimation ainsi obtenue est dite ponctuelle. On réalise ainsi des estimations ponctuelles
des paramètres étudiés et on obtient des valeurs estimées des caractéristiques de la variable
dans la population.
Cependant, ces valeurs estimées sur l'échantillon peuvent être faussées par des erreurs
notamment celles dues à un mauvais échantillonnage. Autrement dit, ces valeurs estimées ne
sont que des valeurs approximatives des valeurs réelles de la population.
L'estimation ponctuelle est donc sans intérêt si on ne connaît pas la précision de
l'estimation obtenue.
3. Estimation d'un paramètre par intervalle de confiance
Pour pallier le problème précité, on procède à des estimations par intervalles de confiance :
il s'agit, en pratique, de déterminer des intervalles de valeurs dans lesquels se situe la vraie
moyenne ou la vraie fréquence de la population mais avec un certain risque d'erreur (de se
tromper). On imagine alors aisément que plus l'intervalle de confiance est grand, moins on a
de chances de se tromper et inversement.
On se fixe donc un coefficient de confiance, ou de sécurité, ou degré de confiance, ou
niveau de confiance, ou seuil de confiance, désigné par 1 -  ;  est le risque d'erreur.
Les limites de confiance ou de sécurité, c'est-à-dire les bornes de l'intervalle de confiance,
sont telles que :
Prob (D1 <  < D2 ) = 1 - 
ou
Prob (  > D2 ) ou Prob (  < D1 ) = 
Il existe alors une infinité d'intervalles répondant à cette condition. En général, on répartit le
risque en deux parties égales, c'est-à-dire que :
Prob (  > D2 ) = Prob (  < D1 ) =



Exemple. Au seuil de confiance 1 -  = 0,99, donc au risque  = 0,01, on a obtenu, pour la
moyenne  d'une population, l'intervalle de confiance suivant :
_______________________________________________________________________________
8 ______________________________________________________________________________
4. Interprétation statistique
1200 <  < 1600
On a donc :
Prob (1200 <  < 1600) = 0,99
Prob (  > 1600) = Prob (  < 1200) =
0,01
2 = 0,005
Que signifie cette expression ?
Cela ne signifie pas que la vraie valeur de  a 99 % de chances de se trouver dans
l'intervalle 1200 - 1600 mais on peut dire que, pour l'ensemble des applications de la
méthode, dans 99 % des cas, la vraie valeur de  est dans l'intervalle obtenu ; ou
encore, en affirmant que l'intervalle 1200 - 1600 contient , on peut commettre une
erreur dont la probabilité est égale à 1 %. 
4. Cas d'un caractère qualitatif : estimation et intervalle de
confiance d'une fréquence (ou d'une proportion)
Considérons une population donnée où un caractère A est présent avec une fréquence p
inconnue ; l'événement contraire A sera présent alors avec une fréquence q = 1 - p.
On prélève un échantillon aléatoire simple de taille n dans cette population ; la fréquence des
individus possédant le caractère A dans l'échantillon est f (ou p0) ; f est la valeur observée de
la variable F, fréquence du caractère A dans un échantillon de taille n.
La variable F peut s'écrire :
F =
Y
n
Y désignant la variable nombre d'individus possédant le caractère A dans un échantillon de
taille n ; Y est une variable binomiale de paramètres n et p et E (Y) = n.p.
Nous avons donc : V ( Y ) = n.p . (1 - p)
autrement dit,
E ( F ) =
np
n = p et V ( F ) =
n p (1 - p)
n2 =
p ( 1 - p)
n
De plus si n est grand, on peut assimiler une loi binomiale à une loi normale de même
espérance et de même variance ; donc :
F est une v.a qui obéit à une loi normale N (p ;
p ( 1 - p)
n ) .
Nous considérons que n est grand si n > 100 et si n p et n (1 - p) > 5.
Dans ces conditions, on démontre que F est un bon estimateur de p et f (ou p0) est donc
l'estimation ponctuelle sans biais de p.
_______________________________________________________________________________
9 ______________________________________________________________________________
4. Interprétation statistique
Cela ne veut pas dire que f (ou po ) reflète la vraie valeur de p. L'estimation
ponctuelle ne le précise pas. La précision de cette estimation est donnée par
l'intervalle de confiance de p.
Cela veut dire que si l'on dispose d'un échantillon de taille n, l' estimation ponctuelle sans
biais de p, inconnue, sera la fréquence po observée sur cet échantillon.
La question est alors la suivante : quelle confiance accorde-t-on à l'estimation de p par po ?
La réponse consiste à déterminer un intervalle dans lequel oscillera la vraie valeur de p avec
un risque d'erreur  déterminé.
F étant une v.a qui obéit à une loi normale N (p ;
pq
n ), la v.a :
U =
F - p
pq
n
obéit à une loi normale N (0 ; 1) ; d'où :
Prob ( | U | <  ou Prob ( | U | > 
Au seuil de confiance 1 - , nous avons donc :
| F - p |
pq
n
<  d'où | F - p | < 
pq
n 
d'où l'intervalle de confiance au seuil 1 -  ou au risque  :
F - 
pq
n < p < F + 
pq
n
avec, pour :
•  = 0,05   = 1,96
•  = 0,01   = 2,58

 étant l'écart réduit dont les valeurs sont données par la table II en annexe en
fonction du risque .
p étant inconnu, sera estimé par f (ou p0) et q par 1 - f (ou 1 - p0 = q0) et l'estimation de p par
intervalle de confiance sera :
______________________________________________________________________________
10 _____________________________________________________________________________
4. Interprétation statistique
po - 
p0 q0
n < p < po + 
p0 q0
n
Cet intervalle est dit intervalle de confiance de p au risque  ou au coefficient de sécurité
1- 
Exemple
On veut étudier une population de bovins, dans laquelle certains individus possèdent le
caractère " pie ". Sur un échantillon de 4000 individus, on dénombre 320 individus à robe
"pie".
Quel est l'intervalle de confiance au seuil de 99 % du pourcentage d'individus " pie " dans
cette population ?
********
p0 = 320/4000 = 0,08 q0 =1-0,08 = 0,92
 = 0,01   = 2,58
p0 -  .
p0q0
n < p < p0 +  .
p0q0
n
0,08 - 2,58
0,08 . 0,92
4000 < p < 0,08 + 2,58
0,08 . 0,92
4000
0,069 < p < 0,091
5. Cas d'un caractère quantitatif
Soit X une variable aléatoire définie sur la population avec :
E (X) =  et V(X) = 2
Pour estimer  et  , on prend un échantillon aléatoire simple de taille n ; les valeurs
observées x1 , x2 , … … xn peuvent être considérées comme les valeurs prises par des v.a X1
, X2 , … … Xn de même loi que X, de même espérance  et de même variance 2 ; elles sont,
de plus, indépendantes.
La moyenne observée sur l'échantillon est x ; la variance de l'échantillon est notée s2.
1. Estimation ponctuelle de la moyenne et de la variance
q Pour la moyenne : On montre que l'estimation de  peut se faire par x , c'est-à-dire que
x est un estimateur sans biais de .
______________________________________________________________________________
11 _____________________________________________________________________________
4. Interprétation statistique
^ = x
q Pour la variance : Si x est considérée comme estimation non biaisée de , il n'en est pas
de même pour 2. Pour des raisons mathématiques, on montre que l'estimation non biaisée de
2 consiste à multiplier s2 par n/n-1 et donc :
^ 2 =
n
n-1 s2
et donc, comme s2 =
SCE
n ,
^ =
n s2
n - 1 =
SCE
(n - 1)
En fait l'estimation de 2 par ^ 2 =
n
n-1 s2 n'a de l'importance que pour les petits
échantillons.
En effet, lorsque n (ou tout simplement lorsqu'il est suffisamment grand), le
rapport
n
n-1 tend vers 1 et donc, pratiquement, 2 = s2.
2. Estimation de la moyenne par intervalle de confiance
Nous avons :
• une population dans laquelle on étudie la v.a X avec :
E (X) = 
V (X) = 2
• un échantillon de taille n avec des valeurs observées x1 , x2 , … … xn qui sont les variables
X1 , X2 , … … Xn , indépendantes, de même espérance et de même variance que X.
La moyenne x de l'échantillon est la valeur prise par une variable X .
On montre alors que :
E ( X ) = 
V( X ) =
2
n
E ( X ) =  indique que si on répète un grand nombre de fois l'échantillonnage dans les
mêmes conditions, la moyenne des moyennes observées sera égale à .
______________________________________________________________________________
12 _____________________________________________________________________________
4. Interprétation statistique
Par ailleurs,  x ( écart type de la distribution d'échantillonnage de la moyenne) est d'autant
plus faible que n est grand, c'est-à-dire que la dispersion de X , autour de sa moyenne , est
d'autant plus réduite que la taille de l'échantillon est plus grande.
A quelle loi obéit X ?
On démontre que si la v.a X est normale, ou si l'échantillon est de taille
suffisante (n > 30) quelle que soit la loi de X, la loi de probabilité de
X est une loi normale.
q Cas où la variance de la population 2 est connue : cas rare
X est une v.a qui obéit à une loi normale N(; / n )
donc la v.a :
U =
X - 
/ n
obéit aussi à une loi normale centrée réduite N ( 0, 1 ).
d'où l'on déduit :
Prob ( | U | <  ) = 1 -  ou Prob (| U | >  ) = 
1- étant le seuil de confiance choisi et  le risque d'erreur associé.
Donc, au seuil de confiance 1-, nous avons :
U =
| X - 
/ n
<  d'où | X -  <  . / n
• Si X -  > 0 , X -  <  . / n et  > X -  . / n
• Si X -  < 0 ,  - X  <  . / n et  < X +  . / n
d'où l'intervalle de confiance au seuil de confiance 1- ou au risque  :
X - 

n
<  < X + 

n
et l'estimation de  par intervalle de confiance sera obtenue en remplaçant X par la valeur
calculée sur l'échantillon x .
L'intervalle de confiance ainsi obtenu sera d'autant plus petit que :
______________________________________________________________________________
13 _____________________________________________________________________________
4. Interprétation statistique
- le risque d'erreur choisi est plus grand ;
- la variance de la population est plus petite ;
- la taille de l'échantillon est plus grande.
*

n
=  X
= est l'écart type de la distribution d'échantillonnage de X : c'est
l'erreur standard.
* Si la population d'où est extrait l'échantillon est grande mais finie (effectif N), il
faut multiplier l'erreur standard

n
par
N-n
N-1 .
Exemple
La production laitière des vaches est considérée comme une v.a. normale dont l'écart type est
connu et égal à 1000 kg. Dans une région particulière donnée, on a mesuré chez une race de
bovins la production laitière de 25 vaches choisies au hasard et indépendamment les unes des
autres; la moyenne observée chez ces animaux est de 4 290 kg lait. Quel est l'intervalle de
confiance de cette moyenne à 95 et 99 % ?
********
• La valeur estimée de la moyenne de la population est ^ = x = 4 290 kg
• Les limites de confiance à 95 % sont :
x ± .  / n = 4 290 ± 1,96 1000/ 25 = 4 290 ± 390 kg
ou 3 900 kg <  < 4 700 kg
• Les limites de confiance à 99 % sont :
x ± .  / n = 4 290 ± 2,58 1000/ 25 = 4 290 ± 520 kg
ou 3 770 kg <  < 4 810 kg
Remarquez que l'intervalle de confiance est plus large pour un risque  plus petit.
q Cas où la variance de la population 2 est inconnue
• Si  est inconnu, on l'estime par ^ mais en supposant que la population-mère est
distribuée normalement, c'est-à-dire que la variable étudiée obéit à une loi normale.
L'estimation ^ , basée sur l'échantillon sera :
^ =
n
n - 1 s =
n s2
n - 1 =
SCE
n - 1
• Dans le cas des petits échantillons, cette estimation modifie la nature de la loi suivie par
X et la variable aléatoire :
______________________________________________________________________________
14 _____________________________________________________________________________
4. Interprétation statistique
T =
X - 
^ / n
n'obéit plus à une loi normale comme précédemment mais à une loi de Student à n-1 degrés
de liberté (ddl) (voir table III en annexe)
La courbe représentative de sa fonction densité de probabilité est une courbe en cloche
symétrique par rapport à l'axe des ordonnées, mais plus aplatie que celle de la loi normale.
La table de t donne, en fonction du nombre de ddl et du risque , la valeur t telle que :
Prob (-t < T < + t ) = 1 - 
ou alors :
Prob (T > t) = Prob (T < -t) =

2
ou encore :
Prob (| T |) > t) =  ou Prob (| T |) < t) = 1 - 
L'intervalle de confiance de la moyenne , à un seuil de confiance donné, devient alors :
X - t
^
n
<  < X + t
^
n
où t représente la variable de Student à n - 1 degrés de liberté (ddl)
Lorsque n est grand (> 30), la distribution de Student tend vers la distribution
normale. En effet, vous remarquerez sur la table III que les valeurs de la dernière
ligne, pour un ddl = ∞, coïncident avec celles de la première ligne de la table II de
l'écart réduit.
Première ligne des valeurs (en grisé) de l'écart réduit  (table II)
 0 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09
0,00 ∞ 2,577 2,327 2,171 2,054 1,960 1,881 1,812 1,751 1,696
Deux dernières lignes des valeurs (en grisé) de la variable de Student t (table III)

ddl
0,90 0,50 0,30 0,20 0,10 0,05 0,02 0,01 0,001
120 0,126 0,677 1,041 1,289 1,658 1,980 2,358 2,617 3,373
∞ 0,126 0,675 1,037 1,282 1,645 1,960 2,327 2,577 3,293
______________________________________________________________________________
15 _____________________________________________________________________________
4. Interprétation statistique
Exemple
La mesure de la taille de 10 arbres provenant d'une même forêt, a donné les résultats suivants :
x = 4,7 m ; s2 = 1,928 m
1. Quelle est l'estimation ponctuelle non biaisée de la moyenne et de l'écart type de la
population dont ces arbres sont extraits.
2. Donner un intervalle de confiance de la moyenne de la population au risque de 0,05 en
supposant que cette taille obéit à une loi normale.
********
1.
• L'estimation ponctuelle non biaisée de la moyenne est : x = 4,7 m
• L'estimation ponctuelle non biaisée de l'écart type est : ^
On a : s2 = 1,928 m  s = 1,928 = 1,388
^ =
n
n-1 s = 10/10 - 1 . 1,388  1,46 m
2.
Nous sommes dans le cas d'un petit échantillon dont la variable obéit à une loi normale mais
dont  est inconnu.
Dans ces conditions :
 = x ± t . ^ / n
Pour  = 0,05 et ddl = 10 - 1 = 9 , ttable = 2,262

 = 4,7 ± 2,262. 1,46/ 10 = 4,7 ± 1,045 m
autrement dit, au risque de 5 % :
3,65 m <  < 5,75 m
______________________________________________________________________________
16 _____________________________________________________________________________
4. Interprétation statistique
II. PRINCIPE GÉNÉRAL DES TESTS STATISTIQUES
1. Comment formuler un problème en statistique ?
Partons d'un exemple qui vous est familier…
Y a-t-il une relation entre la consommation de tabac et le cancer ?
Il est évident qu'une telle relation ne suppose aucunement une réponse constante (c'est-à-dire
que tout fumeur sera cancéreux et tout non-fumeur ne le sera pas). La seule chose qu'on peut
affirmer est qu'un fumeur a "nettement" plus de risques d'être atteint par un cancer pulmonaire
qu'un non-fumeur. A cause justement de la variabilité.
Ainsi, dans un domaine où la réponse est variable, les problèmes doivent être posés à
l'échelon, non de l'individu, mais du groupe qu'on définira par une propriété moyenne.
La définition du mot cause telle qu'elle est généralement conçue, exige que :
• si la cause existe, l'effet existe ;
• si la cause est absente, l'effet disparaît.
Ce qui suppose que tous les fumeurs seront cancéreux et tous les non-fumeurs non cancéreux.
Avec une telle définition, la causalité n'existera pas en biologie.
Dans une formulation statistique, on dira simplement que l'effet existe plus souvent quand la
cause est présente que lorsqu' elle est absente. C'est donc en termes de probabilités qu'il faut
poser les problèmes.
2. Comment résoudre un problème en statistique ?
1. La méthode statistique
• Dans un premier temps, si on veut comparer deux groupes pour un caractère donné, on
examine si la différence est imputable aux fluctuations du hasard, ou, au contraire
significative : c'est le test de signification.
• Dans un deuxième temps, si la différence est significative, on cherchera à l'interpréter pour
en déterminer la cause (interprétation causale). Celle-ci n'est possible en toute rigueur, que
si les deux groupes sont, à part le caractère étudié, strictement comparables.
Le rôle du statisticien est double : il doit d'abord organiser l'expérience ou l'enquête, ensuite
analyser et interpréter les résultats.
Une recherche vise presque toujours à étudier l'association de 2 facteurs ou plus : c'est ainsi
qu'on cherche si l'existence de la maladie est liée à certains signes (diagnostic), si son
______________________________________________________________________________
17 _____________________________________________________________________________
4. Interprétation statistique
apparition est liée à certaines conditions (étiologie), si son développement est lié à certains
indices (pronostic) ou à certains traitements (thérapeutique).
Or l'association de 2 facteurs en biologie ne se présente pas comme une relation rigide : elle
ne peut être vraie qu'en "moyenne", c'est-à-dire en termes de probabilités ; il est donc
nécessaire de la définir de façon particulière.
Cette formulation du problème et la façon de le résoudre constituent la méthode statistique.
2. Application
Dans une région donnée, une certaine race de bovins présente une infection particulière avec
un taux constant et connu qui est p = 20 %. On se demande si l'application d'un traitement
antibiotique sur les animaux va modifier ce taux de 20 % dans un sens ou l'autre.
Pour cela, on fait une expérience d'application de l'antibiotique, sur 100 animaux par exemple.
On obtient alors po d'animaux malades.
Il s'agit de savoir si le traitement a été actif ou pas.
Comment répondre à cette question ?
Premier cas : Si l'antibiotique n'a pas été actif, il y aurait eu théoriquement, sur cet
échantillon de 100 individus, la même proportion d'animaux malades, c'est-à-dire 20 % ou
presque ; mais il est possible d'observer, de temps à autre, des valeurs très différentes pouvant
aller de 0 % à 100 %.
Donc, même si po est très différent de p, il est possible que le traitement soit sans effet.
Deuxième cas : Si l'antibiotique est actif, la proportion d'animaux malades devrait
théoriquement diminuer mais il se pourrait aussi que cette proportion avoisine, une fois par
hasard, les 20 % .
Ainsi, même si on observe 20 % d'animaux malades, il reste possible que le traitement soit
actif. Autrement dit, il est impossible de répondre à la question posée avec certitude.
Or, refuser de répondre équivaudrait à renoncer à tous les problèmes de ce genre, caractérisés
par une variabilité de comportement des sujets, c'est-à-dire à la majorité des problèmes
biologiques.
On sera donc forcé de répondre avec un certain risque d'erreur qui doit être évalué de façon
à ne conclure qu'avec un risque connu et raisonnable.
3. Hypothèses nulle et alternative
Dans un test statistique, on formule souvent deux hypothèses ou affirmations relatives aux
deux populations avec comme objectif de n'en conserver qu'une.
______________________________________________________________________________
18 _____________________________________________________________________________
4. Interprétation statistique
• l'hypothèse nulle ou hypothèse à tester consiste à supposer que le traitement est sans effet.
Cette hypothèse est notée Ho.
• l'hypothèse alternative, notée H1, est l'hypothèse opposée ; dans ce cas H1 suppose que le
traitement a un effet.
L'ensemble des valeurs observées pour lesquelles on admet l'hypothèse nulle, constitue la
région d'acceptation de cette hypothèse ; les autres valeurs constituent la région de rejet de
l'hypothèse nulle appelée aussi région critique. Les valeurs limites s'appellent valeurs
critiques.
Cette dernière expression peut prêter à confusion car certains auteurs l'utilisent
pour désigner le niveau de signification.
Dans notre exemple, il s'agit de savoir, par calcul statistique, si on accepte ou on rejette cette
hypothèse nulle.
Si Ho est vraie, po avoisinera 20 %.
Avec un risque d'erreur  = 5 % (de se tromper c'est-à-dire que le pourcentage sort d'un
intervalle p+ e, p - e), on peut calculer un intervalle dans lequel oscillera po (cf. § intervalle de
confiance d'une fréquence)
En effet, si  = 5 % ,
alors   (table de l'écart réduit)
 e =  .  = 1,96  = 1,96 . 0,2.0,8/100 = 0,08
l'intervalle sera donc : [20 - 8 ; 20 + 8] ou 12 % - 28 %
po sera donc dans cet intervalle dans 95 % des cas et sortira de cet intervalle dans 5 % des cas
( = 5 %).
Tant que po est dans cet intervalle, le traitement est déclaré sans effet. (toujours avec 5 % de
chance de se tromper en affirmant cela).
Autrement dit, si po est en dehors de l'intervalle, on dira que l'écart est significatif, c'est-à-dire
que le traitement est actif.
Ainsi, un écart po - p est significatif s'il égale ou dépasse :
1,96   1,96  = 1,96. p.q/n
ou alors si la valeur absolue de l'écart réduit :
 =
po - p
pq/n
dépasse 1,96
______________________________________________________________________________
19 _____________________________________________________________________________
4. Interprétation statistique
4. Risques d'erreurs
Une fois l'hypothèse nulle posée, le hasard des situations peut conduire à quatre éventualités :
• accepter l'hypothèse nulle alors qu'elle est vraie ;
• rejeter l'hypothèse nulle alors qu'elle est vraie ;
• accepter l'hypothèse nulle alors qu'elle est fausse ;
• rejeter l'hypothèse nulle alors qu'elle est fausse.
Bien évidemment, le premier et le dernier cas correspondent à une conclusion correcte. Dans
les deux autres cas, on se trompe dans notre conclusion.
L'erreur qui consiste à rejeter une hypothèse alors qu'elle est vraie est appelée risque de
première espèce. Par analogie avec les probabilités conditionnelles, ce risque est noté  tel
que, en désignant le rejet par la lettre R et l'acceptation par la lettre A,
 = Prob (RHo/Ho)
d'où : 1 -  = Prob (AHo/Ho)
lorsqu'on accepte une hypothèse fausse, on commet un autre type d'erreur appelé erreur de
deuxième espèce et est désigné par la lettre .
 = Prob (AHo/H)
d'où : 1 -  = Prob (RHo/H)
Toute décision « statistique » comporte donc des risques d'erreur. Ne pas condamner un
couplable est une décision injuste : c'est le risque de première espèce ; condamner un innocent
revient à commettre une erreur judicière : c'est le risque de deuxième espèce.
La puissance d'un test [ 1 -  est la probabilité de rejeter l'hypothèse nulle alors
qu'elle est fausse. Lorsqu'on utilise un test puissant, on a peu de chances de se
tromper quand on accepte Ho ; au contraire si le test est peu puissant, on prend un
risque important quand on accepte Ho.
Dans notre exemple, si po avoisine 20 %, on dira que le traitement est sans effet c'est-à-dire
qu'il y a 5 chances sur 100 pour que le traitement soit efficace et 95 % de chances qu'il ne le
soit pas.
Ce risque consiste donc à déclarer actif un traitement qui ne l'est justement pas : c'est un
risque de première espèce ou risque  .
Si le traitement est efficace alors que le hasard fait tomber po dans l'intervalle 12 - 28 %,
nous commettons une autre erreur en déclarant le produit inactif alors qu'il est actif.
C'est donc le risque de deuxième espèce ou risque . Ce risque peut se calculer mais son
calcul est complexe car il dépend :
• de  : plus  est grand, plus  est petit ;
______________________________________________________________________________
20 _____________________________________________________________________________
4. Interprétation statistique
• de la taille de l'échantillon : plus elle est faible, plus  est grand ;
• du degré de fausseté de Ho : plus Ho est fausse, plus  est petit ;
• de la différence que l'on veut mettre en évidence : plus cette différence est petite, plus  est
grand.
En pratique, les valeurs " classiques " du risque  sont :
•  ≤ 0,05, probabilité pour laquelle on considère conventionnellement que la différence est
significative ;
•  ≤ 0,01, probabilité pour laquelle on considère conventionnellement que la différence est
très significative ;
•  ≤ 0,001, probabilité pour laquelle on considère conventionnellement que la différence est
très hautement significative.
Nous pouvons résumer la notion de risque par le tableau suivant :
Réalité
Décision
Ho est vraie Ho est fausse
Ho est acceptée Pas d'erreur
1 - 
Erreur
Risque de deuxième espèce 
Ho est rejetée Erreur
Risque de première espèce 
Pas d'erreur
1 - 
La conclusion n'est correcte que dans les deux cas représentés en grisé sur le tableau.
5. Antagonisme entre les deux risques d'erreurs et puissance
d'un test
Dans notre exemple, pour  = 5 % l'intervalle était de 12 - 28 %
Que se passe -t-il si  était très petit ?
Exemple.  = 1/10000   = 3,89
d'où :  3,89 . 0,2.0,8/100 =16 %
Donc l'intervalle sera :
[20 - 16 % ; 20 + 16] % ou alors [4 % - 36 %]
Conséquence: il n'y a que les différences les plus importantes qui seront remarquées.
Il y a donc antagonisme entre les 2 risques. Plus le risque de première espèce est petit et plus
le risque de deuxième espèce sera grand et vice-versa. Il n'est donc pas possible, pour un test
donné, de réduire simultanément les deux risques d'erreurs.
______________________________________________________________________________
21 _____________________________________________________________________________
4. Interprétation statistique
Cet antagonisme est évidemment intuitif. Pour un intervalle choisi de [0 % - 100 %], on ne se
tromperait jamais mais on ne conclurait jamais non plus.
C'est donc en termes de probabilités que les problèmes statistiques doivent être résolus.
Lorsque le risque de deuxième espèce est important, le test est dit peu puissant
statistiquement. Inversement, un test statistique sera d'autant plus puissant que ce
risque est faible.
6. Les tests d'hypothèse
Les tests d'hypothèse sont des tests statistiques dont le but est de vérifier, à partir de données
observées dans un ou plusieurs échantillons, la validité de certaines hypothèses relatives à une
ou plusieurs populations.
Les tests d'hypothèse, basés généralement sur une hypothèse nulle à tester, peuvent être
distingués en :
1. Tests de conformité
Ces tests permettent de comparer une population à un échantillon. La population étant définie
pour un paramètre donné (moyenne, variance, fréquence…), on cherche à vérifier si,
connaissant la caractéristique correspondante d'un échantillon, on peut considérer qu'il est issu
de cette population.
2. Tests d'homogénéité ou d'égalité ou tests de comparaison
Ces tests sont utilisés pour comparer des populations à partir d'un même nombre
d'échantillons. Ces tests peuvent être utiliser pour comparer des moyennes, des fréquences ou
des variances.
3. Tests d'ajustement
Ces tests sont utilisés pour vérifier qu'à tout point de vue, un échantillon observé peut être
regardé comme issu d'une population donnée. Le test du 2 en est l'exemple type.
Dans ce type de test, il s'agit de tester, à un seuil de signification choisi, l'hypothèse selon
laquelle la distribution observée sur un échantillon est conforme à une distribution théorique
donnée.
4. Tests d'indépendance
Ces tests ont pour objectif de contrôler, à partir d'un échantillon, que deux ou plusieurs
caractères de classification sont indépendants. Ce sont, en fait, des cas particuliers de tests
d'ajustement qui consistent à tester, à un certain seuil de signification, l'hypothèse selon
laquelle deux ou plusieurs caractères, généralement qualitatifs, sont indépendants ou non.
______________________________________________________________________________
22 _____________________________________________________________________________
4. Interprétation statistique
7. Test bilatéral - Test unilatéral
Pour un seuil donné, un test peut être :
• bilatéral, lorsque la probabilité  de se tromper se trouve " partagée " en deux parties égales
des deux côtés de la région d'acceptation de l'hypothèse correspondant à l'intervalle de
confiance. Dans ce cas, on utilisera la table II de l'écart réduit (graphe de droite ci-
dessous).
• unilatéral, dans le cas contraire, c'est-à-dire lorsqu'on situe cette probabilité  d'un seul côté
de la région d'acceptation (à gauche ou à droite). Dans ce cas, on utilisera la table I de la
fonction de répartition (deux graphes de gauche, ci-dessous).
région
d'acceptation
0,975
u = - 1,96
région
d'acceptation
0,95
- 1,96 + 1,96
région
d'acceptation
u = + 1,96
région
de rejet
0,025
région
de rejet
0,025
Test unilatéral à gauche Test unilatéral à droite Test bilatéral
région
de rejet
0,025
région
de rejet
0,025
0,975
Ces deux courbes répondent donc à la même fonction :
(u) =
1
2π
e - 1/2u2
La première (fonction de répartition) donnera l'aire sous la courbe, de - ∞ à u, correspondant à
la région de rejet de l'hypothèse nulle, pour un test unilatéral ; la deuxième donnera deux
aires symétriques correspondant aux régions de rejet pour un test bilatéral.
Il existe une analogie entre la notion de région d'acceptation de l'hypothèse nulle et
d'intervalle de confiance. La région d'acceptation est pratiquement confondue avec
l'intervalle de confiance. On admet conventionnellement que les limites de confiance
appartiennent à l'intervalle de confiance alors que les valeurs limites (critiques) sont
exclues de la zone d'acceptation.
[ intervalle de confiance ]
] zone d'acceptation [
C'est ce qui explique que, dans certains tests de comparaison, le problème peut être
résolu soit en déterminant l'intervalle de confiance, soit en précisant les valeurs
critiques.
______________________________________________________________________________
23 _____________________________________________________________________________
4. Interprétation statistique
______________________________________________________________________________
24 _____________________________________________________________________________
4. Interprétation statistique
Exemple de correspondance entre les deux courbes
• Lorsque  = 1,96, la valeur  correspondante dans la table de l'écart réduit vaut 0,05 ou 5 %
Ces 5 % sont partagés de part et d'autre de la courbe (2,5 % ou 0,025 de chaque côté, zones
hachurées dans le graphe de droite ci-dessus). La zone d'acceptation dans ce cas vaut 95 %
(surface blanche).
• Lorsque u = -1,96, l'aire de la courbe de la fonction de répartition, c'est-à-dire la zone de
rejet, (graphe de gauche, ci-dessus) ne correspond plus à 5 % mais à 2,5 % c'est-à-dire à
0,025. Autrement dit, la zone d'acceptation vaudra :
1 - 0,025 = 0,975 ou 97,5 %
Ces 0,975, qu'on retrouve dans la table de la fonction de répartition, représentent donc l'aire
sous la courbe, de u = -1,96 à + ∞, correspondant à la région d'acceptation.
Il est fondamental de bien comprendre la relation entre ces deux courbes.
Voici quelques valeurs remarquables de  :
risque  0,01 0,05 0,10
Test bilatéral
Test unilatéral à droite
Test unilatéral à gauche
± 2,58
+ 2,33
- 2,33
± 1,96
+ 1,645
- 1,645
± 1,645
+ 1,28
- 1,28
Ce tableau montre que, pour un même risque , les valeurs de  sont plus élevées, en valeur
absolue, pour un test bilatéral que pour un test unilatéral.
Cela montre qu'un test unilatéral est toujours plus puissant qu'un test bilatéral.
Pour plus de compléments sur les tests unilatéraux, voir Annexe I du livret 3.
______________________________________________________________________________
25 _____________________________________________________________________________
5. Tests relatifs aux fréquences
Séquence de travail n° 2
5 h
TESTS RELATIFS AUX FRÉQUENCES
Cas des grands échantillons 5
Objectifs pédagogiques :
A la fin de cette séquence vous devriez être capable :
1. de mobiliser les connaissances acquises à la séquence de travail N° 1 afin de
les appliquer à un caractère qualitatif ;
2. de situer les problèmes relatifs à la comparaison des fréquences ;
3. d'expliquer les étapes nécessaires pour effectuer un test d'hypothèses ;
4. de comparer une fréquence observée à une fréquence théorique ;
5. de comparer deux fréquences observées sur deux échantillons de « grande
taille » ;
6. d'interpréter les résultats d'un test de comparaison de deux fréquences.
______________________________________________________________________________
26 _____________________________________________________________________________
5. Tests relatifs aux fréquences
I. COMPARAISON D'UNE FRÉQUENCE OBSERVÉE p0 À UNE
FRÉQUENCE THÉORIQUE p OU TEST DE CONFORMITÉ D'UNE
FRÉQUENCE
1. Position du problème et réalisation du test
Le problème est le suivant : étant donné un échantillon de taille n, où la fréquence d'apparition
d'un certain caractère est po ; est-il représentatif de la population-mère où la fréquence
d'observation de ce caractère est p ?
La distribution d'échantillonnage des fréquences est ici la distribution décrite précédemment,
c'est-à-dire caractérisée par :
• sa moyenne : E(po) = p
• son écart type :  (po) =
pq
n avec q = 1 - p et qo = 1 - po
L'hypothèse à tester est : Ho : p = po
Pour celà, un échantillon de grande taille est extrait de la population, ce qui permet d'obtenir
une estimation ponctuelle de p : f.
Nous avons déjà signalé que la v.a F peut être considérée comme une v.a qui obéit à une loi
normale de paramètres : N (p ;
pq
n ) ;
donc : U =
F - p
pq
n
obéit à une loi N( 0 ; 1)
Si Ho est vraie, la variable U devient :
Uo (ou obs) =
F - po
poqo
n
et obéit à une loi N( 0 ; 1)
Dans ces conditions, pour comparer une fréquence théorique p à une fréquence observée po,
on émet l'hypothèse nulle :
Ho : p = po
puis on calcule l'écart réduit, c'est-à-dire le rapport :
obs =
| p - po|
p q
n
• Siobs< table, on accepte Ho . Risque  de deuxième espèce.
______________________________________________________________________________
27 _____________________________________________________________________________
5. Tests relatifs aux fréquences
• Siobs≥ table, on rejette Ho et le risque de première espèce correspondant à
, lu dans la table de l'écart réduit, fixe le degré de signification.
Le test n'est valable que si n.p et n.q sont supérieurs à 5
Concrètement, en raisonnant sur l'intervalle de confiance, on peut dire par exemple
que la différence n'est pas significative à 5 % si :
obs  ] - 1,96 ; + 1,96 [
et elle est significative si :
obs  ] - 1,96 ; + 1,96 [
2. Exemples
Exemple 1
Dans une population animale qui comporte autant de mâles que de femelles, une maladie a
frappé 20 femelles et 10 mâles. Cette maladie frappe-t-elle davantage les femelles ?
********
Il s'agit de savoir si l'hypothèse p = 0,50 ( fréquence théorique) est admissible au vu de la
fréquence observée, po = 20/30 = 0,67
• Ho : il n'existe pas de différence significative entre les fréquences p et po.
 =
0,50.0,50
30 = 0,0913  obs =
0,67 - 0,50
0,0913 = 1,86
• Pour  = 0,05, table = 1,96

obs table  la différence n'est pas significative.
En dépit des résultats constatés, la maladie frappe autant les mâles que les femelles.
Exemple 2
On a examiné 30 000 familles de 5 enfants, soit au total 150 000 enfants, et dénombré 77250
garçons. La proportion de garçons est-elle compatible avec l'hypothèse d'une probabilité égale
de garçons et de filles ?
********
Fréquence théorique de garçons : p = 1/2 = 0,5
Fréquence observée de garçons : po =
77250
150000 = 0,515
Fréquence théorique Fréquence observée
Garçons
Filles
p = 0,5 d'où q = 1 - p = 0,5
p = 0,5 d'où q= 1 - p = 0,5
po = 0,515 d'où qo = 0,485
______________________________________________________________________________
28 _____________________________________________________________________________
5. Tests relatifs aux fréquences
obs =
0,515-0,5
0,5.0,5
150000
= 11,62
La probabilité correspondant à cet écart réduit est quasi nulle.
La différence est donc hautement significative, et on ne saurait admettre l'hypothèse p =
0,50, c'est-à-dire l'hypothèse d'une probabilité égale entre garçons et filles.
On notera que la fréquence observée po = 0,515 est extrêmement voisine de 0,50, mais pour
un échantillon aussi important que celui-ci une différence, même minime, est très
significative.
On ne peut manquer d'être frappé par le contraste avec l'exemple 1 ci-dessus où le
pourcentage 0,80 ne différait pas significativement de 0,50.
Ce contraste confirme bien le manque de puissance des tests fondés sur de petits
échantillons. Il montre aussi combien il est dangereux de conclure à une signification
ou à une absence de signification sans faire le calcul exact.
Exemple 3
Dans une région particulière d'Auvergne, les mammites touchent 20 % du cheptel. Un
chercheur de l'INRA a expérimenté un traitement sur un échantillon de n vaches atteintes de
mammites. Après traitement, il a recensé alors 6 % de vaches malades.
Quelle est la valeur minimale de n qui permette à ce chercheur de conclure à l'efficacité du
traitement :
• au risque de 5 % ?
• au risque de 1 % ?
********
Nous sommes dans un cas de test de conformité entre une fréquence théorique p = 0,20 et une
fréquence observée po = 0,06.
Ho = le traitement n'a pas d'effets
On ne précise pas la valeur de n puisque qu'on nous demande de la chercher mais nous devons
supposer que n ≥ 30.
Par ailleurs, nous devons nécessairement avoir po < p car le traitement est supposé avoir une
action efficace.
Nous ne sommes pas donc en présence d'un test bilatéral mais d'un test unilatéral à gauche.
Cela veut dire que pour :
______________________________________________________________________________
29 _____________________________________________________________________________
5. Tests relatifs aux fréquences
-  = 0,05, obs = - 1,645
-  = 0,01, obs = - 2,33
Le traitement sera efficace si le rapport :
•
0,20 - 0,06
0,06 x 0,94
n
≤ - 1,645 pour un risque de 5 % ou
0,06 x 0,94
n ≤
0,20
1,645
•
0,20 - 0,06
0,06 x 0,94
n
≤ - 2,33 pour un risque de 1 % ou
0,06 x 0,94
n ≤
0,20
2,33
• Pour  = 0,05, n ≥ 120
• Pour  = 0,01, n ≥ 240
Il est logique que, pour un risque moindre, le nombre d'animaux soit plus important.
______________________________________________________________________________
30 _____________________________________________________________________________
5. Tests relatifs aux fréquences
II. COMPARAISON DE DEUX FRÉQUENCES OBSERVÉES SUR
DEUX POPULATIONS OU TEST D'HOMOGÉNÉITÉ DE DEUX
FRÉQUENCES
1. Position du problème
Soient f1 et f2 les fréquences d'apparition d'un certain caractère A dans deux échantillons
indépendants E1 et E2 de taille n1 et n2 et extraits de deux populations P1 et P2 .
Les fréquences d'apparition de A dans les populations P1 et P2 sont inconnues et désignées
respectivement par p1 et p2 .
Il s'agit alors de savoir si la différence observée entre f1 et f2 est significative ou seulement
due aux fluctuations d'échantillonnage, c'est-à-dire au hasard.
Désignons par F1 et F2 les variables aléatoires qui prennent les valeurs f1 et f2 sur chaque
échantillon de tailles n1 et n2.
En supposant qu'on puisse approximer les lois binomiales par des lois normales , c'est-à-dire
si:
n1 et n2 ≥ 30 ; n1f1 ≥ 5 ; n1(1 - f1) ≥ 5 ; n2f2 ≥ 5 ; n2(1 - f2) ≥ 5
alors, sous l'hypothèse Ho [ p1 = p2 = p ],
la variable aléatoire :
U =
F1 - F2
pq [
1
n1
+
1
n2
]
obéit à une loi normale centrée réduite.
Pour comparer deux fréquences f1 et f2 observées sur deux échantillons de taille n1 et n2
respectivement, on émet l'hypothèse nulle :
Ho : p1 = p2 = p
puis on calcule l'écart réduit, c'est-à-dire le rapport :
obs =
f1 - f2
p^q^ [
1
n1
+
1
n2
]
p^ , q^ étant les proportions évaluées sur l'ensemble des 2 échantillons :
p^ =
n1f1 + n2f2
n1 + n2
et q^ = 1 - p^
______________________________________________________________________________
31 _____________________________________________________________________________
5. Tests relatifs aux fréquences
• Siobs< table, on accepte Ho . Risque  de deuxième espèce.
• Siobs≥ table, on rejette Ho et le risque de première espèce correspondant à
, lu dans la table de l'écart réduit fixe le degré de signification.
2. Exemples
Exemple 1
On teste le taux de germination de 2 lots de grains de blé.
Variété A = sur 300 grains testés, 258 ont germé.
Variété B = sur 600 grains testés, 462 ont germé.
Les 2 lots ont-ils des taux de germination équivalents au risque de 0,01?
*******

 : les taux de germination sont équivalents
  obs =
f1 - f2
p^q^ [
1
n1
+
1
n2
]
n1 = 300 ; f1 = 258/300 = 0,86
n2 = 600 ; f2 = 462/600 = 0,77
p^ =
n1f1 + n2f2
n1 + n2
=
720
900 = 0,80  q^ = 1 - p^ = 0,20
obs =
0,86 - 0,77
0,8.0,2
300 +
0,8.0,2
600
=
0,09
(0,8.0,2).3
600
=
0,09
0,0008
=
0,09
0,02828 = 3,18

table= 2,58 < obs
La différence est donc très significative. On rejette donc Ho. Les taux de germination sont
différents.
Exemple 2
Dans un centre d'insémination artificielle (IA) bovine, deux inséminateurs ont obtenu les
résultats suivants :
Nombre d'IA premières % de non retour
Inséminateur A 4500 60 %
Inséminateur B 3000 70 %
Que peut-on dire au vu de ces résultats ?
______________________________________________________________________________
32 _____________________________________________________________________________
5. Tests relatifs aux fréquences
********
Le tableau ci-dessous résume l'essentiel de la démarche à effectuer pour comparer ces deux
fréquences observées sur deux échantillons indépendants.
Nombre d'IA premières
réussies
Total % de non retour
Inséminateur A 2700 4500 = n1 0,60 = f1
Inséminateur B 2100 3000 = n2 0,70 = f2
Ho : il n' y a pas de différence significative entre les résultats des deux inséminateurs.
p^ =
n1f1 + n2f2
n1 + n2
= 0,64 q^ = 1 - p^ = 1 - 0,64 = 0,36
Écart type de la différence : p^q^ [
1
n1
+
1
n2
]
0,01131
f1 - f2 0,1
 table,  = 0,05 1,960

obs =
f1 - f2
p^q^ [
1
n1
+
1
n2
]
8,839
Décision statistique: obs >> tbable ; Ho est rejetée même au risque de 0,001.
Il existe donc une différence significative entre les deux inséminateurs.
______________________________________________________________________________
33 _____________________________________________________________________________
6. Test du khi-deux
Séquence de travail n° 3
6 h
TEST DU KHI-DEUX OU 2
6

Objectifspédagogiques:
A la fin de cette séquence, vous devriez être capable :
1. de situer le problème relatif à l'utilisation du test du Khi-deux ou 2 ;
2. d'utiliser la table du 2 ;
3. de comparer une fréquence théorique à une fréquence observée ;
4. d'ajuster une répartition observée à une loi de probabilité théorique ;
5. d'appliquer le test du 2 pour effectuer un test d'homogénéité ;
6. de comparer le test du 2 au test relatif à la comparaison de deux fréquences
observées ;
7. d'interpréter les résultats d'un test du 2.
______________________________________________________________________________
34 _____________________________________________________________________________
6. Test du khi-deux
I. POSITION DU PROBLÈME : CAS GÉNÉRAL
Le test du 2 de Pearson a pour but de comparer une distribution rangée par classes à une autre
distribution de rangement identique.
Pratiquement, on rencontre 2 cas :
- Comparer une distribution observée à une distribution calculée à partir d'une loi théorique.
- Comparer 2 ou plusieurs distributions observées entre elles.
1. Procédure de calcul
On se limitera à indiquer uniquement la manière d'appliquer le test.
Soient 2 distributions A (observée) et B (théorique) rangées de la même façon suivant les
différentes valeurs (1, 2, 3, ......k) que peut prendre le caractère étudié.
Caractère Répartition A
(observée)
Répartition B
(théorique)
1 n1 n'1
2 n2 n'2
3 n3 n'3
. . .
. . .
k nk n'k
 n = N  n' = N
L'effectif global est le même dans les 2 répartitions. D'autre part, N étant fixé, on peut choisir
k-1 effectifs, le dernier étant alors déterminé. On dit qu'on a k-1 degrés de liberté (d.d.l).
Problème posé : les répartitions A et B sont-elles conformes ou différentes ?
Intuitivement, on voit que si ni = n'i , on peut conclure que les 2 répartitions A et B sont
identiques.
Si ni ≠ n'i , il faut alors étudier l'importance statistique des différences ni - n'i.
On ne saurait utiliser comme indice, ni la somme (ou la moyenne) des écarts, qui vaut 0
évidemment, ni la somme de leurs valeurs absolues, qui ne se prête pas commodément à des
calculs de probabilité. La somme des carrés des écarts (SCE) évite les inconvénients ci-
dessus. C'est cependant un indice encore imparfait car il donne le même poids à tous les
écarts, qu'ils se rapportent à de petits ou à de grands effectifs calculés.
Des considérations théoriques conduisent à adopter l'indice suivant, dû à Pearson :
obs =
(n1 - n'1)2
n'1
+
(n2 - n'2)2
n'2
+ ........ +
(nk - n'k)2
n'k
qui peut s'écrire :

obs = 
i=1
k
(ni - n'i)2
n'i
= 
(Oi - Ti)2
Ti
______________________________________________________________________________
35 _____________________________________________________________________________
6. Test du khi-deux
• où O désigne les effectifs observés et T, les effectifs théoriques.
Remarque :
Cette dernière expression peut aussi s'écrire :

obs = 
i=1
k
(ni )2
n'i
- N
ce qui permet, parfois, des calculs plus commodes.
Plus le 2 est grand, plus les 2 répartitions sont différentes. La limite à partir de laquelle on
peut dire que 2 est trop grand, est donnée par une table ( cf. table IV dont un extrait est
présenté ci-dessous) en fonction du risque d'erreur  choisi et du nombre de degrés de liberté
noté parfois , dans ce cas égal à k-1.
Extrait de la table du 2


0,99 0,975 0,95 0,90 0,10 0,05 0,025 0,01 0,001
1 0,0002 0,001 0,004 0,016 2,71 3,84 5,02 6,63 10,83
2 0,02 0,05 0,10 0,21 4,61 5,99 7,38 9,21 13,82
3 0,11 0,22 0,35 0,58 6,25 7,81 9,35 11,34 16,27
4 0,30 0,48 0,71 1,06 7,78 9,49 11,14 13,28 18,47
5 0,55 0,83 1,15 1,61 9,24 11,07 12,83 15,09 20,51
Exemple : pour  = 3 et  = 0,05, 2
table = 7,81
Le test du 2 consiste à :
• formuler une hypothèse nulle Ho et déterminer un risque d'erreur ;
• déterminer la valeur du 2 observé ;
• de comparer le 2 observé au 2 donné par la table au seuil de signification choisi ;
• de conclure statistiquement.
Le test du 2 est toujours unilatéral.
2. Intérêts du test du 2
Le test du 2 peut être utilisé dans les cas suivants :
• comme test de conformité, lorsqu'il s'agit de comparer des fréquences observées à des
fréquences théoriques ;
• comme test d'ajustement lorsqu'il s'agit de vérifier si certaines données peuvent être ajustées
à une loi particulière (binomiale, Poisson ou normale) ;
• comme test d'homogénéité (ou d'indépendance) lorsqu'il s'agit d'étudier la liaison entre deux
caractères qualitatifs.
______________________________________________________________________________
36 _____________________________________________________________________________
6. Test du khi-deux
II. COMPARAISON D'UNE RÉPARTITION OBSERVÉE
À UNE RÉPARTITION THÉORIQUE : TESTS DE
CONFORMITÉ ET TESTS D'AJUSTEMENT
1. Mise en place du test
q On commence par formuler l'hypothèse nulle,
Ho : la distribution observée dans l'échantillon est conforme à la distribution théorique
présumée.
q Soient Oi l'effectif observé de la valeur xi (ou de la classe de centre xi) et Ti l'effectif
théorique correspondant. On calcule le rapport :
2obs = 
( Oi - Ti )2
Ti
q On détermine le nombre de degrés de liberté  :
• si la distribution théorique est connue,
 = k - 1
k, étant le nombre de classes
Ce sera le cas des comparaisons d'une fréquence observée à une fréquence théorique connue.
• si la distribution théorique est déterminée en estimant certains de ses paramètres :
 = k - m - 1
k : nombre de classes
m : nombre de paramètres estimés à partir des observations
q On compare le 2
observé au 2
table qui sera fonction de  et de , le risque d'erreur adopté.
• Si 
obs < 2
table , on accepte Ho ; la différence est non significative au risque
choisi.
• Si 
obs ≥ 2
table , on rejette Ho.
• Le test du 2 ne peut s'appliquer qu'à condition que chaque classe ait un effectif
supérieur ou égal à 5. Si cette condition n'est pas remplie, il faudra prévoir un
regroupement des classes tout en faisant attention à la valeur de  !
• La valeur du 2 se calcule avec des effectifs et non des fréquences. Les valeurs
observées sont toujours des nombres entiers ; les valeurs calculées peuvent être
décimales et ne doivent pas être arrondies.
• La table du 2 est limitée à  = 30. Au-dessus de cette valeur, on utilise le fait que
le paramètre 2 2 est distribué approximativement suivant une loi normale, de
moyenne 2  - 1 et d'écart type égal à 1. Cela revient à utiliser la table de l'écart
réduit avec :
U = 2 2 - 2  - 1
U étant alors une variable aléatoire distribuée suivant une loi normale centrée
réduite.
______________________________________________________________________________
37 _____________________________________________________________________________
6. Test du khi-deux
2. Tests de conformité
Exemple. Le dihybridisme
On a croisé 12 variétés de plantes différant par 2 caractères A et B. La deuxième génération
fait apparaître 4 types de plantes notées AB, Ab, aB et ab avec les proportions théoriques
9/16, 3/16, 3/16 et 1/16 respectivement (Loi de Mendel).
Dans une expérience, un échantillon de 160 plantes a donné :
AB = 100 Ab = 18 aB = 24 ab = 18
Cette répartition est-elle conforme à la loi de Mendel ? Prendre  = 0,05.
********
Ho : la distribution observée est conforme à la distribution théorique.
Si l'échantillon est conforme à la loi de Mendel, le 2 calculé doit être inférieur à celui donné
par la table au risque de 5 %.
Donc pour  = 5 % et  = 4-1 = 3, 2
table = 7,815 (table IV)
Calcul du 2
obs
AB Ab aB ab Total
Répartition observée 100 18 24 18 160
Répartition calculée 90 30 30 10 160
2
obs. =
(100-90)2
90 + .......
(18-10)2
10 =
102
90 +
(-12)2
30 +
(-6)2
30 +
82
10 =
13,511
Donc 2
obs. > 2
table , on doit rejeter Ho ; la distribution observée n'est pas conforme à la
distribution théorique. Autrement dit, l'échantillon n'est pas conforme à la loi de Mendel.
3. Tests d'ajustement
On appelle ajustement à une loi théorique T, l'opération qui consiste à associer à un ensemble
d'observations O, une loi théorique de probabilité telle que O puisse être considéré comme un
échantillon issu d'une population obéissant à la loi T. Le choix de T repose alors :
- soit sur des raisons purement théoriques ;
- soit sur des résultats expérimentaux : allure de l'histogramme, valeurs des paramètres etc.
Les tests d'ajustement ont donc pour but de vérifier si une population étudiée, à partir d'un
échantillon aléatoire, peut être considérée comme conforme à une population théorique
donnée. Il s'agit alors de savoir si les écarts constatés entre les effectifs observés et les
effectifs théoriques, c'est-à-dire ceux que l'on devrait obtenir si la population étudiée est
conforme à la population théorique, peuvent être, ou non, expliqués par le hasard de
l'échantillonnage.
1. Exemple d'ajustement à une loi normale
______________________________________________________________________________
38 _____________________________________________________________________________
6. Test du khi-deux
On a pesé 300 œufs et on a obtenu la série suivante (centres de classes), les résultats étant
exprimés en g.
xi (g) 32 36 40 44 48 52 56 60 64 68
ni 6 13 32 41 60 50 52 26 14 6
1. Calculer la moyenne et l'écart type de cet échantillon.
2. Peut-on considérer que les poids de ces œufs sont répartis selon une distribution normale ?
*********
Si la distribution proposée obéit à une loi normale, la moyenne et l'écart type de cette loi
normale sont convenablement estimés par la moyenne et l'écart type de la distribution.
Le tableau ci-dessous résume l'essentiel des calculs à réaliser ; pour des commodités de calcul
les classes sont légèrement modifiées.
Classes xi ni
O
nixi nixi2 u (u) Probabilité Effectif
théorique, T
(O-T)2
T
] - - 34 ] 32 6 192 6144 6,35 0,01929
34 -2,03 0,0212 0,0212
] 34 - 38 ] 36 13 468 16848 0,0431 12,94 0,00028
38 -1,52 0,0643
] 38 - 42 ] 40 32 1280 51200 0,0919 27,57 0,71182
42 -1,01 0,1562
] 42 - 46 ] 44 41 1804 79376 0,1488 44,64 0,29681
46 -0,51 0,3050
] 46 - 50 ] 48 60 2880 138240 0,1950 58,5 0,03846
50 0,00 0,5000
] 50 - 54 ] 52 50 2600 135200 0,1950 58,5 1,23504
54 0,51 0,6950
] 54 - 58 ] 56 52 2912 163072 0,1488 44,64 1,21348
58 1,01 0,8438
] 58 - 62 ] 60 26 1560 93600 0,0919 27,57 0,08941
62 1,52 0,9357
] 62 - 66 ] 64 14 896 57344 0,0431 12,93 0,08855
66 2,03 0,9788
] 66 - +  ] 68 6 408 27744 0,0212 6,36 0,02038
70
Totaux 300 15000 768768 1,00 300 2
obs =
3,714
moyenne, x
x =
 nixi
n = 50 g

population
=[ nixi
2
n ] - x 2 = 62,56 g2
^ 2
estimée ^ 2 =
n
n - 1 .  = 62,77 g2
^
estimée ^ = ^2 = 7,9 g
ddl,   = 10 - 2 - 1 = 7

table,  = 0,05 14,07
______________________________________________________________________________
39 _____________________________________________________________________________
6. Test du khi-deux
décision
statistique

obs (3,714) < 
table (14,07)
On accepte Ho, l'hypothèse de normalité de la distribution proposée.
Sur le tableau ci-dessus, nous observons que :
x = 50 g ; ^ estimé = 7,9 g
Le nombre de paramètres estimés est donc égal à 2.
• L'étape suivante consiste à calculer pour chaque classe, l'effectif théorique qui lui est
associé.
Par exemple, pour la classe ] 58 - 62 ] - en grisé sur le tableau ci-dessus - si la distribution
proposée était normale,
avec u =
X - x

et en remplaçant x et  par leurs valeurs respectives, on a :
Prob (58 < X ≤ 62) = Prob (1,01 < u ≤ 1,52)
= Prob (u ≤ 1,52) - Prob (u < 1,01)
= 0,9357 - 0,8438 = 0,0919
L'effectif théorique de cette classe sera donc :
300 x 0,0919 = 27,57
Il en sera de même pour les autres classes.
• À noter que la dernière probabilité - en grisé sur le tableau ci-dessus -, s'obtient tout
simplement par différence entre la probabilité totale (1) et la dernière probabilité " cumulée ":
1 - 0,9788 = 0,0212
• Les effectifs théoriques étant tous supérieurs à 5, nous n'avons pas à procéder à un
regroupement des classes.
• Le 2 observé s'obtient aisément par addition des nombres de la dernière colonne
Au risque de 5 %, on accepte l'hypothèse que la distribution proposée obéit à une loi normale
de moyenne x 50 g et d'écart type ^ estimé = 7,9 g.
2. Exemple d'ajustement à une loi de Poisson
Exemple
Dans une région particulière, le nombre de vêlages pour une période de 80 jours se répartit
comme suit :
nombre de vêlages, xi 0 1 2 3 4 5 6 et plus
nombre de jours, ni 18 23 20 9 4 3 3
1. Estimer la moyenne et la variance de la population à partir de cet échantillon
2. Peut-on admettre au risque de 0,05 que la population obéit à une loi de Poisson ?
______________________________________________________________________________
40 _____________________________________________________________________________
6. Test du khi-deux
********
• Ho : la distribution observée est conforme à une loi de Poisson.
Le tableau ci-dessous résume l'essentiel des calculs à effectuer.
Totaux
xi 0 1 2 3 4 5 6 et plus 7 = k
ni, O 18 23 20 9 4 3 3 80
nixi 0 23 40 27 16 15 18 139
nixi
2 0 23 80 81 64 75 108 431
Prob (x=k) 0,1827 0,3106 0,2640 0,1496 0,0636 0,0216 0,0080 1,00
n théor., T 14,61 24,84 21,12 11,97 5,09 1,73 0,64 80,0
14,61 24,84 21,12 11,97 7,46 5 = k'
( O-T )2
T
0,791 0,130 0,057 0,752 0,869 2
obs
2,599
n 80
moyenne, x 1,737 ≈ 1,7
variance population ,  2,369
variance estimée, ^ 2 2,399
écart type estimé, ^ 1,549
risque d'erreur,  0,05
ddl, k' - 1 - 1 5 - 1 - 1 = 3

table,  = 3; = 0,05 7,815
décision statistique : 2
obs (2,599) < 2
table (7,815). On accepte Ho.
La distribution observée est donc conforme à la loi de Poisson.
• Le calcul de la moyenne et de la variance estimées donne :
x = 1,737 ≈ 1,7 et ^ 2 = 2,399
Rappelons qu'une loi de Poisson est définie par un seul paramètre qui est la moyenne m = n.p
Pour calculer les effectifs théoriques, on applique la loi de Poisson , c'est-à-dire :
Prob ( X = k ) = e-m .
mk
k ! = e-1,7 .
1,7k
k !
Noter que la dernière probabilité, en grisé sur le tableau ci-dessus s'obtient de la manière
suivante :
Prob (X ≥ 6) = 1 - Prob (X ≤ 5) = 1 - 0,9920 = 0,0080
______________________________________________________________________________
41 _____________________________________________________________________________
6. Test du khi-deux
Noter aussi que nous avons regroupé les trois dernières classes pour que l'effectif soit
supérieur à 5.
______________________________________________________________________________
42 _____________________________________________________________________________
6. Test du khi-deux
III. COMPARAISON DE RÉPARTITIONS OBSERVÉES
ENTRE ELLES : TEST D'HOMOGÉNÉITÉ
1. Position du problème et présentation des données
Il s'agit de comparer entre elles des distributions relatives à plusieurs échantillons afin de
déterminer si les différences observées sont significatives ou seulement dues au hasard de
l'échantillonnage.
Les données observées doivent être groupées dans un tableau à double entrée, appelé tableau
de contingence (voir la première partie) et qui se présente sous l'allure suivante, le caractère
étudié "prend les valeurs" a, b, c, ....d.
Caractère étudié
Répartition
a b c ..... .... d Total
Répartition A n1
Répartition B n2
Répartition C n3
. .
. .
. .
Total n'1 n'2 n'3 n'4 N
Pour un tableau à L lignes et C colonnes, on peut choisir (L-1) (C-1) effectifs.
Cette valeur représente alors le nombre de degrés de liberté pour le test en question.
2. Calcul des valeurs théoriques
Pour les déterminer, on fait l'hypothèse nulle ou l'hypothèse d'homogénéité, c'est-à-dire que
l'on suppose les échantillons homogènes.
Donc, sur N sujets, il y a n'1 pour lesquels le caractère est a.
Combien y a -t-il de sujets pour lesquels le caractère est a, sur n1 ?
On obtient
n'1
N . n1 qui représente la valeur calculée pour la première case (caractère a,
répartition A) sur la base de l'hypothèse d'homogénéité.
De la même façon, on peut déterminer les autres valeurs calculées pour les autres cases.
Le test du 2 permettra alors de comparer les valeurs théoriques aux valeurs observées avec un
ddl = (L-1)(C-1).
• Si 2
obs. < 2
table  Ho peut être acceptée
• Si 2
obs. ≥ 2
table  Ho est à rejeter
______________________________________________________________________________
43 _____________________________________________________________________________
6. Test du khi-deux
3. Exemple
Le tableau suivant indique le résultat de l'examen de 120 sujets, classés d'après la couleur de
leurs yeux et la couleur de leurs cheveux.
On demande s'il existe une liaison entre ces 2 caractères.
Couleur des cheveux
Couleur des yeux
Blonds Bruns Noirs Roux Total
Bleus 24 10 4 6 44
Verts 15 16 9 7 47
Marron 7 12 6 4 29
Total 46 38 19 17 120
********
Nous devons tester l'hypothèse nulle :
Ho : la répartition de la couleur des cheveux est indépendante de celle des yeux.
S'il n'existe pas de liaison entre ces caractères, il doit y avoir le même pourcentage de blonds
parmi les individus aux yeux bleus que parmi les individus aux yeux marron ou le même
pourcentage d'individus aux yeux verts parmi les individus bruns que parmi les roux.
• Ho = Population homogène et on en déduit les proportions en regroupant tous les
échantillons.
Le tableau ci-dessous résume l'ensemble des résultats nécessaires aux calculs.
Couleur des cheveux
Couleur des yeux
Blonds Bruns Noirs Roux Totaux
Bleus
n observés , O 24 10 4 6 44
n théoriques , T 16,9 13,9 7,0 6,2 44
(O-T)2/T 3,02 1,11 1,26 0,01 5,40
Verts
n observés , O 15 16 9 7 47
n théoriques , T 18,0 14,9 7,4 6,7 47
(O-T)2/T 0,51 0,08 0,33 0,00 0,93
Marron
n observés , O 7 12 6 4 29
n théoriques , T 11,1 9,2 4,6 4,1 29
(O-T)2/T 1,52 0,86 0,43 0,00 2,82
Total 120 obs
= 9,16
Sur 120 individus  46 sont blonds , c'est-à-dire 38,33 %
 38 sont bruns , c'est-à-dire 31,66 %
______________________________________________________________________________
44 _____________________________________________________________________________
6. Test du khi-deux
Si 38,33 % des individus sont blonds, parmi les 44 individus aux yeux bleus, on aurait du
trouver :
44 .
38,33
100 = 16, 9 "blonds" (au lieu des 24 observés, valeur en grisé sur le tableau ci-dessus)
44 .
31,66
100 = 13,9 "bruns" (au lieu des 10 observés, valeur en grisé sur le tableau ci-dessus)
etc.
• On calcule ensuite l'expression 2
obs =
(Oi - Ti)2
Ti
et on additionne ces 12 expressions.
2
obs =
(24-16,9)2
16,9 +
(10 - 13,9)2
13,9 + ........ +
(4 - 4,1)2
4,1 = 9,16
Les calculs peuvent être simplifiés s' ils sont présentés comme dans le tableau ci-dessus.
• ddl =  = (C-1)(L-1) = 3 x 2 = 6
• Pour = 6 et  = 5 % , 2
table = 12,59
• 2
obs < 2
table , on accepte donc Ho.
Il n' existe pas de liaison entre la couleur des yeux et celle des cheveux.
Ce test porte le nom de test d'indépendance.
IV. CAS PARTICULIER : COMPARAISON DE DEUX FRÉQUENCES
Exemple. Le taux de glycémie (taux de glucose dans le sang) a été mesuré chez 82 enfants
prématurés.
Il y a :
- hypoglycémie si la glycémie ≤ 30 cg/l
- hyperglycémie si la glycémie > 30 cg/l
Garçons Filles Effectifs observés
Hypoglycémie
Normoglycémie
18
22
11
31
29
53
Total 40 42 82
Problème posé : la fille est-elle moins sujette que le garçon à présenter une hypoglycémie ?
********
Première méthode : comparaison de deux fréquences observées.
Calcul de  =
pA - pB
pq
nA
+
pq
nB
______________________________________________________________________________
45 _____________________________________________________________________________
6. Test du khi-deux
Il s'agit de savoir si la différence entre pA = 18/40 et pB = 11/42 est significative ou non.
Ho : pA = pB
pA = 18/40 = 0,45 pB = 11/42 = 0,26
Calcul de p =
18 + 11
40 + 42 =
29
82 = 0,354  q = 0,646
nA = 40 et nB = 42
obs =
0,45 - 0,26
0,354 . 0,646
40 +
0,354 . 0,646
42
=
0,19
0,1054 = 1,80
Pour  = 0,05, table = 1,96
obs < table, la différence est non significative à 5 %. Le taux de glycémie est le même chez
les garçons et les filles.
Deuxième méthode. Calcul du 2
Ho : les deux populations sont homogènes.

Garçons Filles Effectifs observés
Hypoglycémie
Normoglycémie
18 (14,15)
22 (25,85)
11 (14,85)
31 (27,15)
29
53
Total 40 42 82

Les effectifs théoriques sont entre parenthèses sur le tableau ci-dessus.
Exemple. 14,15 = 29 x
40
82 (en grisé sur le tableau)

2
obs. =
(18-14,15)2
14,5 + ..........+
(31-27,15)2
27,15 = 3,24
Pour  = (2-1)(2-1) = 1 et  = 5 %
le 2
table = 3,84

2
obs. < 2
table , la différence est non significative à 5 %
Il y a donc indépendance entre le sexe et l'hypoglycémie. On ne peut pas prétendre, au vu de
cet échantillon, que la fille soit moins sujette que le garçon à l'hypoglycémie.
______________________________________________________________________________
46 _____________________________________________________________________________
6. Test du khi-deux
Les 2 méthodes conduisent donc au même résultat.
______________________________________________________________________________
47 _____________________________________________________________________________
Tables statistiques
TABLE I
TABLE DE LA DISTRIBUTION NORMALE RÉDUITE
FONCTION DE RÉPARTITION
 (u) =


-
u
1
2
e -1/2 u2
du
Exemple :  (0,52) = 0,6985 ;  (-1,93) = 1 -  (1,93) = 1 - 0,97320 = 0,02680
u 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09
0,0 0,5000 0,5040 0,5080 0,5120 0,5160 0,5199 0,5239 0,5279 0,5319 0,5359
0,1 0,5398 0,5438 0,5478 0,5517 0,5557 0,5596 0,5636 0,5675 0,5714 0,5753
0,2 0,5793 0,5832 0,5871 0,5910 0,5948 0,5987 0,6026 0,6064 0,6103 0,6141
0,3 0,6179 0,6217 0,6255 0,6293 0,6331 0,6368 0,6406 0,6443 0,6480 0,6517
0,4 0,6554 0,6591 0,6628 0,6664 0,6700 0,6736 0,6772 0,6808 0,6844 0,6879
0,5 0,6915 0,6950 0,6985 0,7019 0,7054 0,7088 0,7123 0,7157 0,7190 0,7224
0,6 0,7257 0,7291 0,7324 0,7357 0,7389 0,7422 0,7454 0,7486 0,7517 0,7549
0,7 0,7580 0,7611 0,7642 0,7673 0,7704 0,7734 0,7764 0,7794 0,7823 0,7852
0,8 0,7881 0,7910 0,7939 0,7967 0,7995 0,8023 0,8051 0,8078 0,8106 0,8133
0,9 0,8159 0,8186 0,8212 0,8238 0,8264 0,8289 0,8315 0,8340 0,8365 0,8389
1,0 0,8413 0,8438 0,8461 0,8485 0,8508 0,8531 0,8554 0,8577 0,8599 0,8621
1,1 0,8643 0,8665 0,8686 0,8708 0,8729 0,8749 0,8770 0,8790 0,8810 0,8830
1,2 0,8849 0,8869 0,8888 0,8907 0,8925 0,8944 0,8962 0,8980 0,8997 0,9015
1,3 0,90320 0,90490 0,90658 0,90824 0,90988 0,91149 0,91308 0,91466 0,91621 0,91774
1,4 0,91924 0,92073 0,92220 0,92364 0,92507 0,92647 0,92785 0,92922 0,93056 0,93189
1,5 0,93319 0,93448 0,93574 0,93699 0,93822 0,93943 0,94062 0,94179 0,94295 0,94408
1,6 0,94520 0,94630 0,94738 0,94845 0,94950 0,95053 0,95154 0,95254 0,95352 0,95449
1,7 0,95543 0,95637 0,95728 0,95818 0,95907 0,95994 0,96080 0,96164 0,96246 0,96327
1,8 0,96407 0,96485 0,96562 0,96638 0,96712 0,96784 0,96856 0,96926 0,96995 0,97062
1,9 0,97128 0,97193 0,97257 0,97320 0,97381 0,97441 0,97500 0,97558 0,97615 0,97670
2,0 0,97725 0,97778 0,97831 0,97882 0,97932 0,97982 0,98030 0,98077 0,98124 0,98169
2,1 0,98214 0,98257 0,98300 0,98341 0,98382 0,98422 0,98461 0,98500 0,98537 0,98574
2,2 0,98610 0,98645 0,98679 0,98713 0,98745 0,98778 0,98809 0,98840 0,98870 0,98899
2,3 0,98928 0,98956 0,98983 0,99010 0,99036 0,99061 0,99086 0,99111 0,99134 0,99158
2,4 0,99180 0,99202 0,99224 0,99245 0,99266 0,99286 0,99305 0,99324 0,99343 0,99361
2,5 0,99379 0,99396 0,99413 0,99430 0,99446 0,99461 0,99477 0,99492 0,99506 0,99520
2,6 0,99534 0,99547 0,99560 0,99573 0,99585 0,99598 0,99609 0,99621 0,99632 0,99643
2,7 0,99653 0,99664 0,99674 0,99683 0,99693 0,99702 0,99711 0,99720 0,99728 0,99736
2,8 0,99744 0,99752 0,99760 0,99767 0,99774 0,99781 0,99788 0,99795 0,99801 0,99807
2,9 0,99813 0,99819 0,99825 0,99831 0,99836 0,99841 0,99846 0,99851 0,99856 0,99861
3,0 0,99865 0,99869 0,99874 0,99878 0,99882 0,99886 0,99889 0,99893 0,99896 0,99900
3,1 0,99903 0,99906 0,99910 0,99913 0,99916 0,99918 0,99921 0,99924 0,99926 0,99929
3,2 0,99931 0,99934 0,99936 0,99938 0,99940 0,99942 0,99944 0,99946 0,99948 0,99950
3,3 0,99952 0,99953 0,99955 0,99957 0,99958 0,99960 0,99961 0,99962 0,99964 0,99965
3,4 0,99966 0,99968 0,99969 0,99970 0,99971 0,99972 0,99973 0,99974 0,99975 0,99976
3,5 0,99977 0,99978 0,99978 0,99979 0,99980 0,99981 0,99981 0,99982 0,99983 0,99983
3,6 0,99984 0,99985 0,99985 0,99986 0,99986 0,99987 0,99987 0,99988 0,99988 0,99989
3,7 0,99989 0,99990 0,99990 0,99990 0,99991 0,99991 0,99992 0,99992 0,99992 0,99992
______________________________________________________________________________
48 _____________________________________________________________________________
Tables statistiques
3,8 0,99993 0,99993 0,99993 0,99994 0,99994 0,99994 0,99994 0,99995 0,99995 0,99995
3,9 0,99995 0,99995 0,99996 0,99996 0,99996 0,99996 0,99996 0,99996 0,99997 0,99997
______________________________________________________________________________
49 _____________________________________________________________________________
Tables statistiques
TABLE II
TABLE DE LA LOI NORMALE CENTRÉE, RÉDUITE N (0,1) OU
TABLE DE L'ÉCART RÉDUIT
0 + - 
 / 2
+ •
 / 2
1 - 
N (0,1)
- •
La probabilité  s'obtient par addition des nombres inscrits en marge.
Exemple : Pour  = 1,96, la probabilité est  = 0,00 + 0,05 = 0,05
 0 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09
0,00 ∞ 2,577 2,327 2,171 2,054 1,960 1,881 1,812 1,751 1,696
0,10 1,645 1,598 1,555 1,514 1,476 1,440 1,405 1,372 1,341 1,311
0,20 1,282 1,254 1,227 1,201 1,175 1,150 1,127 1,103 1,080 1,058
0,30 1,037 1,015 0,995 0,974 0,954 0,935 0,915 0,897 0,878 0,860
0,40 0,842 0,824 0,806 0,789 0,772 0,755 0,739 0,723 0,706 0,690
0,50 0,675 0,659 0,643 0,628 0,613 0,598 0,583 0,568 0,553 0,539
0,60 0,524 0,510 0,496 0,482 0,468 0,454 0,440 0,426 0,412 0,399
0,70 0,385 0,372 0,358 0,345 0,332 0,319 0,305 0,292 0,279 0,266
0,80 0,253 0,240 0,228 0,215 0,202 0,189 0,176 0,164 0,151 0,138
0,90 0,126 0,113 0,100 0,088 0,075 0,063 0,050 0,038 0,025 0,013
TABLES POUR LES PETITES VALEURS DE 
 0,001 0,000 1 0,000 01 0,000 001 0,000 000 1 0,000 000 01 0,000 000 001
 3, 290 53 3,890 59 4,417 17 4,891 64 5,326 72 5,730 73 6,109 41
______________________________________________________________________________
50 _____________________________________________________________________________
Tables statistiques
TABLE III
TABLE DE STUDENT
La table donne la probabilité  pour que t égale ou dépasse, en valeur absolue,
une valeur donnée, en fonction du nombre de degrés de liberté (ddl).
Exemple : avec ddl = 10, pour t = 2,228, la probabilité est  = 0,05
 0,90 0,50 0,30 0,20 0,10 0,05 0,02 0,01 0,001
ddl
1 0,158 1,000 1,963 3,078 6,314 12,706 31,821 63,656 636,578
2 0,142 0,816 1,386 1,886 2,920 4,303 6,965 9,925 31,600
3 0,137 0,765 1,250 1,638 2,353 3,182 4,541 5,841 12,924
4 0,134 0,741 1,190 1,533 2,132 2,776 3,747 4,604 8,610
5 0,132 0,727 1,156 1,476 2,015 2,571 3,365 4,032 6,869
6 0,131 0,718 1,134 1,440 1,943 2,447 3,143 3,707 5,959
7 0,130 0,711 1,119 1,415 1,895 2,365 2,998 3,499 5,408
8 0,130 0,706 1,108 1,397 1,860 2,306 2,896 3,355 5,041
9 0,129 0,703 1,100 1,383 1,833 2,262 2,821 3,250 4,781
10 0,129 0,700 1,093 1,372 1,812 2,228 2,764 3,169 4,587
11 0,129 0,697 1,088 1,363 1,796 2,201 2,718 3,106 4,437
12 0,128 0,695 1,083 1,356 1,782 2,179 2,681 3,055 4,318
13 0,128 0,694 1,079 1,350 1,771 2,160 2,650 3,012 4,221
14 0,128 0,692 1,076 1,345 1,761 2,145 2,624 2,977 4,140
15 0,128 0,691 1,074 1,341 1,753 2,131 2,602 2,947 4,073
16 0,128 0,690 1,071 1,337 1,746 2,120 2,583 2,921 4,015
17 0,128 0,689 1,069 1,333 1,740 2,110 2,567 2,898 3,965
18 0,127 0,688 1,067 1,330 1,734 2,101 2,552 2,878 3,922
19 0,127 0,688 1,066 1,328 1,729 2,093 2,539 2,861 3,883
20 0,127 0,687 1,064 1,325 1,725 2,086 2,528 2,845 3,850
21 0,127 0,686 1,063 1,323 1,721 2,080 2,518 2,831 3,819
22 0,127 0,686 1,061 1,321 1,717 2,074 2,508 2,819 3,792
23 0,127 0,685 1,060 1,319 1,714 2,069 2,500 2,807 3,768
24 0,127 0,685 1,059 1,318 1,711 2,064 2,492 2,797 3,745
25 0,127 0,684 1,058 1,316 1,708 2,060 2,485 2,787 3,725
26 0,127 0,684 1,058 1,315 1,706 2,056 2,479 2,779 3,707
27 0,127 0,684 1,057 1,314 1,703 2,052 2,473 2,771 3,689
28 0,127 0,683 1,056 1,313 1,701 2,048 2,467 2,763 3,674
29 0,127 0,683 1,055 1,311 1,699 2,045 2,462 2,756 3,660
30 0,127 0,683 1,055 1,310 1,697 2,042 2,457 2,750 3,646
40 0,126 0,681 1,050 1,303 1,684 2,021 2,423 2,704 3,551
80 0,126 0,678 1,043 1,292 1,664 1,990 2,374 2,639 3,416
120 0,126 0,677 1,041 1,289 1,658 1,980 2,358 2,617 3,373
∞ 0,126 0,675 1,037 1,282 1,645 1,960 2,327 2,577 3,293
______________________________________________________________________________
51 _____________________________________________________________________________
Tables statistiques
TABLE IV
TABLE DU 2
La table donne la probabilité  pour que 2 égale ou dépasse
une valeur donnée, en fonction du nombre de degrés de liberté .
Exemple : avec  = 3, pour 2 = 0,11 la probabilité  = 0,99.
 0,99 0,975 0,95 0,90 0,10 0,05 0,025 0,01 0,001

1 0,0002 0,001 0,004 0,016 2,71 3,84 5,02 6,63 10,83
2 0,02 0,05 0,10 0,21 4,61 5,99 7,38 9,21 13,82
3 0,11 0,22 0,35 0,58 6,25 7,81 9,35 11,34 16,27
4 0,30 0,48 0,71 1,06 7,78 9,49 11,14 13,28 18,47
5 0,55 0,83 1,15 1,61 9,24 11,07 12,83 15,09 20,51
6 0,87 1,24 1,64 2,20 10,64 12,59 14,45 16,81 22,46
7 1,24 1,69 2,17 2,83 12,02 14,07 16,01 18,48 24,32
8 1,65 2,18 2,73 3,49 13,36 15,51 17,53 20,09 26,12
9 2,09 2,70 3,33 4,17 14,68 16,92 19,02 21,67 27,88
10 2,56 3,25 3,94 4,87 15,99 18,31 20,48 23,21 29,59
11 3,05 3,82 4,57 5,58 17,28 19,68 21,92 24,73 31,26
12 3,57 4,40 5,23 6,30 18,55 21,03 23,34 26,22 32,91
13 4,11 5,01 5,89 7,04 19,81 22,36 24,74 27,69 34,53
14 4,66 5,63 6,57 7,79 21,06 23,68 26,12 29,14 36,12
15 5,23 6,26 7,26 8,55 22,31 25,00 27,49 30,58 37,70
16 5,81 6,91 7,96 9,31 23,54 26,30 28,85 32,00 39,25
17 6,41 7,56 8,67 10,09 24,77 27,59 30,19 33,41 40,79
18 7,01 8,23 9,39 10,86 25,99 28,87 31,53 34,81 42,31
19 7,63 8,91 10,12 11,65 27,20 30,14 32,85 36,19 43,82
20 8,26 9,59 10,85 12,44 28,41 31,41 34,17 37,57 45,31
21 8,90 10,28 11,59 13,24 29,62 32,67 35,48 38,93 46,80
22 9,54 10,98 12,34 14,04 30,81 33,92 36,78 40,29 48,27
23 10,20 11,69 13,09 14,85 32,01 35,17 38,08 41,64 49,73
24 10,86 12,40 13,85 15,66 33,20 36,42 39,36 42,98 51,18
25 11,52 13,12 14,61 16,47 34,38 37,65 40,65 44,31 52,62
26 12,20 13,84 15,38 17,29 35,56 38,89 41,92 45,64 54,05
27 12,88 14,57 16,15 18,11 36,74 40,11 43,19 46,96 55,48
28 13,56 15,31 16,93 18,94 37,92 41,34 44,46 48,28 56,89
29 14,26 16,05 17,71 19,77 39,09 42,56 45,72 49,59 58,30
30 14,95 16,79 18,49 20,60 40,26 43,77 46,98 50,89 59,70
______________________________________________________________________________
52 _____________________________________________________________________________
Tables statistiques
BIBLIOGRAPHIE
Les Statistiques : une approche nouvelle.
Donald H. Sanders ; A. Franklin Murph et Robert J. Eng. 2e édition.
McGraw-Hill, Éditeurs.
Statistique et Probabilités.
M. Laviéville.
Dunod Université.
Probabilité et statistique pour biologistes.
F. Couty ; J. Debord et D. Fredon.
Flash U. Armand Colin.
Statistique : cours et exercices résolus .
E. Azoulay et D. Cohen.
Ediscience International.
Théorie et méthodes statistiques. (Volumes 1 et 2)
P. Dagnélie.
Les Presses Agronomiques de Gembloux.
Méthodes statistiques à l'usage des médecins et des biologistes.
D. SChwartz
Flammarion Medecine Sciences

Mais conteúdo relacionado

Mais procurados

Thème 1 les concepts fondamentaux du management stratégique
Thème 1 les concepts fondamentaux du management stratégiqueThème 1 les concepts fondamentaux du management stratégique
Thème 1 les concepts fondamentaux du management stratégiqueAnjelo Alberti
 
Cours de gestion de portefeuille et des risques Pr Falloul
Cours de gestion de portefeuille et des risques Pr Falloul Cours de gestion de portefeuille et des risques Pr Falloul
Cours de gestion de portefeuille et des risques Pr Falloul Professeur Falloul
 
Analyse en composantes principales, ACP, sous SPSS (Principal Component Analy...
Analyse en composantes principales, ACP, sous SPSS (Principal Component Analy...Analyse en composantes principales, ACP, sous SPSS (Principal Component Analy...
Analyse en composantes principales, ACP, sous SPSS (Principal Component Analy...Adad Med Chérif
 
Mémoire de fin d'études Master (2) Audit et Contrôle de Gestion (université m...
Mémoire de fin d'études Master (2) Audit et Contrôle de Gestion (université m...Mémoire de fin d'études Master (2) Audit et Contrôle de Gestion (université m...
Mémoire de fin d'études Master (2) Audit et Contrôle de Gestion (université m...YanisAHMEDALI
 
Mémoire gestion des risques fournisseurs en achat
Mémoire gestion des risques fournisseurs en achatMémoire gestion des risques fournisseurs en achat
Mémoire gestion des risques fournisseurs en achatAudrey Sigoure
 
Cours de l audit comptable et financier copy
Cours de l audit comptable et financier   copyCours de l audit comptable et financier   copy
Cours de l audit comptable et financier copySaadAbouElKalam
 
exercices corrigés échantillonnage et estimation
exercices corrigés échantillonnage et estimationexercices corrigés échantillonnage et estimation
exercices corrigés échantillonnage et estimationcours fsjes
 
Méthodologie de recherche : Comment entamer son mémoire de fin d'étude
Méthodologie de recherche : Comment entamer son mémoire de fin d'étudeMéthodologie de recherche : Comment entamer son mémoire de fin d'étude
Méthodologie de recherche : Comment entamer son mémoire de fin d'étudeConnaissance Créative
 
modèle de scoring pour la clientèle
modèle de scoring pour la clientèle modèle de scoring pour la clientèle
modèle de scoring pour la clientèle Oulaya CHOUAY
 
Présentation soutenance du PFE
Présentation soutenance du PFEPrésentation soutenance du PFE
Présentation soutenance du PFEmarouan barssa
 
2580421 controle-de-gestion-banque
2580421 controle-de-gestion-banque2580421 controle-de-gestion-banque
2580421 controle-de-gestion-banqueSamir Samdi
 
L'impact de la digitalisation sur les pratiques du contrôle interne dans le s...
L'impact de la digitalisation sur les pratiques du contrôle interne dans le s...L'impact de la digitalisation sur les pratiques du contrôle interne dans le s...
L'impact de la digitalisation sur les pratiques du contrôle interne dans le s...OmarMOUMINI
 
projet sur le neuromarketing
projet sur le neuromarketingprojet sur le neuromarketing
projet sur le neuromarketingshasha belk
 
Qcm analyse financière
Qcm analyse financièreQcm analyse financière
Qcm analyse financièrehappyshasha1
 
Projet d'étude - les choix de financement - Cas de SOTHEMA
Projet d'étude - les choix de financement - Cas de SOTHEMAProjet d'étude - les choix de financement - Cas de SOTHEMA
Projet d'étude - les choix de financement - Cas de SOTHEMABEL MRHAR Mohamed Amine
 

Mais procurados (20)

Thème 1 les concepts fondamentaux du management stratégique
Thème 1 les concepts fondamentaux du management stratégiqueThème 1 les concepts fondamentaux du management stratégique
Thème 1 les concepts fondamentaux du management stratégique
 
Cours de gestion de portefeuille et des risques Pr Falloul
Cours de gestion de portefeuille et des risques Pr Falloul Cours de gestion de portefeuille et des risques Pr Falloul
Cours de gestion de portefeuille et des risques Pr Falloul
 
COURS SUR LES SERIES TEMPORELLES
COURS SUR LES SERIES TEMPORELLESCOURS SUR LES SERIES TEMPORELLES
COURS SUR LES SERIES TEMPORELLES
 
Analyse en composantes principales, ACP, sous SPSS (Principal Component Analy...
Analyse en composantes principales, ACP, sous SPSS (Principal Component Analy...Analyse en composantes principales, ACP, sous SPSS (Principal Component Analy...
Analyse en composantes principales, ACP, sous SPSS (Principal Component Analy...
 
Mémoire de fin d'études Master (2) Audit et Contrôle de Gestion (université m...
Mémoire de fin d'études Master (2) Audit et Contrôle de Gestion (université m...Mémoire de fin d'études Master (2) Audit et Contrôle de Gestion (université m...
Mémoire de fin d'études Master (2) Audit et Contrôle de Gestion (université m...
 
Mémoire gestion des risques fournisseurs en achat
Mémoire gestion des risques fournisseurs en achatMémoire gestion des risques fournisseurs en achat
Mémoire gestion des risques fournisseurs en achat
 
Tableau de bord
Tableau de bordTableau de bord
Tableau de bord
 
Cours de l audit comptable et financier copy
Cours de l audit comptable et financier   copyCours de l audit comptable et financier   copy
Cours de l audit comptable et financier copy
 
Analyse de données avec spss,
Analyse de données avec spss,Analyse de données avec spss,
Analyse de données avec spss,
 
exercices corrigés échantillonnage et estimation
exercices corrigés échantillonnage et estimationexercices corrigés échantillonnage et estimation
exercices corrigés échantillonnage et estimation
 
Méthodologie de recherche : Comment entamer son mémoire de fin d'étude
Méthodologie de recherche : Comment entamer son mémoire de fin d'étudeMéthodologie de recherche : Comment entamer son mémoire de fin d'étude
Méthodologie de recherche : Comment entamer son mémoire de fin d'étude
 
modèle de scoring pour la clientèle
modèle de scoring pour la clientèle modèle de scoring pour la clientèle
modèle de scoring pour la clientèle
 
Présentation soutenance du PFE
Présentation soutenance du PFEPrésentation soutenance du PFE
Présentation soutenance du PFE
 
Questionnaire sous spss
Questionnaire sous spssQuestionnaire sous spss
Questionnaire sous spss
 
2580421 controle-de-gestion-banque
2580421 controle-de-gestion-banque2580421 controle-de-gestion-banque
2580421 controle-de-gestion-banque
 
L'impact de la digitalisation sur les pratiques du contrôle interne dans le s...
L'impact de la digitalisation sur les pratiques du contrôle interne dans le s...L'impact de la digitalisation sur les pratiques du contrôle interne dans le s...
L'impact de la digitalisation sur les pratiques du contrôle interne dans le s...
 
projet sur le neuromarketing
projet sur le neuromarketingprojet sur le neuromarketing
projet sur le neuromarketing
 
Qcm analyse financière
Qcm analyse financièreQcm analyse financière
Qcm analyse financière
 
Projet d'étude - les choix de financement - Cas de SOTHEMA
Projet d'étude - les choix de financement - Cas de SOTHEMAProjet d'étude - les choix de financement - Cas de SOTHEMA
Projet d'étude - les choix de financement - Cas de SOTHEMA
 
Informatique de gestion
Informatique de gestionInformatique de gestion
Informatique de gestion
 

Destaque

Tables statistiques
Tables statistiquesTables statistiques
Tables statistiquesYoucef63000
 
Têtes de liste départementales Dominique Reynié
Têtes de liste départementales Dominique ReyniéTêtes de liste départementales Dominique Reynié
Têtes de liste départementales Dominique ReyniéFabrice Valéry
 
Civilisation français, la vie quotidien
Civilisation français, la vie quotidienCivilisation français, la vie quotidien
Civilisation français, la vie quotidienOpie Noviyanti
 
Nsg 5592 module 1
Nsg 5592 module 1Nsg 5592 module 1
Nsg 5592 module 1aduboi4
 
Analyse de variance et correlation
Analyse de variance et correlationAnalyse de variance et correlation
Analyse de variance et correlationYoucef63000
 
Statistique descriptive et lois de probabilités
Statistique descriptive et lois de probabilitésStatistique descriptive et lois de probabilités
Statistique descriptive et lois de probabilitésYoucef63000
 
Detected IUU Fishing with SATAIS
Detected IUU Fishing with SATAIS Detected IUU Fishing with SATAIS
Detected IUU Fishing with SATAIS Indra Hermawan
 
GIZC France et Indonésie
GIZC France et Indonésie GIZC France et Indonésie
GIZC France et Indonésie Indra Hermawan
 
@IndraHermawan #Présentation de la ville, ses monuments a toulouse
@IndraHermawan #Présentation de la ville, ses monuments a toulouse@IndraHermawan #Présentation de la ville, ses monuments a toulouse
@IndraHermawan #Présentation de la ville, ses monuments a toulouseIndra Hermawan
 
Projet photos paysages
Projet photos paysagesProjet photos paysages
Projet photos paysagesIndra Hermawan
 
Indra hermawan science societe EGEL-BREST
Indra hermawan  science societe EGEL-BRESTIndra hermawan  science societe EGEL-BREST
Indra hermawan science societe EGEL-BRESTIndra Hermawan
 
Cahier journal
Cahier journalCahier journal
Cahier journalNico73
 
Pierre Kladny : Est-ce qu'un business plan sert à quelque chose?
Pierre Kladny : Est-ce qu'un business plan sert à quelque chose?Pierre Kladny : Est-ce qu'un business plan sert à quelque chose?
Pierre Kladny : Est-ce qu'un business plan sert à quelque chose?lereseau
 
La banque goldman sachs
La banque goldman sachsLa banque goldman sachs
La banque goldman sachsbargassounets
 

Destaque (20)

Tables statistiques
Tables statistiquesTables statistiques
Tables statistiques
 
Têtes de liste départementales Dominique Reynié
Têtes de liste départementales Dominique ReyniéTêtes de liste départementales Dominique Reynié
Têtes de liste départementales Dominique Reynié
 
Civilisation français, la vie quotidien
Civilisation français, la vie quotidienCivilisation français, la vie quotidien
Civilisation français, la vie quotidien
 
Biostatistique
BiostatistiqueBiostatistique
Biostatistique
 
Nsg 5592 module 1
Nsg 5592 module 1Nsg 5592 module 1
Nsg 5592 module 1
 
Analyse de variance et correlation
Analyse de variance et correlationAnalyse de variance et correlation
Analyse de variance et correlation
 
Statistique descriptive et lois de probabilités
Statistique descriptive et lois de probabilitésStatistique descriptive et lois de probabilités
Statistique descriptive et lois de probabilités
 
Stat1
Stat1Stat1
Stat1
 
Stat3 Intervalle De Confiance
Stat3  Intervalle De ConfianceStat3  Intervalle De Confiance
Stat3 Intervalle De Confiance
 
Coral reefs final
Coral reefs finalCoral reefs final
Coral reefs final
 
Detected IUU Fishing with SATAIS
Detected IUU Fishing with SATAIS Detected IUU Fishing with SATAIS
Detected IUU Fishing with SATAIS
 
GIZC France et Indonésie
GIZC France et Indonésie GIZC France et Indonésie
GIZC France et Indonésie
 
@IndraHermawan #Présentation de la ville, ses monuments a toulouse
@IndraHermawan #Présentation de la ville, ses monuments a toulouse@IndraHermawan #Présentation de la ville, ses monuments a toulouse
@IndraHermawan #Présentation de la ville, ses monuments a toulouse
 
Indra Hermawan
Indra HermawanIndra Hermawan
Indra Hermawan
 
Projet photos paysages
Projet photos paysagesProjet photos paysages
Projet photos paysages
 
Indra hermawan science societe EGEL-BREST
Indra hermawan  science societe EGEL-BRESTIndra hermawan  science societe EGEL-BREST
Indra hermawan science societe EGEL-BREST
 
Cahier journal
Cahier journalCahier journal
Cahier journal
 
Pierre Kladny : Est-ce qu'un business plan sert à quelque chose?
Pierre Kladny : Est-ce qu'un business plan sert à quelque chose?Pierre Kladny : Est-ce qu'un business plan sert à quelque chose?
Pierre Kladny : Est-ce qu'un business plan sert à quelque chose?
 
La banque goldman sachs
La banque goldman sachsLa banque goldman sachs
La banque goldman sachs
 
Invitation
InvitationInvitation
Invitation
 

Semelhante a Tests relatifs aux fréquences et au khi deux

Approche de l'enfant au cabinet dentaire rôles du non verbal et du verbal
Approche de l'enfant au cabinet dentaire rôles du non verbal et du verbalApproche de l'enfant au cabinet dentaire rôles du non verbal et du verbal
Approche de l'enfant au cabinet dentaire rôles du non verbal et du verbalmedecin dentiste
 
Rédiger pour être publié ! Conseils pratiques aux scientifiques. Extrait
Rédiger pour être publié ! Conseils pratiques aux scientifiques. ExtraitRédiger pour être publié ! Conseils pratiques aux scientifiques. Extrait
Rédiger pour être publié ! Conseils pratiques aux scientifiques. ExtraitEric Lichtfouse
 
urgences reanimation
 urgences reanimation urgences reanimation
urgences reanimationPatou Conrath
 
Physique_1ere_annee_calcul de probabilité.pdf
Physique_1ere_annee_calcul de probabilité.pdfPhysique_1ere_annee_calcul de probabilité.pdf
Physique_1ere_annee_calcul de probabilité.pdfKaryBouba
 
Cours statistique descriptive
Cours statistique descriptiveCours statistique descriptive
Cours statistique descriptiveMouna Ettahiri
 
Chapitre5
Chapitre5Chapitre5
Chapitre5printif
 
Cours statis descriptives
Cours statis descriptivesCours statis descriptives
Cours statis descriptivesAbdel Hakim
 
Theorie des poutres_resistance_des_mater (1)
Theorie des poutres_resistance_des_mater (1)Theorie des poutres_resistance_des_mater (1)
Theorie des poutres_resistance_des_mater (1)YoussefTrimech
 
Travail de fin d'études : L'accompagnement de la famille d'un enfant en fin d...
Travail de fin d'études : L'accompagnement de la famille d'un enfant en fin d...Travail de fin d'études : L'accompagnement de la famille d'un enfant en fin d...
Travail de fin d'études : L'accompagnement de la famille d'un enfant en fin d...MathieuDeBoeck
 
Mémoire sur la dynamique des corrélations entre le marché des actions et des ...
Mémoire sur la dynamique des corrélations entre le marché des actions et des ...Mémoire sur la dynamique des corrélations entre le marché des actions et des ...
Mémoire sur la dynamique des corrélations entre le marché des actions et des ...SergeVO
 
Mémoire sur la dynamique des corrélations entre le marché des actions et des ...
Mémoire sur la dynamique des corrélations entre le marché des actions et des ...Mémoire sur la dynamique des corrélations entre le marché des actions et des ...
Mémoire sur la dynamique des corrélations entre le marché des actions et des ...Serge Van Oudenhove
 
Mémoire RH : L'intelligence émotionnelle au travail - LABRIDY Quentin
Mémoire RH : L'intelligence émotionnelle au travail - LABRIDY QuentinMémoire RH : L'intelligence émotionnelle au travail - LABRIDY Quentin
Mémoire RH : L'intelligence émotionnelle au travail - LABRIDY QuentinQuentin Labridy
 
9783642290435 t1
9783642290435 t19783642290435 t1
9783642290435 t1nenena1976
 
ESSAI EN LIGNE : Les perceptions entretenues par des conseillères et des cons...
ESSAI EN LIGNE : Les perceptions entretenues par des conseillères et des cons...ESSAI EN LIGNE : Les perceptions entretenues par des conseillères et des cons...
ESSAI EN LIGNE : Les perceptions entretenues par des conseillères et des cons...Louis Cournoyer
 
Francais lecture
Francais lectureFrancais lecture
Francais lectureKlouj Ramzi
 
Rapport pfe 2017 Système de gestion des rendez-vous médicaux
Rapport pfe 2017 Système de gestion des rendez-vous médicaux Rapport pfe 2017 Système de gestion des rendez-vous médicaux
Rapport pfe 2017 Système de gestion des rendez-vous médicaux fehmi arbi
 

Semelhante a Tests relatifs aux fréquences et au khi deux (20)

Approche de l'enfant au cabinet dentaire rôles du non verbal et du verbal
Approche de l'enfant au cabinet dentaire rôles du non verbal et du verbalApproche de l'enfant au cabinet dentaire rôles du non verbal et du verbal
Approche de l'enfant au cabinet dentaire rôles du non verbal et du verbal
 
Etude des effets de l'instauration de la loi concernant le droit à l'intégrat...
Etude des effets de l'instauration de la loi concernant le droit à l'intégrat...Etude des effets de l'instauration de la loi concernant le droit à l'intégrat...
Etude des effets de l'instauration de la loi concernant le droit à l'intégrat...
 
Rédiger pour être publié ! Conseils pratiques aux scientifiques. Extrait
Rédiger pour être publié ! Conseils pratiques aux scientifiques. ExtraitRédiger pour être publié ! Conseils pratiques aux scientifiques. Extrait
Rédiger pour être publié ! Conseils pratiques aux scientifiques. Extrait
 
urgences reanimation
 urgences reanimation urgences reanimation
urgences reanimation
 
Macroeconomie lareq
Macroeconomie lareqMacroeconomie lareq
Macroeconomie lareq
 
Physique_1ere_annee_calcul de probabilité.pdf
Physique_1ere_annee_calcul de probabilité.pdfPhysique_1ere_annee_calcul de probabilité.pdf
Physique_1ere_annee_calcul de probabilité.pdf
 
Cours statistique descriptive
Cours statistique descriptiveCours statistique descriptive
Cours statistique descriptive
 
statistique
statistiquestatistique
statistique
 
Chapitre5
Chapitre5Chapitre5
Chapitre5
 
Cours statis descriptives
Cours statis descriptivesCours statis descriptives
Cours statis descriptives
 
Theorie des poutres_resistance_des_mater (1)
Theorie des poutres_resistance_des_mater (1)Theorie des poutres_resistance_des_mater (1)
Theorie des poutres_resistance_des_mater (1)
 
Travail de fin d'études : L'accompagnement de la famille d'un enfant en fin d...
Travail de fin d'études : L'accompagnement de la famille d'un enfant en fin d...Travail de fin d'études : L'accompagnement de la famille d'un enfant en fin d...
Travail de fin d'études : L'accompagnement de la famille d'un enfant en fin d...
 
Mémoire sur la dynamique des corrélations entre le marché des actions et des ...
Mémoire sur la dynamique des corrélations entre le marché des actions et des ...Mémoire sur la dynamique des corrélations entre le marché des actions et des ...
Mémoire sur la dynamique des corrélations entre le marché des actions et des ...
 
Mémoire sur la dynamique des corrélations entre le marché des actions et des ...
Mémoire sur la dynamique des corrélations entre le marché des actions et des ...Mémoire sur la dynamique des corrélations entre le marché des actions et des ...
Mémoire sur la dynamique des corrélations entre le marché des actions et des ...
 
Mémoire RH : L'intelligence émotionnelle au travail - LABRIDY Quentin
Mémoire RH : L'intelligence émotionnelle au travail - LABRIDY QuentinMémoire RH : L'intelligence émotionnelle au travail - LABRIDY Quentin
Mémoire RH : L'intelligence émotionnelle au travail - LABRIDY Quentin
 
9783642290435 t1
9783642290435 t19783642290435 t1
9783642290435 t1
 
ESSAI EN LIGNE : Les perceptions entretenues par des conseillères et des cons...
ESSAI EN LIGNE : Les perceptions entretenues par des conseillères et des cons...ESSAI EN LIGNE : Les perceptions entretenues par des conseillères et des cons...
ESSAI EN LIGNE : Les perceptions entretenues par des conseillères et des cons...
 
Francais lecture
Francais lectureFrancais lecture
Francais lecture
 
Rapport pfe 2017 Système de gestion des rendez-vous médicaux
Rapport pfe 2017 Système de gestion des rendez-vous médicaux Rapport pfe 2017 Système de gestion des rendez-vous médicaux
Rapport pfe 2017 Système de gestion des rendez-vous médicaux
 
Facteur re
Facteur reFacteur re
Facteur re
 

Tests relatifs aux fréquences et au khi deux

  • 1. Notions essentielles de statistique Livret 2/4 La méthode statistique Tests relatifs aux fréquences et au khi-deux (  ) Youcef Elmeddah
  • 2. Table des matières AVERTISSEMENT ..................................................................................................... 1 PRÉREQUIS INDISPENSABLES À L'ÉTUDE DE CE LIVRET… ...............................................................1 COMMENT TRAITER UN EXERCICE DE STATISTIQUE ? ......................................................................1 CONSEILS GÉNÉRAUX DE TRAVAIL ...........................................................................................................2 Séquence de travail n° 1 3 INTERPRÉTATION STATISTIQUE............................................................................ 3 I. ESTIMATION DES PARAMÈTRES D'UNE POPULATION.....................................................................4 1. Distributions d'échantillonnage.......................................................................................4 2. Estimation ponctuelle d'un paramètre .............................................................................5 3. Estimation d'un paramètre par intervalle de confiance....................................................6 4. Cas d'un caractère qualitatif : estimation et intervalle de confiance d'une fréquence (ou d'une proportion) ..........................................................................................7 5. Cas d'un caractère quantitatif .........................................................................................9 1. Estimation ponctuelle de la moyenne et de la variance .............................................. 9 2. Estimation de la moyenne par intervalle de confiance.............................................. 10 II. PRINCIPE GÉNÉRAL DES TESTS STATISTIQUES..............................................................................15 1. Comment formuler un problème en statistique ? ..........................................................15 2. Comment résoudre un problème en statistique ? ..........................................................15 1. La méthode statistique............................................................................................... 15 2. Application................................................................................................................ 16 3. Hypothèses nulle et alternative......................................................................................16 4. Risques d'erreurs ...........................................................................................................18 5. Antagonisme entre les deux risques d'erreurs et puissance d'un test.............................19 6. Les tests d'hypothèse ....................................................................................................20 1. Tests de conformité.................................................................................................... 20 2. Tests d'homogénéité ou d'égalité ou tests de comparaison ....................................... 20 3. Tests d'ajustement...................................................................................................... 20 4. Tests d'indépendance................................................................................................. 20 7. Test bilatéral - Test unilatéral.......................................................................................21 Séquence de travail n° 2 23 TESTS RELATIFS AUX FRÉQUENCES ................................................................. 23 I. COMPARAISON D'UNE FRÉQUENCE OBSERVÉE P0 À UNE FRÉQUENCE THÉORIQUE P OU TEST DE CONFORMITÉ D'UNE FRÉQUENCE............................................24 1. Position du problème et réalisation du test....................................................................24
  • 3. II 2. Exemples.......................................................................................................................25 II. COMPARAISON DE DEUX FRÉQUENCES OBSERVÉES SUR DEUX POPULATIONS OU TEST D'HOMOGÉNÉITÉ DE DEUX FRÉQUENCES..................................................................28 1. Position du problème.....................................................................................................28 2. Exemples.......................................................................................................................29 Séquence de travail n° 3 31 TEST DU KHI-DEUX OU C2.................................................................................. 31 I. POSITION DU PROBLÈME : CAS GÉNÉRAL .........................................................................................32 1. Procédure de calcul .......................................................................................................32 2. Intérêts du test du c2......................................................................................................33 II. COMPARAISON D'UNE RÉPARTITION OBSERVÉE À UNE RÉPARTITION THÉORIQUE : TESTS DE CONFORMITÉ ET TESTS D'AJUSTEMENT.......................................34 1. Mise en place du test .....................................................................................................34 2. Tests de conformité .......................................................................................................35 3. Tests d'ajustement .........................................................................................................35 1. Exemple d'ajustement à une loi normale................................................................... 35 2. Exemple d'ajustement à une loi de Poisson............................................................... 37 III. COMPARAISON DE RÉPARTITIONS OBSERVÉES ENTRE ELLES : TEST D'HOMOGÉNÉITÉ...................................................................................................................................39 1. Position du problème et présentation des données........................................................39 2. Calcul des valeurs théoriques........................................................................................39 3. Exemple.........................................................................................................................40 IV. CAS PARTICULIER : COMPARAISON DE DEUX FRÉQUENCES..................................................41 TABLE I.................................................................................................................... 43 TABLE DE LA DISTRIBUTION NORMALE RÉDUITE .............................................................................43 TABLE II................................................................................................................... 44 TABLE DE LA LOI NORMALE CENTRÉE, RÉDUITE N (0,1) OU TABLE DE L'ÉCART RÉDUIT ......................................................................................................................................................44 TABLE III.................................................................................................................. 45 TABLE DE STUDENT.......................................................................................................................................45 TABLE IV ................................................................................................................. 46 TABLE DU C2 ..................................................................................................................................................46 BIBLIOGRAPHIE ..................................................................................................... 47
  • 4. _______________________________________________________________________________ 1 ______________________________________________________________________________ Averstissement AVERTISSEMENT Ce document se propose de vous fournir l'essentiel des connaissances qui vous permettront de mieux comprendre les concepts et de connaître les outils de la statistique. C'est un ouvrage d'initiation dont l'objectif principal est l'acquisition des techniques de base de la statistique ainsi que l'interprétation des résultats qui en découlent. Pour cela, les fondements mathématiques des théories exposées ne sont pas développés. Nous avons pensé que ce document est destiné surtout à des utilisateurs de l'outil statistique et non à des théoriciens. Afin de répondre aux difficultés que rencontrent les étudiants pour transposer les connaissances théoriques à l'application pratique, le document réunit l'essentiel des connaissances avec de nombreux exemples d'application illustrant les parties théoriques. Les connaissances importantes , qu'il faut absolument garder à l'esprit, sont signalées en grisé dans le texte. Les connaissances s’enchaînent dans un ordre logique. Chaque nouvelle notion introduite suppose que d’autres notions sont connues. En commençant par découvrir ces nouvelles notions, notamment à l’aide des exemples proposés, vous pouvez rencontrer des difficultés dues à une mauvaise assimilation de notions précédentes. Il faut donc systématiquement revenir en arrière et reprendre le cours mal assimilé. Ces allers et retours dans le cours sont presque inévitables. Ne soyez donc pas découragés pour autant. Vous verrez alors que, petit à petit, les nouvelles notions s’éclaircissent et se mémorisent de mieux en mieux. PRÉREQUIS INDISPENSABLES À L'ÉTUDE DE CE LIVRET… Dans ce livret, nous exposons d'abord les méthodes statistiques à travers l'estimation des paramètres d'une population qui ne sont jamais connus en pratique, puis le principe général des tests statistiques. Nous appliquerons alors ces méthodes aux problèmes relatifs à la comparaison des fréquences puis au test du 2. Pour une meilleure assimilation des connaissances exposées, l'étude de ce livret suppose une bonne connaissance : • des paramètres de position notamment de la moyenne arithmétique et de ses propriétés ; • des paramètres de dispersion notamment de la variance et de l'écart type (formules, propriétés…) • des probabilités • des lois de probabilités en particulier, la loi binomiale et la loi normale Si vous avez des difficultés à remobiliser ces notions supposées acquises, reportez-vous au premier livret 16 R6. COMMENT TRAITER UN EXERCICE DE STATISTIQUE ? La rédaction d’un exercice d’un test d’évaluation, d’un devoir ou à une épreuve d'examen, doit être réalisée avec le plus grand soin.
  • 5. _______________________________________________________________________________ 2 ______________________________________________________________________________ Averstissement • Faites d’abord une première lecture rapide de l’énoncé de manière à situer le problème posé en relation avec votre programme. - Quelles sont les données (nature de la variable, loi de probabilité, taille de l’échantillon, paramètres donnés…) ? - Que vous demande-t-on ? - Les questions sont-elles liées ? - Quelle table statistique utiliser ? • Commencez alors par résoudre l’exercice sur du brouillon, question par question. • A l'examen, on vous jugera à la démarche adoptée pour résoudre les exercices mais aussi à la rédaction et à la présentation du travail fourni, que beaucoup d'étudiants négligent en se contentant par exemple, - d' « appliquer » des formules sans expliquer les conditions d'applications, - d'aboutir par le calcul à des décisions « statistiques » mais sans une interprétation rigoureuse de leurs conclusions. Si vous rédigez, c’est pour être lu. Soignez vos copies. N’imposez pas à votre correcteur de vous « déchiffrer ». Il peut se lasser… Vous risquez alors de perdre des points inutilement. - Faites attention aux calculs numériques et aux unités. Les ordres de grandeurs doivent être respectés. - Chaque résultat final d’une question doit être souligné proprement et suivi d’une petite conclusion. CONSEILS GÉNÉRAUX DE TRAVAIL Ce livret se présente sous forme de séquences de travail visant des objectifs pédagogiques formulés dès le départ. Les évaluations qui vous sont proposées à la fin des séquences visent à vérifier l'atteinte des objectifs visés par la séquence de travail proposée. Pour cela, nous vous conseillons : • de travailler aussi régulièrement que possible ; • d'éloigner de votre vue tout ce qui peut vous distraire : magazines, journaux, radio, télé… • d'avoir toujours sous la main une calculatrice, du brouillon, un crayon de papier et une gomme ; • de vérifier, chaque fois que vous avez un doute, les calculs développés ; • de traiter la totalité des exercices d'application proposés avant de passer à la séquence suivante ; • d'établir une fiche de synthèse à la fin de chaque séquence de travail ; elle vous sera très utile pour la séquence suivante ; • si vous avez la chance d'avoir un micro et de maîtriser EXCEL, n'hésitez pas à rentrer les données des exercices proposés et de faire exécuter les calculs par le logiciel ; cela vous permettra de faire des simulations en changeant les données pour « voir ce qui se passe ». Tous les enseignants et pédagogues connaissent très bien la difficulté de rédiger un cours de statistique. Tous savent combien il est délicat de traiter un problème de statistique en faisant l'impasse sur des concepts qui le sous-tendent. Ceux qui se référeront au présent document voudront bien l'utiliser avec indulgence et en nous communiquant, éventuellement, leurs remarques et suggestions. Nous les remercions par avance.
  • 6. _______________________________________________________________________________ 3 ______________________________________________________________________________ 4. Interprétation statistique Séquence de travail n° 1 8 h INTERPRÉTATION STATISTIQUE • Échantillonnage • Méthode statistique 4 Objectifs pédagogiques : A la fin de cette séquence, mais étape par étape, vous devriez être capable : 1. de comprendre et d'expliquer les bases théoriques de l'estimation par intervalle de confiance des fréquences et des moyennes d'une population ; 2. d'estimer une fréquence, une moyenne et une variance d'une population : - ponctuellement - par intervalle de confiance à différents seuils de signification ; 3. de formuler un problème en statistique ; 4. de développer une démarche pour la résolution d'un problème statistique ; 5. de distinguer les différents types de tests statistiques.
  • 8. _______________________________________________________________________________ 5 ______________________________________________________________________________ 4. Interprétation statistique I. ESTIMATION DES PARAMÈTRES D'UNE POPULATION 1. Distributions d'échantillonnage Une population est un ensemble d'individus (animaux, exploitations, parcelles…) auxquels on s'intéresse ; sa taille est généralement infinie ou alors suffisamment grande pour être considérée comme telle. Soit un caractère donné présent dans une population P. Ce caractère peut être défini par sa fréquence ou sa moyenne et sa variance au sein de cette population. Il est évident que, vu la taille de la population, en général très grande, on ne peut pas, pour des raisons purement pratiques et/ou économiques, étudier ce caractère sur la population elle- même. • Que fait-on alors ? On extrait dans ce cas un échantillon de taille n censé représenter aussi fidèlement que possible cette population. L'échantillonnage ou le sondage est l'ensemble des opérations qui ont pour objectif de prélever dans une population les individus devant constituer un échantillon. Cet échantillonnage est, le plus souvent, dit aléatoire (ou au hasard) et simple : • aléatoire indique que tous les individus de la population ont la même probabilité, connue et non nulle, de faire partie de l'échantillon ; • simple indique que les individus de l'échantillon sont prélevés indépendamment les uns des autres. L'échantillonnage a une importance pratique considérable car l'inférence statistique a pour but de porter un jugement sur l'ensemble des individus de la population étudiée à partir des observations effectuées sur l'échantillon obtenu à partir de cette population. Cette manière de procéder pose alors le problème des fluctuations d'échantillonnage du paramètre étudié (fréquence, moyenne, variance…). En effet, si on extrait plusieurs échantillons représentatifs de taille n fixée, on n'aura pas forcément toujours les mêmes valeurs pour le paramètre étudié. Autrement dit, à partir d'un échantillon, nous n'avons que des paramètres estimés. Il existe deux méthodes d'échantillonnage : • la méthode dite exhaustive consistant à extraire plusieurs échantillons de taille n, indépendamment les uns des autres et sans les remettre dans la population lorsqu'on passe d'un tirage à l'autre ;
  • 9. _______________________________________________________________________________ 6 ______________________________________________________________________________ 4. Interprétation statistique • la méthode dite non exhaustive consistant à extraire plusieurs échantillons de taille n, indépendamment les uns des autres mais en remettant, à chaque tirage, l'échantillon dans la population. C'est cette deuxième méthode que l'on considérera dans tous les tests statistiques. Pourquoi ? Tout simplement parce que la taille de l'échantillon étant très faible, comparée à celle de la population, les calculs et le raisonnement statistiques se simplifient au maximum dans ce cas. Soient une population de mesures et un paramètre de cette population noté  (moyenne, variance, fréquence…). Constituons à partir de cette population une série d'échantillons possibles de même effectif, prélevés dans des conditions identiques ; pour chaque échantillon, on peut calculer une valeur correspondant au paramètre étudié : d1 , d2 , … … dn ; ces valeurs peuvent être considérés comme des valeurs observées d'une même variable aléatoire D. On voudrait par exemple déterminer : • la moyenne de la variable D : E (D) • la variance de la variable D : V (D) , ou son écart type qui est l'erreur standard. • la distribution de la variable D, appelée distribution d'échantillonnage ; c'est la distribution des différentes valeurs que peut prendre le paramètre D, pour les différents échantillons d'effectif fixé qu'il est possible d'extraire de la population étudiée. Dans ces conditions, •  est une constante généralement inconnue et relative à la population ; • D est une variable relative aux échantillons ; • E (D) et V(D) sont des constantes relatives à la population et à un type d'échantillon. 2. Estimation ponctuelle d'un paramètre Toute estimation d'un paramètre est entachée d'erreurs. C'est la raison pour laquelle, chaque fois que l'on fait une estimation, on doit préciser les conditions de sa validité. • L'estimateur est dit biaisé lorsqu'il ne reflète pas correctement le paramètre estimé ; • dans le cas contraire, l'estimateur est dit non biaisé. Le paramètre de la population étudiée est inconnu. On extrait de la population un échantillon de n valeurs observées. Il faudra donc, à partir des valeurs observées, obtenir une estimation du paramètre . On utilise pour cela un estimateur du paramètre , noté généralement par un ^ au-dessus du paramètre estimé, fonction des valeurs observées, qui sert à estimer , ou qui permet d'obtenir une estimation de . La théorie des estimateurs repose sur deux conditions :
  • 10. _______________________________________________________________________________ 7 ______________________________________________________________________________ 4. Interprétation statistique • l'estimateur doit être sans biais ou non biaisé ; en général, une variable aléatoire  ^ est un estimateur sans biais d'un paramètre  si : E (^ ) =  • la variance de l'estimateur doit être minimum : V (^ ) = min L'estimation ainsi obtenue est dite ponctuelle. On réalise ainsi des estimations ponctuelles des paramètres étudiés et on obtient des valeurs estimées des caractéristiques de la variable dans la population. Cependant, ces valeurs estimées sur l'échantillon peuvent être faussées par des erreurs notamment celles dues à un mauvais échantillonnage. Autrement dit, ces valeurs estimées ne sont que des valeurs approximatives des valeurs réelles de la population. L'estimation ponctuelle est donc sans intérêt si on ne connaît pas la précision de l'estimation obtenue. 3. Estimation d'un paramètre par intervalle de confiance Pour pallier le problème précité, on procède à des estimations par intervalles de confiance : il s'agit, en pratique, de déterminer des intervalles de valeurs dans lesquels se situe la vraie moyenne ou la vraie fréquence de la population mais avec un certain risque d'erreur (de se tromper). On imagine alors aisément que plus l'intervalle de confiance est grand, moins on a de chances de se tromper et inversement. On se fixe donc un coefficient de confiance, ou de sécurité, ou degré de confiance, ou niveau de confiance, ou seuil de confiance, désigné par 1 -  ;  est le risque d'erreur. Les limites de confiance ou de sécurité, c'est-à-dire les bornes de l'intervalle de confiance, sont telles que : Prob (D1 <  < D2 ) = 1 -  ou Prob (  > D2 ) ou Prob (  < D1 ) =  Il existe alors une infinité d'intervalles répondant à cette condition. En général, on répartit le risque en deux parties égales, c'est-à-dire que : Prob (  > D2 ) = Prob (  < D1 ) =    Exemple. Au seuil de confiance 1 -  = 0,99, donc au risque  = 0,01, on a obtenu, pour la moyenne  d'une population, l'intervalle de confiance suivant :
  • 11. _______________________________________________________________________________ 8 ______________________________________________________________________________ 4. Interprétation statistique 1200 <  < 1600 On a donc : Prob (1200 <  < 1600) = 0,99 Prob (  > 1600) = Prob (  < 1200) = 0,01 2 = 0,005 Que signifie cette expression ? Cela ne signifie pas que la vraie valeur de  a 99 % de chances de se trouver dans l'intervalle 1200 - 1600 mais on peut dire que, pour l'ensemble des applications de la méthode, dans 99 % des cas, la vraie valeur de  est dans l'intervalle obtenu ; ou encore, en affirmant que l'intervalle 1200 - 1600 contient , on peut commettre une erreur dont la probabilité est égale à 1 %.  4. Cas d'un caractère qualitatif : estimation et intervalle de confiance d'une fréquence (ou d'une proportion) Considérons une population donnée où un caractère A est présent avec une fréquence p inconnue ; l'événement contraire A sera présent alors avec une fréquence q = 1 - p. On prélève un échantillon aléatoire simple de taille n dans cette population ; la fréquence des individus possédant le caractère A dans l'échantillon est f (ou p0) ; f est la valeur observée de la variable F, fréquence du caractère A dans un échantillon de taille n. La variable F peut s'écrire : F = Y n Y désignant la variable nombre d'individus possédant le caractère A dans un échantillon de taille n ; Y est une variable binomiale de paramètres n et p et E (Y) = n.p. Nous avons donc : V ( Y ) = n.p . (1 - p) autrement dit, E ( F ) = np n = p et V ( F ) = n p (1 - p) n2 = p ( 1 - p) n De plus si n est grand, on peut assimiler une loi binomiale à une loi normale de même espérance et de même variance ; donc : F est une v.a qui obéit à une loi normale N (p ; p ( 1 - p) n ) . Nous considérons que n est grand si n > 100 et si n p et n (1 - p) > 5. Dans ces conditions, on démontre que F est un bon estimateur de p et f (ou p0) est donc l'estimation ponctuelle sans biais de p.
  • 12. _______________________________________________________________________________ 9 ______________________________________________________________________________ 4. Interprétation statistique Cela ne veut pas dire que f (ou po ) reflète la vraie valeur de p. L'estimation ponctuelle ne le précise pas. La précision de cette estimation est donnée par l'intervalle de confiance de p. Cela veut dire que si l'on dispose d'un échantillon de taille n, l' estimation ponctuelle sans biais de p, inconnue, sera la fréquence po observée sur cet échantillon. La question est alors la suivante : quelle confiance accorde-t-on à l'estimation de p par po ? La réponse consiste à déterminer un intervalle dans lequel oscillera la vraie valeur de p avec un risque d'erreur  déterminé. F étant une v.a qui obéit à une loi normale N (p ; pq n ), la v.a : U = F - p pq n obéit à une loi normale N (0 ; 1) ; d'où : Prob ( | U | <  ou Prob ( | U | >  Au seuil de confiance 1 - , nous avons donc : | F - p | pq n <  d'où | F - p | <  pq n  d'où l'intervalle de confiance au seuil 1 -  ou au risque  : F -  pq n < p < F +  pq n avec, pour : •  = 0,05   = 1,96 •  = 0,01   = 2,58   étant l'écart réduit dont les valeurs sont données par la table II en annexe en fonction du risque . p étant inconnu, sera estimé par f (ou p0) et q par 1 - f (ou 1 - p0 = q0) et l'estimation de p par intervalle de confiance sera :
  • 13. ______________________________________________________________________________ 10 _____________________________________________________________________________ 4. Interprétation statistique po -  p0 q0 n < p < po +  p0 q0 n Cet intervalle est dit intervalle de confiance de p au risque  ou au coefficient de sécurité 1-  Exemple On veut étudier une population de bovins, dans laquelle certains individus possèdent le caractère " pie ". Sur un échantillon de 4000 individus, on dénombre 320 individus à robe "pie". Quel est l'intervalle de confiance au seuil de 99 % du pourcentage d'individus " pie " dans cette population ? ******** p0 = 320/4000 = 0,08 q0 =1-0,08 = 0,92  = 0,01   = 2,58 p0 -  . p0q0 n < p < p0 +  . p0q0 n 0,08 - 2,58 0,08 . 0,92 4000 < p < 0,08 + 2,58 0,08 . 0,92 4000 0,069 < p < 0,091 5. Cas d'un caractère quantitatif Soit X une variable aléatoire définie sur la population avec : E (X) =  et V(X) = 2 Pour estimer  et  , on prend un échantillon aléatoire simple de taille n ; les valeurs observées x1 , x2 , … … xn peuvent être considérées comme les valeurs prises par des v.a X1 , X2 , … … Xn de même loi que X, de même espérance  et de même variance 2 ; elles sont, de plus, indépendantes. La moyenne observée sur l'échantillon est x ; la variance de l'échantillon est notée s2. 1. Estimation ponctuelle de la moyenne et de la variance q Pour la moyenne : On montre que l'estimation de  peut se faire par x , c'est-à-dire que x est un estimateur sans biais de .
  • 14. ______________________________________________________________________________ 11 _____________________________________________________________________________ 4. Interprétation statistique ^ = x q Pour la variance : Si x est considérée comme estimation non biaisée de , il n'en est pas de même pour 2. Pour des raisons mathématiques, on montre que l'estimation non biaisée de 2 consiste à multiplier s2 par n/n-1 et donc : ^ 2 = n n-1 s2 et donc, comme s2 = SCE n , ^ = n s2 n - 1 = SCE (n - 1) En fait l'estimation de 2 par ^ 2 = n n-1 s2 n'a de l'importance que pour les petits échantillons. En effet, lorsque n (ou tout simplement lorsqu'il est suffisamment grand), le rapport n n-1 tend vers 1 et donc, pratiquement, 2 = s2. 2. Estimation de la moyenne par intervalle de confiance Nous avons : • une population dans laquelle on étudie la v.a X avec : E (X) =  V (X) = 2 • un échantillon de taille n avec des valeurs observées x1 , x2 , … … xn qui sont les variables X1 , X2 , … … Xn , indépendantes, de même espérance et de même variance que X. La moyenne x de l'échantillon est la valeur prise par une variable X . On montre alors que : E ( X ) =  V( X ) = 2 n E ( X ) =  indique que si on répète un grand nombre de fois l'échantillonnage dans les mêmes conditions, la moyenne des moyennes observées sera égale à .
  • 15. ______________________________________________________________________________ 12 _____________________________________________________________________________ 4. Interprétation statistique Par ailleurs,  x ( écart type de la distribution d'échantillonnage de la moyenne) est d'autant plus faible que n est grand, c'est-à-dire que la dispersion de X , autour de sa moyenne , est d'autant plus réduite que la taille de l'échantillon est plus grande. A quelle loi obéit X ? On démontre que si la v.a X est normale, ou si l'échantillon est de taille suffisante (n > 30) quelle que soit la loi de X, la loi de probabilité de X est une loi normale. q Cas où la variance de la population 2 est connue : cas rare X est une v.a qui obéit à une loi normale N(; / n ) donc la v.a : U = X -  / n obéit aussi à une loi normale centrée réduite N ( 0, 1 ). d'où l'on déduit : Prob ( | U | <  ) = 1 -  ou Prob (| U | >  ) =  1- étant le seuil de confiance choisi et  le risque d'erreur associé. Donc, au seuil de confiance 1-, nous avons : U = | X -  / n <  d'où | X -  <  . / n • Si X -  > 0 , X -  <  . / n et  > X -  . / n • Si X -  < 0 ,  - X  <  . / n et  < X +  . / n d'où l'intervalle de confiance au seuil de confiance 1- ou au risque  : X -   n <  < X +   n et l'estimation de  par intervalle de confiance sera obtenue en remplaçant X par la valeur calculée sur l'échantillon x . L'intervalle de confiance ainsi obtenu sera d'autant plus petit que :
  • 16. ______________________________________________________________________________ 13 _____________________________________________________________________________ 4. Interprétation statistique - le risque d'erreur choisi est plus grand ; - la variance de la population est plus petite ; - la taille de l'échantillon est plus grande. *  n =  X = est l'écart type de la distribution d'échantillonnage de X : c'est l'erreur standard. * Si la population d'où est extrait l'échantillon est grande mais finie (effectif N), il faut multiplier l'erreur standard  n par N-n N-1 . Exemple La production laitière des vaches est considérée comme une v.a. normale dont l'écart type est connu et égal à 1000 kg. Dans une région particulière donnée, on a mesuré chez une race de bovins la production laitière de 25 vaches choisies au hasard et indépendamment les unes des autres; la moyenne observée chez ces animaux est de 4 290 kg lait. Quel est l'intervalle de confiance de cette moyenne à 95 et 99 % ? ******** • La valeur estimée de la moyenne de la population est ^ = x = 4 290 kg • Les limites de confiance à 95 % sont : x ± .  / n = 4 290 ± 1,96 1000/ 25 = 4 290 ± 390 kg ou 3 900 kg <  < 4 700 kg • Les limites de confiance à 99 % sont : x ± .  / n = 4 290 ± 2,58 1000/ 25 = 4 290 ± 520 kg ou 3 770 kg <  < 4 810 kg Remarquez que l'intervalle de confiance est plus large pour un risque  plus petit. q Cas où la variance de la population 2 est inconnue • Si  est inconnu, on l'estime par ^ mais en supposant que la population-mère est distribuée normalement, c'est-à-dire que la variable étudiée obéit à une loi normale. L'estimation ^ , basée sur l'échantillon sera : ^ = n n - 1 s = n s2 n - 1 = SCE n - 1 • Dans le cas des petits échantillons, cette estimation modifie la nature de la loi suivie par X et la variable aléatoire :
  • 17. ______________________________________________________________________________ 14 _____________________________________________________________________________ 4. Interprétation statistique T = X -  ^ / n n'obéit plus à une loi normale comme précédemment mais à une loi de Student à n-1 degrés de liberté (ddl) (voir table III en annexe) La courbe représentative de sa fonction densité de probabilité est une courbe en cloche symétrique par rapport à l'axe des ordonnées, mais plus aplatie que celle de la loi normale. La table de t donne, en fonction du nombre de ddl et du risque , la valeur t telle que : Prob (-t < T < + t ) = 1 -  ou alors : Prob (T > t) = Prob (T < -t) =  2 ou encore : Prob (| T |) > t) =  ou Prob (| T |) < t) = 1 -  L'intervalle de confiance de la moyenne , à un seuil de confiance donné, devient alors : X - t ^ n <  < X + t ^ n où t représente la variable de Student à n - 1 degrés de liberté (ddl) Lorsque n est grand (> 30), la distribution de Student tend vers la distribution normale. En effet, vous remarquerez sur la table III que les valeurs de la dernière ligne, pour un ddl = ∞, coïncident avec celles de la première ligne de la table II de l'écart réduit. Première ligne des valeurs (en grisé) de l'écart réduit  (table II)  0 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09 0,00 ∞ 2,577 2,327 2,171 2,054 1,960 1,881 1,812 1,751 1,696 Deux dernières lignes des valeurs (en grisé) de la variable de Student t (table III)  ddl 0,90 0,50 0,30 0,20 0,10 0,05 0,02 0,01 0,001 120 0,126 0,677 1,041 1,289 1,658 1,980 2,358 2,617 3,373 ∞ 0,126 0,675 1,037 1,282 1,645 1,960 2,327 2,577 3,293
  • 18. ______________________________________________________________________________ 15 _____________________________________________________________________________ 4. Interprétation statistique Exemple La mesure de la taille de 10 arbres provenant d'une même forêt, a donné les résultats suivants : x = 4,7 m ; s2 = 1,928 m 1. Quelle est l'estimation ponctuelle non biaisée de la moyenne et de l'écart type de la population dont ces arbres sont extraits. 2. Donner un intervalle de confiance de la moyenne de la population au risque de 0,05 en supposant que cette taille obéit à une loi normale. ******** 1. • L'estimation ponctuelle non biaisée de la moyenne est : x = 4,7 m • L'estimation ponctuelle non biaisée de l'écart type est : ^ On a : s2 = 1,928 m  s = 1,928 = 1,388 ^ = n n-1 s = 10/10 - 1 . 1,388  1,46 m 2. Nous sommes dans le cas d'un petit échantillon dont la variable obéit à une loi normale mais dont  est inconnu. Dans ces conditions :  = x ± t . ^ / n Pour  = 0,05 et ddl = 10 - 1 = 9 , ttable = 2,262   = 4,7 ± 2,262. 1,46/ 10 = 4,7 ± 1,045 m autrement dit, au risque de 5 % : 3,65 m <  < 5,75 m
  • 19. ______________________________________________________________________________ 16 _____________________________________________________________________________ 4. Interprétation statistique II. PRINCIPE GÉNÉRAL DES TESTS STATISTIQUES 1. Comment formuler un problème en statistique ? Partons d'un exemple qui vous est familier… Y a-t-il une relation entre la consommation de tabac et le cancer ? Il est évident qu'une telle relation ne suppose aucunement une réponse constante (c'est-à-dire que tout fumeur sera cancéreux et tout non-fumeur ne le sera pas). La seule chose qu'on peut affirmer est qu'un fumeur a "nettement" plus de risques d'être atteint par un cancer pulmonaire qu'un non-fumeur. A cause justement de la variabilité. Ainsi, dans un domaine où la réponse est variable, les problèmes doivent être posés à l'échelon, non de l'individu, mais du groupe qu'on définira par une propriété moyenne. La définition du mot cause telle qu'elle est généralement conçue, exige que : • si la cause existe, l'effet existe ; • si la cause est absente, l'effet disparaît. Ce qui suppose que tous les fumeurs seront cancéreux et tous les non-fumeurs non cancéreux. Avec une telle définition, la causalité n'existera pas en biologie. Dans une formulation statistique, on dira simplement que l'effet existe plus souvent quand la cause est présente que lorsqu' elle est absente. C'est donc en termes de probabilités qu'il faut poser les problèmes. 2. Comment résoudre un problème en statistique ? 1. La méthode statistique • Dans un premier temps, si on veut comparer deux groupes pour un caractère donné, on examine si la différence est imputable aux fluctuations du hasard, ou, au contraire significative : c'est le test de signification. • Dans un deuxième temps, si la différence est significative, on cherchera à l'interpréter pour en déterminer la cause (interprétation causale). Celle-ci n'est possible en toute rigueur, que si les deux groupes sont, à part le caractère étudié, strictement comparables. Le rôle du statisticien est double : il doit d'abord organiser l'expérience ou l'enquête, ensuite analyser et interpréter les résultats. Une recherche vise presque toujours à étudier l'association de 2 facteurs ou plus : c'est ainsi qu'on cherche si l'existence de la maladie est liée à certains signes (diagnostic), si son
  • 20. ______________________________________________________________________________ 17 _____________________________________________________________________________ 4. Interprétation statistique apparition est liée à certaines conditions (étiologie), si son développement est lié à certains indices (pronostic) ou à certains traitements (thérapeutique). Or l'association de 2 facteurs en biologie ne se présente pas comme une relation rigide : elle ne peut être vraie qu'en "moyenne", c'est-à-dire en termes de probabilités ; il est donc nécessaire de la définir de façon particulière. Cette formulation du problème et la façon de le résoudre constituent la méthode statistique. 2. Application Dans une région donnée, une certaine race de bovins présente une infection particulière avec un taux constant et connu qui est p = 20 %. On se demande si l'application d'un traitement antibiotique sur les animaux va modifier ce taux de 20 % dans un sens ou l'autre. Pour cela, on fait une expérience d'application de l'antibiotique, sur 100 animaux par exemple. On obtient alors po d'animaux malades. Il s'agit de savoir si le traitement a été actif ou pas. Comment répondre à cette question ? Premier cas : Si l'antibiotique n'a pas été actif, il y aurait eu théoriquement, sur cet échantillon de 100 individus, la même proportion d'animaux malades, c'est-à-dire 20 % ou presque ; mais il est possible d'observer, de temps à autre, des valeurs très différentes pouvant aller de 0 % à 100 %. Donc, même si po est très différent de p, il est possible que le traitement soit sans effet. Deuxième cas : Si l'antibiotique est actif, la proportion d'animaux malades devrait théoriquement diminuer mais il se pourrait aussi que cette proportion avoisine, une fois par hasard, les 20 % . Ainsi, même si on observe 20 % d'animaux malades, il reste possible que le traitement soit actif. Autrement dit, il est impossible de répondre à la question posée avec certitude. Or, refuser de répondre équivaudrait à renoncer à tous les problèmes de ce genre, caractérisés par une variabilité de comportement des sujets, c'est-à-dire à la majorité des problèmes biologiques. On sera donc forcé de répondre avec un certain risque d'erreur qui doit être évalué de façon à ne conclure qu'avec un risque connu et raisonnable. 3. Hypothèses nulle et alternative Dans un test statistique, on formule souvent deux hypothèses ou affirmations relatives aux deux populations avec comme objectif de n'en conserver qu'une.
  • 21. ______________________________________________________________________________ 18 _____________________________________________________________________________ 4. Interprétation statistique • l'hypothèse nulle ou hypothèse à tester consiste à supposer que le traitement est sans effet. Cette hypothèse est notée Ho. • l'hypothèse alternative, notée H1, est l'hypothèse opposée ; dans ce cas H1 suppose que le traitement a un effet. L'ensemble des valeurs observées pour lesquelles on admet l'hypothèse nulle, constitue la région d'acceptation de cette hypothèse ; les autres valeurs constituent la région de rejet de l'hypothèse nulle appelée aussi région critique. Les valeurs limites s'appellent valeurs critiques. Cette dernière expression peut prêter à confusion car certains auteurs l'utilisent pour désigner le niveau de signification. Dans notre exemple, il s'agit de savoir, par calcul statistique, si on accepte ou on rejette cette hypothèse nulle. Si Ho est vraie, po avoisinera 20 %. Avec un risque d'erreur  = 5 % (de se tromper c'est-à-dire que le pourcentage sort d'un intervalle p+ e, p - e), on peut calculer un intervalle dans lequel oscillera po (cf. § intervalle de confiance d'une fréquence) En effet, si  = 5 % , alors   (table de l'écart réduit)  e =  .  = 1,96  = 1,96 . 0,2.0,8/100 = 0,08 l'intervalle sera donc : [20 - 8 ; 20 + 8] ou 12 % - 28 % po sera donc dans cet intervalle dans 95 % des cas et sortira de cet intervalle dans 5 % des cas ( = 5 %). Tant que po est dans cet intervalle, le traitement est déclaré sans effet. (toujours avec 5 % de chance de se tromper en affirmant cela). Autrement dit, si po est en dehors de l'intervalle, on dira que l'écart est significatif, c'est-à-dire que le traitement est actif. Ainsi, un écart po - p est significatif s'il égale ou dépasse : 1,96   1,96  = 1,96. p.q/n ou alors si la valeur absolue de l'écart réduit :  = po - p pq/n dépasse 1,96
  • 22. ______________________________________________________________________________ 19 _____________________________________________________________________________ 4. Interprétation statistique 4. Risques d'erreurs Une fois l'hypothèse nulle posée, le hasard des situations peut conduire à quatre éventualités : • accepter l'hypothèse nulle alors qu'elle est vraie ; • rejeter l'hypothèse nulle alors qu'elle est vraie ; • accepter l'hypothèse nulle alors qu'elle est fausse ; • rejeter l'hypothèse nulle alors qu'elle est fausse. Bien évidemment, le premier et le dernier cas correspondent à une conclusion correcte. Dans les deux autres cas, on se trompe dans notre conclusion. L'erreur qui consiste à rejeter une hypothèse alors qu'elle est vraie est appelée risque de première espèce. Par analogie avec les probabilités conditionnelles, ce risque est noté  tel que, en désignant le rejet par la lettre R et l'acceptation par la lettre A,  = Prob (RHo/Ho) d'où : 1 -  = Prob (AHo/Ho) lorsqu'on accepte une hypothèse fausse, on commet un autre type d'erreur appelé erreur de deuxième espèce et est désigné par la lettre .  = Prob (AHo/H) d'où : 1 -  = Prob (RHo/H) Toute décision « statistique » comporte donc des risques d'erreur. Ne pas condamner un couplable est une décision injuste : c'est le risque de première espèce ; condamner un innocent revient à commettre une erreur judicière : c'est le risque de deuxième espèce. La puissance d'un test [ 1 -  est la probabilité de rejeter l'hypothèse nulle alors qu'elle est fausse. Lorsqu'on utilise un test puissant, on a peu de chances de se tromper quand on accepte Ho ; au contraire si le test est peu puissant, on prend un risque important quand on accepte Ho. Dans notre exemple, si po avoisine 20 %, on dira que le traitement est sans effet c'est-à-dire qu'il y a 5 chances sur 100 pour que le traitement soit efficace et 95 % de chances qu'il ne le soit pas. Ce risque consiste donc à déclarer actif un traitement qui ne l'est justement pas : c'est un risque de première espèce ou risque  . Si le traitement est efficace alors que le hasard fait tomber po dans l'intervalle 12 - 28 %, nous commettons une autre erreur en déclarant le produit inactif alors qu'il est actif. C'est donc le risque de deuxième espèce ou risque . Ce risque peut se calculer mais son calcul est complexe car il dépend : • de  : plus  est grand, plus  est petit ;
  • 23. ______________________________________________________________________________ 20 _____________________________________________________________________________ 4. Interprétation statistique • de la taille de l'échantillon : plus elle est faible, plus  est grand ; • du degré de fausseté de Ho : plus Ho est fausse, plus  est petit ; • de la différence que l'on veut mettre en évidence : plus cette différence est petite, plus  est grand. En pratique, les valeurs " classiques " du risque  sont : •  ≤ 0,05, probabilité pour laquelle on considère conventionnellement que la différence est significative ; •  ≤ 0,01, probabilité pour laquelle on considère conventionnellement que la différence est très significative ; •  ≤ 0,001, probabilité pour laquelle on considère conventionnellement que la différence est très hautement significative. Nous pouvons résumer la notion de risque par le tableau suivant : Réalité Décision Ho est vraie Ho est fausse Ho est acceptée Pas d'erreur 1 -  Erreur Risque de deuxième espèce  Ho est rejetée Erreur Risque de première espèce  Pas d'erreur 1 -  La conclusion n'est correcte que dans les deux cas représentés en grisé sur le tableau. 5. Antagonisme entre les deux risques d'erreurs et puissance d'un test Dans notre exemple, pour  = 5 % l'intervalle était de 12 - 28 % Que se passe -t-il si  était très petit ? Exemple.  = 1/10000   = 3,89 d'où :  3,89 . 0,2.0,8/100 =16 % Donc l'intervalle sera : [20 - 16 % ; 20 + 16] % ou alors [4 % - 36 %] Conséquence: il n'y a que les différences les plus importantes qui seront remarquées. Il y a donc antagonisme entre les 2 risques. Plus le risque de première espèce est petit et plus le risque de deuxième espèce sera grand et vice-versa. Il n'est donc pas possible, pour un test donné, de réduire simultanément les deux risques d'erreurs.
  • 24. ______________________________________________________________________________ 21 _____________________________________________________________________________ 4. Interprétation statistique Cet antagonisme est évidemment intuitif. Pour un intervalle choisi de [0 % - 100 %], on ne se tromperait jamais mais on ne conclurait jamais non plus. C'est donc en termes de probabilités que les problèmes statistiques doivent être résolus. Lorsque le risque de deuxième espèce est important, le test est dit peu puissant statistiquement. Inversement, un test statistique sera d'autant plus puissant que ce risque est faible. 6. Les tests d'hypothèse Les tests d'hypothèse sont des tests statistiques dont le but est de vérifier, à partir de données observées dans un ou plusieurs échantillons, la validité de certaines hypothèses relatives à une ou plusieurs populations. Les tests d'hypothèse, basés généralement sur une hypothèse nulle à tester, peuvent être distingués en : 1. Tests de conformité Ces tests permettent de comparer une population à un échantillon. La population étant définie pour un paramètre donné (moyenne, variance, fréquence…), on cherche à vérifier si, connaissant la caractéristique correspondante d'un échantillon, on peut considérer qu'il est issu de cette population. 2. Tests d'homogénéité ou d'égalité ou tests de comparaison Ces tests sont utilisés pour comparer des populations à partir d'un même nombre d'échantillons. Ces tests peuvent être utiliser pour comparer des moyennes, des fréquences ou des variances. 3. Tests d'ajustement Ces tests sont utilisés pour vérifier qu'à tout point de vue, un échantillon observé peut être regardé comme issu d'une population donnée. Le test du 2 en est l'exemple type. Dans ce type de test, il s'agit de tester, à un seuil de signification choisi, l'hypothèse selon laquelle la distribution observée sur un échantillon est conforme à une distribution théorique donnée. 4. Tests d'indépendance Ces tests ont pour objectif de contrôler, à partir d'un échantillon, que deux ou plusieurs caractères de classification sont indépendants. Ce sont, en fait, des cas particuliers de tests d'ajustement qui consistent à tester, à un certain seuil de signification, l'hypothèse selon laquelle deux ou plusieurs caractères, généralement qualitatifs, sont indépendants ou non.
  • 25. ______________________________________________________________________________ 22 _____________________________________________________________________________ 4. Interprétation statistique 7. Test bilatéral - Test unilatéral Pour un seuil donné, un test peut être : • bilatéral, lorsque la probabilité  de se tromper se trouve " partagée " en deux parties égales des deux côtés de la région d'acceptation de l'hypothèse correspondant à l'intervalle de confiance. Dans ce cas, on utilisera la table II de l'écart réduit (graphe de droite ci- dessous). • unilatéral, dans le cas contraire, c'est-à-dire lorsqu'on situe cette probabilité  d'un seul côté de la région d'acceptation (à gauche ou à droite). Dans ce cas, on utilisera la table I de la fonction de répartition (deux graphes de gauche, ci-dessous). région d'acceptation 0,975 u = - 1,96 région d'acceptation 0,95 - 1,96 + 1,96 région d'acceptation u = + 1,96 région de rejet 0,025 région de rejet 0,025 Test unilatéral à gauche Test unilatéral à droite Test bilatéral région de rejet 0,025 région de rejet 0,025 0,975 Ces deux courbes répondent donc à la même fonction : (u) = 1 2π e - 1/2u2 La première (fonction de répartition) donnera l'aire sous la courbe, de - ∞ à u, correspondant à la région de rejet de l'hypothèse nulle, pour un test unilatéral ; la deuxième donnera deux aires symétriques correspondant aux régions de rejet pour un test bilatéral. Il existe une analogie entre la notion de région d'acceptation de l'hypothèse nulle et d'intervalle de confiance. La région d'acceptation est pratiquement confondue avec l'intervalle de confiance. On admet conventionnellement que les limites de confiance appartiennent à l'intervalle de confiance alors que les valeurs limites (critiques) sont exclues de la zone d'acceptation. [ intervalle de confiance ] ] zone d'acceptation [ C'est ce qui explique que, dans certains tests de comparaison, le problème peut être résolu soit en déterminant l'intervalle de confiance, soit en précisant les valeurs critiques.
  • 27. ______________________________________________________________________________ 24 _____________________________________________________________________________ 4. Interprétation statistique Exemple de correspondance entre les deux courbes • Lorsque  = 1,96, la valeur  correspondante dans la table de l'écart réduit vaut 0,05 ou 5 % Ces 5 % sont partagés de part et d'autre de la courbe (2,5 % ou 0,025 de chaque côté, zones hachurées dans le graphe de droite ci-dessus). La zone d'acceptation dans ce cas vaut 95 % (surface blanche). • Lorsque u = -1,96, l'aire de la courbe de la fonction de répartition, c'est-à-dire la zone de rejet, (graphe de gauche, ci-dessus) ne correspond plus à 5 % mais à 2,5 % c'est-à-dire à 0,025. Autrement dit, la zone d'acceptation vaudra : 1 - 0,025 = 0,975 ou 97,5 % Ces 0,975, qu'on retrouve dans la table de la fonction de répartition, représentent donc l'aire sous la courbe, de u = -1,96 à + ∞, correspondant à la région d'acceptation. Il est fondamental de bien comprendre la relation entre ces deux courbes. Voici quelques valeurs remarquables de  : risque  0,01 0,05 0,10 Test bilatéral Test unilatéral à droite Test unilatéral à gauche ± 2,58 + 2,33 - 2,33 ± 1,96 + 1,645 - 1,645 ± 1,645 + 1,28 - 1,28 Ce tableau montre que, pour un même risque , les valeurs de  sont plus élevées, en valeur absolue, pour un test bilatéral que pour un test unilatéral. Cela montre qu'un test unilatéral est toujours plus puissant qu'un test bilatéral. Pour plus de compléments sur les tests unilatéraux, voir Annexe I du livret 3.
  • 28. ______________________________________________________________________________ 25 _____________________________________________________________________________ 5. Tests relatifs aux fréquences Séquence de travail n° 2 5 h TESTS RELATIFS AUX FRÉQUENCES Cas des grands échantillons 5 Objectifs pédagogiques : A la fin de cette séquence vous devriez être capable : 1. de mobiliser les connaissances acquises à la séquence de travail N° 1 afin de les appliquer à un caractère qualitatif ; 2. de situer les problèmes relatifs à la comparaison des fréquences ; 3. d'expliquer les étapes nécessaires pour effectuer un test d'hypothèses ; 4. de comparer une fréquence observée à une fréquence théorique ; 5. de comparer deux fréquences observées sur deux échantillons de « grande taille » ; 6. d'interpréter les résultats d'un test de comparaison de deux fréquences.
  • 29. ______________________________________________________________________________ 26 _____________________________________________________________________________ 5. Tests relatifs aux fréquences I. COMPARAISON D'UNE FRÉQUENCE OBSERVÉE p0 À UNE FRÉQUENCE THÉORIQUE p OU TEST DE CONFORMITÉ D'UNE FRÉQUENCE 1. Position du problème et réalisation du test Le problème est le suivant : étant donné un échantillon de taille n, où la fréquence d'apparition d'un certain caractère est po ; est-il représentatif de la population-mère où la fréquence d'observation de ce caractère est p ? La distribution d'échantillonnage des fréquences est ici la distribution décrite précédemment, c'est-à-dire caractérisée par : • sa moyenne : E(po) = p • son écart type :  (po) = pq n avec q = 1 - p et qo = 1 - po L'hypothèse à tester est : Ho : p = po Pour celà, un échantillon de grande taille est extrait de la population, ce qui permet d'obtenir une estimation ponctuelle de p : f. Nous avons déjà signalé que la v.a F peut être considérée comme une v.a qui obéit à une loi normale de paramètres : N (p ; pq n ) ; donc : U = F - p pq n obéit à une loi N( 0 ; 1) Si Ho est vraie, la variable U devient : Uo (ou obs) = F - po poqo n et obéit à une loi N( 0 ; 1) Dans ces conditions, pour comparer une fréquence théorique p à une fréquence observée po, on émet l'hypothèse nulle : Ho : p = po puis on calcule l'écart réduit, c'est-à-dire le rapport : obs = | p - po| p q n • Siobs< table, on accepte Ho . Risque  de deuxième espèce.
  • 30. ______________________________________________________________________________ 27 _____________________________________________________________________________ 5. Tests relatifs aux fréquences • Siobs≥ table, on rejette Ho et le risque de première espèce correspondant à , lu dans la table de l'écart réduit, fixe le degré de signification. Le test n'est valable que si n.p et n.q sont supérieurs à 5 Concrètement, en raisonnant sur l'intervalle de confiance, on peut dire par exemple que la différence n'est pas significative à 5 % si : obs  ] - 1,96 ; + 1,96 [ et elle est significative si : obs  ] - 1,96 ; + 1,96 [ 2. Exemples Exemple 1 Dans une population animale qui comporte autant de mâles que de femelles, une maladie a frappé 20 femelles et 10 mâles. Cette maladie frappe-t-elle davantage les femelles ? ******** Il s'agit de savoir si l'hypothèse p = 0,50 ( fréquence théorique) est admissible au vu de la fréquence observée, po = 20/30 = 0,67 • Ho : il n'existe pas de différence significative entre les fréquences p et po.  = 0,50.0,50 30 = 0,0913  obs = 0,67 - 0,50 0,0913 = 1,86 • Pour  = 0,05, table = 1,96  obs table  la différence n'est pas significative. En dépit des résultats constatés, la maladie frappe autant les mâles que les femelles. Exemple 2 On a examiné 30 000 familles de 5 enfants, soit au total 150 000 enfants, et dénombré 77250 garçons. La proportion de garçons est-elle compatible avec l'hypothèse d'une probabilité égale de garçons et de filles ? ******** Fréquence théorique de garçons : p = 1/2 = 0,5 Fréquence observée de garçons : po = 77250 150000 = 0,515 Fréquence théorique Fréquence observée Garçons Filles p = 0,5 d'où q = 1 - p = 0,5 p = 0,5 d'où q= 1 - p = 0,5 po = 0,515 d'où qo = 0,485
  • 31. ______________________________________________________________________________ 28 _____________________________________________________________________________ 5. Tests relatifs aux fréquences obs = 0,515-0,5 0,5.0,5 150000 = 11,62 La probabilité correspondant à cet écart réduit est quasi nulle. La différence est donc hautement significative, et on ne saurait admettre l'hypothèse p = 0,50, c'est-à-dire l'hypothèse d'une probabilité égale entre garçons et filles. On notera que la fréquence observée po = 0,515 est extrêmement voisine de 0,50, mais pour un échantillon aussi important que celui-ci une différence, même minime, est très significative. On ne peut manquer d'être frappé par le contraste avec l'exemple 1 ci-dessus où le pourcentage 0,80 ne différait pas significativement de 0,50. Ce contraste confirme bien le manque de puissance des tests fondés sur de petits échantillons. Il montre aussi combien il est dangereux de conclure à une signification ou à une absence de signification sans faire le calcul exact. Exemple 3 Dans une région particulière d'Auvergne, les mammites touchent 20 % du cheptel. Un chercheur de l'INRA a expérimenté un traitement sur un échantillon de n vaches atteintes de mammites. Après traitement, il a recensé alors 6 % de vaches malades. Quelle est la valeur minimale de n qui permette à ce chercheur de conclure à l'efficacité du traitement : • au risque de 5 % ? • au risque de 1 % ? ******** Nous sommes dans un cas de test de conformité entre une fréquence théorique p = 0,20 et une fréquence observée po = 0,06. Ho = le traitement n'a pas d'effets On ne précise pas la valeur de n puisque qu'on nous demande de la chercher mais nous devons supposer que n ≥ 30. Par ailleurs, nous devons nécessairement avoir po < p car le traitement est supposé avoir une action efficace. Nous ne sommes pas donc en présence d'un test bilatéral mais d'un test unilatéral à gauche. Cela veut dire que pour :
  • 32. ______________________________________________________________________________ 29 _____________________________________________________________________________ 5. Tests relatifs aux fréquences -  = 0,05, obs = - 1,645 -  = 0,01, obs = - 2,33 Le traitement sera efficace si le rapport : • 0,20 - 0,06 0,06 x 0,94 n ≤ - 1,645 pour un risque de 5 % ou 0,06 x 0,94 n ≤ 0,20 1,645 • 0,20 - 0,06 0,06 x 0,94 n ≤ - 2,33 pour un risque de 1 % ou 0,06 x 0,94 n ≤ 0,20 2,33 • Pour  = 0,05, n ≥ 120 • Pour  = 0,01, n ≥ 240 Il est logique que, pour un risque moindre, le nombre d'animaux soit plus important.
  • 33. ______________________________________________________________________________ 30 _____________________________________________________________________________ 5. Tests relatifs aux fréquences II. COMPARAISON DE DEUX FRÉQUENCES OBSERVÉES SUR DEUX POPULATIONS OU TEST D'HOMOGÉNÉITÉ DE DEUX FRÉQUENCES 1. Position du problème Soient f1 et f2 les fréquences d'apparition d'un certain caractère A dans deux échantillons indépendants E1 et E2 de taille n1 et n2 et extraits de deux populations P1 et P2 . Les fréquences d'apparition de A dans les populations P1 et P2 sont inconnues et désignées respectivement par p1 et p2 . Il s'agit alors de savoir si la différence observée entre f1 et f2 est significative ou seulement due aux fluctuations d'échantillonnage, c'est-à-dire au hasard. Désignons par F1 et F2 les variables aléatoires qui prennent les valeurs f1 et f2 sur chaque échantillon de tailles n1 et n2. En supposant qu'on puisse approximer les lois binomiales par des lois normales , c'est-à-dire si: n1 et n2 ≥ 30 ; n1f1 ≥ 5 ; n1(1 - f1) ≥ 5 ; n2f2 ≥ 5 ; n2(1 - f2) ≥ 5 alors, sous l'hypothèse Ho [ p1 = p2 = p ], la variable aléatoire : U = F1 - F2 pq [ 1 n1 + 1 n2 ] obéit à une loi normale centrée réduite. Pour comparer deux fréquences f1 et f2 observées sur deux échantillons de taille n1 et n2 respectivement, on émet l'hypothèse nulle : Ho : p1 = p2 = p puis on calcule l'écart réduit, c'est-à-dire le rapport : obs = f1 - f2 p^q^ [ 1 n1 + 1 n2 ] p^ , q^ étant les proportions évaluées sur l'ensemble des 2 échantillons : p^ = n1f1 + n2f2 n1 + n2 et q^ = 1 - p^
  • 34. ______________________________________________________________________________ 31 _____________________________________________________________________________ 5. Tests relatifs aux fréquences • Siobs< table, on accepte Ho . Risque  de deuxième espèce. • Siobs≥ table, on rejette Ho et le risque de première espèce correspondant à , lu dans la table de l'écart réduit fixe le degré de signification. 2. Exemples Exemple 1 On teste le taux de germination de 2 lots de grains de blé. Variété A = sur 300 grains testés, 258 ont germé. Variété B = sur 600 grains testés, 462 ont germé. Les 2 lots ont-ils des taux de germination équivalents au risque de 0,01? *******   : les taux de germination sont équivalents   obs = f1 - f2 p^q^ [ 1 n1 + 1 n2 ] n1 = 300 ; f1 = 258/300 = 0,86 n2 = 600 ; f2 = 462/600 = 0,77 p^ = n1f1 + n2f2 n1 + n2 = 720 900 = 0,80  q^ = 1 - p^ = 0,20 obs = 0,86 - 0,77 0,8.0,2 300 + 0,8.0,2 600 = 0,09 (0,8.0,2).3 600 = 0,09 0,0008 = 0,09 0,02828 = 3,18  table= 2,58 < obs La différence est donc très significative. On rejette donc Ho. Les taux de germination sont différents. Exemple 2 Dans un centre d'insémination artificielle (IA) bovine, deux inséminateurs ont obtenu les résultats suivants : Nombre d'IA premières % de non retour Inséminateur A 4500 60 % Inséminateur B 3000 70 % Que peut-on dire au vu de ces résultats ?
  • 35. ______________________________________________________________________________ 32 _____________________________________________________________________________ 5. Tests relatifs aux fréquences ******** Le tableau ci-dessous résume l'essentiel de la démarche à effectuer pour comparer ces deux fréquences observées sur deux échantillons indépendants. Nombre d'IA premières réussies Total % de non retour Inséminateur A 2700 4500 = n1 0,60 = f1 Inséminateur B 2100 3000 = n2 0,70 = f2 Ho : il n' y a pas de différence significative entre les résultats des deux inséminateurs. p^ = n1f1 + n2f2 n1 + n2 = 0,64 q^ = 1 - p^ = 1 - 0,64 = 0,36 Écart type de la différence : p^q^ [ 1 n1 + 1 n2 ] 0,01131 f1 - f2 0,1  table,  = 0,05 1,960  obs = f1 - f2 p^q^ [ 1 n1 + 1 n2 ] 8,839 Décision statistique: obs >> tbable ; Ho est rejetée même au risque de 0,001. Il existe donc une différence significative entre les deux inséminateurs.
  • 36. ______________________________________________________________________________ 33 _____________________________________________________________________________ 6. Test du khi-deux Séquence de travail n° 3 6 h TEST DU KHI-DEUX OU 2 6  Objectifspédagogiques: A la fin de cette séquence, vous devriez être capable : 1. de situer le problème relatif à l'utilisation du test du Khi-deux ou 2 ; 2. d'utiliser la table du 2 ; 3. de comparer une fréquence théorique à une fréquence observée ; 4. d'ajuster une répartition observée à une loi de probabilité théorique ; 5. d'appliquer le test du 2 pour effectuer un test d'homogénéité ; 6. de comparer le test du 2 au test relatif à la comparaison de deux fréquences observées ; 7. d'interpréter les résultats d'un test du 2.
  • 37. ______________________________________________________________________________ 34 _____________________________________________________________________________ 6. Test du khi-deux I. POSITION DU PROBLÈME : CAS GÉNÉRAL Le test du 2 de Pearson a pour but de comparer une distribution rangée par classes à une autre distribution de rangement identique. Pratiquement, on rencontre 2 cas : - Comparer une distribution observée à une distribution calculée à partir d'une loi théorique. - Comparer 2 ou plusieurs distributions observées entre elles. 1. Procédure de calcul On se limitera à indiquer uniquement la manière d'appliquer le test. Soient 2 distributions A (observée) et B (théorique) rangées de la même façon suivant les différentes valeurs (1, 2, 3, ......k) que peut prendre le caractère étudié. Caractère Répartition A (observée) Répartition B (théorique) 1 n1 n'1 2 n2 n'2 3 n3 n'3 . . . . . . k nk n'k  n = N  n' = N L'effectif global est le même dans les 2 répartitions. D'autre part, N étant fixé, on peut choisir k-1 effectifs, le dernier étant alors déterminé. On dit qu'on a k-1 degrés de liberté (d.d.l). Problème posé : les répartitions A et B sont-elles conformes ou différentes ? Intuitivement, on voit que si ni = n'i , on peut conclure que les 2 répartitions A et B sont identiques. Si ni ≠ n'i , il faut alors étudier l'importance statistique des différences ni - n'i. On ne saurait utiliser comme indice, ni la somme (ou la moyenne) des écarts, qui vaut 0 évidemment, ni la somme de leurs valeurs absolues, qui ne se prête pas commodément à des calculs de probabilité. La somme des carrés des écarts (SCE) évite les inconvénients ci- dessus. C'est cependant un indice encore imparfait car il donne le même poids à tous les écarts, qu'ils se rapportent à de petits ou à de grands effectifs calculés. Des considérations théoriques conduisent à adopter l'indice suivant, dû à Pearson : obs = (n1 - n'1)2 n'1 + (n2 - n'2)2 n'2 + ........ + (nk - n'k)2 n'k qui peut s'écrire :  obs =  i=1 k (ni - n'i)2 n'i =  (Oi - Ti)2 Ti
  • 38. ______________________________________________________________________________ 35 _____________________________________________________________________________ 6. Test du khi-deux • où O désigne les effectifs observés et T, les effectifs théoriques. Remarque : Cette dernière expression peut aussi s'écrire :  obs =  i=1 k (ni )2 n'i - N ce qui permet, parfois, des calculs plus commodes. Plus le 2 est grand, plus les 2 répartitions sont différentes. La limite à partir de laquelle on peut dire que 2 est trop grand, est donnée par une table ( cf. table IV dont un extrait est présenté ci-dessous) en fonction du risque d'erreur  choisi et du nombre de degrés de liberté noté parfois , dans ce cas égal à k-1. Extrait de la table du 2   0,99 0,975 0,95 0,90 0,10 0,05 0,025 0,01 0,001 1 0,0002 0,001 0,004 0,016 2,71 3,84 5,02 6,63 10,83 2 0,02 0,05 0,10 0,21 4,61 5,99 7,38 9,21 13,82 3 0,11 0,22 0,35 0,58 6,25 7,81 9,35 11,34 16,27 4 0,30 0,48 0,71 1,06 7,78 9,49 11,14 13,28 18,47 5 0,55 0,83 1,15 1,61 9,24 11,07 12,83 15,09 20,51 Exemple : pour  = 3 et  = 0,05, 2 table = 7,81 Le test du 2 consiste à : • formuler une hypothèse nulle Ho et déterminer un risque d'erreur ; • déterminer la valeur du 2 observé ; • de comparer le 2 observé au 2 donné par la table au seuil de signification choisi ; • de conclure statistiquement. Le test du 2 est toujours unilatéral. 2. Intérêts du test du 2 Le test du 2 peut être utilisé dans les cas suivants : • comme test de conformité, lorsqu'il s'agit de comparer des fréquences observées à des fréquences théoriques ; • comme test d'ajustement lorsqu'il s'agit de vérifier si certaines données peuvent être ajustées à une loi particulière (binomiale, Poisson ou normale) ; • comme test d'homogénéité (ou d'indépendance) lorsqu'il s'agit d'étudier la liaison entre deux caractères qualitatifs.
  • 39. ______________________________________________________________________________ 36 _____________________________________________________________________________ 6. Test du khi-deux II. COMPARAISON D'UNE RÉPARTITION OBSERVÉE À UNE RÉPARTITION THÉORIQUE : TESTS DE CONFORMITÉ ET TESTS D'AJUSTEMENT 1. Mise en place du test q On commence par formuler l'hypothèse nulle, Ho : la distribution observée dans l'échantillon est conforme à la distribution théorique présumée. q Soient Oi l'effectif observé de la valeur xi (ou de la classe de centre xi) et Ti l'effectif théorique correspondant. On calcule le rapport : 2obs =  ( Oi - Ti )2 Ti q On détermine le nombre de degrés de liberté  : • si la distribution théorique est connue,  = k - 1 k, étant le nombre de classes Ce sera le cas des comparaisons d'une fréquence observée à une fréquence théorique connue. • si la distribution théorique est déterminée en estimant certains de ses paramètres :  = k - m - 1 k : nombre de classes m : nombre de paramètres estimés à partir des observations q On compare le 2 observé au 2 table qui sera fonction de  et de , le risque d'erreur adopté. • Si  obs < 2 table , on accepte Ho ; la différence est non significative au risque choisi. • Si  obs ≥ 2 table , on rejette Ho. • Le test du 2 ne peut s'appliquer qu'à condition que chaque classe ait un effectif supérieur ou égal à 5. Si cette condition n'est pas remplie, il faudra prévoir un regroupement des classes tout en faisant attention à la valeur de  ! • La valeur du 2 se calcule avec des effectifs et non des fréquences. Les valeurs observées sont toujours des nombres entiers ; les valeurs calculées peuvent être décimales et ne doivent pas être arrondies. • La table du 2 est limitée à  = 30. Au-dessus de cette valeur, on utilise le fait que le paramètre 2 2 est distribué approximativement suivant une loi normale, de moyenne 2  - 1 et d'écart type égal à 1. Cela revient à utiliser la table de l'écart réduit avec : U = 2 2 - 2  - 1 U étant alors une variable aléatoire distribuée suivant une loi normale centrée réduite.
  • 40. ______________________________________________________________________________ 37 _____________________________________________________________________________ 6. Test du khi-deux 2. Tests de conformité Exemple. Le dihybridisme On a croisé 12 variétés de plantes différant par 2 caractères A et B. La deuxième génération fait apparaître 4 types de plantes notées AB, Ab, aB et ab avec les proportions théoriques 9/16, 3/16, 3/16 et 1/16 respectivement (Loi de Mendel). Dans une expérience, un échantillon de 160 plantes a donné : AB = 100 Ab = 18 aB = 24 ab = 18 Cette répartition est-elle conforme à la loi de Mendel ? Prendre  = 0,05. ******** Ho : la distribution observée est conforme à la distribution théorique. Si l'échantillon est conforme à la loi de Mendel, le 2 calculé doit être inférieur à celui donné par la table au risque de 5 %. Donc pour  = 5 % et  = 4-1 = 3, 2 table = 7,815 (table IV) Calcul du 2 obs AB Ab aB ab Total Répartition observée 100 18 24 18 160 Répartition calculée 90 30 30 10 160 2 obs. = (100-90)2 90 + ....... (18-10)2 10 = 102 90 + (-12)2 30 + (-6)2 30 + 82 10 = 13,511 Donc 2 obs. > 2 table , on doit rejeter Ho ; la distribution observée n'est pas conforme à la distribution théorique. Autrement dit, l'échantillon n'est pas conforme à la loi de Mendel. 3. Tests d'ajustement On appelle ajustement à une loi théorique T, l'opération qui consiste à associer à un ensemble d'observations O, une loi théorique de probabilité telle que O puisse être considéré comme un échantillon issu d'une population obéissant à la loi T. Le choix de T repose alors : - soit sur des raisons purement théoriques ; - soit sur des résultats expérimentaux : allure de l'histogramme, valeurs des paramètres etc. Les tests d'ajustement ont donc pour but de vérifier si une population étudiée, à partir d'un échantillon aléatoire, peut être considérée comme conforme à une population théorique donnée. Il s'agit alors de savoir si les écarts constatés entre les effectifs observés et les effectifs théoriques, c'est-à-dire ceux que l'on devrait obtenir si la population étudiée est conforme à la population théorique, peuvent être, ou non, expliqués par le hasard de l'échantillonnage. 1. Exemple d'ajustement à une loi normale
  • 41. ______________________________________________________________________________ 38 _____________________________________________________________________________ 6. Test du khi-deux On a pesé 300 œufs et on a obtenu la série suivante (centres de classes), les résultats étant exprimés en g. xi (g) 32 36 40 44 48 52 56 60 64 68 ni 6 13 32 41 60 50 52 26 14 6 1. Calculer la moyenne et l'écart type de cet échantillon. 2. Peut-on considérer que les poids de ces œufs sont répartis selon une distribution normale ? ********* Si la distribution proposée obéit à une loi normale, la moyenne et l'écart type de cette loi normale sont convenablement estimés par la moyenne et l'écart type de la distribution. Le tableau ci-dessous résume l'essentiel des calculs à réaliser ; pour des commodités de calcul les classes sont légèrement modifiées. Classes xi ni O nixi nixi2 u (u) Probabilité Effectif théorique, T (O-T)2 T ] - - 34 ] 32 6 192 6144 6,35 0,01929 34 -2,03 0,0212 0,0212 ] 34 - 38 ] 36 13 468 16848 0,0431 12,94 0,00028 38 -1,52 0,0643 ] 38 - 42 ] 40 32 1280 51200 0,0919 27,57 0,71182 42 -1,01 0,1562 ] 42 - 46 ] 44 41 1804 79376 0,1488 44,64 0,29681 46 -0,51 0,3050 ] 46 - 50 ] 48 60 2880 138240 0,1950 58,5 0,03846 50 0,00 0,5000 ] 50 - 54 ] 52 50 2600 135200 0,1950 58,5 1,23504 54 0,51 0,6950 ] 54 - 58 ] 56 52 2912 163072 0,1488 44,64 1,21348 58 1,01 0,8438 ] 58 - 62 ] 60 26 1560 93600 0,0919 27,57 0,08941 62 1,52 0,9357 ] 62 - 66 ] 64 14 896 57344 0,0431 12,93 0,08855 66 2,03 0,9788 ] 66 - +  ] 68 6 408 27744 0,0212 6,36 0,02038 70 Totaux 300 15000 768768 1,00 300 2 obs = 3,714 moyenne, x x =  nixi n = 50 g  population =[ nixi 2 n ] - x 2 = 62,56 g2 ^ 2 estimée ^ 2 = n n - 1 .  = 62,77 g2 ^ estimée ^ = ^2 = 7,9 g ddl,   = 10 - 2 - 1 = 7  table,  = 0,05 14,07
  • 42. ______________________________________________________________________________ 39 _____________________________________________________________________________ 6. Test du khi-deux décision statistique  obs (3,714) <  table (14,07) On accepte Ho, l'hypothèse de normalité de la distribution proposée. Sur le tableau ci-dessus, nous observons que : x = 50 g ; ^ estimé = 7,9 g Le nombre de paramètres estimés est donc égal à 2. • L'étape suivante consiste à calculer pour chaque classe, l'effectif théorique qui lui est associé. Par exemple, pour la classe ] 58 - 62 ] - en grisé sur le tableau ci-dessus - si la distribution proposée était normale, avec u = X - x  et en remplaçant x et  par leurs valeurs respectives, on a : Prob (58 < X ≤ 62) = Prob (1,01 < u ≤ 1,52) = Prob (u ≤ 1,52) - Prob (u < 1,01) = 0,9357 - 0,8438 = 0,0919 L'effectif théorique de cette classe sera donc : 300 x 0,0919 = 27,57 Il en sera de même pour les autres classes. • À noter que la dernière probabilité - en grisé sur le tableau ci-dessus -, s'obtient tout simplement par différence entre la probabilité totale (1) et la dernière probabilité " cumulée ": 1 - 0,9788 = 0,0212 • Les effectifs théoriques étant tous supérieurs à 5, nous n'avons pas à procéder à un regroupement des classes. • Le 2 observé s'obtient aisément par addition des nombres de la dernière colonne Au risque de 5 %, on accepte l'hypothèse que la distribution proposée obéit à une loi normale de moyenne x 50 g et d'écart type ^ estimé = 7,9 g. 2. Exemple d'ajustement à une loi de Poisson Exemple Dans une région particulière, le nombre de vêlages pour une période de 80 jours se répartit comme suit : nombre de vêlages, xi 0 1 2 3 4 5 6 et plus nombre de jours, ni 18 23 20 9 4 3 3 1. Estimer la moyenne et la variance de la population à partir de cet échantillon 2. Peut-on admettre au risque de 0,05 que la population obéit à une loi de Poisson ?
  • 43. ______________________________________________________________________________ 40 _____________________________________________________________________________ 6. Test du khi-deux ******** • Ho : la distribution observée est conforme à une loi de Poisson. Le tableau ci-dessous résume l'essentiel des calculs à effectuer. Totaux xi 0 1 2 3 4 5 6 et plus 7 = k ni, O 18 23 20 9 4 3 3 80 nixi 0 23 40 27 16 15 18 139 nixi 2 0 23 80 81 64 75 108 431 Prob (x=k) 0,1827 0,3106 0,2640 0,1496 0,0636 0,0216 0,0080 1,00 n théor., T 14,61 24,84 21,12 11,97 5,09 1,73 0,64 80,0 14,61 24,84 21,12 11,97 7,46 5 = k' ( O-T )2 T 0,791 0,130 0,057 0,752 0,869 2 obs 2,599 n 80 moyenne, x 1,737 ≈ 1,7 variance population ,  2,369 variance estimée, ^ 2 2,399 écart type estimé, ^ 1,549 risque d'erreur,  0,05 ddl, k' - 1 - 1 5 - 1 - 1 = 3  table,  = 3; = 0,05 7,815 décision statistique : 2 obs (2,599) < 2 table (7,815). On accepte Ho. La distribution observée est donc conforme à la loi de Poisson. • Le calcul de la moyenne et de la variance estimées donne : x = 1,737 ≈ 1,7 et ^ 2 = 2,399 Rappelons qu'une loi de Poisson est définie par un seul paramètre qui est la moyenne m = n.p Pour calculer les effectifs théoriques, on applique la loi de Poisson , c'est-à-dire : Prob ( X = k ) = e-m . mk k ! = e-1,7 . 1,7k k ! Noter que la dernière probabilité, en grisé sur le tableau ci-dessus s'obtient de la manière suivante : Prob (X ≥ 6) = 1 - Prob (X ≤ 5) = 1 - 0,9920 = 0,0080
  • 44. ______________________________________________________________________________ 41 _____________________________________________________________________________ 6. Test du khi-deux Noter aussi que nous avons regroupé les trois dernières classes pour que l'effectif soit supérieur à 5.
  • 45. ______________________________________________________________________________ 42 _____________________________________________________________________________ 6. Test du khi-deux III. COMPARAISON DE RÉPARTITIONS OBSERVÉES ENTRE ELLES : TEST D'HOMOGÉNÉITÉ 1. Position du problème et présentation des données Il s'agit de comparer entre elles des distributions relatives à plusieurs échantillons afin de déterminer si les différences observées sont significatives ou seulement dues au hasard de l'échantillonnage. Les données observées doivent être groupées dans un tableau à double entrée, appelé tableau de contingence (voir la première partie) et qui se présente sous l'allure suivante, le caractère étudié "prend les valeurs" a, b, c, ....d. Caractère étudié Répartition a b c ..... .... d Total Répartition A n1 Répartition B n2 Répartition C n3 . . . . . . Total n'1 n'2 n'3 n'4 N Pour un tableau à L lignes et C colonnes, on peut choisir (L-1) (C-1) effectifs. Cette valeur représente alors le nombre de degrés de liberté pour le test en question. 2. Calcul des valeurs théoriques Pour les déterminer, on fait l'hypothèse nulle ou l'hypothèse d'homogénéité, c'est-à-dire que l'on suppose les échantillons homogènes. Donc, sur N sujets, il y a n'1 pour lesquels le caractère est a. Combien y a -t-il de sujets pour lesquels le caractère est a, sur n1 ? On obtient n'1 N . n1 qui représente la valeur calculée pour la première case (caractère a, répartition A) sur la base de l'hypothèse d'homogénéité. De la même façon, on peut déterminer les autres valeurs calculées pour les autres cases. Le test du 2 permettra alors de comparer les valeurs théoriques aux valeurs observées avec un ddl = (L-1)(C-1). • Si 2 obs. < 2 table  Ho peut être acceptée • Si 2 obs. ≥ 2 table  Ho est à rejeter
  • 46. ______________________________________________________________________________ 43 _____________________________________________________________________________ 6. Test du khi-deux 3. Exemple Le tableau suivant indique le résultat de l'examen de 120 sujets, classés d'après la couleur de leurs yeux et la couleur de leurs cheveux. On demande s'il existe une liaison entre ces 2 caractères. Couleur des cheveux Couleur des yeux Blonds Bruns Noirs Roux Total Bleus 24 10 4 6 44 Verts 15 16 9 7 47 Marron 7 12 6 4 29 Total 46 38 19 17 120 ******** Nous devons tester l'hypothèse nulle : Ho : la répartition de la couleur des cheveux est indépendante de celle des yeux. S'il n'existe pas de liaison entre ces caractères, il doit y avoir le même pourcentage de blonds parmi les individus aux yeux bleus que parmi les individus aux yeux marron ou le même pourcentage d'individus aux yeux verts parmi les individus bruns que parmi les roux. • Ho = Population homogène et on en déduit les proportions en regroupant tous les échantillons. Le tableau ci-dessous résume l'ensemble des résultats nécessaires aux calculs. Couleur des cheveux Couleur des yeux Blonds Bruns Noirs Roux Totaux Bleus n observés , O 24 10 4 6 44 n théoriques , T 16,9 13,9 7,0 6,2 44 (O-T)2/T 3,02 1,11 1,26 0,01 5,40 Verts n observés , O 15 16 9 7 47 n théoriques , T 18,0 14,9 7,4 6,7 47 (O-T)2/T 0,51 0,08 0,33 0,00 0,93 Marron n observés , O 7 12 6 4 29 n théoriques , T 11,1 9,2 4,6 4,1 29 (O-T)2/T 1,52 0,86 0,43 0,00 2,82 Total 120 obs = 9,16 Sur 120 individus  46 sont blonds , c'est-à-dire 38,33 %  38 sont bruns , c'est-à-dire 31,66 %
  • 47. ______________________________________________________________________________ 44 _____________________________________________________________________________ 6. Test du khi-deux Si 38,33 % des individus sont blonds, parmi les 44 individus aux yeux bleus, on aurait du trouver : 44 . 38,33 100 = 16, 9 "blonds" (au lieu des 24 observés, valeur en grisé sur le tableau ci-dessus) 44 . 31,66 100 = 13,9 "bruns" (au lieu des 10 observés, valeur en grisé sur le tableau ci-dessus) etc. • On calcule ensuite l'expression 2 obs = (Oi - Ti)2 Ti et on additionne ces 12 expressions. 2 obs = (24-16,9)2 16,9 + (10 - 13,9)2 13,9 + ........ + (4 - 4,1)2 4,1 = 9,16 Les calculs peuvent être simplifiés s' ils sont présentés comme dans le tableau ci-dessus. • ddl =  = (C-1)(L-1) = 3 x 2 = 6 • Pour = 6 et  = 5 % , 2 table = 12,59 • 2 obs < 2 table , on accepte donc Ho. Il n' existe pas de liaison entre la couleur des yeux et celle des cheveux. Ce test porte le nom de test d'indépendance. IV. CAS PARTICULIER : COMPARAISON DE DEUX FRÉQUENCES Exemple. Le taux de glycémie (taux de glucose dans le sang) a été mesuré chez 82 enfants prématurés. Il y a : - hypoglycémie si la glycémie ≤ 30 cg/l - hyperglycémie si la glycémie > 30 cg/l Garçons Filles Effectifs observés Hypoglycémie Normoglycémie 18 22 11 31 29 53 Total 40 42 82 Problème posé : la fille est-elle moins sujette que le garçon à présenter une hypoglycémie ? ******** Première méthode : comparaison de deux fréquences observées. Calcul de  = pA - pB pq nA + pq nB
  • 48. ______________________________________________________________________________ 45 _____________________________________________________________________________ 6. Test du khi-deux Il s'agit de savoir si la différence entre pA = 18/40 et pB = 11/42 est significative ou non. Ho : pA = pB pA = 18/40 = 0,45 pB = 11/42 = 0,26 Calcul de p = 18 + 11 40 + 42 = 29 82 = 0,354  q = 0,646 nA = 40 et nB = 42 obs = 0,45 - 0,26 0,354 . 0,646 40 + 0,354 . 0,646 42 = 0,19 0,1054 = 1,80 Pour  = 0,05, table = 1,96 obs < table, la différence est non significative à 5 %. Le taux de glycémie est le même chez les garçons et les filles. Deuxième méthode. Calcul du 2 Ho : les deux populations sont homogènes.  Garçons Filles Effectifs observés Hypoglycémie Normoglycémie 18 (14,15) 22 (25,85) 11 (14,85) 31 (27,15) 29 53 Total 40 42 82  Les effectifs théoriques sont entre parenthèses sur le tableau ci-dessus. Exemple. 14,15 = 29 x 40 82 (en grisé sur le tableau)  2 obs. = (18-14,15)2 14,5 + ..........+ (31-27,15)2 27,15 = 3,24 Pour  = (2-1)(2-1) = 1 et  = 5 % le 2 table = 3,84  2 obs. < 2 table , la différence est non significative à 5 % Il y a donc indépendance entre le sexe et l'hypoglycémie. On ne peut pas prétendre, au vu de cet échantillon, que la fille soit moins sujette que le garçon à l'hypoglycémie.
  • 50. ______________________________________________________________________________ 47 _____________________________________________________________________________ Tables statistiques TABLE I TABLE DE LA DISTRIBUTION NORMALE RÉDUITE FONCTION DE RÉPARTITION  (u) =   - u 1 2 e -1/2 u2 du Exemple :  (0,52) = 0,6985 ;  (-1,93) = 1 -  (1,93) = 1 - 0,97320 = 0,02680 u 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09 0,0 0,5000 0,5040 0,5080 0,5120 0,5160 0,5199 0,5239 0,5279 0,5319 0,5359 0,1 0,5398 0,5438 0,5478 0,5517 0,5557 0,5596 0,5636 0,5675 0,5714 0,5753 0,2 0,5793 0,5832 0,5871 0,5910 0,5948 0,5987 0,6026 0,6064 0,6103 0,6141 0,3 0,6179 0,6217 0,6255 0,6293 0,6331 0,6368 0,6406 0,6443 0,6480 0,6517 0,4 0,6554 0,6591 0,6628 0,6664 0,6700 0,6736 0,6772 0,6808 0,6844 0,6879 0,5 0,6915 0,6950 0,6985 0,7019 0,7054 0,7088 0,7123 0,7157 0,7190 0,7224 0,6 0,7257 0,7291 0,7324 0,7357 0,7389 0,7422 0,7454 0,7486 0,7517 0,7549 0,7 0,7580 0,7611 0,7642 0,7673 0,7704 0,7734 0,7764 0,7794 0,7823 0,7852 0,8 0,7881 0,7910 0,7939 0,7967 0,7995 0,8023 0,8051 0,8078 0,8106 0,8133 0,9 0,8159 0,8186 0,8212 0,8238 0,8264 0,8289 0,8315 0,8340 0,8365 0,8389 1,0 0,8413 0,8438 0,8461 0,8485 0,8508 0,8531 0,8554 0,8577 0,8599 0,8621 1,1 0,8643 0,8665 0,8686 0,8708 0,8729 0,8749 0,8770 0,8790 0,8810 0,8830 1,2 0,8849 0,8869 0,8888 0,8907 0,8925 0,8944 0,8962 0,8980 0,8997 0,9015 1,3 0,90320 0,90490 0,90658 0,90824 0,90988 0,91149 0,91308 0,91466 0,91621 0,91774 1,4 0,91924 0,92073 0,92220 0,92364 0,92507 0,92647 0,92785 0,92922 0,93056 0,93189 1,5 0,93319 0,93448 0,93574 0,93699 0,93822 0,93943 0,94062 0,94179 0,94295 0,94408 1,6 0,94520 0,94630 0,94738 0,94845 0,94950 0,95053 0,95154 0,95254 0,95352 0,95449 1,7 0,95543 0,95637 0,95728 0,95818 0,95907 0,95994 0,96080 0,96164 0,96246 0,96327 1,8 0,96407 0,96485 0,96562 0,96638 0,96712 0,96784 0,96856 0,96926 0,96995 0,97062 1,9 0,97128 0,97193 0,97257 0,97320 0,97381 0,97441 0,97500 0,97558 0,97615 0,97670 2,0 0,97725 0,97778 0,97831 0,97882 0,97932 0,97982 0,98030 0,98077 0,98124 0,98169 2,1 0,98214 0,98257 0,98300 0,98341 0,98382 0,98422 0,98461 0,98500 0,98537 0,98574 2,2 0,98610 0,98645 0,98679 0,98713 0,98745 0,98778 0,98809 0,98840 0,98870 0,98899 2,3 0,98928 0,98956 0,98983 0,99010 0,99036 0,99061 0,99086 0,99111 0,99134 0,99158 2,4 0,99180 0,99202 0,99224 0,99245 0,99266 0,99286 0,99305 0,99324 0,99343 0,99361 2,5 0,99379 0,99396 0,99413 0,99430 0,99446 0,99461 0,99477 0,99492 0,99506 0,99520 2,6 0,99534 0,99547 0,99560 0,99573 0,99585 0,99598 0,99609 0,99621 0,99632 0,99643 2,7 0,99653 0,99664 0,99674 0,99683 0,99693 0,99702 0,99711 0,99720 0,99728 0,99736 2,8 0,99744 0,99752 0,99760 0,99767 0,99774 0,99781 0,99788 0,99795 0,99801 0,99807 2,9 0,99813 0,99819 0,99825 0,99831 0,99836 0,99841 0,99846 0,99851 0,99856 0,99861 3,0 0,99865 0,99869 0,99874 0,99878 0,99882 0,99886 0,99889 0,99893 0,99896 0,99900 3,1 0,99903 0,99906 0,99910 0,99913 0,99916 0,99918 0,99921 0,99924 0,99926 0,99929 3,2 0,99931 0,99934 0,99936 0,99938 0,99940 0,99942 0,99944 0,99946 0,99948 0,99950 3,3 0,99952 0,99953 0,99955 0,99957 0,99958 0,99960 0,99961 0,99962 0,99964 0,99965 3,4 0,99966 0,99968 0,99969 0,99970 0,99971 0,99972 0,99973 0,99974 0,99975 0,99976 3,5 0,99977 0,99978 0,99978 0,99979 0,99980 0,99981 0,99981 0,99982 0,99983 0,99983 3,6 0,99984 0,99985 0,99985 0,99986 0,99986 0,99987 0,99987 0,99988 0,99988 0,99989 3,7 0,99989 0,99990 0,99990 0,99990 0,99991 0,99991 0,99992 0,99992 0,99992 0,99992
  • 51. ______________________________________________________________________________ 48 _____________________________________________________________________________ Tables statistiques 3,8 0,99993 0,99993 0,99993 0,99994 0,99994 0,99994 0,99994 0,99995 0,99995 0,99995 3,9 0,99995 0,99995 0,99996 0,99996 0,99996 0,99996 0,99996 0,99996 0,99997 0,99997
  • 52. ______________________________________________________________________________ 49 _____________________________________________________________________________ Tables statistiques TABLE II TABLE DE LA LOI NORMALE CENTRÉE, RÉDUITE N (0,1) OU TABLE DE L'ÉCART RÉDUIT 0 + -   / 2 + •  / 2 1 -  N (0,1) - • La probabilité  s'obtient par addition des nombres inscrits en marge. Exemple : Pour  = 1,96, la probabilité est  = 0,00 + 0,05 = 0,05  0 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09 0,00 ∞ 2,577 2,327 2,171 2,054 1,960 1,881 1,812 1,751 1,696 0,10 1,645 1,598 1,555 1,514 1,476 1,440 1,405 1,372 1,341 1,311 0,20 1,282 1,254 1,227 1,201 1,175 1,150 1,127 1,103 1,080 1,058 0,30 1,037 1,015 0,995 0,974 0,954 0,935 0,915 0,897 0,878 0,860 0,40 0,842 0,824 0,806 0,789 0,772 0,755 0,739 0,723 0,706 0,690 0,50 0,675 0,659 0,643 0,628 0,613 0,598 0,583 0,568 0,553 0,539 0,60 0,524 0,510 0,496 0,482 0,468 0,454 0,440 0,426 0,412 0,399 0,70 0,385 0,372 0,358 0,345 0,332 0,319 0,305 0,292 0,279 0,266 0,80 0,253 0,240 0,228 0,215 0,202 0,189 0,176 0,164 0,151 0,138 0,90 0,126 0,113 0,100 0,088 0,075 0,063 0,050 0,038 0,025 0,013 TABLES POUR LES PETITES VALEURS DE   0,001 0,000 1 0,000 01 0,000 001 0,000 000 1 0,000 000 01 0,000 000 001  3, 290 53 3,890 59 4,417 17 4,891 64 5,326 72 5,730 73 6,109 41
  • 53. ______________________________________________________________________________ 50 _____________________________________________________________________________ Tables statistiques TABLE III TABLE DE STUDENT La table donne la probabilité  pour que t égale ou dépasse, en valeur absolue, une valeur donnée, en fonction du nombre de degrés de liberté (ddl). Exemple : avec ddl = 10, pour t = 2,228, la probabilité est  = 0,05  0,90 0,50 0,30 0,20 0,10 0,05 0,02 0,01 0,001 ddl 1 0,158 1,000 1,963 3,078 6,314 12,706 31,821 63,656 636,578 2 0,142 0,816 1,386 1,886 2,920 4,303 6,965 9,925 31,600 3 0,137 0,765 1,250 1,638 2,353 3,182 4,541 5,841 12,924 4 0,134 0,741 1,190 1,533 2,132 2,776 3,747 4,604 8,610 5 0,132 0,727 1,156 1,476 2,015 2,571 3,365 4,032 6,869 6 0,131 0,718 1,134 1,440 1,943 2,447 3,143 3,707 5,959 7 0,130 0,711 1,119 1,415 1,895 2,365 2,998 3,499 5,408 8 0,130 0,706 1,108 1,397 1,860 2,306 2,896 3,355 5,041 9 0,129 0,703 1,100 1,383 1,833 2,262 2,821 3,250 4,781 10 0,129 0,700 1,093 1,372 1,812 2,228 2,764 3,169 4,587 11 0,129 0,697 1,088 1,363 1,796 2,201 2,718 3,106 4,437 12 0,128 0,695 1,083 1,356 1,782 2,179 2,681 3,055 4,318 13 0,128 0,694 1,079 1,350 1,771 2,160 2,650 3,012 4,221 14 0,128 0,692 1,076 1,345 1,761 2,145 2,624 2,977 4,140 15 0,128 0,691 1,074 1,341 1,753 2,131 2,602 2,947 4,073 16 0,128 0,690 1,071 1,337 1,746 2,120 2,583 2,921 4,015 17 0,128 0,689 1,069 1,333 1,740 2,110 2,567 2,898 3,965 18 0,127 0,688 1,067 1,330 1,734 2,101 2,552 2,878 3,922 19 0,127 0,688 1,066 1,328 1,729 2,093 2,539 2,861 3,883 20 0,127 0,687 1,064 1,325 1,725 2,086 2,528 2,845 3,850 21 0,127 0,686 1,063 1,323 1,721 2,080 2,518 2,831 3,819 22 0,127 0,686 1,061 1,321 1,717 2,074 2,508 2,819 3,792 23 0,127 0,685 1,060 1,319 1,714 2,069 2,500 2,807 3,768 24 0,127 0,685 1,059 1,318 1,711 2,064 2,492 2,797 3,745 25 0,127 0,684 1,058 1,316 1,708 2,060 2,485 2,787 3,725 26 0,127 0,684 1,058 1,315 1,706 2,056 2,479 2,779 3,707 27 0,127 0,684 1,057 1,314 1,703 2,052 2,473 2,771 3,689 28 0,127 0,683 1,056 1,313 1,701 2,048 2,467 2,763 3,674 29 0,127 0,683 1,055 1,311 1,699 2,045 2,462 2,756 3,660 30 0,127 0,683 1,055 1,310 1,697 2,042 2,457 2,750 3,646 40 0,126 0,681 1,050 1,303 1,684 2,021 2,423 2,704 3,551 80 0,126 0,678 1,043 1,292 1,664 1,990 2,374 2,639 3,416 120 0,126 0,677 1,041 1,289 1,658 1,980 2,358 2,617 3,373 ∞ 0,126 0,675 1,037 1,282 1,645 1,960 2,327 2,577 3,293
  • 54. ______________________________________________________________________________ 51 _____________________________________________________________________________ Tables statistiques TABLE IV TABLE DU 2 La table donne la probabilité  pour que 2 égale ou dépasse une valeur donnée, en fonction du nombre de degrés de liberté . Exemple : avec  = 3, pour 2 = 0,11 la probabilité  = 0,99.  0,99 0,975 0,95 0,90 0,10 0,05 0,025 0,01 0,001  1 0,0002 0,001 0,004 0,016 2,71 3,84 5,02 6,63 10,83 2 0,02 0,05 0,10 0,21 4,61 5,99 7,38 9,21 13,82 3 0,11 0,22 0,35 0,58 6,25 7,81 9,35 11,34 16,27 4 0,30 0,48 0,71 1,06 7,78 9,49 11,14 13,28 18,47 5 0,55 0,83 1,15 1,61 9,24 11,07 12,83 15,09 20,51 6 0,87 1,24 1,64 2,20 10,64 12,59 14,45 16,81 22,46 7 1,24 1,69 2,17 2,83 12,02 14,07 16,01 18,48 24,32 8 1,65 2,18 2,73 3,49 13,36 15,51 17,53 20,09 26,12 9 2,09 2,70 3,33 4,17 14,68 16,92 19,02 21,67 27,88 10 2,56 3,25 3,94 4,87 15,99 18,31 20,48 23,21 29,59 11 3,05 3,82 4,57 5,58 17,28 19,68 21,92 24,73 31,26 12 3,57 4,40 5,23 6,30 18,55 21,03 23,34 26,22 32,91 13 4,11 5,01 5,89 7,04 19,81 22,36 24,74 27,69 34,53 14 4,66 5,63 6,57 7,79 21,06 23,68 26,12 29,14 36,12 15 5,23 6,26 7,26 8,55 22,31 25,00 27,49 30,58 37,70 16 5,81 6,91 7,96 9,31 23,54 26,30 28,85 32,00 39,25 17 6,41 7,56 8,67 10,09 24,77 27,59 30,19 33,41 40,79 18 7,01 8,23 9,39 10,86 25,99 28,87 31,53 34,81 42,31 19 7,63 8,91 10,12 11,65 27,20 30,14 32,85 36,19 43,82 20 8,26 9,59 10,85 12,44 28,41 31,41 34,17 37,57 45,31 21 8,90 10,28 11,59 13,24 29,62 32,67 35,48 38,93 46,80 22 9,54 10,98 12,34 14,04 30,81 33,92 36,78 40,29 48,27 23 10,20 11,69 13,09 14,85 32,01 35,17 38,08 41,64 49,73 24 10,86 12,40 13,85 15,66 33,20 36,42 39,36 42,98 51,18 25 11,52 13,12 14,61 16,47 34,38 37,65 40,65 44,31 52,62 26 12,20 13,84 15,38 17,29 35,56 38,89 41,92 45,64 54,05 27 12,88 14,57 16,15 18,11 36,74 40,11 43,19 46,96 55,48 28 13,56 15,31 16,93 18,94 37,92 41,34 44,46 48,28 56,89 29 14,26 16,05 17,71 19,77 39,09 42,56 45,72 49,59 58,30 30 14,95 16,79 18,49 20,60 40,26 43,77 46,98 50,89 59,70
  • 55. ______________________________________________________________________________ 52 _____________________________________________________________________________ Tables statistiques BIBLIOGRAPHIE Les Statistiques : une approche nouvelle. Donald H. Sanders ; A. Franklin Murph et Robert J. Eng. 2e édition. McGraw-Hill, Éditeurs. Statistique et Probabilités. M. Laviéville. Dunod Université. Probabilité et statistique pour biologistes. F. Couty ; J. Debord et D. Fredon. Flash U. Armand Colin. Statistique : cours et exercices résolus . E. Azoulay et D. Cohen. Ediscience International. Théorie et méthodes statistiques. (Volumes 1 et 2) P. Dagnélie. Les Presses Agronomiques de Gembloux. Méthodes statistiques à l'usage des médecins et des biologistes. D. SChwartz Flammarion Medecine Sciences