SlideShare une entreprise Scribd logo
1  sur  44
Télécharger pour lire hors ligne
Stat 
descriptive 
Introduction 
Séries 
numériques 
Variables 
discrètes / 
continues 
Représentation 
graphique 
Statistiques 
Deux séries 
numériques 
Statistiques 
Régression : 
Introduction 
QQ-plots 
Cours 1 
Statistique descriptive 
Ismaël Castillo 
École des Ponts, 9 Octobre 2012
Stat 
descriptive 
Introduction 
Séries 
numériques 
Variables 
discrètes / 
continues 
Représentation 
graphique 
Statistiques 
Deux séries 
numériques 
Statistiques 
Régression : 
Introduction 
QQ-plots 
1 Introduction 
2 Séries numériques 
Variables discrètes / continues 
Représentation graphique 
Statistiques 
3 Deux séries numériques 
Statistiques 
Régression : Introduction 
QQ-plots
Stat 
descriptive 
Introduction 
Séries 
numériques 
Variables 
discrètes / 
continues 
Représentation 
graphique 
Statistiques 
Deux séries 
numériques 
Statistiques 
Régression : 
Introduction 
QQ-plots 
1. Introduction 
Objectifs 
Définir les quantités statistiques basiques 
Présenter les outils graphiques de la stat. descriptive 
On travaillera sur le jeu de données x1; : : : ; xn sans faire d’hypothèse a priori sur 
l’existence éventuelle d’un modèle probabiliste sous-jacent
Stat 
descriptive 
Introduction 
Séries 
numériques 
Variables 
discrètes / 
continues 
Représentation 
graphique 
Statistiques 
Deux séries 
numériques 
Statistiques 
Régression : 
Introduction 
QQ-plots 
2. Séries numériques 
L’objet de base = les données 
x1; : : : ; xn 
Dans ce premier cours, on considère le cas xi 2 R 
On parle de série numérique. 
On distinguera deux types de variables 
les variables discrètes 
I On dit qu’une série numérique correspond à une variable discrète si le 
nombre de valeurs différentes prises par x1; : : : ; xn est petit devant n 
les variables continues 
I les autres, typiquement x1; : : : ; xn correspond à n valeurs distinctes.
Stat 
descriptive 
Introduction 
Séries 
numériques 
Variables 
discrètes / 
continues 
Représentation 
graphique 
Statistiques 
Deux séries 
numériques 
Statistiques 
Régression : 
Introduction 
QQ-plots 
Histogrammes 
L’histogramme représente graphiquement le nombre de données par unité/bloc 
Histogramme, cas discret 
h(x) = 
Xn 
i=1 
1x=xi 
0 5 10 15 20 
rpois(100,lambda=5) 
1 2 3 4 5 6 7 8 9 10 
Remarque : L’histogramme normalisé est donné par h(x) = 1 
n 
Pni 
=1 1x=xi .
Stat 
descriptive 
Introduction 
Séries 
numériques 
Variables 
discrètes / 
continues 
Représentation 
graphique 
Statistiques 
Deux séries 
numériques 
Statistiques 
Régression : 
Introduction 
QQ-plots 
Histogrammes 
Histogramme, cas continu 
On se donne 
I Un nombre k de classes 
I Une partition de R en k intervalles I1; : : : ; Ik 
nj = 
Xk 
j=1 
1xi2Ij 
Alors 
h(x) = 
1 
n 
nj 
jIj j 
; si x 2 Ij 
Histogram of x 
x 
Density 
-1 0 1 2 3 4 5 
0.0 0.1 0.2 0.3 0.4
Stat 
descriptive 
Introduction 
Séries 
numériques 
Variables 
discrètes / 
continues 
Représentation 
graphique 
Statistiques 
Deux séries 
numériques 
Statistiques 
Régression : 
Introduction 
QQ-plots 
Histogrammes, choix du nombre de classes 
Les choix de k et de la partition I1; : : : ; Ik sont délicats. 
Souvent, on prend 
Une partition uniforme 
On cherche à avoir au moins 5 points par intervalle 
Histogram of x 
x 
Density 
-2 -1 0 1 2 3 4 5 
0.0 0.1 0.2 0.3 
Histogram of x 
x 
Density 
-1 0 1 2 3 4 5 
0.0 0.1 0.2 0.3 0.4 
Histogram of x 
x 
Density 
-1 0 1 2 3 4 5 
0.0 0.1 0.2 0.3 0.4
Stat 
descriptive 
Introduction 
Séries 
numériques 
Variables 
discrètes / 
continues 
Représentation 
graphique 
Statistiques 
Deux séries 
numériques 
Statistiques 
Régression : 
Introduction 
QQ-plots 
Fonction de répartition empirique 
Série numérique x1; : : : ; xn 
Definition 
La valeur en x de la fonction de répartition empirique associée à (x1; : : : ; xn) est 
la proportion d’éléments de la série plus petits que x 
^Fn(x) = 
1 
n 
Xn 
i=1 
1xix 
Propriétés 
^Fn : R ! [0; 1] 
^Fn est en escalier, croissante 
^Fn vaut 0 pour x  mini xi et 1 pour x  maxi xi
Stat 
descriptive 
Introduction 
Séries 
numériques 
Variables 
discrètes / 
continues 
Représentation 
graphique 
Statistiques 
Deux séries 
numériques 
Statistiques 
Régression : 
Introduction 
QQ-plots 
Fonction de répartition empirique 
0 2 4 6 8 10 12 
0.0 0.2 0.4 0.6 0.8 1.0 
x 
Fn(x) 
Exemple 1 : variable discrète 
n = 100 x1; : : : ; xn tirés 
selon une loi P(5)
Stat 
descriptive 
Introduction 
Séries 
numériques 
Variables 
discrètes / 
continues 
Représentation 
graphique 
Statistiques 
Deux séries 
numériques 
Statistiques 
Régression : 
Introduction 
QQ-plots 
Fonction de répartition empirique 
0 2 4 6 8 10 12 
0.0 0.2 0.4 0.6 0.8 1.0 
x 
Fn(x) 
Exemple 1 : variable discrète 
n = 100 x1; : : : ; xn tirés 
selon une loi P(5)
Stat 
descriptive 
Introduction 
Séries 
numériques 
Variables 
discrètes / 
continues 
Représentation 
graphique 
Statistiques 
Deux séries 
numériques 
Statistiques 
Régression : 
Introduction 
QQ-plots 
Fonction de répartition empirique 
0 1 2 3 4 
0.0 0.2 0.4 0.6 0.8 1.0 
ecdf(x2) 
x 
Fn(x) 
Exemple 2 : variable continue 
n = 100 
x1; : : : ; xn tirés 
selon une loi N(2; 1)
Stat 
descriptive 
Introduction 
Séries 
numériques 
Variables 
discrètes / 
continues 
Représentation 
graphique 
Statistiques 
Deux séries 
numériques 
Statistiques 
Régression : 
Introduction 
QQ-plots 
Fonction de répartition empirique 
0 1 2 3 4 
0.0 0.2 0.4 0.6 0.8 1.0 
ecdf(x2) 
x 
Fn(x) 
Exemple 2 : variable continue 
n = 100 
x1; : : : ; xn tirés 
selon une loi N(2; 1)
Stat 
descriptive 
Introduction 
Séries 
numériques 
Variables 
discrètes / 
continues 
Représentation 
graphique 
Statistiques 
Deux séries 
numériques 
Statistiques 
Régression : 
Introduction 
QQ-plots 
Statistiques 
Une statistique est une fonction des données, à valeurs dans Rp 
S(x1; : : : ; xn) 2 Rp 
Exemple S(x1; : : : ; xn) = max(x1; : : : ; xn) 
Les statistiques sont des aspects des données 
Idéalement, on cherche un petit nombre de statistiques qui va résumer les 
données x1; : : : ; xn. On distingue les 
statistiques de position 
statistiques de dispersion 
statistiques d’ordre (et quantiles) 
: : :
Stat 
descriptive 
Introduction 
Séries 
numériques 
Variables 
discrètes / 
continues 
Représentation 
graphique 
Statistiques 
Deux séries 
numériques 
Statistiques 
Régression : 
Introduction 
QQ-plots 
Statistiques de position de x1; : : : ; xn 
Moyenne x 
x = 
1 
n 
Xn 
i=1 
xi 
Médiane Medx C’est un nombre m qui sépare les données rangées dans l’ordre en 
deux ensembles de même taille. 
x(1)  x(2)  : : : j : : :  x(n1)  x(n) 
Il y a deux cas 
n = 2p + 1 impair x(1)  : : : x(p)  x(p+1)  x(p+2)  : : :  x(2p+1) 
Medx = x(p+1) 
n = 2p pair x(1)  : : :  x(p)  m  x(p+1)  : : :  x(2p) 
Medx = 
x(p) + x(p+1) 
2 
Remarque. Lorsque n est pair, il y a en général plusieurs nombres qui 
conviennent. Le choix ci-dessus est habituel.
Stat 
descriptive 
Introduction 
Séries 
numériques 
Variables 
discrètes / 
continues 
Représentation 
graphique 
Statistiques 
Deux séries 
numériques 
Statistiques 
Régression : 
Introduction 
QQ-plots 
Exercices et exemples 
Mode Modex (pour des données discrètes) C’est la valeur la plus fréquente au 
sein des données.
Stat 
descriptive 
Introduction 
Séries 
numériques 
Variables 
discrètes / 
continues 
Représentation 
graphique 
Statistiques 
Deux séries 
numériques 
Statistiques 
Régression : 
Introduction 
QQ-plots 
Exercices et exemples 
Mode Modex (pour des données discrètes) C’est la valeur la plus fréquente au 
sein des données. 
Exercice. Calculer moyenne, médiane et mode de 
s = (2;1; 0; 5; 8) 
t = (4; 1;3; 5; 3; 3;3; 6) 
x = (1; 1; 2; 3; 3; 3; 3; 9; 20)
Stat 
descriptive 
Introduction 
Séries 
numériques 
Variables 
discrètes / 
continues 
Représentation 
graphique 
Statistiques 
Deux séries 
numériques 
Statistiques 
Régression : 
Introduction 
QQ-plots 
Exercices et exemples 
Mode Modex (pour des données discrètes) C’est la valeur la plus fréquente au 
sein des données. 
Exercice. Calculer moyenne, médiane et mode de 
s = (2;1; 0; 5; 8) 
t = (4; 1;3; 5; 3; 3;3; 6) 
x = (1; 1; 2; 3; 3; 3; 3; 9; 20) 
s = 2 Medx = 0 Modex =  
t = 1 Medx = 2 Modex =  
x = 5 Medx = 3 Modex = 3
Stat 
descriptive 
Introduction 
Séries 
numériques 
Variables 
discrètes / 
continues 
Représentation 
graphique 
Statistiques 
Deux séries 
numériques 
Statistiques 
Régression : 
Introduction 
QQ-plots 
Exercices et exemples 
Mode Modex (pour des données discrètes) C’est la valeur la plus fréquente au 
sein des données. 
Exercice. Calculer moyenne, médiane et mode de 
s = (2;1; 0; 5; 8) 
t = (4; 1;3; 5; 3; 3;3; 6) 
x = (1; 1; 2; 3; 3; 3; 3; 9; 20) 
s = 2 Medx = 0 Modex =  
t = 1 Medx = 2 Modex =  
x = 5 Medx = 3 Modex = 3 
Illustration phénomène moyenne/médiane 
Salaire net moyen 2008 en France : 2069 euros/mois 
Salaire net médian 2008 en France : 1655 euros/mois
Stat 
descriptive 
Introduction 
Séries 
numériques 
Variables 
discrètes / 
continues 
Représentation 
graphique 
Statistiques 
Deux séries 
numériques 
Statistiques 
Régression : 
Introduction 
QQ-plots 
Exemple 
Exemple : moyenne/médiane pour un échantillon de loi de Cauchy 
-20 0 20 40 60 80 
-1.0 -0.5 0.0 0.5 1.0 
y 
z 
Exemple : Loi de Cauchy 
n = 50 
x1; : : : ; xn tirés 
selon une loi C(0; 1)
Stat 
descriptive 
Introduction 
Séries 
numériques 
Variables 
discrètes / 
continues 
Représentation 
graphique 
Statistiques 
Deux séries 
numériques 
Statistiques 
Régression : 
Introduction 
QQ-plots 
Exemple 
Exemple : moyenne/médiane pour un échantillon de loi de Cauchy 
-20 0 20 40 60 80 
-1.0 -0.5 0.0 0.5 1.0 
y 
z 
Exemple : Loi de Cauchy 
n = 50 
x1; : : : ; xn tirés 
selon une loi C(0; 1) 
Moyenne = 4.54 
Médiane = 0.27
Stat 
descriptive 
Introduction 
Séries 
numériques 
Variables 
discrètes / 
continues 
Représentation 
graphique 
Statistiques 
Deux séries 
numériques 
Statistiques 
Régression : 
Introduction 
QQ-plots 
Statistiques de dispersion de x1; : : : ; xn 
Variance vx 
vx = 
1 
n 
Xn 
i=1 
(xi  x)2 
Écart-type sx 
sx = 
p 
vx 
Premier quartile Q1 : médiane des données  Medx 
Troisième quartile Q3 : médiane des données  Medx 
Écart inter-quartile : Q3  Q1 
Remarque : Le deuxième quartile est la médiane des données
Stat 
descriptive 
Introduction 
Séries 
numériques 
Variables 
discrètes / 
continues 
Représentation 
graphique 
Statistiques 
Deux séries 
numériques 
Statistiques 
Régression : 
Introduction 
QQ-plots 
Exercices 
Exercice 1 : Moyenne et médiane d’échantillons 
Exercice 2 : Lesquelles des quantités précédentes sont invariantes par permutation 
des données, par translation des données d’une même quantité  ? Que 
deviennent-elles si on multiplie les données par   0 ? 
Exercice 3 : Distribution exactement symétrique 
On dit que x1; : : : ; xn est (exactement) symétrique par rapport au réel  si 
8a  0, la fréquence de  + a est égale à celle de   a. 
Calculer la moyenne et la médiane d’une série symétrique par rapport à .
Stat 
descriptive 
Introduction 
Séries 
numériques 
Variables 
discrètes / 
continues 
Représentation 
graphique 
Statistiques 
Deux séries 
numériques 
Statistiques 
Régression : 
Introduction 
QQ-plots 
Statistiques d’ordre et quantiles de x1; : : : ; xn 
Il est souvent utile de ranger les données dans l’ordre 
x(1) = min 
1in 
xi ; x(n) = max 
1in 
xi 
Il existe une permutation  2 n telle que 
x(1)  x(2)      x(n) 
On note x(k) = x(k) la statistique d’ordre de rang k.
Stat 
descriptive 
Introduction 
Séries 
numériques 
Variables 
discrètes / 
continues 
Représentation 
graphique 
Statistiques 
Deux séries 
numériques 
Statistiques 
Régression : 
Introduction 
QQ-plots 
Statistiques d’ordre et quantiles de x1; : : : ; xn 
Il est souvent utile de ranger les données dans l’ordre 
x(1) = min 
1in 
xi ; x(n) = max 
1in 
xi 
Il existe une permutation  2 n telle que 
x(1)  x(2)      x(n) 
On note x(k) = x(k) la statistique d’ordre de rang k. 
Le quantile d’ordre  noté qx 
est 
x(m); avec m = bnc 
On peut redéfinir quartiles et médiane par 
Q1 = qx 
0:25; Medx = qx 
0:5; Q3 = qx 
0:75 
Remarque : peut différer très légèrement de la définition précédente mais pas grave
Stat 
descriptive 
Introduction 
Séries 
numériques 
Variables 
discrètes / 
continues 
Représentation 
graphique 
Statistiques 
Deux séries 
numériques 
Statistiques 
Régression : 
Introduction 
QQ-plots 
Box plots (boîtes à moustaches) 
Un résumé pratique des données x1; : : : ; xn est donné par 
Medx , la médiane de l’échantillon 
Q1;Q3, premier et troisième quartiles 
A;B limites en dehors desquelles les données seront considérées comme 
aberrantes (atypiques, outliers). Souvent, 
A = minfxi : xi  Q1  1:5(Q3  Q1)g 
B = maxfxi : xi  Q3 + 1:5(Q3  Q1) 
Intérêts 
Résumé des données 
Comparaison d’échantillons
Stat 
descriptive 
Introduction 
Séries 
numériques 
Variables 
discrètes / 
continues 
Représentation 
graphique 
Statistiques 
Deux séries 
numériques 
Statistiques 
Régression : 
Introduction 
QQ-plots 
Box plots (boîtes à moustaches) 
-2 -1 0 1 
Exemple 1 : loi normale 
n = 50 
x1; : : : ; xn tirés 
selon une loi N(0; 1) 
Remarque. Si on prend les quartiles théoriques pour une loi N(0; 1), la proba pour un tirage x1 de ne pas 
être dans [A; B] est 0:7%
Stat 
descriptive 
Introduction 
Séries 
numériques 
Variables 
discrètes / 
continues 
Représentation 
graphique 
Statistiques 
Deux séries 
numériques 
Statistiques 
Régression : 
Introduction 
QQ-plots 
Box plots, exemples 
-15 -10 -5 0 5 10 
Exemple 1 : loi de Cauchy 
n = 50 
x1; : : : ; xn tirés 
selon une loi C(0; 1)
Stat 
descriptive 
Introduction 
Séries 
numériques 
Variables 
discrètes / 
continues 
Représentation 
graphique 
Statistiques 
Deux séries 
numériques 
Statistiques 
Régression : 
Introduction 
QQ-plots 
Comparaison de deux séries numériques 
On dispose de deux séries x1; : : : ; xn et y1; : : : ; yn qu’on veut comparer 
Exemples 
Etude du lien éventuel entre x et y 
I Taille et poids d’un même individu 
I Température et niveau de pollution à Paris un même jour 
Savoir si x proche d’une distribution théorique donnée (ex. normale)
Stat 
descriptive 
Introduction 
Séries 
numériques 
Variables 
discrètes / 
continues 
Représentation 
graphique 
Statistiques 
Deux séries 
numériques 
Statistiques 
Régression : 
Introduction 
QQ-plots 
Covariance et corrélation 
La covariance des séries x1; : : : ; xn et y1; : : : ; yn notée sx;y est 
sx;y = 
1 
n 
Xn 
i=1 
(xi  x)(yi  y)
Stat 
descriptive 
Introduction 
Séries 
numériques 
Variables 
discrètes / 
continues 
Représentation 
graphique 
Statistiques 
Deux séries 
numériques 
Statistiques 
Régression : 
Introduction 
QQ-plots 
Covariance et corrélation 
La covariance des séries x1; : : : ; xn et y1; : : : ; yn notée sx;y est 
sx;y = 
1 
n 
Xn 
i=1 
(xi  x)(yi  y) 
Le coefficient de corrélation linéaire x;y de x1; : : : ; xn et y1; : : : ; yn est 
xy = 
sxy 
sx sy
Stat 
descriptive 
Introduction 
Séries 
numériques 
Variables 
discrètes / 
continues 
Représentation 
graphique 
Statistiques 
Deux séries 
numériques 
Statistiques 
Régression : 
Introduction 
QQ-plots 
Covariance et corrélation 
La covariance des séries x1; : : : ; xn et y1; : : : ; yn notée sx;y est 
sx;y = 
1 
n 
Xn 
i=1 
(xi  x)(yi  y) 
Le coefficient de corrélation linéaire x;y de x1; : : : ; xn et y1; : : : ; yn est 
xy = 
sxy 
sx sy 
Proposition 
Pour toutes séries x et y, 
1  xy  1 
Cas d’égalité : jxy j = 1 si et seulement si les séries sont réliées par un relation 
affine : il existe a; b avec xi = ayi + b pour tout i = 1; : : : ; n.
Stat 
descriptive 
Introduction 
Séries 
numériques 
Variables 
discrètes / 
continues 
Représentation 
graphique 
Statistiques 
Deux séries 
numériques 
Statistiques 
Régression : 
Introduction 
QQ-plots 
Covariance et corrélation 
Exercice : Démontrer la Proposition
Stat 
descriptive 
Introduction 
Séries 
numériques 
Variables 
discrètes / 
continues 
Représentation 
graphique 
Statistiques 
Deux séries 
numériques 
Statistiques 
Régression : 
Introduction 
QQ-plots 
Nuage de points 
Le nuage de points associé aux séries x1; : : : ; xn et y1; : : : ; yn est la représentation 
des points de coordonnées (xi ; yi ) dans le plan. 
Parfois, on effectue un transformation préalable des données 
Exemple : nuage de points (log(xi ); log(yi ))
Stat 
descriptive 
Introduction 
Séries 
numériques 
Variables 
discrètes / 
continues 
Représentation 
graphique 
Statistiques 
Deux séries 
numériques 
Statistiques 
Régression : 
Introduction 
QQ-plots 
Droite de régression 
Pour un nuage de points (xi ; yi )i=1;:::;n, notons 
Mi le point de coordonnées (xi ; yi ) 
 la droite d’équation y = ax + b 
M0 
i le point de coordonnées (xi ; axi + b) 
(projection verticale de Mi sur la droite ) 
Droite de régression de Y sur X 
C’est la droite qui minimise la quantité 
Xn 
i=1 
i )2; 
d(Mi ;M0 
avec d(M;N) distance euclidienne entre les points M et N.
Stat 
descriptive 
Introduction 
Séries 
numériques 
Variables 
discrètes / 
continues 
Représentation 
graphique 
Statistiques 
Deux séries 
numériques 
Statistiques 
Régression : 
Introduction 
QQ-plots 
Droite de régression, exemple 
-4 -2 0 2 4 
-5 0 5 
x 
y
Stat 
descriptive 
Introduction 
Séries 
numériques 
Variables 
discrètes / 
continues 
Représentation 
graphique 
Statistiques 
Deux séries 
numériques 
Statistiques 
Régression : 
Introduction 
QQ-plots 
Droite de régression, exemple 
-4 -2 0 2 4 
-5 0 5 
x 
y
Stat 
descriptive 
Introduction 
Séries 
numériques 
Variables 
discrètes / 
continues 
Représentation 
graphique 
Statistiques 
Deux séries 
numériques 
Statistiques 
Régression : 
Introduction 
QQ-plots 
Droite de régression 
Proposition 
L’équation de la droite de régression de Y sur X est donnée par y = ax + b, avec 
a = 
sxy 
s2 
x 
; b = y  ax 
Exercice 
1 Interpréter géométriquement le coefficient b 
2 Démontrer la proposition 
3 Les droites de régression de Y sur X et de X sur Y coincident-elles ?
Stat 
descriptive 
Introduction 
Séries 
numériques 
Variables 
discrètes / 
continues 
Représentation 
graphique 
Statistiques 
Deux séries 
numériques 
Statistiques 
Régression : 
Introduction 
QQ-plots 
Droite de régression, exemple 
-4 -2 0 2 4 
-5 0 5 
x 
y
Stat 
descriptive 
Introduction 
Séries 
numériques 
Variables 
discrètes / 
continues 
Représentation 
graphique 
Statistiques 
Deux séries 
numériques 
Statistiques 
Régression : 
Introduction 
QQ-plots 
Droite de régression, exemple 
-4 -2 0 2 4 
-5 0 5 
x 
y
Stat 
descriptive 
Introduction 
Séries 
numériques 
Variables 
discrètes / 
continues 
Représentation 
graphique 
Statistiques 
Deux séries 
numériques 
Statistiques 
Régression : 
Introduction 
QQ-plots 
QQ-plots 
Premier cas : On cherche à répondre à la question 
Les séries x1; : : : ; xn et y1; : : : ; yn suivent-elles la même ‘distribution’ ? 
Le QQ-plot est dans ce cas le nuage de points (qy 
j ), où les qy 
j ; qx 
j ; qx 
j sont une 
suite de quantiles de y et x. 
Deuxième cas : On cherche à répondre à la question 
La série observée x1; : : : ; xn se représente-t-elle bien par une certaine loi 
théorique ? 
Le QQ-plot est dans ce cas le nuage de points (q 
j ; qx 
j sont une 
j ; qx 
j ), où les q 
suite de quantiles resp. de la loi théorique et des données x.
Stat 
descriptive 
Introduction 
Séries 
numériques 
Variables 
discrètes / 
continues 
Représentation 
graphique 
Statistiques 
Deux séries 
numériques 
Statistiques 
Régression : 
Introduction 
QQ-plots 
QQ-plots, exemple, cas 1 
Données précédentes droite de régression 
y = ax + b + 2,   N(0; 1) 
-4 -2 0 2 4 
-5 0 5 
x 
y
Stat 
descriptive 
Introduction 
Séries 
numériques 
Variables 
discrètes / 
continues 
Représentation 
graphique 
Statistiques 
Deux séries 
numériques 
Statistiques 
Régression : 
Introduction 
QQ-plots 
QQ-plots, exemple, cas 1 
Données précédentes droite de régression 
y = ax + b + 2,   N(0; 1) 
-4 -2 0 2 4 
-5 0 5 
x 
y
Stat 
descriptive 
Introduction 
Séries 
numériques 
Variables 
discrètes / 
continues 
Représentation 
graphique 
Statistiques 
Deux séries 
numériques 
Statistiques 
Régression : 
Introduction 
QQ-plots 
QQ-plots, exemple, cas 2 
-2 -1 0 1 2 
-1 0 1 2 3 4 
Normal Q-Q Plot 
Theoretical Quantiles 
Sample Quantiles 
Exemple : loi normale 
Échantillon x1; : : : ; xn 
de loi N(0; 1) 
QQ-plot 
Comparaison à la loi 
théorique N(0; 1)
Stat 
descriptive 
Introduction 
Séries 
numériques 
Variables 
discrètes / 
continues 
Représentation 
graphique 
Statistiques 
Deux séries 
numériques 
Statistiques 
Régression : 
Introduction 
QQ-plots 
Un dernier exercice 
Exercice : Répartition du PIB/habitant 
Faire l’Exercice 1.1 du polycopié

Contenu connexe

Tendances

Statistiques s2
Statistiques s2Statistiques s2
Statistiques s2hassan1488
 
Cours rep etat
Cours rep etatCours rep etat
Cours rep etatLin Pepin
 
Modelisation non supervisee
Modelisation non superviseeModelisation non supervisee
Modelisation non superviseeminiloka
 
Théorie de l’apprentissage et SVM : présentation rapide et premières idées da...
Théorie de l’apprentissage et SVM : présentation rapide et premières idées da...Théorie de l’apprentissage et SVM : présentation rapide et premières idées da...
Théorie de l’apprentissage et SVM : présentation rapide et premières idées da...tuxette
 
Fonction quadratique TS-4
Fonction quadratique TS-4Fonction quadratique TS-4
Fonction quadratique TS-4mathemathieu
 
Cours Statistiques
Cours Statistiques Cours Statistiques
Cours Statistiques PaulineKRUMM
 
éChantillonnage estimation
éChantillonnage   estimationéChantillonnage   estimation
éChantillonnage estimationmarouane hdidou
 
Approximation Linéaire - Droite d ajustement au sens des moindres carrés
Approximation Linéaire  -  Droite d ajustement au sens des moindres carrésApproximation Linéaire  -  Droite d ajustement au sens des moindres carrés
Approximation Linéaire - Droite d ajustement au sens des moindres carrésCédric Mouats
 
Probabilité +echantillonage
Probabilité +echantillonageProbabilité +echantillonage
Probabilité +echantillonageImad Cov
 
Chapitre 3 Les algorithmes de recherche et de tris
Chapitre 3 Les algorithmes de recherche et de trisChapitre 3 Les algorithmes de recherche et de tris
Chapitre 3 Les algorithmes de recherche et de trisMohamed Lahby
 
CHAPITRE VIII : Systèmes linéaires Modélisation & Simulation
CHAPITRE VIII :  Systèmes linéaires Modélisation & SimulationCHAPITRE VIII :  Systèmes linéaires Modélisation & Simulation
CHAPITRE VIII : Systèmes linéaires Modélisation & SimulationMohammed TAMALI
 
Représentation de l'Information Numérique
Représentation de l'Information NumériqueReprésentation de l'Information Numérique
Représentation de l'Information NumériquePhilippe METAYER
 
Expérimentation et interprétation des algorithmes de tri élémentaires tp algo...
Expérimentation et interprétation des algorithmes de tri élémentaires tp algo...Expérimentation et interprétation des algorithmes de tri élémentaires tp algo...
Expérimentation et interprétation des algorithmes de tri élémentaires tp algo...Soumia Elyakote HERMA
 

Tendances (19)

Statistiques s2
Statistiques s2Statistiques s2
Statistiques s2
 
Cours rep etat
Cours rep etatCours rep etat
Cours rep etat
 
(Cours régression)
(Cours régression)(Cours régression)
(Cours régression)
 
Cours1
Cours1Cours1
Cours1
 
Modelisation non supervisee
Modelisation non superviseeModelisation non supervisee
Modelisation non supervisee
 
Théorie de l’apprentissage et SVM : présentation rapide et premières idées da...
Théorie de l’apprentissage et SVM : présentation rapide et premières idées da...Théorie de l’apprentissage et SVM : présentation rapide et premières idées da...
Théorie de l’apprentissage et SVM : présentation rapide et premières idées da...
 
Statistiques- S2
Statistiques- S2Statistiques- S2
Statistiques- S2
 
Fonction quadratique TS-4
Fonction quadratique TS-4Fonction quadratique TS-4
Fonction quadratique TS-4
 
Cours Statistiques
Cours Statistiques Cours Statistiques
Cours Statistiques
 
éChantillonnage estimation
éChantillonnage   estimationéChantillonnage   estimation
éChantillonnage estimation
 
Approximation Linéaire - Droite d ajustement au sens des moindres carrés
Approximation Linéaire  -  Droite d ajustement au sens des moindres carrésApproximation Linéaire  -  Droite d ajustement au sens des moindres carrés
Approximation Linéaire - Droite d ajustement au sens des moindres carrés
 
Probabilité +echantillonage
Probabilité +echantillonageProbabilité +echantillonage
Probabilité +echantillonage
 
Statistiques
StatistiquesStatistiques
Statistiques
 
Alg.3 resolution des_systemes_lineaires
Alg.3 resolution des_systemes_lineairesAlg.3 resolution des_systemes_lineaires
Alg.3 resolution des_systemes_lineaires
 
Théo inf
Théo infThéo inf
Théo inf
 
Chapitre 3 Les algorithmes de recherche et de tris
Chapitre 3 Les algorithmes de recherche et de trisChapitre 3 Les algorithmes de recherche et de tris
Chapitre 3 Les algorithmes de recherche et de tris
 
CHAPITRE VIII : Systèmes linéaires Modélisation & Simulation
CHAPITRE VIII :  Systèmes linéaires Modélisation & SimulationCHAPITRE VIII :  Systèmes linéaires Modélisation & Simulation
CHAPITRE VIII : Systèmes linéaires Modélisation & Simulation
 
Représentation de l'Information Numérique
Représentation de l'Information NumériqueReprésentation de l'Information Numérique
Représentation de l'Information Numérique
 
Expérimentation et interprétation des algorithmes de tri élémentaires tp algo...
Expérimentation et interprétation des algorithmes de tri élémentaires tp algo...Expérimentation et interprétation des algorithmes de tri élémentaires tp algo...
Expérimentation et interprétation des algorithmes de tri élémentaires tp algo...
 

Similaire à Ponts castillo1 statistique

Statistiques descriptives [PDF].pptx
Statistiques descriptives [PDF].pptxStatistiques descriptives [PDF].pptx
Statistiques descriptives [PDF].pptxTarekDHAHRI1
 
Statistiques descriptives [PDF].pptx
Statistiques descriptives [PDF].pptxStatistiques descriptives [PDF].pptx
Statistiques descriptives [PDF].pptxTarekDHAHRI1
 
Analyse factorielle des_correspondances-afc
Analyse factorielle des_correspondances-afcAnalyse factorielle des_correspondances-afc
Analyse factorielle des_correspondances-afcRémi Bachelet
 
Mettre obligatoirement le titre de la leçon ici
Mettre obligatoirement le titre de la leçon iciMettre obligatoirement le titre de la leçon ici
Mettre obligatoirement le titre de la leçon iciwospro-academy
 
Les Filtres Numeriques
Les Filtres NumeriquesLes Filtres Numeriques
Les Filtres NumeriquesSAHELAicha
 
Cours stat. achrit tsge1
Cours stat. achrit tsge1Cours stat. achrit tsge1
Cours stat. achrit tsge1Ma Ac
 
Cours statistiques
Cours statistiquesCours statistiques
Cours statistiquesvauzelle
 
14284 chapitre-8-statistique
14284 chapitre-8-statistique14284 chapitre-8-statistique
14284 chapitre-8-statistiqueAlilo Mabhoour
 
FINAL.pptx
FINAL.pptxFINAL.pptx
FINAL.pptxsara6496
 
regression_multiple_pour_le_classement.pdf
regression_multiple_pour_le_classement.pdfregression_multiple_pour_le_classement.pdf
regression_multiple_pour_le_classement.pdfSidiAbdallah1
 
Econométrie appliquée--stationarité.pptx
Econométrie appliquée--stationarité.pptxEconométrie appliquée--stationarité.pptx
Econométrie appliquée--stationarité.pptxwidedbenmoussa2021
 
Cours programmation en matlab2 (1)
Cours programmation en matlab2 (1)Cours programmation en matlab2 (1)
Cours programmation en matlab2 (1)Guesmi Amal
 
chapitreoyfoyfoydoydiydiydiydiydiydiydiy 2.pdf
chapitreoyfoyfoydoydiydiydiydiydiydiydiy 2.pdfchapitreoyfoyfoydoydiydiydiydiydiydiydiy 2.pdf
chapitreoyfoyfoydoydiydiydiydiydiydiydiy 2.pdfjjjjyjjj77
 
BoiteOutilsMathematiques a l'usage des techniciens20181126.pdf
BoiteOutilsMathematiques a l'usage des techniciens20181126.pdfBoiteOutilsMathematiques a l'usage des techniciens20181126.pdf
BoiteOutilsMathematiques a l'usage des techniciens20181126.pdfsedmorabet
 

Similaire à Ponts castillo1 statistique (20)

Statistiques descriptives [PDF].pptx
Statistiques descriptives [PDF].pptxStatistiques descriptives [PDF].pptx
Statistiques descriptives [PDF].pptx
 
Statistiques descriptives [PDF].pptx
Statistiques descriptives [PDF].pptxStatistiques descriptives [PDF].pptx
Statistiques descriptives [PDF].pptx
 
Analyse factorielle des_correspondances-afc
Analyse factorielle des_correspondances-afcAnalyse factorielle des_correspondances-afc
Analyse factorielle des_correspondances-afc
 
Mettre obligatoirement le titre de la leçon ici
Mettre obligatoirement le titre de la leçon iciMettre obligatoirement le titre de la leçon ici
Mettre obligatoirement le titre de la leçon ici
 
COURS SUR LES SERIES TEMPORELLES
COURS SUR LES SERIES TEMPORELLESCOURS SUR LES SERIES TEMPORELLES
COURS SUR LES SERIES TEMPORELLES
 
Les Filtres Numeriques
Les Filtres NumeriquesLes Filtres Numeriques
Les Filtres Numeriques
 
Cours stat. achrit tsge1
Cours stat. achrit tsge1Cours stat. achrit tsge1
Cours stat. achrit tsge1
 
Cours statistiques
Cours statistiquesCours statistiques
Cours statistiques
 
14284 chapitre-8-statistique
14284 chapitre-8-statistique14284 chapitre-8-statistique
14284 chapitre-8-statistique
 
Sujettdtds
SujettdtdsSujettdtds
Sujettdtds
 
Stat1
Stat1Stat1
Stat1
 
FINAL.pptx
FINAL.pptxFINAL.pptx
FINAL.pptx
 
statistique dsc s1
   statistique dsc s1   statistique dsc s1
statistique dsc s1
 
Statistique Descriptive s1
Statistique Descriptive s1Statistique Descriptive s1
Statistique Descriptive s1
 
regression_multiple_pour_le_classement.pdf
regression_multiple_pour_le_classement.pdfregression_multiple_pour_le_classement.pdf
regression_multiple_pour_le_classement.pdf
 
Econométrie appliquée--stationarité.pptx
Econométrie appliquée--stationarité.pptxEconométrie appliquée--stationarité.pptx
Econométrie appliquée--stationarité.pptx
 
Cours masterlyon
Cours masterlyonCours masterlyon
Cours masterlyon
 
Cours programmation en matlab2 (1)
Cours programmation en matlab2 (1)Cours programmation en matlab2 (1)
Cours programmation en matlab2 (1)
 
chapitreoyfoyfoydoydiydiydiydiydiydiydiy 2.pdf
chapitreoyfoyfoydoydiydiydiydiydiydiydiy 2.pdfchapitreoyfoyfoydoydiydiydiydiydiydiydiy 2.pdf
chapitreoyfoyfoydoydiydiydiydiydiydiydiy 2.pdf
 
BoiteOutilsMathematiques a l'usage des techniciens20181126.pdf
BoiteOutilsMathematiques a l'usage des techniciens20181126.pdfBoiteOutilsMathematiques a l'usage des techniciens20181126.pdf
BoiteOutilsMathematiques a l'usage des techniciens20181126.pdf
 

Dernier

Bibdoc 2024 - Les maillons de la chaine du livre face aux enjeux écologiques.pdf
Bibdoc 2024 - Les maillons de la chaine du livre face aux enjeux écologiques.pdfBibdoc 2024 - Les maillons de la chaine du livre face aux enjeux écologiques.pdf
Bibdoc 2024 - Les maillons de la chaine du livre face aux enjeux écologiques.pdfBibdoc 37
 
Principe de fonctionnement d'un moteur 4 temps
Principe de fonctionnement d'un moteur 4 tempsPrincipe de fonctionnement d'un moteur 4 temps
Principe de fonctionnement d'un moteur 4 tempsRajiAbdelghani
 
Bibdoc 2024 - Ecologie du livre et creation de badge.pdf
Bibdoc 2024 - Ecologie du livre et creation de badge.pdfBibdoc 2024 - Ecologie du livre et creation de badge.pdf
Bibdoc 2024 - Ecologie du livre et creation de badge.pdfBibdoc 37
 
Bernard Réquichot.pptx Peintre français
Bernard Réquichot.pptx   Peintre françaisBernard Réquichot.pptx   Peintre français
Bernard Réquichot.pptx Peintre françaisTxaruka
 
SciencesPo_Aix_InnovationPédagogique_Atelier_IA.pdf
SciencesPo_Aix_InnovationPédagogique_Atelier_IA.pdfSciencesPo_Aix_InnovationPédagogique_Atelier_IA.pdf
SciencesPo_Aix_InnovationPédagogique_Atelier_IA.pdfSKennel
 
PIE-A2-P 5- Supports stagiaires.pptx.pdf
PIE-A2-P 5- Supports stagiaires.pptx.pdfPIE-A2-P 5- Supports stagiaires.pptx.pdf
PIE-A2-P 5- Supports stagiaires.pptx.pdfRiDaHAziz
 
PIE-A2-P4-support stagiaires sept 22-validé.pdf
PIE-A2-P4-support stagiaires sept 22-validé.pdfPIE-A2-P4-support stagiaires sept 22-validé.pdf
PIE-A2-P4-support stagiaires sept 22-validé.pdfRiDaHAziz
 
Zotero avancé - support de formation doctorants SHS 2024
Zotero avancé - support de formation doctorants SHS 2024Zotero avancé - support de formation doctorants SHS 2024
Zotero avancé - support de formation doctorants SHS 2024Alain Marois
 
Annie Ernaux Extérieurs. pptx. Exposition basée sur un livre .
Annie   Ernaux  Extérieurs. pptx. Exposition basée sur un livre .Annie   Ernaux  Extérieurs. pptx. Exposition basée sur un livre .
Annie Ernaux Extérieurs. pptx. Exposition basée sur un livre .Txaruka
 
SciencesPo_Aix_InnovationPédagogique_Bilan.pdf
SciencesPo_Aix_InnovationPédagogique_Bilan.pdfSciencesPo_Aix_InnovationPédagogique_Bilan.pdf
SciencesPo_Aix_InnovationPédagogique_Bilan.pdfSKennel
 
Cours SE Le système Linux : La ligne de commande bash - IG IPSET
Cours SE Le système Linux : La ligne de commande bash - IG IPSETCours SE Le système Linux : La ligne de commande bash - IG IPSET
Cours SE Le système Linux : La ligne de commande bash - IG IPSETMedBechir
 
LA MONTÉE DE L'ÉDUCATION DANS LE MONDE DE LA PRÉHISTOIRE À L'ÈRE CONTEMPORAIN...
LA MONTÉE DE L'ÉDUCATION DANS LE MONDE DE LA PRÉHISTOIRE À L'ÈRE CONTEMPORAIN...LA MONTÉE DE L'ÉDUCATION DANS LE MONDE DE LA PRÉHISTOIRE À L'ÈRE CONTEMPORAIN...
LA MONTÉE DE L'ÉDUCATION DANS LE MONDE DE LA PRÉHISTOIRE À L'ÈRE CONTEMPORAIN...Faga1939
 
SciencesPo_Aix_InnovationPédagogique_Conférence_SK.pdf
SciencesPo_Aix_InnovationPédagogique_Conférence_SK.pdfSciencesPo_Aix_InnovationPédagogique_Conférence_SK.pdf
SciencesPo_Aix_InnovationPédagogique_Conférence_SK.pdfSKennel
 
SciencesPo_Aix_InnovationPédagogique_Atelier_FormationRecherche.pdf
SciencesPo_Aix_InnovationPédagogique_Atelier_FormationRecherche.pdfSciencesPo_Aix_InnovationPédagogique_Atelier_FormationRecherche.pdf
SciencesPo_Aix_InnovationPédagogique_Atelier_FormationRecherche.pdfSKennel
 
Presentation de la plateforme Moodle - avril 2024
Presentation de la plateforme Moodle - avril 2024Presentation de la plateforme Moodle - avril 2024
Presentation de la plateforme Moodle - avril 2024Gilles Le Page
 
SciencesPo_Aix_InnovationPédagogique_Atelier_EtudiantActeur.pdf
SciencesPo_Aix_InnovationPédagogique_Atelier_EtudiantActeur.pdfSciencesPo_Aix_InnovationPédagogique_Atelier_EtudiantActeur.pdf
SciencesPo_Aix_InnovationPédagogique_Atelier_EtudiantActeur.pdfSKennel
 
Cours de Management des Systèmes d'information
Cours de Management des Systèmes d'informationCours de Management des Systèmes d'information
Cours de Management des Systèmes d'informationpapediallo3
 
Le Lean sur une ligne de production : Formation et mise en application directe
Le Lean sur une ligne de production : Formation et mise en application directeLe Lean sur une ligne de production : Formation et mise en application directe
Le Lean sur une ligne de production : Formation et mise en application directeXL Groupe
 
Cours SE Gestion des périphériques - IG IPSET
Cours SE Gestion des périphériques - IG IPSETCours SE Gestion des périphériques - IG IPSET
Cours SE Gestion des périphériques - IG IPSETMedBechir
 

Dernier (20)

Bibdoc 2024 - Les maillons de la chaine du livre face aux enjeux écologiques.pdf
Bibdoc 2024 - Les maillons de la chaine du livre face aux enjeux écologiques.pdfBibdoc 2024 - Les maillons de la chaine du livre face aux enjeux écologiques.pdf
Bibdoc 2024 - Les maillons de la chaine du livre face aux enjeux écologiques.pdf
 
Principe de fonctionnement d'un moteur 4 temps
Principe de fonctionnement d'un moteur 4 tempsPrincipe de fonctionnement d'un moteur 4 temps
Principe de fonctionnement d'un moteur 4 temps
 
Bibdoc 2024 - Ecologie du livre et creation de badge.pdf
Bibdoc 2024 - Ecologie du livre et creation de badge.pdfBibdoc 2024 - Ecologie du livre et creation de badge.pdf
Bibdoc 2024 - Ecologie du livre et creation de badge.pdf
 
Bernard Réquichot.pptx Peintre français
Bernard Réquichot.pptx   Peintre françaisBernard Réquichot.pptx   Peintre français
Bernard Réquichot.pptx Peintre français
 
SciencesPo_Aix_InnovationPédagogique_Atelier_IA.pdf
SciencesPo_Aix_InnovationPédagogique_Atelier_IA.pdfSciencesPo_Aix_InnovationPédagogique_Atelier_IA.pdf
SciencesPo_Aix_InnovationPédagogique_Atelier_IA.pdf
 
PIE-A2-P 5- Supports stagiaires.pptx.pdf
PIE-A2-P 5- Supports stagiaires.pptx.pdfPIE-A2-P 5- Supports stagiaires.pptx.pdf
PIE-A2-P 5- Supports stagiaires.pptx.pdf
 
PIE-A2-P4-support stagiaires sept 22-validé.pdf
PIE-A2-P4-support stagiaires sept 22-validé.pdfPIE-A2-P4-support stagiaires sept 22-validé.pdf
PIE-A2-P4-support stagiaires sept 22-validé.pdf
 
Zotero avancé - support de formation doctorants SHS 2024
Zotero avancé - support de formation doctorants SHS 2024Zotero avancé - support de formation doctorants SHS 2024
Zotero avancé - support de formation doctorants SHS 2024
 
Annie Ernaux Extérieurs. pptx. Exposition basée sur un livre .
Annie   Ernaux  Extérieurs. pptx. Exposition basée sur un livre .Annie   Ernaux  Extérieurs. pptx. Exposition basée sur un livre .
Annie Ernaux Extérieurs. pptx. Exposition basée sur un livre .
 
SciencesPo_Aix_InnovationPédagogique_Bilan.pdf
SciencesPo_Aix_InnovationPédagogique_Bilan.pdfSciencesPo_Aix_InnovationPédagogique_Bilan.pdf
SciencesPo_Aix_InnovationPédagogique_Bilan.pdf
 
Cours SE Le système Linux : La ligne de commande bash - IG IPSET
Cours SE Le système Linux : La ligne de commande bash - IG IPSETCours SE Le système Linux : La ligne de commande bash - IG IPSET
Cours SE Le système Linux : La ligne de commande bash - IG IPSET
 
LA MONTÉE DE L'ÉDUCATION DANS LE MONDE DE LA PRÉHISTOIRE À L'ÈRE CONTEMPORAIN...
LA MONTÉE DE L'ÉDUCATION DANS LE MONDE DE LA PRÉHISTOIRE À L'ÈRE CONTEMPORAIN...LA MONTÉE DE L'ÉDUCATION DANS LE MONDE DE LA PRÉHISTOIRE À L'ÈRE CONTEMPORAIN...
LA MONTÉE DE L'ÉDUCATION DANS LE MONDE DE LA PRÉHISTOIRE À L'ÈRE CONTEMPORAIN...
 
SciencesPo_Aix_InnovationPédagogique_Conférence_SK.pdf
SciencesPo_Aix_InnovationPédagogique_Conférence_SK.pdfSciencesPo_Aix_InnovationPédagogique_Conférence_SK.pdf
SciencesPo_Aix_InnovationPédagogique_Conférence_SK.pdf
 
SciencesPo_Aix_InnovationPédagogique_Atelier_FormationRecherche.pdf
SciencesPo_Aix_InnovationPédagogique_Atelier_FormationRecherche.pdfSciencesPo_Aix_InnovationPédagogique_Atelier_FormationRecherche.pdf
SciencesPo_Aix_InnovationPédagogique_Atelier_FormationRecherche.pdf
 
Presentation de la plateforme Moodle - avril 2024
Presentation de la plateforme Moodle - avril 2024Presentation de la plateforme Moodle - avril 2024
Presentation de la plateforme Moodle - avril 2024
 
SciencesPo_Aix_InnovationPédagogique_Atelier_EtudiantActeur.pdf
SciencesPo_Aix_InnovationPédagogique_Atelier_EtudiantActeur.pdfSciencesPo_Aix_InnovationPédagogique_Atelier_EtudiantActeur.pdf
SciencesPo_Aix_InnovationPédagogique_Atelier_EtudiantActeur.pdf
 
Cours de Management des Systèmes d'information
Cours de Management des Systèmes d'informationCours de Management des Systèmes d'information
Cours de Management des Systèmes d'information
 
Le Lean sur une ligne de production : Formation et mise en application directe
Le Lean sur une ligne de production : Formation et mise en application directeLe Lean sur une ligne de production : Formation et mise en application directe
Le Lean sur une ligne de production : Formation et mise en application directe
 
Cours SE Gestion des périphériques - IG IPSET
Cours SE Gestion des périphériques - IG IPSETCours SE Gestion des périphériques - IG IPSET
Cours SE Gestion des périphériques - IG IPSET
 
DO PALÁCIO À ASSEMBLEIA .
DO PALÁCIO À ASSEMBLEIA                 .DO PALÁCIO À ASSEMBLEIA                 .
DO PALÁCIO À ASSEMBLEIA .
 

Ponts castillo1 statistique

  • 1. Stat descriptive Introduction Séries numériques Variables discrètes / continues Représentation graphique Statistiques Deux séries numériques Statistiques Régression : Introduction QQ-plots Cours 1 Statistique descriptive Ismaël Castillo École des Ponts, 9 Octobre 2012
  • 2. Stat descriptive Introduction Séries numériques Variables discrètes / continues Représentation graphique Statistiques Deux séries numériques Statistiques Régression : Introduction QQ-plots 1 Introduction 2 Séries numériques Variables discrètes / continues Représentation graphique Statistiques 3 Deux séries numériques Statistiques Régression : Introduction QQ-plots
  • 3. Stat descriptive Introduction Séries numériques Variables discrètes / continues Représentation graphique Statistiques Deux séries numériques Statistiques Régression : Introduction QQ-plots 1. Introduction Objectifs Définir les quantités statistiques basiques Présenter les outils graphiques de la stat. descriptive On travaillera sur le jeu de données x1; : : : ; xn sans faire d’hypothèse a priori sur l’existence éventuelle d’un modèle probabiliste sous-jacent
  • 4. Stat descriptive Introduction Séries numériques Variables discrètes / continues Représentation graphique Statistiques Deux séries numériques Statistiques Régression : Introduction QQ-plots 2. Séries numériques L’objet de base = les données x1; : : : ; xn Dans ce premier cours, on considère le cas xi 2 R On parle de série numérique. On distinguera deux types de variables les variables discrètes I On dit qu’une série numérique correspond à une variable discrète si le nombre de valeurs différentes prises par x1; : : : ; xn est petit devant n les variables continues I les autres, typiquement x1; : : : ; xn correspond à n valeurs distinctes.
  • 5. Stat descriptive Introduction Séries numériques Variables discrètes / continues Représentation graphique Statistiques Deux séries numériques Statistiques Régression : Introduction QQ-plots Histogrammes L’histogramme représente graphiquement le nombre de données par unité/bloc Histogramme, cas discret h(x) = Xn i=1 1x=xi 0 5 10 15 20 rpois(100,lambda=5) 1 2 3 4 5 6 7 8 9 10 Remarque : L’histogramme normalisé est donné par h(x) = 1 n Pni =1 1x=xi .
  • 6. Stat descriptive Introduction Séries numériques Variables discrètes / continues Représentation graphique Statistiques Deux séries numériques Statistiques Régression : Introduction QQ-plots Histogrammes Histogramme, cas continu On se donne I Un nombre k de classes I Une partition de R en k intervalles I1; : : : ; Ik nj = Xk j=1 1xi2Ij Alors h(x) = 1 n nj jIj j ; si x 2 Ij Histogram of x x Density -1 0 1 2 3 4 5 0.0 0.1 0.2 0.3 0.4
  • 7. Stat descriptive Introduction Séries numériques Variables discrètes / continues Représentation graphique Statistiques Deux séries numériques Statistiques Régression : Introduction QQ-plots Histogrammes, choix du nombre de classes Les choix de k et de la partition I1; : : : ; Ik sont délicats. Souvent, on prend Une partition uniforme On cherche à avoir au moins 5 points par intervalle Histogram of x x Density -2 -1 0 1 2 3 4 5 0.0 0.1 0.2 0.3 Histogram of x x Density -1 0 1 2 3 4 5 0.0 0.1 0.2 0.3 0.4 Histogram of x x Density -1 0 1 2 3 4 5 0.0 0.1 0.2 0.3 0.4
  • 8. Stat descriptive Introduction Séries numériques Variables discrètes / continues Représentation graphique Statistiques Deux séries numériques Statistiques Régression : Introduction QQ-plots Fonction de répartition empirique Série numérique x1; : : : ; xn Definition La valeur en x de la fonction de répartition empirique associée à (x1; : : : ; xn) est la proportion d’éléments de la série plus petits que x ^Fn(x) = 1 n Xn i=1 1xix Propriétés ^Fn : R ! [0; 1] ^Fn est en escalier, croissante ^Fn vaut 0 pour x mini xi et 1 pour x maxi xi
  • 9. Stat descriptive Introduction Séries numériques Variables discrètes / continues Représentation graphique Statistiques Deux séries numériques Statistiques Régression : Introduction QQ-plots Fonction de répartition empirique 0 2 4 6 8 10 12 0.0 0.2 0.4 0.6 0.8 1.0 x Fn(x) Exemple 1 : variable discrète n = 100 x1; : : : ; xn tirés selon une loi P(5)
  • 10. Stat descriptive Introduction Séries numériques Variables discrètes / continues Représentation graphique Statistiques Deux séries numériques Statistiques Régression : Introduction QQ-plots Fonction de répartition empirique 0 2 4 6 8 10 12 0.0 0.2 0.4 0.6 0.8 1.0 x Fn(x) Exemple 1 : variable discrète n = 100 x1; : : : ; xn tirés selon une loi P(5)
  • 11. Stat descriptive Introduction Séries numériques Variables discrètes / continues Représentation graphique Statistiques Deux séries numériques Statistiques Régression : Introduction QQ-plots Fonction de répartition empirique 0 1 2 3 4 0.0 0.2 0.4 0.6 0.8 1.0 ecdf(x2) x Fn(x) Exemple 2 : variable continue n = 100 x1; : : : ; xn tirés selon une loi N(2; 1)
  • 12. Stat descriptive Introduction Séries numériques Variables discrètes / continues Représentation graphique Statistiques Deux séries numériques Statistiques Régression : Introduction QQ-plots Fonction de répartition empirique 0 1 2 3 4 0.0 0.2 0.4 0.6 0.8 1.0 ecdf(x2) x Fn(x) Exemple 2 : variable continue n = 100 x1; : : : ; xn tirés selon une loi N(2; 1)
  • 13. Stat descriptive Introduction Séries numériques Variables discrètes / continues Représentation graphique Statistiques Deux séries numériques Statistiques Régression : Introduction QQ-plots Statistiques Une statistique est une fonction des données, à valeurs dans Rp S(x1; : : : ; xn) 2 Rp Exemple S(x1; : : : ; xn) = max(x1; : : : ; xn) Les statistiques sont des aspects des données Idéalement, on cherche un petit nombre de statistiques qui va résumer les données x1; : : : ; xn. On distingue les statistiques de position statistiques de dispersion statistiques d’ordre (et quantiles) : : :
  • 14. Stat descriptive Introduction Séries numériques Variables discrètes / continues Représentation graphique Statistiques Deux séries numériques Statistiques Régression : Introduction QQ-plots Statistiques de position de x1; : : : ; xn Moyenne x x = 1 n Xn i=1 xi Médiane Medx C’est un nombre m qui sépare les données rangées dans l’ordre en deux ensembles de même taille. x(1) x(2) : : : j : : : x(n1) x(n) Il y a deux cas n = 2p + 1 impair x(1) : : : x(p) x(p+1) x(p+2) : : : x(2p+1) Medx = x(p+1) n = 2p pair x(1) : : : x(p) m x(p+1) : : : x(2p) Medx = x(p) + x(p+1) 2 Remarque. Lorsque n est pair, il y a en général plusieurs nombres qui conviennent. Le choix ci-dessus est habituel.
  • 15. Stat descriptive Introduction Séries numériques Variables discrètes / continues Représentation graphique Statistiques Deux séries numériques Statistiques Régression : Introduction QQ-plots Exercices et exemples Mode Modex (pour des données discrètes) C’est la valeur la plus fréquente au sein des données.
  • 16. Stat descriptive Introduction Séries numériques Variables discrètes / continues Représentation graphique Statistiques Deux séries numériques Statistiques Régression : Introduction QQ-plots Exercices et exemples Mode Modex (pour des données discrètes) C’est la valeur la plus fréquente au sein des données. Exercice. Calculer moyenne, médiane et mode de s = (2;1; 0; 5; 8) t = (4; 1;3; 5; 3; 3;3; 6) x = (1; 1; 2; 3; 3; 3; 3; 9; 20)
  • 17. Stat descriptive Introduction Séries numériques Variables discrètes / continues Représentation graphique Statistiques Deux séries numériques Statistiques Régression : Introduction QQ-plots Exercices et exemples Mode Modex (pour des données discrètes) C’est la valeur la plus fréquente au sein des données. Exercice. Calculer moyenne, médiane et mode de s = (2;1; 0; 5; 8) t = (4; 1;3; 5; 3; 3;3; 6) x = (1; 1; 2; 3; 3; 3; 3; 9; 20) s = 2 Medx = 0 Modex = t = 1 Medx = 2 Modex = x = 5 Medx = 3 Modex = 3
  • 18. Stat descriptive Introduction Séries numériques Variables discrètes / continues Représentation graphique Statistiques Deux séries numériques Statistiques Régression : Introduction QQ-plots Exercices et exemples Mode Modex (pour des données discrètes) C’est la valeur la plus fréquente au sein des données. Exercice. Calculer moyenne, médiane et mode de s = (2;1; 0; 5; 8) t = (4; 1;3; 5; 3; 3;3; 6) x = (1; 1; 2; 3; 3; 3; 3; 9; 20) s = 2 Medx = 0 Modex = t = 1 Medx = 2 Modex = x = 5 Medx = 3 Modex = 3 Illustration phénomène moyenne/médiane Salaire net moyen 2008 en France : 2069 euros/mois Salaire net médian 2008 en France : 1655 euros/mois
  • 19. Stat descriptive Introduction Séries numériques Variables discrètes / continues Représentation graphique Statistiques Deux séries numériques Statistiques Régression : Introduction QQ-plots Exemple Exemple : moyenne/médiane pour un échantillon de loi de Cauchy -20 0 20 40 60 80 -1.0 -0.5 0.0 0.5 1.0 y z Exemple : Loi de Cauchy n = 50 x1; : : : ; xn tirés selon une loi C(0; 1)
  • 20. Stat descriptive Introduction Séries numériques Variables discrètes / continues Représentation graphique Statistiques Deux séries numériques Statistiques Régression : Introduction QQ-plots Exemple Exemple : moyenne/médiane pour un échantillon de loi de Cauchy -20 0 20 40 60 80 -1.0 -0.5 0.0 0.5 1.0 y z Exemple : Loi de Cauchy n = 50 x1; : : : ; xn tirés selon une loi C(0; 1) Moyenne = 4.54 Médiane = 0.27
  • 21. Stat descriptive Introduction Séries numériques Variables discrètes / continues Représentation graphique Statistiques Deux séries numériques Statistiques Régression : Introduction QQ-plots Statistiques de dispersion de x1; : : : ; xn Variance vx vx = 1 n Xn i=1 (xi x)2 Écart-type sx sx = p vx Premier quartile Q1 : médiane des données Medx Troisième quartile Q3 : médiane des données Medx Écart inter-quartile : Q3 Q1 Remarque : Le deuxième quartile est la médiane des données
  • 22. Stat descriptive Introduction Séries numériques Variables discrètes / continues Représentation graphique Statistiques Deux séries numériques Statistiques Régression : Introduction QQ-plots Exercices Exercice 1 : Moyenne et médiane d’échantillons Exercice 2 : Lesquelles des quantités précédentes sont invariantes par permutation des données, par translation des données d’une même quantité ? Que deviennent-elles si on multiplie les données par 0 ? Exercice 3 : Distribution exactement symétrique On dit que x1; : : : ; xn est (exactement) symétrique par rapport au réel si 8a 0, la fréquence de + a est égale à celle de a. Calculer la moyenne et la médiane d’une série symétrique par rapport à .
  • 23. Stat descriptive Introduction Séries numériques Variables discrètes / continues Représentation graphique Statistiques Deux séries numériques Statistiques Régression : Introduction QQ-plots Statistiques d’ordre et quantiles de x1; : : : ; xn Il est souvent utile de ranger les données dans l’ordre x(1) = min 1in xi ; x(n) = max 1in xi Il existe une permutation 2 n telle que x(1) x(2) x(n) On note x(k) = x(k) la statistique d’ordre de rang k.
  • 24. Stat descriptive Introduction Séries numériques Variables discrètes / continues Représentation graphique Statistiques Deux séries numériques Statistiques Régression : Introduction QQ-plots Statistiques d’ordre et quantiles de x1; : : : ; xn Il est souvent utile de ranger les données dans l’ordre x(1) = min 1in xi ; x(n) = max 1in xi Il existe une permutation 2 n telle que x(1) x(2) x(n) On note x(k) = x(k) la statistique d’ordre de rang k. Le quantile d’ordre noté qx est x(m); avec m = bnc On peut redéfinir quartiles et médiane par Q1 = qx 0:25; Medx = qx 0:5; Q3 = qx 0:75 Remarque : peut différer très légèrement de la définition précédente mais pas grave
  • 25. Stat descriptive Introduction Séries numériques Variables discrètes / continues Représentation graphique Statistiques Deux séries numériques Statistiques Régression : Introduction QQ-plots Box plots (boîtes à moustaches) Un résumé pratique des données x1; : : : ; xn est donné par Medx , la médiane de l’échantillon Q1;Q3, premier et troisième quartiles A;B limites en dehors desquelles les données seront considérées comme aberrantes (atypiques, outliers). Souvent, A = minfxi : xi Q1 1:5(Q3 Q1)g B = maxfxi : xi Q3 + 1:5(Q3 Q1) Intérêts Résumé des données Comparaison d’échantillons
  • 26. Stat descriptive Introduction Séries numériques Variables discrètes / continues Représentation graphique Statistiques Deux séries numériques Statistiques Régression : Introduction QQ-plots Box plots (boîtes à moustaches) -2 -1 0 1 Exemple 1 : loi normale n = 50 x1; : : : ; xn tirés selon une loi N(0; 1) Remarque. Si on prend les quartiles théoriques pour une loi N(0; 1), la proba pour un tirage x1 de ne pas être dans [A; B] est 0:7%
  • 27. Stat descriptive Introduction Séries numériques Variables discrètes / continues Représentation graphique Statistiques Deux séries numériques Statistiques Régression : Introduction QQ-plots Box plots, exemples -15 -10 -5 0 5 10 Exemple 1 : loi de Cauchy n = 50 x1; : : : ; xn tirés selon une loi C(0; 1)
  • 28. Stat descriptive Introduction Séries numériques Variables discrètes / continues Représentation graphique Statistiques Deux séries numériques Statistiques Régression : Introduction QQ-plots Comparaison de deux séries numériques On dispose de deux séries x1; : : : ; xn et y1; : : : ; yn qu’on veut comparer Exemples Etude du lien éventuel entre x et y I Taille et poids d’un même individu I Température et niveau de pollution à Paris un même jour Savoir si x proche d’une distribution théorique donnée (ex. normale)
  • 29. Stat descriptive Introduction Séries numériques Variables discrètes / continues Représentation graphique Statistiques Deux séries numériques Statistiques Régression : Introduction QQ-plots Covariance et corrélation La covariance des séries x1; : : : ; xn et y1; : : : ; yn notée sx;y est sx;y = 1 n Xn i=1 (xi x)(yi y)
  • 30. Stat descriptive Introduction Séries numériques Variables discrètes / continues Représentation graphique Statistiques Deux séries numériques Statistiques Régression : Introduction QQ-plots Covariance et corrélation La covariance des séries x1; : : : ; xn et y1; : : : ; yn notée sx;y est sx;y = 1 n Xn i=1 (xi x)(yi y) Le coefficient de corrélation linéaire x;y de x1; : : : ; xn et y1; : : : ; yn est xy = sxy sx sy
  • 31. Stat descriptive Introduction Séries numériques Variables discrètes / continues Représentation graphique Statistiques Deux séries numériques Statistiques Régression : Introduction QQ-plots Covariance et corrélation La covariance des séries x1; : : : ; xn et y1; : : : ; yn notée sx;y est sx;y = 1 n Xn i=1 (xi x)(yi y) Le coefficient de corrélation linéaire x;y de x1; : : : ; xn et y1; : : : ; yn est xy = sxy sx sy Proposition Pour toutes séries x et y, 1 xy 1 Cas d’égalité : jxy j = 1 si et seulement si les séries sont réliées par un relation affine : il existe a; b avec xi = ayi + b pour tout i = 1; : : : ; n.
  • 32. Stat descriptive Introduction Séries numériques Variables discrètes / continues Représentation graphique Statistiques Deux séries numériques Statistiques Régression : Introduction QQ-plots Covariance et corrélation Exercice : Démontrer la Proposition
  • 33. Stat descriptive Introduction Séries numériques Variables discrètes / continues Représentation graphique Statistiques Deux séries numériques Statistiques Régression : Introduction QQ-plots Nuage de points Le nuage de points associé aux séries x1; : : : ; xn et y1; : : : ; yn est la représentation des points de coordonnées (xi ; yi ) dans le plan. Parfois, on effectue un transformation préalable des données Exemple : nuage de points (log(xi ); log(yi ))
  • 34. Stat descriptive Introduction Séries numériques Variables discrètes / continues Représentation graphique Statistiques Deux séries numériques Statistiques Régression : Introduction QQ-plots Droite de régression Pour un nuage de points (xi ; yi )i=1;:::;n, notons Mi le point de coordonnées (xi ; yi ) la droite d’équation y = ax + b M0 i le point de coordonnées (xi ; axi + b) (projection verticale de Mi sur la droite ) Droite de régression de Y sur X C’est la droite qui minimise la quantité Xn i=1 i )2; d(Mi ;M0 avec d(M;N) distance euclidienne entre les points M et N.
  • 35. Stat descriptive Introduction Séries numériques Variables discrètes / continues Représentation graphique Statistiques Deux séries numériques Statistiques Régression : Introduction QQ-plots Droite de régression, exemple -4 -2 0 2 4 -5 0 5 x y
  • 36. Stat descriptive Introduction Séries numériques Variables discrètes / continues Représentation graphique Statistiques Deux séries numériques Statistiques Régression : Introduction QQ-plots Droite de régression, exemple -4 -2 0 2 4 -5 0 5 x y
  • 37. Stat descriptive Introduction Séries numériques Variables discrètes / continues Représentation graphique Statistiques Deux séries numériques Statistiques Régression : Introduction QQ-plots Droite de régression Proposition L’équation de la droite de régression de Y sur X est donnée par y = ax + b, avec a = sxy s2 x ; b = y ax Exercice 1 Interpréter géométriquement le coefficient b 2 Démontrer la proposition 3 Les droites de régression de Y sur X et de X sur Y coincident-elles ?
  • 38. Stat descriptive Introduction Séries numériques Variables discrètes / continues Représentation graphique Statistiques Deux séries numériques Statistiques Régression : Introduction QQ-plots Droite de régression, exemple -4 -2 0 2 4 -5 0 5 x y
  • 39. Stat descriptive Introduction Séries numériques Variables discrètes / continues Représentation graphique Statistiques Deux séries numériques Statistiques Régression : Introduction QQ-plots Droite de régression, exemple -4 -2 0 2 4 -5 0 5 x y
  • 40. Stat descriptive Introduction Séries numériques Variables discrètes / continues Représentation graphique Statistiques Deux séries numériques Statistiques Régression : Introduction QQ-plots QQ-plots Premier cas : On cherche à répondre à la question Les séries x1; : : : ; xn et y1; : : : ; yn suivent-elles la même ‘distribution’ ? Le QQ-plot est dans ce cas le nuage de points (qy j ), où les qy j ; qx j ; qx j sont une suite de quantiles de y et x. Deuxième cas : On cherche à répondre à la question La série observée x1; : : : ; xn se représente-t-elle bien par une certaine loi théorique ? Le QQ-plot est dans ce cas le nuage de points (q j ; qx j sont une j ; qx j ), où les q suite de quantiles resp. de la loi théorique et des données x.
  • 41. Stat descriptive Introduction Séries numériques Variables discrètes / continues Représentation graphique Statistiques Deux séries numériques Statistiques Régression : Introduction QQ-plots QQ-plots, exemple, cas 1 Données précédentes droite de régression y = ax + b + 2, N(0; 1) -4 -2 0 2 4 -5 0 5 x y
  • 42. Stat descriptive Introduction Séries numériques Variables discrètes / continues Représentation graphique Statistiques Deux séries numériques Statistiques Régression : Introduction QQ-plots QQ-plots, exemple, cas 1 Données précédentes droite de régression y = ax + b + 2, N(0; 1) -4 -2 0 2 4 -5 0 5 x y
  • 43. Stat descriptive Introduction Séries numériques Variables discrètes / continues Représentation graphique Statistiques Deux séries numériques Statistiques Régression : Introduction QQ-plots QQ-plots, exemple, cas 2 -2 -1 0 1 2 -1 0 1 2 3 4 Normal Q-Q Plot Theoretical Quantiles Sample Quantiles Exemple : loi normale Échantillon x1; : : : ; xn de loi N(0; 1) QQ-plot Comparaison à la loi théorique N(0; 1)
  • 44. Stat descriptive Introduction Séries numériques Variables discrètes / continues Représentation graphique Statistiques Deux séries numériques Statistiques Régression : Introduction QQ-plots Un dernier exercice Exercice : Répartition du PIB/habitant Faire l’Exercice 1.1 du polycopié