1. ESTADÍSTICA BIDIMENSIONAL
1-Distribuciones bidimensionales........................................................................................................2
2-Correlación........................................................................................................................................2
3-Parámetros de una distribución bidimensional.................................................................................3
3.1 Medias....................................................................................................................................3
3.2 Varianzas................................................................................................................................3
3.3 Covarianza..............................................................................................................................3
4-Correlación lineal..............................................................................................................................4
4.1 Coeficiente de correlación lineal. .........................................................................................4
4.2 Recta de regresión.................................................................................................................4
5-Medidas de dispersión.......................................................................................................................5
6.3 ................................................................................................................................................5
6.6 Coeficiente de variación.........................................................................................................5
1
2. ESTADÍSTICA BIDIMENSIONAL
1- Distribuciones bidimensionales.
Una distribución bidimensional es una distribución de 2 variables. Dos X e Y están
relacionadas estadísticamente cuando conocida X se puede estimar de manera aproximada Y. por
ejemplo dos niños de un año pueden medir aproximadamente lo mismo pero no por tener la misma
edad tienen por qué tener la misma estatura. Por otra parte, se podrá estimar la estatura de un niño
de un año conocida la estatura media de los niños de esta edad.
2- Correlación.
Al estudiar distribuciones bidimensionales, el objetivo es determinar si existe relación
estadística entre ellas, y por tanto ver si los cambios en una de las variables influirían en la otra
variable. En este caso se dirá que hay correlación entre las variables.
Si las variables crecen conjuntamente, la correlación será directa y si por el contrario cuando
una aumenta la otra disminuye, la correlación será inversa.
La correlación será fuerte si la dependencia entre las variables es alta y en caso contrario, la
correlación será débil.
Para determinar el sentido (directa, inversa) y el grado (fuerte o débil) de correlación entre dos
variable, se representan gráficamente los pares de valores en un plano cartesiano, que recibe el
nombre de diagrama de dispersión. La forma de la nube de puntos en cada diagrama, dará una
idea de la correlación entre las variables.
Ejemplos:
La correlación entre el
número de zapatos y la estatura
es directa y fuerte.
La correlación entre el
número de fallos realizados en
un test y el tiempo invertido en
realizar dicho test es inversa.
No existe correlación entre
las variables estatura y cociente
intelectual de las personas.
2
3. 3- Parámetros de una distribución bidimensional.
Los datos de una distribución bidimensional suelen darse en forma de tabla o tabla de doble
entrada.
Variable X 1x 2x nx
Variable Y 1y 2y ny
Los datos correspondientes a cada una de las variables se llaman datos marginales,
frecuencias marginales en el caso de tablas de doble entrada. Estos datos permiten calcular los
parámetros marginales de cada una de las variables..
3.1 Medias.
n
x
x
n
i
i∑=
= 1
n
y
y
n
i
i∑=
= 1
El punto ( )yx, se llama centro medio de la distribución y es el centro de gravedad o
centro de masas de la nube de punto.
3.2 Varianzas.
( )
n
xx
x
n
x
s
n
i
i
n
i
i
x
∑∑ ==
−
=−= 1
2
21
2
2
( )
n
yy
x
n
y
s
n
i
i
n
i
i
y
∑∑ ==
−
=−= 1
2
21
2
2
Las desviaciones típicas son las respectivas raíces.
( )
n
xx
x
n
x
s
n
i
i
n
i
i
x
∑∑ ==
−
=−= 1
2
21
2
( )
n
yy
x
n
y
s
n
i
i
n
i
i
y
∑∑ ==
−
=−= 1
2
21
2
3.3 Covarianza.
La covarianza es un parámetro estadístico conjunto, se define como la media aritmética
de los productos de las diferencias de los valores de cada variable respecto de su media
marginal.
( )( )
yx
f
fyx
n
yyxx
yx
n
yx
s n
i
i
n
i
iii
n
i
ii
n
i
ii
xy −
⋅⋅
=
−−
=−
⋅
=
∑
∑∑∑
=
===
1
111
El signo de la covarianza indica el sentido de correlación.
• Si 0>xys la correlación es directa.
3
4. • Si 0<xys la correlación es inversa.
4- Correlación lineal.
4.1 Coeficiente de correlación lineal.
El coeficiente de correlación lineal mide el sentido y el grado de la correlación entre dos
variables.
yx
xy
ss
s
r
⋅
= donde 11 ≤≤− r
El signo de la covarianza indica el sentido de correlación.
• Si 0>r la correlación es directa.
• Si 0<r la correlación es inversa.
• Si 1=r la correlación es perfectamente lineal, es decir las variables tienen
dependencia lineal. Cuando r es cercano a 0, la correlación es débil.
4.2 Recta de regresión.
La recta de regresión de Y sobre X es la que más se ajusta a la nube de puntos y sirve
para estimar los valores de Y conocidos los de X. Dicha recta pasa por el centro de gravedad, es
decir el punto ( )yx, , y tiene por pendiente 2
x
xy
s
s
.
( )xx
s
s
yy
x
xy
−=− 2
La recta de regresión de X sobre Y sirve para estimar los valores de Y conocidos los de X,
y vendría dada por la ecuación: ( )yy
s
s
xx
y
xy
−=− 2
4
5. 5- Medidas de dispersión.
6.3
6.6 Coeficiente de variación.
x
s
x
CV ==
σ
que en forma de porcentaje es 100⋅=
x
CV
σ
Dados dos conjuntos de datos aquel que tenga un CV mayor es el más disperso o
heterogéneo. Un CV mayor del 30 % indica que la media es poco representativa como medida
de promedio, debiéndose optar por la mediana o la moda.
Ejercicio 1
Una asociación dedicada a la protección de la infancia decide estudiar la relación entre la
mortalidad infantil en cada país y el número de camas de hospitales por cada mil habitantes. Datos:
X 50 100 70 60 120 180 200 250 30 90
Y 5 2 2,5 3,75 4 1 1,25 0,75 7 3
Donde X es el nº de camas por mil habitantes e Y el tanto por ciento de mortalidad.
a) Determinar los siguientes parámetros estadísticos: medias, varianzas y desviaciones típicas
marginales, covarianza y coeficiente de correlación.
b) Realizar un diagrama de dispersión y añadir la recta de regresión.
c) ¿Si se dispusiese de 175 camas por mil habitantes que tanto por ciento de mortalidad cabría
esperar? ¿La estimación es fiable? Razona la respuesta.
5
6. 5- Medidas de dispersión.
6.3
6.6 Coeficiente de variación.
x
s
x
CV ==
σ
que en forma de porcentaje es 100⋅=
x
CV
σ
Dados dos conjuntos de datos aquel que tenga un CV mayor es el más disperso o
heterogéneo. Un CV mayor del 30 % indica que la media es poco representativa como medida
de promedio, debiéndose optar por la mediana o la moda.
Ejercicio 1
Una asociación dedicada a la protección de la infancia decide estudiar la relación entre la
mortalidad infantil en cada país y el número de camas de hospitales por cada mil habitantes. Datos:
X 50 100 70 60 120 180 200 250 30 90
Y 5 2 2,5 3,75 4 1 1,25 0,75 7 3
Donde X es el nº de camas por mil habitantes e Y el tanto por ciento de mortalidad.
a) Determinar los siguientes parámetros estadísticos: medias, varianzas y desviaciones típicas
marginales, covarianza y coeficiente de correlación.
b) Realizar un diagrama de dispersión y añadir la recta de regresión.
c) ¿Si se dispusiese de 175 camas por mil habitantes que tanto por ciento de mortalidad cabría
esperar? ¿La estimación es fiable? Razona la respuesta.
5