1. LA DISTRIBUCIÓN NORMAL
Por: Jorge L. De La Cruz Oré
Tantas veces hemos escuchado, leído, re-leído acerca de la distribución normal y la distribución
normal estándar (que no son lo mismo), tanto que a veces nos hemos preguntado por qué
tenemos que aprenderla y por qué nunca nos sirve en la práctica (casi nadie hace inferencias con
la distribución normal).
Pues la respuesta es más simple de lo que parece: la distribución normal es solo teórica, y la
distribución normal estándar es aún más teórica. Sin embargo es importante conocerla porque
casi toda la estadística se entenderá mejor si se han comprendido ambos conceptos.
La distribución normal fue descubierta (también se puede decir que fue inventada) por F. Gauss,
por eso también se llama distribución de Gauss. Entonces veamos como pensó Gauss: él estaba
tratando de medir las distancias que existen entre un gran número de estrellas visibles desde la
tierra y anotaba tales mediciones. Cuando las volvía a medir descubría que las nuevas mediciones
eran cercanas a las primeras pero no iguales, sucesivas mediciones le revelaban que casi ninguna
era igual a las anteriores, sin embargo todas eran muy próximas. Lo mismo nos pasaría a nosotros
si intentamos medir la altura de una persona varias veces, los resultados serían muy próximos
pero no iguales.
Ahora, con esto en mente podemos dibujar nuestras mediciones en un plano cartesiano (como
seguramente lo hizo Gauss) para colocar en el eje horizontal “X” la medición del tamaño de la
persona y en el eje “Y” (vertical) el número de veces que obtuvimos las mediciones. Seguramente,
si repetimos las mediciones un gran número de veces y las graficamos como acordamos,
terminemos obteniendo un gráfico como el siguiente:
Talla de una misma persona medida muchas veces (en mm)
9
8
7
Conteo
6
5
4
3
2
1
0
1640 1650 1660 1670 1680 1690 1700 1710 1720 1730 1740 1750 1760
Talla (mm)
2. Para obtener el gráfico se pudo haber medido a una misma persona cuya talla real es de 1,70m (es
decir 1700 mm) con un altímetro que discierne en milímetros. Como vemos, un gran número de
veces la talla obtenida es la correcta, sin embargo los errores hacia arriba y hacia abajo son cada
vez menores a medida que nos alejamos del verdadero tamaño medido de la persona.
Si consideramos a la talla como una medida continua (en realidad la talla es continua) y le
superponemos una curva para “suavizar” la gráfica lo que obtenemos es lo siguiente:
Mediciones de la talla de una misma persona
Normal
Media
N
9
1700
53
8
Frecuencia
7
6
5
4
3
2
1
0
1640
1660
1680
1700
1720
Talla (mm)
1740
1760
Lo que hemos obtenido es una curva en forma de campana también conocida como “campana de
Gauss”, “curva normal”, “campana normal”. Ésta curva se caracteriza porque tiene al promedio de
la talla (o verdadera talla) al centro, y va disminuyendo hacia los costados. Algo que cabe resaltar
es que la curva jamás llegará a tocar al eje X si realizamos cada vez más mediciones (es decir, la
curva es asíntota al eje X).
Si realizamos la medición de la talla de toda una población (puede ser la población de la ciudad de
Lima), obtendremos una curva normal muy parecida a la que obtuvimos a partir de una sola
persona pero con el promedio de la población ubicado exactamente al centro de la curva.
La dificultad radica en que no tenemos ni el presupuesto, ni el tiempo, ni las ganas de medir la
talla de todos los habitantes de Lima (aproximadamente 10 millones), así que no nos queda más
que contentarnos con obtener una buena muestra. Por buena muestra entendemos que la misma
es representativa de toda la población, es decir que se trata de una muestra obtenida utilizando
3. alguna técnica de la aleateorización. Aquí seguiremos refiriéndonos a la población ya que así es
más sencillo poder explicar la distribución normal.
Cabe remarcar lo que dijimos al inicio acerca de la distribución normal, se trata de una curva
teórica, las variables reales rara vez se distribuyen normalmente, pero se pueden aproximar
mucho a la misma.
Para continuar profundizando necesitamos conocer un concepto muy importante: la desviación
estándar poblacional (σ). Por cierto, la desviación estándar no es lo mismo que el error estándar
(EE), el cual se puede calcular a partir del primero, sin embargo aquí solo trabajaremos con σ, ya
que el EE es tema de otro artículo.
Desviación Estándar Poblacional (σ –letra griega que se pronuncia sigma-): Es una medida de
dispersión, esto quiere decir que es la mejor forma de calcular (no mide exactamente) el
grado de dispersión o error que obtenemos cuando queremos medir algo. En el ejemplo
inicial, cada vez que medíamos la talla de una persona obteníamos valores diferentes; la
desviación estándar nos puede dar un cálculo aproximado de esos errores de medición. Para
hallarla, primero debemos obtener el promedio de los valores, luego restar ese promedio
obtenido de cada valor observado, elevar al cuadrado dichas diferencias, sumarlas todas, al
resultado se le divide entre el número de observaciones y finalmente se le saca la raíz
cuadrada. Lo podemos resumir en una fórmula para entender mejor:
Donde:
σ=
(
− μ) + (
− μ) + ⋯ (
− μ)
µ Es la media de la población
σ Es la desviación estándar de la población
…
Representan a los N valores de datos
Es el número de observaciones de la población
Avancemos más en las propiedades de la distribución normal. Ya dijimos que tiene forma de
campana y que el promedio se encuentra en el centro, ahora mencionaremos que el área bajo
toda la curva debe sumar 1 (es decir, toda el área es el 100% de la misma área, lo cual es lógico,
pero 100% = 1, por eso se dice que su valor en términos de probabilidad es 1). Así, si dividimos la
curva en dos partes iguales (derecha e izquierda) mediante una línea vertical que pase por el
4. centro (por la media), el área de cada lado es igual a 0.5 del área total, y simplemente se dice que
es igual a 0.5 como se aprecia en la siguiente gráfica.
Gráfica de distribución
Normal, Media=1700, Desv.Est.=27.5
1700
0.016
0.014
Densidad
0.012
0.010
0.008
0.5
0.006
0.5
0.004
0.002
0.000
1600
1650
1700
X
1750
1800
En la gráfica podemos ver que ahora en el eje Y ya no figura la etiqueta “frecuencia”, sino
“Densidad”, lo cual indica que ahora se está considerando en ese eje la cantidad de información
que contiene la curva debajo de ella en cada punto. También se aprecia que la desviación estándar
(σ) ha sido calculada y es igual a 27.5 mm.
Pero no todo queda ahí, para complicar el tema tenemos que ver dónde interviene la desviación
estándar en todo esto. Pues la desviación estándar nos sirve para hacer más divisiones al área bajo
la curva. Partiendo de la línea vertical que se levanta sobre la media podemos extendernos a
ambos lados teniendo a la desviación estándar como nueva unidad de medida y así calcular las
áreas bajo la curva que más sea de nuestro interés.
Como estamos viendo en el ejemplo que estamos usando, la media es 1700 mm, y la desviación
estándar 27.5 mm. Pues podemos usar el valor de la desviación estándar para navegar a la
derecha e izquierda de la media en el eje X, levantar líneas verticales y calcular áreas bajo la curva
de manera rápida y fácil con solo consultar una tabla de distribución Z (que vienen casi siempre al
final de los libros de estadística, o se puede consultar en el internet). Así tenemos que si nos
movemos una desviación estándar (en nuestro caso 27.5mm) en el eje X a la izquierda, obtenemos
lo que se muestra en el gráfico siguiente:
5. Gráfica de distribución
Normal, Media=1700, Desv.Est.=27.5
0.016
0.014
Densidad
0.012
0.010
0.008
0.34
0.006
0.004
0.002
0.16
0.000
1672.5
1700
X
En éste gráfico nos hemos desplazado una desviación estándar a la izquierda a partir de la media
(1700 – 27.5 = 1672.5) y observamos que el área que está sombreada (consultando con una tabla
de distribución Z) es igual a 0.34 (es decir el 34%) del área total. Y el área que queda entonces a la
izquierda de la nueva línea es 0.5 – 0.34 = 0.16.
Pronto veremos la manera de calcular las áreas al estudiar la desviación normal estándar, por
ahora sigamos en lo que nos interesa.
Pero el área que más interés tiene en la distribución normal es la que concentra el 95% (es decir el
0.95) del área total central, tal como se aprecia en la figura siguiente:
Gráfica de distribución
Normal, Media=1700, Desv.Est.=27.5
0.016
0.014
Densidad
0.012
0.010
0.008
0.95
0.006
0.004
0.002
0.000
1646.1
1700
X
1753.9
6. Como se aprecia en el gráfico, el área bajo la curva central es de 0.95, y los valores en los que se
ubican las líneas verticales a la derecha e izquierda de la media corresponden a 1.96 veces (casi
dos veces) el valor de la desviación estándar (27.5*1.96 = 53.9 mm a la izquierda y a la derecha de
la media). Las pequeñas áreas no sombreadas laterales miden 0.025 cada una y se obtienen de
restar al área total el 0.95 central y luego dividir éste resultado entre dos: (1 – 0.95)/2 = 0.025.
Po lo tanto y como regla general vamos a tener que:
-
Una desviación estándar a la derecha y a la izquierda de la media abarca el 68% central del
área bajo la curva.
1.96 desviaciones estándar a la derecha e izquierda de la media abarca el 95% central del
área bajo la curva).
Lo más importante del estudio de la distribución normal es poder entender de qué manera se
relacionan la media y la desviación estándar al momento de calcular las áreas bajo la curva de
Gauss.
Ahora vamos a revisar un tema más, la distribución normal estándar.
Distribución Normal Estándar: No hay nada que temer cuando tocamos éste tema pues a lo que
se refiere la expresión es simplemente a la misma distribución normal, solamente que ahora
queremos que nuestra media sea cero y la desviación estándar sea igual a uno. El proceso de llevar
a cabo esto se llama estandarizar. La razón de estandarizar viene dada porque como vimos
anteriormente podemos tener muchas curvas normales, tantas como variables nos animemos a
medir. Por ejemplo, podemos obtener una curva para las tallas, otra para los pesos, otra para las
edades, otra para el salario, etc. Por eso, quienes estudiaron el tema mucho antes que nosotros
encontraron una manera de “estandarizar” sus valores para poder hablar de una sola curva que
comparta ciertas características con todas las infinitas curvas que se pueden construir.
Estandarizar es sencillo, solamente imaginemos que ahora la media es igual a cero y que la
distribución estándar es igual a uno (ni la nueva desviación estándar, ni la nueva media tienen
unidades, son adimensionales), y el único esfuerzo que hacemos es calcular un valor llamado Z:
Donde:
=
−μ
x es un valor cualquiera de nuestra variable elegida por nosotros.
µ es la media poblacional.
σ es la desviación estándar.
7. En realidad no hubiéramos podido calcular las áreas bajo la curva como lo hicimos anteriormente
a menos que estandaricemos los valores correspondientes. Por ejemplo, si deseamos conocer cuál
es el área bajo la curva de un punto a la izquierda de nuestra media de 1700mm tenemos que el
cálculo de Z es como sigue:
=
1672.5 − 1700
= −1
27.5
Lo cual significa que el punto 1672.5 está ubicado a una desviación estándar a la izquierda de la
media (el signo menos nos indica que la dirección es a la izquierda). Ahora sí podemos ir a una
tabla de valores Z y consultar el área que se encuentra a la izquierda de Z= - 1, obtendremos que
se encuentra el 0.16 (o sea el 16%) del área total bajo la curva.
De la misma manera podemos elegir un punto en base a elegir primero el valor Z. Por ejemplo,
podemos escoger Z=1.96 a la izquierda y a la derecha de la media (lo que significa que queremos
saber cuáles son los valores asociados a escoger 1.96 desviaciones estándar a la izquierda y a la
derecha de la media), simplemente reemplazamos en la ecuación:
: − 1.96 =
ℎ : + 1.96 =
− 1700
,
27.5
− 1700
,
27.5
:
:
= 1646.1
= 1753.9
Lo que significa que el 95% de las mediciones se encuentran entre 1646.1mm y 1753.9mm (como
ya vimos, 1.96 veces la desviación estándar a la izquierda y a la derecha engloba el 95% central del
área bajo la curva).
Lo mismo podemos hacer para cualquier valor que creamos conveniente de entre todos los
valores de la talla de nuestra población y conocer cuál es el valor de área a la izquierda, a la
derecha, en medio, etc.
Hasta aquí ésta explicación. Espero sea de ayuda.
Preguntas y comentarios a:
dj_jdo@hotmail.com