1. 5. Distribución normal: Dios ama la curva normal.
La estadística es una ciencia según la cual todas las mentiras se tornan cuadros.
Pitigrilli, escritor italiano.
Objetivo de la Unidad:
Identificar el comportamiento y distribución de los datos a través de
los conceptos básicos de la curva normal y sus derivados.
Introducción.
Antes de poder comenzar con esta unidad te pedimos que realices dos ejercicios.
Resuelve el ejercicio 1 antes de continuar leyendo
5.1. ¿Qué es la distribución normal?
Cuando graficamos una variable en forma de histogramas o polígonos de frecuencias y
observamos que los datos parecieran asemejar o tener una “forma de campana” entonces
podríamos pensar que la distribución de dicha variable se aproxima a una “distribución
matemática” precisa e importante denominada distribución normal o, simplemente, curva normal.
2. La distribución normal se define cómo:
La distribución de datos de cualquier variable que asemejen la forma de una
curva normal.
La curva normal se define cómo:
Una distribución teórica de los datos de una población (Pagano, 2008). Es una
curva en forma de campana que puede ser descrita con la siguiente ecuación:
/
1
√2
¡Importante!
Te presentamos la ecuación únicamente para que conozcas que existe una base
matemática. No te preocupes tratando de descifrar qué significa (al menos para
este curso).
La curva normal puede ser representada como:
3. Ahora reflexiona un momento. ¿Porqué el título de la unidad se titula “Dios ama la curva normal”?
¿Para qué estaremos estudiando la unidad? ¡Porque casi todas las variables que puedan ser
graficadas en un histograma (en la naturaleza y en el comportamiento del hombre) se distribuyen
de esta forma! Pero ¿por qué la curva normal es tan común en la naturaleza?
La respuesta a esa pregunta quizá no exista. Sin embargo es curioso cómo es que prácticamente
cualquier cosa que pueda ser medida tiene esta tendencia: La estatura de las personas, su peso, su
IQ, las calificaciones de un examen, el tamaño los árboles de la cuadra, la cantidad de nubes que
observo al día, el número de hojas de un arbusto, el número de cabellos de una persona, las
graduaciones de los lentes de las personas, etcétera (y la lista podría continuar).
Para tratar de explicarlo a detalle tomemos, por ejemplo, la cantidad de letras elegidas al azar que
determinada persona puede recordar. En algunas pruebas, la cantidad de letras recordadas puede
ser alta, en otras, baja, y en la mayoría, las cantidades serán intermedias. Es decir, es probable que
la cantidad de letras elegidas al azar que una persona pueda recordar en diversas pruebas siga
aproximadamente la forma de una curva normal.
Sin embargo, en alguna prueba en particular, el número real recordado se verá afectado por
diversas circunstancias, tales como ruido en la habitación, estado de ánimo de la persona en ese
momento, una combinación de letras confundidas inconscientemente con algún nombre familiar,
una secuencia de letras elegidas al azar que resulta ser casi siempre la misma letra, etc.
Así, en general, la persona recuerda una cantidad media, una cantidad en la que todas las
circunstancias contrapuestas se cancelan entre sí, y por eso son mucho menos comunes las
cantidades muy altas o muy bajas de letras recordadas.
Esto crea una distribución que es unimodal, es decir, la mayoría de los casos están cerca del medio
y los menos están en los extremos. También crea una distribución que es simétrica, porque
cualquier valor puede estar tanto por arriba como por debajo del medio (la podemos doblar por la
mitad y ambos lados serían idénticos).
7. 5.2. La desviación estándar y la varianza.
Imaginemos un montículo de arena:
Ahora pensemos en la cantidad de arena que existe. Conforme más nos acercamos al centro de
este más alto es y, mientras nos alejamos más del centro y nos vamos a las orillas la cantidad de
arena disminuye y tiene menor altura. Si dijéramos que el montículo de arena mide de punta a
punta 1 metro podríamos afirmar lo siguiente: Si extrajésemos 30 centímetros de arena del centro
del montículo y extrajéramos 30 centímetros de un extremo del montículo y pesáramos ambas
muestras, veríamos que la cantidad de arena sería muy diferente; la arena del centro pesaría
mucho más que la poca arena extraída de la orillas.
De igual forma que con la arena, la altura de una distribución de datos indicaría la cantidad de
casos que obtuvieron un determinado valor. Entre más nos acerquemos al centro de la curva, más
8. casos encontraremos y viceversa; entre más nos alejemos del centro de la curva, menos casos
existirán.
Sin dejar a un lado la analogía de la arena podríamos decir que en lugar de hablar de
“centímetros”, para la distribución de datos existen “desviaciones estándares”. Las desviaciones
estándares serían los “centímetros” a partir del centro del montículo de arena…
La desviación estándar se define cómo:
La medida empleada para indicar “qué tan lejos está el dato en bruto con
respecto a la media de su distribución” (Pagano, 2008).
La desviación es representada por una “s” en el caso de que sea calculada para la
muestra y una “sigma” (δ) en el caso de una población.
La fórmula de la distribución estándar (para muestras) es:
1
Donde “n” es el total de sujetos y “x” es el valor de una variable para cada sujeto.
En SPSS la desviación estándar se calcula:
a. Ingresar los datos de una variable y dar formato.
b. Dar clic en “analizar”, “estadística descriptiva”, “frecuencias”.
c. Seleccionar las variables en las que se calculará la desviación estándar
al cuadro de “variables”.
d. Dar clic en el submenú “estadísticas” y seleccionar “desviación
estándar” y “varianza”.
e. Dar clic en aceptar.
9. Observa la siguiente figura:
En la imagen anterior se ha dibujado una “curva normal”. En este caso se trata de una curva que
representa datos obtenidos de una población1. La media está ubicada al centro de la curva (µ) y las
líneas dibujadas a cada lado son los “centímetros” con respecto a la media. Es posible afirmar que
la línea del extremo izquierdo es la media menos una desviación estándar y la línea del extremo
derecho es la media más una desviación estándar. Ahora surge la pregunta… ¿Para qué sirve esto?
1
Esto lo sabemos porque los símbolos son griegos y por tanto aluden a parámetros y no a estadísticos,
recuerda la unidad sobre los conceptos básicos de la estadística.
10. Resuelve el ejercicio 3 antes de continuar leyendo
Observa las siguientes imágenes:
Si nuevamente empleáramos la analogía del montículo de arena e imagináramos que toda la arena
pesa 100 gramos entonces podríamos decir que a una desviación estándar a la derecha del centro
del montículo encontraríamos 34 gramos de arena (observa los porcentajes de la imagen anterior),
si pesáramos la arena de una a dos desviaciones estándares encontraríamos 14 gramos de arena y
11. si pesáramos la arena de dos a tres desviaciones estándares encontraríamos 2 gramos
aproximadamente.
Si recordamos la propiedad de simetría de la curva normal (un lado es idéntico al otro) podríamos
pensar que del lado izquierdo del montículo de arena habría las mismas distribuciones de la arena.
Nota como si sumamos los porcentajes de un solo lado del montículo de arena encontramos 50
gramos de la arena de un lado y 50 gramos del otro lado (entre los dos lados suman 100 gramos
que es lo que originalmente pesaba nuestro montículo).
Si lo trasladáramos a cualquier distribución de datos diríamos algo similar… A más o menos 1
desviación estándar se encontrarían el 34% de los casos; de más o menos 1 a 2 desviaciones
estándar estarían cerca del 14% de los datos y de más o menos 2 a 3 desviaciones estándar
estarían aproximadamente el 2% de los casos.
De igual forma podemos hacer combinaciones con los porcentajes que conocemos:
68%
13. 98%
Asimismo será necesario definir dos conceptos que son muy mencionados entre los investigadores
de las ciencias sociales que responden a las siguientes preguntas: ¿Entre qué rango de la escala es
fácil que encuentre a los sujetos de mi muestra (sujetos típicos o normales)? ¿Entre qué rango de
la escala es difícil o infrecuente encontrar a sujetos de mi muestra (casos atípicos o anormales?
Los casos típicos se definen cómo:
• Los casos que se encuentran a una desviación estándar de la media.
• El rango de casos típicos se obtienen de sumar y restar una vez la desviación
estándar a la media.
• Los casos típicos son aquellos que se encuentran en un rango que abarque al 68% se
los sujetos (±1s).
14. Los casos atípicos se definen cómo:
• Los casos que se encuentran más de tres desviaciones estándar de la media.
• El rango de casos típicos se obtienen de sumar y restar tres veces la desviación
estándar a la media. Todos los casos que se encuentren afuera de este rango son
casos atípicos o no normales.
• Los casos atípicos son aquellos se muestran fuera de un rango que abarque el
99.9% de los casos (±3s) (recuerda que la curva es asintótica, siempre hay
posibilidad de un valor menor o mayor en la escala; a pesar de que los porcentajes
de las gráficas mostradas sumen 100% siempre puede escaparse algún sujeto).
Resuelve el ejercicio 4 antes de continuar leyendo
¿Y qué es eso de varianza? Generalmente no se encontrarán en los reportes de cualquier
investigación el término de varianza (cuando se trata de medidas de dispersión). La varianza
simplemente es el resultado de elevar al cuadrado la desviación estándar.
¡Importante!
La varianza no puede ser interpretada como medida de dispersión de los datos.
La existencia de la varianza se debe a dos motivos principales:
a. Permite que algunas fórmulas estadísticas sean más exactas (cosa de
matemáticos).
b. La varianza es útil en análisis estadísticos más complejos que buscan
explicar una variable A a través de una B.
15. 5.3. Nociones del teorema de Chevichev.
Pafnuti Chebyshov, Tchebychev, Tchebycheff, Tschebyscheff o Čebišev era el nombre del
personaje que observamos en la imagen anterior. El hecho de que tenga tantos nombres se debe a
que cada uno es un intento de traducción de su apellido del ruso (Пафнутий Львович Чебышёв).
Sin embargo, la complejidad del apellido no es lo que nos interesa. Lo interesante de este
matemático es el teorema que propuso que en resumen dice lo siguiente:
El teorema de Chevichev indica que cuando los datos se comportan como una
distribución normal:
a. Aproximadamente el 68% de la población está dentro de ±1s.
b. Aproximadamente el 95% de la población está dentro de ±2s.
c. Aproximadamente el 99% de la población está dentro de ±3s.
El fin de mencionar este teorema es únicamente el hacer notar que existen diferentes teorías y
propuestas sobre el número de datos que se encuentran a n desviaciones estándar cuando éstos
(los datos) se comportan de cómo una distribución normal. Si comparáramos los porcentajes antes
estudiados y los del teorema de Chevichev veríamos que son muy similares.
16. 5.4. Las puntuaciones estandarizadas.
Para finalizar con esta unidad es necesario revisar el concepto de “puntuaciones estandarizadas”
que también son conocidas como “puntajes Z”.
Una puntuación estándar o puntaje Z se define cómo:
“Un dato transformado que indica a cuántas unidades de desviación estándar por
encima o por debajo de la media, se encuentra un dato en bruto” (Pagano, 2008).
Cuando nosotros queremos determinar de forma más exacta a cuántas desviaciones estándar se
encuentra un sujeto esto nos permite compararlo contra “la norma” (contra todos los sujetos que
fueron analizados). Podemos decir que un sujeto se encuentra a más o menos n número de
desviaciones estándar de la media.
Para transformar un dato a puntuaciones estándares se aplica la siguiente fórmula (Pagano,
2008):
Donde “x” es el dato que queremos convertir, la media se obtiene de la población o muestra
estudiada y la “s” es la desviación estándar de la población o muestra estudiada.
De igual forma que con lo revisado en los subtemas anteriores, que un sujeto se encuentre a
menos de ±1s indicaría que es un caso típico. Si un sujeto se encuentra a ±1s entonces es un caso
menos frecuente y si el sujeto se encuentra a ±3s es un caso atípico. En síntesis la utilidad de las
puntuaciones Z es el permitirnos precisar exactamente a cuántas desviaciones estándar se
encuentra un dato de la media. Por ejemplo…
El caso del profesor barco y el profesor estricto…
Imaginemos que estamos comparando las calificaciones de los estudiantes. En una materia
con un profesor “barco” podría pensarse que todos los alumnos obtienen altas calificaciones
mientras que en una materia con un profeso “estricto” existiría mucha diversidad. Con el fin
de ejemplificar diremos que la materia con un profesor “barco” es Historia mientras que el
profesor “estricto” es el que imparte Literatura.
17. El caso del profesor barco y el profesor estricto (continuación)…
Así, si en Historia todos los alumnos obtienen más de 9 de calificación no sería apropiado
comparar la calificación de esta materia contra otra las de Literatura; donde menos de la
mitad de los estudiantes obtienen 6. Sin embargo, las puntuaciones estandarizadas sí nos
permiten comparar las dos calificaciones puesto que no se compara a maestro, la
dificultad de los contenidos o la forma de la evaluación. Simplemente se compara al
alumno contra el desempeño de sus compañeros:
No es posible decir: Pedro sacó 9 en la Historia pero sacó 7 en la Literatura. Por tanto
Pedro es un excelente alumno de la Historia y un pésimo alumno en Literatura.
Sí es posible decir: Pedro se encuentra a ‐0.8 desviaciones estándar del promedio en la
Historia y se encuentra a +1.7 desviaciones estándar de la media en la Literatura. Por tanto
Pedro es muy buen estudiante en la materia de Literatura a comparación de sus alumnos
pero necesita mejorar en la Historia.
18. Ahora bien, también es posible a través del uso de las puntuaciones estándar, identificar los
rangos precisos en los que se encuentra el X% de una muestra. Observa la siguiente tabla2…
Si observas a detalle, para cada valor Z existe un porcentaje. Si vamos al valor Z de “‐2.00” el
porcentaje indicado es de 0.022753. Esto indicaría que de menos infinito desviaciones estándar a
menos dos desviaciones estándar se encuentra el 2.27% de los sujetos. De igual forma, si
buscamos el valor Z de “+1.00” el porcentaje indicado es de 0.841344 que indica que el 84.13% de
los sujetos se encuentras de menos infinito desviaciones estándar a más una desviación estándar.
2
Obtenida de http://www.uv.es/~meliajl/Docencia/Tablas/ZColaIzq.PDF
3
Marcado con un aro azul en la tabla.
4
Marcado con un aro verde en la tabla.