1) El documento presenta información sobre distribuciones estadísticas como la ji-cuadrada y F de Fisher, y métodos como el análisis de varianza y tablas de contingencia. 2) Explica conceptos como grados de libertad, estadísticos de prueba, y pruebas de hipótesis para comparar varianzas de poblaciones. 3) Proporciona ejemplos numéricos para ilustrar cómo aplicar estas pruebas estadísticas e inferir sobre parámetros poblacionales a partir de datos muestrales.
2. 2
DISTRIBUCION JI-CUADRADA (X )
2
En realidad la distribución ji-cuadrada es la distribución muestral de s . O sea que si se extraen
todas las muestras posibles de una población normal y a cada muestra se le calcula su varianza,
se obtendrá la distribución muestral de varianzas.
Para estimar la varianza poblacional o la desviación estándar, se necesita conocer el estadístico
2
X . Si se elige una muestra de tamaño n de una población normal con varianza , el estadístico:
Tiene una distribución muestral que es una distribución ji-cuadrada con gl=n-1 grados de libertad y
2
se denota X (X es la minúscula de la letra griega ji). El estadístico ji-cuadrada esta dado por:
2
donde n es el tamaño de la muestra, s la varianza muestral y la varianza de la población de
donde se extrajo la muestra. El estadístico ji-cuadrada también se puede dar con la siguiente
expresión:
Propiedades de las distribuciones ji-cuadrada
2
1. Los valores de X son mayores o iguales que 0.
2
2. La forma de una distribución X depende del gl=n-1. En consecuencia, hay un número
2
infinito de distribuciones X .
3. El área bajo una curva ji-cuadrada y sobre el eje horizontal es 1.
2
4. Las distribuciones X no son simétricas. Tienen colas estrechas que se extienden a la
derecha; esto es, están sesgadas a la derecha.
2
5. Cuando n>2, la media de una distribución X es n-1 y la varianza es 2(n-1).
2
6. El valor modal de una distribución X se da en el valor (n-3).
PRUEBA DE INDEPENDENCIA.
Cuando cada individuo de la población a estudio se puede clasificar según dos criterios A y B,
admitiendo el primero a posibilidades diferentes y b el segundo, la representación de las
frecuencias observadas en forma de una matriz a x b recibe el nombre de Tabla de contingencia.
Los datos se disponen de la forma
Siendo nij el número de individuos que presentan simultáneamente la i-ésima modalidad del
carácter A y la j-ésima del B.
3. La hipótesis nula a contrastar admite que ambos caracteres, A y B, se presentan de forma
independiente en los individuos de la población de la cual se extrae la muestra; siendo la
alternativa la dependencia estocástica entre ambos caracteres. La realización de esta prueba
requiere el cálculo del estadístico donde: y son las frecuencias absolutas marginales y el tamaño
muestral total.
Pruebas de ajuste simples.
Dadas las observaciones (X1, . . . , Xn) independientes, con distribución F, deseamos
Probar la hipótesis nula H0: “F = F0”. En principio, la hipótesis alternativa será H: “F _= F0”, pero es
posible que dentro de esta alternativa múltiple haya algunas distribuciones para las que nos
interese especialmente que la prueba tenga una buena potencia.
A la hipótesis H0 se la llama hipótesis de ajuste de la distribución F0 al modelo del cual proviene la
muestra. Las pruebas de H0 se llaman pruebas de Ajuste. A lo largo del Siglo XIX, los modelos
aleatorios se volvieron cada vez más frecuentes y cada vez más necesarios para describir la
naturaleza. Un modelo se consideraba adecuado en tanto no presentara incoherencias evidentes
con los resultados de la experiencia. Recién en 1999 surgió la primera prueba de ajuste, a partir de
la cual los científicos pudieron poner a prueba sus modelos e incluso seleccionar entre varios
modelos propuestos para un mismo fenómenos, cuáles con adecuados y cuáles no lo son. Esa
primera prueba es la llamada prueba χ2 de Pearson.
TABLA DE CONTINGENCIA
En estadística las tablas de contingencia se emplean para registrar y analizar la relación entre dos
o más variables, habitualmente de naturaleza cualitativa (nominales u ordinales).
Supóngase que se dispone de dos variables, la primera el sexo (hombre o mujer) y la segunda
recoge si el individuo es zurdo o diestro. Se ha observado esta pareja de variables en una muestra
aleatoria de 100 individuos. Se puede emplear una tabla de contingencia para expresar la relación
entre estas dos variables, del siguiente modo:
Diestro Zurdo TOTAL
Hombre 43 9 52
Mujer 44 4 48
TOTAL 87 13 100
Las cifras en la columna de la derecha y en la fila inferior reciben el nombre de frecuencias
marginales y la cifra situada en la esquina inferior derecha es el gran total.
La tabla nos permite ver de un vistazo que la proporción de hombres diestros es aproximadamente
igual a la proporción de mujeres diestras. Sin embargo, ambas proporciones no son idénticas y la
significación estadística de la diferencia entre ellas puede ser evaluada con la prueba χ² de
Pearson, supuesto que las cifras de la tabla son una muestra aleatoria de una población. Si la
proporción de individuos en cada columna varía entre las diversas filas y viceversa, se dice que
existe asociación entre las dos variables. Si no existe asociación se dice que ambas variables son
independientes.
El grado de asociación entre dos variables se puede evaluar empleando distintos coeficientes: el
más simple es el coeficiente phi que se define por
2
φ = √(χ / N)
4. 2
donde χ se deriva del test de Pearson, y N es el total de observaciones -el gran total-. Φ puede
oscilar entre 0 (que indica que no existe asociación entre las variables) e infinito. A diferencia de
otras medidas de asociación, el coeficiente Φ de Cramer no está acotado.
ANALIS DE LA VARIANZA.
En estadística, el análisis de la varianza (ANOVA, ANalysis Of VAriance, según terminología
inglesa) es una colección de modelos estadísticos y sus procedimientos asociados, en el cual la
varianza está particionada en ciertos componentes debidos a diferentes variables explicativas.
Las técnicas iníciales del análisis de varianza fueron desarrolladas por el estadístico y genetista R.
A. Fisher en los años 1920 y 1930 y es algunas veces conocido como "Anova de Fisher" o "análisis
de varianza de Fisher", debido al uso de la distribución F de Fisher como parte del contraste de
hipótesis.
El análisis de la varianza parte de los conceptos de regresión lineal.
El primer concepto fundamental es que todo valor observado puede expresarse mediante la
siguiente función:
Y = B0 + B1 * X + e
Donde Y sería el valor observado (variable dependiente), y X el valor que toma la variable
independiente.
B0 sería una constante que en la recta de regresión equivale a la ordenada en el origen, B1 es otra
constante que equivale a la pendiente de la recta, y e es una variable aleatoria que añade a la
función cierto error que desvía la puntuación observada de la puntuación pronosticada.
INFERENCIA SOBRE UNA VARIANZA DE POBLACIÓN (ANOVA).
El análisis de la varianza (o Anova: Analysis of variance) es un método para comparar dos o más
medias, que es necesario porque cuando se quiere comparar más de dos medias es incorrecto utilizar
repetidamente el contraste basado en la t de Student. Por dos motivos:
En primer lugar, y como se realizarían simultánea e independientemente varios contrastes de hipótesis,
la probabilidad de encontrar alguno significativo por azar aumentaría.
Por otro lado, en cada comparación la hipótesis nula es que las dos muestras provienen de la misma
población, por lo tanto, cuando se hayan realizado todas las comparaciones, la hipótesis nula es que
todas las muestras provienen de la misma población y, sin embargo, para cada comparación, la
estimación de la varianza necesaria para el contraste es distinta, pues se ha hecho en base a muestras
distintas.
El método que resuelve ambos problemas es el anova, aunque es algo más que esto: es un método
que permite comparar varias medias en diversas situaciones; muy ligado, por tanto, al diseño de
experimentos y, de alguna manera, es la base del análisis multivariante.
5. INFERENCIA SOBRE LAS VARIANZAS DE DOS POBLACIONES.
La prueba estadística utilizada aquí se basa en la distribución. Si y son las varianzas de
las muestras extraídas al azar de las dos poblaciones y y son los dos tamaños de la
muestra, respectivamente, entonces el estadístico de prueba que puede ser utilizado para probar la
igualdad de las varianzas de la población es la siguiente:
(15)
La estadística de prueba sigue el distribución con ( - 1) grados de libertad en el numerador y (
- 1) grados de libertad en el denominador.
Supongamos que un analista quiere saber si las varianzas de dos poblaciones normales son
iguales a un nivel de significación de 0,05. Las muestras aleatorias extraídas de las dos
poblaciones dar la muestra desviaciones estándar como 1,84 y 2, respectivamente. Tanto los
tamaños de muestra son 20. La prueba de hipótesis puede llevarse a cabo como sigue:
1. Los estados de esta prueba de hipótesis se pueden formular como:
Es claro que esto es una hipótesis de dos caras y la región crítica se encuentra en ambos
lados de la distribución de probabilidad.
2. Nivel de significación . Aquí la estadística de prueba se basa en el distribución.
Para la hipótesis de dos caras de los valores críticos se obtienen como:
y
Estos valores y las regiones críticas se muestra en la Figura 3,16. El analista no se rechaza si
el resultado es tal que:
o
6. Figura 3.16: Valores críticos y región de rechazo para el ejemplo 3.5 marcado en el distribución.
El valor de la estadística de prueba correspondiente a la información dada es:
Desde reside en la región de aceptación, el analista no rechazar a un nivel de
significación de 0,05.