1. María Romualda López
Hernández
Instituto tecnológico superior
de la sierra negra de Ajalpan
ESTADÍSTICA II
Unidad II conceptos
Ingeniería en
administración
4° SEMESTRE
Pruebas de la bondad del ajuste y análisis de
Varianza
2.1 Análisis Ji-Cuadrada
2.1.1 Prueba de independencia
2. 2.1.2 Prueba de la bondad del ajuste
2.1.3 Tablas de contingencia
2.2 Análisis de varianza
2.2.1 Inferencia sobre una varianza de población (Anova).
2.2.2 Inferencia sobre la varianza de dos poblaciones (Anova).
2.3 Software de aplicación
3. 2.- Análisis Ji-cuadrada
Cuando los datos son de tipo categórico, puede utilizarse la
Ji cuadrada para determinar lo significativo de las
Diferencias entre dos grupos independientes.
La medida implicada puede ser tan débil como una escala
Nominal.
La prueba plantea que los grupos difieren en algunas
Características y por tanto respecto a la frecuencia relativa con que los miembros de los
grupos caen dentro de algunas
categorías.
Para probar esta hipótesis, contamos el número de casos de
cada grupo que caen en las distintas categorías y
comparamos la proporción de casos de un grupo en las distintas variables, con la
proporción de casos del otro grupo en las mismas variables.
Si las proporciones no son las mismas, entonces no hay
interacción; en caso contrario, hay una interacción
El centro de la prueba se ubica en si las diferencias en las
proporciones excede a aquellasesperadas por oportunidad
o por desviaciones al azar de la proporcionalidad.
No siempre los datos a analizar provienen de mediciones, es decir, hay ocasiones en que se
necesita analizar variables discretas y estas necesitan un trato diferente de las variables
continuas.
Algunos ejemplos podrían ser:
Clasificación de palmas en compactas, súper compactas, normales.
Clasificación de individuos en muertas, enfermas, sanas.
Clasificación de individuos por colores.
Clasificación de individuos en hembras y machos.
2.1.1 Prueba de independencia
La independencia de dos variables consiste en que la distribución de una de las variables es
similar sea cual sea el nivel que examinemos de la otra. Esto se traduce en una tabla de
4. contingencia en que las frecuencias de las filas (y las columnas) son aproximadamente
proporcionales. Posiblemente sea más cómodo reconocerlo usando en la tabla de
contingencia los porcentajes por filas (o columnas) y observando si estos son similares.
La prueba de independencia ji-cuadrado (chi-cuadrado) contrasta la hipótesis de que las
variables son independientes, frente a la hipótesis alternativa de que una variable se
distribuye de modo diferente para diversos niveles de la otra.
En la siguiente tabla se muestra el estudio con escolares de 10 a 12 años se les pregunto a
que dan más prioridad de entre 3 posibilidades: tener buenas notas, destacar en los deportes
o ser popular entre los compañeros.
prioridad
deportes notas Popular Total
sexo niña 17 101 75 193
Niño 51 95 38 184
total 68 196 113 377
Cuando cada individuo de la población a estudio se puede clasificar según dos criterios A y
B, admitiendo el primero a posibilidades diferentes y b el segundo, la representación de las
frecuencias observadas en forma de una matriz a x b recibe el nombre de Tabla de
contingencia. Los datos se disponen de la forma siendo nij el número de individuos que
presentan simultáneamente la i-ésima modalidad del carácter A y la j-ésima del B.
La hipótesis nula a contrastar admite que ambos caracteres, A y B, se presentan de forma
independiente en los individuos de la población de la cual se extrae la muestra; siendo la
alternativa la dependencia estocástica entre ambos caracteres. La realización de esta prueba
requiere el cálculo del estadístico donde: y son las frecuencias absolutas marginales y el
tamaño muestra total.
El estadístico L se distribuye como una con (a - 1) (b - 1) grados de libertad. El contraste se
realiza con un nivel de significación del 5%.
2.1.2 Prueba de la bondad del ajuste
Las pruebas de bondad de ajuste tienen por objetivo determinar si los datos se ajustan a una
determinadadistribución, esta distribución puede estar completamente especificada
(hipótesis simple) operteneciente a una clase paramétrica (hipótesis compuesta).
5. Test Â2 Están diseñados para variables aleatorias discretas con un número finito de valores,
siesto no ocurriese los valores de la variable se agrupan en un número finito de clases.
1. Hipótesis nula simple H0: X ´ F0
Dada una muestra aleatoria simple de una variable aleatoria X que toma valores en las
clasesC1;Ck, seaOi = no de individuos de la muestra en la clase Ci y sea pi = P(X 2 Ci).
Con esta formulación lo que se contrasta es
H0: pi = PF0(X 2 Ci) = p0 i 8i y se puede hacer por dos procedimientos: mediante el
estadístico de la razón de verosimilitudes
o mediante el estadístico de Pearson.
Ambos procedimientos se basan en la comparación de la frecuencia observada en cada
claseOi con la frecuencia esperada bajo la hipótesis nula Ei = np0
i = no de individuos esperadosen la clase Ci, bajo H0; si esta fuese cierta no deberían
presentarse grandes discrepancias.
2.1.3 Tablas de contingencia
En estadística las tablas de contingencia se emplean para registrar y analizar la relación
entre dos o más variables, habitualmente de naturaleza cualitativa (nominales u ordinales).
Supóngase que se dispone de dos variables, la primera el sexo (hombre o mujer) y la
segunda recoge si el individuo es zurdo o diestro. Se ha observado esta pareja de variables
en una muestra aleatoria de 100 individuos. Se puede emplear una tabla de contingencia
para expresar la relación entre estas dos variables, del siguiente modo:
Diestro Zurdo TOTAL
Hombre 43 9 52
Mujer 44 4 48
TOTAL 87 13 100
Las cifras en la columna de la derecha y en la fila inferior reciben el nombre de frecuencias
marginales y la cifra situada en la esquina inferior derecha es el gran total.
La tabla nos permite ver de un vistazo que la proporción de hombres diestros es
aproximadamente igual a la proporción de mujeres diestras. Sin embargo, ambas
6. proporciones no son idénticas y la significación estadística de la diferencia entre ellas
puede ser evaluada con la prueba χ² de Pearson, supuesto que las cifras de la tabla son una
muestra aleatoria de una población. Si la proporción de individuos en cada columna varía
entre las diversas filas y viceversa, se dice que existe asociación entre las dos variables. Si
no existe asociación se dice que ambas variables son independientes.
El grado de asociación entre dos variables se puede evaluar empleando distintos
coeficientes: el más simple es el coeficiente phi que se define por
φ = √(χ2 / N)
Donde:
χ2se deriva del test de Pearson.
N es el total de observaciones -el gran total.
Φ puede oscilar entre 0 (que indica que no existe asociación entre las variables) e infinito.
A diferencia de otras medidas de asociación, el coeficiente Φ de Cramer no está acotado.
Un método útil para clasificar los datos obtenidos en un recuento es mediante las tablas de
contingencia.
Se trata de tablas en cuyas celdas figuran probabilidades, y en la cual podemos determinar
unas probabilidades conociendo otras de la tabla.
Ejemplo
Se sortea un viaje a Roma entre los 120 mejores clientes de una agencia de automóviles. De
ellos, 65 son mujeres, 80 están casados y 45 son mujeres casadas. Se pide:
1¿Cuál será la probabilidad de que le toque el viaje a un hombre soltero?
2Si del afortunado se sabe que es casado, ¿cuál será la probabilidad de que sea una mujer?
7. 2.2 ANÁLISIS DE VARIANZA
En estadística, el análisis de la varianza (ANOVA, ANalysis Of VAriance, según
terminología inglesa) es una colección de modelos estadísticos y sus procedimientos
asociados, en el cual la varianza está particionada en ciertos componentes debidos a
diferentes variables explicativas.
Las técnicas iniciales del análisis de varianza fueron desarrolladas por el estadístico y
genetistaR. A. Fisher en los años 1920 y 1930 y es algunas veces conocido como "Anova
de Fisher" o "análisis de varianza de Fisher", debido al uso de la distribución F de Fisher
como parte del contraste de hipótesis.
Supónganse k muestras aleatorias independientes, de tamaño n, extraídas de una única
población normal. A partir de ellas existen dos maneras independientes de estimar la
varianza de la población 2:
1) Una llamada varianza dentro de los grupos (ya que sólo contribuye a ella la varianza
dentro de las muestras), o varianza de error, o cuadrados medios del error, y habitualmente
representada por MSE (Mean Square Error) o MSW (Mean Square Within) que se calcula
como la media de las k varianzas muéstrales (cada varianza muestral es un estimador
centrado de 2 y la media de k estimadores centrados es también un estimador centrado y
más eficiente que todos ellos). MSE es un cociente: al numerador se le llama suma de
cuadrados del error y se representa por SSE y al denominador grados de libertad por ser los
términos independientes de la suma de cuadrados.
2.2.1 Inferencia sobre una varianza de población
(Anova).
8. El análisis de varianza (anova) es uno de los métodos estadísticos más utilizados y más
elaborados en la investigación moderna. El análisis de la varianza, no obstante su
denominación se utiliza para probar hipótesis preferentes a las medias de población más
que a las varianzas de población. Las técnicas anovas se han desarrollado para el análisis de
datos en diseños estadísticos muy complicados.
Veamos cuando se tienen puntuaciones de CI en 5 muestras de adulto.
Grupos 1 2 3 4 5 102 103 100 108 121 2 15 12 12 14 10
Se aprecia que varían las medias de los grupos. Esta variación de las medias de grupo a
partir de la media total o global de todos los grupos, se conoce como varianza intergrupal,
la variabilidad promedio de las puntuaciones en cada grupo se denominan varianza
intergrupal. Ahora se colocan todas las puntuaciones de CI en una gran urna y se mezclan
en forma adecuada. Puede desentenderse por el momento cuáles puntuaciones pertenecen a
que grupos. Estas puntuaciones varían. La variación de estas puntuaciones individuales se
denomina variación total. El meollo del análisis de varianza radica en el siguiente hecho: si
los grupos son muestras aleatorias provenientes de la misma población, las varianzas,
intergrupal e intergrupal, son estimaciones insesgadas de la misma varianza poblacional. Se
prueba la significación de la diferencia de los 2 tipos mediante la prueba F.
Supuestos que fundamentan la aplicación de análisis de varianza.
Cuando se utiliza la técnica anova se deben cumplir los siguientes supuestos:
Las personas de los diversos subgrupos deben seleccionarse mediante el muestreo aleatorio,
a partir de poblaciones normalmente distribuidas. La varianza de los subgrupos debe ser
homogénea.
Las muestras que constituyen los grupos deben ser independientes. Amenos de que las
muestras sean independientes, y que por lo tanto, generen estimaciones de varianza
independientes, la razón de las varianzas inter e intra no adoptará la distribución F.
2.2.2 Inferencia sobre la varianza de dos poblaciones
(Anova).
9. De manera que, si las varianzas poblacionales son iguales, dicha razón es 1 y podríamos
afirmar que las dos poblaciones tienen una distribución homogénea; es decir, los datos se
encuentran igualmente dispersos. Una forma clara de interpretación de la importancia de la
homogeneidad de varianzas se puede apreciar en el siguiente ejemplo:
Supongamos que estamos comparando el rendimiento promedio de los alumnos de una
asignatura dividida en dos secciones, cada una de las cuales están asignadas a diferentes
profesores. Podría ocurrir que el rendimiento promedio de ambas secciones sea la misma;
pero sin embargo, las notas pueden tener diferente variabilidad.
Observe las dos curvas en el siguiente gráfico. Las dos tienen el mismo promedio, pero, por
la forma de la campana, tienen diferente varianza.
Esto justifica la necesidad de establecer una prueba de hipótesis para una razón de
varianzas, a fin de comprobar si ellas son homogéneas o no.
Una aplicación de esta razón podría ser bastante significativa en un caso en el que las
medias no son muy explicativas.
Por otro lado, así como se realiza inferencia sobre la estimación y prueba de hipótesis de la
diferencia de medias o proporciones muestrales en el caso de dos poblaciones, así también
podemos plantear el estudio de la razón de las varianzas de dos poblaciones definiendo al
parámetro q como y su estimador . Este estudio lo haremos
tomando en cuenta el intervalo de confianza y la prueba de hipótesis para q.
10. Pues bien. Sea X1, X2, ..., Xn1 una muestra aleatoria extraída a partir una población N(m1,
s1²) y se Y1, Y2, ..., Yn2 una muestra aleatoria extraída a partir una población N(m2, s2²).
11. Pruebas de la bondad del ajuste y análisis de Varianza
Las pruebas de bondad de ajuste tienen por objetivo determinar si los datos se ajustan a una
determinadadistribución, esta distribución puede estar completamente especificada
(hipótesis simple) operteneciente a una clase paramétrica (hipótesis compuesta).
Test Â2 Están diseñados para variables aleatorias discretas con un número finito de valores,
siesto no ocurriese los valores de la variable se agrupan en un número finito de clases.
1. Hipótesis nula simple H0: X ´ F0
Dada una muestra aleatoria simple de una variable aleatoria X que toma valores en las
clasesC1;Ck, seaOi = no de individuos de la muestra en la clase Ci y sea pi = P(X 2 Ci).
Con esta formulación lo que se contrasta es
H0: pi = PF0(X 2 Ci) = p0 i 8i y se puede hacer por dos procedimientos: mediante el
estadístico de la razón de verosimilitudes
o mediante el estadístico de Pearson.
Ambos procedimientos se basan en la comparación de la frecuencia observada en cada
claseOi con la frecuencia esperada bajo la hipótesis nula Ei = np0
12. i = no de individuos esperadosen la clase Ci, bajo H0; si esta fuese cierta no deberían
presentarse grandes discrepancias.