El documento presenta una introducción a la inferencia estadística y las pruebas de hipótesis. Explica cómo formular hipótesis nulas y alternativas, y cómo utilizar estadísticos de prueba como z, t o chi-cuadrado para decidir si se acepta o rechaza la hipótesis nula basándose en los datos muestrales. También describe los posibles errores tipo I y II y cómo minimizarlos.
Prueba libre de Geografía para obtención título Bachillerato - 2024
Inferencia Estadística
1.
2.
3. Inferencia Estadística POSIBLES ERRORES EN EL CONTRASTE DE HIPÓTESIS El contraste de hipótesis no establece la verdad de la hipótesis, sino un criterio que nos permite decidir si una hipótesis se acepta o se rechaza, o el determinar si las muestras observadas difieren significativamente de los resultados esperados. En este proceso podemos incurrir en dos tipos de errores según sea la situación real y la decisión que tomemos. Si rechazamos una hipótesis cuando debiera ser aceptada, cometemos un error de tipo I , mientras que si la aceptamos debiendo ser rechazada diremos que hemos cometido un error de tipo II . Minimizar los errores no es una cuestión sencilla, un tipo suele ser más grave que otro y los intentos de disminuir uno suelen producir el aumento del otro. La única forma de disminuir ambos a la vez es aumentar el tamaño de la muestra. PRUEBAS DE HIPÓTESIS Decisión correcta Decisión incorrecta Error de tipo I DECISIÓN: Rechazar Ho Decisión incorrecta Error de tipo II Decisión correcta DECISIÓN: Mantener Ho Ho falsa Ho verdadera
4. Inferencia Estadística POSIBLES ERRORES EN EL CONTRASTE DE HIPÓTESIS La probabilidad de cometer un error de tipo I es el nivel de significación α , la probabilidad de cometer un error de tipo II depende del verdadero valor de µ y del tamaño de la muestra. Se puede comprobar que la probabilidad de cometer un error de tipo II disminuye al aumentar el tamaño de la muestra (n). Por ejemplo comprobar también lo que ocurre al variar la diferencia entre la media hipotética de la población (µ o ) y la verdadera (µ). PRUEBAS DE HIPÓTESIS
5. Inferencia Estadística CONTRASTE DE HIPÓTESIS PARA LA MEDIA Queremos contrastar una hipótesis acerca del valor de la media poblacional a partir de los resultados de una muestra. El proceso que seguimos es: PRUEBAS DE HIPÓTESIS
6. Inferencia Estadística CONTRASTE DE HIPÓTESIS PARA LA MEDIA Ejemplo 1 : Se sabe que la desviación típica de las notas de cierto examen es 2,4. Para una muestra de 36 estudiantes se obtuvo una nota media de 5,6. ¿Sirven estos datos para confirmar la hipótesis de que la nota media del examen fue de 6, a un nivel de significación de 0,05? Solución: PRUEBAS DE HIPÓTESIS Corresponde a una prueba bilateral, o de dos colas Si H 0 es cierta las medias muestrales se distribuyen Normal con: Se calcula la zona de aceptación y rechazo: Para α = 0,05 Z α /2 = 1,96 (Prueba de dos colas), por lo tanto el intervalo de aceptación es: (6 – 1,96*0,4 ; 6 + 1,96*0,4) = (5,22 ; 6,78)
7. Inferencia Estadística CONTRASTE DE HIPÓTESIS PARA LA MEDIA Ejemplo 1 : PRUEBAS DE HIPÓTESIS El valor obtenido en la muestra es X = 5,6, y como este valor está entre 5,22 y 6,78 quiere decir que cae en la zona de aceptación. Por ello Aceptamos H 0 , es decir que la nota media fue un 6,0.
8. Inferencia Estadística CONTRASTE DE HIPÓTESIS PARA LA MEDIA Ejemplo 2 : En otra muestra de 81 estudiantes se obtuvo una nota media de 6,2. ¿Se confirma la hipótesis anterior a un nivel de significación de 0,01? Solución: PRUEBAS DE HIPÓTESIS Se calcula la zona de aceptación y rechazo: Para α = 0,01 Z α /2 = 2,58 (Prueba de dos colas), por lo tanto el intervalo de aceptación es: (6 – 2,58*0,267 ; 6 + 2,58*0,267) = (5,31 ; 6,69) Como 6,2 está en el intervalo de aceptación. Se acepta H 0
9. Inferencia Estadística CONTRASTE DE HIPÓTESIS PARA LA MEDIA Ejemplo 3 : Se cree que la altura media de los habitantes de cierta población es a lo más 170 cm, con una desviación típica de 8 cm. En una muestra de 100 personas se observa una altura media de 172 cm. ¿Podemos aceptar la hipótesis con un nivel de significación del 5%? Solución: PRUEBAS DE HIPÓTESIS Corresponde a una prueba unilateral, o de una cola (cola derecha). Si H 0 es cierta las medias muestrales se distribuyen Normal con: Se calcula la zona de aceptación y rechazo: Para α = 0,05 Z α = 1,645 (Prueba de una cola), por lo tanto el intervalo de aceptación es: (- ∞ ; 170 + 1,645*0,8) = ( - ∞ ; 171,32)
10. Inferencia Estadística CONTRASTE DE HIPÓTESIS PARA LA MEDIA Ejemplo 3 : PRUEBAS DE HIPÓTESIS El valor obtenido en la muestra es X = 172, y como este valor es mayor que 171,32 quiere decir que cae en la zona de rechazo. Por ello Rechazamos H 0 , es decir que la media no es menor o igual a 170, es decir nos inclinamos por la hipótesis alterna H 1 .
11. Inferencia Estadística PRUEBA CHI-CUADRADO PRUEBAS DE DEPENDENCIA DE VARIABLES En la investigación nos encontramos con frecuencia con datos o variables de tipo cualitativo, mediante las cuales un grupo de individuos se clasifican en dos o más categorías mutuamente excluyentes. Las proporciones son una forma habitual de expresar frecuencias cuando la variable objeto de estudio tiene dos posibles respuestas, como presentar o no un evento de interés (rendimiento, deserción escolar, etc.). Cuando lo que se pretende es comparar dos o más grupos de sujetos con respecto a una variable categórica, los resultados se suelen presentar a modo de tablas de doble entrada que reciben el nombre de tablas de contingencia . Así, la situación más simple de comparación entre dos variables cualitativas es aquella en la que ambas tienen sólo dos posibles opciones de respuesta (es decir, variables dicotómicas). En esta situación la tabla de contingencia se reduce a una tabla dos por dos como la que se muestra en la Tabla 1:
12. Inferencia Estadística PRUEBA CHI-CUADRADO PRUEBAS DE DEPENDENCIA DE VARIABLES Supongamos que se quiere estudiar la posible asociación entre el hecho de que una mujer fume durante el embarazo y que el niño presente bajo peso al nacer. Por lo tanto, se trata de ver si la probabilidad de tener bajo peso es diferente en mujeres que fumen o en mujeres que no fumen durante la gestación. Para responder a esta pregunta se realiza un estudio de seguimiento sobre una muestra de 2000 mujeres prontas a dar a luz, a las que se interroga sobre su hábito tabáquico durante la gestación y se determina además el peso del recién nacido. Los resultados de este estudio se muestran en la Tabla 2. n b + d a + c Total c + d d c Ausente a + b b a Presenta Total Ausente Presente Característica B Característica A Tabla 1 de contingencia general para la comparación de dos variables dicotómicas.
13. Inferencia Estadística PRUEBA CHI-CUADRADO PRUEBAS DE DEPENDENCIA DE VARIABLES En la Tabla 1, a, b, c y d son las frecuencias observadas del suceso en la realidad de nuestro ejemplo de estudio (43, 207, 105 y 1647), siendo n (2000) el número total de casos estudiados, y a+b, c+d, a+c y b+d los totales marginales. En el ejemplo, a+b=250 sería el número total de mujeres fumadoras durante el embarazo, c+d=1750 el número total de mujeres no fumadoras, a+c=148 el número de niños con bajo peso al nacer y b+d=1852 el número de niños con peso normal al nacimiento. Ante una tabla de contingencia como la anterior pueden planteársenos distintas cuestiones. Lo más relevante es determinar si existe una relación estadísticamente significativa entre las variables estudiadas. 2000 1852 148 Total 1750 1645 (d) 105 (c) No fumadora 250 207 (b) 43 (a) Fumadora Total No Sí Gestante Recién nacido de bajo peso Tabla 2. Tabla de contingencia para estudiar la asociación entre fumar durante la gestación y el bajo peso del niño al nacer. Estudio de seguimiento de 2000 gestantes.
14. Inferencia Estadística PRUEBA CHI-CUADRADO PRUEBAS DE DEPENDENCIA DE VARIABLES Existen diferentes procedimientos estadísticos para el análisis de las tablas de contingencia como la prueba Chi cuadrado ( 2 ), la prueba exacta de Fisher, la prueba de McNemar o la prueba Q de Cochran, entre otras. La prueba Chi cuadrado, permite determinar si dos variables están o no asociadas. Si al final del estudio concluimos que las variables no están relacionadas podremos decir con un determinado nivel de confianza, previamente fijado, que ambas son independientes. Para su cómputo es necesario calcular las frecuencias esperadas (aquellas que deberían haberse observado si la hipótesis de independencia fuese cierta), y compararlas con las frecuencias observadas en la realidad. De modo general, para una tabla r x k (r filas y k columnas), se calcula el valor del estadístico como sigue:
15. Inferencia Estadística PRUEBA CHI-CUADRADO PRUEBAS DE DEPENDENCIA DE VARIABLES Los grados de libertad vienen dados por : gl= (r-1)(k-1). Donde r es el número de filas y k el de columnas. Criterio de decisión: Se acepta H 0 cuando: 2 calculado < 2 tablas En caso contrario se rechaza H 0 . Donde el valor de 2 tablas representa el valor proporcionado por las tablas, según el nivel de significación elegido y n los grados de libertad. Cuanto más se aproxima a cero el valor de chi-cuadrado, más ajustadas están ambas distribuciones. H 0 : No hay asociación entre las variables, son independientes Y la hipótesis alternativa: H 1 : Sí hay asociación entre las variables, es decir, son dependientes α 1- α
16. Inferencia Estadística PRUEBA CHI-CUADRADO PRUEBAS DE DEPENDENCIA DE VARIABLES En el ejemplo, para obtener los valores esperados , estos se calculan a través del producto de los totales marginales dividido por el número total de casos (n). Para el caso más sencillo de una tabla 2x2 como la Tabla 1, se tiene que: E22 E21 E12 E11
17. Inferencia Estadística PRUEBA CHI-CUADRADO PRUEBAS DE DEPENDENCIA DE VARIABLES De modo que los valores observados y esperados para los datos del ejemplo planteado se muestran en la Tabla 3. El valor del estadístico Chi cuadrado, para este ejemplo en concreto, vendría dado entonces como: 2000 1852 148 Total 1750 1645 (1620.5) 105 (129.5) No fumadora 250 207 (231.5) 43 (18.5) Fumadora Total No Sí Gestante Recién nacido de bajo peso Tabla 3. Tabla de contingencia para estudiar la asociación entre fumar durante la gestación y el bajo peso del niño al nacer. Valores observados y valores esperados (entre paréntesis) si los factores fuesen independientes.
18. PRUEBA CHI-CUADRADO PRUEBAS DE DEPENDENCIA DE VARIABLES A la vista de este resultado, lo que tenemos que hacer ahora es plantear un contraste de hipótesis entre la hipótesis nula: H 0 : No hay asociación entre las variables (en el ejemplo, el bajo peso del niño y el hecho de fumar durante la gestación son independientes, no están asociados). Y la hipótesis alternativa: H 1 : Sí hay asociación entre las variables, es decir, el bajo peso y el fumar durante la gestación están asociados. Para (2 -1)x(2 -1) = 1 Grados de Libertad y para un Nivel de Significancia α = 0,05, o lo que es lo mismo un Nivel de confianza de 1 – α = 0,95, el valor de las tablas Chi –cuadrado es 3,84. Como el valor calculado es mayor que el valor de tablas, cae en la Zona de Rechazo. Es decir, que a la luz de estos datos, podemos concluir que SI hay asociación entre las variables, es decir el peso del recién nacido y el hecho de fumar durante la gestación, son dependientes.
19. Inferencia Estadística PRUEBA CHI-CUADRADO PRUEBAS DE DEPENDENCIA DE VARIABLES Otro ejemplo: En la tabla siguiente se muestran las cantidades de alumnos que pasaron y no pasaron la asignatura de Estadística Aplicada, en alguna Universidad. Según 3 profesores, X, Y y Z. Probar la hipótesis de que la proporción de estudiantes que no pasa el curso con los tres profesores es la misma. H 0 : No hay asociación entre las variables, o sea la proporción de los alumnos que aprueban la Asignatura no tiene relación con el profesor. Y la hipótesis alternativa: H 1 : Sí hay asociación entre las variables, es decir, la proporción de los alumnos que aprueban la Asignatura, si tiene relación con el profesor. 180 64 61 55 Total 27 8 14 5 No pasaron 153 56 47 50 Pasaron Total Prof. Z Prof. Y Prof. X