2. INFERENCIA ESTADÍSTICA
La Inferencia Estadística comprende los
métodos que son usados para obtener
conclusiones de la población en base a
una muestra tomada de ella. Incluye los
métodos de estimación de parámetros
y las pruebas de hipótesis.
4. Inferencia estadistica
Estimacion
Estimacion de Puntual
Parametros
Intervalos de
Confianza
Inferencia
Prueba de Hipotesis
5. Hipótesis Estadística
Una Hipótesis Estadística es una afirmación que se hace acerca
de un parámetro poblacional. Por ejemplo, el tiempo de duración
promedio de un artefacto eléctrico, la proporción de trabajadores con
grado de instrucción superior etc.
hipótesis nula, La afirmación que está establecida y que se espera
sea rechazada después de aplicar una prueba estadística es
llamada la hipótesis nula y se representa por Ho.
hipótesis alterna La afirmación que se espera sea aceptada después
de aplicar una prueba estadística es llamada la hipótesis alterna
y se representa por Ha.
6. Hipótesis Estadística (cont)
Cuando se selecciona una muestra de una
población estamos dispuestos a cometer dos
tipos de errores.
El error tipo I, se comete cuando se rechaza una
hipótesis nula que realmente es cierta,
El error tipo II que se comete cuando se acepta
una hipótesis nula que realmente es falsa.
7. Hipótesis Estadística (cont)
El nivel de significancia, representada por α, es la probabilidad de
cometer error tipo I, y por lo general se asume antes de la
realización de la investigación. Los valores que puede asignarse al
nivel de significancia es: 0.1, 0.05 ó 0.01. También puede ser
interpretado como el área de la región que contiene todos los
valores posibles de la prueba estadística para los cuales la hipótesis
nula es rechazada.
La probabilidad de cometer error tipo II, que es la probabilidad de
aceptar Ho, siendo esta falsa, se representado por β y
al valor 1-β se le llama la potencia de la prueba.
Una buena prueba estadística es aquella que tiene una potencia de
prueba alta.
8. Inferencias acerca de la Media
Poblacional (varianza conocida).
Supongamos que de una población normal
con media desconocida µ y varianza
conocida σ2 se extrae una muestra de
tamaño n, entonces de la distribución de la
media muestral se obtiene que:
x−µ
Z=
σ
n
se distribuye como una normal estándar.
Luego P(− Z a / 2 < Z < Z a / 2 ) = 1 − α
Donde Zα/2 es el valor de la normal estándar tal que el área a la derecha de
dicho valor es α/2.
9. Inferencias acerca de la Media Poblacional
(varianza conocida).
Sustituyendo la fórmula de Z, se obtiene:
P( x - Zα/2 σ/ n < µ < x + Zα/2 σ/ )n= 1 - α
Notar que los dos extremos del intervalo son aleatorios.
De lo anterior se puede concluir que un Intervalo de Confianza
del 100 (1-α) % para la media poblacional µ, es de la forma:
x - Zα/2 σ/ n , x + Zα/2 σ/ n
10. Inferencias acerca de la Media Poblacional
(varianza conocida).
La siguiente tabla muestra los Zα/2 más usados.
Nivel de Zα/2
Confianza
90 1.645
95 1.96
99 2.58
Usando MINITAB se pueden hallar intervalos de confianza y hacer
pruebas de hipótesis para µ. Para esto se sigue la secuencia Stat
Basic Statistics 1-sample Z
11. Inferencias acerca de la Media Poblacional
(varianza conocida)
Ejemplo 1. Un economista desea hallar un intervalo de confianza del 90% para el
sueldo semanal promedio de todos los clientes de una determinada tienda
comercial. Para esto asume que la distribución de los sueldos semanal es normal
con una desviación estándar σ = 13 y usa la siguiente muestra al azar de sueldos
semanales de 20 clientes.
217 223 225 245 238 216 217 226 202
233 235 242 219 221 234 199 236 248
218 224
Solución
One-Sample Z: colesterol
The assumed standard deviation = 13
Variable n Mean StDev SE Mean 90.0 % CI
sueldo 20 225.90 13.09 2.91 ( 221.12, 230.68) col
Interpretación: Hay un 90% de confianza de que el sueldo semanal
promedio de la población de clientes de la tienda este entre 221.12 y 230.68.
12. Inferencias acerca de la Media Poblacional
(varianza desconocida).
En la práctica si la media poblacional es desconocida
entonces, es bien probable que la varianza también lo
sea puesto que en el cálculo de σ2 interviene µ. Si ésta
es la situación, y si el tamaño de muestra es grande (n >
30, parece ser lo más usado), entonces σ2 es estimada
por la varianza muestral s2 y se puede usar la siguiente
fórmula para el intervalo de confianza de la media
poblacional:
X − zα / 2 s / n , X + zα / 2 s / n
13. También se pueden hacer pruebas de hipótesis con
respecto a la media poblacional µ. Por conveniencia, en la
hipótesis nula siempre se asume que la media es igual a un
valor dado.
Existen dos métodos para hacer la prueba de hipótesis: el
método clásico y el método del "P-value".
En el método clásico, se evalúa la prueba estadística de Z y
al valor obtenido se le llama Z calculado (Zcalc). Por otro
lado el nivel de significancia α, definido de antemano
determina una región de rechazo y una de aceptación. Si
Zcalc cae en la región de rechazo, entonces se concluye que
hay suficiente evidencia estadística para rechazar la hipótesis
nula basada en los resultados de la muestra tomada.
14. Formulas para prueba de hipotesis de medias
Caso I Caso II Caso III
Ho : µ=µ0 Ho : µ=µ0 Ho : µ=µ0
Ha : µ<µ0 Ha : µ ≠ µ0 Ha : µ >µ0
Prueba Estadística:
x − µo
Z =
σ
n
Decisión:
Si Zcal < -Zα entonces Si |Zcal
|>Zα/2 entonces Si Zcal
>Zα entonces
se rechaza Ho se rechaza Ho se rechaza Ho
15. Prueba de hipotesis usando “p-values”
El “P-value” llamado el nivel de significación observado, es el valor de
α al cual se rechazaría la hipótesis nula si se usa el valor calculado de la
prueba estadística. En la práctica un “P-value” cercano a 0 indica un
rechazo de la hipótesis nula. Así un “P-value” menor que .05 indicará que
se rechaza la hipótesis nula.
Fórmulas para calcular “P-value”: Depende de la forma de la hipótesis
alterna
Si Ha: µ>µo, entonces P-value = Prob (Z>Zcalc).
Si Ha: µ<µo, entonces P-value = Prob (Z<Zcalc).
Si Ha: µ≠µo, entonces P-value = 2Prob (Z>|Zcalc|).
|
Los principales paquetes estadísticos, entre ellos MINITAB, dan los “P-
values” para la mayoría de las pruebas estadísticas.
16. Ejemplo
Ejemplo 2. En estudios previos se ha determinado que el
suldo semanal promedio en una población de clientes de una
determinada tienda comercial es 220 dólares. Un economista
piensa que en realidad el sueldo semanal es más alto y para
probar su afirmación usa la muestra del Ejemplo 1. ¿Habrá
suficiente evidencia estadística para apoyar la afirmación del
economista? Justificar su afirmación.
Solución:
La hipótesis nula es Ho: µ = 220 (el sueldo semanal promedio
es $ 220)
La hipótesis alterna es Ha: µ > 220 (el economista piensa
que el sueldo semanal promedio es mayor de $ 220).
17. Los resultados son los siguientes:
One-Sample Z: sueldo
Test of mu = 220 vs > 220
The assumed standard deviation = 13
90%
Lower
Variable n Mean StDev SE Mean Bound Z P
Sueldo 20 225.900 13.094 2.907 222.175 2.03 0.021
Interpretación: El valor del “P-value” (el área a la derecha de 2.03) es
0.021 menor que el nivel de significación α =0.05, por lo tanto; se rechaza
la hipótesis nula y se concluye de que sí hay evidencia estadística de que
el sueldo semanal promedio de los clientes es mayor de $. 220. O sea los
resultados apoyan lo que afirma el economista. Notar que el extremo
inferior del intervalo confianza de un solo lado empieza en 222.175 que es
mayor que 220.
18. Inferencias acerca de la Media
Poblacional (Varianza Desconocida)
Supongamos que la población es normal con media y varianza
desconocida y que se desea hacer inferencias acerca de µ, basada en
una muestra pequeña (n < 30) tomada de la población. En este caso la
distribución de la media muestral xya no es normal, sino que
sigue la distribución t de Student.
La distribución t de Student es bastante similar a la Normal Estándar,
con la diferencia que se aproxima más lentamente al eje horizontal. El
parámetro de esta distribución es llamado grados de libertad, y se
puede notar que a medida que los grados de libertad aumentan, la
curva de la t y la curva normal estándar se asemejan cada vez más.
Por cada estimación de parámetro, calculada en forma independiente,
que aparece en la formula del estadistico se pierde un grado de libertad
con respecto al total de datos tomados.
19. Curva Normal Estandar y T con 5 grados de libertad
0.4
Curva Normal
Estandar
0.3
0.2
C2
0.1
t con 5gl.
0.0
-4 -3 -2 -1 0 1 2 3 4
x
Hecho por Edgar Acuna
20. Si de una población Normal con media µ y
desviación estándar σ se extrae una muestra de tamaño n, entonces el
estadístico: x − µ
t =
s
n
se distribuye como una t de Student con n-1 grados de libertad.
Recordar que la desviación estándar s puede ser escrita en términos de X
Un intervalo de confianza del 100 (1-α) % para µ es de la forma:
X − tα / 2 s / n , X + tα / 2 s / n
donde s es la desviación estándar muestral. Aquí t(n-1,α/2) es un valor de t
con n-1 grados de libertad y tal que el area a la derecha de dicho valor
es α/2.
En MINITAB se sigue la secuencia StatBasic Statistics1-sample t
21. Prueba de hipotesis (varianza desconocida)
Caso I Caso II Caso III
Ho : µ=µ0 Ho : µ=µ0 Ho :µ=µ
Ha : µ<µ0 Ha : µ ≠ µ0 Ha : µ>µ0
Prueba Estadística
x− o
µ
t =
s
n
Si tcal < -tα entonces Si |tcal |>tα/2 entonces Si tcal >tα entonces
se rechaza Ho se rechaza Ho se rechaza Ho
22. Ejemplo 3. Un administrador afirma que el tiempo de vida promedio de duración de
un determinadoproducto es mayor que 4 años. ¿A qué conclusión se llegará después
de hacer la prueba de hipótesis?
Solución:
La hipótesis nula es Ho: µ = 4 (el tiempo de vida promedio de duración de los
productos es de 4 años) y la hipótesis alterna es Ha: µ > 4 (el tiempo de vida
promedio de duración de losproductos es mayor que 4 años).
One-Sample T: tiempo
Test of mu = 4 vs > 4
99%
Lower
Variable N Mean StDev SE Mean Bound T P
tiempo 12 4.75000 4.04599 1.16798 1.57535 0.64 0.267
Interpretación: El valor del “P-value” (el área a la derecha de 0.64) es .267 mayor
que el nivel de significación α = .05, por lo tanto NO se rechaza la hipótesis nula y se
concluye de que no hay evidencia de que el tiempo promedio de vida de duración de
los productos haya aumentado de 4 años. Notar que el extremo inferior del intervalo
de confianza de un solo lado al 99% es 1.575 mucho menor que 4.
23. Inferencia para Proporciones
Cuando estamos interesados en estimar la proporción P (o el porcentaje) de
ocurrencia de un evento. Se necesita definir una variable aleatoria X que
indique el número de veces que ocurre el evento en una muestra de tamaño n
y con probabilidad de éxito, p. Se puede mostrar que cuando el tamaño de
muestra es grande, tal que np > 5, entonces el estadístico
p−
ˆ P
Z =
pq
ˆ
n
se distribuye aproximadamente como una normal estándar. Aquí po
x
representa p=
ˆ
n
la proporción poblacional que se desea estimar, y es la proporción
muestral.
En MINITAB, se sigue la secuencia Stat Basic Statistics 1 proportion.
24. Inferencia para Proporciones
Intervalo de confianza (aproximado) del 100 (1-α) % para la
proporción poblacional p es:
ˆˆ
pq ˆˆ
pq
p − Zα / 2
ˆ , p + Zα / 2
ˆ
n n
Pruebas de hipótesis:
Caso I Caso II Caso III
Ho : p=p0 Ho : p=p0 Ho : p=p0
Ha : p<p0 Ha : p ≠ p0 Ha : p>p0
Prueba Estadística (Aproximada):
( p − p0 )
Z=
p0 q0
n
Decisión
Si Zcal <-Zα entonces Si |Zcal |>Zα / 2 entonces Si Zcal >Zα entonces
se rechaza Ho se rechaza Ho se rechaza Ho
25. Ejemplo
Ejemplo En cierta empresa, se tiene conocimiento de que dos de cada 5
trabajadores piensan que debería haber un incremento de salarios. En una
encuesta reciente por en administrador 1225 trabajadores encontró que
478 de ellos opinaban con respecto a los incremento de salarios. Hallar un
intervalo de confianza del 90 por ciento para la proporción de trabajadores
que están de acuerdo con el incremento de salarios. ¿Piensa Ud. que hay
evidencia de que la opinión de los trabajadores que están de acuerdo al
incremento de salarios es diferente al 40%?.
Solución:
Hay que hallar un intervalo de confianza del 90% para la proporción P, y
probar la siguiente hipótesis:
H 0 : p = .4
H a : p ≠ .4
26. Ejemplo (sol.)
Test and CI for One Proportion
Test of p = 0.4 vs p not = 0.4
Sample X N Sample p 90% CI Z-Value P-
Value
1 478 1225 0.390204 (0.367280, 0.413128) -0.70 0.484
Interpretación: Viendo que el “p-value” es .484 mucho mayor que .
05 se llega a la conclusión de que no hay suficiente evidencia de que
la proporción de trabajadores a favor de un incremento salarial sea
diferente al 40%, con un nivel de significancia de 0.05
27. Comparando la varianza de dos poblaciones
Supongamos que se tienen dos poblaciones normales con varianzas
desconocidas σ 1 y
2
σ22
Si de la primera población se toma una muestra de tamaño m que tiene
2
una varianza muestral s1 y de la segunda población se toma una
muestra, independiente de la primera, de tamaño n que tiene una varianza
2
muestral s 2
Se puede mostrar que la razón
s12 σ 12
s 22 σ 22
se distribuye como una F con m-1 grados de libertad en el numerador y
n-1 en el denominador.
28. Caso I Caso II Caso III
Ho : σ 1 = σ 2 Ho : σ 1 = σ 2 Ho : σ 1 = σ 2
2 2 2 2 2 2
Ha : σ1 < σ 2 Ha : σ 1 > σ 2
2 2 2 2
Ha : σ 12 ≠ σ 2
2
Prueba Estadística:
s12
F= 2
s2
con m-1 g.l. en el numerador y n-1 g.l en el denominador
Decisión:
Si Fcal<Fα entonces Si Fcal<Fα/2 o Fcal >F1-α/2 Si Fcal>F1-α entonces
se rechaza Ho se rechaza Ho se rechaza Ho
29. MINITAB hace pruebas de igualdad de varianza de dos o más grupos.
Para esto se selecciona la opción 2 Variances del submenú Basic
Statistics del menú STAT. Otra posibilidad es elegir Test for Equal
Variances del submenú ANOVA del menú STAT.
Ejemplo En el siguiente ejemplo se trata de comparar las
varianzas de los puntajes de aprovechamiento de los trabajadores de
empresas públicas y privadas. Los datos recolectados son:
Ho: Varianza de los puntajes de trabajadores de empresas pública es
igual a la varianza de puntajes de los trabajadores de empresas
privada.
Ha: Las varianzas no son iguales.
31. Resultados
Test for Equal Variances: aprovech versus empresas
95% Bonferroni confidence intervals for standard deviations
Empresa n Lower StDev Upper
privada 6 32.4522 55.3477 158.347
pública 8 28.2368 45.1347 103.380
F-Test (normal distribution)
Test statistic = 1.50, p-value = 0.601
Levene's Test (any continuous distribution)
Test statistic = 0.30, p-value = 0.594
32. Interpretación: El “P-value” de la prueba de F es .601 mucho mayor que .05,
luego se acepta la hipótesis nula y se concluye que los puntajes en la prueba de
aprovechamiento en las escuelas pública y privada tienen igual varianza. De las
gráficas se puede ver que los “boxplots” de ambos grupos tienen aproximadamente
el mismo alargamiento.
33. Comparación entre dos medias poblacionales
usando muestras independientes
Supongamos que se tienen dos poblaciones distribuidas normalmente con
medias desconocidas µ1 y µ2, respectivamente. Se puede aplicar una prueba
t de Student para comparar las medias de dichas poblaciones basándonos en
dos muestras independientes tomadas de ellas.
a) Si las varianzas de las poblaciones son iguales ( σ 12 = σ 2 = σ 2
2
)
entonces se puede mostrar que:
( x − y ) − ( µ1 − µ 2 )
t=
1 1
sp +
m n
se distribuye como una t con m + n - 2 grados de libertad.
34. la varianza poblacional es estimada por una varianza combinada
de las varianzas de las dos muestras tomadas.
(m − 1) s12 + (n − 1) s 2
2
s2 =
p
m+n−2
Un intervalo de confianza del 100(1-α) % para la diferencia µ1-µ2
de las medias poblacionales será de la forma:
1 1
x − y ± t (α / 2,n + m − 2) s p +
m n
35. Las pruebas de hipótesis son:
Caso I Caso II Caso III
Ho : µ = µ
1 2 Ho : µ = µ 1 2 Ho : µ = µ
1 2
Ha : µ < µ
1 2 Ha : µ1 ≠ µ 2 Ha : µ > µ
1 2
Prueba Estadística:
x−y
t= con m+n-2 grados de libertad
1 1
sp +
m n
Decisión:
Si t cal < − tα entonces Si t cal < tα / 2 o t cal > t1−α / 2 Si t cal > t1−α
se rechaza Ho se rechaza Ho se rechaza Ho
36. Ejemplo
Ejemplo Se desea comparar si los trabajadores de empresas privadas y
públicas tienen igual rendimiento en la prueba de aprovechamiento . Con
respecto a los datos del ejemplo anterior
Solucion
Two-Sample T-Test and CI: aprovech, escuela
Two-sample T for aprovech
SE
Empresa n Mean StDev Mean
privada 6 680.8 55.3 23
pública 8 645.0 45.1 16
Difference = mu (privada) - mu (pública)
Estimate for difference: 35.8333
95% CI for difference: (-22.5849, 94.2516)
T-Test of difference = 0 (vs not =): T-Value = 1.34 P-Value = 0.206 DF
= 12
Both use Pooled StDev = 49.6461
37. La opción Samples in different columns se usa cuando las dos
muestras están en columnas separadas y se considera a opción Assume
equal variances.
Interpretación: El valor del “P-value” es .206 mayor que el nivel de
significación α = .05, por lo tanto NO se rechaza la hipótesis nula y se
concluye de que no hay evidencia de que los trabajadores de empresa
pública tengan un rendimiento distinto que los de empresa privada en
las pruebas de aprovechamiento. El número de grados de libertad de la t
es 12. Notar que el intervalo de confianza del 95% para la diferencia es
(–22.6, 94.3) que contiene a cero, ésta es otra manera de justificar que se
acepta la hipótesis nula.
38. Eligiendo la opción Graphs de la ventana de diálogo 2-Sample t se obtiene
los boxplots de los dos grupos, como aparece en la siguiente figura:
Interpretación: No se puede apreciar una marcada diferencia entre las
medianas (representadas por las líneas dentro de las cajas), ni las medias
(representadas por los puntos) de los grupos. La variabilidad de los dos grupos
también es bastante similar ya que los dos “boxplots” tienen alargamiento
similar.
39. b) Si las varianzas de las poblaciones no son iguales, entonces se usa una
prueba aproximada de t, donde el número de grados de libertad es calculado
aproximadamente.
La prueba de t aproximada está dada por:
x−y
t=
s12 s 2
2
+
m n
donde los grados de libertad gl son aproximados por la siguiente fórmula:
(c1 + c 2 ) 2
gl = 2 2
c1 c2
+
m −1 n −1
s12 2
s2
Con c1 = y c2 =
m n
40. Ejemplo
Ejemplo Probar si las trabajadores mujeres tienen mejor
promedio académico que los varones.
Two-Sample T-Test and IC: mujer, hombre
Two-sample T for mujer vs hombre
n Mean StDev SE Mean
mujer 16 3.249 0.359 0.090
hombre 12 2.954 0.631 0.18
Difference = mu (mujer) - mu (hombre)
Estimate for difference: 0.295208
95% lower bound for difference: -0.059554
T-Test of difference = 0 (vs >): T-Value = 1.45 P-Value = 0.083 DF = 16
Interpretación: Como el “P-value” es .083 > .05 aunque no por mucho,
se concluye que no hay suficiente evidencia de que el promedio académico
de las mujeres sea mayor que el de los hombres, con un nivel de
significancia de 0.05.
41. Comparando media de dos poblaciones
usando muestras pareadas
En este caso se trata de comparar dos métodos o tratamientos, pero se quiere
que las unidades experimentales donde se aplican los tratamientos sean las
mismas, ó lo más parecidas posibles, para evitar influencia de otros factores
en la comparación
Sea Xi el valor del tratamiento I y Yi el valor del tratamiento II en el i-ésimo
sujeto. Consideremos di = Xi - Yi la diferencia de los tratamientos en el i-ésimo
sujeto.
Las inferencias que se hacen son acerca del promedio poblacional µd de
las di. Si µd = 0, entonces significa que no hay diferencia entre los dos
tratamientos.
En MINITAB eligiendo la secuencia StatBasic Statisticspaired t
42. Intervalo de Confianza
Un intervalo de confianza del 100(1-α)% para la diferencia poblacional µd
dada una muestra de tamaño n es de la forma
( d - t(n-1,α/2) sd/ n , d + t(n-1,α/2) sd/ n )
∑ (d i − d )2
donde d , es media de las diferencias muestrales di y sd = i
n −1
es la desviación estándar.
43. Pruebas de Hipótesis
Caso I Caso II Caso III
Ho : µd = 0 Ho : µd = 0 Ho : µ d =0
Ha : µd < 0 Ha : µd ≠ 0 Ha : µd >0
Prueba Estadística:
d
t= sd se distribuye con una t de Student con n-1 gl.
n
Decisión:
Si t<-tα entonces Si | t |>tα/2 entonces Si Tcal >tα entonces
se rechaza Ho se rechaza Ho se rechaza Ho
44. Comparando dos proporciones
Algunas veces se desea comparar la proporción con que ocurre un mismo
evento en dos poblaciones distintas. Esto conlleva a hacer inferencias acerca
de la diferencia p1 - p2. Supongamos que de una de las poblaciones sacamos
una muestra de tamaño m, y que en ella ocurre el evento X1 veces, y de la
segunda población sacamos una muestra de tamaño n y que en ella ocurre el
evento X2 veces.
Se puede mostrar que el siguiente estadístico:
( p1 − p 2 ) − ( p1 − p 2 )
ˆ ˆ
z=
p1 q1 p 2 q 2
+
m n
X X
Donde p1 = m1 , p2 = n2 , q1 = 1-p1 y q2 = 1-p2 se distribuye aproximadamente
ˆ ˆ
ˆ
como una normal estándar cuando n y m son grandes tal que, mp1 y np 2 son
ˆ
mayores que 5.
45. Un intervalo de confianza
Un intervalo de confianza aproximado del 100(1-α) para la diferencia de las
proporciones será de la forma:
ˆ ˆ ˆ ˆ
p1 q1 p 2 q 2
p1 − p 2 ± z1−α / 2 +
m n
Si la hipótesis nula Ho: p1 = p2 es cierta, entonces el estadístico mencionado
anteriormente se convierte en:
ˆ ˆ
p1 − p 2
z=
1 1
pq +
m n
X1 + X 2
donde, p es estimado por p= . Luego, las fórmulas para pruebas de
m+n
hipótesis serán como siguen:
46. Caso I Caso II Caso III
Ho : p 1 = p2 Ho : p = p 1 2
Ho : p = p
1 2
Ha : p 1 < p2 Ha : p ≠ p 1 2 Ha : p > p
1 2
Prueba Estadística:
p1 − p 2
Z=
1 1
p(1 − p ) +
m n
Decisión:
Si Z cal < Z entonces
α
Si Z < Z α / 2 o Z >Z1−α / 2
cal cal
Si Zcal
>Z 1−α
se rechaza Ho entonces se rechaza Ho entonces se rechaza Ho
En MINITAB, para hacer inferencia acerca de la diferencia de dos
proporciones se sigue la secuencia StatBasic Statistics2 proportions.
47. Ejemplo
Un médico ha sugerido que un ataque cardíaco es menos probable que ocurra
en trabajadores de empresas privadas. Se elige una muestra al azar de 300
trabajadores, de los cuales 100 trabajaban en empresa privada y de ellos sólo
10 han sufrido un ataque cardíaco. De los 200 que no trabajaban en empresa
privada, 25 han sufrido ataques cardíacos. Probar si los resultados de las
muestras apoyan lo sugerido por el médico.
Solución:
La hipótesis nula es
Ho: p1 = p2 (las probabilidades de sufrir ataque cardíaco son iguales para
ambos grupos) y
Ha: p1 < p2 (la probabilidad de sufrir ataque cardíaco es menor en hombres
deportistas).
48. Test and CI for Two Proportions
Sample X n Sample p
1 10 100 0.100000
2 25 200 0.125000
Difference = P1 - P2
Estimate for difference: -0.025
95% upper bound for difference: 0.0375666
Test for difference = 0 (vs < 0): Z = -0.66 P-Value = 0.256
Interpretación: En los resultados aparece el estimado de la diferencia de
las dos proporciones, el intervalo de confianza del 95% para dicha diferencia,
la prueba estadística para igualdad de proporciones y su “p-value”. Viendo
que el “P-value” = .256 es mucho mayor que .05 se concluye que no hay
evidencia suficiente para afirmar que la probabilidad de sufrir un ataque
cardiaco entre los trabajadores que trabajan en empresa privada es menor que
de la de los trabajadores que no traban en empresa privada. Notar que el
intervalo de confianza contiene a cero, lo cual es otra razón para aceptar la
hipótesis nula.
49. Ejemplo
Un administrador piensa que el porcentaje de aspirantes a un concurso público
es mayor en su puntaje para los solicitantes que provienen de escuela privada
que para los que vienen de escuela pública. El basa su afirmación en una
muestra de 30 solicitantes tomadas al azar. Los datos están en el archivo
comp2pr. ¿Habrá suficiente evidencia para apoyar la afirmación del profesor?
Solución:
Sea ph la proporción de estudiantes admitidos entre todos los solicitantes de
escuela privada y pe la proporción de estudiantes admitidos entre todas las
solicitudes de escuela pública. Entonces, las hipótesis nula y alterna serán:
H 0 : p h = pe (o también ph-pe = 0)
H a : p h > pe (o también ph-pe > 0)
50. Test and CI for Two Proportions: admisión, escuela
Event = si
escuela X n Sample p
priv 13 17 0.764706
publ 5 13 0.384615
Difference = p (priv) - p (publ)
Estimate for difference: 0.380090
95% lower bound for difference: 0.100994
Test for difference = 0 ( vs > 0): Z = 2.11 P-Value = 0.018
* NOTE * The normal approximation may be inaccurate for small
samples.
Fisher's exact test: P-Value = 0.061
Interpretación: Como el “P-value” = .0018 es menor que .05 se rechaza la
hipótesis nula y se concluye que hay evidencia para apoyar lo que afirma el
administrador, el porcentaje de solicitantes de escuela privada que son
admitidos es mayor que el de las escuelas públicas. Notar que el intervalo de
confianza para la diferencia de proporciones no contiene a CERO, ésta es otra
razón para rechazar la hipótesis nula.