1. UNIVERSIDAD DE GUAYAQUIL
DIRECCIÓN DE INVESTIGACIÓN Y PROYECTOS ACADÉMICOS
CURSO DE FORTALECIMIENTO DE LA INVESTIGACIÓN PARA
PERSONAL DOCENTE
MODULO ESTADÍSTICA
Capítulo 4. Pruebas de hipótesis.
GRUPO : D
Profesor : PhD Félix Olivero
2. ÍNDICE
CAPÍTULO 4. PRUEBAS DE HIPÓTESIS.
SUB UNIDAD 1: DISTRIBUCIONES DE PROBABILIDADES (NORMAL, T DE
STUDENT, CHI CUADRADO)
SUB UNIDAD 2: PRUEBAS DE HIPÓTESIS PARA UNA Y DOS POBLACIONES
INDEPENDIENTES.
SUB UNIDAD 3: PRUEBA DE NORMALIDAD Y TEST CHI CUADRADO DE
ASOCIACIÓN
3. CONCEPTOS BÁSICOS
La prueba de hipótesis comienza
con una suposición, denominada
hipótesis, que hacemos entorno a
un parámetro de la población.
Reunimos datos muéstrales,
producimos estadísticos de la
muestra y con esta información
decidimos la probabilidad de que
el parámetro supuesto de la
población sea correcto.
4. HIPÓTESIS
Se debe formular el supuesto valor del parámetro de la población antes de
empezar el muestreo.
La suposición que se desea probar, se denomina hipótesis nula y se representa
por H0. Si se rechaza la hipótesis nula, la conclusión que debemos aceptar se
llama hipótesis alternativa y se simboliza por H1.
Supongamos que se quiere probar la hipótesis de que el promedio de calificación
de los alumnos de cierta Universidad es de 8.5, entonces:
H0 : µ = 8.5 Establece que la media de la población es igual a 8.5
La hipótesis alternativa se puede interpretar de tres maneras:
H1 : µ ≠ 8.5 Establece que la media de la población no es igual a 8.5.
H1 : µ > 8.5 Establece que la media de la población es mayor que 8.5.
H1 : µ < 8.5 Establece que la media de la población es menor que 8.5.
La prueba de hipótesis tiene como finalidad emitir un juicio sobre la diferencia
que existe entre el valor calculado del estadístico muestral y el parámetro
supuesto de la población. No consiste en poner en duda el valor calculado del
estadístico muestral.
Después de formular las hipótesis nula y alternativa, se debe decidir el criterio
que se va a aplicar para aceptar o rechazar la primera.
5. B) NIVEL DE SIGNIFICANCIA
Supongamos que la media de calificaciones
del ejemplo anterior de 8.5, se expresa con
un nivel de confianza del 95%, entonces el
nivel de significancia será de 0.05, es decir:
α = 1 – 0.95
Entonces: α = 0.05 Que representa el nivel de
significancia.
Se puede comprender mejor observando la
gráfica siguiente:
6.
7. El nivel de significancia está repartido en las zonas
de rechazo, 0.025 + 0.025 = 0.05, significa que
existe una diferencia significativa entre el
estadístico de la muestra y el supuesto parámetro
de la población, es decir, que si esto se
demuestra, se rechaza la hipótesis nula H0 de que
el promedio de la población sea de 8.5 y se acepta
la hipótesis alternativa H1.
Entonces se concluiría que el promedio de las
calificaciones de la población, no es de 8.5, puede
ser diferente, mayor o menor de 8.5.
El nivel de significancia representa la zona de
rechazo de la hipótesis nula y el nivel de confianza
de la zona de aceptación.
8. C) SELECCIÓN DE UN NIVEL DE
SIGNIFICANCIA
No hay un nivel de significancia que sea
oficial o universal con el cual probar las
hipótesis. Pero la elección del criterio
mínimo de una probabilidad aceptable, o
nivel de significancia, es asimismo el
riesgo que se corre de rechazar una
hipótesis nula aunque sea verdadera.
Cuando más alto sea el nivel de
significancia que utilizamos al probar una
hipótesis, mayores probabilidades habrá de
rechazar una hipótesis nula que sea
verdadera.
9. D) ERRORES DE TIPO I Y II
Si se rechaza una hipótesis nula que sea verdadera es un error de
tipo I, y su probabilidad se representa con α. Si se acepta una
hipótesis nula que sea falsa se llama error de tipo II, y su
probabilidad se representa con β. La probabilidad de cometer
uno de estos errores se reduce si se aumenta la probabilidad de
incurrir en otro tipo de error. A fin de conseguir una β baja,
habremos de conformarnos con una α alta. Para sortear esto en
situaciones personales y profesionales, los encargados de tomar
decisiones eligen el nivel apropiado de significancia examinando
los costos o castigos que conllevan a ambos tipos de error.
Por ejemplo: supóngase que el cometer un error de tipo I implica el
tiempo y el trabajo de reelaborar un lote de sustancias químicas
que debería haber sido aceptado. En cambio, el incurrir en un
error de tipo II significa correr el riesgo de que se envenene un
grupo entero de usuarios de la sustancia. La gerencia de esta
compañía preferiría el error de tipo I al de tipo II y, en
consecuencia, establecería niveles muy elevados de significancia
en sus pruebas para conseguir β bajas.
10. E) PASOS PARA SELECCIONAR
LA DISTRIBUCIÓN CORRECTA
1.- Se define el nivel de significancia a usar.
2.- Determinar la distribución adecuada de
probabilidad: puede ser la distribución normal o
la distribución t. Las reglas para elegir la
distribución apropiada al efectuar pruebas de
las medias son:
a. Si la muestra tomada es mayor de 30 (muestras
grandes), debe elegirse la distribución normal
(Z).
b. Si la muestra tomada es igual o menor que 30
(muestras pequeñas), debe elegirse la
distribución t.
11. PRUEBA DE HIPÓTESIS DE LAS
MEDIAS DE MUESTRAS GRANDES
Realizaremos algunos ejemplos, en
diferentes condiciones cuando se
conocen las desviaciones
estándar de la población.
12. A) PRUEBA DE DOS EXTREMOS
PARA LAS MEDIAS
Es cuando el nivel de significancia (zona de rechazo) abarca
los dos extremos o colas de la campana de Gauss.
13. EJEMPLO 1.-
El fabricante de una llanta especial para camiones
afirma que la duración media de la parte rodante de
agarre es de 60,000 mi. La desviación estándar de
los millajes es de 5,000 mi. Una empresa de
transportes compró 48 llantas y halló que la duración
media para sus vehículos fue de 59,500 mi. ¿Es la
experiencia distinta de la expresada por el fabricante
al nivel de significación de 0.05?
µ = 60,000 mi
δ = 5,000 mi
Datos: n = 48 llantas
= 59,500 mi
α = 0.05 x
14. SOLUCIÓN:
Las hipótesis se expresan de la siguiente manera:
H0 : µ = 60,000 mi La duración de las llantas es de 60,000 millas
H1 : µ ≠ 60,000 mi La duración de las llantas es distinta a 60,000
millas
Primero, vamos a calcular el error estándar de la media y para ello
emplearemos la expresión del error estándar:
n
x
δ
δ =
Sustituyendo valores en ella, se tiene:
mixxx 69.721
9282.6
000,5
48
000,5
=== δδδ
15. EN EL SIGUIENTE PASO VAMOS A OBTENER EL VALOR DE “Z” Y
PARA ELLO VAMOS A APOYARNOS EN LA GRÁFICA SIGUIENTE:
16. Recurrimos a las tablas de la distribución normal y en ellas
localizamos 0.475, que se ubica en un valor de Z = 1.96
En el tercer paso, vamos a determinar los límites superior e
inferior de confianza para el intervalo de la media poblacional
ya que se trata de una prueba de dos extremos. Para ello
aplicaremos la expresión siguiente:
xδ
Sustituyendo valores en ella, se tiene:
Lc = 60,000 ± 1.96 (721.69)
Ls = 60,000 + 1,414.51 Ls = 61,414.51 millas.
Li = 60,000 – 1,414.51 Li = 58,585.49 millas
Entonces la media de la población fluctúa entre 58,585.49 y 61,414.51
millas en un nivel de confianza del 95%.
xZLc H δµ ±= 0
17. Regresemos a la gráfica anterior para ubicar
los límites de confianza y la media
muestral. Con ello analizaremos si se
acepta la hipótesis nula además de verificar
si es verdadera o falsa.
18. La media muestral se ubica dentro de la zona
de aceptación, por lo que podemos decir
que la hipótesis nula es verdadera, pero
vamos a verificar está aseveración por
medio de la expresión siguiente:
x
x
Z
δ
µ−
=
__693.0
69.721
000,60500,59
X
Z
Z
δ−=
−
=
Entonces la media muestral se ubica en -0.693 y
se confirma que cae en la zona de aceptación.
Concluimos que la duración media de las
llantas es muy cercana a la que afirma el
fabricante de 60,000 millas, con un nivel de
significancia de 0.05.
xδ
19. B) PRUEBA DE UN EXTREMO
PARA LAS MEDIAS
En este caso, el nivel de significancia (zona de rechazo) sólo abarca un
extremo o cola de la campana de Gauss.
20. EJEMPLO 2.-
Una cadena de restaurantes afirma que el
tiempo medio de espera de clientes por
atender está distribuido normalmente con
una media de 3 minutos y una desviación
estándar de 1 minuto. Su departamento
de aseguramiento de la calidad halló en
una muestra de 50 clientes en un cierto
establecimiento que el tiempo medio de
espera era de 2.75 minutos. Al nivel de
significación de 0.05, ¿Es dicho tiempo
menor de 3 minutos?
µ = 3 minutos.
δ = 1minutos.
Datos: n = 50 clientes.
= 2.75 minutos.
α = 0.05
x
21. REPRESENTEMOS ESTOS DATOS EN LA CAMPANA DE GAUSS:
Las hipótesis son:
Ho : µ = 3 El tiempo promedio de espera es de 3 minutos.
H1 : µ < 3 El tiempo promedio de espera es menor de 3 minutos.
22. PRIMERO CALCULEMOS EL ERROR ESTÁNDAR DE LA MEDIA:
Ahora determinemos el valor de Z, ya que tenemos una muestra
mayor de 30:
Como α = 0.05 y es una prueba de hipótesis para un extremo, en
este caso, el extremo izquierdo, entonces, el nivel de
significancia está contenido en este extremo, por lo que el nivel
de confianza es 0.5 – 0.05 = 0.45 .
Buscando en las tablas de la distribución normal 0.45,
encontramos que: Z= 1.64
El límite izquierdo del intervalo de confianza será:
Li = 3 – 1.64 (0.1414)
Li = 3 – 0.2319
Li = 2.768
Gráficamente esto se representa así:
1414.0
07.7
1
50
1
=== xxx δδδ
xδ
23.
24. La media muestral 2.75, se localiza en la zona de rechazo,
por lo que se puede establecer que se rechaza la
hipótesis nula y se acepta la alternativa.
Comprobemos con :
x
x
Z
δ
µ−
=
xZZZ δ77.1
1414.0
25.0
1414.0
375.2
−=
−
=
−
=
Como podemos observar 1.77 está localizado más hacia
la izquierda del límite de confianza 1.64.
Podemos concluir que el tiempo medio de espera de
clientes por atender en este establecimiento es
menor de 3 minutos.
25. Ahora realizaremos un ejemplo cuando se desconoce la desviación
estándar de la población.
26. EJEMPLO 3.-
Una cadena grande de tiendas de autoservicio, expide su
propia tarjeta de crédito. El gerente de crédito desea
averiguar si el saldo insoluto medio mensuales mayor que
400 dólares. El nivel de significación se fija en 0.05. Una
revisión aleatoria de 172 saldos insolutos reveló que la
media muestral 407 dólares y la desviación estándar de la
muestra es 38 dólares. ¿Debería concluir ese funcionario de
la media poblacional es mayor que 400 dólares, o es
razonable suponer que la diferencia de 7 dólares (obtenida
de 407- 400 = 7) se debe al azar?
µ = 400 dólares.
n = 172 saldos insolutos.
Datos: X = 407 dólares.
s = 38 dólares (desviación estándar estimada).
α = 0.05
x
δˆ
27. Las hipótesis son:
Ho : µ = 400 dólares.
H1 : µ > 400 dólares.
Debido a que la hipótesis alternativa nos indica un sentido a
la derecha de la media, debemos aplicar una prueba de
una cola. Veamos la gráfica:
28.
29. Si calculamos el error estándar estimados, tenemos que:
n
x
δ
δ
ˆ
ˆ =
897.2ˆ
115.13
38ˆ
172
38ˆ === xxx δδδ
Si leemos en las tablas de la distribución normal 0.45,
encontramos que: Z = 1.64
Determinando el límite superior del intervalo de confianza,
se tiene:
Ls = 400 + 1.64 (2.897)
Ls = 404.75 dólares.
Gráficamente esto ocurre:
xδˆ
30.
31. Comprobando con:
x
x
Z
δ
µ
ˆ
−
=
xZZZ δˆ416.2
897.2
7
897.2
400407
==
−
=
Con esto comprobamos que el valor de la media muestral,
cae dentro de la zona de rechazo, por lo que se rechaza
la hipótesis nula y se acepta la alternativa.
Con esto el gerente de crédito debe concluir que el
saldo insoluto medio mensuales es mayor que 400
dólares.
33. A) PRUEBA DE DOS EXTREMOS
PARA MEDIAS
Mediante el siguiente ejemplo explicaremos el razonamiento
a seguir para demostrar una prueba de hipótesis de dos
extremos con una muestra menor a 30, en donde
aplicaremos la distribución t.
34. EJEMPLO 1.-
Un especialista en personal que labora en una
gran corporación, está reclutando un vasto
número de empleados para un trabajo en el
extranjero. Durante la realización de pruebas,
la gerencia pregunta cómo marchan las cosas
y el especialista contesta: “Bien, creo que la
puntuación promedio en el test de actitudes
será 90”. Cuando la gerencia revisa 20 de
los resultados de la prueba, averigua que la
puntuación media es 84 y la desviación
estándar de esta puntuación es 11. Si la
gerencia quiere probar la hipótesis del
especialista en personal en el nivel de
significancia de 0.10, ¿cuál será el
procedimiento a que recurra?
µ = 90’’
n = 20
Datos: = 84
s = = 11
α = 0.10
x
35. Las hipótesis son:
Ho: µ = 90’’
H1 : µ ≠ 90’’
El error estándar estimado de la media será:
46.2ˆ
472.4
11ˆ
20
11ˆ
ˆ
ˆ ==== xxx
n
x δδδ
δ
δ
En la tabla t de Student se localiza α = 0.10 y gl = 20 – 1, o
sea gl = 19 y se encuentra que: t = 1.729
Con estos datos ya podemos determinar los limites superior
e inferior del intervalo de confianza, mediante la
expresión:
xδˆ
xtLc δµ ˆ±=
Lc = 90”Lc = 90” ±± 1.729 (2.46) Ls = 90” + 4.246 Ls = 94.25”1.729 (2.46) Ls = 90” + 4.246 Ls = 94.25”
Li = 90” – 1.729 (2.46) Li = 90” – 4.246 Li = 85.75”Li = 90” – 1.729 (2.46) Li = 90” – 4.246 Li = 85.75”
Gráficamente esto sucede:
36. Como la media muestral cae en la zona de rechazo,
entonces se rechaza la hipótesis nula y se
acepta la hipótesis alternativa.
Concluimos que la gerencia tiene suficientes
evidencias para demostrar que el especialista
está equivocado, que la puntuación media no es
90.
37. B) PRUEBA DE UN EXTREMO
PARA MEDIAS
Para este caso, ya sabemos que el nivel de significancia (zona de
rechazo) sólo abarca un extremo o cola de la campana de Gauss.
38. EJEMPLO 2.-
Una persona tomó una muestra
aleatoria de 7 casas en un suburbio
muy elegante de una gran ciudad y
encontró que el valor promedio
estimado del mercado era de
$560,000, con una desviación
estándar de $49,000. Pruebe la
hipótesis de que, para todas las
casas del área, el valor medio
estimado es de $600,000, contra la
alternativa de que sea menor que
$600,000. Use el nivel de
significancia de 0.05.
n = 7 casas
= $560,000
Datos: s = = $49,000
µ = $600,000
α = 0.05
x
δˆ
39. Las hipótesis son:
Ho : µ = $600,000
H1 : µ < $600,000
Calculando el error estimado de la muestra, se tiene
que:
52.518,18$ˆ
646.2
000,49ˆ
7
000,49ˆ
ˆ
ˆ ==== xxx
n
x δδδ
δ
δ
Sabemos que el nivel de significancia es de 0.05, para unaSabemos que el nivel de significancia es de 0.05, para una
cola, por lo que se supone, que si fuera una prueba paracola, por lo que se supone, que si fuera una prueba para
dos colas, cada una tendría 0.05, es decir, el nivel dedos colas, cada una tendría 0.05, es decir, el nivel de
significanciasignificancia αα = 0.10. Por lo tanto 0.10 es el valor que= 0.10. Por lo tanto 0.10 es el valor que
debemos localizar en la tabla correspondiente de ladebemos localizar en la tabla correspondiente de la
distribución t de Student, con 6 grados de libertad (7 – 1).distribución t de Student, con 6 grados de libertad (7 – 1).
Encontramos entonces que t = 1.943Encontramos entonces que t = 1.943
Con estos datos, ya podemos determinar el límite inferior delCon estos datos, ya podemos determinar el límite inferior del
intervalo de confianza en donde se encuentra laintervalo de confianza en donde se encuentra la
verdadera media de la población.verdadera media de la población.
xδˆ
xtLi δµ ˆ−=
Li = 600,000 – 1.943 (18,518.52) Li = $564,018.52Li = 600,000 – 1.943 (18,518.52) Li = $564,018.52
En la campana de Gauss:En la campana de Gauss:
40.
41. Como la media muestral cae la zona de
rechazo, entonces se rechaza la hipótesis
nula y se acepta la hipótesis alternativa.
Comprobando lo anterior, se tiene que:
Podemos concluir que el valor medio estimado
del valor de todas las casas es menor de
$600,000.
xZZZ δ16.2
52.518,18
000,40
52.518,18
000,600000,560
−=
−
=
−
=
42. PRUEBA DE HIPOTESIS PARA
PROPORCIONES
a) Prueba de dos extremos para proporciones.
La prueba de hipótesis para proporciones, tiene algunas variantes en la
demostración de las hipótesis respecto a la prueba de hipótesis de
medias, variantes que se irán explicando conforme se vayan
aplicando.
43. EJEMPLO 1.-
Una compañía que está evaluando la promovibilidad
de sus empleados; es decir, está determinando la
proporción de aquellos cuya habilidad,
preparación y experiencia en la supervisión los
clasifica para un ascenso a niveles superiores de
la jerarquía. El director de recursos humanos le
dice al presidente que el 80%,o sea el 0.8, de los
empleados son “promovibles”. El presidente crea
un comité especial para valorar la promovibilidad
de todo el personal. El comité realiza entrevistas
en profundidad con 150 empleados y en su juicio
se da cuenta que sólo el 70% de la muestra llena
los requisitos de la promoción. El presidente
quiere probar, en un nivel de significancia de
0.05, la hipótesis de que 0.8 de los empleados
pueden ser promovidos.
p = 0.8
q = 0.2
Datos: n = 150
= 0.7
= 0.3
α = 0.05
p
q
44. Las hipótesis son:
Ho : p = 0.8 80% de los empleados son
promovibles.
H1 : p ≠ 0.8 La proporción de empleados
promovibles no es 80%.
Primero calculamos el error estándar de la
proporción, mediante la siguiente expresión:
n
qp HH 00
=ρσ
Sustituyendo valores:
0327.00010666.0
150
)2)(.8(.
=== ppp ααα
45. En este caso, la compañía quiere saber si la verdadera
proporción es mayor o menor que la supuesta proporción.
Por consiguiente, es apropiada una prueba de dos extremos
para una proporción. El nivel de significancia corresponde a
las dos regiones sombreadas, cada una de las cuales
contiene 0.025 del área. La región de aceptación de 0.95
se ilustra como dos áreas de 0.475 cada una. Puesto que la
muestra es mayor que 30, podemos recurrir la distribución
normal. Basándonos en la tabla de ésta distribución,
podemos calcular que el valor correspondiente de Z para
0.475 del área bajo la curva es 1.96 . Por tanto, los limites
de la región de aceptación son:
Lc = PH0 ± Z
Lc = 0.8 ± 1.96(0.0327)
Ls = 0.8 + 0.06409 Ls = 0.8641
Li = 0.8 – 0.06409 Li = 0.7359
Viéndolo en la campana de Gauss:
ρσ
46.
47. La probabilidad de la muestra = 0.7, se
localiza en la zona de rechazo, por lo que
se rechaza la hipótesis nula y se acepta la
alternativa. Vamos a demostrarlo:
p
pZZZ δ058.3
0327.0
1.0
0327.0
8.07.0
−=
−
=
−
=
Podemos concluir que existe una diferencia significativa
entre la supuesta proporción de empleados
promovibles comunicada por el director de recursos
humanos y la observada en la muestra, la proporción
de toda la compañía no es del 80%.
48. B) PRUEBA DE UN EXTREMO PARA
PROPORCIONES
Ejemplo 2.- Un artículo reciente en el periódico Reforma reportó que un
empleado está disponible sólo para que uno de tres egresados
universitarios con grado. Las principales razones aportadas fueron
que existe una sobreabundancia de graduados de universidad y una
economía débil. Suponga que una encuesta con 200 graduados
recientes de la institución de usted, revela que 80 estudiantes tenían
empleo. Al nivel de significancia de 0.02, ¿se puede concluir que una
proporción mayor de estudiantes egresados tienen trabajo?
p = 0.8
q = 0.2
Datos: n = 150
= 0.7
= 0.3
α = 0.05
p
q
49. Las hipótesis son:
Ho : p = 0.3333
H1 : p > 0.3333
Calcularemos primero el error estándar de la proporción:
n
qp
p
HoHo
=δ
Sustituyendo valores:
0333.00011.
200
2222.0
200
)6667.0()3333.0(
==== pppp δδδδ
50. En este caso, se quiere saber si la verdadera proporción es mayor
que la supuesta proporción. Por consiguiente, es apropiada una
prueba de un extremo para una proporción. El nivel de
significancia corresponde a la región derecha de rechazo. La
región de aceptación de 0.98 se ilustra como un área de 0.5 y
otra de 0.48 como la muestra es mayor de 30, podemos recurrir a
la distribución normal. Basándonos en la tabla de de esta
distribución el valor correspondiente de Z, para 0.48 del área bajo
la curva es 2.05, por tanto, el límite de la región de aceptación
es:
Ls = 0.3333 + 2.05 (0.0333) Ls = 0.3333 + 0.068265 Ls =
0.4016
Como = 0.4, y es menor que 0.4016, se localiza en la zona de
aceptación, entonces, se acepta la hipótesis nula.
Demostrando lo anterior se tiene:
p
p
pp
Z
δ
−
=
pZZZ δ003.2
0333.0
0667.0
0333.0
3333.04.0
==
−
=
En la campana de Gauss:
51. Concluimos que no es mayor la proporción de
estudiantes egresados que tienen trabajo.
52. C) PRUEBA DE HIPÓTESIS PARA
PROPORCIONES DE MUESTRAS
PEQUEÑAS.Si usamos la distribución t para una prueba hipótesis
para proporciones en muestras pequeñas, de dos
colas, seguimos el mismo procedimiento que se utilizó
en la prueba para medias de muestras pequeñas.
Lo mismo sucede si se trata de una prueba de un
extremo, recordando que, para obtener el valor
apropiado de t en un nivel de significancia de 0.05
con 10 grados de libertad, buscaremos en la tabla de
la distribución t bajo la columna 0.10, frente al
renglón 10 grados de libertad. Esto es verdad porque
la columna 0.10 del área bajo la curva contenida en
ambos extremos combinados; por ello también
representa 0.05 del área bajo la curva contenida en
cada uno de los extremos. Por esta razón en lugar de
buscar en la columna 0.05, se busca 0.10.