Apuntes Clase Estadistica I(Itsz)

Forma de calificar:

 Examen. 70%
 Practicas, tareas, avance proyecto final 30%

Para poder aprobar, necesariamente
debes pasar los tres parciales con
calificación mínima de 70, en caso de
reprobar alguno se registra cero de
calificación en el parcial
correspondiente.

Unidades aprobadas necesarias para presentar examen
de NIVELACION / REGULARIZACION
2
Unidades aprobadas necesarias para presentar examen
de EXTRAORDINARIO
4

Bibliografía

Probabilidad y Estadística Douglas C. Montgomery Mc Graw Hill

Probabilidad y Estadística para Ingeniería y Ciencias Mendenhall
Prentice Hall

Estadística para Administradores Levin Rubin Limusa

http://mathworld.wolfram.com/classroom/classes/Probabilityand
Statistics.html

Haber aprobado, necesariamente las materias de :
 Calculo Integral
 Calculo diferencial
 Probabilidad.

 Distribuciones de probabilidad de una variable
aleatoria continua.
 Media y varianza de una variable aleatoria
continua.
 Distribución de probabilidad t-student.
 Distribución de probabilidad tipo Gamma.
 Distribución de probabilidad tipo Beta.
 Distribución de probabilidad X2 y F
 Distribución de probabilidad Weibull

 Distinguir entre las variables aleatorias
continuas y discretas y sus respectivas
distribuciones de probabilidad; presentar
algunas distribuciones de probabilidad
continuas útiles y mostrar cómo se pueden
utilizar para resolver problemas prácticos.

 ¿Qué es una distribución probabilística?

0.7
0.6 blanco
0.5
0.4 Serie1
0.3 Serie2
0.2 azul amarillo
0.1
0
0 1 2 3 4

 Son aquellas en las que la variable puede
pude tomar un número determinado de
valores:
 Ejemplo: si se lanza una moneda al aire
puede salir cara o cruz; si se tira un dado
puede salir un número de 1 al 6; en una
ruleta el número puede tomar un valor del 1
al 32.

 Son aquellas que presentan un número
infinito de posibles soluciones:
 Ejemplo: El peso medio de los alumnos de
una clase puede tomar infinitos valores
dentro de cierto intervalo (42,37
Kg., 42,3764 Kg., 42, 376541kg, etc.); la
esperanza media de vida de una población
(72,5 años, 7,513 años, 72, 51234 años).

 La distribución de probabilidad de este tipo
de distribución sigue el siguiente modelo:

 ¿Cuál es la probabilidad de obtener 6 caras
al lanzar una moneda 10 veces?

 quot; k quot; es el número de aciertos
 quot; nquot; es el número de ensayos
 quot; p quot; es la probabilidad de éxito

 quot; k quot; es el número de aciertos. En este
ejemplo quot; k quot; igual a 6 (en cada acierto
decíamos que la variable toma el valor 1:
como son 6 aciertos, entonces k = 6)
 quot; nquot; es el número de ensayos. En nuestro
ejemplo son 10
 quot; p quot; es la probabilidad de éxito, es decir,
que salga quot;caraquot; al lanzar la moneda. Por lo
tanto p = 0,5
 La fórmula quedaría:

 ¿Cuál es la probabilidad de obtener cuatro
veces el número 3 al lanzar un dado ocho
veces?
 Solución
 n=
 K=
 p=

 quot; k quot; (número de aciertos) toma el valor 4
 quot; nquot; toma el valor 8
 quot; p quot; (probabilidad de que salga un 3 al tirar
el dado) es 1 / 6 (= 0,1666)

 P (x = 4) = 0,026

 Las distribución de Poisson parte de la
distribución binomial:
 Cuando en una distribución binomial se
realiza el experimento un número quot;nquot; muy
elevado de veces y la probabilidad de éxito
quot;pquot; en cada ensayo es reducida, entonces se
aplica el modelo de distribución de Poisson:
 Se tiene que cumplir que:
 quot; p quot; < 0,10
 quot; p * n quot; < 10

 La distribución de Poisson sigue el siguiente
modelo.

 Percentil: por ejemplo, si su calificación en un curso de
ingeniería industrial estuvo en el 84° percentil, entonces el 84%
de las calificaciones fueron inferiores a la suya y el 16% fueron
mayores.

 Cuartil inferior: Ql, de un conjunto de datos es el 25° percentil.

 Cuartil superior: Qu, de un conjunto de datos es el 75° percentil

 Rango intercuartilico: es la distancia entre los cuartiles superior e
inferior. (IQR)

 La función de densidad normal (o gausiana) fue propuesta
por C. F. Gauss (1777-1855) como modelo para la
distribución de frecuencia relativa de errores, como los
errores de medición. Resulta sorprendente que esta curva con
forma de campana sea un modelo adecuado para las
distribuciones de frecuencia relativa de datos recabados de
muchas áreas científicas diferentes.

 Esta distribución es frecuentemente utilizada en las
aplicaciones estadísticas. Su propio nombre indica
su extendida utilización, justificada por la
frecuencia o normalidad con la que ciertos
fenómenos tienden a parecerse en su
comportamiento a esta distribución.

La nueva variable z se distribuye como una NORMAL con
media  = 0 y desviación típica  = 1

Una regla empírica indica que en cualquier distribución normal
las probabilidades delimitadas entre :  1  68 %
 2  95 %
 3  99 %

68%

95%
99% z
-3 -2 -1 0 1 2 3

 Caracteres morfológicos de individuos
(personas, animales, plantas,...) de una especie, p.ejm.
tallas, pesos, envergaduras, diámetros, perímetros,...
 Caracteres fisiológicos, por ejemplo: efecto de una
misma dosis de un fármaco, o de una misma cantidad
de abono.
 Caracteres sociológicos, por ejemplo: consumo de cierto
producto por un mismo grupo de
individuos, puntuaciones de examen.
 Caracteres psicológicos, por ejemplo: cociente
intelectual, grado de adaptación a un medio,...

Distribución de edades

19 20 23 24 25 26 27 28 29 30
31 32 33 36 41 45 47

14 29
12
10
Frecuencia

28 30
8 31
6 27
25
4 24 26 32
2 19 20 41 47
23 3336 45
0
Edades

 En un salón de clases la media del grupo es de 29
años y su desviación estándar es de 4 años ¿Cuál
es la probabilidad de encontrar alumnos de mas de
34 años?

 Primero entender que la distribución normal se
asemeja a la distribución de las edades.
 Para esto hay que convertir los valores que te dan a
valores estándar.
 ¿Cómo hacemos esto?
Z=(X-µ) /σ

X = valor dado a convertir
Z=(X-µ) /σ µ = media
σ = desviación estándar

14
29
12

10
28 30
8
31
6 27
25
4
24 26 32
2 19 20 41 47
23 33 36 45
0
Edades

 En un salón de clases la media del grupo es de 29
años y su desviación estándar es de 4 años ¿Cuál
es la probabilidad de encontrar alumnos de mas de
34 años?

 X = valor dado a convertir =
 µ = media =
 σ = desviación estándar =

 Después de cometido un delito la media en horas
de encontrar al responsable del delito es de 45 hrs.
Con un desviación estándar de 10 hrs.¿Encontrar la
probabilidad de encontrar al responsable del delito
a mas tardar 24 hrs. después de realizado este?
 X = valor dado a convertir
 µ = media
 σ = desviación estándar

 El tiempo promedio que emplea un empleado para
atender una demanda es de 42 minutos, suponga
que la desviación estándar es de 16 minutos, y que
los tiempos de atención tienen una distribución
normal.
 ¿Cuál es la probabilidad de que una persona tarde
cuando menos 1 hora en poner su demanda?
 ¿Cuál es la probabilidad de que una persona no
tarde mas de 30 minutos en poner su demanda?

 Suponga que “y” es una variable aleatoria de
distribución normal con media de 10 y
desviación estándar de 2.1
◦ Calcule P (y≥11)
◦ Calcule P(7.6 ≤ y≤ 12.2)

 Un tubo fluorescente estándar tiene una duración distribuida
normalmente con una media de 7,000 horas y una desviación
estándar de 1,000 horas. Un competidor ha inventado un
sistema de iluminación fluorescente compacto que se puede
insertar en los receptáculos de lámparas incandescentes.
 El competidor asegura que el nuevo tubo compacto tiene una
duración distribuida normalmente con una media de 7500
horas y una desviación estándar de 1200 horas.
◦ ¿Cuál tubo fluorescente tiene mayor probabilidad de tener una duración
mayor de 9000 horas?
◦ ¿Cuál tubo tiene mayor probabilidad de tener una duración de menos de
5000 horas?

 Calcule el intervalo intercuartilico IQR y la desviación
estándar, s, para la muestra, y luego calcule el cociente
IQR/s.
 Si los datos son aproximadamente normales, IQR/s ≈1.3

 Variable aleatoria discreta
 Variable aleatoria continuo

 Muchas variables aleatorias que se observan en la
vida real no son variables aleatorias discretas
porque la cantidad de valores que pueden asumir
no se puede contar.
 Por ejemplo, el tiempo de espera y (en minutos)
para completar un trabajo de procesamiento de
datos 0 < y < infinito.

 La función de densidad para una variable aleatoria
continua “y” , que modela alguna población de
datos de la vida real, por lo regular es una curva
continua como lo que se muestra la siguiente
figura:
y

F ( y)   f ( t ) dt


El área acumulativa bajo la curva
entre menos infinito y un punto y0
es igual a F(y0)

f(y) ≥ 0


 f ( y ) dy  F (  )  1


b

P (a  y  b)   f ( y ) dy Donde a y b son constantes.

a

 Ejemplo 1:
 Sea c una constante y consideremos la función de densidad.

 cy _ si _ 0  y  1 
f ( y)   
 0 ___ en _ cualquier _ otro _ caso 

a.- Calcule el valor de c
b.- Calcule P (0.2 < y < 0.5

 1
2
1 y
 f ( y ) dy  
0
cydy  c
2
1
 0
C=2

0 .5
P ( 0 .2  y  0 .5 )  0 .2
f ( y ) dy

= 0.21

 Ejemplo2: Obtenga la función de distribución
acumulativa para la variable aleatoria y. Después,
calcule F(0.2) y F(0.7)

y y

F ( y)   f ( t ) dt   2 tdt  y
2

 0

Entonces la integral es de cero a y
F(0.2) = P( , porque el problema así lo
plantea y>0

 Ejercicios 1:
1.- Sea c una constante y consideremos la función de densidad

 cy 2 _ si _ 0  y  2 
f ( y)   

a.- Calcule el valor de c.
b.- Obtenga la función de distribución
acumulativa F(y)
c.- Calcule F(1)
d.- Calcule F(0.5)
e.- Calcule P (1 ≤y≤ 1.5)

 Ejercicio2
 Sea c una constante y consideremos la función de densidad

 c ( 2  y ) _ si _ 0  y  1 
f ( y)   

a.-Calcule el valor de c
b.-Obtenga la función de distribución acumulativa F(y)
c.-Calcule F(0.4)
d.-Calcule P (0.1 ≤y≤ 0.6)

 Ejercicio3
 Sea c una constante y consideremos la función de densidad

 ce  y _ si _ y  0 
f ( y)   

a.-Calcule el valor de c
b.-Obtenga la función de distribución acumulativa F(y)
c.-Calcule F(2.6) =
d.-Calcule P (1 ≤y≤ 5)

 En estudios anteriores se inicio el estudio de las pruebas de
hipótesis. Se utilizo la distribución normal estándar, la
distribución z, como estadístico de prueba. Para emplear dicha
distribución la población debe ser normal y conocerse la
desviación estándar poblacional. En muchas situaciones del
mundo real, la población es aproximadamente normal, pero se
desconoce la desviación estándar de la población. En este caso
“s” se utiliza la desviación estándar muestral en vez de σ .

 Si el tamaño de la muestra es de al menos de 30, los resultados
se consideran satisfactorios. (Tamaño de muestra de menor o
igual a 30, n≤30)

 Esta distribución tiene la característica de que puede ser
usada en aquellos casos en los que el tamaño de muestra
esta limitado, debido a las características del experimento a
realizar.
 Por ejemplo. En la industria es común encontrarse con
productos que debido a los materiales y/o proceso son
sumamente caros y para realizar la prueba es necesario
destruirlos.
 En estos casos el tamaño de la muestra debe ser pequeño
cinco a ocho partes.
 Una limitación en la aplicación de este estadístico es que la
población de la que se toma la muestra tiene una distribución
normal.

 Para estos proyectos de investigación , la distribución z no es
el estadístico de prueba adecuado. La t de Student, o la
distribución t, como se denomina comúnmente se utiliza
como estadístico de prueba.

La siguiente figura presenta la gráfica de varias distribuciones
t. La apariencia general de la distribución t es similar a la de la
distribución normal estándar: ambas son simétricas y
unimodales, y el valor máximo de la ordenada se alcanza en la
media = 0. Sin embargo, la distribución t tiene colas más
amplias que la normal; esto es, la probabilidad de las colas es
mayor que en la distribución normal. A medida que el número
de grados de libertad tiende a infinito, la forma límite de la
distribución t es la distribución normal estándar.

Probabilidad de una sola cola.
Valores t de Student y probabilidad P asociada
en función de los grados de libertad gl.
Si deseas, la
probabilidad de dos
colas, multiplica por
dos esta fila

1. Como la distribución z, es una distribución continua.
2. Como la distribución z, es de forma de campana y
simétrica.
3. No hay una distribución t, sino mas bien una “familia” de
distribuciones t, todas tienen la misma media igual a cero,
pero sus desviaciones estándares difieren de acuerdo con el
tamaño de muestra (n). Hay una distribución t para un
tamaño de muestra 20, otra para un tamaño de muestra 22,
y así sucesivamente.
4. La distribución t es más extendida y menos aguda en el
centro que la distribución normal. Sin embargo, a medida
que aumenta el tamaño de la muestra, la curva de la
distribución t se aproxima a la distribución normal
estándar.

 La experiencia en la investigación de demandas por accidente en una
institución aseguradora revela que en promedio cuesta $60 dólares la
realización de todos los trámites. Este costo se considero exorbitante
comparado con el de otras compañías aseguradoras y se instauraron
medidas para abatir los costos. A fin de evaluar el impacto de estas nuevas
medidas se selecciono aleatoriamente una muestra de 26 demandas
recientes y se realizó un estudio de costos. Se encontró que la media
muestral de $57 y una desviación estándar de la muestra de 10. En el nivel
de significación 0.01, ¿hay una reducción en el costo promedio, o la
diferencia de $3 ($60 -$57) puede atribuirse al azar?

 Paso 1: plantear la hipótesis nula y la hipótesis alternativa. .
hipótesis nula, Ho, es que la media poblacional es 60. La
hipótesis alternativa, H1 es que la media poblacional vale
menos de 60. Esto se expresa como sigue:
 Ho: μ=60
 H1: μ<60
 La prueba es de una cola, ya que sólo interesa si hay o no una
reducción en el costo. Esta desigualdad en la hipótesis
alternativa señala hacia la región de rechazo en la cola o
extremidad izquierda de la distribución.

 Paso 2: Seleccionar el nivel de significación: se usará un nivel 0.01
 Paso 3: Proporcionar el estadístico de prueba, tal estadístico es la
distribución t de student, ya que 1) no se conoce la desviación estándar
de la población, y 2) el tamaño de la muestra es pequeño (menos de 30)

 Paso 4: Formular la regla de decisión, los valores críticos, de t se
encuentran en la tabla. La columna del lado izquierdo de la tabla se
titula grados de libertad. Para esta prueba hay n-1 grados de libertad
(26-1=25), una prueba de una cola y el nivel de 0.01 es de 2.485. La
regla de decisión para esta prueba de una cola es rechazar la hipótesis
nula si el valor calculado de t queda en cualquier parte de la extremidad,
a la izquierda de -2.485. De otra manera se acepta la hipótesis nula de
que la media poblacional es $60.

Zona de
aceptación

Zona de rechazo

-2.485

Paso 5: Calcular t y tomar una decisión
Media muestral=57
Media poblacional hipotética=60
Desviación estándar de la muestra=10
Numero de elementos de la muestra=26

t=(57-60)/10/√26
t=-1.53

 Un fabricante de motocicletas, anuncia que su vehículo
rendirá en promedio 87 millas por galón en viajes largos. La
distancia recorrida (en millas) en ocho viajes largos fue 88,
82, 81, 87, 80, 78, 79 y 89. Pruebe al nivel 0.05 que el
recorrido medio es menor que el anunciado.

Ho: μ=87
H1: μ<87

Calcular t y tomar una decisión
Media muestral=
Media poblacional hipotética=87
Desviación estándar de la muestra=
Numero de elementos de la muestra=

 Se han propuesto dos procedimientos para armar un
componente pequeño. La pregunta es : ¿qué método es más
eficaz, el desarrollado Ford (que se designa como el n°1) o el
desarrollado por Nissan (que se designa como n°2) Para
evaluar objetivamente los dos métodos propuestos, se
decidió realizar estudios de movimientos y tiempos para
algunos componentes. El objetivo de estos estudios es
comparar los tiempos medios de ensamblado por unidad
para los dos procedimientos.
Usar un nivel de significancia de 0.10

 La hipótesis nula plantea que no hay diferencia en el tiempo
medio de armado entre los procedimientos n°1 y n°2
 Ho: µ1=µ2
 H1: µ1≠µ2
1   2
t
( n1  1) s1  ( n 2  1) s 2 1
2 2
1
.(  )
n1  n 2  2 n1 n 2

µ1= es el valor medio aritmético del tiempo, con el
procedimiento 1
µ2= … procedimiento 2
n1= es el número en la muestra 1
n2= es el número en la muestra 2
s12 = es la variancia de la primera muestra.
s22 = es la variancia de la segunda muestra

Procedimiento 1 Procedimiento2
Tiempos Tiempos
2 3
4 7
9 5
3 8
2 4
3

 El objetivo es determinar si existe diferencia entre los dos métodos de
armado. Por tanto se emplea una prueba de dos colas. Los grados de
libertad se obtienen
 n1+n2-2 = 5 + 6 -2= 9

t= -0.662 minutos

-1.833 1.833

 Muchas variables aleatorias, como la duración de la vida útil
de una computadora, sólo pueden asumir valores no
negativos. Las distribuciones de frecuencia relativa de datos
de este tipo a menudo se pueden modelar mediante
funciones de densidad tipo gamma.

La función de densidad de probabilidad para
una variable aleatoria tipo gamma está dada
por:

 y  1 e  y /  Si 0≤y≤∞; α>0; β>0 
 
f ( y )      ( ) 
 
 0 ___ en _ cualquier _ otro _ punto 


Donde α  1 y
 ( )   y e dy
0

La media y la varianza de una variable aleatoria tipo
gamma son, respectivamente:

μ=αβ σ2 =αβ2

Algunas propiedades  ( )  (  1)  (  1)
 ( )  (  1)!
Cuando α es un entero positivo

Ejercicio para laboratorio

Dibujar la función de distribución Gamma, para para
valores enteros de α
Considera los valores de y, a partir de 1 en adelante.

Realizarla con formula, para que cuando cambie el valor
de alfa o beta, cambie automáticamente la grafica.

y f(y) α=
β=
г=

Aplicación 1 (distribución Gamma)

Investigadores han descubierto que el nivel creciente máximo (en
millones de pies cúbicos por segundo) durante un periodo de cuatro
años para el Rio Susquehanna, Pennsylvania, sigue aproximadamente
una distribución gamma con α=3 y β=0.07

Calcule la media y la varianza del nivel creciente máximo durante un
periodo de cuatro años para el Rio Susquehanna.
Los investigadores llegaron a sus conclusiones acerca de la
distribución de nivel creciente máximo observando los niveles de
creciente máximos durante 20 periodos de cuatro años, desde 1890
hasta 1969. Suponga que durante el periodo de cuatro años 1982-
1985 se observo que el nivel de creciente máximo fue de y=0.60
millones de pies cúbicos por segundo. Esperaría usted observar un nivel
tan alto en una distribución gamma con α=3 y β=0.07 ¿Qué puede
usted inferir acerca de la distribución del nivel de creciente máximo para
el periodo de cuatro años 1982-1985?

La media y la varianza de una variable aleatoria tipo
gamma son, respectivamente:

μ=αβ =3(0.07)= 0.21

σ2 =αβ2 =3(0.07)2 =0.0147
σ=0.1212

μ+ 3σ =0.21 +3(0.1212)=0.57

Se puede inferir que 0.60 es un valor que se sale del
modelo matemático.

 Por experiencia anterior, un fabricante sabe que la
distribución de frecuencia relativa del tiempo (en meses) que
transcurre entre dos quejas de clientes importantes
insatisfechos con sus productos se puede modelar mediante
una función de densidad gamma con α=2 y β=4. Quince
meses después de que el fabricante hizo más estrictos sus
requisitos de control de calidad, llego la primera queja.
¿sugiere esto que el tiempo medio entre quejas de clientes
importantes podría haber aumentado?

 μ =αβ = (2)(4)

 σ2 =αβ2 =(2)(4)2 =32
 σ=5.7
 Puesto que y =15 meses queda un poco más de una
desviación estándar de la media (8 + 5.7=13.7), no podemos
considerar a 15 meses como un valor desusadamente grande
de y.

Conclusión, no hay suficientes pruebas que
indiquen que el programa de control de
calidad de la compañía ha logrado
incrementar el tiempo medio entre quejas.

 Una variable aleatoria tipo gamma que desempeña un papel
importante en estadística es la variable aleatoria ji cuadrada.
 Una variable aleatoria ji cuadrada (X2) es una variable aleatoria tipo
gamma con α=v/2 y β=2


2
v
1
f ( )  c( ) 0  
2 2 2
2 2
e

La media y la varianza de una variable
1 aleatoria ji cuadrada son,
c v respectivamente.
v μ=v σ2=2v
2 ( )
2

2 El parámetro v es el número de grados de
libertad de la distribución ji cuadrada.

Aplicaciones:

 Ji cuadrada como prueba de independencia.
 Ji cuadrada como prueba de la bondad de ajuste:
prueba de lo apropiado de una distribución.

 Esta distribución se aplica en los análisis de fiabilidad, para
establecer, por ejemplo, el periodo de vida de un componente hasta que
presenta una falla. La ecuación para la función de distribución
acumulada de Weibull es:

 La función de densidad de probabilidad es:
 Cuando α= 1 la distribución de Weibull devuelve la distribución
exponencial con:

 La función de densidad Weibull contiene dos parámetros α y β.. es
parámetro de escala, β, refleja el tamaño de las unidades en que se mide
la variable aleatoria y el parámetro α, es el parámetro de forma. Si se
cambia el valor del parámetro α, es posible generar un conjunto con una
amplia variedad de curvas que modelan distribuciones de tiempo hasta
falla de la vida real.

 A demás de proporcionar un buen modelo para las distribuciones del
tiempo hasta falla de muchos componentes fabricados, la distribución
Weibull es fácil de usar.


“y” es el tiempo
 y
 entre fallas,
 Si 0≤y<∞ ; α>0 ; β>0
 1 
 y e cuanto tiempo
  transcurre de una
  falla a otra.
f ( y)   
0  En cualquier otro punto
 
 
 

 1
1
   2  2    1 
2
   

    
   
2

          
La función de densidad Weibull contiene dos parámetros,α y β, el
parámetro de escala β, refleja el tamaño de las unidades en que se
mide la variable aleatoria “y”.

El parámetro α es el parámetro de forma. Si se cambia el valor del
parámetro de forma α, es posible generar un conjunto con una amplia
variedad de curvas que modelan distribuciones de tiempo hasta falla
de vida real.

Tarea.

Dibujar en Excel

1.- La función de densidad Gamma
2.- La función de densidad Weibull
3.- La función de densidad Beta

Para entregar vía mail la próxima clase.

 La duración (en horas) de una broca de taladro que se emplea en
una operación de fabricación tiene una distribución de Weibull con
α=2 y β=100. Calcule la probabilidad de que una broca de taladro
fallará antes de 8 horas de uso.


y0 y0 y
  1 
F ( y0 )   f ( y ) dy   y e dy
0 0

Integrar esta función haciendo el siguiente
cambio de variable z = yα

Ya que la integras te debe quedar lo siguiente:


z  y0
 
F ( y0 )  1  e  1 e

Resp: 0.473

Aplicación 2 (Weibull)

Un fabricante de lavadoras garantiza sus productos contra cualquier defecto durante el
primer año de uso normal. El fabricante ha estimado un costo por reparación de 75$
durante el periodo de garantía.

Con base en la experiencia, se sabe que el tiempo en que ocurre la primera falla es una
variable aleatoria de Weibull con parámetros de forma y escala iguales a 2 y 40,
respectivamente. Si el fabricante espera vender 100 mil unidades y si para una misma
unidad, se descuenta el valor de las reparaciones, se determina el costo esperado de la
garantía para el fabricante.
Sea X la variable aleatoria que representa el tiempo que transcurre hasta que se
presenta la primera avería.

Por hipótesis, la función de densidad de probabilidad de X es:
La probabilidad de que la primera avería ocurra durante el
periodo de garantía es igual a la probabilidad de que X sea
menor o igual a 12. Mediante el empleo de la fórmula cerrada
de distribución:

Por lo tanto, si se supone que la operación de las lavadoras es
independiente entre sí, se pueden esperar
(100.000)(Probabilidad) = n fallas durante el período de
garantía con un costo total de n por el costo de reparación

Para el problema anterior, calcule la vida media de las
brocas para el taladro y la varianza de la distribución del
tiempo hasta falla.

 Anteriormente dijimos que la función de densidad gamma
proporciona un modelo para la distribución de frecuencia
relativa de una variable aleatoria que tiene un limite inferior
fijo pero que puede hacerse infinitamente grande.
 La función de densidad beta, también caracterizada por dos
parámetros, tiene limites inferior y superior finitos (0 y 1)

 y  1 (1  y )  1 
Si 0≤y≤1; α>0; β>0
 
f ( y)   B ( ,  ) 
 0 __ en _ cualquier _ otro _ punto 
 

1
 1  1      
B ( ,  )  
0
y (1  y ) dy 
    

La media y la varianza de una variable aleatoria beta son,
respectivamente:

 
   
2

          1 
2

Aplicación 1 (Distribución de probabilidad Beta)

Los sensores de infrarrojo de un sistema robótico computarizado envían
información a otros sensores en diferentes formatos. El porcentaje y de
las señales que se envían y que son directamente compatibles para
todos los sensores del sistema sigue una distribución beta con α=β=2
a.- Calcule la probabilidad de que más de 30% de las señales de
infrarrojo enviadas en el sistema sean directamente compatibles para
todos los sensores.
b.- Calcule la media y la varianza de y

Aplica esta formula e intégrala de 0.30 a 1

 y  1 (1  y )  1 
f ( y)   
 B ( ,  ) 

1

P ( y  0 . 30 )   6 y (1  y ) dy  0 . 514
0 . 30

Media =0.5

Varianza= 0.05

Aplicación 2 (Distribución de probabilidad beta)

Se determino que datos recabados a lo largo del tiempo sobre el
aprovechamiento de un núcleo de computadora (como una
proporción de la capacidad total) tenían una distribución de
frecuencia relativa que se podía aproximar mediante una función
de densidad beta con α=2 y β=4. Calcule la probabilidad de que
la proporción del núcleo que se utiliza en un momento dado sea
menor que 0.20.

p  1  1
y (1  y )
F ( p)   B ( ,  )
dy
0

p=0.20

Cuadro comparativo de distribuciones de probabilidad, te
ayudará, a conocer los usos. (realiza esto como tarea)

Nombre Función de Media Varianza Característica, o
densidad cuando se aplica.
En que situaciones se
aplica.
Binomial
Normal
Poisson
Gamma
t student
Beta
Ji
cuadrada
Weibull

 Introducción
 Teorema de combinación lineal de variables aleatorias y teorema del
limite central.
 Muestreo: introducción al muestreo y tipos de muestreo.
 Teorema del limite central
 Distribución Muestral de la media.
 Distribución Muestral de la diferencia de medias.
 Distribución Muestral de la proporción

 Distribución muestral de la diferencia de proporciones.
 Distribución muestral de la varianza.
 Distribución muestral de la relación de varianzas.

 En estudios pasados de Estadísticas centramos nuestra atención en
técnicas que describen los datos, tales como organizar datos en
distribuciones de frecuencias y calcular diferentes promedios y medidas
de variabilidad. Estábamos concentrados en describir algo que ya
ocurrió. También comenzamos a establecer los fundamentos de la
estadística inferencial, con el estudio de los conceptos básicos de la
probabilidad, las distribuciones de probabilidad discretas y continuas.
Distribuciones que son principalmente generadas para evaluar algo que
podría ocurrir. Ahora veremos otro tipo de distribución de probabilidad,
que se llaman distribuciones muestrales.

 ¿Por qué muestrear? Muestrear es una forma de evaluar la calidad de un
producto, la opinión de los consumidores, la eficacia de un
medicamento o de un tratamiento. Muestra es una parte de la población.
Población es el total de resultados de un experimento. Hacer una
conclusión sobre el grupo entero (población) basados en información
estadística obtenida de un pequeño grupo (muestra) es hacer una
inferencia estadística. A menudo no es factible estudiar la población
entera.

Algunas de las razones por lo que es necesario muestrear son:

1. La naturaleza destructiva de algunas pruebas
2. La imposibilidad física de checar todos los elementos de la población.
3. El costo de estudiar a toda la población es muy alto.
4. El resultado de la muestra es muy similar al resultado de la población.
5. El tiempo para contactar a toda la población es inviable.

 Distribución Muestral de las Medias El ejemplo de los ratings de
eficiencia muestra como las medias de muestras de un tamaño
específico varían de muestra a muestra. La media de la primera muestra
fue 101 y la media de la segunda fue 99.5. En una tercera muestra
probablemente resultaría una media diferente. Si organizamos las
medias de todas las posibles muestras de tamaño 2 en una distribución
de probabilidad, obtendremos la distribución muestral de las medias.

 Distribución muestral de las medias. Es una distribución de probabilidad
de todas las posibles medias muestrales, de un tamaño de muestra
dado, seleccionadas de una población.

Muestreo Aleatorio

Si se seleccionan n elementos de una población de modo tal que
cada conjunto de n elementos de la población tenga la misma
probabilidad de ser seleccionado, se dice que los n elementos
constituyen una muestra aleatoria.

Distribuciones de muestreo

La distribución de muestreo de una estadística es su
distribución de probabilidad

El error estándar de una estadística es la desviación estándar
de sus distribución de muestreo.

Aplicación 1
Suponga que la variable aleatoria y tiene una función
de densidad y
 

e  Si 0≤y<∞
  

 

f ( y)   
0 
En cualquier otro punto
 
 

 

Y sea w(y)=y2 . Obtenga la función de densidad
para la variable aleatoria w.

w0

F ( y 0 )  F ( w0 )   f ( y ) dy 


Termínala de integrar, finalmente te va ha
quedar la función de distribución
acumulativa para w:

w
( )

G (w)  1  e

Derívala con respecto de w, y obtendrás la
función de densidad para w

Teorema del límite central

Si se extrae una muestra aleatoria de n observaciones, y1,
y2,…,yn, de una población que tiene una media finita μ y una
varianza σ2, entonces si n es lo bastante grande, la distribución
de muestreo de la media de la muestra Ý se puede aproximar
con una función de densidad normal.

La distribución de muestreo de la media de la muestra Ý se
puede aproximar con una función de densidad normal.

Sea y1, y2, … , yn una muestra aleatoria de n observaciones de
una población con media finita μ y una desviación estándar
finita σ. Entonces, la media y la desviación estándar de la
distribución de muestreo de Ý, denotada por:

 y  m edia m uestral
 y  desviación es tan dar m uestral
y  

 y
 / n
La importancia del teorema del limite central y lo que acabamos
de escribir, es que podemos aproximar la distribución de
muestreo de la media de la muestra , en tanto la población
tenga una media y varianza finitas.

Sean a1 , a 2 , ..., a n cons tan tes y sean y 1 , y 2 , ..., y n n var iables aleatorias n orm alm ente
distribuidas con E  y i    i , V ( y i )   i
2

i  1, 2, 3, 4, ..., n
E ntonces la distribución de m uestreo de com bin ación lineal de las var iables aleatorias
norm a les .
l  a1 y1  a 2 y 2  ...  a n y n

T iene una función de densidad norm al con m edia
E ( l )    a1  1  a 2  2  ...  a n  n

Aplicación:
Los ingenieros encargados del diseño y mantenimiento de
pavimentos para aviones tradicionalmente utilizan concreto con
calidad de pavimento. Se realizó un estudio en el aeropuerto con el
fin de evaluar la idoneidad de bloques de concreto como superficie
para pavimento de aviones. El concreto original con calidad de
pavimento del extremo occidental de la pista se cubrió con bloques
de concreto con un espesor de 80mm. Se realizo una serie de
pruebas de soporte de plancha para determinar el número de
clasificación de carga (LCN)-una medida de resistencia a la
ruptura-de la superficie. Sea y el LCN medio de una muestra de
25 secciones de bloques de concreto del extremo occidental de la
pista.

Antes del recubrimiento, se sabía que el LCN medio del concreto
original con calidad de pavimento del extremo occidental de la
pista era μ=60 y la desviación estándar era σ=10. Si la
resistencia media de al nueva superficie de bloques de concreto
no es diferente de aquella de la superficie original, describa la
distribución de muestreo de Y (Encuentra la media y la
desviación estándar de la muestra)

Si la resistencia media de la nueva superficie de bloques de
concreto no es diferente de aquella de la superficie original,
calcule la probabilidad de que Y , el LCN medio de la muestra de
25 secciones de bloques de concreto, sea mayor que 65.

Las pruebas de soporte de plancha realizadas con al nueva
superficie de bloques de concreto dieron como resultado Y =73.
Con base en este resultado, ¿Qué puede usted inferir acerca del
verdadero LCN medio de la nueva superficie?

Antes de ver la solución, inténtale
primero.

 y    60
 10
   2
n 25

65  60
Z   2 .5
2

Es poco probable que suceda
una media de 73

Reafirmando: Teoría elemental del muestreo

La teoría del muestreo estudia la relación entre una población
y las muestras tomadas de ella es de gran utilidad en muchos
campos. Por ejemplo, para estimar magnitudes desconocidas
de una población, tales como media y varianza, llamadas a
menudo parámetros de la población o simplemente
parámetros, a partir del conocimiento de esas magnitudes
sobre muestras, que se llaman estadísticos de la muestra
simplemente estadísticos.

Distribuciones de muestreo

Consideremos todas las posibles muestras de tamaño N en una
población dada (con o sin reposición). Para cada muestra,
podemos calcular un estadístico (tal como la media o la
desviación típica) que variará de muestra a muestra.
De esta manera obtenemos una distribución del estadístico que
se llama su “distribución de muestreo”.
Si por ejemplo, el estadístico utilizado es la media muestral,
entonces la distribución se llama “la distribución de muestreo
de medias”.
Análogamente podríamos tener una distribución de muestreo
de la desviación típica, de la varianza, de la mediana, de las
proporciones, etc.

Distribución de Muestreo de Medias

Supongamos que se toman todas las posibles muestras de tamaño N,
sin reposición, de una población finita de tamaño Np >N, si
denotamos la media y la desviación típica de la distribución de
muestreo de medias por μx , σx y las de la poblaciones por μ y σ

 Np  N
x   x 
N N p 1

Si la población es infinita o si el muestreo es con reposición, los
resultados anteriores se reducen a:

μx =μ σx =σ/√N

Para valores grandes de N ( N ≥ 30) la distribución de muestreo de medias es
aproximadamente normal con media μx y la desviación típica σx , independientemente de la
población (en tanto en cuanto la media poblacional y la varianza sean finitas y el tamaño de
la población sea al menos el doble que el de la muestra)

Distribución de muestreo de medias (comprobación)

Una población consta de los números 2,3, 6, 8 y 11.
Consideremos todas las posibles muestras de tamaño 2 que
pueden tomarse con reposición de esa población. Hallar
La media de la población.
La desviación típica de la población
La media de la distribución de muestreo de medias
La desviación típica de la distribución de muestreo de media.

Antes de ver la respuesta inténtalo.

1. Para el primer inciso , sumas los valores y los divides entre
el numero de datos que tienes.
2. Para la desviación típica

Para datos aislados
S = √ ( Σ(xj – x-)2 / N )
j = 1,2,…N

Xj = cada dato
x- = media
N = total de datos
Para N ≤ 30 se sustituye N por N-1

3. Para las muestras de tamaño dos , toma todas la
combinaciones que puedas (2,2 ) (2,3) (2,6) (2,8) (2,11)
luego le siguen con el 3 y así sucesivamente, son 25
muestras en total, de estas 25 muestras obtén la media
4. σx =σ/√N

Aplicación.
Estamos interesados en una población de 20 compañías
textiles del mismo tamaño, todas estas fábricas experimentan
una producción excesiva de trabajo. Nuestro estudio indica que
la desviación estándar de la distribución de la producción anual
es igual a 75 empleados. Si muestreamos cinco de estas
compañías textiles, sin reemplazo, y deseamos calcular el error
estándar de la media:

 Np  N
x 
N N p 1

Np tamaño población 20
N tamaño de la muestra 5
σ desviación estándar de la población 75

Aplicación 2

Las alturas de 3000 estudiantes varones de una Universidad
están normalmente distribuidas con media de 68 in y
desviación típica 3 in. Si se toman 80 muestras de 25
estudiantes cada una, ¿cuáles serán la media y la desviación
típica esperada de la resultante distribución de muestreo de
medias, si el muestreo se hizo:
a.-) Con reposición
b.-) Sin reposición

No veas la respuesta hasta que le intentes
primero.

El número de muestras de tamaño 25 que podrían elegirse de
un grupo de 3000 estudiantes con y sin reposición son 300025
Y la combinación de 3000 tomados de 25 3000C25

 x    68
 3
x    0.6
N 25

 Np  N 3 3000  25
x  
N N p 1 25 3000  1

Aplicación 3

500 bolas de cojinete tienen un peso medio de 5.02 gramos cada
una y una desviación típica de 0.30 g. Hallar la probabilidad de que
una muestra al azar de 100 bolas de este conjunto tengan un peso
total:

a.-) Menor a 5 gramos.
b.-) Menor a 4.96 gramos.
c.-) Más de 5.10 gramos.
d.-)Entre 4.96 y 5 gramos.
e.-) Más de 5.10 g.

 Np  N 0.3 500  100
x   =0.027
N N p 1 100 500  1

4.96 en unidades estándar
z= (X – μ)/σ

z=(4.96-5.02)/0.027 =-2.22

5.00 en unidades estándar z=

Distribución de muestreo de proporciones

Supongamos que una población es infinita y que la probabilidad
de ocurrencia de un suceso, su éxito es p, mientras que la
probabilidad de que no ocurra es q=1-p.
Por ejemplo, la población puede ser la de todas las posibles
tiradas de una moneda, en la que la probabilidad del suceso cara
es p=1/2.
Consideremos todas las posibles muestras de tamaño N de tal
población, y para cada una de ellas determinemos la proporción
de éxitos P

Estas ecuaciones son validas, también
p  p para una población finita en la que se
hace un muestreo con reposición.
pq
 p 
N

Aplicación 1

En unas elecciones uno de los candidatos obtuvo el 46% de los
votos. Hallar la probabilidad de que en un muestreo de:
a. 200 votantes elegidos al azar, saliera la mayoría a su favor.
b. 1000 votantes elegidos al azar, saliera mayoría a su favor.

Utiliza, 4 decimales, para
este problema.

Nota: de una muestra de 200, la mayoría sería, la mitad
mas 1 esto es la proporción sería 101/200

μp =p = 0.46

σp =√ 0.46x0.54/200 = 0.0352

La mayoría se obtiene cuando la proporción es 101/200 =0.505

z= (0.505-0.46 )/0.0352 = 1.27

Probabilidad de que sea mayoría,
el área que esta a la derecha.

9.68%
1.27

Distribución de muestreo de diferencias y sumas

Sean dadas dos poblaciones. Para cada muestra de tamaño N1
de la primera, calculamos un estadístico S1; eso da una
distribución de muestreo para S1, cuya media y desviación
típica denotaremos por μs1 y σs1.

Del mismo modo para cada muestra de tamaño N2 de la
segunda población, calculamos un estadístico S2; eso nos da
una distribución de muestreo para S2, cuya media y
desviación típica denotaremos por μs2 y σs2.

De todas las posibles combinaciones de estas muestras de
estas dos poblaciones podemos obtener una distribución de
las diferencias, S1-S2, que se llama distribución de muestreo
de las diferencias de los estadísticos.
La media y la desviación típica de esta distribución de
muestreo, denotadas respectivamente por:

 s1 s 2   s1   s 2

 s 1 s 2   
2 2
s1 s2

Damos por supuesto que las muestras escogidas no dependan
en absoluto una de otra(o sea que sean independientes)

Si S1 y S2 son las medias muéstrales de ambas poblaciones,
cuyas medias denotamos por :

X1 y X 2

Respectivamente, entonces la distribución de muestreo de las
diferencias de medias viene dada para poblaciones infinitas
con medias y desviaciones típicas (μ1,σ1) y (μ2,σ2)

 x 1 x 2   x 1   x 2   1   2

 
2 2

 x 1 x 2   x1   x 2  
2 2 1 2

N1 N2

El resultado es valido también para poblaciones finitas si el
muestreo es con reposición.
Análogos resultados pueden alcanzarse para poblaciones
finitas en que el muestreo sea sin reposición.

Aplicación

Las lámparas de un fabricante A tienen vida media de 1400 h con
desviación típica de 200 h, mientras que las de otro fabricante B
tienen vida media de 1200 h con desviación típica de 100 h. Si se
toma una muestra de 125 lámparas de cada clase, ¿cuál es la
probabilidad de que las de A tengan una vida media que sea al
menos
a.- de 160 horas, más que las de B?
b.- de 250 horas, más que las de B?

 x 1 x 2   x 1   x 2   1   2  1400  1200

 
2 2 2 2
100 200
 x 1 x 2   x1   x 2      20
2 2 1 2

N1 N2 125 125

( x A  xB )  200
z 
20

a.- 160-200/20
b.- 250-200/20

Aplicación:

Las bolas de rodamientos de cierto fabricante pesan 0.50 g de
media, con desviación típica de 0.02 g. ¿Cuál es la probabilidad de
que dos lotes de 1000 bolas cada uno difieran en peso en más de
0.002 g?

 x 1 x 2   x 1   x 2   1   2  0.50  0.50

 
2 2 2 2
0.02 0.02
 x 1 x 2   x1   x 2      0.000895
2 2 1 2

N1 N2 1000 1000

(X1  X 2)  0
z
0.000895

0 .0 0 2  0  0 .0 0 2  0
z  2 .2 3 z   2 .2 3
0 .0 0 0 8 9 5 0 .0 0 0 8 9 5

 Introducción
 Características de un buen estimador.

 Estimación puntual
Métodos
Máxima verosimilitud
Momentos.
 Intervalo de confianza para la media.

 Intervalo de confianza para la diferencia de medias.

 Intervalo de confianza para la proporción.
 Intervalo de confianza para la diferencia de
proporciones.
 Intervalo de confianza para la varianza.
 Intervalo de confianza para la relación de
varianzas.
 Determinación del tamaño de muestra.
Basado en la media de la población.
Basado en la proporción de la población.
Basado en la diferencia entre las medias de la población.

 Anteriormente vimos cómo se puede emplear la teoría del muestreo
para recabar información acerca de muestras aleatorias tomadas de
una población conocida. Desde un punto de vista practico, no
obstante , suele resultar más importante ser capaz de inferir
información sobre la población a partir de muestras suyas. Con tal
situación trata la inferencia estadística, que usa los principios de la
teoría del muestreo.

 Un problema importante de la inferencia estadística es la estimación
de parámetros de la población, o brevemente parámetros (tales
como la media o la varianza de la población) de los
correspondientes estadísticos muéstrales, o simplemente
estadísticos (tales como la media y la varianza de la muestra)

 Si la media de las distribuciones de muestreo de un estadístico es
igual que la del correspondiente parámetro de población, el
estadístico se llama un estimador sin sesgo del parámetro, si no se
llama un estimador sesgado. Los correspondientes valores de tales
estadísticos se llaman estimaciones sin sesgo y sesgadas,
respectivamente.

Ejemplo: La media de las distribuciones de
muestreo de medias  x   , la media de la
población. Por tanto la media muestral x es
una estimación sin sesgo de la media de la
población μ

 Si las distribuciones de muestreo de dos estadísticos tienen la
misma media (o esperanza), el de menor varianza se llama un
estimador eficiente de la media, mientras que el otro se llama un
estimador ineficiente. Los valores correspondientes de los
estadísticos se llaman estimación eficiente o estimación ineficiente,
respectivamente.
 Si consideramos todos los posibles estadísticos cuyas distribuciones
de muestreo tienen la misma media, aquel de varianza mínima se
llama a veces “estimador de máxima eficiencia” o sea el mejor
estimador.

 Si el estadístico S es la media x de la muestra, entonces los
limites de confianza.
Si el muestreo es de una población infinita o de una finita con
reposición.

x +/- Zc * σ/√N

Si el muestreo es sin reposición de una población finita de
tamaño Np

x +/- Zc* (σ/√N)*(√(Np-N)/(Np-1)

A la segunda parte de la formula, después
del +/- , se le llama error de la estimación

Aplicación:
Las medidas de los diámetros de una muestra aleatoria de 200
bolas de rodamientos producidas por una maquina en una
semana, dieron una media de 0.824 cm y una desviación típica de
0.042 cm. Hallar los limites de confianza.
a.- 95%
b.- 99% para el diámetro medio de todas las bolas.

los limites de confianza 95% son:

0.824 +/- 1.96* 0.042/√200

el valor de 1.96 lo encuentras con la tabla de distribución normal,
como es 95% y es de dos colas, entonces se busca un área de
0.95 + 0.05/2=0.975, este valor lo buscas en la tabla y su
correspondiente valor de z es igual a 1.96

¿Por qué es dos colas?
Ya que es un intervalo de confianza, buscas el valor hacia arriba y
abajo.

LS = 0.8298 limite superior
LI =0.8181 limite inferior

Aplicación

Al medir el tiempo de reacción, un psicólogo estima que la
desviación típica es 0.05 segundos. ¿De qué tamaño ha de tomarse
una muestra de medidas para tener una confianza del :

a.- 95% y
b.- 99% de que el error de la estimación no supera 0.01 segundos
(o sea que sea menor a 0.01 segundos).

+/- Zc * σ/√N
Esto se considera como
error de estimación

(1.96)(0.05)/√N < 0.01

Mismo caso para el 99% donde z=2.58

Aplicación:
Una muestra al azar de 50 calificaciones de matemáticas de entre
un total de 200, revela una media de 75 y una desviación típica
de 10.
a.- ¿Cuáles son los limites de confianza 95% para estimaciones de
la media de las 200 calificaciones?
b.- ¿Con qué grado de confianza podríamos decir que la media de
las 200 es 75+/-1?

Como la población no es muy grande comparada con el tamaño de
muestra, debemos tenerlo en cuenta.

75 +/- (1.64*(10)/√50)(√(200-50)/(200-1)

75 +/- 1.23Zc

1.23Zc =1

Encuentra el Zc y luego encuentras el área con la tabla de
distribución normal

 Si el estadístico S es la proporción de éxitos en una muestra de
tamaño N sacada de una población binomial en la que p es la
proporción de éxitos (o sea, la probabilidad de éxitos), entonces los
limites de confianza para p vienen dados por:

 p +/- Zc σp , donde p es la proporción de éxitos en la muestra de
tamaño N.
 Si el muestreo es de una población infinita o finita con reposición
 p +/- Zc √(pq/N)

 Si el muestreo es de una población finita de tamaño Np y sin
reposición.
 p +/- Zc √(pq/N) * √(Np-N)/(Np-1)

Aplicación:
Un sondeo de 100 votantes elegidos al azar en un distrito indica
que el 55% de ellos estaban a favor de un cierto candidato. Hallar
los limites de confianza.
a.- 95%
b.- 99%
c.- 99.73% para la proporción de todos los votantes favorables a
ese candidato.

0.55 +/- 1.96√(0.55)(0.45)/100

Aplicación:

En 40 lanzamientos de una moneda, han salido 24 caras. Hallar
los límites de confianza.
a.- 95%
b.- 99.73% para la proporción de caras que se obtendrían en un
numero ilimitado de lanzamientos de esa moneda.

Si el muestreo es de una población infinita o finita con reposición
p +/- Zc √(pq/N)

P=24/40
N=40
Zc buscar en la tabla.

 Si S1 y S2 son dos estadísticos muéstrales con distribuciones de
muestreo aproximadamente normales, los límites de confianza para
la diferencia de los parámetros de población correspondientes a S1 y
S2 vienen dados por:

S 1  S 2  Z c s 1 s 2  S 1  S 2  Z c  s 1   s 2
2 2

Mientras que los limites de confianza para la suma de los
parámetros de población vienen dados por
S 1  S 2  Z c s 1 s 2  S 1  S 2  Z c  s 1   s 2
2 2

Los limites de confianza para la diferencia de dos medias
poblacionales, en el caso de poblaciones infinitas, se calculan
como:

1 2
2 2

X 1  X 2  Z c x 1 x 2  X 1  X 2  Z c 
N1 N2

Los limites de confianza para la diferencia de dos proporciones
poblacionales, con poblaciones infinitas, están dados por:

p1(1  p1) p 2(1  p 2)
P1  P2  Z c p 1 p 2
 P1  P2  Z c 
N1 N2

Aplicación

Tienda en el centro Tienda en el centro
de la ciudad comercial
Tamaño de muestra N1=36 N2=49

Media muestral 40 años 35 años

Desviación estándar 9 años 10 años
poblacional

1 2
2 2

X 1  X 2  Z c x 1 x 2  X 1  X 2  Z c 
N1 N2
En promedio los clientes
del centro de la ciudad
2 2
son 5 años mayores que 9 10
los del centro comercial, 40  35  1 . 96 
pero con un 95% de 36 49
confianza esta la
diferencia entre 0.94 y 5  4 . 06
9.06 años. El margen de error es de 4.06 años y la estimación
por intervalo de 95% de confianza de la diferencia
entre las medias poblacionales va de 5-4.06=0.94
años a 5+4.06=9.06 años.

Aplicación:

Una muestra de 150 lámparas del tipo A ha dado una vida media de
1400 hrs. Y una desviación típica de 120 hrs. Una muestra de 200
lámparas del tipo B dan vida media de 1200 h y desviación típica
de 80 horas. Hallar los límites de confianza:
a.- 95% y
b.- 99% para la diferencia de las vidas medias de las poblaciones
de ambos tipos.

1400-1200 +/- 1.96√(120)2/150 + (80)2/100

Aplicación:

En una muestra aleatoria de 400 adultos y 600 jóvenes que vieron un
cierto programa de televisión, 100 adultos y 300 jóvenes
reconocieron que les había gustado. Determinar los limites de
confianza
a.- 95%
b.- 99% para la diferencia en proporciones de todos los adultos y
jóvenes que vieron con agrado el programa.

P1=300/600 =0.50
P2=100/400=0.25

0.50-0.25 +/- 1.96√(0.50)(0.50)/600 +(0.25)(0.75)/400

Intervalos de confianza para desviaciones típicas

Los límites de confianza para la desviación típica σ de una población
normalmente distribuida, estimados con una muestra con desviación
típica s, vienen dados por:


s  z c s  s  z c
2N

Aplicación

La desviación típica de las vidas medias de una muestra de
200 bombillas es de 100 horas. Hallar los límites de
confianza.
a.- 95%
b.- 99% para la desviación típica de ese tipo de bombillas.

Inferencias acerca de la diferencia entre medias poblacionales:σ1 y
σ2 desconocidas (desviaciones estándar poblacionales desconocidas)

La inferencia sobre la diferencia entre dos medias poblacionales se
extiende al caso en el que las dos desviaciones estándar
poblacionales, σ1 y σ2 no se conocen .
En este caso para estimar las desviaciones estándar poblacionales
desconocidas se emplean las desviaciones estándar muéstrales, s1 y
s2. Cuando se usan las desviaciones estándar muéstrales en las
estimaciones por intervalo y en las pruebas de hipótesis, se emplea
la distribución t en lugar de la distribución normal estándar.

x1  media muestra 1
2 2
s1 s2 x 2  media muestra 2
x1  x 2  t  / 2 
n1 n2 t  / 2  valor de la t student
s1  desviación es tan dar de la muestra 1
s 2  desviación es tan dar de la muestra 2

Ejemplo: Encontrar el valor de la t student, con un 95% de
confianza y 7 grados de libertad. (2 colas)

t=2.36

Ejemplo:

Bancomer, realiza un estudio para identificar diferencias entre las
cuentas de cheques de sus clientes en dos de sus sucursales; toma
una muestra aleatoria simple de 28 cuentas de la sucursal Sauz y otra
muestra aleatoria simple e independiente de 22 cuentas de cheques
de la sucursal Patria. A continuación se presenta un resumen de los
saldos en esas cuentas.

Sauz Patria
Tamaño de la n1=28 n2=22
muestra
Media muestral x1=$1025 x2=$910
Desviación s1=$150 s2=$125
estándar muestral

El banco desea estimar la diferencia entre el saldo medio en las
cuentas de cheques de clientes del Sauz y el saldo medio en las
cuentas de cheques de la sucursal Patria.

2
s 2 s2
2 
 1  
 n n2 
 1 
gl 
2 2
 1  s 12   1  s 2 2 
     
 n  1  n   n  1  n 
 1  1   2  2 

Grados de libertad: distribución t , con dos muestras aleatorias
independientes.

47.8 se redondea a 47

115 +/- 78

Estimación por intervalo de la media poblacional:

¿ Se puede
considerar que se

SI conoce la
desviación NO
estándar
poblacional σ?

Use la desviación
estándar muestral s
para estimar σ

s
 xt
x  Zc n
n

Aplicación:
Las primeras semanas del 2004 fueron buenas para el mercado
de acciones. En una muestra de 25 fondos abiertos se
encontraron las siguientes ganancias obtenidas desde el
principio del año al 24 de enero del 2004.
7.0 3.2 1.4 5.4 8.5
2.5 2.5 1.9 5.4 1.6
1.0 2.1 8.5 4.3 6.2
1.5 1.2 2.7 3.8 2.0
1.2 2.6 4.0 2.6 0.6

a.-¿Cuál es la estimación puntual de la media poblacional de las
ganancias en fondos abiertos desde principio del año hasta esa
fecha?

b.-Puesto que la población tiene una distribución normal, calcule
un intervalo de confianza de 95% para la media poblacional de las
ganancias en fondos abiertos desde el principio del año hasta esa
fecha.

Si la prueba es de
dos colas, el valor
de α lo divides
entre dos y lo
buscas en esta fila

Si deseas, buscar el valor de la t student en Excel, puedes usar
la función DISTR.T.INV, te pedirá la probabilidad esto es el
nivel de significancia, tu se lo pones dependiendo si es una
cola o dos colas, acuérdate que si es dos colas, divides el valor
de α entre dos.

Repaso:

La media y desviación típica de las cargas máximas soportadas
por 60 cables, son 11.09 y 0.73 toneladas, respectivamente.
Hallar los limites de confianza.
a.-95%
b.-99% para la media de las cargas máximas soportadas por los
cables de este tipo.

Repaso:

Se espera que una elección entre dos candidatos sea muy reñida.
¿Cual es el mínimo número de votantes a sondear si se quiere
tener un 95% de confianza sobre la decisión a favor uno de otro?

 Introducción
 Errores tipo I y tipo II
 Potencia de la prueba.
 Formulación de hipótesis estadísticas.
 Prueba de hipótesis para la media.
 Prueba de hipótesis para la diferencia de medias.
 Prueba de hipótesis para la proporción.
 Prueba de hipótesis para la diferencia de
proporciones.
 Prueba de hipótesis para la varianza.
 Prueba de hipótesis para la relación de varianzas.

La prueba de hipótesis comienza con una suposición, llamada
hipótesis, que hacemos con respecto a un parámetro de
población. Después recolectamos datos de muestra, producimos
estadísticas de muestra y usamos esta información para decidir
qué tan probable es que sea correcto nuestro parámetro de
población acerca del cual hicimos la hipótesis. Digamos que
suponemos cierto valor para una media de la población.

Para probar la validez de nuestra suposición recolectamos datos
de muestra y determinamos la diferencia entre el valor real de la
media de dicha muestra.

Después juzgamos si la diferencia obtenida es significativa o no.
Mientras mas pequeña sea la dicha diferencia, mayor será la
probabilidad de que nuestro valor hipotetizado para la media sea
correcto. Mientras mayor sea la diferencia, más pequeña será la
probabilidad.

Elaboración de las hipótesis nula y alternativa

En algunas aplicaciones no parece obvio cómo formular la
hipótesis nula y la hipótesis alternativa. Se debe tener cuidado en
estructurar las hipótesis apropiadamente de manera que la
conclusión de la prueba de hipótesis proporcione la información
que el investigador o la persona encargada de tomar decisiones
desea.

Prueba de una hipótesis de investigación

Considere un determinado modelo de automóvil en el que el
rendimiento de la gasolina es 24 millas por galón. Un grupo de
investigación elabora un nuevo sistema de inyección de combustible
diseñado para dar un mejor rendimiento en millas por galón de
gasolina. Para evaluar el nuevo sistema se fabrican varios de éstos, se
instalan en los automóviles y se someten a pruebas controladas de
manejo. En este caso, el grupo de investigación busca evidencias para
concluir que el nuevo sistema aumenta la media del rendimiento.

La hipótesis de investigación es, entonces que el nuevo sistema de
inyección de combustible proporciona un rendimiento medio mayor a
24 millas por galón de combustible; es decir, μ>24. Como
lineamiento general, una hipótesis de investigación se debe plantear
como hipótesis alternativa.

Ho: μ≤24
Ha: μ>24 (la hipótesis que tu quieres probar la pones como
alternativa)

Prueba de la validez de una afirmación:

A manera de ejemplo de la prueba de validez de una afirmación,
considere una situación en la que un fabricante de refrescos asegura
que los envases de dos litros de refresco contienen en promedio, por
lo menos 67.6 onzas de liquido. Se selecciona una muestra de
envases de dos litros y se mide su contenido para confirmar lo que
asegura el fabricante. En este tipo de situaciones de prueba de
hipótesis, se suele suponer que el dicho del fabricante es verdad a
menos que las evidencias muéstrales indiquen lo contrario.

Ho: μ≥67.6
Ha: μ<67.6
En toda situación en la que se desee probar la validez de una
afirmación, la hipótesis nula se suele basar en la suposición de que la
afirmación sea verdadera

Prueba en situaciones de toma de decisión:

Cuando se prueba una hipótesis de investigación o la validez de
una afirmación, se toman medidas si se rechaza Ho; sin embargo,
en algunas situaciones se toman tanto si no se puede rechazar Ho
como si se puede rechazar Ho. En general, este tipo de situaciones
se presentan cuando la persona debe tomar una decisión tiene que
elegir entre dos líneas de acción, una relacionada con la hipótesis
nula y otra con la hipótesis alternativa.

Por ejemplo, con base en una muestra de las piezas de un pedido
recibido, el inspector de control de calidad tiene que decidir si
acepta el pedido o si lo regresa al proveedor debido a que no
satisface las especificaciones. Suponga que una especificación para
unas piezas determinadas sea que su longitud deba ser de 2
pulgadas. Si la longitud media es menor o mayor a dos pulgadas,
las piezas ocasionarán problemas de calidad en la operación de
ensamblado.

Ho: μ=2
Ha: μ≠2

Ejemplo:

Una línea de operación está diseñada para llenar empaques de 32 onzas de
detergente para lavar. Con periodicidad se selecciona una muestra de los
empaques y se pesan para determinar si no se están llenando con un peso
mayor o menor al indicado. Si los datos muéstrales llevan a la conclusión de
que hay exceso o falta de llenado, se suspende la producción y se ajusta al
llenado correcto.
a.-Formule las hipótesis nula y alternativa que ayudarán a determinar si se
debe detener la producción y ajustar el peso. Comente.

Errores tipo I y II

Las hipótesis nula y alternativa son afirmaciones opuestas acerca de
la población. Una de las dos, ya sea la hipótesis nula o la hipótesis
alternativa es verdadera, pero no ambas. Lo ideal es que la prueba de
hipótesis lleve a la aceptación de Ho cuando Ho sea verdadera y al
rechazo de Ho cuando Ha sea verdadera.

Por desgracia, las conclusiones correctas no siempre son posibles.
Como la prueba de hipótesis se basa en una información muestral
debe tenerse en cuenta que existe la posibilidad de error.

Situación en la población

Ho es verdadera Ha es verdadera

Conclusión Se acepta Ho Conclusión Error tipo II
correcta
Se rechaza Ho Error tipo I Conclusión
correcta

Síntesis de las pruebas de hipótesis para la media poblacional
caso σ conocida.

Prueba de la cola Prueba de la cola Prueba de dos colas
inferior superior
Hipótesis Ho:μ≥μo Ho:μ≤μo Ho:μ=μo
Ha: μ<μo Ha: μ>μo Ha: μ≠μo

Estadístico de
x  o x  o x  o
prueba z  z  z 
  
n n n
Regla de rechazo: Rechazar Ho si Rechazar Ho si Rechazar Ho si
método del valor-p valor-p≤α valor-p≤α valor-p≤α

Regla de rechazo: Rechazar Ho Rechazar Ho Rechazar Ho
método del valor si z≤-zα si z≥-zα si z≤-zα/2
crítico o si
z ≥zα/2

Aplicación 1
Un fabricante suministra los ejes traseros para los camiones correo del
Servicio Postal. Estos ejes deben soportar 80,000 lb por pulg2 en
pruebas de carga, pero un eje excesivamente fuerte eleva los costos
de producción de manera significativa. La larga experiencia indica que
la desviación estándar de la fuerza de sus ejes es 4,000 lb por pulg2.
El fabricante selecciona una muestra de 100 ejes de la producción, los
prueba y encuentra que la capacidad de carga media de la muestra es
79,600 lb por pulg2

Media población= 80,000
σ= desviación estándar población= 4,000
n= 100 tamaño de muestra
Media de muestra= 79,600

Ho: μ=80,000 hipótesis nula: la media real es 80,000 lb por pulg2

H1: μ≠ 80,000 hipótesis alternativa: la media real no es 80,000

α= 0.05 nivel de significancia para probar esta hipótesis.

σx = σ/raiz n

x  o
z 

n

Aplicación 2
Una empresa de investigación sobre bienes raíces, vigila los montos
de las rentas de departamentos en Estados Unidos. A mediados de
2002, la renta promedio de un departamento era $895, por mes.
Suponga que según los estudios trimestrales anteriores, es razonable
suponer que la desviación estándar poblacional es σ=$225. En un
estudio reciente, en una muestra de 180 departamentos en todo el
país se obtuvo una media de 1025. ¿Estos datos muéstrales permiten
que se concluya que la media de la renta actual de departamentos es
superior a la media encontrada en 2002?
1. Dé la hipótesis nula y alternativa
2. ¿Cuál es el valor-p?
3. Con α=0.01, ¿cuál es su conclusión?

Ho: μ≤895
Ha: μ>895 (la hipótesis que tu quieres probar la pones como
alternativa)

x  o
z 

n

La diferencia en tamaño entre muestras grandes y pequeñas es importante cuando no
se conoce la desviación estándar de la población σ y se hace necesario estimarla a
partir de la desviación estándar de la muestra. Si el tamaño de la muestra n es de 30 o
menor y σ se desconoce, debemos utilizar la distribución t. La distribución t
apropiada tiene n-1 grados de libertad. Estas reglas también se aplican a la prueba de
hipótesis.


x 
n

Aplicación 3

Una empresa sostiene que el salario medio por hora de sus
trabajadores es de 500 pesos. El sindicato sospecha que la empresa
exagera el valor del salario medio por hora. En una muestra de 400
trabajadores, el sindicato encuentra que el salario medio por hora es
de 490 pesos con una desviación estándar de 60 pesos.
a. Plantear la hipótesis nula y alterna
b. Llegar a una conclusión respecto a la afirmación de la empresa, con
un 5% de nivel de significación.

x  o
z 

n

Ho: media=
Ha: media < 500

490  500
z 
60
400

Aplicación 4 (Tarea)

El departamento de control de calidad de “Tigre Toñi” especifica que el
peso promedio por paquete de cereal debe ser de 20 onzas.
Periódicamente se selecciona una muestra de cajas llenas, que se
pesan para determinar si están faltas o sobradas de llenado. Si los
datos de la muestra llevan a la conclusión de que les falta o sobra
cereal, se debe parar la línea de producción y hacer los ajustes
necesarios para que el llenado sea correcto.
a) Formule las hipótesis nula y alternativa que ayuden a decidir si es
conveniente parar y ajustar la línea de producción o no.
b) ¿Cuál es el error de tipo I en este caso? ¿Cuáles son las
consecuencias de cometerlo?

Aplicación 5 (Tarea)

En una encuesta, un investigador obtuvo la estimación de que la
media del número de horas de ver TV por familia es de 7.25 horas
diarias. Suponga que en esta encuesta participaron 200 familias y que
la desviación estándar de la muestra fue de 2.5 horas diarias. Hace 10
años, la media de la población de horas de TV era de 6.70 por familia.
Si =la media de la población del número de horas de ver TV por
familia hace 10 años, pruebe la hipótesis
H 0 :   6 .70 y H a :   6 .70
Use =0.01.

¿Cuál es el valor crítico del estadístico de prueba y cuál es la regla de
rechazo?
Calcule el valor del estadístico de prueba.
¿cuál es su conclusión?

Pruebas de hipótesis para proporciones:

p  p0 p 0  proporción hipotetica
z p  proporción muestral
p 0 (1  p 0 ) n  tamaño de muestra
n
Ejemplo:
En años anteriores 20% de los jugadores del campo eran mujeres. Para aumentar la
proporción de mujeres se realizó una promoción especial. Un mes después de realizada
la promoción, el administrador del campo solicita un estudio estadístico para
determinar si la proporción de jugadoras ha aumentado.

p 0  0 . 20 0 . 25  0 . 20
z  2 .5
p  0 . 25
0 . 20 (1  0 . 20 )
n  400
400

H 0  p  0 . 20
para un 95 % confianza
Ha  p  0 . 20 prueba una cola
z  1 . 64
por lo tan to se rechaza la Ho

Aplicación 2

En un estudio acerca de la rotación de puestos, un investigador
entrevista a una muestra aleatoria de 200 empleados de alto nivel
que cambiaron de trabajo el año anterior. Treinta afirman haberlo
hecho a causa de la ausencia de perspectivas de ascenso en sus
anteriores trabajos.
a) Empleando un nivel de significancia de 0.05, ¿ofrecen estos datos
suficiente evidencia que indique que menos del 20% de esos
empleados cambian de trabajo por ese motivo?
b) Cuál es el valor p-value?

p  p0
z
p 0 (1  p 0 )
n

n  200
30
p   0 . 15

El p-value, es el valor del
200
17
p0   0 . 85
área de la colita 20
0 . 15  0 . 20
z  
0 . 15 ( 0 . 85 )
200

Pruebas de hipótesis acerca µ1 - µ2
Estadístico de prueba para pruebas de hipótesis acerca de µ1 y µ2
σ1 y σ2 desconocidas.

Nota: considerar a Do=0, esto
quiere decir que no hay
( x1  x 2 )  D 0 diferencia entre las medias
t  poblacionales.
2 2
s s
1
 2

n1 n2
2
s s
2 2 
 1  2 
 n n2 
 1 
gl 
2 2
 1  s 12   1  s 2 2 
     
 n  1  n   n  1  n 
 1  1   2  2 

Tecnología existente Software nuevo
300 274
280 220
344 308
385 336
372 198
360 300
288 315
321 258
376 318
290 310
301 332
283 263
Tamaño de muestra n1=12 n2=12
Media Muestral X1=325 X2=286
Desviación estándar muestral s1=40 s2=44

El investigador encargado de la evaluación del nuevo software
espera poder demostrar que con el nuevo software se necesita
menos tiempo para el proyecto del sistema de información. De
manera que el investigador tratará de hallar evidencias que le
permitan concluir que µ2 es menor que µ1

Ho: µ1-µ2≤0
Ha: µ1-µ2>0
Nivel de significancia α=0.05

α
Nivel de
significancia

Inferencias acerca de la diferencia entre dos medias
poblacionales: muestras pareadas.
Trabajador Tiempo para Tiempo para Diferencia entre (di – Media de las
realizar la tarea realizar la tarea los tiempos (di) diferencias)^2
con el método 1 con el método 2
(minutos) (minutos)
1 6.0 5.4 0.6 (0.6-0.30)^2=

2 5.0 5.2 -0.2

3 7.0 6.5 0.5

4 6.2 5.9 0.3

5 6.0 6.0 0

6 6.4 5.8 0.6

Media de las ∑
diferencias=0.30

d 
d i

n d  0 . 30
media de las diferencia s
0 . 56
sd   0 . 335
 (d d)
2

sd 
i 5
n 1
desviación es tan dar

Estadístico de prueba para pruebas de hipótesis con
muestras pareadas.

d  d
t calculada 
sd
n
d  0 . 30
d  0
sd  0 . 335
n6

t calculada=2.20

Para el problema anterior:

Ho: µd=0
Ha: µd≠0
α=0.05
Para dos colas α/2 = 0.025
n-1= grados de libertad=6-1

t= ¿?
Conclusión, se acepta Ho que no hay
diferencia entre las medias.

t critica=2.571

Regla de decisión, usando el método de p-
value.

p-value ≤ α nivel significación, se rechaza
la hipótesis nula, caso contrario se acepta
la hipótesis nula.

Prueba de hipótesis acerca de p1-p2

Error estándar:

p 1 (1  p 1 ) p 2 (1  p 2 )
 p 1 p 2
 
n1 n2

Estadístico de prueba para pruebas de hipótesis acerca de p1-
p2
( p1  p 2 )
z 
1 1
p (1  p )(  )
n1 n2
n1 p 1  n 2 p 2
p 
n1  n 2

Aplicación:
Una empresa se dedica a elaborar declaraciones de impuestos,
suponga que la empresa desea realizar una prueba de hipótesis
para determinar si las proporciones de errores de las dos oficinas
son diferentes.
Ho: p1-p2=0
Ha: p1-p2≠0
α=0.10
p1=0.14
n1=250
p2=0.09
n2=300

Aplicación:
Durante el partido Chivas, Atlas, un comercial de la cervecería,
conocido como las Chicas Sol, fue uno de los tres más efectivos
televisados durante el evento. Una encuesta para ver la efectividad
de los comerciales, empleó muestras por grupos de edades para ver
el efecto de la publicidad en el partido Chivas, Atlas sobre los
distintos grupos de edades. A continuación se presentan los
resultados muéstrales respecto del comercial de la marca cerveza.

Edad Tamaño de muestra Le gustó mucho el
comercial
Menos de 30 años 100 49

De 30 a 49 años 150 54

a.- Formule una prueba de hipótesis para determinar si las proporciones
poblacionales de los dos grupos de edades difieren.
b.-Dé la estimación puntual de la diferencia entre las dos proporciones
poblacionales.
c.-Realice la prueba de hipótesis y dé el valor-p. Con α=0.05, ¿cuál es su
conclusión?
d.-Analice la forma en que el comercial llama la atención del grupo de menor y
de mayor edad. ¿Le parecerá a la empresa cervecera que los resultados de esta
encuesta le son favorables?

Ho: p1-p2=0
Ha: p1-p2≠0
α=
p1=
n1=
p2=
n2=

Apuntes Clase Estadistica I(Itsz)

Apuntes Clase Estadistica I(Itsz)

Recomendados

Recomendados

Mais conteúdo relacionado

Mais procurados

Mais procurados (20)

Semelhante a Apuntes Clase Estadistica I(Itsz)

Semelhante a Apuntes Clase Estadistica I(Itsz) (20)

Último

Último (20)

Apuntes Clase Estadistica I(Itsz)