SlideShare uma empresa Scribd logo
1 de 50
Baixar para ler offline
ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIAS
MUESTRAS DE DATOS NUMÉRICOS
4.1 INTRODUCCIÓN PRUEBAS DE HIPÓTESIS
Introducción: Prueba de hipótesis En esta unidad nos concentraremos en la prueba de
hipótesis, otro aspecto de la inferencia estadística que al igual que la estimación del
intervalo de confianza, se basa en la información de la muestra. Se desarrolla una
metodología paso a paso que le permita hacer inferencias sobre un parámetro poblacional
mediante el análisis diferencial entre los resultados observados (estadístico de la muestra)
y los resultados de la muestra esperados si la hipótesis subyacente es realmente cierta.
En el problema de estimación se trata de elegir el valor de un parámetro de la población,
mientras que en las pruebas de hipótesis se trata de decidir entre aceptar o rechazar un
valor especificado (por ejemplo, si el nivel de centramiento de un proceso es o no lo es).
Prueba de hipótesis: Estadísticamente una prueba de hipótesis es cualquier afirmación
acerca de una población y/o sus parámetros.
Una prueba de hipótesis consiste en contrastar dos hipótesis estadísticas. Tal contraste
involucra la toma de decisión acerca de las hipótesis. La decisión consiste en rechazar o
no una hipótesis en favor de la otra. Una hipótesis estadística se denota por “H” y son
dos: - Ho: hipótesis nula - H1: hipótesis alternativa Partes de una hipótesis 1-La hipótesis
nula “Ho” 2-La hipótesis alternativa “H1” 3-El estadístico de prueba 4-Errores tipo I y II 5-
La región de rechazo (crítica) 6-La toma de decisión 1. Concepto: Una prueba de
hipótesis estadística es una conjetura de una o más poblaciones. Nunca se sabe con
absoluta certeza la verdad o falsedad de una hipótesis estadística, a no ser que se
examine la población entera. Esto por su puesto sería impráctico en la mayoría de las
situaciones. En su lugar, se toma una muestra aleatoria de la población de interés y se
utilizan los datos que contiene tal muestra para proporcionar evidencia que confirme o no
la hipótesis. La evidencia de la muestra que es un constante con la hipótesis planteada
conduce a un rechazo de la misma mientras que la evidencia que apoya la hipótesis
conduce a su aceptación.
Definición de prueba de hipótesis estadística es que cuantifica el proceso de toma de
decisiones.
Por cada tipo de prueba de hipótesis se puede calcular una prueba estadística apropiada.
Esta prueba estadística mide el acercamiento del calor de la muestra (como un promedio)
a la hipótesis nula. La prueba estadística, sigue una distribución estadística bien conocida
(normal, etc.) o se puede desarrollar una distribución para la prueba estadística particular.
La distribución apropiada de la prueba estadística se divide en dos regiones: una región
de rechazo y una de no rechazo. Si la prueba estadística cae en esta última región no se
puede rechazar la hipótesis nula y se llega a la conclusión de que el proceso funciona
correctamente.
Al tomar la decisión con respecto a la hipótesis nula, se debe determinar el valor crítico en
la distribución estadística que divide la región del rechazo (en la cual la hipótesis nula no
se puede rechazar) de la región de rechazo. A hora bien el valor crítico depende del
tamaño de la región de rechazo.
4.2 DISTRIBUCIÓN NORMAL Y DISTRIBUCIÓN T DE STUDENT
TRABAJO EN EQUIPO
ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIAS
MUESTRAS DE DATOS NUMÉRICOS
En estadística y probabilidad se llama distribución normal, distribución de Gauss o
distribución gaussiana, a una de las distribuciones de probabilidad de variable continua
que con más frecuencia aparece en fenómenos reales.
La gráfica de su función de densidad tiene una forma acampanada y es simétrica respecto
de un determinado parámetro. Esta curva se conoce como campana de Gauss.
La importancia de esta distribución radica en que permite modelar numerosos fenómenos
naturales, sociales y psicológicos. Mientras que los mecanismos que subyacen a gran
parte de este tipo de fenómenos son desconocidos, por la enorme cantidad de variables
incontrolables que en ellos intervienen, el uso del modelo normal puede justificarse
asumiendo que cada observación se obtiene como la suma de unas pocas causas
independientes.
De hecho, la estadística es un modelo matemático que sólo permite describir un
fenómeno, sin explicación alguna. Para la explicación causal es preciso el diseño
experimental, de ahí que al uso de la estadística en psicología y sociología sea conocido
como método correlacional.
La distribución normal también es importante por su relación con la estimación por
mínimos cuadrados, uno de los métodos de estimación más simples y antiguos.
La distribución normal también aparece en muchas áreas de la propia estadística. Por
ejemplo, la distribución muestral de las medias muéstrales es aproximadamente normal,
cuando la distribución de la población de la cual se extrae la muestra no es normal.[1]
Además, la distribución normal maximiza la entropía entre todas las distribuciones con
media y varianza conocidas, lo cual la convierte en la elección natural de la distribución
subyacente a una lista de datos resumidos en términos de media muestral y varianza. La
distribución normal es la más extendida en estadística y muchos tests estadísticos están
basados en una supuesta "normalidad".
En probabilidad y estadística, la distribución t (de Student) es una distribución de
probabilidad que surge del problema de estimar la media de una población normalmente
distribuida cuando el tamaño de la muestra es pequeño.
Aparece de manera natural al realizar la prueba t de Student para la determinación de las
diferencias entre dos medias muestrales y para la construcción del intervalo de confianza
para la diferencia entre las medias de dos poblaciones cuando se desconoce la
desviación típica de una población y ésta debe ser estimada a partir de los datos de una
muestra.
La distribución t de Student es la distribución de probabilidad del cociente
Donde
• Z tiene una distribución normal de media nula y varianza 1
• V tiene una distribución chi-cuadrado con grados de libertad
• Z y V son independientes
TRABAJO EN EQUIPO
ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIAS
MUESTRAS DE DATOS NUMÉRICOS
Si μ es una constante no nula, el cociente es una variable aleatoria que sigue la
distribución t de Student no central con parámetro de no-centralidad μ.
4.3 PRUEBAS DE SIGNIFICANCIA
Las pruebas de significancia estadística son un procedimiento que brinda un criterio
objetivo para calificar las diferencias que se presentan al comparar los resultados de dos
muestras, con el objetivo de explicar si dichas diferencias se mantienen dentro de los
límites previstos por el diseño estadístico (un error y una confianza esperados) o si, por el
contrario, la diferencia entre ellas resulta lo suficientemente grande como para inferir que
ha ocurrido un cambio real en el indicador
4.4 COMPARACIÓN DE DOS MUESTRAS INDEPENDIENTES: PRUEBAS T PARA LAS
DIFERENCIAS ENTRE NORMALES.
Para comparar las medias de dos muestras aleatorias procedentes de dos poblaciones
normales e independientes, se utiliza el procedimiento Prueba T para muestras
independientes, y para ello, se selecciona:
A continuación se abre una ventana con los siguientes campos:
Contrastar variables: donde se han de introducir las variables que se van a analizar, es
decir, aquellas variables sobre las que se va a contrastar si hay o no, diferencias de
grupos.
Variable de agrupación: aquí se debe introducir la variable que se utiliza para definir los
grupos de sujetos sobre los que se estudian las diferencias. Entonces el sistema activa el
botón definir grupos y al presionarlo aparece una ventana donde se introducen los valores
de la variable que definen los dos grupos de sujetos a comparar, o el valor de la variable
que hará de corte para definir dichos grupos. Si el valor de la variable para un individuo es
menor o igual que el valor especificado, el individuo pertenecerá al primer grupo, y en
caso contrario, al segundo.
Opciones: presionando este botón se obtiene una ventana donde se especifica igual que
en la sección anterior el nivel de confianza para el intervalo y la forma de tratar los valores
missing.
Ejemplo: Vamos a comprobar si existen diferencias significativas entre los tiempos
medios de dedicación a la docencia, para los profesores asociados y los titulares de
TRABAJO EN EQUIPO
ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIAS
MUESTRAS DE DATOS NUMÉRICOS
universidad de Profesores2.sav. Para ello, seleccionamos el procedimiento Prueba T para
muestras independientes, y elegimos la variable Tiemdoc para llevarla al campo
contrastar variables. Seguidamente seleccionamos como variable agrupación la variable
categoría, presionamos el botón definir grupos, y tecleamos un 1 en el primer grupo y un 3
en el segundo. Por último pulsamos continuar y aceptar para ejecutar el procedimiento.
El resultado que muestra la Tabla contiene dos tablas. La primera recoge para ambos
grupos, profesores asociados y titulares de universidad, el número de casos en cada
muestra, los tiempos medios dedicados a la docencia, las desviaciones típicas y los
errores típicos de la media. La segunda tabla muestra el valor del estadístico para la
prueba de Levene sobre la igualdad de varianzas, junto con su p-valor. Este se distribuye
como una F de Snedecor y vale 0.808, mientras que su p-valor 0.373, lo que nos conduce
a aceptar que las varianzas sean iguales, ya que el p-valor es mayor que 0.05. También
aparece en la tabla el valor del estadístico para resolver el contraste de igualdad de
medias, supuesto varianzas iguales y distintas, (en ambos casos se distribuye como una t
de Student), junto con los correspondientes grados de libertad y sus p-valores. Puesto
que hemos concluido que las varianzas coinciden, fijémonos en el que se han asumido
varianzas iguales, el cual vale 8.661, y cuyo p-valor es 0, luego se rechaza que las
medias coincidan. Razonamiento que también se puede deducir del intervalo de
confianza, que no contiene el cero.
Tabla : Contraste sobre las Medias de dos Poblaciones Independientes
Prueba T Estadísticos de Grupo
Desviación Error típ. de
Categoría N Media típ. la media
Tiempo diario 1 29 251,3759 29,36731 5,4534
para la docencia 3 23 187,1000 22,5337 4,6986
Prueba de muestras independientes
Prueba de
Levene
para
la igualdad Prueba T para la igualdad de medias
de
varianzas
F Sig. t gl
Sig.
bilater
al
Diferenci
a de
medias
Error
típico de
la
diferenci
a
Intervalo de
confianza para
la diferencia
Inferior
Superio
r
Tiempo
Asumiend
o
0.80
8
0,37
3
8,66
1
50 0.000 64,2759 7,4209
49,370
4
79,181
3
diario
varianzas
iguales
para la No
Asumiend
8,92
9
49,96
1
0.000 64,2759 7,1983 49,817
3
78,734
5
TRABAJO EN EQUIPO
ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIAS
MUESTRAS DE DATOS NUMÉRICOS
o
docenci
a
varianzas
iguales
En muchos estudios, incluidos la mayoría de los ensayos clínicos, es necesario comparar
ciertas características en dos o más grupos de sujetos. Tal sería el caso, por ejemplo, si
pensamos que un tratamiento nuevo puede tener un porcentaje de mejoría mayor que
otro estándar, o cuando nos planteamos si los niños de las distintas comunidades
autónomas tienen o no la misma altura. En este artículo se analizará únicamente el
problema de la comparación de dos grupos con respecto a una variable continua. La
elección de un método de análisis apropiado en este caso dependerá de la naturaleza de
los datos y la forma en la que estos hayan sido obtenidos. Fundamentalmente, cuando se
comparan dos o más grupos de observaciones pueden darse dos tipos de diseño: aquel
en el que las observaciones se refieren a dos grupos independientes de individuos, o el
caso en el que cada serie de datos se recoge en los mismos sujetos bajo condiciones
diferentes. El tipo de metodología será distinto según el caso en el que nos encontremos.
Otro aspecto a tener en consideración será el tipo y distribución de los datos. Para grupos
independientes, los métodos paramétricos requieren que las observaciones en cada
grupo provengan de una distribución aproximadamente normal con una variabilidad
semejante, de modo que si los datos disponibles no verifican tales condiciones, puede
resultar útil una transformación1,2,3
de los mismos (aplicación del logaritmo, raíz cuadrada,
etc.) o, en todo caso, se debería recurrir a la utilización de procedimientos no
paramétricos4
.
Normalmente en este tipo de análisis podremos establecer una hipótesis de partida
(hipótesis nula), que generalmente asume que el efecto de interés es nulo, por ejemplo
que la tensión arterial es la misma en hombres y mujeres o que dos tratamientos para la
hipercolesterolemia son igualmente efectivos. Posteriormente se puede evaluar la
probabilidad de haber obtenido los datos observados si esa hipótesis es correcta. El valor
de esta probabilidad coincide con el valor-p que nos proporciona cada test estadístico, de
modo que cuanto menor sea éste más improbable resulta que la hipótesis inicial se
verifique.
En un primer apartado, se presentará el test t de Student para dos muestras
independientes, introduciendo las modificaciones necesarias en el caso de que la
variabilidad de ambos grupos sea distinta. A continuación se introducirá el test t de
Student para el caso de dos muestras dependientes.
t de Student para dos muestras independientes
Uno de los análisis estadísticos más comunes en la práctica es probablemente el utilizado
para comparar dos grupos independientes de observaciones con respecto a una variable
numérica. Como ejemplo, consideremos los datos que se muestran en la Tabla 1,
correspondientes a 75 individuos con sobrepeso sometidos a dos dietas alimenticias
distintas, de modo que se desea comparar el peso de los individuos que iniciaron cada
una de las dietas.
Como ya se ha adelantado, la aplicación de un contraste paramétrico requiere la
normalidad de las observaciones para cada uno de los grupos. La comprobación de esta
hipótesis puede realizarse tanto por métodos gráficos (por medio de histogramas,
diagramas de cajas o gráficos de normalidad) como mediante tests estadísticos5
(test de
Kolmogorov-Smirnov, test de Shapiro-Wilks). Un número suficiente de observaciones
(digamos mayor de 30) como ocurre en el ejemplo planteado justifica, no obstante, la
utilización del mismo test. Así mismo, este tipo de metodología exigirá que la varianza en
ambos grupos de observaciones sea la misma. En primer lugar se desarrollará el test t de
TRABAJO EN EQUIPO
ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIAS
MUESTRAS DE DATOS NUMÉRICOS
Student para el caso en el que se verifiquen ambas condiciones, discutiendo
posteriormente el modo de abordar formalmente el caso en el que las varianzas no sean
similares.
Bajo las hipótesis de normalidad e igual varianza la comparación de ambos grupos puede
realizarse en términos de un único parámetro como el valor medio (Figura 1a), de modo
que en el ejemplo planteado la hipótesis de partida será, por lo tanto:
H0: La media de peso inicial es igual en ambos grupos
Se denotará por {X1, X2,...,Xn} e {Y1,Y2,...,Ym} al peso observado en cada uno de los
sujetos sometidos a la dieta A y a la dieta B respectivamente. En general no se exigirá
que coincida el número de observaciones en cada uno de los grupos que se comparan,
de modo que en el ejemplo n=40 y m=35.
El t test para dos muestras independientes se basa en el estadístico:
(1)
Donde e denotan el peso medio en cada uno de los grupos:
y , las cuasi varianzas muéstrales correspondientes:
Con lo cual, en este caso particular, el valor utilizado para el contraste será:
Si la hipótesis de partida es cierta el estadístico (1) seguirá una distribución t de Student
con n+m-2 grados de libertad. De ser así, el valor obtenido debería estar dentro del rango
de mayor probabilidad según esta distribución. Usualmente se toma como referencia el
rango de datos en el que se concentra el 95% de la probabilidad. El valor-p que
usualmente reportan la mayoría de paquetes estadísticos no es más que la probabilidad
de obtener, según esa distribución, un dato más extremo que el que proporciona el test.
Como ya se dijo, refleja también la probabilidad de obtener los datos observados si fuese
TRABAJO EN EQUIPO
ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIAS
MUESTRAS DE DATOS NUMÉRICOS
cierta la hipótesis inicial. Si el valor-p es muy pequeño (usualmente se considera p<0.05)
es poco probable que se cumpla la hipótesis de partida y se debería de rechazar. La
región de aceptación corresponde por lo tanto a los valores centrales de la distribución
para los que p>0.05. En el ejemplo planteado el valor-p correspondiente es de 0.425, de
modo que no existe evidencia estadística de que el peso medio en ambos grupos sea
diferente. En la Tabla 2, se determina los grados de libertad (en la primera columna) y el
valor de α (en la primera fila). El número que determina su intersección es el valor crítico
correspondiente. De este modo, si el estadístico que se obtiene toma un valor mayor se
dirá que la diferencia es significativa.
Otro modo de obtener esta misma información es mediante el cálculo de intervalos de
confianza para la diferencia de la respuesta media en ambos grupos. A mayores, el
intervalo de confianza constituye una medida de la incertidumbre con la que se estima esa
diferencia a partir de la muestra, permitiendo valorar tanto la significación estadística
como la magnitud clínica de esa diferencia6
. En el caso que nos ocupa, el intervalo de
confianza vendrá dado como:
Donde denota el valor que según la distribución t de Student con n+m-2 grados de
libertad deja a su derecha el 2.5% de los datos. En el ejemplo, el intervalo de confianza
con una seguridad del 95% para la diferencia de peso viene dado por:
Que expresa en definitiva un rango de valores entre los que se puede encontrar el valor
real de la diferencia entre los pesos de ambos grupos. Proporciona además la misma
información que obteníamos del contraste estadístico. El hecho de que el valor cero
pertenezca al intervalo indica que no se dispone de evidencia para concluir que el peso
sea distinto en ambos grupos.
A medida que el tamaño muestral aumenta, la distribución del estadístico (1) se hace más
próxima a la de una variable Normal estándar. De este modo, en algunos textos se opta
por utilizar esta distribución para realizar la comparación de medias. Aunque esta
aproximación es correcta para muestras suficientemente grandes, ambos métodos
proporcionan en este caso resultados prácticamente idénticos, por lo que resulta más
simple utilizar, independientemente del tamaño de la muestra, la misma metodología a
partir de la distribución t. El mismo planteamiento podría utilizarse en el caso de varianzas
distintas o de muestras apareadas.
Dos muestras dependientes
Ya se ha comentado que cuando se trata de comparar dos grupos de observaciones, es
importante distinguir el caso en el que son independientes de aquel en el que los datos
están apareados. Las series dependientes surgen normalmente cuando se evalúa un
mismo dato más de una vez en cada sujeto de la muestra. También se puede encontrar
este tipo de observaciones en estudios de casos y controles donde cada caso se aparea
individualmente con un control.
Supongamos que queremos comprobar, en los datos de la Tabla 1 si realmente se
produce una pérdida de peso significativa en esos individuos, para lo que se recoge en
TRABAJO EN EQUIPO
ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIAS
MUESTRAS DE DATOS NUMÉRICOS
cada sujeto su peso antes y después de someterse a la dieta. En este tipo de análisis el
interés no se centra en la variabilidad que puede haber entre los individuos, sino en las
diferencias que se observan en un mismo sujeto entre un momento y otro. Por este
motivo, resulta intuitivo trabajar con la diferencia de ambas observaciones (en el ejemplo
será la pérdida de peso), de modo que se quiere contrastar la hipótesis:
H0: La pérdida de peso es nula frente a la alternativa de que la pérdida de peso sea
importante (es decir, distinta de cero).
La veracidad de dicha hipótesis puede ser contrastada igualmente mediante el test t de
Student. Como se ha dicho, este tipo de métodos tienen como hipótesis fundamental la
normalidad de los datos. En este caso, sin embargo, no será necesario que las
observaciones en ambos grupos provengan de poblaciones normales, sino que
únicamente se requiere verificar la normalidad de su diferencia. Denotando por la
pérdida media de peso la hipótesis de la que se parte es que:
frente a la alternativa
A partir de las observaciones muéstrales {Y1,Y2,..., Yn} e {Y1,Y2,...,Yn} en cada uno de los
grupos se calcula la diferencia de peso para cada sujeto {d1,d2,...,dn} con dj=Xj-Yj
j=1,2,...,n. Nótese que en este caso un requisito fundamental es que se tenga un número
igual de observaciones en ambos grupos. A partir de estos datos, el contraste se basa en
el estadístico:
o en el cálculo del 95% intervalo de confianza:
Donde denota la media de la pérdida de peso estimada a partir de la muestra:
y denota la cuasi varianza muestral de la diferencia dada por:
En nuestro ejemplo el valor del estadístico vendría dado por:
TRABAJO EN EQUIPO
ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIAS
MUESTRAS DE DATOS NUMÉRICOS
a comparar del modo habitual con la distribución t de Student con n-1=74 grados de
libertad. El intervalo de confianza para la pérdida media de peso correspondiente a una
seguridad del 95% es de (3.56;4.41), lo cual se traduce en una pérdida de peso
significativamente distinta de cero, tal y como indica el valor-p correspondiente de
p<0.001.
Figura 1. Comparación de dos poblaciones normales
a) Poblaciones normales con igual varianza y medias distintas
b) Poblaciones normales con igual y diferentes varianzas.
Figura 2. Regiones de aceptación y rechazo en el contraste de
hipótesis
TRABAJO EN EQUIPO
ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIAS
MUESTRAS DE DATOS NUMÉRICOS
Tabla 1. Datos de 75 pacientes con sobrepeso sometidos a
dos dietas alimenticias.
Dieta Peso inicial Peso final Dieta Peso inicial Peso final
A 94,07 86,59 B 88,02 84,12
A 96,79 93,08 B 88,22 86,13
A 92,15 87,85 B 103,45 101,21
A 92,30 86,83 B 82,94 79,08
A 96,50 92,70 B 89,71 86,19
A 83,11 76,80 B 94,83 91,93
A 91,16 83,40 B 81,93 78,97
A 90,81 86,74 B 83,41 78,89
A 81,37 77,67 B 73,59 69,76
A 89,81 85,70 B 108,47 104,20
A 84,92 79,96 B 72,67 70,01
TRABAJO EN EQUIPO
ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIAS
MUESTRAS DE DATOS NUMÉRICOS
A 84,43 79,80 B 96,84 93,66
A 86,33 81,15 B 88,48 87,00
A 87,60 81,92 B 89,57 87,24
A 81,08 76,32 B 85,22 82,09
A 92,07 90,20 B 103,76 102,24
A 81,14 73,34 B 87,84 84,66
A 96,87 93,58 B 91,50 88,95
A 99,59 92,36 B 93,04 88,73
A 83,90 77,23 B 92,14 88,07
A 89,41 85,45 B 85,26 81,36
A 85,31 84,59 B 89,42 86,64
A 89,25 84,89 B 92,42 88,99
A 93,20 93,10 B 93,13 89,73
A 89,17 86,87 B 80,86 77,81
A 93,51 86,36 B 88,75 85,93
A 88,85 83,24 B 95,02 91,90
A 88,40 81,20 B 92,29 91,28
A 82,45 77,18 B 89,43 87,22
A 96,47 88,61 B 93,32 89,77
A 99,48 94,67 B 92,88 89,38
A 99,95 93,87 B 89,88 88,00
A 100,05 94,15 B 82,25 80,81
A 87,33 82,17 B 88,99 86,87
A 87,61 86,01 B 82,07 79,74
TRABAJO EN EQUIPO
ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIAS
MUESTRAS DE DATOS NUMÉRICOS
A 89,28 83,78
A 89,72 83,56
A 95,57 89,58
A 97,71 91,35
A 98,73 97,82
4.5 PRUEBA DE FISHER PARA VARIANZAS Y DE IGUALDAD DE LAS VARIANZAS
DE DOS POBLACIONES NORMALES.
La necesidad de disponer de métodos estadísticos para comparar las varianzas de dos
poblaciones es evidente a partir del análisis de una sola población. Frecuentemente se
desea comparar la precisión de un instrumento de medición con la de otro, la estabilidad
de un proceso de manufactura con la de otro o hasta la forma en que varía el
procedimiento para calificar de un profesor universitario con la de otro.
Intuitivamente, podríamos comparar las varianzas de dos poblaciones, y ,
utilizando la razón de las varianzas muestrales s2
1/s2
2. Si s2
1/s2
2 es casi igual a 1, se tendrá
poca evidencia para indicar que y no son iguales. Por otra parte, un valor muy
grande o muy pequeño para s2
1/s2
2, proporcionará evidencia de una diferencia en las
varianzas de las poblaciones.
La variable aleatoria F se define como el cociente de dos variables aleatorias ji-cuadrada
independientes, cada una dividida entre sus respectivos grados de libertad. Esto es,
Donde U y V son variables aleatorias ji-cuadrada independientes con grados de libertad
y  respectivamente.
Sean U y V dos variables aleatorias independientes que tienen distribución ji cuadradas
con grados de libertad, respectivamente. Entonces la distribución de la variable
aleatoria está dada por:
TRABAJO EN EQUIPO
ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIAS
MUESTRAS DE DATOS NUMÉRICOS
y se dice que sigue la distribución F con grados de libertad en el numerador y
grados de libertad en el denominador.
La media y la varianza de la distribución F son:
para
para
La variable aleatoria F es no negativa, y la distribución tiene un sesgo hacia la derecha.
La distribución F tiene una apariencia muy similar a la distribución ji-cuadrada; sin
embargo, se encuentra centrada respecto a 1, y los dos parámetros proporcionan
una flexibilidad adicional con respecto a la forma de la distribución.
Si s1
2
y s2
2
son las varianzas muéstrales independientes de tamaño n1 y n2 tomadas de
poblaciones normales con varianzas 

y 

, respectivamente, entonces:
Para manejar las tablas de Fisher del libro de Introducción a la Inferencia Estadística del
autor Güenther, se tendrá que buscar primero los grados de libertad dos para luego
localizar el área correspondiente, relacionándola con los grados de libertad uno, para
calcular el valor de F.
Las tablas tienen la siguiente estructura:
TRABAJO EN EQUIPO
ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIAS
MUESTRAS DE DATOS NUMÉRICOS
P
1 2 3 ……. ….. 500 …
6 0.0005
0.001
0.005
.
.
0.9995 30.4
El valor de 30.4 es el correspondiente a una Fisher que tiene 3 grados de libertad uno y 6
grados de libertad dos con un área de cero a Fisher de 0.995. Si lo vemos gráficamente:
Como nos podemos imaginar existen varias curvas Fisher, ya que ahora su forma
depende de dos variables que son los grados de libertad.
Ejemplos:
1. Encontrar el valor de F, en cada uno de los siguientes casos:
a. El área a la derecha de F, es de 0.25 con =4 y =9.
b. El área a la izquierda de F, es de 0.95 con =15 y =10.
c. El área a la derecha de F es de 0.95 con con =6 y =8.
d. El área a la izquierda de F, es de 0.10 con con =24 y
TRABAJO EN EQUIPO
ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIAS
MUESTRAS DE DATOS NUMÉRICOS
=24
Solución:
Como el área que da la tabla es de cero a Fisher, se tiene que localizar primero los
grados de libertad dos que son 9, luego un área de 0.75 con 4 grados de libertad uno.
En este caso se puede buscar el área de 0.95 directamente en la tabla con sus
respectivos grados de libertad.
Se tiene que buscar en la tabla un área de 0.05, puesto que nos piden un área a la
derecha de F de 0.95.
Se busca directamente el área de 0.10, con sus respectivos grados de libertad.
TRABAJO EN EQUIPO
ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIAS
MUESTRAS DE DATOS NUMÉRICOS
Si s1
2
y s2
2
son las varianzas muéstrales de muestras aleatorias independientes de
tamaños n1=10 y n2 =20, tomadas de poblaciones normales que tienen las mismas
varianzas, encuentre P(s1
2
/s2
2
2.42).
Solución:
Primero se establecen los grados de libertad. Como en el numerador está la población
uno y en el denominador la población dos, entonces los grados de libertad uno equivalen
a 10-1=9 y los grados de libertad dos a 20-1=19.
Se procede a ir a la tabla a buscar los grados de libertad dos que son 19 y se observa que
no están, por lo tanto se tiene que interpolar entre 15 y 20 grados de libertad, buscando el
valor de fisher que quedaría:
Este valor de 2.42 se busca en la columna de 9 grados de libertad uno, con 15 grados de
libertad dos, y se encuentra el siguiente:
Area
0.90 2.09
0.95 2.59
Al interpolar entre estos dos valores nos queda un área de 0.933.
Se procede a hacer lo mismo pero con 20 grados de libertad dos:
Area
0.95 2.39
0.975 2.84
TRABAJO EN EQUIPO
ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIAS
MUESTRAS DE DATOS NUMÉRICOS
Al interpolar entre estos dos valores nos queda un área de 0.9516.
Ahora ya se tienen las dos áreas referentes a los grados de libertad dos, por lo que se
interpolará para ver cuánto le corresponde a los grados libertad dos con un valor de 19.
Al interpolar nos queda que para 9 grados de libertad uno y 19 grados de
libertad dos con un valor de Fisher de 2.42 el área a la izquierda es de
0.9478.
Si s1
2
y s2
2
representan las varianzas de las muestras aleatorias independientes de
tamaño n1= 25 y n2 = 31, tomadas de poblaciones normales con varianzas 1
2
=10 y
2
2
= 15, respectivamente, encuentre P(s1
2
/s2
2
> 1.26).
Solución:
Calcular el valor de Fisher:
Luego se va a la tabla de Fisher a buscar 30 grados de libertad 2 con 24 grados de
libertad uno. Cuando se este en esta posición se busca adentro de la tabla el valor de
Fisher de 1.89. Al localizarlo y ver a la izquierda de este valor se obtiene un área de 0.95,
pero esta área correspondería a la probabilidad de que las relaciones de varianzas
muéstrales fueran menor a 1.26, por lo que se calcula su complemento que sería 0.05,
siendo esta la probabilidad de que s1
2
/s2
2
> 1.26.
Intervalo de Confianza para el Cociente de Varianzas de Dos Distribuciones Normales
Supóngase que se tienen dos poblaciones normales e independientes con varianzas
desconocidas 
2
y 2
2
, respectivamente. De este par de poblaciones, se tienen
disponibles dos muestras aleatorias de tamaños n1 y n2, respectivamente, sean s1
2
y s2
2
TRABAJO EN EQUIPO
Area
15 0.933
20 0.9516
ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIAS
MUESTRAS DE DATOS NUMÉRICOS
las dos varianzas muestrales. Se desea conocer un intervalo de confianza del 100(
) por ciento para el cociente de las dos varianzas, 1
2
/ 2
2
.
Para construir el intervalo de confianza para el cociente de dos varianzas poblacionales,
se coloca la varianza muestral mayor en el numerador del estadístico F.
Ejemplos:
Un fabricante de automóviles pone a prueba dos nuevos métodos de ensamblaje de
motores respecto al tiempo en minutos. Los resultados se muestran el la tabla:
Método 1 Método 2
n1 = 31 n2 = 25
s1
2
= 50 s2
2
= 24
Construya un intervalo de confianza del 90% para 1
2
/ 2
2
.
Solución:
Por la recomendación de que la varianza muestral mayor va en el numerador se tiene la
siguiente fórmula:
al despejar: .
F toma dos valores dependiendo del nivel de confianza y de los grados de libertad. En
este caso los grados de libertad uno valen 30 y los grados de libertad dos 24.
1.
2. y
4.6 COMPARACIONES DE DOS MUESTRAS PAREADAS
TRABAJO EN EQUIPO
ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIAS
MUESTRAS DE DATOS NUMÉRICOS
Una de las hipótesis sobre las que habitualmente se fundamentan las pruebas
estadísticas de comparación es que las observaciones pertenecientes a cada una de las
muestras son independientes entre sí, no guardan relación; siendo precisamente ese uno
de los objetivos de la aleatorización (elección aleatoria de los sujetos o unidades de
observación). Sin embargo, la falta de independencia entre las observaciones de los
grupos puede ser una característica del diseño del estudio para buscar fundamentalmente
una mayor eficiencia del contraste estadístico al disminuir la variabilidad. En otras
ocasiones con este tipo de diseño pareado lo que se busca es dar una mayor validez a las
inferencias obtenidas, controlando o eliminando la influencia de variables extrañas cuyo
efecto ya es conocido o sospechado, y no se desea que intervenga en el estudio actual
pudiendo enmascarar el efecto del tratamiento o de la variable de interés.
Las muestras apareadas se obtienen usualmente como distintas observaciones realizadas
sobre los mismos individuos. Un ejemplo de observaciones pareadas consiste en
considerar a un conjunto de n personas a las que se le aplica un tratamiento médico y se
mide por ejemplo el nivel de insulina en la sangre antes (X) y después del mismo (Y). En
este ejemplo no es posible considerar aX eY como variables independientes ya que va a
existir una dependencia clara entre las dos variables.
4.7 MODELO TOTALMENTE ALEATORIO: ANÁLISIS DE VARIANZA DE UN FACTOR.
Hay varias formas en las cuales puede diseñarse un experimento ANOVA. Quizás el más
común es el diseño completamente aleatorizado a una vía. El término proviene del hecho
que varios sujetos o unidades experimentales se asignan aleatoriamente a diferentes
niveles de un solo factor. Por ejemplo: varios empleados (unidades experimentales)
pueden seleccionarse aleatoriamente para participar en diversos tipos (niveles diferentes)
de un programa de capacitación (el factor).
El análisis de varianza se basa en una comparación de la cantidad de variación en cada
uno de los tratamientos. Si de un tratamiento al otro la variación es significativamente alta,
puede concluirse que los tratamientos tienen efectos diferentes en las poblaciones.
a. Esta variación entre el número total de las 14 observaciones. Esto se llama variación
total.
b. Existe variación entre los diferentes tratamientos (muestras). Esto se llama variación
entre muestras.
c. Existe variación dentro de un tratamiento dado (muestra). Esto se denomina
variación dentro de la muestra.
4.8 SELECCIÓN DEL TAMAÑO DE MUESTRA PARA ESTIMAR LA DIFERENCIA DE
DOS MEDIAS
En Estadística el tamaño de la muestra es el número de sujetos que componen la muestra
extraída de una población, necesarios para que los datos obtenidos sean representativos
de la población.
1. Estimar un parámetro determinado con el nivel de confianza deseado.
2. Detectar una determinada diferencia, si realmente existe, entre los grupos de
estudio con un mínimo de garantía.
3. Reducir costes o aumentar la rapidez del estudio.
Por ejemplo, en un estudio de investigación epidemiológico la determinación de un
tamaño adecuado de la muestra tendría como objetivo su factibilidad. Así:
Si el número de sujetos es insuficiente habría que modificar los criterios de selección,
solicitar la colaboración de otros centros o ampliar el periodo de reclutamiento. Los
TRABAJO EN EQUIPO
ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIAS
MUESTRAS DE DATOS NUMÉRICOS
estudios con tamaños muestrales insuficientes, no son capaces de detectar diferencias
entre grupos, llegando a la conclusión errónea de que no existe tal diferencia.
Si el número de sujetos es excesivo, el estudio se encarece desde el punto de vista
económico y humano. Además es poco ético al someter a más individuos a una
intervención que puede ser menos eficaz o incluso perjudicial.
El tamaño de una muestra es el número de individuos que contiene.
Una fórmula muy extendida que orienta sobre el cálculo del tamaño de la muestra para
datos globales es la siguiente:
n = ( (k^2) * N*p*q) / ( (e^2 * (N-1) )+( (k^2) * p*q))
N: es el tamaño de la población o universo (número total de posibles encuestados).
k: es una constante que depende del nivel de confianza que asignemos. El nivel de
confianza indica la probabilidad de que los resultados de nuestra investigación sean
ciertos: un 95,5 % de confianza es lo mismo que decir que nos podemos equivocar con
una probabilidad del 4,5%.
Los valores k más utilizados y sus niveles de confianza son:
K 1,15 1,28 1,44 1,65 1,96 2 2,58
Nivel de confianza 75% 80% 85% 90% 95% 95,5% 99%
(Por tanto si pretendemos obtener un nivel de confianza del 95% necesitamos poner en la
fórmula k=1,96)
e: es el error muestral deseado. El error muestral es la diferencia que puede haber entre
el resultado que obtenemos preguntando a una muestra de la población y el que
obtendríamos si preguntáramos al total de ella.
Ejemplos:
Ejemplo 1: si los resultados de una encuesta dicen que 100 personas comprarían un
producto y tenemos un error muestral del 5% comprarán entre 95 y 105 personas.
Ejemplo 2: si hacemos una encuesta de satisfacción a los empleados con un error
muestral del 3% y el 60% de los encuestados se muestran satisfechos significa que entre
el 57% y el 63% (60% +/- 3%) del total de los empleados de la empresa lo estarán.
Ejemplo 3: si los resultados de una encuesta electoral indicaran que un partido iba a
obtener el 55% de los votos y el error estimado fuera del 3%, se estima que el porcentaje
real de votos estará en el intervalo 52-58% (55% +/- 3%).
p: proporción de individuos que poseen en la población la característica de estudio. Este
dato es generalmente desconocido y se suele suponer que p=q=0.5 que es la opción más
segura.
q: proporción de individuos que no poseen esa característica, es decir, es 1-p.
n: tamaño de la muestra (número de encuestas que vamos a hacer).
Altos niveles de confianza y bajo margen de error no significan que la encuesta sea de
mayor confianza o esté más libre de error necesariamente; antes es preciso minimizar la
principal fuente de error que tiene lugar en la recogida de datos. Para calcular el tamaño
de la muestra suele utilizarse la siguiente fórmula:
Otra fórmula para calcular el tamaño de la muestra es:
n=(Nσ^2 Z^2)/((N-1) e^2+σ^2 Z^2 ) Donde: n = el tamaño de la muestra.
N = tamaño de la población.
TRABAJO EN EQUIPO
ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIAS
MUESTRAS DE DATOS NUMÉRICOS
σ= Desviación estándar de la población que, generalmente cuando no se tiene su valor,
suele utilizarse un valor constante de 0,5. Z = Valor obtenido mediante niveles de
confianza. Es un valor constante que, si no se tiene su valor, se lo toma en relación al
95% de confianza equivale a 1,96 (como más usual) o en relación al 99% de confianza
equivale 2,58, valor que queda a criterio del encuestador. e = Límite aceptable de error
muestral que, generalmente cuando no se tiene su valor, suele utilizarse un valor que
varía entre el 1% (0,01) y 9% (0,09), valor que queda a criterio del encuestador.
La fórmula anterior se obtiene de la fórmula para calcular la estimación del intervalo de
confianza para la media:
X -Z σ/√n̅ √((N-n)/(N-1))≤μ≤X +Z σ/√n √((N-n)/(N-1))̅
En donde el error es:
e=Z σ/√n √ ((N-n)/(N-1))
Elevando al cuadrado el error se tiene: 〖 (e) 〗 ^2=(Z σ/√n √((N-n)/(N-1)))^2 e^2=Z^2
σ^2/n (N-n)/(N-1)
Multiplicando fracciones: e^2= (〖Z^2 σ〗^2 (N-n))/n(N-1)
Eliminando denominadores: e^2 n(N-1)=〖Z^2 σ〗^2 (N-n)
Eliminando paréntesis: e^2 nN-e^2 n=〖Z^2 σ〗^2 N-〖Z^2 σ〗^2 n
Transponiendo n a la izquierda: e^2 nN-e^2 n+〖Z^2 σ〗^2 n=〖Z^2 σ〗^2 N
Factor común de n:
n(e^2 N-e^2+Z^2 σ^2 )=〖Z^2 σ〗^2 N
Despejando n:
n=(〖Z^2 σ〗^2 N)/(e^2 N-e^2+Z^2 σ^2 )
Ordenando se obtiene la fórmula para calcular el tamaño de la muestra:
n=(Nσ^2 Z^2)/((N-1) e^2+σ^2 Z^2 )
Ejemplo ilustrativo: Calcular el tamaño de la muestra de una población de 500 elementos
con un nivel de confianza del 99%
Solución: Se tiene N=500, para el 99% de confianza Z = 2,58, y como no se tiene los
demás valores se tomará σ=0,5, y e = 0,05.
Reemplazando valores en la fórmula se obtiene:
n=(Nσ^2 Z^2)/((N-1) e^2+σ^2 Z^2 )
n=(500∙ 〖 0,5 〗 ^2 〖 ∙ 2,58 〗 ^2)/((500-1) 〖 (±0,05) 〗 ^2+ 〖 0,5 〗 ^2∙ 〖 2,58 〗 ^2 )
=832,05/2,9116=285,77=286
Suponga que se tienen dos poblaciones distintas, la primera con media 1 y desviación
estándar 1, y la segunda con media 2 y desviación estándar 2. Más aún, se elige
una muestra aleatoria de tamaño n1 de la primera población y una muestra independiente
aleatoria de tamaño n2 de la segunda población; se calcula la media muestral para cada
muestra y la diferencia entre dichas medias. La colección de todas esas diferencias se
llama distribución muestral de las
TRABAJO EN EQUIPO
ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIAS
MUESTRAS DE DATOS NUMÉRICOS
Ejemplo: Si se tienen dos poblaciones con medias 1 y 2 y varianzas 1
2
y 2
2
,
respectivamente, un estimador puntual de la diferencia entre 1 y 2 está dado por la
estadística . Por tanto. Para obtener una estimación puntual de
1- 2, se seleccionan dos muestras aleatorias independientes, una de cada población,
de tamaño n1 y n2, se calcula la diferencia , de las medias muestrales.
Recordando a la distribución muestral de diferencia de medias:
Al despejar de esta ecuación 1- 2 se tiene:
En el caso en que se desconozcan las varianzas de la población y los tamaños de
muestra sean mayores a 30 se podrá utilizar la varianza de la muestra como una
estimación puntual.
Ejemplo: Se lleva a cabo un experimento en que se comparan dos tipos de motores, A y
B. Se mide el rendimiento en millas por galón de gasolina. Se realizan 50 experimentos
con el motor tipo A y 75 con el motor tipo B. La gasolina que se utiliza y las demás
condiciones se mantienen constantes. El rendimiento promedio de gasolina para el motor
A es de 36 millas por galón y el promedio para el motor B es 24 millas por galón.
Encuentre un intervalo de confianza de 96% sobre la diferencia promedio real para los
motores A y B. Suponga que las desviaciones estándar poblacionales son 6 y 8 para los
motores A y B respectivamente.
Solución:
Es deseable que la diferencia de medias sea positiva por lo que se recomienda restar la
media mayor menos la media menor. En este caso será la media del motor B menos la
media del motor A.
El valor de z para un nivel de confianza del 96% es de 2.05.
3.43< B- A<8.57
TRABAJO EN EQUIPO
ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIAS
MUESTRAS DE DATOS NUMÉRICOS
La interpretación de este ejemplo sería que con un nivel de confianza del 96% la
diferencia del rendimiento promedio esta entre 3.43 y 8.57 millas por galón a favor del
motor B. Esto quiere decir que el motor B da mas rendimiento promedio que el motor A,
ya que los dos valores del intervalo son positivos.
Una compañía de taxis trata de decidir si comprar neumáticos de la marca A o de la B
para su flotilla de taxis. Para estimar la diferencia de las dos marcas, se lleva a cabo un
experimento utilizando 12 de cada marca. Los neumáticos se utilizan hasta que se
desgastan, dando como resultado promedio para la marca A 36,300 kilómetros y para la
marca B 38,100 kilómetros. Calcule un intervalo de confianza de 95% para la diferencia
promedio de las dos marcas, si se sabe que las poblaciones se distribuyen de forma
aproximadamente normal con desviación estándar de 5000 kilómetros para la marca A y
6100 kilómetros para la marca B.
Solución:
-2662.68< B- A<6262.67
Gráficamente:
Como el intervalo contiene el valor "cero", no hay razón para creer que el promedio de
duración del neumático de la marca B es mayor al de la marca A, pues el cero nos está
indicando que pueden tener la misma duración promedio.
4.9 APLICACIONES
UNIDAD 5 PRUEBAS DE HIPOTESIS CON DOS MUESTRAS DATOS CATEGORICOS
Y VARIAS MUESTRAS CON DATOS CATEGORICOS.
Prueba De Hipótesis Para Proporciones
El concepto de prueba de hipótesis se puede utilizar para probar hipótesis en relación con
datos cualitativos. Por ejemplo, en el problema anterior el gerente de la fábrica de llantas
quería determinar la proporción de llantas que se reventaban antes de 10,000 millas. Este
TRABAJO EN EQUIPO
ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIAS
MUESTRAS DE DATOS NUMÉRICOS
es un ejemplo de una variable cualitativa, dado que se desea llegar a conclusiones en
cuanto a la proporción de los valores que tienen una característica particular.
El gerente de la fábrica de llantas quiere que la calidad de llantas producidas, sea lo
bastante alta para que muy pocas se revienten antes de las 10,000 millas. Si más de un
8% de las llantas se revientan antes de las 10,000 millas, se llegaría a concluir que el
proceso no funciona correctamente. La hipótesis nula y alternativa se pueden expresar
como sigue:
Ho: p .08 (funciona correctamente)
H1: p > .08 (no funciona correctamente)
La prueba estadística se puede expresar en términos de la proporción de éxitos como
sigue:
En donde
p = proporción de éxitos de la hipótesis nula
Ahora se determinará si el proceso funciona correctamente para las llantas producidas
para el turno de día. Los resultados del turno de día indican que cinco llantas en una
muestra de 100 se reventaron antes de 10,000 millas para este problema, si se selecciona
un nivel de significancia de .05, las regiones de rechazo y no rechazo se establecerían
como a continuación se muestra:
Y la regla de decisión sería:
Rechazar Ho si > + 1.645; de lo contrario no rechazar Ho.
Con los datos que se tienen,
= .05
Y entonces,
= −1.107
Z −1.107 < + 1.645; por tanto no rechazar Ho.
La hipótesis nula no se rechazaría por que la prueba estadística no ha caído en la región
de rechazo. Se llegaría a la conclusión de que no hay pruebas de que más del 8% de las
llantas producidas en el turno de día se revienten antes de 10,000 millas. El gerente no ha
encontrado ninguna prueba de que ocurra un número excesivo de reventones en las
llantas producidas en el turno de día.
Pruebas de hipótesis a partir de proporciones.
TRABAJO EN EQUIPO
ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIAS
MUESTRAS DE DATOS NUMÉRICOS
Las pruebas de hipótesis a partir de proporciones se realizan casi en la misma forma
utilizada cuando nos referimos a las medias, cuando se cumplen las suposiciones
necesarias para cada caso. Pueden utilizarse pruebas unilaterales o bilaterales
dependiendo de la situación particular.
La proporción de una población
Las hipótesis se enuncian de manera similar al caso de la media.
Ho: p = p0
H1: p ¹ p0
En caso de que la muestra sea grande n>30, el estadígrafo de prueba es:
Se distribuye normal estándar.
Regla de decisión: se determina de acuerdo a la hipótesis alternativa (si es bilateral o
unilateral), lo cual puedes fácilmente hacerlo auxiliándote de la tabla 4.4.1.
En el caso de muestras pequeñas se utiliza la distribución Binomial. No lo abordaremos
por ser complicado y poco frecuente su uso. Diferencia entre las proporciones de dos
poblaciones
La situación más frecuente es suponer que existen diferencias entre las proporciones de
dos poblaciones, para ello suelen enunciarse las hipótesis de forma similar al caso de las
medias:
Ho: p1 = p2 Þ p1 - p2 = 0
H1: p1 ¹ p2
Puede la hipótesis alternativa enunciarse unilateralmente.
El estadígrafo de prueba para el caso de muestras independientes:
Siendo a1 y a2, el número de sujetos con la característica objeto de estudio en las
muestras 1 y 2 respectivamente, es decir, en vez de calcular la varianza para cada
muestra, se calcula una p conjunta para ambas muestras bajo el supuesto que no hay
diferencias entre ambas proporciones y así se obtiene la varianza conjunta. Recuerda que
q = 1-p.
Está de más que te diga que este estadígrafo se distribuye normal estándar.
La regla de decisión se determina de manera similar a los casos ya vistos anteriormente.
El objetivo de la prueba es comparar estas dos proporciones, como estimadores
TRABAJO EN EQUIPO
ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIAS
MUESTRAS DE DATOS NUMÉRICOS
H1: p1 ¹ p2
Recuerda que la H1 también puede plantearse de forma unilateral.
5.1 PRUEBA Z PARA LA DIFERENCIA ENTRE DOS PROPORCIONES.
En algunos diseños de investigación, el plan muestral requiere seleccionar dos muestras
independientes, calcular las proporciones muestrales y usar la diferencia de las dos
proporciones para estimar o probar una diferencia entre las mismas.
Las aplicaciones son similares a la diferencia de medias, por ejemplo si dos empresas
consultoras ofrecen datos de proporciones de personas que van a votar por el PRI y al
hacer dos estudios diferentes salen resultados ligeramente diferentes ¿pero qué tanta
diferencia se requiere para que sea estadísticamente significativo? De eso se pruebas
estadísticas de diferencias de proporciones.
El estadístico Z para estos casos se calcula de la siguiente manera:
Ejemplo: Una muestra de 87 mujeres trabajadoras profesionales mostró que la cantidad
promedio que pagan a un fondo de pensión privado el 5% de su sueldo. Una muestra de
76 hombres trabajadores profesionales muestra que la cantidad que paga un fondo de
pensión privado es 6.1% de su sueldo. Un grupo activista de mujeres desea demostrar
que las mujeres no pagan tanto como los hombres en fondos de pensión privados. Si se
usa alfa = 0.01 ¿Se confirma lo que el grupo activista de mujeres desea demostrar o no?
Paso 1. Determinar la hipótesis Nula “Ho” y Alternativa “Ha”
Nótese que este problema es de una cola.
TRABAJO EN EQUIPO
ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIAS
MUESTRAS DE DATOS NUMÉRICOS
Ho: Lo que pagan las mujeres en el fondo de pensión es igual o mayor a lo que pagan
los hombres (algunos autores solo le colocan igual).
Ha: _______________________________________
(El estudiante debe describir la Ha)
La hipótesis alternativa es lo que las mujeres del grupo activista desean demostrar.
Paso 2.
Determinar el nivel de significancia. Definida por el analista, en este casi se desea usar α
= 0.01
Gráficamente el nivel de significancia se distribuye en la curva de distribución normal
como se muestra en la figura:
Paso 3.
Calcular los intervalos que implican ese nivel de significancia
Para dicho nivel de significancia el valor de Z es: Z=-2.326
Gráficamente queda de la siguiente manera:
TRABAJO EN EQUIPO
ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIAS
MUESTRAS DE DATOS NUMÉRICOS
Paso 4
TRABAJO EN EQUIPO
ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIAS
MUESTRAS DE DATOS NUMÉRICOS
Ejemplo: En un estudio de infección de vías urinarias no complicadas, los pacientes
fueron asignados para ser tratados con trimetoprim / sulfametoxazol o fosfomicina /
trometamol.
92% de los 100 tratados con fosfomicina/ trometamol mostraron curación bacteriológica
mientras que el 61% de los 100 manejados con trimetoprim / sulfametoxazol se curó la
infección.
Cuando comparamos proporciones de muestras independientes, debemos primero
calcular la diferencia en proporciones. El análisis para comparar dos proporciones
independientes es similar al usado para dos medias independientes. Calculamos un
intervalo de confianza y una prueba de hipótesis para la diferencia en proporciones.
La notación que usamos para el análisis de dos proporciones es el mismo que para una
proporción. Los números inferiores son para distinguir los dos grupos.
Parámetros Población
1 2
Muestra
1 2
Proporción π1 π2 p1 p2
TRABAJO EN EQUIPO
ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIAS
MUESTRAS DE DATOS NUMÉRICOS
Desviación
estándar
√π1(1-π2) √π2(1-
π2)
√p1(1-p1) √p2(1-
p2)
El cuadrado del error estándar de una proporción es conocido como la varianza de la
proporción La varianza de la diferencia entre las dos proporciones independientes es igual
a la suma de las varianzas de las dos proporciones de las muestras. Las varianzas son
sumadas debido a que cada muestra contribuye al error de muestreo en la distribución de
las diferencias.
ES = √p(1-p)/n Varianza = p(1-p)/n
p1(1- p1) p2(1- p2)
Varianza (p1-p2)= varianza de p1 + varianza de p2 = --------- + ----------
n1 n2
El error estándar de la diferencia entre dos proporciones es dado por la raíz cuadrada de
la varianza.
ES (p1-p2)= √[p1(1-p1)/n1 + p2(1-p2)/n2]
Para calcular el intervalo de confianza necesitamos conocer el error estándar de la
diferencia entre dos proporciones.
El error estándar de la diferencia entre dos proporciones es la combinación del error
estándar de las dos distribuciones independientes, ES (p1) y ES (p2).
Hemos estimado la magnitud de la diferencia de dos proporciones de las muestras; ahora
calcularemos el intervalo de confianza para esa estimación.
La fórmula general para el intervalo de confianza al 95% es:
Estimado ±1.96 x ES
La fórmula para 95% IC de dos proporciones sería:
(p1-p2) ± 1.96 ES(p1-p2)
En el estudio de infección de vías urinarias, la proporción en el grupo de fosfomicina/
trometamol fue 0.92 y para trimetoprim/ sulfametoxazol fue 0.61
Diferencia en proporciones = 0.92-0.61=0.31
ES = √[(0.92(1-0.92)/100 + 0.61(1-0.61)/100] = 0.056
El intervalo de confianza al 95% sería:
0.31 ± 1.96 (0.056) = 0.31±0.11 = 0.2 a 0.42
El intervalo de confianza al 95% sería:
1.96 (0.056) = 0.31±0.11 = 0.2 a 0.42
TRABAJO EN EQUIPO
ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIAS
MUESTRAS DE DATOS NUMÉRICOS
Tengo 95% de confianza de que la diferencia en las proporciones en la población estaría
entre 0.2 y 0.42. Como la diferencia no incluye 0, estamos confiados que en la población
la proporción de curados con fosfomicina/trometamol es diferente que con trimetoprim
sulfametoxazol.
Una prueba de hipótesis usa la diferencia observada y el error estándar de la diferencia.
Sin embargo, usamos un error estándar ligeramente diferente para calcular la prueba de
hipótesis. Esto se debe a que estamos evaluando la probabilidad de que los datos
observados asumen que la hipótesis nula es verdad. La hipótesis nula es que no hay
diferencia en las proporciones de las dos poblaciones y ambas grupos tienen una
proporción común, π.
El mejor estimado que podemos obtener de π es la proporción común, p, de las dos
proporciones de la muestra.
P=r1+r2/n1+n2
Donde:
r1 y r2 son los números de respuestas positivas en cada muestra
n1 y n2 son los tamaños de muestra en cada muestra.
La proporción común siempre estará entre las dos proporciones individuales.
El error estándar puede ser calculado sustituyendo p, por p1 y p2. ES(p1-p2)=√p(1-p)(1/n1
+1/n2) Esto se conoce como error estándar agrupado.
En el estudio de infección de vías urinarias, la proporción en el grupo de fosfomicina/
trometamol fue 0.92 y para trimetoprim/ sulfametoxazol fue 0.61 Fueron 100 intregrantes
en cada grupo.
Proporción común, p= 92 + 61/100+100 = 153/200 = 0.765
ES(p1-p2)=√0.77(1-0.77)(1/100 +1/100)= √0.1771 x 0.002 = 0.019
Si asumimos una aproximación a la Normalidad para la distribución Binomial, calculamos
la prueba de z , como antes. Para calcular la prueba de hipótesis, debemos:
1.- Señalar la hipótesis nula Ho
2.- Señalar la hipótesis alternativa H1
3.- Calcular la prueba de hipótesis z.
Hipótesis nula:
Cuando comparamos dos proporciones de poblaciones independientes es usualmente
que las dos proporciones son iguales.
Ho: π1 = π2
Es lo mismo que si la diferencia en las proporciones de las dos poblaciones es igual a 0.
Ho: π1 - π2 = 0
TRABAJO EN EQUIPO
ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIAS
MUESTRAS DE DATOS NUMÉRICOS
Hipótesis alternativa:
Es usualmente que las dos proporciones no son iguales.
H1: π1 ≠ π2
Es lo mismo que la diferencia en proporciones no es igual a cero.
H1: π1 – π2 ≠ 0
0.92 de éxito para fosfomicina / trometamol y 0.61 para trimetoprim / sulfametoxazol
ES = 0.019
(p1-p2) – 0 0.31 - 0
z= -------------- = -----------= 16.3
ES(p1-p2) 0.019
P<0.05
Rechazamos la hipótesis nula de que las dos proporciones son iguales y aceptamos la
hipótesis alternativa de que son diferentes.
5.2 PRUEBA PARA LA DIFERENCIA ENTRE DOS PROPORCIONES.
Las pruebas de hipótesis a partir de proporciones se realizan casi en la misma forma
utilizada cuando nos referimos a las medias, cuando se cumplen las suposiciones
necesarias para cada caso. Pueden utilizarse pruebas unilaterales o bilaterales
dependiendo de la situación particular.
La proporción de una población
Las hipótesis se enuncian de manera similar al caso de la media.
Ho: p = p0
H1: p ¹ p0
En caso de que la muestra sea grande n>30, el estadígrafo de prueba es: se distribuye
normal estándar.
Regla de decisión: se determina de acuerdo a la hipótesis alternativa (si es bilateral o
unilateral. En el caso de muestras pequeñas se utiliza la distribución Binomial. No lo
abordaremos por ser complicado y poco frecuente su uso.
Diferencia entre las proporciones de dos poblaciones
La situación más frecuente es suponer que existen diferencias entre las proporciones de
dos poblaciones, para ello suelen enunciarse las hipótesis de forma similar al caso de las
medias:
Ho: p1 = p2 Þ p1 - p2 = 0
TRABAJO EN EQUIPO
ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIAS
MUESTRAS DE DATOS NUMÉRICOS
H1: p1 ¹ p2
Puede la hipótesis alternativa enunciarse unilateralmente.
El estadígrafo de prueba para el caso de muestras independientes: donde
Siendo a1 y a2, el número de sujetos con la característica objeto de estudio en las
muestras 1 y 2 respectivamente, es decir, en vez de calcular la varianza para cada
muestra, se calcula una p conjunta para ambas muestras bajo el supuesto que no hay
diferencias entre ambas proporciones y así se obtiene la varianza conjunta. Recuerda que
q = 1-p.
Está de más que te diga que este estadígrafo se distribuye normal estándar.
La regla de decisión se determina de manera similar a los casos ya vistos anteriormente.
El objetivo de la prueba es comparar estas dos proporciones, como estimadores
H1: p1 ¹ p2
Recuerda que la H1 también puede plantearse de forma unilateral. En algunos diseños de
investigación, el plan muestral requiere seleccionar dos muestras independientes, calcular
las proporciones muéstrales y usar la diferencia de las dos proporciones para estimar
aprobar una diferencia entre las mismas .Las aplicaciones son similares a la diferencia de
medias, por ejemplo si dos empresas consultoras ofrecen datos de proporciones de
personas que van a votar por el PRI y al hacer dos estudios diferentes salen resultados
ligeramente diferentes ¿pero qué tanta diferencia se requiere para que sea
estadísticamente significativo? De eso se tratan las Pruebas estadísticas de diferencias
de proporciones.
Estimación de la Diferencia de dos Proporciones
En la sección anterior se vio el tema de la generación de las distribuciones muestrales, en
donde se tenía el valor de los parámetros, se seleccionaban dos muestras y podíamos
calcular la probabilidad del comportamiento de los estadísticos. Para este caso en
particular se utilizará la distribución muestral de diferencia de proporciones para la
estimación de las mismas. Recordando la formula:
Despejando P1-P2 de esta ecuación:
Aquí se tiene el mismo caso que en la estimación de una proporción, ya que al hacer el
despeje nos queda las dos proporciones poblacionales y es precisamente lo que
TRABAJO EN EQUIPO
ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIAS
MUESTRAS DE DATOS NUMÉRICOS
queremos estimar, por lo que se utilizarán las proporciones de la muestra como
estimadores puntuales:
Ejemplo: Se considera cierto cambio en un proceso de fabricación de partes
componentes. Se toman muestras del procedimiento existente y del nuevo para
determinar si éste tiene como resultado una mejoría. Si se encuentra que 75 de 1500
artículos del procedimiento actual son defectuosos y 80 de 2000 artículos del
procedimiento nuevo también lo son, encuentre un intervalo de confianza de 90% para la
diferencia real en la fracción de defectuosos entre el proceso actual y el nuevo.
Solución:
Sean P1 y P2 las proporciones reales de defectuosos para los procesos actual y nuevo,
respectivamente. De aquí, p1=75/1500 = 0.05 y p2 = 80/2000 = 0.04. con el uso de la tabla
encontramos que z para un nivel de confianza del 90% es de 1.645.
-0.0017<P1-P2<0.0217
Como el intervalo contiene el valor de cero, no hay razón para creer que el nuevo
procedimiento producirá una disminución significativa en la proporción de artículos
defectuosos comparado con el método existente.
Un artículo relacionado con la salud, reporta los siguientes datos sobre la incidencia de
disfunciones importantes entre recién nacidos con madres fumadoras de marihuana y de
madres que no la fumaban:
Usuaria No Usuaria
Tamaño Muestral 1246 11178
Número de
disfunciones
42 294
Proporción muestral 0.0337 0.0263
Encuentre el intervalo de confianza del 99% para la diferencia de proporciones.
Solución:
Representemos P1 la proporción de nacimientos donde aparecen disfunciones entre todas
las madres que fuman marihuana y definamos P2, de manera similar, para las no
fumadoras. El valor de z para un 99% de confianza es de 2.58.
TRABAJO EN EQUIPO
ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIAS
MUESTRAS DE DATOS NUMÉRICOS
-0.0064<P1-P2<0.0212
Este intervalo es bastante angosto, lo cual sugiere que P1-P2 ha sido estimado de manera
precisa.
Determinación de Tamaños de Muestra para Estimaciones
Al iniciar cualquier investigación, la primer pregunta que surge es: ¿de qué tamaño debe
ser la o las muestras?. La respuesta a esta pregunta la veremos en esta sección, con
conceptos que ya se han visto a través de este material.
EJEMPLO: Oficiales escolares comparan el coeficiente intelectual entre niños de dos
grupos.
De una muestra de 159 niños del grupo 1 78 califican con más de 100 puntos, de una
muestra de 250 niños del grupo 2 123 califican con más de 100 puntos.
Construya un intervalo de confianza par a la diferencia entre las dos proporciones del
grupo 1 y 2 de los niños con califican con más de 100.
Ejemplo: Algunas veces estamos interesados en analizar la diferencia entre las
proporciones de poblaciones de grupos con distintas características. Por ejemplo,
pensemos que la administración de las tiendas Oxxo cree, sobre la base de una
investigación, que el porcentaje de hombres que visitan sus tiendas 9 o más veces al mes
(clientes frecuentes) es mayor que el porcentaje de mujeres que hacen lo mismo. Las
especificaciones requeridas y el procedimiento para probar esta hipótesis es la siguiente:
1. Las hipótesis nula y alternativa son las siguientes:
TRABAJO EN EQUIPO
ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIAS
MUESTRAS DE DATOS NUMÉRICOS
0≤−= MHo PPH
, la proporción de hombres que reportan 9 o más visitas por mes
es la misma o menor que la proporción de mujeres que hacen lo mismo.
0>−= MHa PPH
, la proporción de hombres que reportan 9 o más visitas por mes
es mayor a la proporción de mujeres que hacen lo mismo.
La información proporcionada es:
45=Hn 71=Mn
58.=HP 42.=MP
16.42.58. =−=− MH PP
2. Especifica el nivel de significación de
05.=α
. El valor crítico para la prueba de
una sola cola es de 1.64.
3. Estima el error estándar de la diferencia de las dos proporciones:






+−=−
MH
p
nn
PPs mh
11
)1(
donde:
MH
MMHH
nn
PnPn
P
+
+
=
TRABAJO EN EQUIPO
ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIAS
MUESTRAS DE DATOS NUMÉRICOS
PH = proporción muestra de hombres (H)
PM = proporción muestra de mujeres (M)
NH = tamaño de muestra hombres
NM = tamaño de muestra mujeres
Por lo tanto:
48.0
7145
)42(.71)58(.45
=
+
+
=P
y
10.0
71
1
45
1
)48.1(48. =





+−=−mhps
4. Calcula de prueba estadística:
mhp
o
s
Hesproporcionentrediferenciaobservadasesproporcionentrediferencia
Z
−
−
=
)___()___(
60.1
10.
)0()42.58(.
=
−−
=Z
La hipótesis nula es aceptada porque el valor de la Z calculada es menor que el valor
crítico Z. La administración no puede concluir con un 95 por ciento de confianza que la
proporción de hombres que visita 9 o más veces los Oxxo es mayor que la proporción de
mujeres.
5.3 PRUEBA PARA LA DIFERENCIA EN n PROPORCIONES Z.
Una distribución poblacional representa la distribución de valores de una población y una
distribución muestral representa la distribución de los valores de una muestra. En
contraste con las distribuciones de mediciones individuales, una distribución muestral es
una distribución de probabilidad que se aplica a los valores posibles de una estadística
muestral. Así, la distribución muestral de la media es la distribución de probabilidad de los
valores posibles de la media muestral con base en un determinado tamaño de muestra.
Para cualquier tamaño de muestra dado n, tomado de una población con media , los
valores de la media muestralvarían de una muestra a otra. Esta variabilidad sirve de base
TRABAJO EN EQUIPO
ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIAS
MUESTRAS DE DATOS NUMÉRICOS
para la distribución muestral. La distribución muestral de la media se describe
determinando el valor esperado E () o media, de la distribución y la desviación estándar
de la distribución de las medias, . Como esta desviación estándar indica la precisión de la
media muestral como estimador puntual, por lo general se le denomina error estándar de
la media.
Ejemplo: Un fabricante de reproductores de discos compactos utiliza un conjunto de
pruebas amplias para evaluar la función eléctrica de su producto. Todos los reproductores
de discos compactos deben pasar todas las pruebas antes de venderse. Una muestra
aleatoria de 500 reproductores tiene como resultado 15 que fallan en una o más pruebas.
Encuentre un intervalo de confianza de 90% para la proporción de los reproductores de
discos compactos de la población que no pasan todas las pruebas.
Solución:
n=500
p = 15/500 = 0.03
z(0.90) = 1.645
0.0237<P<0.0376
Se sabe con un nivel de confianza del 90% que la proporción de discos
defectuosos que no pasan la prueba en esa población está entre 0.0237 y 0.0376.
Ejemplo: En una muestra de 400 pilas tipo B fabricadas por la Everlast Company, se
encontraron 20 defectuosas. Si la proporción p de pilas defectuosas en esa muestra se
usa para estimar P, que vendrá a ser la proporción verdadera de todas las pilas
defectuosas tipo B fabricadas por la Everlast Company, encuentre el máximo error de
estimación tal que se pueda tener un 95% de confianza en que P dista menos de
de p.
Solución:
p=x/n = 20/400=0.05
z(0.95)=1.96
Si p=0.05 se usa para estimar P,
podemos tener un 95% de confianza en que P dista menos de 0.021 de p. En otras
palabras, si p=0.05 se usa para estimar P, el error máximo de estimación será
aproximadamente 0.021 con un nivel de confianza del 95%
Para calcular el intervalo de confianza se tendría:
Esto da por resultado dos valores, (0.029, 0.071). Con un nivel de confianza del 95% se
sabe que la proporción de pulas defectuosas de esta compañía está entre 0.029 y 0.071.
TRABAJO EN EQUIPO
ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIAS
MUESTRAS DE DATOS NUMÉRICOS
Si se requiere un menor error con un mismo nivel de confianza sólo se necesita aumentar
el tamaño de la muestra.
5.4 PRUEBA DE INDEPENDENCIA (ji-CUADRADA).
Cuando comparamos dos situaciones podemos esperar que sean ya bien dependientes o
independientes esto quiere decir que pueden o no estar relacionados sus datos debido a
muchos factores que pueden influir en ellos o bien, un problema no tenga relación con
otro.
La prueba de independencia trata sobre esto, ya que su objetivo es determinar si alguna
situación es afectada por otra, basándose en datos estadísticos y valores probabilístico
obtenidos de la fabulación de datos o de pronósticos por medio de fórmulas y tablas, para
esto se basa en un nivel de significancia en un caso y en el otro a comparar, valiéndonos
de tablas de contingencia para obtener frecuencias esperadas y poder aplicarlas, para así
obtener datos comparativos que son determinantes en la decisión de independencia.
La estadística de prueba que será utilizada en la toma de una decisión acerca de la
hipótesis nula es ji cuadrado, X2
(X es la letra griega ji minúscula. Los valores de ji
cuadrado se obtienen con las siguientes formula:
X2
= Σ (Oi – ei)2
i ei
Grados de libertad
V = (r-1)*(c-1)
Frecuencia Esperada = Total de la columna * Total del renglón
Gran total
Características
X2
toma valores no negativos; es decir, puede ser cero o positiva.
X2
no es simétrica; es asimétrica hacia la derecha.
Existen muchas distribuciones X2
como en el caso de la distribución t, hay una
distribución, X2
diferente para cada valor de los grados de libertad.
Nos dan una tabla de contingencia.
Una tabla de contingencia es una disposición de datos en una clasificación de doble
entrada. Los datos se ordenan en celdas y se reporta él número de datos en cada una. En
la tabla de contingencia están implicados dos factores (o variables), y la pregunta común
en relación con tales tablas es si los datos indican que las dos variables son
independientes o dependientes.
Para ilustrar la utilización y análisis de una tabla de contingencia, considérese la
clasificación por sexo de los estudiantes de una escuela y su área académica favorita.
Ejemplo: Cada persona de un grupo de 300 estudiantes fue identificada como hombre o
mujer, preguntándosele si prefería recibir cursos en el área de matemáticas, ciencias
sociales o humanidades. La siguiente tabla es una de contingencia que indica las
frecuencias encontradas para esas categorías. ¿Presenta esta tabla la evidencia
suficiente para rechazar la hipótesis nula “la preferencia por las matemáticas, ciencias
sociales o humanidades es independiente del sexo de un alumno”, al nivel de significancia
del 0.05?
TRABAJO EN EQUIPO
ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIAS
MUESTRAS DE DATOS NUMÉRICOS
Solución:
Paso 1
Ho: La preferencia por matemáticas, ciencias sociales o humanidades es independiente
del sexo de los estudiantes de la escuela.
Ha: La preferencia por las áreas es no independiente del sexo de los estudiantes.
Pasó 2
Para determinar el valor crítico de la ji cuadrada debe conocerse los grados de libertad,
implicado. En el caso de tablas de contingencia, este número es exactamente el número
de celdas en la tabla que puede ser llenadas libremente cuando se conocen los totales.
Estos últimos se indican en la tabla siguiente.
122
178
72 113 115 300
Dados estos totales, solo pueden llenarse dos celdas antes que las restantes queden
determinadas. (por supuesto, los totales deben ser los mismos.) Por ejemplo, una vez que
se seleccionen dos valores arbitrarios (por ejemplo, 50 y 60) para las dos primeras
celdas de la primera fila (véase la tabla siguiente), quedan fijos los otros cuatro valores.
50 60 C 122
D E F 178
72 113 115 300
Dichos valores deben ser C=12, D=22, E=53 y F=103. De otra manera los totales no
serán correctos. En consecuencia, para este problema existen dos selecciones libres.
Cada una de estas corresponde a un grado de libertad. Así, el número de grados de
libertada en este ejemplo es 2 (v=2). Por esta razón, si se utiliza =0.05, el valor critico
es X2
(2, 0.05) = 6. Véase la siguiente figura.
Pasó 3
Antes de poder hallar el valor calculado de ji cuadrada, es necesario examinar los valores
esperados E para cada celda. Para tal fin debe recordarse la hipótesis nula, la cual
TRABAJO EN EQUIPO
ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIAS
MUESTRAS DE DATOS NUMÉRICOS
asevera que estos factores son independientes. En consecuencia, se espera que los
valores estén distribuidos en proporción a los totales marginales. Hay 122 hombres; se
espera que estén distribuidos entre M, CS y H proporcionalmente a los totales 72, 113 y
115. Así, para los hombres las cuentas esperadas de celda son:
72/300 x 122 113/300 x 122 115/300 x 122
Similarmente, se esperan:
72/300 x 178 113/300 x 178 115/300 x 178
Para las mujeres. Entonces los valores esperados son como se indica en la tabla
siguiente (siempre verifíquense los totales nuevos contra los antiguos.)
M CS H Total
29.28 45.95 46.77 122
42.72 67.05 68.23 178
Total 72.00 113.00 115.00 300.00
Nota
El cálculo de los valores esperados puede verse de manera alternativa. Recuérdese que
la hipótesis nula se supone cierta en tanto no haya evidencia para rechazarla. Habiendo
hecho este supuesto en el ejemplo, de hecho sé está afirmando que son independientes
los eventos un estudiante seleccionado aleatoriamente es hombre, y un estudiante
elegido al azar prefiere cursos de matemáticas. El estimador puntual para la probabilidad
de que un estudiante sea hombre es 122/300, y para la probabilidad de que un estudiante
prefiera los cursos de matemática es 72/300. En consecuencia, la probabilidad de que
ocurran ambos eventos es el producto de las probabilidades.
Para estudiar la dependencia entre la práctica de algún deporte y la depresión, se
seleccionó una muestra aleatoria simple de 100 jóvenes, con los siguientes resultados:
Sin depresión Con depresión
Deportista 38 9 47
No deportista 31 22 53
69 31 100
L = (38 – 32,43)2/32,43 + (31 – 36,57)2/36,57 + (9 – 14,57)2/14,57 + (22 – 16,43)2/16,43
= 0,9567 + 0,8484 + 2,1293 + 1,8883 = 5,8227
El valor que alcanza el estadístico L es 5,8227. Buscando en la tabla teórica de Chi
Cuadrado para 1 grado de libertad se aprecia Lt = 3,84146 < 5,8227 lo que permite
rechazar la hipótesis de independencia de caracteres con un nivel de significación del 5%,
admitiendo por tanto que la práctica deportiva disminuye el riesgo de depresión.
Ejemplo: Ilustraremos esta técnica con el estudio que realizó Cervecería Modelo, la cual
fabrica y distribuye tres tipos de cerveza: ligera, clara y oscura. En un análisis de
TRABAJO EN EQUIPO
ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIAS
MUESTRAS DE DATOS NUMÉRICOS
segmentación de mercado para las tres cervezas, el grupo de investigación encargado ha
planteado la duda de si la preferencia para las tres cervezas es diferente entre los
consumidores hombres y mujeres. Si la preferencia de las cervezas fuera independiente
del género del consumidor, se iniciaría una campaña de publicidad para todas las
cervezas Modelo. Sin embargo, si la preferencia depende del género del consumidor, se
ajustarían las promociones para tener en cuenta los distintos mercados meta.
Una prueba de independencia usa la pregunta de si la preferencia de la cerveza (ligera,
clara y oscura) es independiente del género del consumidor (hombre, mujer). Las
hipótesis para esta prueba de independencia son:
Ho: La preferencia de la cerveza es independiente del género del consumidor
Ha: La preferencia de la cerveza no es independiente del género del consumidor
Podemos usar una tabla como la 1 para describir el caso que se estudia. Después de
identificar a la población, consumidores hombres y mujeres, se puede tomar una muestra
y preguntar a cada persona que diga su preferencia entre las cervezas modelo.
Cada persona de la muestra se clasificará en una de las seis celdas de la tabla. Por
ejemplo una persona puede ser hombre y prefiera la cerveza clara [celda (1,2)], una mujer
que prefiere la cerveza ligera [celda (2,1)], una mujer que prefiere la cerveza oscura
[celda (2,3)] y así sucesivamente. Como en la lista aparecen todas las combinaciones
posibles de predilección de cerveza y género, en otras palabras aparecen todas las
contingencias
posibles, a la tabla se
le llama tabla de
contingencia.
Supongamos que se ha tomado una muestra aleatoria simple de 150 bebedores de
cerveza. Después de saborear cada una, se les pide expresar su preferencia o primera
alternativa. La tabulación cruzada de la siguiente tabla 2 resume las respuestas
obtenidas. Observamos que, los datos para la prueba de independencia se agrupan en
términos de cantidades o frecuencias para cada celda o categoría. De las 150 personas
de la muestra, 20 fueron hombres que prefirieron la cerveza ligera, 40 fueron mujeres que
prefirieron la cerveza clara, 20 fueron hombres que prefirieron la cerveza oscura, y así
sucesivamente.
Los datos de la tabla 2 constituyen las frecuencias observadas para las seis clases o
categorías.
TRABAJO EN EQUIPO
Cerveza preferida
Ligera Clara Oscura
Género Hombre Celda (1,1) Celda (1,2) Celda (1,3)
Mujer Celda (2,1) Celda (2,2) Celda (2,3)
ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIAS
MUESTRAS DE DATOS NUMÉRICOS
Si podemos determinar las
frecuencias esperadas bajo la
hipótesis de independencia entre la
preferencia de cerveza y el género
del consumidor, podemos usar la
distribución ji cuadrada para
determinar si existe una diferencia
significativa entre la frecuencia
observada y la esperada.
Las frecuencias esperadas en las celdas de la tabla de contingencia se basan en el
siguiente razonamiento. Primero suponemos que es verdadera la hipótesis nula, de
independencia entre la cerveza preferida y el género del consumidor. A continuación
observamos que en toda la muestra de 150 consumidores, hay 50 que prefieren la
cerveza ligera, 70 la cerveza clara y 30 la cerveza oscura. Expresada en fracción, la
conclusión es que de 50/150 = 1/3 de los consumidores de cerveza prefieren la ligera;
70/150 = 7/15 la clara y 30/150 = 1/5 la oscura. Si es válida la hipótesis de independencia,
decimos que estas fracciones se deben de aplicar por igual a los consumidores hombres y
mujeres. Así bajo la hipótesis de independencia, esperaríamos que la muestra de 80
consumidores hombres indicara que (1/3) 80 = 26.7 prefieren cerveza ligera, (7/15) 80 =
37.33 la clara y (1/5) 80 = 16 la oscura. La aplicación de las mismas fracciones a las 70
consumidoras mujeres produce las frecuencias esperadas que aparecen en la tabla.
Sea
ije
la frecuencia esperada en
la categoría del renglón i y la
columna j de la tabla de
contingencia. Con esta notación
reconsideremos el cálculo de la
frecuencia esperada para los
hombres (renglón i = 1) que
prefieren la cerveza clara (columna j
= 2) esto es, la frecuencia esperada
2,1e
. Apegándonos al esquema anterior para el cálculo de las frecuencias esperadas,
podemos demostrar que
2,1e
= (7/15) 80 = 37.33
Esta ecuación se puede escribir como sigue
2,1e
= (7/15) 80 = (70/150) 80 = 37.33
TRABAJO EN EQUIPO
Cerveza preferida
Género
Ligera Clara Oscura Total
Hombre 20 40 20 80
Mujer 30 30 10 70
Total 50 70 30 150
Cerveza preferida
Género
Ligera Clara Oscura Total
Hombre 26.67 37.33 16.00 80
Mujer 23.33 32.67 14.00 70
Total 50.00 70.00 30.00 150
ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIAS
MUESTRAS DE DATOS NUMÉRICOS
Observe que 80 es la cantidad total de hombres (total del renglón 1), 70 es la cantidad
total de individuos (hombres y mujeres) que prefieren la cerveza clara (total de la columna
2) y 150 es el tamaño de la muestra total. En consecuencia vemos
muestraladetamaño
columnaladetotalrenglóndeltotal
e
)2()1(
2,1 =
Al generalizar la ecuación vemos que la fórmula siguiente determina las frecuencias
esperadas de una tabla de contingencias para la prueba de independencia.
Frecuencias esperadas en la tabla de contingencia suponiendo independencia
muestraladetamaño
jcolumnaladetotalirenglóndelTotal
eij
)()(
=
El procedimiento de prueba para comparar frecuencias observadas con las frecuencias
esperadas, se parece a los cálculos de bondad de ajuste. Específicamente, el valor de
2
χ
basados en las frecuencias observadas y esperadas se calcula como sigue:
Oi = Valor observado en la i-ésimo celda.
Ei = Valor esperado en la i-ésimo celda.
K = Categorías o celdas.
Con n renglones y m columnas en la tabla de contingencia, el estadístico de prueba tiene
una distribución ji cuadrada con (n – 1) (m – 1) grados de libertad, siempre y cuando las
TRABAJO EN EQUIPO
[ ]
∑=
−
=
k
i e
eo
i
ii
f
ff
1
2
2
χ
ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIAS
MUESTRAS DE DATOS NUMÉRICOS
frecuencias esperadas sean 5 o más para todas las categorías. En consecuencia
proseguimos con el cálculo de la estadística de prueba ji cuadrada.
Los cálculos necesarios para determinar el estadística ji cuadrada y ver si la preferencia
de cerveza es independiente del género de quien la bebe se ven en la tabla.
La cantidad de grados de libertad para la distribución ji cuadrada adecuada se determina
multiplicando la cantidad de renglones menos 1 por la cantidad de columnas menos 1.
Como tenemos dos renglones y tres columnas, entonces (2 – 1) (3 – 1) = (1) (2) = 2
grados de libertad para la prueba de independencia entre cerveza y género del
consumidor. Con
α
= .05 como nivel de significancia de la prueba, buscamos en la tabla
de ji cuadrada y nos da un valor
2
05.χ
= 5.99. Observe que estamos usando el valor de la
cola superior, porque rechazaremos la hipótesis nula sólo si las diferencias entre
frecuencias observadas y esperadas producen un valor grande de
2
χ
. En el ejemplo
2
χ
=6.13 es mayor que
2
χ
= 5.99. Por consiguiente, rechazaremos la hipótesis nula de
independencia y concluimos que la, la preferencia cerveza preferida no es independiente
del género del consumidor, es decir para las tres cervezas es diferente entre los
consumidores hombres y mujeres y por lo tanto la Cervecería Modelo deberá estratificar a
los consumidores para ajustar las promociones y la publicidad, teniendo en cuenta estas
diferencias.
5.5 PRUEBAS DE CONTINGENCIA (ji-CUDRADA).
La prueba chi-cuadrado de contingencia sirve para comprobar la independencia de
frecuencias entre dos variables aleatorias, X e Y.
TRABAJO EN EQUIPO
Género Cerveza
of ef )( eo ff − 2
)( eo ff − ijeo eff /)( 2
−
Hombre ligera 20 26.67 -6.67 44.4889 1.66812523
Hombre clara 40 37.33 2.67 7.1289 0.19096973
Hombre Oscura 20 16 4 16 1
Mujer ligera 30 23.33 6.67 44.4889 1.90693956
Mujer clara 30 32.67 -2.67 7.1289 0.21820937
Mujer Oscura 10 14 -4 16 1.14285714
2
χ
6.12710104
ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIAS
MUESTRAS DE DATOS NUMÉRICOS
Las hipótesis contrastadas en la prueba son:
Hipótesis nula: X e Y son independientes.
Hipótesis alternativa: X e Y no son independientes (No importa cuál sea la relación que
mantengan ni el grado de esta.
La condición de independencia, tal como fue definida en la página anterior era: X e Y son
independientes si y sólo si para cualquier pareja de valores x e y la probabilidad de que X
tome el valor x e Y el valor y, simultáneamente, es igual al producto de las probabilidades
de que cada una tome el valor correspondiente.
Por tanto, todo lo que necesitamos serán unas estimas de las funciones de probabilidad
de ambas variables por separado (f(x) y f(y)) y de la función de probabilidad conjunta
(f(x,y))
Empezaremos la prueba tomando una muestra de parejas de valores sobre la que
contaremos la frecuencia absoluta con la que aparece cada combinación de valores (xi,yj)
o de grupos de valores (i,j) (Oij) La tabla siguiente, en la que se recogen estos datos, es
en realidad nuestra estimación de la función de probabilidad conjunta multiplicada por el
número total de datos (T).
Para obtener las estimas de las funciones de probabilidad marginales debemos sumar por
filas y por columnas los valores de las frecuencias conjuntas. Las sumas de filas (Fi) son,
en cada caso, el número de veces que hemos obtenido un valor de X (xi) en cualquier
combinación con distintos valores de Y, es decir, son nuestra estima de la función de
probabilidad de X multiplicada por el número total de observaciones; análogamente, las
sumas de columnas (Cj) son nuestra estima de la función de probabilidad de Y
multiplicada por el número total de observaciones.
El número total de observaciones lo podemos obtener como la suma de todas las
frecuencias observadas o, también, como la suma de las sumas de filas o de las sumas
de columnas:
TRABAJO EN EQUIPO
ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIAS
MUESTRAS DE DATOS NUMÉRICOS
Así pues, si las variables fueran independientes debería cumplirse que
Naturalmente, nadie espera que esta condición se cumpla exactamente debido al efecto
de los errores de muestreo aleatorio. Por tanto, nuestro problema consiste en distinguir
entre las diferencias producidas por efecto del muestreo y diferencias que revelen falta de
independencia.
Podemos convertir la ecuación anterior a frecuencias absolutas multiplicando por T:
Si X e Y son independientes, Oij debe ser igual a y, por tanto,
Bajo la hipótesis de independencia, es el valor esperado de Oij (Eij)
Tal como pasaba en la prueba anterior, si las variables son independientes, es decir, si las
frecuencias Eij son realmente los valores esperados de las frecuencias Oij, se puede
calcular un parámetro que depende de ambas que tiene distribución chi-cuadrado,
Por otra parte, si las variables no son independientes, las diferencias entre las series de
frecuencias observadas y esperadas serán mayores que las atribuibles al efecto del azar
y, al estar elevadas al cuadrado en el numerador de la expresión anterior, ésta tenderá a
ser mayor que lo que suele ser el valor de una variable chi-cuadrado.
Por tanto, el parámetro anterior ser el estadístico de la prueba de hipótesis y la región
crítica se encontrar siempre en la cola derecha de la distribución chi-cuadrado.
Nuevamente, esta prueba será siempre de una sola cola.
Estadístico de contraste
Se acepta la hipótesis nula si , el percentil 1 – α de la distribución chi-
cuadrado con grados de libertad.
TRABAJO EN EQUIPO
ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIAS
MUESTRAS DE DATOS NUMÉRICOS
Tal como ocurría en la prueba anterior lo corriente es que queramos demostrar que dos
variables son independientes, es decir, que, habitualmente, nos veremos obligados a
colocar nuestra hipótesis en la hipótesis nula. El número de grados de libertad de la chi-
cuadrado que sirve de contraste se calcula de la siguiente forma:
A priori tendremos tantos grados de libertad como combinaciones de valores xi, yj
tengamos (I J)
A este número tendremos que restarle I debido a que, para calcular las frecuencias
esperadas, necesitamos calcular las I sumas de filas en la tabla anterior. Conocidas las
sumas de filas obtenemos el número total de observaciones sin perder ningún grado de
libertad.
A continuación, necesitaremos calcular, a partir de las frecuencias observadas J - 1 de las
sumas de columnas; la restante podemos obtenerla restando la suma de las anteriores
del total de observaciones (T).
En resumen, el número de grados de libertad de la prueba es el producto del número de
filas menos uno por el número de columnas menos uno.
En cuanto a la magnitud mínima necesaria de las frecuencias observadas y esperadas,
rigen las mismas normas que en el caso de la prueba de ajuste. En este caso, si nos
viéramos obligados a juntar valores para sumar frecuencias, debemos unir columnas o
filas completas (y contiguas). Obviamente, los grados de libertad no deben calcularse
hasta que no se hayan realizado todas las agrupaciones necesarias y quede claro cuál es
el número de filas y columnas de la tabla definitiva.
Como hemos visto, esta prueba no hace ninguna suposición acerca del tipo de
distribución de ninguna de las variables implicadas y utiliza únicamente información de la
muestra, es decir, información contingente. Esta es la razón por la que, habitualmente, se
le llama chi-cuadrado de contingencia.
5.6 PRUEBAS DE BONDAD DE AJUSTE.
Las pruebas de bondad de ajuste tienen por objetivo determinar si los datos se ajustan a
una determinada distribución, esta distribución puede estar completamente especificada
(hipótesis simple) o perteneciente a una clase paramétrica (hipótesis compuesta).
Una hipótesis estadística se definió como una afirmación o conjetura acerca de la
distribución f(x,q) de una o más variables aleatorias. Igualmente se planteó que la
distribución podía tener uno o más parámetros desconocidos, que denotamos por q y que
la hipótesis se relaciona con este parámetro o conjunto de parámetros En otros casos, se
desconoce por completo la forma de la distribución y la hipótesis entonces se relaciona
con una distribución específica f(x,q) que podamos asignarle al conjunto de datos de la
muestra. El primer problema, relacionado con los parámetros de una distribución conocida
o supuesta es el problema que hemos analizado en los párrafos anteriores. Ahora
examinaremos el problema de verificar si el conjunto de datos se puede ajustar o afirmar
que proviene de una determinada distribución. Las pruebas estadísticas que tratan este
problema reciben el nombre general de “Pruebas de Bondad de Ajuste”.
Se analizarán dos pruebas básicas que pueden aplicarse: La prueba Chi - Cuadrado y la
prueba de Smirnov-Kolmogorov. Ambas pruebas caen en la categoría de lo que en
estadística se denominan pruebas de “Bondad de Ajuste” y miden, como el nombre lo
indica, el grado de ajuste que existe entre la distribución obtenida a partir de la muestra y
TRABAJO EN EQUIPO
ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIAS
MUESTRAS DE DATOS NUMÉRICOS
la distribución teórica que se supone debe seguir esa muestra. Ambas pruebas están
basadas en la hipótesis nula de que no hay diferencias significativas entre la distribución
muestral y la teórica. Ambas pruebas están basadas en las siguientes hipótesis:
H0: f(x,q) = f0(x,q)
H1: f(x,q) ¹ f0(x,q)
Donde f0(x, q) es la distribución que se supone sigue la muestra aleatoria. La hipótesis
alternativa siempre se enuncia como que los datos no siguen la distribución supuesta. Si
se desea examinar otra distribución específica, deberá realizarse de nuevo la otra prueba
suponiendo que la hipótesis nula es esta nueva distribución. Al especificar la hipótesis
nula, el conjunto de parámetros definidos por q puede ser conocido o desconocido. En
caso de que los parámetros sean desconocidos, es necesario estimarlos mediante alguno
de los métodos de estimación analizados con anterioridad.
Para formular la hipótesis nula deberán tenerse en cuenta los siguientes aspectos o
criterios:
a) La naturaleza de los datos a analizar. Por ejemplo, si tratamos de investigar la
distribución que siguen los tiempos de falla de unos componentes, podríamos pensar en
una distribución exponencial, o una distribución gama o una distribución Weibull, pero en
principio no consideraríamos una distribución normal. Si estamos analizando los caudales
de un río en un determinado sitio, podríamos pensar en una distribución logarítmica
normal, pero no en una distribución normal.
b) Histograma. La forma que tome el histograma de frecuencia es quizás la mejor
indicación del tipo de distribución a considerar.
5.7 APLICACIONES.
Para la ocurrencia de dos eventos, en la cual se desea observar si son dependientes o
independientes.
La distribución ji cuadrada sirve para todas las inferencias sobre la variancia de una
población.
Existen muchos problemas para los cuales los datos son categorizados y los resultados
expuestos en forma de conteos o cuentas.
Se pueden aplicar en: un conjunto de calificaciones de un examen final puede ser
representado como una distribución de frecuencias. Estos valores son cuentas: él numera
de datos que caen en cada celda.
En una encuesta determinada se podría preguntar a unas personas si votarían por los
candidatos A, B o C, por lo general, los resultados se indican en una gráfica que informa
acerca del número de votantes para cada categoría posible.
TRABAJO EN EQUIPO
ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIAS
MUESTRAS DE DATOS NUMÉRICOS
TRABAJO EN EQUIPO

Mais conteúdo relacionado

Mais procurados

Ingenieria economica cesar rincon.docx
Ingenieria economica   cesar rincon.docxIngenieria economica   cesar rincon.docx
Ingenieria economica cesar rincon.docxCésar Rincón S
 
UNIDAD V: ESTADÍSTICA NO PARAMÉTRICA
UNIDAD V: ESTADÍSTICA NO PARAMÉTRICAUNIDAD V: ESTADÍSTICA NO PARAMÉTRICA
UNIDAD V: ESTADÍSTICA NO PARAMÉTRICAFELIX Castro Garcia
 
U2 series de tiempo
U2 series de tiempoU2 series de tiempo
U2 series de tiempoALMAYUNIS1
 
Unidad IV, Control Del Proyecto
Unidad IV, Control Del ProyectoUnidad IV, Control Del Proyecto
Unidad IV, Control Del Proyectosixto perez
 
4.6 supuestosestadisticos
4.6 supuestosestadisticos4.6 supuestosestadisticos
4.6 supuestosestadisticosJassive Aguirre
 
Unidad 2-estudio-del-trabajo
Unidad 2-estudio-del-trabajoUnidad 2-estudio-del-trabajo
Unidad 2-estudio-del-trabajoLuis Vera Hdz
 
Análisis de series de tiempo
Análisis de series de tiempoAnálisis de series de tiempo
Análisis de series de tiempoIsaac Gomez
 
simulacion numeros pseudoaleatorios
simulacion numeros pseudoaleatoriossimulacion numeros pseudoaleatorios
simulacion numeros pseudoaleatoriosAnel Sosa
 
Unidad #5 MODELO CLÁSICO DE SERIES DE TIEMPO
Unidad #5 MODELO CLÁSICO DE SERIES DE TIEMPOUnidad #5 MODELO CLÁSICO DE SERIES DE TIEMPO
Unidad #5 MODELO CLÁSICO DE SERIES DE TIEMPOErick Cantona
 
Variables aleatorias
Variables aleatoriasVariables aleatorias
Variables aleatoriasTensor
 
Caracteristicas de un sistema de lineas de espera
Caracteristicas de un sistema de lineas de esperaCaracteristicas de un sistema de lineas de espera
Caracteristicas de un sistema de lineas de esperaAlberto Carranza Garcia
 
5a UNIDAD PRONÓSTICOS E INVENTARIOS
5a UNIDAD PRONÓSTICOS E INVENTARIOS5a UNIDAD PRONÓSTICOS E INVENTARIOS
5a UNIDAD PRONÓSTICOS E INVENTARIOSbonbombon
 
Unidad 2: Regresión lineal múltiple y correlación
Unidad 2: Regresión lineal múltiple y correlaciónUnidad 2: Regresión lineal múltiple y correlación
Unidad 2: Regresión lineal múltiple y correlaciónAlvaro Chavez
 

Mais procurados (20)

Ingenieria economica cesar rincon.docx
Ingenieria economica   cesar rincon.docxIngenieria economica   cesar rincon.docx
Ingenieria economica cesar rincon.docx
 
UNIDAD V: ESTADÍSTICA NO PARAMÉTRICA
UNIDAD V: ESTADÍSTICA NO PARAMÉTRICAUNIDAD V: ESTADÍSTICA NO PARAMÉTRICA
UNIDAD V: ESTADÍSTICA NO PARAMÉTRICA
 
U2 series de tiempo
U2 series de tiempoU2 series de tiempo
U2 series de tiempo
 
Unidad 4
Unidad 4Unidad 4
Unidad 4
 
Unidad IV, Control Del Proyecto
Unidad IV, Control Del ProyectoUnidad IV, Control Del Proyecto
Unidad IV, Control Del Proyecto
 
Entorno macroeconómico unidad 5
Entorno macroeconómico unidad 5Entorno macroeconómico unidad 5
Entorno macroeconómico unidad 5
 
4.6 supuestosestadisticos
4.6 supuestosestadisticos4.6 supuestosestadisticos
4.6 supuestosestadisticos
 
Unidad 2-estudio-del-trabajo
Unidad 2-estudio-del-trabajoUnidad 2-estudio-del-trabajo
Unidad 2-estudio-del-trabajo
 
Análisis de series de tiempo
Análisis de series de tiempoAnálisis de series de tiempo
Análisis de series de tiempo
 
Estadistica unidad 3
Estadistica unidad 3Estadistica unidad 3
Estadistica unidad 3
 
simulacion numeros pseudoaleatorios
simulacion numeros pseudoaleatoriossimulacion numeros pseudoaleatorios
simulacion numeros pseudoaleatorios
 
Unidad #5 MODELO CLÁSICO DE SERIES DE TIEMPO
Unidad #5 MODELO CLÁSICO DE SERIES DE TIEMPOUnidad #5 MODELO CLÁSICO DE SERIES DE TIEMPO
Unidad #5 MODELO CLÁSICO DE SERIES DE TIEMPO
 
Unidad 5
Unidad 5Unidad 5
Unidad 5
 
Serie de tiempo
Serie de tiempoSerie de tiempo
Serie de tiempo
 
Variables aleatorias
Variables aleatoriasVariables aleatorias
Variables aleatorias
 
Muestreo del-trabajo
Muestreo del-trabajo Muestreo del-trabajo
Muestreo del-trabajo
 
Caracteristicas de un sistema de lineas de espera
Caracteristicas de un sistema de lineas de esperaCaracteristicas de un sistema de lineas de espera
Caracteristicas de un sistema de lineas de espera
 
5a UNIDAD PRONÓSTICOS E INVENTARIOS
5a UNIDAD PRONÓSTICOS E INVENTARIOS5a UNIDAD PRONÓSTICOS E INVENTARIOS
5a UNIDAD PRONÓSTICOS E INVENTARIOS
 
Modelos de pronosticos e inventarios
Modelos de pronosticos e inventariosModelos de pronosticos e inventarios
Modelos de pronosticos e inventarios
 
Unidad 2: Regresión lineal múltiple y correlación
Unidad 2: Regresión lineal múltiple y correlaciónUnidad 2: Regresión lineal múltiple y correlación
Unidad 2: Regresión lineal múltiple y correlación
 

Semelhante a 82253086 unidad-iv-pruebas-de-hipotesis-con-dos-muestras-y-varias-muestras-de-datos-numericos

Bioestadistica Y EpidemiologíA
Bioestadistica Y EpidemiologíABioestadistica Y EpidemiologíA
Bioestadistica Y EpidemiologíAPaola Torres
 
Ccw Bioestadistica Y EpidemiologíA
Ccw   Bioestadistica Y EpidemiologíACcw   Bioestadistica Y EpidemiologíA
Ccw Bioestadistica Y EpidemiologíAguest1c2eca
 
Clase 2 estadistica
Clase 2 estadisticaClase 2 estadistica
Clase 2 estadisticasariuxtur
 
ESTADÍSTICA INFERENCIAL I.docx
ESTADÍSTICA INFERENCIAL I.docxESTADÍSTICA INFERENCIAL I.docx
ESTADÍSTICA INFERENCIAL I.docxAndreaPacheco95
 
Conceptos básicos de estadística
Conceptos básicos de estadísticaConceptos básicos de estadística
Conceptos básicos de estadísticaJavier Rodriguez
 
Expos. de seis estadísticos spss. karina lema
Expos. de seis estadísticos spss. karina lemaExpos. de seis estadísticos spss. karina lema
Expos. de seis estadísticos spss. karina lemaKarina Lema
 
Unidad #3 Clase 6 Analisis de Varianza ANOVA 1F.pptx
Unidad #3 Clase 6 Analisis de Varianza ANOVA 1F.pptxUnidad #3 Clase 6 Analisis de Varianza ANOVA 1F.pptx
Unidad #3 Clase 6 Analisis de Varianza ANOVA 1F.pptxNicki Nicole
 
Generalidades de la estadística
Generalidades de la estadísticaGeneralidades de la estadística
Generalidades de la estadísticaJenny HB
 
Estadistica descriptiva
Estadistica descriptivaEstadistica descriptiva
Estadistica descriptivajennypao39
 
presentacion estadistica
presentacion estadisticapresentacion estadistica
presentacion estadisticaluijo0215
 

Semelhante a 82253086 unidad-iv-pruebas-de-hipotesis-con-dos-muestras-y-varias-muestras-de-datos-numericos (20)

Bioestadistica Y EpidemiologíA
Bioestadistica Y EpidemiologíABioestadistica Y EpidemiologíA
Bioestadistica Y EpidemiologíA
 
Ccw Bioestadistica Y EpidemiologíA
Ccw   Bioestadistica Y EpidemiologíACcw   Bioestadistica Y EpidemiologíA
Ccw Bioestadistica Y EpidemiologíA
 
Clase 2 estadistica
Clase 2 estadisticaClase 2 estadistica
Clase 2 estadistica
 
Muestreo.
Muestreo.Muestreo.
Muestreo.
 
ESTADÍSTICA INFERENCIAL I.docx
ESTADÍSTICA INFERENCIAL I.docxESTADÍSTICA INFERENCIAL I.docx
ESTADÍSTICA INFERENCIAL I.docx
 
Contrastes de hipótesis estadísticas
Contrastes de hipótesis estadísticasContrastes de hipótesis estadísticas
Contrastes de hipótesis estadísticas
 
Inferencial
InferencialInferencial
Inferencial
 
Conceptos básicos de estadística
Conceptos básicos de estadísticaConceptos básicos de estadística
Conceptos básicos de estadística
 
Expos. de seis estadísticos spss. karina lema
Expos. de seis estadísticos spss. karina lemaExpos. de seis estadísticos spss. karina lema
Expos. de seis estadísticos spss. karina lema
 
MANUAL
MANUAL MANUAL
MANUAL
 
Spss la exposición
Spss la exposiciónSpss la exposición
Spss la exposición
 
Expos. de seis estadísticos. stalin goyes
Expos. de seis estadísticos. stalin goyesExpos. de seis estadísticos. stalin goyes
Expos. de seis estadísticos. stalin goyes
 
Expos. de seis estadísticos. stalin goyes
Expos. de seis estadísticos. stalin goyesExpos. de seis estadísticos. stalin goyes
Expos. de seis estadísticos. stalin goyes
 
Pruebas de hipótesis e inferencia estadística
Pruebas de hipótesis e inferencia estadísticaPruebas de hipótesis e inferencia estadística
Pruebas de hipótesis e inferencia estadística
 
Exposicion Tema Analisis De Datos
Exposicion Tema Analisis De DatosExposicion Tema Analisis De Datos
Exposicion Tema Analisis De Datos
 
Unidad #3 Clase 6 Analisis de Varianza ANOVA 1F.pptx
Unidad #3 Clase 6 Analisis de Varianza ANOVA 1F.pptxUnidad #3 Clase 6 Analisis de Varianza ANOVA 1F.pptx
Unidad #3 Clase 6 Analisis de Varianza ANOVA 1F.pptx
 
Generalidades de la estadística
Generalidades de la estadísticaGeneralidades de la estadística
Generalidades de la estadística
 
Estadistica descriptiva
Estadistica descriptivaEstadistica descriptiva
Estadistica descriptiva
 
presentacion estadistica
presentacion estadisticapresentacion estadistica
presentacion estadistica
 
Guia 1-estadistica
Guia 1-estadisticaGuia 1-estadistica
Guia 1-estadistica
 

82253086 unidad-iv-pruebas-de-hipotesis-con-dos-muestras-y-varias-muestras-de-datos-numericos

  • 1. ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIAS MUESTRAS DE DATOS NUMÉRICOS 4.1 INTRODUCCIÓN PRUEBAS DE HIPÓTESIS Introducción: Prueba de hipótesis En esta unidad nos concentraremos en la prueba de hipótesis, otro aspecto de la inferencia estadística que al igual que la estimación del intervalo de confianza, se basa en la información de la muestra. Se desarrolla una metodología paso a paso que le permita hacer inferencias sobre un parámetro poblacional mediante el análisis diferencial entre los resultados observados (estadístico de la muestra) y los resultados de la muestra esperados si la hipótesis subyacente es realmente cierta. En el problema de estimación se trata de elegir el valor de un parámetro de la población, mientras que en las pruebas de hipótesis se trata de decidir entre aceptar o rechazar un valor especificado (por ejemplo, si el nivel de centramiento de un proceso es o no lo es). Prueba de hipótesis: Estadísticamente una prueba de hipótesis es cualquier afirmación acerca de una población y/o sus parámetros. Una prueba de hipótesis consiste en contrastar dos hipótesis estadísticas. Tal contraste involucra la toma de decisión acerca de las hipótesis. La decisión consiste en rechazar o no una hipótesis en favor de la otra. Una hipótesis estadística se denota por “H” y son dos: - Ho: hipótesis nula - H1: hipótesis alternativa Partes de una hipótesis 1-La hipótesis nula “Ho” 2-La hipótesis alternativa “H1” 3-El estadístico de prueba 4-Errores tipo I y II 5- La región de rechazo (crítica) 6-La toma de decisión 1. Concepto: Una prueba de hipótesis estadística es una conjetura de una o más poblaciones. Nunca se sabe con absoluta certeza la verdad o falsedad de una hipótesis estadística, a no ser que se examine la población entera. Esto por su puesto sería impráctico en la mayoría de las situaciones. En su lugar, se toma una muestra aleatoria de la población de interés y se utilizan los datos que contiene tal muestra para proporcionar evidencia que confirme o no la hipótesis. La evidencia de la muestra que es un constante con la hipótesis planteada conduce a un rechazo de la misma mientras que la evidencia que apoya la hipótesis conduce a su aceptación. Definición de prueba de hipótesis estadística es que cuantifica el proceso de toma de decisiones. Por cada tipo de prueba de hipótesis se puede calcular una prueba estadística apropiada. Esta prueba estadística mide el acercamiento del calor de la muestra (como un promedio) a la hipótesis nula. La prueba estadística, sigue una distribución estadística bien conocida (normal, etc.) o se puede desarrollar una distribución para la prueba estadística particular. La distribución apropiada de la prueba estadística se divide en dos regiones: una región de rechazo y una de no rechazo. Si la prueba estadística cae en esta última región no se puede rechazar la hipótesis nula y se llega a la conclusión de que el proceso funciona correctamente. Al tomar la decisión con respecto a la hipótesis nula, se debe determinar el valor crítico en la distribución estadística que divide la región del rechazo (en la cual la hipótesis nula no se puede rechazar) de la región de rechazo. A hora bien el valor crítico depende del tamaño de la región de rechazo. 4.2 DISTRIBUCIÓN NORMAL Y DISTRIBUCIÓN T DE STUDENT TRABAJO EN EQUIPO
  • 2. ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIAS MUESTRAS DE DATOS NUMÉRICOS En estadística y probabilidad se llama distribución normal, distribución de Gauss o distribución gaussiana, a una de las distribuciones de probabilidad de variable continua que con más frecuencia aparece en fenómenos reales. La gráfica de su función de densidad tiene una forma acampanada y es simétrica respecto de un determinado parámetro. Esta curva se conoce como campana de Gauss. La importancia de esta distribución radica en que permite modelar numerosos fenómenos naturales, sociales y psicológicos. Mientras que los mecanismos que subyacen a gran parte de este tipo de fenómenos son desconocidos, por la enorme cantidad de variables incontrolables que en ellos intervienen, el uso del modelo normal puede justificarse asumiendo que cada observación se obtiene como la suma de unas pocas causas independientes. De hecho, la estadística es un modelo matemático que sólo permite describir un fenómeno, sin explicación alguna. Para la explicación causal es preciso el diseño experimental, de ahí que al uso de la estadística en psicología y sociología sea conocido como método correlacional. La distribución normal también es importante por su relación con la estimación por mínimos cuadrados, uno de los métodos de estimación más simples y antiguos. La distribución normal también aparece en muchas áreas de la propia estadística. Por ejemplo, la distribución muestral de las medias muéstrales es aproximadamente normal, cuando la distribución de la población de la cual se extrae la muestra no es normal.[1] Además, la distribución normal maximiza la entropía entre todas las distribuciones con media y varianza conocidas, lo cual la convierte en la elección natural de la distribución subyacente a una lista de datos resumidos en términos de media muestral y varianza. La distribución normal es la más extendida en estadística y muchos tests estadísticos están basados en una supuesta "normalidad". En probabilidad y estadística, la distribución t (de Student) es una distribución de probabilidad que surge del problema de estimar la media de una población normalmente distribuida cuando el tamaño de la muestra es pequeño. Aparece de manera natural al realizar la prueba t de Student para la determinación de las diferencias entre dos medias muestrales y para la construcción del intervalo de confianza para la diferencia entre las medias de dos poblaciones cuando se desconoce la desviación típica de una población y ésta debe ser estimada a partir de los datos de una muestra. La distribución t de Student es la distribución de probabilidad del cociente Donde • Z tiene una distribución normal de media nula y varianza 1 • V tiene una distribución chi-cuadrado con grados de libertad • Z y V son independientes TRABAJO EN EQUIPO
  • 3. ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIAS MUESTRAS DE DATOS NUMÉRICOS Si μ es una constante no nula, el cociente es una variable aleatoria que sigue la distribución t de Student no central con parámetro de no-centralidad μ. 4.3 PRUEBAS DE SIGNIFICANCIA Las pruebas de significancia estadística son un procedimiento que brinda un criterio objetivo para calificar las diferencias que se presentan al comparar los resultados de dos muestras, con el objetivo de explicar si dichas diferencias se mantienen dentro de los límites previstos por el diseño estadístico (un error y una confianza esperados) o si, por el contrario, la diferencia entre ellas resulta lo suficientemente grande como para inferir que ha ocurrido un cambio real en el indicador 4.4 COMPARACIÓN DE DOS MUESTRAS INDEPENDIENTES: PRUEBAS T PARA LAS DIFERENCIAS ENTRE NORMALES. Para comparar las medias de dos muestras aleatorias procedentes de dos poblaciones normales e independientes, se utiliza el procedimiento Prueba T para muestras independientes, y para ello, se selecciona: A continuación se abre una ventana con los siguientes campos: Contrastar variables: donde se han de introducir las variables que se van a analizar, es decir, aquellas variables sobre las que se va a contrastar si hay o no, diferencias de grupos. Variable de agrupación: aquí se debe introducir la variable que se utiliza para definir los grupos de sujetos sobre los que se estudian las diferencias. Entonces el sistema activa el botón definir grupos y al presionarlo aparece una ventana donde se introducen los valores de la variable que definen los dos grupos de sujetos a comparar, o el valor de la variable que hará de corte para definir dichos grupos. Si el valor de la variable para un individuo es menor o igual que el valor especificado, el individuo pertenecerá al primer grupo, y en caso contrario, al segundo. Opciones: presionando este botón se obtiene una ventana donde se especifica igual que en la sección anterior el nivel de confianza para el intervalo y la forma de tratar los valores missing. Ejemplo: Vamos a comprobar si existen diferencias significativas entre los tiempos medios de dedicación a la docencia, para los profesores asociados y los titulares de TRABAJO EN EQUIPO
  • 4. ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIAS MUESTRAS DE DATOS NUMÉRICOS universidad de Profesores2.sav. Para ello, seleccionamos el procedimiento Prueba T para muestras independientes, y elegimos la variable Tiemdoc para llevarla al campo contrastar variables. Seguidamente seleccionamos como variable agrupación la variable categoría, presionamos el botón definir grupos, y tecleamos un 1 en el primer grupo y un 3 en el segundo. Por último pulsamos continuar y aceptar para ejecutar el procedimiento. El resultado que muestra la Tabla contiene dos tablas. La primera recoge para ambos grupos, profesores asociados y titulares de universidad, el número de casos en cada muestra, los tiempos medios dedicados a la docencia, las desviaciones típicas y los errores típicos de la media. La segunda tabla muestra el valor del estadístico para la prueba de Levene sobre la igualdad de varianzas, junto con su p-valor. Este se distribuye como una F de Snedecor y vale 0.808, mientras que su p-valor 0.373, lo que nos conduce a aceptar que las varianzas sean iguales, ya que el p-valor es mayor que 0.05. También aparece en la tabla el valor del estadístico para resolver el contraste de igualdad de medias, supuesto varianzas iguales y distintas, (en ambos casos se distribuye como una t de Student), junto con los correspondientes grados de libertad y sus p-valores. Puesto que hemos concluido que las varianzas coinciden, fijémonos en el que se han asumido varianzas iguales, el cual vale 8.661, y cuyo p-valor es 0, luego se rechaza que las medias coincidan. Razonamiento que también se puede deducir del intervalo de confianza, que no contiene el cero. Tabla : Contraste sobre las Medias de dos Poblaciones Independientes Prueba T Estadísticos de Grupo Desviación Error típ. de Categoría N Media típ. la media Tiempo diario 1 29 251,3759 29,36731 5,4534 para la docencia 3 23 187,1000 22,5337 4,6986 Prueba de muestras independientes Prueba de Levene para la igualdad Prueba T para la igualdad de medias de varianzas F Sig. t gl Sig. bilater al Diferenci a de medias Error típico de la diferenci a Intervalo de confianza para la diferencia Inferior Superio r Tiempo Asumiend o 0.80 8 0,37 3 8,66 1 50 0.000 64,2759 7,4209 49,370 4 79,181 3 diario varianzas iguales para la No Asumiend 8,92 9 49,96 1 0.000 64,2759 7,1983 49,817 3 78,734 5 TRABAJO EN EQUIPO
  • 5. ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIAS MUESTRAS DE DATOS NUMÉRICOS o docenci a varianzas iguales En muchos estudios, incluidos la mayoría de los ensayos clínicos, es necesario comparar ciertas características en dos o más grupos de sujetos. Tal sería el caso, por ejemplo, si pensamos que un tratamiento nuevo puede tener un porcentaje de mejoría mayor que otro estándar, o cuando nos planteamos si los niños de las distintas comunidades autónomas tienen o no la misma altura. En este artículo se analizará únicamente el problema de la comparación de dos grupos con respecto a una variable continua. La elección de un método de análisis apropiado en este caso dependerá de la naturaleza de los datos y la forma en la que estos hayan sido obtenidos. Fundamentalmente, cuando se comparan dos o más grupos de observaciones pueden darse dos tipos de diseño: aquel en el que las observaciones se refieren a dos grupos independientes de individuos, o el caso en el que cada serie de datos se recoge en los mismos sujetos bajo condiciones diferentes. El tipo de metodología será distinto según el caso en el que nos encontremos. Otro aspecto a tener en consideración será el tipo y distribución de los datos. Para grupos independientes, los métodos paramétricos requieren que las observaciones en cada grupo provengan de una distribución aproximadamente normal con una variabilidad semejante, de modo que si los datos disponibles no verifican tales condiciones, puede resultar útil una transformación1,2,3 de los mismos (aplicación del logaritmo, raíz cuadrada, etc.) o, en todo caso, se debería recurrir a la utilización de procedimientos no paramétricos4 . Normalmente en este tipo de análisis podremos establecer una hipótesis de partida (hipótesis nula), que generalmente asume que el efecto de interés es nulo, por ejemplo que la tensión arterial es la misma en hombres y mujeres o que dos tratamientos para la hipercolesterolemia son igualmente efectivos. Posteriormente se puede evaluar la probabilidad de haber obtenido los datos observados si esa hipótesis es correcta. El valor de esta probabilidad coincide con el valor-p que nos proporciona cada test estadístico, de modo que cuanto menor sea éste más improbable resulta que la hipótesis inicial se verifique. En un primer apartado, se presentará el test t de Student para dos muestras independientes, introduciendo las modificaciones necesarias en el caso de que la variabilidad de ambos grupos sea distinta. A continuación se introducirá el test t de Student para el caso de dos muestras dependientes. t de Student para dos muestras independientes Uno de los análisis estadísticos más comunes en la práctica es probablemente el utilizado para comparar dos grupos independientes de observaciones con respecto a una variable numérica. Como ejemplo, consideremos los datos que se muestran en la Tabla 1, correspondientes a 75 individuos con sobrepeso sometidos a dos dietas alimenticias distintas, de modo que se desea comparar el peso de los individuos que iniciaron cada una de las dietas. Como ya se ha adelantado, la aplicación de un contraste paramétrico requiere la normalidad de las observaciones para cada uno de los grupos. La comprobación de esta hipótesis puede realizarse tanto por métodos gráficos (por medio de histogramas, diagramas de cajas o gráficos de normalidad) como mediante tests estadísticos5 (test de Kolmogorov-Smirnov, test de Shapiro-Wilks). Un número suficiente de observaciones (digamos mayor de 30) como ocurre en el ejemplo planteado justifica, no obstante, la utilización del mismo test. Así mismo, este tipo de metodología exigirá que la varianza en ambos grupos de observaciones sea la misma. En primer lugar se desarrollará el test t de TRABAJO EN EQUIPO
  • 6. ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIAS MUESTRAS DE DATOS NUMÉRICOS Student para el caso en el que se verifiquen ambas condiciones, discutiendo posteriormente el modo de abordar formalmente el caso en el que las varianzas no sean similares. Bajo las hipótesis de normalidad e igual varianza la comparación de ambos grupos puede realizarse en términos de un único parámetro como el valor medio (Figura 1a), de modo que en el ejemplo planteado la hipótesis de partida será, por lo tanto: H0: La media de peso inicial es igual en ambos grupos Se denotará por {X1, X2,...,Xn} e {Y1,Y2,...,Ym} al peso observado en cada uno de los sujetos sometidos a la dieta A y a la dieta B respectivamente. En general no se exigirá que coincida el número de observaciones en cada uno de los grupos que se comparan, de modo que en el ejemplo n=40 y m=35. El t test para dos muestras independientes se basa en el estadístico: (1) Donde e denotan el peso medio en cada uno de los grupos: y , las cuasi varianzas muéstrales correspondientes: Con lo cual, en este caso particular, el valor utilizado para el contraste será: Si la hipótesis de partida es cierta el estadístico (1) seguirá una distribución t de Student con n+m-2 grados de libertad. De ser así, el valor obtenido debería estar dentro del rango de mayor probabilidad según esta distribución. Usualmente se toma como referencia el rango de datos en el que se concentra el 95% de la probabilidad. El valor-p que usualmente reportan la mayoría de paquetes estadísticos no es más que la probabilidad de obtener, según esa distribución, un dato más extremo que el que proporciona el test. Como ya se dijo, refleja también la probabilidad de obtener los datos observados si fuese TRABAJO EN EQUIPO
  • 7. ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIAS MUESTRAS DE DATOS NUMÉRICOS cierta la hipótesis inicial. Si el valor-p es muy pequeño (usualmente se considera p<0.05) es poco probable que se cumpla la hipótesis de partida y se debería de rechazar. La región de aceptación corresponde por lo tanto a los valores centrales de la distribución para los que p>0.05. En el ejemplo planteado el valor-p correspondiente es de 0.425, de modo que no existe evidencia estadística de que el peso medio en ambos grupos sea diferente. En la Tabla 2, se determina los grados de libertad (en la primera columna) y el valor de α (en la primera fila). El número que determina su intersección es el valor crítico correspondiente. De este modo, si el estadístico que se obtiene toma un valor mayor se dirá que la diferencia es significativa. Otro modo de obtener esta misma información es mediante el cálculo de intervalos de confianza para la diferencia de la respuesta media en ambos grupos. A mayores, el intervalo de confianza constituye una medida de la incertidumbre con la que se estima esa diferencia a partir de la muestra, permitiendo valorar tanto la significación estadística como la magnitud clínica de esa diferencia6 . En el caso que nos ocupa, el intervalo de confianza vendrá dado como: Donde denota el valor que según la distribución t de Student con n+m-2 grados de libertad deja a su derecha el 2.5% de los datos. En el ejemplo, el intervalo de confianza con una seguridad del 95% para la diferencia de peso viene dado por: Que expresa en definitiva un rango de valores entre los que se puede encontrar el valor real de la diferencia entre los pesos de ambos grupos. Proporciona además la misma información que obteníamos del contraste estadístico. El hecho de que el valor cero pertenezca al intervalo indica que no se dispone de evidencia para concluir que el peso sea distinto en ambos grupos. A medida que el tamaño muestral aumenta, la distribución del estadístico (1) se hace más próxima a la de una variable Normal estándar. De este modo, en algunos textos se opta por utilizar esta distribución para realizar la comparación de medias. Aunque esta aproximación es correcta para muestras suficientemente grandes, ambos métodos proporcionan en este caso resultados prácticamente idénticos, por lo que resulta más simple utilizar, independientemente del tamaño de la muestra, la misma metodología a partir de la distribución t. El mismo planteamiento podría utilizarse en el caso de varianzas distintas o de muestras apareadas. Dos muestras dependientes Ya se ha comentado que cuando se trata de comparar dos grupos de observaciones, es importante distinguir el caso en el que son independientes de aquel en el que los datos están apareados. Las series dependientes surgen normalmente cuando se evalúa un mismo dato más de una vez en cada sujeto de la muestra. También se puede encontrar este tipo de observaciones en estudios de casos y controles donde cada caso se aparea individualmente con un control. Supongamos que queremos comprobar, en los datos de la Tabla 1 si realmente se produce una pérdida de peso significativa en esos individuos, para lo que se recoge en TRABAJO EN EQUIPO
  • 8. ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIAS MUESTRAS DE DATOS NUMÉRICOS cada sujeto su peso antes y después de someterse a la dieta. En este tipo de análisis el interés no se centra en la variabilidad que puede haber entre los individuos, sino en las diferencias que se observan en un mismo sujeto entre un momento y otro. Por este motivo, resulta intuitivo trabajar con la diferencia de ambas observaciones (en el ejemplo será la pérdida de peso), de modo que se quiere contrastar la hipótesis: H0: La pérdida de peso es nula frente a la alternativa de que la pérdida de peso sea importante (es decir, distinta de cero). La veracidad de dicha hipótesis puede ser contrastada igualmente mediante el test t de Student. Como se ha dicho, este tipo de métodos tienen como hipótesis fundamental la normalidad de los datos. En este caso, sin embargo, no será necesario que las observaciones en ambos grupos provengan de poblaciones normales, sino que únicamente se requiere verificar la normalidad de su diferencia. Denotando por la pérdida media de peso la hipótesis de la que se parte es que: frente a la alternativa A partir de las observaciones muéstrales {Y1,Y2,..., Yn} e {Y1,Y2,...,Yn} en cada uno de los grupos se calcula la diferencia de peso para cada sujeto {d1,d2,...,dn} con dj=Xj-Yj j=1,2,...,n. Nótese que en este caso un requisito fundamental es que se tenga un número igual de observaciones en ambos grupos. A partir de estos datos, el contraste se basa en el estadístico: o en el cálculo del 95% intervalo de confianza: Donde denota la media de la pérdida de peso estimada a partir de la muestra: y denota la cuasi varianza muestral de la diferencia dada por: En nuestro ejemplo el valor del estadístico vendría dado por: TRABAJO EN EQUIPO
  • 9. ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIAS MUESTRAS DE DATOS NUMÉRICOS a comparar del modo habitual con la distribución t de Student con n-1=74 grados de libertad. El intervalo de confianza para la pérdida media de peso correspondiente a una seguridad del 95% es de (3.56;4.41), lo cual se traduce en una pérdida de peso significativamente distinta de cero, tal y como indica el valor-p correspondiente de p<0.001. Figura 1. Comparación de dos poblaciones normales a) Poblaciones normales con igual varianza y medias distintas b) Poblaciones normales con igual y diferentes varianzas. Figura 2. Regiones de aceptación y rechazo en el contraste de hipótesis TRABAJO EN EQUIPO
  • 10. ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIAS MUESTRAS DE DATOS NUMÉRICOS Tabla 1. Datos de 75 pacientes con sobrepeso sometidos a dos dietas alimenticias. Dieta Peso inicial Peso final Dieta Peso inicial Peso final A 94,07 86,59 B 88,02 84,12 A 96,79 93,08 B 88,22 86,13 A 92,15 87,85 B 103,45 101,21 A 92,30 86,83 B 82,94 79,08 A 96,50 92,70 B 89,71 86,19 A 83,11 76,80 B 94,83 91,93 A 91,16 83,40 B 81,93 78,97 A 90,81 86,74 B 83,41 78,89 A 81,37 77,67 B 73,59 69,76 A 89,81 85,70 B 108,47 104,20 A 84,92 79,96 B 72,67 70,01 TRABAJO EN EQUIPO
  • 11. ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIAS MUESTRAS DE DATOS NUMÉRICOS A 84,43 79,80 B 96,84 93,66 A 86,33 81,15 B 88,48 87,00 A 87,60 81,92 B 89,57 87,24 A 81,08 76,32 B 85,22 82,09 A 92,07 90,20 B 103,76 102,24 A 81,14 73,34 B 87,84 84,66 A 96,87 93,58 B 91,50 88,95 A 99,59 92,36 B 93,04 88,73 A 83,90 77,23 B 92,14 88,07 A 89,41 85,45 B 85,26 81,36 A 85,31 84,59 B 89,42 86,64 A 89,25 84,89 B 92,42 88,99 A 93,20 93,10 B 93,13 89,73 A 89,17 86,87 B 80,86 77,81 A 93,51 86,36 B 88,75 85,93 A 88,85 83,24 B 95,02 91,90 A 88,40 81,20 B 92,29 91,28 A 82,45 77,18 B 89,43 87,22 A 96,47 88,61 B 93,32 89,77 A 99,48 94,67 B 92,88 89,38 A 99,95 93,87 B 89,88 88,00 A 100,05 94,15 B 82,25 80,81 A 87,33 82,17 B 88,99 86,87 A 87,61 86,01 B 82,07 79,74 TRABAJO EN EQUIPO
  • 12. ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIAS MUESTRAS DE DATOS NUMÉRICOS A 89,28 83,78 A 89,72 83,56 A 95,57 89,58 A 97,71 91,35 A 98,73 97,82 4.5 PRUEBA DE FISHER PARA VARIANZAS Y DE IGUALDAD DE LAS VARIANZAS DE DOS POBLACIONES NORMALES. La necesidad de disponer de métodos estadísticos para comparar las varianzas de dos poblaciones es evidente a partir del análisis de una sola población. Frecuentemente se desea comparar la precisión de un instrumento de medición con la de otro, la estabilidad de un proceso de manufactura con la de otro o hasta la forma en que varía el procedimiento para calificar de un profesor universitario con la de otro. Intuitivamente, podríamos comparar las varianzas de dos poblaciones, y , utilizando la razón de las varianzas muestrales s2 1/s2 2. Si s2 1/s2 2 es casi igual a 1, se tendrá poca evidencia para indicar que y no son iguales. Por otra parte, un valor muy grande o muy pequeño para s2 1/s2 2, proporcionará evidencia de una diferencia en las varianzas de las poblaciones. La variable aleatoria F se define como el cociente de dos variables aleatorias ji-cuadrada independientes, cada una dividida entre sus respectivos grados de libertad. Esto es, Donde U y V son variables aleatorias ji-cuadrada independientes con grados de libertad y  respectivamente. Sean U y V dos variables aleatorias independientes que tienen distribución ji cuadradas con grados de libertad, respectivamente. Entonces la distribución de la variable aleatoria está dada por: TRABAJO EN EQUIPO
  • 13. ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIAS MUESTRAS DE DATOS NUMÉRICOS y se dice que sigue la distribución F con grados de libertad en el numerador y grados de libertad en el denominador. La media y la varianza de la distribución F son: para para La variable aleatoria F es no negativa, y la distribución tiene un sesgo hacia la derecha. La distribución F tiene una apariencia muy similar a la distribución ji-cuadrada; sin embargo, se encuentra centrada respecto a 1, y los dos parámetros proporcionan una flexibilidad adicional con respecto a la forma de la distribución. Si s1 2 y s2 2 son las varianzas muéstrales independientes de tamaño n1 y n2 tomadas de poblaciones normales con varianzas   y   , respectivamente, entonces: Para manejar las tablas de Fisher del libro de Introducción a la Inferencia Estadística del autor Güenther, se tendrá que buscar primero los grados de libertad dos para luego localizar el área correspondiente, relacionándola con los grados de libertad uno, para calcular el valor de F. Las tablas tienen la siguiente estructura: TRABAJO EN EQUIPO
  • 14. ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIAS MUESTRAS DE DATOS NUMÉRICOS P 1 2 3 ……. ….. 500 … 6 0.0005 0.001 0.005 . . 0.9995 30.4 El valor de 30.4 es el correspondiente a una Fisher que tiene 3 grados de libertad uno y 6 grados de libertad dos con un área de cero a Fisher de 0.995. Si lo vemos gráficamente: Como nos podemos imaginar existen varias curvas Fisher, ya que ahora su forma depende de dos variables que son los grados de libertad. Ejemplos: 1. Encontrar el valor de F, en cada uno de los siguientes casos: a. El área a la derecha de F, es de 0.25 con =4 y =9. b. El área a la izquierda de F, es de 0.95 con =15 y =10. c. El área a la derecha de F es de 0.95 con con =6 y =8. d. El área a la izquierda de F, es de 0.10 con con =24 y TRABAJO EN EQUIPO
  • 15. ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIAS MUESTRAS DE DATOS NUMÉRICOS =24 Solución: Como el área que da la tabla es de cero a Fisher, se tiene que localizar primero los grados de libertad dos que son 9, luego un área de 0.75 con 4 grados de libertad uno. En este caso se puede buscar el área de 0.95 directamente en la tabla con sus respectivos grados de libertad. Se tiene que buscar en la tabla un área de 0.05, puesto que nos piden un área a la derecha de F de 0.95. Se busca directamente el área de 0.10, con sus respectivos grados de libertad. TRABAJO EN EQUIPO
  • 16. ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIAS MUESTRAS DE DATOS NUMÉRICOS Si s1 2 y s2 2 son las varianzas muéstrales de muestras aleatorias independientes de tamaños n1=10 y n2 =20, tomadas de poblaciones normales que tienen las mismas varianzas, encuentre P(s1 2 /s2 2 2.42). Solución: Primero se establecen los grados de libertad. Como en el numerador está la población uno y en el denominador la población dos, entonces los grados de libertad uno equivalen a 10-1=9 y los grados de libertad dos a 20-1=19. Se procede a ir a la tabla a buscar los grados de libertad dos que son 19 y se observa que no están, por lo tanto se tiene que interpolar entre 15 y 20 grados de libertad, buscando el valor de fisher que quedaría: Este valor de 2.42 se busca en la columna de 9 grados de libertad uno, con 15 grados de libertad dos, y se encuentra el siguiente: Area 0.90 2.09 0.95 2.59 Al interpolar entre estos dos valores nos queda un área de 0.933. Se procede a hacer lo mismo pero con 20 grados de libertad dos: Area 0.95 2.39 0.975 2.84 TRABAJO EN EQUIPO
  • 17. ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIAS MUESTRAS DE DATOS NUMÉRICOS Al interpolar entre estos dos valores nos queda un área de 0.9516. Ahora ya se tienen las dos áreas referentes a los grados de libertad dos, por lo que se interpolará para ver cuánto le corresponde a los grados libertad dos con un valor de 19. Al interpolar nos queda que para 9 grados de libertad uno y 19 grados de libertad dos con un valor de Fisher de 2.42 el área a la izquierda es de 0.9478. Si s1 2 y s2 2 representan las varianzas de las muestras aleatorias independientes de tamaño n1= 25 y n2 = 31, tomadas de poblaciones normales con varianzas 1 2 =10 y 2 2 = 15, respectivamente, encuentre P(s1 2 /s2 2 > 1.26). Solución: Calcular el valor de Fisher: Luego se va a la tabla de Fisher a buscar 30 grados de libertad 2 con 24 grados de libertad uno. Cuando se este en esta posición se busca adentro de la tabla el valor de Fisher de 1.89. Al localizarlo y ver a la izquierda de este valor se obtiene un área de 0.95, pero esta área correspondería a la probabilidad de que las relaciones de varianzas muéstrales fueran menor a 1.26, por lo que se calcula su complemento que sería 0.05, siendo esta la probabilidad de que s1 2 /s2 2 > 1.26. Intervalo de Confianza para el Cociente de Varianzas de Dos Distribuciones Normales Supóngase que se tienen dos poblaciones normales e independientes con varianzas desconocidas  2 y 2 2 , respectivamente. De este par de poblaciones, se tienen disponibles dos muestras aleatorias de tamaños n1 y n2, respectivamente, sean s1 2 y s2 2 TRABAJO EN EQUIPO Area 15 0.933 20 0.9516
  • 18. ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIAS MUESTRAS DE DATOS NUMÉRICOS las dos varianzas muestrales. Se desea conocer un intervalo de confianza del 100( ) por ciento para el cociente de las dos varianzas, 1 2 / 2 2 . Para construir el intervalo de confianza para el cociente de dos varianzas poblacionales, se coloca la varianza muestral mayor en el numerador del estadístico F. Ejemplos: Un fabricante de automóviles pone a prueba dos nuevos métodos de ensamblaje de motores respecto al tiempo en minutos. Los resultados se muestran el la tabla: Método 1 Método 2 n1 = 31 n2 = 25 s1 2 = 50 s2 2 = 24 Construya un intervalo de confianza del 90% para 1 2 / 2 2 . Solución: Por la recomendación de que la varianza muestral mayor va en el numerador se tiene la siguiente fórmula: al despejar: . F toma dos valores dependiendo del nivel de confianza y de los grados de libertad. En este caso los grados de libertad uno valen 30 y los grados de libertad dos 24. 1. 2. y 4.6 COMPARACIONES DE DOS MUESTRAS PAREADAS TRABAJO EN EQUIPO
  • 19. ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIAS MUESTRAS DE DATOS NUMÉRICOS Una de las hipótesis sobre las que habitualmente se fundamentan las pruebas estadísticas de comparación es que las observaciones pertenecientes a cada una de las muestras son independientes entre sí, no guardan relación; siendo precisamente ese uno de los objetivos de la aleatorización (elección aleatoria de los sujetos o unidades de observación). Sin embargo, la falta de independencia entre las observaciones de los grupos puede ser una característica del diseño del estudio para buscar fundamentalmente una mayor eficiencia del contraste estadístico al disminuir la variabilidad. En otras ocasiones con este tipo de diseño pareado lo que se busca es dar una mayor validez a las inferencias obtenidas, controlando o eliminando la influencia de variables extrañas cuyo efecto ya es conocido o sospechado, y no se desea que intervenga en el estudio actual pudiendo enmascarar el efecto del tratamiento o de la variable de interés. Las muestras apareadas se obtienen usualmente como distintas observaciones realizadas sobre los mismos individuos. Un ejemplo de observaciones pareadas consiste en considerar a un conjunto de n personas a las que se le aplica un tratamiento médico y se mide por ejemplo el nivel de insulina en la sangre antes (X) y después del mismo (Y). En este ejemplo no es posible considerar aX eY como variables independientes ya que va a existir una dependencia clara entre las dos variables. 4.7 MODELO TOTALMENTE ALEATORIO: ANÁLISIS DE VARIANZA DE UN FACTOR. Hay varias formas en las cuales puede diseñarse un experimento ANOVA. Quizás el más común es el diseño completamente aleatorizado a una vía. El término proviene del hecho que varios sujetos o unidades experimentales se asignan aleatoriamente a diferentes niveles de un solo factor. Por ejemplo: varios empleados (unidades experimentales) pueden seleccionarse aleatoriamente para participar en diversos tipos (niveles diferentes) de un programa de capacitación (el factor). El análisis de varianza se basa en una comparación de la cantidad de variación en cada uno de los tratamientos. Si de un tratamiento al otro la variación es significativamente alta, puede concluirse que los tratamientos tienen efectos diferentes en las poblaciones. a. Esta variación entre el número total de las 14 observaciones. Esto se llama variación total. b. Existe variación entre los diferentes tratamientos (muestras). Esto se llama variación entre muestras. c. Existe variación dentro de un tratamiento dado (muestra). Esto se denomina variación dentro de la muestra. 4.8 SELECCIÓN DEL TAMAÑO DE MUESTRA PARA ESTIMAR LA DIFERENCIA DE DOS MEDIAS En Estadística el tamaño de la muestra es el número de sujetos que componen la muestra extraída de una población, necesarios para que los datos obtenidos sean representativos de la población. 1. Estimar un parámetro determinado con el nivel de confianza deseado. 2. Detectar una determinada diferencia, si realmente existe, entre los grupos de estudio con un mínimo de garantía. 3. Reducir costes o aumentar la rapidez del estudio. Por ejemplo, en un estudio de investigación epidemiológico la determinación de un tamaño adecuado de la muestra tendría como objetivo su factibilidad. Así: Si el número de sujetos es insuficiente habría que modificar los criterios de selección, solicitar la colaboración de otros centros o ampliar el periodo de reclutamiento. Los TRABAJO EN EQUIPO
  • 20. ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIAS MUESTRAS DE DATOS NUMÉRICOS estudios con tamaños muestrales insuficientes, no son capaces de detectar diferencias entre grupos, llegando a la conclusión errónea de que no existe tal diferencia. Si el número de sujetos es excesivo, el estudio se encarece desde el punto de vista económico y humano. Además es poco ético al someter a más individuos a una intervención que puede ser menos eficaz o incluso perjudicial. El tamaño de una muestra es el número de individuos que contiene. Una fórmula muy extendida que orienta sobre el cálculo del tamaño de la muestra para datos globales es la siguiente: n = ( (k^2) * N*p*q) / ( (e^2 * (N-1) )+( (k^2) * p*q)) N: es el tamaño de la población o universo (número total de posibles encuestados). k: es una constante que depende del nivel de confianza que asignemos. El nivel de confianza indica la probabilidad de que los resultados de nuestra investigación sean ciertos: un 95,5 % de confianza es lo mismo que decir que nos podemos equivocar con una probabilidad del 4,5%. Los valores k más utilizados y sus niveles de confianza son: K 1,15 1,28 1,44 1,65 1,96 2 2,58 Nivel de confianza 75% 80% 85% 90% 95% 95,5% 99% (Por tanto si pretendemos obtener un nivel de confianza del 95% necesitamos poner en la fórmula k=1,96) e: es el error muestral deseado. El error muestral es la diferencia que puede haber entre el resultado que obtenemos preguntando a una muestra de la población y el que obtendríamos si preguntáramos al total de ella. Ejemplos: Ejemplo 1: si los resultados de una encuesta dicen que 100 personas comprarían un producto y tenemos un error muestral del 5% comprarán entre 95 y 105 personas. Ejemplo 2: si hacemos una encuesta de satisfacción a los empleados con un error muestral del 3% y el 60% de los encuestados se muestran satisfechos significa que entre el 57% y el 63% (60% +/- 3%) del total de los empleados de la empresa lo estarán. Ejemplo 3: si los resultados de una encuesta electoral indicaran que un partido iba a obtener el 55% de los votos y el error estimado fuera del 3%, se estima que el porcentaje real de votos estará en el intervalo 52-58% (55% +/- 3%). p: proporción de individuos que poseen en la población la característica de estudio. Este dato es generalmente desconocido y se suele suponer que p=q=0.5 que es la opción más segura. q: proporción de individuos que no poseen esa característica, es decir, es 1-p. n: tamaño de la muestra (número de encuestas que vamos a hacer). Altos niveles de confianza y bajo margen de error no significan que la encuesta sea de mayor confianza o esté más libre de error necesariamente; antes es preciso minimizar la principal fuente de error que tiene lugar en la recogida de datos. Para calcular el tamaño de la muestra suele utilizarse la siguiente fórmula: Otra fórmula para calcular el tamaño de la muestra es: n=(Nσ^2 Z^2)/((N-1) e^2+σ^2 Z^2 ) Donde: n = el tamaño de la muestra. N = tamaño de la población. TRABAJO EN EQUIPO
  • 21. ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIAS MUESTRAS DE DATOS NUMÉRICOS σ= Desviación estándar de la población que, generalmente cuando no se tiene su valor, suele utilizarse un valor constante de 0,5. Z = Valor obtenido mediante niveles de confianza. Es un valor constante que, si no se tiene su valor, se lo toma en relación al 95% de confianza equivale a 1,96 (como más usual) o en relación al 99% de confianza equivale 2,58, valor que queda a criterio del encuestador. e = Límite aceptable de error muestral que, generalmente cuando no se tiene su valor, suele utilizarse un valor que varía entre el 1% (0,01) y 9% (0,09), valor que queda a criterio del encuestador. La fórmula anterior se obtiene de la fórmula para calcular la estimación del intervalo de confianza para la media: X -Z σ/√n̅ √((N-n)/(N-1))≤μ≤X +Z σ/√n √((N-n)/(N-1))̅ En donde el error es: e=Z σ/√n √ ((N-n)/(N-1)) Elevando al cuadrado el error se tiene: 〖 (e) 〗 ^2=(Z σ/√n √((N-n)/(N-1)))^2 e^2=Z^2 σ^2/n (N-n)/(N-1) Multiplicando fracciones: e^2= (〖Z^2 σ〗^2 (N-n))/n(N-1) Eliminando denominadores: e^2 n(N-1)=〖Z^2 σ〗^2 (N-n) Eliminando paréntesis: e^2 nN-e^2 n=〖Z^2 σ〗^2 N-〖Z^2 σ〗^2 n Transponiendo n a la izquierda: e^2 nN-e^2 n+〖Z^2 σ〗^2 n=〖Z^2 σ〗^2 N Factor común de n: n(e^2 N-e^2+Z^2 σ^2 )=〖Z^2 σ〗^2 N Despejando n: n=(〖Z^2 σ〗^2 N)/(e^2 N-e^2+Z^2 σ^2 ) Ordenando se obtiene la fórmula para calcular el tamaño de la muestra: n=(Nσ^2 Z^2)/((N-1) e^2+σ^2 Z^2 ) Ejemplo ilustrativo: Calcular el tamaño de la muestra de una población de 500 elementos con un nivel de confianza del 99% Solución: Se tiene N=500, para el 99% de confianza Z = 2,58, y como no se tiene los demás valores se tomará σ=0,5, y e = 0,05. Reemplazando valores en la fórmula se obtiene: n=(Nσ^2 Z^2)/((N-1) e^2+σ^2 Z^2 ) n=(500∙ 〖 0,5 〗 ^2 〖 ∙ 2,58 〗 ^2)/((500-1) 〖 (±0,05) 〗 ^2+ 〖 0,5 〗 ^2∙ 〖 2,58 〗 ^2 ) =832,05/2,9116=285,77=286 Suponga que se tienen dos poblaciones distintas, la primera con media 1 y desviación estándar 1, y la segunda con media 2 y desviación estándar 2. Más aún, se elige una muestra aleatoria de tamaño n1 de la primera población y una muestra independiente aleatoria de tamaño n2 de la segunda población; se calcula la media muestral para cada muestra y la diferencia entre dichas medias. La colección de todas esas diferencias se llama distribución muestral de las TRABAJO EN EQUIPO
  • 22. ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIAS MUESTRAS DE DATOS NUMÉRICOS Ejemplo: Si se tienen dos poblaciones con medias 1 y 2 y varianzas 1 2 y 2 2 , respectivamente, un estimador puntual de la diferencia entre 1 y 2 está dado por la estadística . Por tanto. Para obtener una estimación puntual de 1- 2, se seleccionan dos muestras aleatorias independientes, una de cada población, de tamaño n1 y n2, se calcula la diferencia , de las medias muestrales. Recordando a la distribución muestral de diferencia de medias: Al despejar de esta ecuación 1- 2 se tiene: En el caso en que se desconozcan las varianzas de la población y los tamaños de muestra sean mayores a 30 se podrá utilizar la varianza de la muestra como una estimación puntual. Ejemplo: Se lleva a cabo un experimento en que se comparan dos tipos de motores, A y B. Se mide el rendimiento en millas por galón de gasolina. Se realizan 50 experimentos con el motor tipo A y 75 con el motor tipo B. La gasolina que se utiliza y las demás condiciones se mantienen constantes. El rendimiento promedio de gasolina para el motor A es de 36 millas por galón y el promedio para el motor B es 24 millas por galón. Encuentre un intervalo de confianza de 96% sobre la diferencia promedio real para los motores A y B. Suponga que las desviaciones estándar poblacionales son 6 y 8 para los motores A y B respectivamente. Solución: Es deseable que la diferencia de medias sea positiva por lo que se recomienda restar la media mayor menos la media menor. En este caso será la media del motor B menos la media del motor A. El valor de z para un nivel de confianza del 96% es de 2.05. 3.43< B- A<8.57 TRABAJO EN EQUIPO
  • 23. ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIAS MUESTRAS DE DATOS NUMÉRICOS La interpretación de este ejemplo sería que con un nivel de confianza del 96% la diferencia del rendimiento promedio esta entre 3.43 y 8.57 millas por galón a favor del motor B. Esto quiere decir que el motor B da mas rendimiento promedio que el motor A, ya que los dos valores del intervalo son positivos. Una compañía de taxis trata de decidir si comprar neumáticos de la marca A o de la B para su flotilla de taxis. Para estimar la diferencia de las dos marcas, se lleva a cabo un experimento utilizando 12 de cada marca. Los neumáticos se utilizan hasta que se desgastan, dando como resultado promedio para la marca A 36,300 kilómetros y para la marca B 38,100 kilómetros. Calcule un intervalo de confianza de 95% para la diferencia promedio de las dos marcas, si se sabe que las poblaciones se distribuyen de forma aproximadamente normal con desviación estándar de 5000 kilómetros para la marca A y 6100 kilómetros para la marca B. Solución: -2662.68< B- A<6262.67 Gráficamente: Como el intervalo contiene el valor "cero", no hay razón para creer que el promedio de duración del neumático de la marca B es mayor al de la marca A, pues el cero nos está indicando que pueden tener la misma duración promedio. 4.9 APLICACIONES UNIDAD 5 PRUEBAS DE HIPOTESIS CON DOS MUESTRAS DATOS CATEGORICOS Y VARIAS MUESTRAS CON DATOS CATEGORICOS. Prueba De Hipótesis Para Proporciones El concepto de prueba de hipótesis se puede utilizar para probar hipótesis en relación con datos cualitativos. Por ejemplo, en el problema anterior el gerente de la fábrica de llantas quería determinar la proporción de llantas que se reventaban antes de 10,000 millas. Este TRABAJO EN EQUIPO
  • 24. ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIAS MUESTRAS DE DATOS NUMÉRICOS es un ejemplo de una variable cualitativa, dado que se desea llegar a conclusiones en cuanto a la proporción de los valores que tienen una característica particular. El gerente de la fábrica de llantas quiere que la calidad de llantas producidas, sea lo bastante alta para que muy pocas se revienten antes de las 10,000 millas. Si más de un 8% de las llantas se revientan antes de las 10,000 millas, se llegaría a concluir que el proceso no funciona correctamente. La hipótesis nula y alternativa se pueden expresar como sigue: Ho: p .08 (funciona correctamente) H1: p > .08 (no funciona correctamente) La prueba estadística se puede expresar en términos de la proporción de éxitos como sigue: En donde p = proporción de éxitos de la hipótesis nula Ahora se determinará si el proceso funciona correctamente para las llantas producidas para el turno de día. Los resultados del turno de día indican que cinco llantas en una muestra de 100 se reventaron antes de 10,000 millas para este problema, si se selecciona un nivel de significancia de .05, las regiones de rechazo y no rechazo se establecerían como a continuación se muestra: Y la regla de decisión sería: Rechazar Ho si > + 1.645; de lo contrario no rechazar Ho. Con los datos que se tienen, = .05 Y entonces, = −1.107 Z −1.107 < + 1.645; por tanto no rechazar Ho. La hipótesis nula no se rechazaría por que la prueba estadística no ha caído en la región de rechazo. Se llegaría a la conclusión de que no hay pruebas de que más del 8% de las llantas producidas en el turno de día se revienten antes de 10,000 millas. El gerente no ha encontrado ninguna prueba de que ocurra un número excesivo de reventones en las llantas producidas en el turno de día. Pruebas de hipótesis a partir de proporciones. TRABAJO EN EQUIPO
  • 25. ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIAS MUESTRAS DE DATOS NUMÉRICOS Las pruebas de hipótesis a partir de proporciones se realizan casi en la misma forma utilizada cuando nos referimos a las medias, cuando se cumplen las suposiciones necesarias para cada caso. Pueden utilizarse pruebas unilaterales o bilaterales dependiendo de la situación particular. La proporción de una población Las hipótesis se enuncian de manera similar al caso de la media. Ho: p = p0 H1: p ¹ p0 En caso de que la muestra sea grande n>30, el estadígrafo de prueba es: Se distribuye normal estándar. Regla de decisión: se determina de acuerdo a la hipótesis alternativa (si es bilateral o unilateral), lo cual puedes fácilmente hacerlo auxiliándote de la tabla 4.4.1. En el caso de muestras pequeñas se utiliza la distribución Binomial. No lo abordaremos por ser complicado y poco frecuente su uso. Diferencia entre las proporciones de dos poblaciones La situación más frecuente es suponer que existen diferencias entre las proporciones de dos poblaciones, para ello suelen enunciarse las hipótesis de forma similar al caso de las medias: Ho: p1 = p2 Þ p1 - p2 = 0 H1: p1 ¹ p2 Puede la hipótesis alternativa enunciarse unilateralmente. El estadígrafo de prueba para el caso de muestras independientes: Siendo a1 y a2, el número de sujetos con la característica objeto de estudio en las muestras 1 y 2 respectivamente, es decir, en vez de calcular la varianza para cada muestra, se calcula una p conjunta para ambas muestras bajo el supuesto que no hay diferencias entre ambas proporciones y así se obtiene la varianza conjunta. Recuerda que q = 1-p. Está de más que te diga que este estadígrafo se distribuye normal estándar. La regla de decisión se determina de manera similar a los casos ya vistos anteriormente. El objetivo de la prueba es comparar estas dos proporciones, como estimadores TRABAJO EN EQUIPO
  • 26. ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIAS MUESTRAS DE DATOS NUMÉRICOS H1: p1 ¹ p2 Recuerda que la H1 también puede plantearse de forma unilateral. 5.1 PRUEBA Z PARA LA DIFERENCIA ENTRE DOS PROPORCIONES. En algunos diseños de investigación, el plan muestral requiere seleccionar dos muestras independientes, calcular las proporciones muestrales y usar la diferencia de las dos proporciones para estimar o probar una diferencia entre las mismas. Las aplicaciones son similares a la diferencia de medias, por ejemplo si dos empresas consultoras ofrecen datos de proporciones de personas que van a votar por el PRI y al hacer dos estudios diferentes salen resultados ligeramente diferentes ¿pero qué tanta diferencia se requiere para que sea estadísticamente significativo? De eso se pruebas estadísticas de diferencias de proporciones. El estadístico Z para estos casos se calcula de la siguiente manera: Ejemplo: Una muestra de 87 mujeres trabajadoras profesionales mostró que la cantidad promedio que pagan a un fondo de pensión privado el 5% de su sueldo. Una muestra de 76 hombres trabajadores profesionales muestra que la cantidad que paga un fondo de pensión privado es 6.1% de su sueldo. Un grupo activista de mujeres desea demostrar que las mujeres no pagan tanto como los hombres en fondos de pensión privados. Si se usa alfa = 0.01 ¿Se confirma lo que el grupo activista de mujeres desea demostrar o no? Paso 1. Determinar la hipótesis Nula “Ho” y Alternativa “Ha” Nótese que este problema es de una cola. TRABAJO EN EQUIPO
  • 27. ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIAS MUESTRAS DE DATOS NUMÉRICOS Ho: Lo que pagan las mujeres en el fondo de pensión es igual o mayor a lo que pagan los hombres (algunos autores solo le colocan igual). Ha: _______________________________________ (El estudiante debe describir la Ha) La hipótesis alternativa es lo que las mujeres del grupo activista desean demostrar. Paso 2. Determinar el nivel de significancia. Definida por el analista, en este casi se desea usar α = 0.01 Gráficamente el nivel de significancia se distribuye en la curva de distribución normal como se muestra en la figura: Paso 3. Calcular los intervalos que implican ese nivel de significancia Para dicho nivel de significancia el valor de Z es: Z=-2.326 Gráficamente queda de la siguiente manera: TRABAJO EN EQUIPO
  • 28. ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIAS MUESTRAS DE DATOS NUMÉRICOS Paso 4 TRABAJO EN EQUIPO
  • 29. ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIAS MUESTRAS DE DATOS NUMÉRICOS Ejemplo: En un estudio de infección de vías urinarias no complicadas, los pacientes fueron asignados para ser tratados con trimetoprim / sulfametoxazol o fosfomicina / trometamol. 92% de los 100 tratados con fosfomicina/ trometamol mostraron curación bacteriológica mientras que el 61% de los 100 manejados con trimetoprim / sulfametoxazol se curó la infección. Cuando comparamos proporciones de muestras independientes, debemos primero calcular la diferencia en proporciones. El análisis para comparar dos proporciones independientes es similar al usado para dos medias independientes. Calculamos un intervalo de confianza y una prueba de hipótesis para la diferencia en proporciones. La notación que usamos para el análisis de dos proporciones es el mismo que para una proporción. Los números inferiores son para distinguir los dos grupos. Parámetros Población 1 2 Muestra 1 2 Proporción π1 π2 p1 p2 TRABAJO EN EQUIPO
  • 30. ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIAS MUESTRAS DE DATOS NUMÉRICOS Desviación estándar √π1(1-π2) √π2(1- π2) √p1(1-p1) √p2(1- p2) El cuadrado del error estándar de una proporción es conocido como la varianza de la proporción La varianza de la diferencia entre las dos proporciones independientes es igual a la suma de las varianzas de las dos proporciones de las muestras. Las varianzas son sumadas debido a que cada muestra contribuye al error de muestreo en la distribución de las diferencias. ES = √p(1-p)/n Varianza = p(1-p)/n p1(1- p1) p2(1- p2) Varianza (p1-p2)= varianza de p1 + varianza de p2 = --------- + ---------- n1 n2 El error estándar de la diferencia entre dos proporciones es dado por la raíz cuadrada de la varianza. ES (p1-p2)= √[p1(1-p1)/n1 + p2(1-p2)/n2] Para calcular el intervalo de confianza necesitamos conocer el error estándar de la diferencia entre dos proporciones. El error estándar de la diferencia entre dos proporciones es la combinación del error estándar de las dos distribuciones independientes, ES (p1) y ES (p2). Hemos estimado la magnitud de la diferencia de dos proporciones de las muestras; ahora calcularemos el intervalo de confianza para esa estimación. La fórmula general para el intervalo de confianza al 95% es: Estimado ±1.96 x ES La fórmula para 95% IC de dos proporciones sería: (p1-p2) ± 1.96 ES(p1-p2) En el estudio de infección de vías urinarias, la proporción en el grupo de fosfomicina/ trometamol fue 0.92 y para trimetoprim/ sulfametoxazol fue 0.61 Diferencia en proporciones = 0.92-0.61=0.31 ES = √[(0.92(1-0.92)/100 + 0.61(1-0.61)/100] = 0.056 El intervalo de confianza al 95% sería: 0.31 ± 1.96 (0.056) = 0.31±0.11 = 0.2 a 0.42 El intervalo de confianza al 95% sería: 1.96 (0.056) = 0.31±0.11 = 0.2 a 0.42 TRABAJO EN EQUIPO
  • 31. ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIAS MUESTRAS DE DATOS NUMÉRICOS Tengo 95% de confianza de que la diferencia en las proporciones en la población estaría entre 0.2 y 0.42. Como la diferencia no incluye 0, estamos confiados que en la población la proporción de curados con fosfomicina/trometamol es diferente que con trimetoprim sulfametoxazol. Una prueba de hipótesis usa la diferencia observada y el error estándar de la diferencia. Sin embargo, usamos un error estándar ligeramente diferente para calcular la prueba de hipótesis. Esto se debe a que estamos evaluando la probabilidad de que los datos observados asumen que la hipótesis nula es verdad. La hipótesis nula es que no hay diferencia en las proporciones de las dos poblaciones y ambas grupos tienen una proporción común, π. El mejor estimado que podemos obtener de π es la proporción común, p, de las dos proporciones de la muestra. P=r1+r2/n1+n2 Donde: r1 y r2 son los números de respuestas positivas en cada muestra n1 y n2 son los tamaños de muestra en cada muestra. La proporción común siempre estará entre las dos proporciones individuales. El error estándar puede ser calculado sustituyendo p, por p1 y p2. ES(p1-p2)=√p(1-p)(1/n1 +1/n2) Esto se conoce como error estándar agrupado. En el estudio de infección de vías urinarias, la proporción en el grupo de fosfomicina/ trometamol fue 0.92 y para trimetoprim/ sulfametoxazol fue 0.61 Fueron 100 intregrantes en cada grupo. Proporción común, p= 92 + 61/100+100 = 153/200 = 0.765 ES(p1-p2)=√0.77(1-0.77)(1/100 +1/100)= √0.1771 x 0.002 = 0.019 Si asumimos una aproximación a la Normalidad para la distribución Binomial, calculamos la prueba de z , como antes. Para calcular la prueba de hipótesis, debemos: 1.- Señalar la hipótesis nula Ho 2.- Señalar la hipótesis alternativa H1 3.- Calcular la prueba de hipótesis z. Hipótesis nula: Cuando comparamos dos proporciones de poblaciones independientes es usualmente que las dos proporciones son iguales. Ho: π1 = π2 Es lo mismo que si la diferencia en las proporciones de las dos poblaciones es igual a 0. Ho: π1 - π2 = 0 TRABAJO EN EQUIPO
  • 32. ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIAS MUESTRAS DE DATOS NUMÉRICOS Hipótesis alternativa: Es usualmente que las dos proporciones no son iguales. H1: π1 ≠ π2 Es lo mismo que la diferencia en proporciones no es igual a cero. H1: π1 – π2 ≠ 0 0.92 de éxito para fosfomicina / trometamol y 0.61 para trimetoprim / sulfametoxazol ES = 0.019 (p1-p2) – 0 0.31 - 0 z= -------------- = -----------= 16.3 ES(p1-p2) 0.019 P<0.05 Rechazamos la hipótesis nula de que las dos proporciones son iguales y aceptamos la hipótesis alternativa de que son diferentes. 5.2 PRUEBA PARA LA DIFERENCIA ENTRE DOS PROPORCIONES. Las pruebas de hipótesis a partir de proporciones se realizan casi en la misma forma utilizada cuando nos referimos a las medias, cuando se cumplen las suposiciones necesarias para cada caso. Pueden utilizarse pruebas unilaterales o bilaterales dependiendo de la situación particular. La proporción de una población Las hipótesis se enuncian de manera similar al caso de la media. Ho: p = p0 H1: p ¹ p0 En caso de que la muestra sea grande n>30, el estadígrafo de prueba es: se distribuye normal estándar. Regla de decisión: se determina de acuerdo a la hipótesis alternativa (si es bilateral o unilateral. En el caso de muestras pequeñas se utiliza la distribución Binomial. No lo abordaremos por ser complicado y poco frecuente su uso. Diferencia entre las proporciones de dos poblaciones La situación más frecuente es suponer que existen diferencias entre las proporciones de dos poblaciones, para ello suelen enunciarse las hipótesis de forma similar al caso de las medias: Ho: p1 = p2 Þ p1 - p2 = 0 TRABAJO EN EQUIPO
  • 33. ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIAS MUESTRAS DE DATOS NUMÉRICOS H1: p1 ¹ p2 Puede la hipótesis alternativa enunciarse unilateralmente. El estadígrafo de prueba para el caso de muestras independientes: donde Siendo a1 y a2, el número de sujetos con la característica objeto de estudio en las muestras 1 y 2 respectivamente, es decir, en vez de calcular la varianza para cada muestra, se calcula una p conjunta para ambas muestras bajo el supuesto que no hay diferencias entre ambas proporciones y así se obtiene la varianza conjunta. Recuerda que q = 1-p. Está de más que te diga que este estadígrafo se distribuye normal estándar. La regla de decisión se determina de manera similar a los casos ya vistos anteriormente. El objetivo de la prueba es comparar estas dos proporciones, como estimadores H1: p1 ¹ p2 Recuerda que la H1 también puede plantearse de forma unilateral. En algunos diseños de investigación, el plan muestral requiere seleccionar dos muestras independientes, calcular las proporciones muéstrales y usar la diferencia de las dos proporciones para estimar aprobar una diferencia entre las mismas .Las aplicaciones son similares a la diferencia de medias, por ejemplo si dos empresas consultoras ofrecen datos de proporciones de personas que van a votar por el PRI y al hacer dos estudios diferentes salen resultados ligeramente diferentes ¿pero qué tanta diferencia se requiere para que sea estadísticamente significativo? De eso se tratan las Pruebas estadísticas de diferencias de proporciones. Estimación de la Diferencia de dos Proporciones En la sección anterior se vio el tema de la generación de las distribuciones muestrales, en donde se tenía el valor de los parámetros, se seleccionaban dos muestras y podíamos calcular la probabilidad del comportamiento de los estadísticos. Para este caso en particular se utilizará la distribución muestral de diferencia de proporciones para la estimación de las mismas. Recordando la formula: Despejando P1-P2 de esta ecuación: Aquí se tiene el mismo caso que en la estimación de una proporción, ya que al hacer el despeje nos queda las dos proporciones poblacionales y es precisamente lo que TRABAJO EN EQUIPO
  • 34. ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIAS MUESTRAS DE DATOS NUMÉRICOS queremos estimar, por lo que se utilizarán las proporciones de la muestra como estimadores puntuales: Ejemplo: Se considera cierto cambio en un proceso de fabricación de partes componentes. Se toman muestras del procedimiento existente y del nuevo para determinar si éste tiene como resultado una mejoría. Si se encuentra que 75 de 1500 artículos del procedimiento actual son defectuosos y 80 de 2000 artículos del procedimiento nuevo también lo son, encuentre un intervalo de confianza de 90% para la diferencia real en la fracción de defectuosos entre el proceso actual y el nuevo. Solución: Sean P1 y P2 las proporciones reales de defectuosos para los procesos actual y nuevo, respectivamente. De aquí, p1=75/1500 = 0.05 y p2 = 80/2000 = 0.04. con el uso de la tabla encontramos que z para un nivel de confianza del 90% es de 1.645. -0.0017<P1-P2<0.0217 Como el intervalo contiene el valor de cero, no hay razón para creer que el nuevo procedimiento producirá una disminución significativa en la proporción de artículos defectuosos comparado con el método existente. Un artículo relacionado con la salud, reporta los siguientes datos sobre la incidencia de disfunciones importantes entre recién nacidos con madres fumadoras de marihuana y de madres que no la fumaban: Usuaria No Usuaria Tamaño Muestral 1246 11178 Número de disfunciones 42 294 Proporción muestral 0.0337 0.0263 Encuentre el intervalo de confianza del 99% para la diferencia de proporciones. Solución: Representemos P1 la proporción de nacimientos donde aparecen disfunciones entre todas las madres que fuman marihuana y definamos P2, de manera similar, para las no fumadoras. El valor de z para un 99% de confianza es de 2.58. TRABAJO EN EQUIPO
  • 35. ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIAS MUESTRAS DE DATOS NUMÉRICOS -0.0064<P1-P2<0.0212 Este intervalo es bastante angosto, lo cual sugiere que P1-P2 ha sido estimado de manera precisa. Determinación de Tamaños de Muestra para Estimaciones Al iniciar cualquier investigación, la primer pregunta que surge es: ¿de qué tamaño debe ser la o las muestras?. La respuesta a esta pregunta la veremos en esta sección, con conceptos que ya se han visto a través de este material. EJEMPLO: Oficiales escolares comparan el coeficiente intelectual entre niños de dos grupos. De una muestra de 159 niños del grupo 1 78 califican con más de 100 puntos, de una muestra de 250 niños del grupo 2 123 califican con más de 100 puntos. Construya un intervalo de confianza par a la diferencia entre las dos proporciones del grupo 1 y 2 de los niños con califican con más de 100. Ejemplo: Algunas veces estamos interesados en analizar la diferencia entre las proporciones de poblaciones de grupos con distintas características. Por ejemplo, pensemos que la administración de las tiendas Oxxo cree, sobre la base de una investigación, que el porcentaje de hombres que visitan sus tiendas 9 o más veces al mes (clientes frecuentes) es mayor que el porcentaje de mujeres que hacen lo mismo. Las especificaciones requeridas y el procedimiento para probar esta hipótesis es la siguiente: 1. Las hipótesis nula y alternativa son las siguientes: TRABAJO EN EQUIPO
  • 36. ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIAS MUESTRAS DE DATOS NUMÉRICOS 0≤−= MHo PPH , la proporción de hombres que reportan 9 o más visitas por mes es la misma o menor que la proporción de mujeres que hacen lo mismo. 0>−= MHa PPH , la proporción de hombres que reportan 9 o más visitas por mes es mayor a la proporción de mujeres que hacen lo mismo. La información proporcionada es: 45=Hn 71=Mn 58.=HP 42.=MP 16.42.58. =−=− MH PP 2. Especifica el nivel de significación de 05.=α . El valor crítico para la prueba de una sola cola es de 1.64. 3. Estima el error estándar de la diferencia de las dos proporciones:       +−=− MH p nn PPs mh 11 )1( donde: MH MMHH nn PnPn P + + = TRABAJO EN EQUIPO
  • 37. ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIAS MUESTRAS DE DATOS NUMÉRICOS PH = proporción muestra de hombres (H) PM = proporción muestra de mujeres (M) NH = tamaño de muestra hombres NM = tamaño de muestra mujeres Por lo tanto: 48.0 7145 )42(.71)58(.45 = + + =P y 10.0 71 1 45 1 )48.1(48. =      +−=−mhps 4. Calcula de prueba estadística: mhp o s Hesproporcionentrediferenciaobservadasesproporcionentrediferencia Z − − = )___()___( 60.1 10. )0()42.58(. = −− =Z La hipótesis nula es aceptada porque el valor de la Z calculada es menor que el valor crítico Z. La administración no puede concluir con un 95 por ciento de confianza que la proporción de hombres que visita 9 o más veces los Oxxo es mayor que la proporción de mujeres. 5.3 PRUEBA PARA LA DIFERENCIA EN n PROPORCIONES Z. Una distribución poblacional representa la distribución de valores de una población y una distribución muestral representa la distribución de los valores de una muestra. En contraste con las distribuciones de mediciones individuales, una distribución muestral es una distribución de probabilidad que se aplica a los valores posibles de una estadística muestral. Así, la distribución muestral de la media es la distribución de probabilidad de los valores posibles de la media muestral con base en un determinado tamaño de muestra. Para cualquier tamaño de muestra dado n, tomado de una población con media , los valores de la media muestralvarían de una muestra a otra. Esta variabilidad sirve de base TRABAJO EN EQUIPO
  • 38. ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIAS MUESTRAS DE DATOS NUMÉRICOS para la distribución muestral. La distribución muestral de la media se describe determinando el valor esperado E () o media, de la distribución y la desviación estándar de la distribución de las medias, . Como esta desviación estándar indica la precisión de la media muestral como estimador puntual, por lo general se le denomina error estándar de la media. Ejemplo: Un fabricante de reproductores de discos compactos utiliza un conjunto de pruebas amplias para evaluar la función eléctrica de su producto. Todos los reproductores de discos compactos deben pasar todas las pruebas antes de venderse. Una muestra aleatoria de 500 reproductores tiene como resultado 15 que fallan en una o más pruebas. Encuentre un intervalo de confianza de 90% para la proporción de los reproductores de discos compactos de la población que no pasan todas las pruebas. Solución: n=500 p = 15/500 = 0.03 z(0.90) = 1.645 0.0237<P<0.0376 Se sabe con un nivel de confianza del 90% que la proporción de discos defectuosos que no pasan la prueba en esa población está entre 0.0237 y 0.0376. Ejemplo: En una muestra de 400 pilas tipo B fabricadas por la Everlast Company, se encontraron 20 defectuosas. Si la proporción p de pilas defectuosas en esa muestra se usa para estimar P, que vendrá a ser la proporción verdadera de todas las pilas defectuosas tipo B fabricadas por la Everlast Company, encuentre el máximo error de estimación tal que se pueda tener un 95% de confianza en que P dista menos de de p. Solución: p=x/n = 20/400=0.05 z(0.95)=1.96 Si p=0.05 se usa para estimar P, podemos tener un 95% de confianza en que P dista menos de 0.021 de p. En otras palabras, si p=0.05 se usa para estimar P, el error máximo de estimación será aproximadamente 0.021 con un nivel de confianza del 95% Para calcular el intervalo de confianza se tendría: Esto da por resultado dos valores, (0.029, 0.071). Con un nivel de confianza del 95% se sabe que la proporción de pulas defectuosas de esta compañía está entre 0.029 y 0.071. TRABAJO EN EQUIPO
  • 39. ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIAS MUESTRAS DE DATOS NUMÉRICOS Si se requiere un menor error con un mismo nivel de confianza sólo se necesita aumentar el tamaño de la muestra. 5.4 PRUEBA DE INDEPENDENCIA (ji-CUADRADA). Cuando comparamos dos situaciones podemos esperar que sean ya bien dependientes o independientes esto quiere decir que pueden o no estar relacionados sus datos debido a muchos factores que pueden influir en ellos o bien, un problema no tenga relación con otro. La prueba de independencia trata sobre esto, ya que su objetivo es determinar si alguna situación es afectada por otra, basándose en datos estadísticos y valores probabilístico obtenidos de la fabulación de datos o de pronósticos por medio de fórmulas y tablas, para esto se basa en un nivel de significancia en un caso y en el otro a comparar, valiéndonos de tablas de contingencia para obtener frecuencias esperadas y poder aplicarlas, para así obtener datos comparativos que son determinantes en la decisión de independencia. La estadística de prueba que será utilizada en la toma de una decisión acerca de la hipótesis nula es ji cuadrado, X2 (X es la letra griega ji minúscula. Los valores de ji cuadrado se obtienen con las siguientes formula: X2 = Σ (Oi – ei)2 i ei Grados de libertad V = (r-1)*(c-1) Frecuencia Esperada = Total de la columna * Total del renglón Gran total Características X2 toma valores no negativos; es decir, puede ser cero o positiva. X2 no es simétrica; es asimétrica hacia la derecha. Existen muchas distribuciones X2 como en el caso de la distribución t, hay una distribución, X2 diferente para cada valor de los grados de libertad. Nos dan una tabla de contingencia. Una tabla de contingencia es una disposición de datos en una clasificación de doble entrada. Los datos se ordenan en celdas y se reporta él número de datos en cada una. En la tabla de contingencia están implicados dos factores (o variables), y la pregunta común en relación con tales tablas es si los datos indican que las dos variables son independientes o dependientes. Para ilustrar la utilización y análisis de una tabla de contingencia, considérese la clasificación por sexo de los estudiantes de una escuela y su área académica favorita. Ejemplo: Cada persona de un grupo de 300 estudiantes fue identificada como hombre o mujer, preguntándosele si prefería recibir cursos en el área de matemáticas, ciencias sociales o humanidades. La siguiente tabla es una de contingencia que indica las frecuencias encontradas para esas categorías. ¿Presenta esta tabla la evidencia suficiente para rechazar la hipótesis nula “la preferencia por las matemáticas, ciencias sociales o humanidades es independiente del sexo de un alumno”, al nivel de significancia del 0.05? TRABAJO EN EQUIPO
  • 40. ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIAS MUESTRAS DE DATOS NUMÉRICOS Solución: Paso 1 Ho: La preferencia por matemáticas, ciencias sociales o humanidades es independiente del sexo de los estudiantes de la escuela. Ha: La preferencia por las áreas es no independiente del sexo de los estudiantes. Pasó 2 Para determinar el valor crítico de la ji cuadrada debe conocerse los grados de libertad, implicado. En el caso de tablas de contingencia, este número es exactamente el número de celdas en la tabla que puede ser llenadas libremente cuando se conocen los totales. Estos últimos se indican en la tabla siguiente. 122 178 72 113 115 300 Dados estos totales, solo pueden llenarse dos celdas antes que las restantes queden determinadas. (por supuesto, los totales deben ser los mismos.) Por ejemplo, una vez que se seleccionen dos valores arbitrarios (por ejemplo, 50 y 60) para las dos primeras celdas de la primera fila (véase la tabla siguiente), quedan fijos los otros cuatro valores. 50 60 C 122 D E F 178 72 113 115 300 Dichos valores deben ser C=12, D=22, E=53 y F=103. De otra manera los totales no serán correctos. En consecuencia, para este problema existen dos selecciones libres. Cada una de estas corresponde a un grado de libertad. Así, el número de grados de libertada en este ejemplo es 2 (v=2). Por esta razón, si se utiliza =0.05, el valor critico es X2 (2, 0.05) = 6. Véase la siguiente figura. Pasó 3 Antes de poder hallar el valor calculado de ji cuadrada, es necesario examinar los valores esperados E para cada celda. Para tal fin debe recordarse la hipótesis nula, la cual TRABAJO EN EQUIPO
  • 41. ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIAS MUESTRAS DE DATOS NUMÉRICOS asevera que estos factores son independientes. En consecuencia, se espera que los valores estén distribuidos en proporción a los totales marginales. Hay 122 hombres; se espera que estén distribuidos entre M, CS y H proporcionalmente a los totales 72, 113 y 115. Así, para los hombres las cuentas esperadas de celda son: 72/300 x 122 113/300 x 122 115/300 x 122 Similarmente, se esperan: 72/300 x 178 113/300 x 178 115/300 x 178 Para las mujeres. Entonces los valores esperados son como se indica en la tabla siguiente (siempre verifíquense los totales nuevos contra los antiguos.) M CS H Total 29.28 45.95 46.77 122 42.72 67.05 68.23 178 Total 72.00 113.00 115.00 300.00 Nota El cálculo de los valores esperados puede verse de manera alternativa. Recuérdese que la hipótesis nula se supone cierta en tanto no haya evidencia para rechazarla. Habiendo hecho este supuesto en el ejemplo, de hecho sé está afirmando que son independientes los eventos un estudiante seleccionado aleatoriamente es hombre, y un estudiante elegido al azar prefiere cursos de matemáticas. El estimador puntual para la probabilidad de que un estudiante sea hombre es 122/300, y para la probabilidad de que un estudiante prefiera los cursos de matemática es 72/300. En consecuencia, la probabilidad de que ocurran ambos eventos es el producto de las probabilidades. Para estudiar la dependencia entre la práctica de algún deporte y la depresión, se seleccionó una muestra aleatoria simple de 100 jóvenes, con los siguientes resultados: Sin depresión Con depresión Deportista 38 9 47 No deportista 31 22 53 69 31 100 L = (38 – 32,43)2/32,43 + (31 – 36,57)2/36,57 + (9 – 14,57)2/14,57 + (22 – 16,43)2/16,43 = 0,9567 + 0,8484 + 2,1293 + 1,8883 = 5,8227 El valor que alcanza el estadístico L es 5,8227. Buscando en la tabla teórica de Chi Cuadrado para 1 grado de libertad se aprecia Lt = 3,84146 < 5,8227 lo que permite rechazar la hipótesis de independencia de caracteres con un nivel de significación del 5%, admitiendo por tanto que la práctica deportiva disminuye el riesgo de depresión. Ejemplo: Ilustraremos esta técnica con el estudio que realizó Cervecería Modelo, la cual fabrica y distribuye tres tipos de cerveza: ligera, clara y oscura. En un análisis de TRABAJO EN EQUIPO
  • 42. ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIAS MUESTRAS DE DATOS NUMÉRICOS segmentación de mercado para las tres cervezas, el grupo de investigación encargado ha planteado la duda de si la preferencia para las tres cervezas es diferente entre los consumidores hombres y mujeres. Si la preferencia de las cervezas fuera independiente del género del consumidor, se iniciaría una campaña de publicidad para todas las cervezas Modelo. Sin embargo, si la preferencia depende del género del consumidor, se ajustarían las promociones para tener en cuenta los distintos mercados meta. Una prueba de independencia usa la pregunta de si la preferencia de la cerveza (ligera, clara y oscura) es independiente del género del consumidor (hombre, mujer). Las hipótesis para esta prueba de independencia son: Ho: La preferencia de la cerveza es independiente del género del consumidor Ha: La preferencia de la cerveza no es independiente del género del consumidor Podemos usar una tabla como la 1 para describir el caso que se estudia. Después de identificar a la población, consumidores hombres y mujeres, se puede tomar una muestra y preguntar a cada persona que diga su preferencia entre las cervezas modelo. Cada persona de la muestra se clasificará en una de las seis celdas de la tabla. Por ejemplo una persona puede ser hombre y prefiera la cerveza clara [celda (1,2)], una mujer que prefiere la cerveza ligera [celda (2,1)], una mujer que prefiere la cerveza oscura [celda (2,3)] y así sucesivamente. Como en la lista aparecen todas las combinaciones posibles de predilección de cerveza y género, en otras palabras aparecen todas las contingencias posibles, a la tabla se le llama tabla de contingencia. Supongamos que se ha tomado una muestra aleatoria simple de 150 bebedores de cerveza. Después de saborear cada una, se les pide expresar su preferencia o primera alternativa. La tabulación cruzada de la siguiente tabla 2 resume las respuestas obtenidas. Observamos que, los datos para la prueba de independencia se agrupan en términos de cantidades o frecuencias para cada celda o categoría. De las 150 personas de la muestra, 20 fueron hombres que prefirieron la cerveza ligera, 40 fueron mujeres que prefirieron la cerveza clara, 20 fueron hombres que prefirieron la cerveza oscura, y así sucesivamente. Los datos de la tabla 2 constituyen las frecuencias observadas para las seis clases o categorías. TRABAJO EN EQUIPO Cerveza preferida Ligera Clara Oscura Género Hombre Celda (1,1) Celda (1,2) Celda (1,3) Mujer Celda (2,1) Celda (2,2) Celda (2,3)
  • 43. ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIAS MUESTRAS DE DATOS NUMÉRICOS Si podemos determinar las frecuencias esperadas bajo la hipótesis de independencia entre la preferencia de cerveza y el género del consumidor, podemos usar la distribución ji cuadrada para determinar si existe una diferencia significativa entre la frecuencia observada y la esperada. Las frecuencias esperadas en las celdas de la tabla de contingencia se basan en el siguiente razonamiento. Primero suponemos que es verdadera la hipótesis nula, de independencia entre la cerveza preferida y el género del consumidor. A continuación observamos que en toda la muestra de 150 consumidores, hay 50 que prefieren la cerveza ligera, 70 la cerveza clara y 30 la cerveza oscura. Expresada en fracción, la conclusión es que de 50/150 = 1/3 de los consumidores de cerveza prefieren la ligera; 70/150 = 7/15 la clara y 30/150 = 1/5 la oscura. Si es válida la hipótesis de independencia, decimos que estas fracciones se deben de aplicar por igual a los consumidores hombres y mujeres. Así bajo la hipótesis de independencia, esperaríamos que la muestra de 80 consumidores hombres indicara que (1/3) 80 = 26.7 prefieren cerveza ligera, (7/15) 80 = 37.33 la clara y (1/5) 80 = 16 la oscura. La aplicación de las mismas fracciones a las 70 consumidoras mujeres produce las frecuencias esperadas que aparecen en la tabla. Sea ije la frecuencia esperada en la categoría del renglón i y la columna j de la tabla de contingencia. Con esta notación reconsideremos el cálculo de la frecuencia esperada para los hombres (renglón i = 1) que prefieren la cerveza clara (columna j = 2) esto es, la frecuencia esperada 2,1e . Apegándonos al esquema anterior para el cálculo de las frecuencias esperadas, podemos demostrar que 2,1e = (7/15) 80 = 37.33 Esta ecuación se puede escribir como sigue 2,1e = (7/15) 80 = (70/150) 80 = 37.33 TRABAJO EN EQUIPO Cerveza preferida Género Ligera Clara Oscura Total Hombre 20 40 20 80 Mujer 30 30 10 70 Total 50 70 30 150 Cerveza preferida Género Ligera Clara Oscura Total Hombre 26.67 37.33 16.00 80 Mujer 23.33 32.67 14.00 70 Total 50.00 70.00 30.00 150
  • 44. ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIAS MUESTRAS DE DATOS NUMÉRICOS Observe que 80 es la cantidad total de hombres (total del renglón 1), 70 es la cantidad total de individuos (hombres y mujeres) que prefieren la cerveza clara (total de la columna 2) y 150 es el tamaño de la muestra total. En consecuencia vemos muestraladetamaño columnaladetotalrenglóndeltotal e )2()1( 2,1 = Al generalizar la ecuación vemos que la fórmula siguiente determina las frecuencias esperadas de una tabla de contingencias para la prueba de independencia. Frecuencias esperadas en la tabla de contingencia suponiendo independencia muestraladetamaño jcolumnaladetotalirenglóndelTotal eij )()( = El procedimiento de prueba para comparar frecuencias observadas con las frecuencias esperadas, se parece a los cálculos de bondad de ajuste. Específicamente, el valor de 2 χ basados en las frecuencias observadas y esperadas se calcula como sigue: Oi = Valor observado en la i-ésimo celda. Ei = Valor esperado en la i-ésimo celda. K = Categorías o celdas. Con n renglones y m columnas en la tabla de contingencia, el estadístico de prueba tiene una distribución ji cuadrada con (n – 1) (m – 1) grados de libertad, siempre y cuando las TRABAJO EN EQUIPO [ ] ∑= − = k i e eo i ii f ff 1 2 2 χ
  • 45. ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIAS MUESTRAS DE DATOS NUMÉRICOS frecuencias esperadas sean 5 o más para todas las categorías. En consecuencia proseguimos con el cálculo de la estadística de prueba ji cuadrada. Los cálculos necesarios para determinar el estadística ji cuadrada y ver si la preferencia de cerveza es independiente del género de quien la bebe se ven en la tabla. La cantidad de grados de libertad para la distribución ji cuadrada adecuada se determina multiplicando la cantidad de renglones menos 1 por la cantidad de columnas menos 1. Como tenemos dos renglones y tres columnas, entonces (2 – 1) (3 – 1) = (1) (2) = 2 grados de libertad para la prueba de independencia entre cerveza y género del consumidor. Con α = .05 como nivel de significancia de la prueba, buscamos en la tabla de ji cuadrada y nos da un valor 2 05.χ = 5.99. Observe que estamos usando el valor de la cola superior, porque rechazaremos la hipótesis nula sólo si las diferencias entre frecuencias observadas y esperadas producen un valor grande de 2 χ . En el ejemplo 2 χ =6.13 es mayor que 2 χ = 5.99. Por consiguiente, rechazaremos la hipótesis nula de independencia y concluimos que la, la preferencia cerveza preferida no es independiente del género del consumidor, es decir para las tres cervezas es diferente entre los consumidores hombres y mujeres y por lo tanto la Cervecería Modelo deberá estratificar a los consumidores para ajustar las promociones y la publicidad, teniendo en cuenta estas diferencias. 5.5 PRUEBAS DE CONTINGENCIA (ji-CUDRADA). La prueba chi-cuadrado de contingencia sirve para comprobar la independencia de frecuencias entre dos variables aleatorias, X e Y. TRABAJO EN EQUIPO Género Cerveza of ef )( eo ff − 2 )( eo ff − ijeo eff /)( 2 − Hombre ligera 20 26.67 -6.67 44.4889 1.66812523 Hombre clara 40 37.33 2.67 7.1289 0.19096973 Hombre Oscura 20 16 4 16 1 Mujer ligera 30 23.33 6.67 44.4889 1.90693956 Mujer clara 30 32.67 -2.67 7.1289 0.21820937 Mujer Oscura 10 14 -4 16 1.14285714 2 χ 6.12710104
  • 46. ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIAS MUESTRAS DE DATOS NUMÉRICOS Las hipótesis contrastadas en la prueba son: Hipótesis nula: X e Y son independientes. Hipótesis alternativa: X e Y no son independientes (No importa cuál sea la relación que mantengan ni el grado de esta. La condición de independencia, tal como fue definida en la página anterior era: X e Y son independientes si y sólo si para cualquier pareja de valores x e y la probabilidad de que X tome el valor x e Y el valor y, simultáneamente, es igual al producto de las probabilidades de que cada una tome el valor correspondiente. Por tanto, todo lo que necesitamos serán unas estimas de las funciones de probabilidad de ambas variables por separado (f(x) y f(y)) y de la función de probabilidad conjunta (f(x,y)) Empezaremos la prueba tomando una muestra de parejas de valores sobre la que contaremos la frecuencia absoluta con la que aparece cada combinación de valores (xi,yj) o de grupos de valores (i,j) (Oij) La tabla siguiente, en la que se recogen estos datos, es en realidad nuestra estimación de la función de probabilidad conjunta multiplicada por el número total de datos (T). Para obtener las estimas de las funciones de probabilidad marginales debemos sumar por filas y por columnas los valores de las frecuencias conjuntas. Las sumas de filas (Fi) son, en cada caso, el número de veces que hemos obtenido un valor de X (xi) en cualquier combinación con distintos valores de Y, es decir, son nuestra estima de la función de probabilidad de X multiplicada por el número total de observaciones; análogamente, las sumas de columnas (Cj) son nuestra estima de la función de probabilidad de Y multiplicada por el número total de observaciones. El número total de observaciones lo podemos obtener como la suma de todas las frecuencias observadas o, también, como la suma de las sumas de filas o de las sumas de columnas: TRABAJO EN EQUIPO
  • 47. ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIAS MUESTRAS DE DATOS NUMÉRICOS Así pues, si las variables fueran independientes debería cumplirse que Naturalmente, nadie espera que esta condición se cumpla exactamente debido al efecto de los errores de muestreo aleatorio. Por tanto, nuestro problema consiste en distinguir entre las diferencias producidas por efecto del muestreo y diferencias que revelen falta de independencia. Podemos convertir la ecuación anterior a frecuencias absolutas multiplicando por T: Si X e Y son independientes, Oij debe ser igual a y, por tanto, Bajo la hipótesis de independencia, es el valor esperado de Oij (Eij) Tal como pasaba en la prueba anterior, si las variables son independientes, es decir, si las frecuencias Eij son realmente los valores esperados de las frecuencias Oij, se puede calcular un parámetro que depende de ambas que tiene distribución chi-cuadrado, Por otra parte, si las variables no son independientes, las diferencias entre las series de frecuencias observadas y esperadas serán mayores que las atribuibles al efecto del azar y, al estar elevadas al cuadrado en el numerador de la expresión anterior, ésta tenderá a ser mayor que lo que suele ser el valor de una variable chi-cuadrado. Por tanto, el parámetro anterior ser el estadístico de la prueba de hipótesis y la región crítica se encontrar siempre en la cola derecha de la distribución chi-cuadrado. Nuevamente, esta prueba será siempre de una sola cola. Estadístico de contraste Se acepta la hipótesis nula si , el percentil 1 – α de la distribución chi- cuadrado con grados de libertad. TRABAJO EN EQUIPO
  • 48. ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIAS MUESTRAS DE DATOS NUMÉRICOS Tal como ocurría en la prueba anterior lo corriente es que queramos demostrar que dos variables son independientes, es decir, que, habitualmente, nos veremos obligados a colocar nuestra hipótesis en la hipótesis nula. El número de grados de libertad de la chi- cuadrado que sirve de contraste se calcula de la siguiente forma: A priori tendremos tantos grados de libertad como combinaciones de valores xi, yj tengamos (I J) A este número tendremos que restarle I debido a que, para calcular las frecuencias esperadas, necesitamos calcular las I sumas de filas en la tabla anterior. Conocidas las sumas de filas obtenemos el número total de observaciones sin perder ningún grado de libertad. A continuación, necesitaremos calcular, a partir de las frecuencias observadas J - 1 de las sumas de columnas; la restante podemos obtenerla restando la suma de las anteriores del total de observaciones (T). En resumen, el número de grados de libertad de la prueba es el producto del número de filas menos uno por el número de columnas menos uno. En cuanto a la magnitud mínima necesaria de las frecuencias observadas y esperadas, rigen las mismas normas que en el caso de la prueba de ajuste. En este caso, si nos viéramos obligados a juntar valores para sumar frecuencias, debemos unir columnas o filas completas (y contiguas). Obviamente, los grados de libertad no deben calcularse hasta que no se hayan realizado todas las agrupaciones necesarias y quede claro cuál es el número de filas y columnas de la tabla definitiva. Como hemos visto, esta prueba no hace ninguna suposición acerca del tipo de distribución de ninguna de las variables implicadas y utiliza únicamente información de la muestra, es decir, información contingente. Esta es la razón por la que, habitualmente, se le llama chi-cuadrado de contingencia. 5.6 PRUEBAS DE BONDAD DE AJUSTE. Las pruebas de bondad de ajuste tienen por objetivo determinar si los datos se ajustan a una determinada distribución, esta distribución puede estar completamente especificada (hipótesis simple) o perteneciente a una clase paramétrica (hipótesis compuesta). Una hipótesis estadística se definió como una afirmación o conjetura acerca de la distribución f(x,q) de una o más variables aleatorias. Igualmente se planteó que la distribución podía tener uno o más parámetros desconocidos, que denotamos por q y que la hipótesis se relaciona con este parámetro o conjunto de parámetros En otros casos, se desconoce por completo la forma de la distribución y la hipótesis entonces se relaciona con una distribución específica f(x,q) que podamos asignarle al conjunto de datos de la muestra. El primer problema, relacionado con los parámetros de una distribución conocida o supuesta es el problema que hemos analizado en los párrafos anteriores. Ahora examinaremos el problema de verificar si el conjunto de datos se puede ajustar o afirmar que proviene de una determinada distribución. Las pruebas estadísticas que tratan este problema reciben el nombre general de “Pruebas de Bondad de Ajuste”. Se analizarán dos pruebas básicas que pueden aplicarse: La prueba Chi - Cuadrado y la prueba de Smirnov-Kolmogorov. Ambas pruebas caen en la categoría de lo que en estadística se denominan pruebas de “Bondad de Ajuste” y miden, como el nombre lo indica, el grado de ajuste que existe entre la distribución obtenida a partir de la muestra y TRABAJO EN EQUIPO
  • 49. ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIAS MUESTRAS DE DATOS NUMÉRICOS la distribución teórica que se supone debe seguir esa muestra. Ambas pruebas están basadas en la hipótesis nula de que no hay diferencias significativas entre la distribución muestral y la teórica. Ambas pruebas están basadas en las siguientes hipótesis: H0: f(x,q) = f0(x,q) H1: f(x,q) ¹ f0(x,q) Donde f0(x, q) es la distribución que se supone sigue la muestra aleatoria. La hipótesis alternativa siempre se enuncia como que los datos no siguen la distribución supuesta. Si se desea examinar otra distribución específica, deberá realizarse de nuevo la otra prueba suponiendo que la hipótesis nula es esta nueva distribución. Al especificar la hipótesis nula, el conjunto de parámetros definidos por q puede ser conocido o desconocido. En caso de que los parámetros sean desconocidos, es necesario estimarlos mediante alguno de los métodos de estimación analizados con anterioridad. Para formular la hipótesis nula deberán tenerse en cuenta los siguientes aspectos o criterios: a) La naturaleza de los datos a analizar. Por ejemplo, si tratamos de investigar la distribución que siguen los tiempos de falla de unos componentes, podríamos pensar en una distribución exponencial, o una distribución gama o una distribución Weibull, pero en principio no consideraríamos una distribución normal. Si estamos analizando los caudales de un río en un determinado sitio, podríamos pensar en una distribución logarítmica normal, pero no en una distribución normal. b) Histograma. La forma que tome el histograma de frecuencia es quizás la mejor indicación del tipo de distribución a considerar. 5.7 APLICACIONES. Para la ocurrencia de dos eventos, en la cual se desea observar si son dependientes o independientes. La distribución ji cuadrada sirve para todas las inferencias sobre la variancia de una población. Existen muchos problemas para los cuales los datos son categorizados y los resultados expuestos en forma de conteos o cuentas. Se pueden aplicar en: un conjunto de calificaciones de un examen final puede ser representado como una distribución de frecuencias. Estos valores son cuentas: él numera de datos que caen en cada celda. En una encuesta determinada se podría preguntar a unas personas si votarían por los candidatos A, B o C, por lo general, los resultados se indican en una gráfica que informa acerca del número de votantes para cada categoría posible. TRABAJO EN EQUIPO
  • 50. ESTADISTICA INFERENCIAL 1 UNIDAD 4: PRUEBAS DE HIPOTESIS CON DOS MUESTRAS Y VARIAS MUESTRAS DE DATOS NUMÉRICOS TRABAJO EN EQUIPO