1. Análisis de Relaciones
Estadísticas
Notas de clase del Profesor J. Timaná
Las pruebas de hipótesis nos permiten generalizar los resultados que encontramos en una muestra. Por ejemplo,
supongamos que en un estudio observamos que en una muestra de 400 consumidores, hay una parte de estos que
son clientes leales, y que además en el grupo de clientes leales hay más mujeres que hombres. Sólo podemos decir
que ese hallazgo pertenece o es aplicable a la muestra. Si queremos generalizar este hallazgo a la población debemos
estar seguros que la evidencia brindada por la muestra es lo suficientemente fuerte como para hacer una declaración
más general que incluya a toda la población de estudio.
Uno de los usos más comunes de las pruebas de hipótesis es establecer la existencia de una relación estadística entre
dos variables. De hecho la forma más efectiva de plantear una hipótesis es formularla con la intervención de dos
variables. Eso hará que la herramienta sea más efectiva para discernir y tomar decisiones, si se trata de un problema
de gerencia, o de comprender fenómenos, si se trata de un problema de investigación. Las relaciones estadísticas
expresan cómo las diferencias en una variable (que llamaremos independiente) están asociadas a cambios en una
variable de interés (que llamaremos dependiente). Cuando la primera variable es una variable categórica, la prueba de
hipótesis nos permitirá comprobar la existencia de diferencias entre diferentes grupos.
Esta nota tiene como propósito ilustrar los casos más simples de este tipo de problema, mediante ejemplos basados
en el caso Astec (Malhotra, 2005), que está adjunto al final de esta nota. En el desarrollo de los ejercicios se ha
utilizado el software Gstat (g-stat.es)
Tipos de relaciones
La tabla al final de esta nota muestra los tipos de relaciones que pueden ser posibles entre dos variables. La tabla
incluye las pruebas estadísticas que son apropiadas en cada caso. Debe dejarse claro sin embargo que estas no son
única pruebas, sin embargo tienen la virtud de ilustra apropiadamente los principios estadísticos de pruebas similares.
Cuando estudiamos las relaciones estadísticas entre dos variables, es necesario tener en cuenta el rol que juega cada
una de ellas:
Variable Dependiente: Es la variable de estudio, cuyo comportamiento se quiere comprender, y que se cree
asociada a otra variable.
Variable Independiente: Es la variable explicativa, que se asume tiene cierta “influencia” sobre la variable
dependiente, o por lo menos se asocia a cambios en la variable dependiente.
Ejemplo:
Si nos planteamos la pregunta: ¿Qué afecta la frecuencia con la que una persona va de compras a los supermercados?,
podemos formular varias hipótesis. Por ejemplo, “las mujeres van de compras con más frecuencia que los hombres”,
con lo cual estaríamos indirectamente formulando una hipótesis como “la frecuencia de compra a los supermercados
está relacionada con el sexo (género)”. En este caso la variable dependiente (aquella que está influida por otra
variable) es la frecuencia de compra, mientras que la variable independiente o explicativa, es la variable sexo o
género, dado que la que determina o afecta la frecuencia de compra, o asimismo, podríamos decir que es la que
explica las diferencias en la frecuencia de compra.
Tanto la variable dependiente como la independiente pueden ser variables cuantitativas o cualitativas. Nosotros
estudiaremos sólo algunos de los casos específicos, y los estaremos relacionando con las formulaciones tradicionales
de prueba de hipótesis. En esta tabla se muestra esta relación, que explicaremos con mayor detalle más adelante.
2. VARIABLE VARÍABLE HIPÓTESIS NULA y PRUEBA
DEPENDIENTE INDEPENDIENTE
CUANTITATIVA O CUALITATIVA O H0: Las medias de cada una de las dos categorías son iguales
NUMÉRICA CATEGÓRICA CON SOLO (es decir que no hay relación entre las variables o que la
Usualmente DOS CATEGORÍAS variable independiente no influye en la dependiente)
representada por una H0: µ1 = µ2
media para cada Equivale a la prueba de hipótesis para dos medias
categoría
CUANTITATIVA O CUALITATIVA O H0: Las medias de todas las categorías son iguales (es decir que
NUMÉRICA CATEGÓRICA CON MÁS no hay relación entre las variables, o que la variable
Usualmente DE DOS CATEGORÍAS independiente no influye en la dependiente)
representada por una (digamos K grupos o H0: µ1 = µ2 = µ3=…=µκ
media para cada categorías) Esta prueba es equivalente a la prueba ANOVA de un sentido o
categoría un factor
CUALITATIVA O CUALITATIVA O H0: Las proporciones de la variable dependiente en cada grupo
CATEGÓRICA CON CATEGÓRICA CON o categoría de la variable independiente son iguales (es decir
VARIAS CATEGORIAS VARIAS CATEGORÍAS no hay relación entre las dos variables o que la variable
Usualmente independiente no influye en la dependiente)
representada por una H0: π1 = π2...= πκ
proporción para cada Esta prueba es equivalente a la prueba chi-cuadrado para la
categoría independencia de dos variables
CUALITATIVA O CUALITATIVA O H0: Las proporciones de la variable dependiente en cada grupo
CATEGÓRICA CON DOS CATEGÓRICA CON SOLO o categoría de la variable independiente son iguales (es decir
CATEGORIAS DOS CATEGORÍAS no hay relación entre las dos variables, o que la variable
Usualmente independiente no influye en la dependiente)
representada por una H0: π1 = π2
proporción para cada Esta prueba es equivalente a la prueba de diferencia de dos
categoría proporciones
CASO 1:
RELACIÓN ENTRE UNA VARIABLE DEPENDIENTE CUANTITATIVA Y UNA VARIABLE
INDEPENDIENTE CUALITATIVA DE DOS CATEGORÍAS (PRUEBAS t)
¿Existe una relación entre la importancia que se da a la calidad de los componentes (P10A) y el puesto del
entrevistado (P19)?
La variable dependiente es la importancia que se da a la calidad de los componentes (variable cuantitativa de
intervalo)
La variable independiente es el puesto del entrevistado.
La hipótesis nula es H0: No existe relación entre las variables (H0: µ1 = µ2)
La hipótesis alternativa es H1: Existe una relación entre las variables (H0: µ1 µ2), lo que quiere decir que el puesto
del entrevistado influye en la importancia que se da a la calidad de los componentes.
P10A es la variable dependiente cuantitativa y P19 es la variable independiente cualitativa
La siguiente figura muestra las medias y otras estadísticas para cada grupo.
3. La figura muestra una ligera diferencia entre las medias. La prueba estadística servirá para estar seguro que esa
diferencia significa que hay una asociación entre las variables, que se pueda generalizar a la población. La prueba
necesaria es la prueba t que se muestra a continuación.
VARIANZA COMBINADA
4. El valor de probabilidad (p-valor = 0.2383) nos dice que la diferencia no es significativa y por lo tanto
podemos decir que no hay relación entre las variables.
Al utilizar esta prueba t hemos supuesto que:
1) las desviaciones estándar (y las varianzas que se desconocen) son iguales. Este supuesto se hace evidente al
calcularse una varianza común o combinada, como se muestra en la figura anterior.
2) Las poblaciones tienen una distribución al menos aproximadamente normal. Teniendo en cuenta el Teorema
del Límite central, la suposición de normalidad de la población se hace poco importante debido a que este
supuesto se vuelve menos importante a medida que crece el tamaño de la muestra.
Caso de varianzas diferentes
Una alternativa es tratar este caso con una prueba t asumiendo varianzas desiguales. En este caso ya no es
posible combinar las varianzas para calcular una varianza común.
YA NO SE ESTIMA UNA
VARIANZA COMBINADA
El valor de probabilidad (p-valor = 0.3730) nos dice que la diferencia no es significativa y por lo tanto podemos decir
que en la población no hay relación entre las variables. Nótese que hay diferencias en el valor de probabilidad y el
hecho que no se calcula una varianza común a los dos grupos.
5. CASO 2:
RELACIÓN ENTRE UNA VARIABLE DEPENDIENTE CUANTITATIVA Y UNA VARIABLE
INDEPENDIENTE CUALITATIVA CON MÁS DE DOS CATEGORÍAS (ANOVA DE UN FACTOR)
¿Existe una relación entre la importancia que se da a la calidad de los componentes (P10A) y el tipo de generador que
compró el año pasado (P8)?
La variable dependiente es la importancia que se da a la calidad de los componentes (variable cuantitativa de
intervalo)
La variable independiente es el tipo de generador que se compró el año pasado
La hipótesis nula es H0: No existe relación entre las variables (H0: µ1 = µ2= µ3)
La hipótesis alternativa es H1: Existe una relación entre las variables (H1: por lo menos una media es diferente), lo
que quiere decir que el tipo de generador comprado influye en la importancia que se da a
la calidad de los componentes.
P10A es la variable dependiente cuantitativa y P8 es la variable independiente cualitativa
La siguiente figura muestra las medias y otras estadísticas para cada grupo.
Las medias muestran una ligera diferencia, lo que podría interpretarse como una relación entre las variables. La
prueba estadística para definir si esa relación existe es la prueba ANOVA.
6. El valor de probabilidad es significativo sólo al 14.04%, un nivel insuficiente para los estándares acostumbrados (es
decir α entre 5% y 10%). Por lo tanto aceptamos la hipótesis de no relación entre las variables. Esto quiere decir que a
pesar que en la muestra se han encontrado diferencias entre los tres grupos (A, B y C), esta diferencia no se puede
generalizar a la población.
CASO 3:
RELACIÓN ENTRE UNA VARIABLE DEPENDIENTE CUALITATIVA Y UNA VARIABLE
INDEPENDIENTE CUALITATIVA (PRUEBA CHI CUADRADO DE INDEPENDENCIA)
¿Existe una relación entre el nivel de ventas (P21) y el nivel de tecnología de las empresas (P22)?
Las dos variables son cualitativas. El nivel de ventas (ver P21 en el cuestionario) es la variable dependiente y se le
coloca en la filas), mientras que el nivel de tecnología (p22 en el cuestionario) es la variables independiente y va en las
columnas.
La hipótesis nula es: No hay relación entre nivel de ventas y el nivel de tecnología
La hipótesis alternativa es: Hay una relación entre el nivel de ventas y el nivel de tecnología
7. Los porcentajes de columna muestran diferencias bastante fuertes, sugiriendo una relación entre las
variables.
La prueba chi-cuadrado nos dice la el valor de probabilidad es pequeño, y que la hipótesis de no relación se puede
rechazar. La relación es significativa a 0.0001. Por lo tanto podemos concluir que si existe una relación entre las
variables.
8. CASO 4:
RELACIÓN ENTRE UNA VARIABLE DEPENDIENTE CUALITATIVA Y UNA VARIABLE
INDEPENDIENTE CUALITATIVA: CASO ESPECIAL CUANDO SOLO HAY DOS CATEGORIAS (PRUEBA
DE DIFERENCIA DE DOS PROPORCIONES)
¿Existe una relación entre la probabilidad de recurrir a servicio adicional (P16) y el cargo del entrevistado (P19)?
Las dos variables son cualitativas. P16 (ver cuestionario) es la variable dependiente y se le coloca en la filas), mientras
que P19 (cargo del entrevistado, ver el cuestionario) es la variables independiente y va en las columnas.
La hipótesis nula es: No hay relación entre estas dos variables
La hipótesis alternativa es: Hay una relación entre las dos variables
En realidad este es un caso especial de dos variables cualitativas, como en el caso 3 y podría usarse la prueba chi-
cuadrado. Auque también enfocarse por medio de la prueba de la diferencia de dos proporciones. La tabla cruzada es
la siguiente:
Como se observa la proporción de interesados en los servicios adicionales en el grupo de encargados de compra
(categoría 2 en P19) es de 79.52%, mientras que la proporción en el grupo de gerentes (categoría 1 en P19) es de 85%.
Si realizamos la prueba chi-cuadrado el resultado es el siguiente:
9. Al alto valor de probabilidad (0.5585) nos indica que no hay una relación estadística entre las variables.
Este problema podría resolverse también como una prueba de hipótesis de dos proporciones, tal como se ve en el
siguiente resultado:
Como se puede observar, el valor de probabilidad es aproximadamente el mismo, y por lo tanto la conclusión también
será la misma, no hay relación entre las variables
CASO 5
COMPARACIÓN DE DOS MEDIAS CUANDO LAS MUESTRAS SON DEPENDIENTES O
RELACIONADAS
¿Qué es más importante La garantía de distribución (p12c) o las explicaciones técnicas (p12d)?
Este es un caso especial de pruebas de hipótesis, por cuanto en este caso no tenemos estrictamente hablando una
variable independiente, ni tampoco una variable dependiente. Lo que se analiza o compara son dos mediciones (las
dos variables mencionadas) en una misma muestra (los encuestados de nuestro caso). Las mediciones al ser hechas
en la misma muestra, NO SON MEDICIONES INDEPENDIENTES, por lo que no podemos aplicar las pruebas t que se
estudiaron en los casos anteriores. Es necesario aplicar la prueba t para dos grupos apareados (relacionados).
Esto se muestra a continuación:
10. El resultado es el siguiente:
Nótese que la prueba se ha realizado para la media de la diferencia entre P12C y P12D
La hipótesis nula es: H0: La media de las diferencias entre cada par de valores de P12C y P12D es cero.
Como se puede observar, a través del valor de probabilidad (0.3737) no hay diferencia entre las variables.