2. ÍNDICE
1. Introducción.
Estadística bivariada: definición y uso.
2. Objetivo.
General.
Específico 1.
3.1 Metodología.
Población del estudio: muestra.
Variables a analizar.
Análisis de datos.
4.1 Resultados.
5.1 Conclusiones.
2. Objetivo
Específico 2
3.1 Metodología
4.1 Resultados
5.1 Conclusiones
3. 1. INTRODUCCIÓN
Estadística bivariada:
Es un tipo de estadística que aborda el estudio de los sucesos en los
que intervienen dos variables simultáneamente.
Nos sirven para determinar cuál es la relación o asociación entre
dos variables aleatorias:
• Asociación entre ambas contrastar hipótesis
• Grado de asociación.
• Establecer nuevas teorías y tomar decisiones.
4. 2. OBJETIVO
• General:
Utilizar la estadística bivariada para establecer la asociación entre
dos variables de nuestro fichero de datos, dando respuesta a
hipótesis de investigación específicas.
• Específica:
Resolver los ejercicios propuestos (1 y 2). Los mostraré en el
apartado de resultados.
5. EJERCICIO 1
Queremos conocer si existe asociación entre las variables del archivo
“activossalud.Rdata” “sexo” y Practicadeporte (Sí, No). Para ello y
usando el software “Rcommander”:
a) Describe y representa los datos en una tabla
b) Establece una hipótesis adecuada para el estudio
c) Utiliza la prueba más adecuada para contrastar tu hipótesis
d) Interpreta los resultados
6. 3.1. METODOLOGÍA
• MUESTRA
El fichero “estadistica_tics” contiene los datos de las encuestas
realizadas a 291 estudiantes de primero de enfermería de la
Universidad de Sevilla, centros propios y adscritos para conocer sus
estilos de vida y activos en salud.
• VARIABLES A ANALIZAR
Vamos a analizar dos variables cualitativas dicotómicas: “sexo” y
“practicadeporte”.
Sexo (hombre y mujer)
Práctica de deporte (Sí, no)
7. 3.1. METODOLOGÍA
• ANÁLISIS DE DATOS
El software estadístico utilizado se llama “R”. Este es un software informático
libre que sirve para estudios estadísticos y gráficos. El problema es que
necesita para su utilización conocer el lenguaje de programación por lo que
hemos utilizado un paquete del mismo llamado “Rcommander” que te
resuelve este problema.
El análisis estadístico que vamos a utilizar al ser dos variables dicotómicas
será la prueba Chi-cuadrado de Pearson, que tiene que cumplir:
- Variables independientes
- Frecuencias esperadas mayores de 5. Si son menos de 10 se usará la
prueba de corrección de Yates y si es menor a 5 se usará el test exacto de
Fisher.
8. 4.1. RESULTADOS
a) REPRESENTACIÓN EN UNA TABLA
Para representar los datos en “Rcommander” se va a utilizar una
tabla de contingencia 2x2. Observamos las frecuencias observadas
de las dos variables y los totales.
SEXO PRACTICADEPORTE
NO SI TOTAL
VARON 9 (a) 42 (b) 51
MUJER 123 (c) 117
(d)
240
TOTAL 132 159 291
9. b) HIPÓTESIS DE ESTUDIO
Para realizar un contraste de hipótesis, lo primero es establecerlas:
• H0: no existe asociación entre la variable sexo y la variable
practicadeporte, por lo que las diferencias que existan son debidas al
azar (p>0’05).
• H1: existe asociación entre la variable sexo y la variable
practicadeporte, por lo que las diferencias que existan no son debidas
al azar (p<0’05).
El nivel de significación fijado ha sido de un 5% o 0,05. Este error
corresponde con la probabilidad de cometer un error tipo 1 (rechazar la
Ho cuando es verdadera). Esto es lo que vamos a observar de R y lo que
vamos a interpretar.
10. c) PRUEBA MÁS ADECUADA
Se va a realizar la prueba estadística Chi-cuadrado de Pearson. Para ello, primero se
van a calcular las frecuencias esperadas a partir de la tabla de contingencia anterior:
FE 1.1 =
𝑎+𝑏 ∗(𝑎+𝑐)
𝑛
= 23′13 FE 1.2 =
𝑏+𝑎 ∗(𝑏+𝑑)
𝑛
= 27′86
FE 2.1 =
𝑐+𝑎 ∗(𝑐+𝑑)
𝑛
= 108′
86 FE 2.2 =
𝑑+𝑐 ∗(𝑑+𝑏)
𝑛
= 131′13
Como ninguna de las frecuencias esperadas es menor de 5, se puede utilizar la prueba
Chi-cuadrado de Pearson (en lugar del test exacto de Fisher).
11. c) INTERPRETACIÓN DE RESULTADOS
Comparamos la X2 calculada por “Rcommander” (19’163) con la X2
teórica obtenida a partir de la tabla (3’8415), teniendo en cuenta un
nivel de significación o error tipo 1 del 5%, y un grado de libertad 1
(nºfilas-nºcolumnas).
Como 3’8415 < 19’163, se rechaza la hipótesis nula y se acepta la
hipótesis alternativa.
12. 5.1. CONCLUSIONES
Al aceptar H1, decimos que el “sexo” y la variable “practicadeporte”
sí están asociadas, por lo que las diferencias existentes (los
hombres (82’35%) practican más deporte que las mujeres
(48’75%)) no se deben al azar y el test es estadísticamente
significativo (p<0’05).
Podemos calcular Odds ratio para ver la fuerza de asociación entre
ambas, en este caso 0,204851. Al ser mayor que 0 se asocia a una
mayor ocurrencia del evento en hombres dado que es el porcentaje
más alto, por lo que podemos decir que por cada hombre que
practica deporte, lo hacen 0,2 mujeres.
13. EJERCICIO 2
Determina que si existe relación y cómo de fuerte es entre las variables
“altura” y “peso”. Para ello y usando el software “R commander”:
a) Describe y representa los datos gráficamente
b) Establece una hipótesis adecuada para el estudio
c) Utiliza la prueba más adecuada para contrastar tu hipótesis
d) Interpreta los resultados
14. 3.2. METODOLOGÍA
• MUESTRA
El fichero “estadistica_tics” contiene los datos de las encuestas
realizadas a 291 estudiantes de primero de enfermería de la
Universidad de Sevilla, centros propios y adscritos para conocer sus
estilos de vida y activos en salud.
• VARIABLES A ANALIZAR
Vamos a analizar dos variables cuantitativas: “peso” y “altura”. En
nuestro conjunto de datos activo vemos que la variable “peso” es
una variable cuantitativa discreta (unidades kg); mientras
que “altura” es una variable cuantitativa de intervalo
(unidades metros).
15. 3.2. METODOLOGÍA
• ANÁLISIS DE DATOS
Utilizaremos el software estadístico llamado “R commander” que nos
facilitará el uso del software R dado que este funciona exclusivamente
mediante comandos.
Los análisis estadísticos que se van a realizar podrán ser dos dependiendo
de qué asunciones se cumplan:
• R de Pearson (prueba paramétrica).
Las asunciones son que tiene que tener una correlación lineal, seguir una
distribución normal y además, sabemos que oscula entre -1 a 1 (siendo 0 que no
existe asociación).
• Rho de Spearman (prueba no paramétrica).
Se utiliza en distribuciones que no siguen la normalidad, lineales y con datos
ordinales.
16. 4.2. RESULTADOS
a) Describe y representa
los datos
gráficamente.
• Diagrama de
dispersión:
Podemos ver una
correlación lineal
positiva porque cada valor
de x se corresponde con otro
de y distinto y ascendente.
17. Gráficas para variable altura.
Observamos que existe cierta asimetría en la variable altura, dado que el
histograma tiene desplazada la moda y la media (asimetría hacia la
derecha), en el diagrama de bigotes casi es simétrica si no contamos con
los puntos sueltos y el diagrama q-q es simétrica en los valores centrales
pero hay cierta asimetría en los extremos.
18. Gráficas para variable peso.
• Observamos también algo parecido, una asimetría en todos los
gráficos. Por lo que sospechamos que no va a seguir la
distribución normal
19. b) ESTABLECE HIPÓTESIS ADECUADAS
Para realizar un contraste de hipótesis, lo primero es establecerlas:
▫ Hipótesis nula=no hay asociación entre la altura y el peso; las
diferencias encontradas se deben al azar. α=p>0,05
▫ Hipótesis alternativa=hay asociación entre altura y el peso; no se
debe al azar las diferencias encontradas y tienen una explicación.
α=p<0,05
20. c) UTILIZA LA PRUEBA MÁS ADECUADA
• Sabiendo con los datos anteriores que las variables cumplen:
Correlación lineal positiva (directamente
proporcional, a más… más)= valores positivos hasta 1.
¿Distribución lineal? Gráficamente podríamos pensar
que no, de todas formas vamos a comprobarlo en cada
variable mediante Shapiro-Wilk.
Para este establecemos dos nuevas hipótesis:
H0=existe normalidad (P>0,05)
H1=no existe normalidad (P<0,05)
21. Vemos que la p obtenida es
menor que 0,05, luego
tenemos que rechazar H0 y
aceptar H1. Esto significa
que no hay normalidad.
22. c) PRUEBA MÁS ADECUADA
• Ahora sabemos que:
- Correlación lineal
- No sigue la distribución normal.
Esto nos lleva a utilizar las pruebas estadísticas no paramétricas,
que en este caso tendríamos que utilizar más adecuadamente el test
estadístico. Rho de Spearman
23. d) INTERPRETACIÓN DE LOS RESULTADOS
La p obtenida es menor que 0,05 por lo que tenemos que rechazar
la Ho y aceptar la hipótesis alternativa, por lo que hay
asociación entre ambas variables.
Además como Rho=0,622 sabemos que el grado de asociación
es fuerte dado que es mayor a 0,5.
24. 5.2. CONCLUSIONES
Podemos establecer que existe asociación entre las variables
altura y peso con una fuerza elevada. Además, esta relación
es directamente proporcional por lo que a más altura, mayor
peso.