1. ESCUELA SUPERIOR POLITÉCNICA DE CHIMBORAZO
FACULTAD DE INFORMÁTICA Y ELECTRÓNICA
ESCUELA DE INGENIERÍA ELECTRÓNICA TELECOMUNICACIONES Y
REDES
PROBABILIDAD Y ESTADÍSTICA
MANUAL R COMMANDER
CUARTO “A”
JOSÉ RECALDE 340
FECHA DE ENTREGA: 15-01-2013
SEPTIEMBRE 2013 – FEBRERO 2014
2. Manual del R-Commander
1. Introducción
Antes de profundizar en el conocimiento del lenguaje R, es útil empezar motivándose
mediante una interfaz que nos ofrezca la realización de las tareas, al menos de las más
sencillas. Para ello, R-Commander es una interfaz ideal que, además de permitirnos
interactuar con R para realizar análisis estadísticos básicos, presenta el código en lenguaje
R que corresponde a las acciones solicitadas.
Es posible que, para muchos de los alumnos del curso, R-Commander sea una herramienta
suficiente para todos los análisis estadísticos que tengan que abordar. Quienes encuentren
R-Commander insuficiente, una vez superado el respeto inicial hacia R tendrán que
manejarse directamente con la consola de R, creando y editando instrucciones a mano, lo
que puede resultar más engorroso, pero que permite un control total sobre los
procedimientos que en cada momento se van a aplicar.
2. Primeros pasos
Según la version de R y R-Commander que se eligió instalar, hay distintas formas de abrir
R-Commander:
Si instaló RExcel,
Si instaló R-UCA, abriendo Rterm automáticamente se abrirá también el RCommander.
Si instaló directamente R.
Desde la consola de R, seleccione Paquetes y después Cargar paquete... como se muestra en
la figura.
3. Figura: Cargar paquetes en R
Se visualizará una lista de paquetes; baje hasta encontrar Rcmdr y selecciónelo. Se abrirá la
ventana del programa R-Commander, que tendría que parecerse a la figura.
5. 3. Aspecto
Una vez abierto el R-Commander como se explica en la sección precedente, aparecerá una
ventana parecida a la figura.
6. Figura: Aspecto de R-Commander
La ventana consta de las siguientes partes:
7. barra de menús;
barra de elementos activos (conjuntos de datos y modelos);
área de instrucciones;
área de resultados;
área de mensajes.
4. Los datos
En las secciones que seguirán, se usará una base de datos elaborada a partir de una encuesta
realizada entre los turistas que pernoctan en Asturias.
Los datos son de distinta naturaleza: hay datos numéricos (por ejemplo los gastos) y datos
categóricos (por ejemplo el sexo).
El tamaño de la base de datos es de 2565 unidades. Se muestra una tabla de ejemplo en la
figura.
8. Figura: Base de datos sobre turismo en Asturias
Por cada entrevistado, se recogen los siguientes datos:
Código del cuestionario (codcue);
Zona geográfica (p1)
1.
Occidente
2.
Centro
3.
Oriente
9. Periodo de recogida datos (p2)
1.
Enero - Mayo
2.
Junio - Septiembre
3.
Octubre - Diciembre
Motivos de su visita (p3)
1.
Ocio - Vacaciones
2.
Trabajo
3.
Otro
¿Qué personas lo acompañan en este viaje? (p4)
1.
Viaja solo
2.
En pareja
3.
En familia
4.
Amigos - Grupo
5.
Compañeros de trabajo
Medio de transporte de llegada (p5)
1.
Coche - Moto propios
2.
Coche de alquiler
3.
Autobús contratado
4.
Autobús de línea regular
5.
Tren
6.
Avión
Tipo de establecimiento en que se aloja (p6)
10. 1.
Hotel
2.
Turismo Rural
3.
Camping
Procedencia de la persona entrevistada (p7)
1.
Asturiano
2.
Nacional
3.
Extranjero
¿Cuántas noches pernoctará en Asturias? (p8)
La estancia, ¿incluye fin de semana? (p9)
1.
Sí
2.
No
Gasto en comidas en el alojamiento (p10)
Gasto en comidas fuera del alojamiento (p11)
Gasto en bebidas en bares y cafeterías (p12)
Gasto en diversión en pubes y discotecas (p13)
Gasto en alojamiento (p14)
Gasto en actividades (p15)
Gasto en transporte (p16)
Gasto en compras varias (p17)
Sexo de la persona entrevistada (p18)
1.
Femenino
2.
Masculino
Gasto total diario por persona (gasdia)
Gasto total en el viaje por persona (gastotal)
5. Datos (I)
A continuación se explicarán los comandos básicos para abrir una base con R-Commander.
Los datos que usaremos en los ejemplos son los mismos de la sección precedente.
11. El menú que contiene los comandos de esta sección está representado en la figura.
Figura: Menú datos (primera parte)
5.1. Nuevo conjunto de datos
Este comando permite crear a mano y activar un nuevo conjunto de datos. Una vez
asignado un nombre al nuevo conjunto de datos se abrirá una tabla vacía, que el usuario
tendrá que rellenar con sus propios datos, como se muestra en la figura.
.
13. Este comando permite abrir un conjunto de datos ya existente, guardado en un fichero con
el formato nativo de R (.rda). En la figura se representa el procedimiento para abrir la base
de datos Turisguay, que seguiremos utilizando a lo largo de los próximos capítulos.
Figura: Cargar datos
14. 5.3. Importar datos
El programa R y el paquete R-Commander no solo permiten crear y trabajar sobre datos
con formato nativo, sino que permiten también utilizar ficheros provenientes de otros
programas. Los formatos de fichero soportados por R-Commander son
texto puro (en fichero, portapapeles o dirección URL);
SPSS;
Minitab;
STATA;
Excel;
Access.
Como ejemplo, abramos el conjunto de datos dataexcel.xlsx creado en Excel, siguendo las
instrucciones de la figura.
16. Con R-Commander es posible trabajar con varios conjuntos de datos cargados al mismo
tiempo. Sin embargo, solo uno estará activo, y su nombre aparece en la barra de elementos
activos a la derecha de Conjunto de datos, como se ilustra en la figura.
Figura: Conjunto de datos activo
Para visualizar todos los conjuntos de datos disponibles, haga doble clic en el recuadro de
figura, y aparecerá una ventanita con la lista de los nombres de los conjuntos de datos que
están cargados.
Figura: Lista de conjuntos de datos disponibles
Desde la consola de R-Commander es posible cambiar el conjunto de datos activo usando
el menú de figura. En este ejemplo se ilustra cómo pasar desde el conjunto de datos
Turisguay al conjunto de datos Jovenguay.
17. Figura: Cambiar conjunto de datos activo
Todos los análisis y los estadísticos que se calculan en R-Commander se realizan sola y
exclusivamente sobre la base de datos activa, así que tenga cuidado cuando maneje varios
conjuntos de datos a la vez: ¡asegúrese de trabajar sobre el conjunto apropriado! Es fácil
despistarse al crear nuevos conjuntos de datos mediante filtros u otras modificaciones.
6. Estadísticos
A continuación se explicará, con tablas y ejemplos, el funcionamiento de los principales
comandos disponibles en R-Commander para el cálculo de estadísticos. Los comandos de
esta sección se encuentran en el menú de la figura.
18. Figura: Menú de estadísticos
6.1. Resúmenes
Este menú contiene los estadísticos básicos para resumir el conjunto de datos activo. Los
comandos contenidos en este menú aparecen en la figura, y se explicarán en los próximos
epígrafes.
Figura 46: Menú de resúmenes
Conjunto de datos activos Según la naturaleza de la variable (cuantitativa o cualitativa),
tendremos (figura ):
Resúmenes numéricos para variables cuantitativas:
o mínimo y máximo
o media y mediana
19. o
primer y tercer cuartil
Es decir, los cinco cuartiles más la media.
Frecuencias absolutas para variables cualitativas (categóricas, factores).
Figura: Resúmenes del conjunto de datos activo
Resúmenes numéricos Este comando hace el resumen de una variable numérica (o varias).
Frente al resumen descrito antes, ofrece además la desviación típica.
Si, por ejemplo, queremos el resumen de la variable numérica ¿Cuántas noches pernoctará
en Asturias? (p8), seguiremos las instrucciones de la figura.
20. Figura: Resúmenes numéricos de ¿Cuántas noches pernoctará en Asturias? (p8)
También se pueden calcular los resúmenes de una variable numérica, segmentando los
resultados con respecto a una variable categórica. Si por ejemplo queremos conocer los
estadísticos de la variable Gasto total diario por persona (gasdia) con respecto a
Procedencia de la persona entrevistada (p7), seguiremos los pasos que se muestran en la
figura.
21. Figura: Resúmenes numéricos segmentados
La salida será una tabla parecida a la que aparece en la figura.
Figura: Descripción del gasto según procedencia
Distribución de frecuencias Se usa para calcular las frecuencias de los casos observados en
una variable categórica. Si por ejemplo estamos interesados a conocer la frecuencia de
turistas asturianos, nacionales y extranjeros (Procedencia de la persona entrevistada (p7)),
haremos como se ilustra en la figura.
22. Figura: Procedencia de los turistas: frecuencias
Número de observaciones ausentes Este comando genera una tabla donde por cada variable
se muestra el número de observaciones ausentes.
Para el conjunto de datos Turisguay, la ejecución del comando genera la tabla de la figura.
Figura: Número de ausentes
23. Tablas de estadísticos Se pueden hacer tablas con los estadísticos (media, mediana o
desviación típica) para comparar varias variables. Si por ejemplo queremos saber cuál es el
Gasto total en el viaje por persona (gastotal) medio de los turistas, según sean hombres o
mujeres (Sexo de la persona entrevistada (p18)) y según la Procedencia de la persona
entrevistada (p7), haremos como se ilustra en la figura.
Figura: Tablas de estadísticos
La salida será una tabla parecida a la que se muestra en la figura.
Figura: Gasto medio según sexo y procedencia
Matriz de correlaciones Calcula las matrices de correlaciones de Pearson o de Spearman
entre las variables seleccionadas.
Test de correlación Contraste para la asociación entre variables emparejadas. Se pueden
calcular distintos coeficientes (Pearson, Tau de Kendall y Rho de Spearman).
24. Test de normalidad de Shapiro-Wilk Realiza el contraste de normalidad de Shapiro-Wilk.
La salida será el valor del estadístico y el correspondiente P-valor.
6.2. Tablas
Tablas de contingencia Permite hallar las frecuencias de la distribución conjunta de dos
variables categóricas, es decir, el número de casos en que se manifiestan simultáneamente
cada combinación de valores de cada variable.
Si por ejemplo queremos contar cuántos encuestados se quedarán durante el fin de semana
(La estancia, ¿incluye fin de semana? (p9)), en función del Periodo de recogida datos (p2),
haremos como se muestra en la figura. También se puede calcular el estadístico ji cuadrado
del contraste de independencia u homogeneidad.
Figura: Existe una relación significativa entre periodo de visita y estancia en fin de semana
Tablas de entradas múltiples Este menú permite construir tablas para la distribución
conjunta de tres, cuatro o más variables. Si por ejemplo queremos hacer una tabla donde
25. aparezcan las frecuencias de las variable Periodo de recogida datos (p2) y Procedencia de la
persona entrevistada (p7), agrupadas según la variable Sexo de la persona entrevistada
(p18), marcaremos en la primera columna p2, en la segunda p7 y en la tercera p18. La
salida se muestra en la figura.
Figura: Tablas de triple entrada: salida
Para el caso de más de tres variables, obsérvese la figura; en la pantalla de construcción de
la tabla se marcarán las variables de interés, una en la primera lista, una en la segunda y una
o más en la tercera.
Si por ejemplo queremos conocer cuántos casos hay por cada posible valor de las cuatro
variables Periodo de recogida datos (p2), Procedencia de la persona entrevistada (p7), La
estancia, ¿incluye fin de semana? (p9) y Sexo de la persona entrevistada (p18), elegiremos
como en la figura tabla entrada múltiple, cuya salida será una lista de tablas (figura tabla
entrada múltiple salida).
27. Figura: Tablas de entrada múltiple: salida
6.3. Medias
Test t para una muestra Sirve para hacer contrastes de hipótesis para la media de una
variable cuantitativa con distribución normal. En la pantalla de construcción del contraste
se pueden elegir:
tipo de contraste — bilateral (igualdad), unilaterales (menor o mayor);
valor de la media bajo la hipótesis nula;
nivel de confianza para el intervalo de estimación.
Por ejemplo, si queremos averiguar si la media del Gasto total en el viaje por persona
(gastotal) es mayor que 300, haremos como se muestra en la figura 1, cuya salida aparece
en la figura 2.
28. Figura 1: Contraste t para una media
Figura 2: No se rechaza que el gasto total sea igual a 300 euros al 95 por ciento de
confianza
Test t para muestras independientes Realiza un contraste de hipótesis de igualdad de medias
entre dos muestras. Se necesita por un lado una variable cuantitativa y, por otro, una
variable dicotómica (cualitativa o factor, con sólo dos modalidades) que indique los dos
grupos (por ejemplo, el sexo).
En el ejemplo de la figura3 , se muestra cómo realizar un contraste para averiguar si el
Gasto total en el viaje por persona (gastotal) promedio es mayor para las mujeres que para
los hombres, con un nivel de confianza del 95% y suponiendo que la dos muestras tengan la
misma varianza. La salida aparece en la figura 4.
29. Figura 3: Contraste t para muestras independientes
Figura 4: El gasto medio es igual para hombres y mujeres
Como otro ejemplo, queremos averiguar si en el Gasto total en el viaje por persona
(gastotal) medio influye la variable dicotómica La estancia, ¿incluye fin de semana? (p9)
(figura 5).
30. Figura 5: El gasto medio es significativamente distinto si la estancia incluye fin de semana
Test t para datos emparejados Se utiliza para contrastar dos variables en que los datos se
suponen relacionados, como al comparar dos variables observadas sobre los mismos
individuos. Por ejemplo, si queremos averiguar si el gasto medio en Gasto en bebidas en
bares y cafeterías (p12) es igual al gasto medio en Gasto en diversión en pubes y discotecas
(p13), haremos como se muestra en la figura 6, cuya salida aparece en la figura 7.
Figura 6: Contraste t para datos emparejados
31. Figura 7: La diferencia entre los gastos medios es significativa
ANOVA de un factor Este comando permite contrastar la igualdad de medias en varias
muestras independientes, mediante un análisis de varianza. Si por ejemplo queremos
comprobar si el Gasto total en el viaje por persona (gastotal) medio es igual
independientemente del valor de Zona geográfica (p1), haremos como se muestra en la
figura 8, marcando la variable gastotal en la columna izquierda y p1 en la derecha; si
queremos ver si depende del sexo, marcaremos gastotal a la izquierda y p18 a la derecha.
La salida está representada en la figura 9.
Figura 8: Análisis de varianza con un solo factor
32. Figura 9: En el gasto medio influye la zona pero no el sexo
6.4. Varianzas
Test F para 2 varianzas La resolución del contraste t para comparar medias de muestras
independientes depende de la homoscedasticidad (igualdad de varianzas) en las dos
muestras. Mediante el comando que nos ocupa se puede realizar un contraste F para
comparar la varianza de dos muestras, suponiendo que la variable sigue una distribución
normal.
Como ejemplo, pensemos en el Gasto en diversión en pubes y discotecas (p13), en función
de si el encuestado se queda o no el fin de semana (La estancia, ¿incluye fin de semana?
(p9)). Para probar si las dos muestras tienen la misma varianza seguimos los comandos que
se muestran en la figura 1. La salida es el resultado del contraste de hipótesis con su P-valor
(figura 2).
33. Figura 1: Contraste F de igualdad de dos varianzas
Figura 2: Las varianzas son significativamente distintas, por lo que hay que ser prudente al
contrastar la igualdad de medias
Test de Bartlett Una de las hipótesis del análisis de varianza es la homoscedasticidad entre
las muestras independientes. El contraste de Bartlett es similar al contraste del epígrafe
anterior, pero permite contrastar más de dos muestras independientes.
Las figuras 3 y 4 representan el mismo ejemplo del epígrafe anterior, considerando las
mismas variables, pero con el contraste de Bartlett en vez del contraste F .
34. Figura 5: Contraste de Bartlett: entrada
Figura 6: Contraste de Bartlett: salida
6.5. Test no paramétricos
Test de Wilcoxon para dos muestras Contraste no paramétrico correspondiente al contraste
t de medias.
Si por ejemplo queremos averiguar si el Gasto en diversión en pubes y discotecas (p13) es
distinto respecto a si el turista encuestado se queda durante el fin de semana, podemos
realizar el contraste como en se muestra en la figura 7. La salida está representada en la
figura 8.
35. Figura 7: Contraste de Wilcoxon para dos muestras: entrada
Figura 8: Contraste de Wilcoxon para dos muestras: salida
Test de Kruskall-Wallis Es un contraste no paramétrico correspondiente al contraste de
igualdad de medias de dos o más poblaciones.
Considerando por ejemplo el Gasto total en el viaje por persona (gastotal) en las tres
distintas temporadas en que se recogieron los datos (Periodo de recogida datos (p2)),
podemos preguntarnos si las tres muestras provienen de la misma población. Para realizar
la prueba en R-Commander, síganse las instrucciones de la figura 9, y se obtendrá la salida
de la figura 10.
36. Figura 9: Contraste de Kruskall-Wallis: entrada
Figura 10: Contraste de Kruskall-Wallis: salida
6.6. Análisis dimensional
Agrupación jerárquica Este comando permite hacer agrupaciónes jerárquicas. Si por
ejemplo queremos agrupar las variables Gasto total diario por persona (gasdia) y Gasto
total en el viaje por persona (gastotal), seguiremos las instrucciones de la figura 11.
Además de dibujar el dendrograma, tambien se creará una nueva variable HClust.2, que
puede ser agregada al conjunto de datos activo con el comando del próximo epígrafe.
37.
38. Figura 11: Agrupación jerárquica y dendograma
Agregar la agrupación jerárquica al conjunto de datos... Este comando permite agregar al
conjunto de datos activos las variables indicadoras de los grupos generados con el comando
del epígrafe anterior.
Por ejemplo, podemos agregar la variable HClust.2, que hemos generado en el ejemplo
precedente, siguiendo las instrucciones de la figura 12. Como se puede ver en la tercera
ventana de la figura 12, la nueva variable aparece al final de la base de datos y se presenta
con tres niveles.
39.
40. Figura 12: Agregar la variable HClust.2 al conjunto de datos activo
Una vez que hemos adjuntado esta nueva variable, podemos calcular, por ejemplo, el gasto
total según la variable de agrupación, como se indicaba en la sección 4.6.1 (figura 78).
41. Figura 13: Gasto total según la variable de agrupación HClust.2
6.7. Ajuste de modelos
En esta parte analizaremos cómo construir modelos de regresión lineal para los datos,
mientras la parte de evaluación y mejora de los ajustes se tratará más adelante. El menú
para construir los modelos está representado en la figura 13.
Figura 13: Menú de ajuste de modelos
Regresión lineal Es muy sencillo construir un modelo de regresión. Una vez fijadas la
variable por explicar y todas las variables explicativas, se construye el modelo según las
instrucciones de figura 14. En este caso hemos elegido el Gasto total en el viaje por persona
(gastotal) como variable por explicar y todas las otras variables numéricas se utilizarán
como variables explicativas. El programa calcula el valor de los coeficientes y también
realiza una primera evaluación del ajuste, tal como se muestra en la figura 15.
43. Modelo lineal Es muy parecido al caso precedente, pero en este modelo se pueden
incorporar también variables categóricas. En el ejemplo hemos calculado el valor de los
coeficientes para un modelo lineal con todas las variables categóricas de la base de datos.
Como se muestra en la figura 16, también se pueden efectuar trasformaciones al vuelo
sobre el valor de las variables explicativas, bien con las teclas ilustradas en la ventana, bien
tecleando directamente. La salida está representada en figura 17.
Figura 16: Modelo lineal
44. Figura 17: Modelo lineal: salida
7. Modelos
En este apartado presentamos las herramientas básicas para la evaluación de modelos
estadísticos (por ejemplo, modelos de regresión lineal). El menú que permite acceder a los
comandos para la evaluación de los modelos está representado en la figura 1.
45. Figura 1: Menú de modelos
7.1. Resumir el modelo
Es un primer vistazo al modelo; nos enseña las características básicas del modelo, como se
ilustra en la figura 1:
fórmula del modelo;
coeficientes calculados para cada variable explicativa:
o coeficiente;
o desviación típica;
o valor estadístico t;
o P-valor;
información sobre el ajuste:
o R cuadrado;
o estadístico F y su P-valor.
46. Figura 1: Resumen de modelo
7.2. Selección del modelo paso a paso
Esta técnica permite, de forma rápida y automática, refinar un modelo con distintos
procedimientos. La idea es probar a quitar y añadir variables a un modelo ya existente,
evaluar los efectos de dichos cambios y elegir qué variables mantener y cuáles omitir. Para
la evaluación de la bondad del ajuste se pueden usar dos métodos:
BIC: criterio de información bayesiano
AIC: criterio de información de Akaike
mientras que las técnicas para quitar y añadir variables son cuatro:
atrás/adelante;
adelante/atrás;
atrás;
adelante.
47. Combinando técnicas y formas de evaluación se pueden construir algoritmos de
mejoramiento del ajuste de forma bastante sencilla.
Consideramos ahora el modelo construido en la sección precedente, donde se explicaba el
gasto total en función de todas las variables numéricas de la base de datos. Con el comando
Resumir el modelo, podemos averiguar que no todas las variables son significativas, y que
en general el modelo podría ser mejorado. Aplicamos entonces una de las técnicas
propuestas (figura 1) y analizamos los resultados (figura 2 ).
Figura 1: Selección paso a paso: entrada
48.
49. Figura 2: Selección paso a paso: salida
La técnica atrás/adelante con criterio de información bayesiano es un algoritmo compuesto
de los siguientes pasos:
1. Inicio: se considera el modelo con todas las variables explicativas posibles.
2. Quitar una variable y evaluar el modelo con el criterio. Una vez acabado, volver a
añadir la variable. (Paso atrás.)
3. Repetir el paso precedente hasta haber probado con todas las variables.
4. Ordenar los modelos calculados en los pasos 2 y 3 y construir el nuevo ajuste con una
variable menos.
5. Repetir los pasos 2 y 3, aplicándolos a el nuevo modelo, y esta vez también se puede
añadir la variable quitada. (Pasos atrás/adelante.)
6. Ejecutar el procedimiento hasta que ningún cambio en las variables mejore en el ajuste.
7. El modelo final será el modelo al que no se puedan ni añadir ni quitar variables sin
bajar la calidad.
La técnica llamada adelante/atrás sigue el mismo algoritmo, pero en vez que arrancar con el
modelo con todas variables, arranca con el modelo sin variables explicativas y va
añadiendo una a una las variables hasta que se queda con el mejor ajuste.
Las técnicas adelante y atrás son más sencillas porque no consideran la posibilidad de
volver a añadir (o quitar) variables descartadas (paso 5).
7.3. Gráficas básicas de diagnóstico
Una vez seleccionado el modelo, es posible dibujar las gráficas de diagnóstico. La salida,
en el caso del modelo que explica el Gasto total en el viaje por persona (gastotal) en
función de ¿Cuántas noches pernoctará en Asturias? (p8), Gasto en bebidas en bares y
cafeterías (p12), Gasto en diversión en pubes y discotecas (p13), Gasto en alojamiento
(p14) y Gasto en transporte (p16), está representada en la figura 1.
50. Figura 1: Gráficas de diagnóstico
En los párrafos siguientes se ofrece una sucinta explicación de las gráficas.
1. Residuos frente a ajustados.
51. Representa los residuos (diferencias entre el valor real y el valor ajustado/predicho) frente a
los valores ajustados. Si la regresión es simple (Y = a + bX), sería equivalente a un gráfico
de residuos frente a la variable independiente (X).
Si un punto está relativamente muy por encima o muy por debajo de la recta horizontal, es
un valor atípico (aparecen destacados en el gráfico con sendas etiquetas). El gráfico sirve
también para detectar heteroscedasticidad, falta de independencia, falta de (recti)linealidad,
etc.
2. Residuos tipificados frente a cuantiles teóricos (de una distribución gausiana)
Una hipótesis de los modelos de regresión habituales una hipótesis es que los residuos
tienen distribución gausiana (normal).
El gráfico cuantil-cuantil sirve para diagnosticar el cumplimiento de esa hipótesis. En el
caso perfecto, todos los puntos estarían en línea recta. Las desviaciones de la recta suelen
apreciarse en los puntos de los extremos. Los puntos que más se desvían de la hipótesis
aparecen destacados con sendas etiquetas identificativas.
3. Escala-posición: raíz de valor absoluto de residuo frente a valores ajustados
Cabe destacar que, en contraste con la primera gráfica, en ésta se toma el valor absoluto,
para comparar la magnitud del residuo independientemente del sentido arriba/abajo; y se
toma la raíz cuadrada para disminuir la asimetría, que suele dificultar la interpretación.
Por lo anterior, puede facilitar la diagnosis de la homoscedasticidad. Sin embargo, puede
dificultar la diagnosis de linealidad, precisamente por las trasformaciones a que se someten
los residuos.
4. Residuos tipificados frente a palancaje
El palancaje es una medida de la influencia que tiene un punto en el cálculo de los
coeficientes del modelo. El palancaje se basa en la aportación del punto a las varianzas de
las variables independientes.
Los puntos a la derecha de la gráfica tienen gran palancaje. Tales puntos poseen una
influencia notable si el residuo correspondiente se separa mucho del cero; en concreto, se
suele considerar muy influyente si supera la distacia de Cook igual a 1 (que se corresponde
con una de las líneas rojas de la gráfica). Los puntos notables aparecen destacados con su
etiqueta.
8. Gráficas
Unas herramientas muy útiles a la hora de hacer estadística son sin duda las gráficas.
Muchas veces la visualización de la gráfica adecuada nos ayuda a hacernos una idea
preliminar de la variable que queremos analizar.
52. En lo que sigue aprenderemos a construir distintas gráficas usando el menú apropiado. El
menú que permite acceder a los comandos para construir las gráficas está representado en la
figura 1.
Figura 1: Menú de gráficas
8.1. Diagrama de caja
Dibuja el típico diagrama de cajas y bigotes para una variable cuantitativa. Siguiendo las
instrucciones de la figura 1, podemos construir la gráfica de la figura 2, que representa el
diagrama de caja de la variable Gasto total diario por persona (gasdia).
54. Figura 2: Diagrama de caja: gasto diario
También se pueden construir diagramas de cajas para variables cuantitativas segmentadas
con respecto a otras variables categóricas. En el ejemplo de figura 3 hemos construido el
diagrama para el Gasto total diario por persona (gasdia) con respecto a la Procedencia de la
persona entrevistada (p7).
Figura 3: Diagrama de caja por grupos
55. 8.2. Histograma
Este comando permite construir histogramas para variables numéricas. En la figura 1 en la
página 322 está representado el histograma del Gasto total diario por persona (gasdia).
Figura 1: Histograma: gasto diario
56. ¿Cómo cambiar las etiquetas del gráfico?
Siendo las gráficas unas herramientas muy útiles y ampliamente utilizadas en estadística, es
necesario que sean lo más claras posible y que se puedan presentar incluso solas, o sea, sin
estar acompañadas por datos numéricos; por esta razon deberían ser auto-explicativas en la
mayoría de los casos.
Es importante entonces que cada gráfica contenga toda la información necesaria para su
interpretación. Uno de los aspectos importantes en este sentido es explicar, con etiquetas, el
título de la gráfica y las variables que en ella intervienen.
Desafortunadamente, con R-Commander no es posible modificar estas características, pero
en lo que sigue daremos una explicación sencilla de cómo operar con los comandos de R
para añadir a una gráfica generada con R-Commander las etiquetas de las variables y del
título.
Para empezar, cuando se genera una gráfica con R-Commander, automáticamente se está
pidiendo a R seguir algunos comandos específicos, los cuales aparecen reflejados en el área
de instrucciones; en el caso de la gráfica representada en la figura 4, que representa el
histograma del gasto diario, el comando seria:
hist (Turisguay$gasdia, scale=~percent~, breaks=~Sturges~, col=~darkgray~)
que corresponde a pedir:
hist (...) — un histograma...
Turisguay$gasdia— ...de la variable Gasto total diario por persona (gasdia) en el
conjunto de datos Turisguay...
scale=~percent~ — ...que representa los porcentajes...
breaks=~Sturges~ — ...calculando el ancho de las columnas con el método de
Sturges...
col=~darkgray~ — ...y pintando las columnas de un color gris oscuro.
Para añadir las etiquetas habrá que usar el comando:
hist (Turisguay$gasdia, main=~Gasto total diario~,
xlab=~Euros~, ylab=~Porcentaje (%)~,
scale=~percent~, breaks=~Sturges~, col=~darkgray~)
donde las opciones añadidas significan que:
main=~Gasto total diario~ — el título será Gasto total diario,
xlab=Euros~ — el eje horizontal llevará la etiqueta Euros y
ylab=~Porcentaje (%)~ — el eje vertical llevará la etiqueta Porcentaje ( %).
El resultado de este comando está representado en la figura 5.
57. Figura 3: Histograma con etiquetas
4.8. Gráfica de barras
Es una gráfica adecuada para representar las frecuencias de las variables categóricas, en
especial las ordinales. En el eje horizontal se ponen las categorías (niveles o modalidades) y
58. en el eje vertical se representan las frecuencias por cada nivel. En la figura 1 se representa
la gráfica de barra de la variable Procedencia de la persona entrevistada (p7).
Figura 1: Gráfica de barras: procedencia
59. También a las gráficas de barra es importante añadir las etiquetas de los ejes y el título; si
para producir la gráfica de barras 95, el comando que automáticamente ha usado RCommander ha sido:
barplot (table (Turisguay$p7), xlab=~p7~, ylab=~Frequency~)
para añadir título y etiquetas, usaremos lo siguiente:
barplot (table (Turisguay$p7), xlab=~p7~, ylab=~Frequency~,
main=~Procedencia~)
cuyo resultado se representa en la figura 2.
60. Figura 2: Gráfica de barras con título y etiquetas
9. Datos (II)
En esta sección seguiremos explicando los comandos contenidos en el menú Datos, que ya
hemos introducido en la sección 5.
61. En esta sección veremos aquellos comandos que permiten modificar, agrupar, segmentar y
eliminar tanto los datos como las variables del conjunto de datos activo.
9.1. Conjunto de datos en paquetes
Existen diferentes bases de datos de ejemplo que acompañan a algunos de los paquetes de
R. Con este comando se puede cargar estos archivos y, si posible, obtener información
adicional sobre los mismos.
4.9.2. Conjunto de datos activos
Seleccionar Equivale a pinchar con el ratón en el nombre del conjunto de datos activo, sito
en la barra de elementos activos de R-Commander.
Actualizar Es conveniente si se realizan acciones en la consola de R, al margen de RCommander. De esta manera, R-Commander actualiza su información sobre los datos que
pudieron modificarse sin que se diera cuenta.
Ayuda sobre conjunto de datos activo Si existe información adicional sobre el conjunto de
datos se visualizará en una ventana (es el caso de muchas de las bases de datos contenidas
como ejemplos en los paquete de R).
Establecer nombres de casos Sirve para usar una variable como nombre de los casos
(individuos de la muestra), en lugar del número consecutivo que se le asigna por omisión,
de forma que se puede identificar más facilmente un caso en una tabla o en una gráfica. En
nuestro ejemplo, la variable Código del cuestionario (codcue) representa el código del
encuestado y se presta muy bien como nombre de los casos. De hecho sólo las variables
que tienen un valor distinto por cada caso se pueden utilizar (razonablemente) para nombrar
los casos.
Variables del conjunto de datos activo Este comando enumera las variables del conjunto de
datos activo. En nuestro caso, por ejemplo, el resultado sería la lista de figura 1.
62. Figura 1: Variables del conjunto de datos
Filtrar el conjunto de datos activo Este comando es muy útil cuando queremos restringir
nuestra base de datos a un subconjunto de casos que cumplen una determinada condición.
Si por ejemplo queremos trabajar sólo con los datos de los turistas de la zona occidental de
Asturias, haremos como en figura 2. Ojo, que para indicar igualdad hay que usar un doble
signo igual: ==; para desigualdad, !=.
Conviene indicar un Nombre del nuevo conjunto de datos, de forma que la salida es un
nuevo conjunto de datos, distinto del original, en el sentido de que pueden coexistir ambos
en el entorno R. En el nuevo conjunto aparecen sólo los datos relativos a los encuestados de
la zona occidental.
Figura 2: Filtrar datos: sólo Occidente
También se pueden poner condiciones más complejas. Para expresar la selección se pueden
usar los operadores lógicos de conjunción Y (&), de disyunción O (|) y de negación NO (!).
63. Pruebe a filtrar los datos, a partir del conjunto de datos Turisguay, según las siguientes
condiciones:
turistas extranjeros que vinieron en avión
p7 == ’Extranjero’ & p5 == ’Avion’→TurisExtrAvion
españoles (asturianos y nacionales) que se gastaron a lo sumo cinco euros en bares y
cafeterías
p7 != ’Extranjero’ & p12 <= 5→TurisEspBaresMenos5
parejas que gastaron más de diez euros de alojamiento por noche
p4 == ’En pareja’ & p14 > 10→ TurisParejaAlojMas10
asturianos que se gastaron en total o más de 200 euros o menos de 50 euros
p7 == ’Asturiano’ & (gastotal < 50 | gastotal > 200) → TurisAstuMasoMenos
Recuerde que cada vez que filtre los datos, el nuevo conjunto de datos activo será el propio
conjunto filtrado, así que, si quiere volver a trabajar con el conjunto original, tendrá que
volver a seleccionarlo.
Borrar fila(s) del conjunto de datos activo Este comando permite borrar uno o más casos
del conjunto de datos y llamar al nuevo conjunto de datos con un nuevo nombre.
En el ejemplo que se muestra en la figura 3, hemos quitado la fila numero 6.
Figura 3: Borrar fila
Eliminar los casos con valores omitidos Permite eliminar los casos donde haya una variable
con valor ausente.
Guardar el conjunto de datos activo Permite guardar el conjunto activo de datos en formato
.rda, formato binario (código objeto) nativo de R.
Exportar el conjunto de datos activo Permite guardar el conjunto activo de datos en formato
de texto puro.
64. 9.3. Modificar variables del conjunto de datos activos
Recodificar variables Recodificar variables significa normalmente transformar una variable
numérica o categórica en una categórica. Existen muchas posibilidades, que esperamos
aclarar a la luz de los siguientes ejemplos.
En el conjunto de datos Turisguay, queremos recodificar la variable Zona geográfica (p1),
de forma que los datos recogidos en la parte occidental de Asturias aparezcan marcados con
una A, mientras que todos los otros con una B. Para ello seguiremos las instrucciones que
se muestran en la figura 1. La nueva variable categórica turisp1ab contiene sólo A y B,
como se ve en la figura 2.
Figura 1: Recodificar p1 con A y B
65. Figura 2: Variable recodificada turisp1ab
Otros ejemplos podrían ser los siguientes:
1. Recodificar la variable Medio de transporte de llegada (p5) en la nueva variable
mediopropio, diferenciando entre quien vino con su propio medio de transporte (propio) y
quien vino con medios públicos (publico).
2. Recodificar la variable Periodo de recogida datos (p2) en la nueva variable temporada, de
forma que las tres distintas temporadas aparezcan con los nombres: primera, segunda y
tercera.
3. Crear la variable Estancia a partir de la variable ¿Cuántas noches pernoctará en Asturias?
(p8) donde aparezcan los siguientes niveles:
Estancia corta si el numero de noches es menor que 2.
66. Estancia media si el numero de noches queda entre 2 y 7.
Estancia larga si el numero de noches es mayor de 7.
4. Imagínese una base de datos donde los encuestados votaron en una escala entre 0 y 10 su
propio agradecimiento con respecto a una película (variable voto). Lo que queremos hacer
es que, para todos los que votaron entre 0 y 3, aparezca la etiqueta bajo, medio para votos
entre 4 y 8, y alto para los restantes.
Posibles soluciones a los ejemplos anteriores:
Vieja variable
Directrices de recodificaión
Nueva variable
~Coche-moto propio~=~propio~
Medio de transporte de llegada (p5)else = ~publico~
mediopropio
Periodo de recogida datos (p2)
~Enero-Mayo~ = ~primera~
~Junio-Septiembre~ = ~segunda~temporada
else = ~tercera~
Noches pernoctación (p8)
0,1=~Estancia corta~
2:7=~Estancia media~
else=~Estancia larga~
Estancia
voto
0:3 = ~bajo~
4,5,6,7,8 = ~medio~
else = ~alto~
etiquetas
Calcular una nueva variable Se pueden calcular nuevas variables a partir de las que tenemos
en la base de datos. Se pueden usar todas las típicas operaciones aritméticas y conviene
asignar a la nueva variable un nombre que no aparezca ya en la lista de las variables.
En los ejemplos de la figura 3, hemos calculado primero el gasto en servicios que no fueran
comidas (sumando los gastos en Gasto en bebidas en bares y cafeterías (p12), Gasto en
diversión en pubes y discotecas (p13), Gasto en alojamiento (p14), Gasto en actividades
(p15), Gasto en transporte (p16) y Gasto en compras varias (p17)) y hemos llamado a esta
nueva variable gastonocomida. Después hemos calculado el porcentaje de gastos distintos
de la comida sobre el total y lo hemos llamado NoComSobreTotal.
La salida se muestra en la figura 3, donde las dos columnas representan respectivamente las
dos nuevas variables gastonocomida y NoComSobreTotal.
67. Figura 3: Cálculo de dos nuevas variables
Convertir variable númerica en factor Este comando sirve para convertir una variable
numérica en variable categórica. Esto es a menudo ineludible porque R-Commander sólo
68. permite ciertos estadísticos y gráficas para variables de un determinado tipo. A la hora de la
trasformación, cabe la posibilidad de dar nombres a las categorías, o que éstas se
identifiquen mediante el código numérico con el que aparecen.
Por ejemplo, imagínese que en la base de datos hubiera una variable donde el encuestado
tuvo que expresar su agradecimiento respecto a la visita en la comunidad. La preferencia se
expresa con una escala de valores entre uno y cinco. Usando el comando
Convertirvariablenuméricaenfactor, se podría asignar a cada número un nombre como por
ejemplo:
1. Nada.
2. Poco.
3. Regular.
4. Bastante.
5. Siempre.
Segmentar variable numérica Segmentar una variable numérica significa discretizarla, es
decir, obtener una variable categórica a partir de los valores numéricos de la variable.
Hemos visto varios ejemplos en el apartado de recodificación. En este caso, R-Commander
proporciona métodos para realizar la segmentación de forma automática, sin tener que
indicar cada categoría de la nueva variable.
Si por ejemplo queremos dividir nuestro conjunto de datos en tres subconjuntos distintos
(Gastobajo, Gastomedio y Gastoelevado), según el Gasto total en el viaje por persona
(gastotal), seguiremos las instrucciones de la figura 4. La salida se muestra en la misma
figura, donde se puede apreciar la nueva columna con las etiquetas que hemos asignado a
cada rango.
69.
70. Figura 4: Segmentar una variable numérica
Las posibilidades de este comando son muchas:
1.Es posible elegir el numero de segmentaciones que queremos hacer, usando la barra 1 de
la figura 4.
2.Se puede elegir el nombre de los distintos niveles (2 en la figura 4):
Especificar nombre: permite asignar un nombre a cada nivel.
Números: cada nivel está representado por un número entre 1 y el número de
niveles.
Rangos: cada nivel está representado por el intervalo en que se mueven sus
elementos.
3.Existen distintas formas de ejecutar la segmentación (3 de figura 4):
Segmentos equidistantes: se divide el rango total de las variables entre el
número de segmentos deseados.
Segmentos de igual cantidad: funciona como los cuantiles, es decir, el rango
total de la variable está dividido de forma que cada segmento contenga
aproximadamente el mismo número de elementos.
Segmentos naturales: utiliza el algoritmo de k-medias para generar los
segmentos. Se puede interpretar como que anteriormente el programa indaga
sobre las propiedades de la distribución de la variable; por ejemplo, si la
variable representa tres poblaciones con distintas medias, los tres segmentos
estarían centrados en las tres medias, idealmente.
Reordenar niveles de un factor Este comando sirve para reordenar las categorías de
variables categóricas. Esto puede ser importante, por ejemplo, a la hora de presentar un
gráfico con barras correspondientes a los días de la semana; es muy posible que, por
omisión, R-Commander decida ordenar los días por orden alfabéticos, en vez de por orden
cronológico.
En el ejemplo que se ilustra en la figura 5, hemos cambiado el orden de la variable Zona
geográfica (p1), de forma que la nueva variable p1bis tenga Oriente como primera y
Occidente como tercera.
71. Figura 5: Reordenar niveles de una variable
Renombrar - Eliminar variables Existe la posibilidad de cambiar nombre a una variable y
también de eliminarla del conjunto de datos.
10. Extensiones (plug-in)
En esta sección se explican ocho extensiones que se pueden activar en R-Commander. Por
cada uno de ellos se dará una breve explicacion de las funciones contenidas y de las
posibles utilizaciónes.
Para instalar un plug-in en R-Commander, siga las instrucciones contenidas en la proxima
sección, que, aunque se refieran al caso particular del plug-in Export, se pueden utilizar
para cualquier otro paquete.
10.1. RcmdrPlugin.Export
Para los usuarios que suelen escribir con el sistema de texto LATEX, existe la posibilidad
de exportar las tablas de salida producidas por el R-Commander directamente en formato
LATEX. Primero habrá que activar el plug-in para le exportación de tablas, siguiendo las
instrucciones de la figura 1, hasta que aparezca el nuevo menú Export.
72. Figura 1: Cargar el Plug-in “Export”
Una vez generada una tabla, por ejemplo la tabla de contingencia entre las variables ¿Qué
personas lo acompañan en este viaje? (p4) y Periodo de recogida datos (p2), seguimos las
instrucciones de la figura 2, para exportar a formato LATEX la misma tabla.
73. Figura 2: Exportar una tabla
El R-Commander nos dará como resultado una secuencia de comandos en lenguaje LATEX
parecida a la que sigue:
begin{table}[ht]
begin{center}
begin{tabular}{rrrrrr}
hline
& Sólo & En pareja & En familia & Amigos/Grupo & Compañeros de trabajo
hline
Enero-Mayo & 164.00 & 442.00 & 158.00 & 221.00 & 70.00
Junio-Septiembre & 65.00 & 544.00 & 374.00 & 270.00 & 28.00
Octubre-Diciembre & 36.00 & 107.00 & 20.00 & 57.00 & 9.00
hline
end{tabular}
caption{Tab Contingencia}
label{tab1}
end{center}
end{table}
cuyo resultado será el siguiente:
Sólo
Enero-Mayo
JunioSeptiembre
OctubreDiciembre
En pareja
En familia
Amigos/Gru Compañeros
po
trabajo
164.00
442.00
158.00
221.00
70.00
65.00
544.00
374.00
270.00
28.00
36.00
107.00
20.00
57.00
9.00
de
74. Cuadro 1: Tab Contingencia
10.2. RcmdrPlugin.HH: Heiberger and Holland
Es un paquete principalmente dedicado a la construcción de gráficas complejas y para uso
profesional.
En la paginahttp://cran.r-project.org/web/packages/HH/HH.pdf (en inglés) está disponible
una guía completa de los comandos, que describe con todo detalle cómo construir e
interpretar las gráficas, y cómo acompañar los resultados tradicionales con las gráficas más
apropriadas. Muchos métodos y muchas gráficas son totalmente inovadores, siendo
presentados y explicados por primera vez. La guía contiene tambien ejemplos y ejercicios
guíados.
10.3. RcmdrPlugin.FactoMineR
FactoMineR es un paquete de R dedicado al análisis multivariante de datos. Las principales
características de este paquete son:
trabajar conjuntamente con distintos tipos de variables (númericas y categóricas);
distintas estructuras de datos;
numerosas gráficas con distintas opciones;
existe una interfaz para la modificación de las gráficas, integrada con R-