1. 1
Ejemplos de estudios de series de tiempo
Ejemplo 1 Pasajeros Aerolíneas Internacionales (PAI)
Este estudio está realizado sobre un famoso conjunto de datos mensuales, el
número de pasajeros de aerolíneas internacionales, que ha sido analizado por
muchos autores incluyendo a Box y Jenkins.
Problema
Encontrar un modelo ARIMA adecuado que reproduzca la serie y predecir
los doce meses siguientes al último mes para el que se dispone dato.
Gráfica de los datos
Una etapa importante en el análisis de una serie de tiempo es la representación
gráfica de los datos en los sucesivos períodos de tiempo.
Esta gráfica mostrará las características de la serie, si tiene tendencia,
estacionalidad, discontinuidades, o existen datos situados fuera de los límites
esperados.
A continuación se observa la gráfica de los datos mensuales del número de
Pasajeros de Aerolíneas Internacionales (PAI), para el período enero 1949 a
diciembre 1960, 144 datos.
700
Pasajeros Aerolíneas Internacionales
600
500
400
300
200
100
0
49 50 51 52 53 54 55 56 57 58 59 60
SER01
La gráfica muestra que los datos tienen una tendencia creciente y un marcado
patrón estacional. Además, a medida que el nivel medio de la serie aumenta,
también se incrementa la magnitud de la variación estacional.
En el lenguaje de los modelos ARIMA, esto indica que podría ser adecuado
ajustar a los datos un modelo estacional multiplicativo.
2. 2
Transformación de los datos
En algunos casos, la gráfica de los datos sugiere considerar una transformación de
los mismos, por ejemplo tomar los logaritmos o la raíz cuadrada
Si hay tendencia en los datos y la varianza se incrementa con la media resulta
aconsejable transformar los datos.
En la serie que se estudia, Box y Jenkins decidieron tomar el logaritmo de la
serie. Al observar que la desviación estándar de los datos es directamente
proporcional a la media, la transformación logarítmica sería adecuada.
6.5
6.0
5.5
5.0
4.5
49 50 51 52 53 54 55 56 57 58 59 60
LPAI
Cuando la serie tiene tendencia y la magnitud del efecto estacional se
incrementa con la media, puede ser aconsejable transformar los datos para
que el efecto estacional sea constante en el tiempo. De esta forma, en la serie
transformada el efecto estacional se dice que es aditivo mientras que en los datos
originales era multiplicativo. Esta transformación solamente estabilizará la
varianza, si el término de error de la serie también crece cuando aumenta la
media. Esta última circunstancia también tiene que ser considerada antes de la
transformación de los datos.
La gráfica que antecede, describe la serie transformada, elaborada con los
logaritmos de la variable original, logaritmo del número de Pasajeros Aerolíneas
Internacionales, LPAI.
El argumento dado por Box y Jenkins para tomar el logaritmo de los datos
originales, fue que “los logaritmos son tomados para analizar datos de ventas,
porque es el porcentaje de variación el que sería comparable a diferentes
volúmenes de ventas”.
5. 5
Con 144 observaciones en la serie ΔLPAI, una regla útil para decidir si un
coeficiente de autocorrelación es significativamente diferente de cero es ver si su
valor excede 2/√T. Aquí el valor crítico es 0.17 y encontramos coeficientes de
autocorrelación significativos para los rezagos 1, 3, 4, 8, 9, 11, 12, 13, 15, 16, 20,
23, 24, 25, 27, 28, 32, 35 y 36. No hay signos de que la función de
autocorrelación disminuya, por tanto se necesita otra diferenciación para
obtener una serie estacionaria. Dado que los datos son mensuales y presentan una
marcada estacionalidad se realiza la diferenciación de orden 12 de la primera
diferencia de LPAI.
Correlograma de la diferencia 12 de ΔLPAI, ΔΔ12 LPAIt
Sample: 1949:02 1960:12
Included observations: 131
Autocorrelation Partial Correlation AC PAC Q-Stat Prob
***|. | ***|. | 1 -0.341 -0.341 15.596 0.000
.|* | .|. | 2 0.105 -0.013 17.086 0.000
**|. | **|. | 3 -0.202 -0.193 22.648 0.000
.|. | *|. | 4 0.021 -0.125 22.710 0.000
.|. | .|. | 5 0.056 0.033 23.139 0.000
.|. | .|. | 6 0.031 0.035 23.271 0.001
.|. | *|. | 7 -0.056 -0.060 23.705 0.001
.|. | .|. | 8 -0.001 -0.020 23.705 0.003
.|* | .|** | 9 0.176 0.226 28.147 0.001
*|. | .|. | 10 -0.076 0.043 28.987 0.001
.|. | .|. | 11 0.064 0.047 29.589 0.002
***|. | ***|. | 12 -0.387 -0.339 51.473 0.000
.|* | *|. | 13 0.152 -0.109 54.866 0.000
*|. | *|. | 14 -0.058 -0.077 55.361 0.000
.|* | .|. | 15 0.150 -0.022 58.720 0.000
*|. | *|. | 16 -0.139 -0.140 61.645 0.000
.|* | .|. | 17 0.070 0.026 62.404 0.000
.|. | .|* | 18 0.016 0.115 62.442 0.000
.|. | .|. | 19 -0.011 -0.013 62.460 0.000
*|. | *|. | 20 -0.117 -0.167 64.598 0.000
.|. | .|* | 21 0.039 0.132 64.834 0.000
*|. | *|. | 22 -0.091 -0.072 66.168 0.000
.|** | .|* | 23 0.223 0.143 74.210 0.000
.|. | *|. | 24 -0.018 -0.067 74.265 0.000
*|. | *|. | 25 -0.100 -0.103 75.918 0.000
.|. | .|. | 26 0.049 -0.010 76.310 0.000
.|. | .|. | 27 -0.030 0.044 76.463 0.000
.|. | *|. | 28 0.047 -0.090 76.839 0.000
.|. | .|. | 29 -0.018 0.047 76.894 0.000
.|. | .|. | 30 -0.051 -0.005 77.344 0.000
.|. | *|. | 31 -0.054 -0.096 77.848 0.000
.|* | .|. | 32 0.196 -0.015 84.590 0.000
*|. | .|. | 33 -0.122 0.012 87.254 0.000
.|* | .|. | 34 0.078 -0.019 88.340 0.000
*|. | .|. | 35 -0.152 0.023 92.558 0.000
.|. | *|. | 36 -0.010 -0.165 92.577 0.000
6. 6
Examinando el correlograma y teniendo en cuenta que el valor crítico de los
coeficientes de autocorrelación es también aproximadamente 0.17, encontramos
valores significativos en los rezagos 1, 3, 9, 12 y 23, siendo el resto de los
valores los suficientemente pequeños, para concluir que no hay signos de no
estacionariedad. El valor significativo en el rezago 9 se puede considerar
extraño y se ignora a menos que exista información externa indicando que debe
considerarse.
Ahora estamos en condiciones de identificar el modelo a ajustar a los datos.
Previamente introducimos la notación habitual para el modelo general ARIMA
con estacionalidad multiplicativa, el modelo llamado SARIMA.
φp (L) ΦP (L) Wt = θq (L) ΘQ (Ls) εt
donde L representa al operador del polinomio de rezagos, φp ,ΦP ,θq , ΘQ son
polinomios de orden p,P, q,Q respectivamente, εt es un proceso puramente
aleatorio y Wt es la variable Δd ΔD Yt.
Examinamos en el último correlograma presentado los valores de la función de
autocorrelación en los rezagos 12, 24, 36, comenzando con la parte estacional del
modelo, para elegir los valores de P y Q, es decir el orden del polinomio de
rezagos de la parte autorregresiva y el orden del polinomio de la parte de medias
móviles El valor para el rezago 12 es grande, pero para los restantes resulta no
significativo. Esta comprobación indicaría que no tiene términos autorregresivos,
pero si de medias móviles en la parte estacional. Por este motivo se hace Q = 1 y
P = 0.
Los valores p y q de la parte no estacional son establecidos luego de examinar
los primeros valores de la función de autocorrelación. Son valores significativos
los correspondientes a 1 y 3 rezagos. Comenzamos probando con un término de
medias móviles haciendo p = 0 y q = 1.
Estimación
Luego de identificado el modelo a ajustar, que en este caso es un modelo ARIMA
estacional con p = 0, q = 1, P = 0 y Q = 1, es decir ( 0, 1, 1) ( 0, 1, 1 )12 se
procede a estimar los parámetros del modelo.
En la tabla siguiente se presenta la estimación del modelo realizada utilizando el
EVIEWS.
7. 7
El resultado es:
ΔΔ12 LPAIt = ( 1 - 0.3765 L) ( 1 - 0.6242 L12 ) εt
Sample: 1950:02 1960:12
Included observations: 131
Convergence achieved after 6 iterations
Backcast: 1949:01 1950:01
Variable Coefficient Std. Error t-Statistic Prob.
C -0.000215 0.000909 -0.236397 0.8135
MA(1) -0.376502 0.080696 -4.665673 0.0000
MA(12) -0.624213 0.070534 -8.849842 0.0000
R-squared 0.364299 Mean dependent var 0.000291
Adjusted R-squared 0.354366 S.D. dependent var 0.045848
S.E. of regression 0.036840 Akaike info criterion -3.741845
Sum squared resid 0.173717 Schwarz criterion -3.676001
Log likelihood 248.0909 F-statistic 36.67621
Durbin-Watson stat 1.960799 Prob(F-statistic) 0.000000
(** Esta especificación del modelo difiere de la elegida en Práctico 9 Ejercicio 4 (2009). En este
último no se incluyó término constante en el modelo).
Luego de la estimación del modelo se procede a examinar si el modelo ajustado
proporciona una adecuada descripción de los datos. Para esto, como es usual se
estudian los residuos del modelo. Tenemos un buen modelo cuando los residuos
son aleatorios y próximos a cero.
En la gráfica siguiente en la parte superior se presentan el valor ajustado y las
observaciones superpuestos y en la parte inferior los residuos del ajuste. La
gráfica de los residuos parece indicar que estamos frente a un proceso puramente
aleatorio. Examinamos el correlograma de los residuos para confirmar esta
afirmación. 0.2
0.1
0.0
-0.1
0.10
-0.2
0.05
0.00
-0.05
-0.10
-0.15
51 52 53 54 55 56 57 58 59 60
Residual Actual Fitted
9. 9
PREDICCIÓN
Dado el último dato observado PAI60:12 del proceso SARIMA (0, 1, 1) (0, 1, 1)12
se desea estimar la variable para el período 1961/1 a 1961/12.Veamos en detalle
como hacerlo.
La variable modelada fue ΔΔ12 LPAIt, la predicción para el período t+1, es decir
61/1, de esta variable es 0.010814.
La variable ΔΔ12 LPAIt se nombra Wt y se escribe la relación entre esa variable y
las originales PAI:
Wt = ΔΔ12 LPAIt = ( 1 – L ) ( 1 - L12 ) LPAIt =
LPAIt - LPAIt-1 - LPAIt-12 + LPAIt-13 == ( 1 - 0.3765 L) ( 1 - 0.6242 L12 ) εt
Por tanto, el proceso LPAI se obtiene sumando, o lo que es lo mismo
integrando el proceso W.
Tengamos en cuenta que partimos de una serie no estacionaria PAI, que fue
diferenciada para alcanzar un proceso estacionario, sin tendencia y sin
estacionalidad. Por tanto el modelo integrado es aquel obtenido por suma o
integración de un proceso estacionario, luego de remover la tendencia y
estacionalidad de la serie.
El valor de LPAI61/1 es 6,1084 siendo el antilogaritmo 450. De esta forma se
obtiene la predicción de la serie original el número de pasajeros aerolíneas
internacionales, PAI para enero de 1961 y operando en forma similar se completa
la predicción hasta diciembre de1961.
0.15
0.10
0.05
0.00
-0.05
-0.10
-0.15
50 51 52 53 54 55 56 57 58 59 60 61
D1D12LPAI D1D12LPAIF
10. 10
El gráfico anterior contiene la predicción de la variable, Wt, para el período
1949/1 a 1961/12 (línea punteada) y las observaciones disponibles del período
1949/1 a 1960/12.
Conclusiones
La serie estudiada, tiene tendencia y estacionalidad muy marcadas, y el modelo
estacionario resultante después de removidas ambas, es decir luego de la
diferenciación conveniente de los datos, es un modelo de medias móviles, tanto
en la componente estacional como en la no estacional.
Luego de realizar éste ejercicio, cabe preguntarse si no hubiera sido más
razonable utilizar el método de alisamiento exponencial, examinado en la
primera parte del curso, para modelar la tendencia y estacionalidad de esta serie, y
realizar una predicción de corto plazo.
Utilizando el EVIEWS 3, aplicando la técnica de alisamiento exponencial, a la
misma serie (PAI) le ajustamos un modelo de tendencia lineal con estacionalidad
multiplicativa, para realizar una predicción mensual de enero de 1961 a diciembre
de 1961, de la misma forma que lo hicimos con la aproximación ARIMA.
Aplicamos el método de Holt – Winters multiplicativo, método apropiado para la
predicción cuando la serie tiene una tendencia lineal y una variación estacional
multiplicativa.
A continuación se presenta la gráfica con los valores observados y la predicción
de la serie LPAI.
7.0
6.5
6.0
5.5
5.0
4.5
50 51 52 53 54 55 56 57 58 59 60 61
LPAISM LPAI
El valor de LPAI61/1 es 6,109579 siendo el antilogaritmo 450.
Por tanto el resultado de la predicción es idéntico al obtenido con el modelo
SARIMA.
11. 11
Ejemplo 2
Para este segundo ejemplo de aplicación de las técnicas de modelización
ARIMA se eligió una serie de datos mensuales, que presentan tendencia y
estacionalidad. Se trata de la entrada mensual de leche a plantas de Conaprole, en
millones de litros, desde enero de 1990 a julio de 1998.
Problema
Elaborar un modelo ARIMA estacional que sea útil para la predicción mensual
del período agosto 1998 / diciembre 1998.
Gráfica de los datos
El examen gráfico de la serie mensual de “Entrada de leche a plantas de
Conaprole” (de aquí en más LECHE), es el primer paso para atender las
características que presenta la serie, considerar si tiene tendencia, es decir si es
no estacionaria en media, que ocurre con la varianza y tener en cuenta la
estacionalidad de la misma.
90000
80000
70000
60000
50000
40000
30000
90 91 92 93 94 95 96 97 98
LECHE
Se observa que la serie LECHE tiene tendencia y estacionalidad, contiene un
componente periódico que se repite cada doce observaciones, s = 12. En este caso,
se espera que la leche entrada en plantas de Conaprole en el mes de setiembre de
1998, dependa de la entrada de setiembre de 1997 y posiblemente de la entrada de
1996.
A diferencia con el Ejemplo 1, serie PAI, en éste caso, no se observa que la
varianza se incremente con la media. Cuando se examinó la serie PAI, para
remover ese efecto se realizó la transformación logarítmica de los datos. No se
considera necesario en este caso.
14. 14
A partir del correlograma de la serie ΔΔ12 Leche se identifica el siguiente
modelo: SARIMA (0,1,2)(0,1,12)12.
Estimación
Utilizando el software EVIEWS 3.0 se estiman los parámetros del modelo.
El resultado es:
ΔΔ12 Lechet = (1 + 0.039L - 0.506L2 ) ( 1 - 0.658L12 ) εt
La tabla que sigue contiene el resultado detallado de la estimación.
Sample(adjusted): 1991:02 1998:07
Included observations: 90 after adjusting endpoints
Convergence achieved after 11 iterations
Backcast: 1989:12 1991:01
Variable Coefficient Std. Error t-Statistic Prob.
MA(1) 0.038573 0.091660 0.420824 0.6749
MA(2) -0.506095 0.076612 -6.605953 0.0000
SMA(12) -0.658028 0.067051 -9.813843 0.0000
R-squared 0.537982 Mean dependent var 29.78644
Adjusted R-squared 0.527361 S.D. dependent var 3880.582
S.E. of regression 2667.851 Akaike info criterion 18.64870
Sum squared resid 6.19E+08 Schwarz criterion 18.73203
Log likelihood -836.1915 F-statistic 50.65220
Durbin-Watson stat 1.908953 Prob(F-statistic) 0.000000
Respecto de los coeficientes estimados del modelo, cabe señalar que el
coeficiente del MA(1) no es significativo, en cambio tanto el del MA(2) como el
del SMA(12), correspondiente a la componente estacional, son altamente
significativos.
En la parte inferior de la tabla se presentan un conjunto de estadísticos, entre los
cuales Akaike Information Criterion (AIC), es de utilidad para considerar la
bondad del ajuste en el caso de que en la etapa de identificación se especifiquen
varios modelos alternativos. El criterio de AKAIKE consiste en seleccionar
aquel modelo para el que se obtiene el estadístico AIC más bajo.
En el caso a estudiado el modelo seleccionado, fue el que tuvo el mínimo AIC,
entre las especificaciones probadas.
Luego del examen de los estadísticos anteriores preparamos el correlograma de
los residuos del modelo ajustado. Si el modelo especificado es correcto, los
residuos, es decir la diferencia entre los valores observados y los estimados,
tienen que tener un comportamiento similar a un ruido blanco. Los coeficientes
de autocorrelación y autocorrelación parcial estimados que se presentan en ese
correlograma , no deben ser significativamente distintos de cero.
16. 16
10000
5000
0
10000 -5000
5000 -10000
0
-5000
-10000
92 93 94 95 96 97 98
Residual Actual Fitted
La gráfica de los residuos también estaría indicando que estamos frente a una
serie de ruido blanco.
Predicción
La predicción realizada con el modelo SARIMA (0,1,2)(0,1,1)12 para 1998/8
de leche entrada a plantas de Conaprole es de 65004 millones de litros.
Se recuerda que el último dato observado para el estudio, fue 1998/7.
La predicción realizada por el método de Alisamiento Exponencial (Holt
Winters multiplicativo), para igual mes es de 65793 millones de litros.
El gráfico siguiente presenta con línea punteada la variable Leche estudiada y con
línea llena el resultado del alisamiento exponencial, incluido la predicción hasta
1998/12.
100000
80000
60000
40000
20000
90 91 92 93 94 95 96 97 98
LECHESM LECHE