1. Framework A simple strategy Non stationarity Empirical studies References
Robust sequential learning
with applications to the forecasting of air quality
and of electricity consumption
Gilles Stoltz
CNRS — École normale supérieure — INRIA, équipe CLASSIC
& HEC Paris
2. Framework A simple strategy Non stationarity Empirical studies References
A statistician has to predict a sequence y1 , y2 , . . . of observations
lying in some set Y.
His predictions y1 , y2 , . . . are picked in a set X .
Observations and predictions (1) are made in a sequential fashion
and (2) rely on no stochastic modeling.
(1) means that for each instance, the prediction yt of yt is
determined
t−1
– solely based on the past observations y1 = y1 , . . . , yt−1 ,
– before getting to know the actual value yt .
(2) indicates that the methods at hand will not resort to the
estimation of some parameters of some stochastic process to build
a good model and get some accurate forecasts from it.
3. Framework A simple strategy Non stationarity Empirical studies References
To make the problem meaningful, finitely many expert forecasts are
called for.
At each instance t, expert j ∈ {1, . . . , N} outputs a forecast
t−1
fj,t = fj,t y1 ∈X
The statistician now determines yt based
t−1
– on the past observations y1 = (y1 , . . . , yt−1 ),
– and the current and past expert forecasts fj,s , where
s ∈ {1, . . . , t} and j ∈ {1, . . . , N}.
4. Framework A simple strategy Non stationarity Empirical studies References
We assume that the set X of predictions is convex and we restrict
the statistician to form convex combinations of the expert forecasts.
At each instance t, the statistician thus picks a convex weight
vector p t = p1,t , . . . , pN,t and forms
N
yt = pj,t fj,t
j=1
The aim of the statistician is to predict –on average– as well as the
best constant convex combination of the expert forecasts.
... But we need first to indicate how to assess the accuracy of a
given prediction!
5. Framework A simple strategy Non stationarity Empirical studies References
To that end, we consider a convex loss function : X × Y → R+ .
When X ⊆ R and Y ⊆ R, possible choices are
– the square loss (x, y ) = (x − y )2 ;
– the absolute loss (x, y ) = |x − y |;
– the absolute percentage of error (x, y ) = |x − y | |y |.
The cumulative losses of the statistician and of the constant convex
combinations q = (q1 , . . . , qN ) of the expert forecasts equal
T N T N
LT = pj,t fj,t , yt and LT (q) = qj fj,t , yt
t=1 j=1 t=1 j=1
The regret is defined as the difference
RT = LT − min LT (q)
q
6. Framework A simple strategy Non stationarity Empirical studies References
Recall that the regret RT is defined as the difference
T N T N
LT − min LT (q) = pj,t fj,t , yt − min qj fj,t , yt
q q
t=1 j=1 t=1 j=1
We are interested in aggregation rules with (uniformly) vanishing
per-round regret,
1
lim sup sup LT − min LT (q) 0
T →∞ T q
where the supremum is over all possible sequences of observations
and of expert forecasts.
This is why this framework is referred to as prediction of individual
sequences or as robust aggregation of expert forecasts.
Note that the best convex combination q can only be determined
in hindsight whereas the statistician has to predict in a sequential
fashion.
7. Framework A simple strategy Non stationarity Empirical studies References
This framework leads to a meta-statistical interpretation:
– each series of expert forecasts may be given by a statistical
forecasting method, possibly tuned with some given set of
parameters;
– these base forecasts relying on some stochastic model are then
combined in a robust and deterministic manner.
The cumulative loss of the statistician can be decomposed as
LT = min LT (q) + RT
q
This leads to the following interpretations:
– the term indicating the performance of the best convex
combination of the expert forecasts is an approximation error;
– the regret term measures a sequential estimation error.
8. Agrégation séquentielle de prédicteurs
Exponentielle des gradients
Applications à des données réelles
Une pondération exponentielle sans gradients
Deux familles d’algorithmes d’agrégation séquentielle
La régression ridge
Travaux récents et perspectives
1 Agrégation séquentielle de prédicteurs
Cadre mathématique
La philosophie sous-jacente à ce cadre
Résumé du cadre
2 Applications à des données réelles
Prédiction de la qualité de l’air
Autres domaines
3 Deux familles d’algorithmes d’agrégation séquentielle
Exponentielle des gradients
Une pondération exponentielle sans gradients
La régression ridge
4 Travaux récents et perspectives
Calibration des algorithmes
Agrégation lacunaire
Autres objectifs ou autres résultats
Gilles Stoltz Prédiction avec experts
9. Agrégation séquentielle de prédicteurs
Exponentielle des gradients
Applications à des données réelles
Une pondération exponentielle sans gradients
Deux familles d’algorithmes d’agrégation séquentielle
La régression ridge
Travaux récents et perspectives
Theorem
Le regret de EG face à toute combinaison convexe constante q est
uniformément borné (en q et en les suites y1 , y2 , . . .) selon
n N n N
ln N ηn 2
pj,t fj,t , yt − qj fj,t , yt + B
t=1 t=1
η 2
j=1 j=1
où B est une borne sur les gradients, t ∞
B pour tout t.
Deux éléments de démonstration : par convexité,
N N
pj,t fj,t , yt − qj fj,t , yt t (p t ) · pt − q
j=1 j=1
et l’analyse de ce majorant (linéaire en q) repose sur le lemme de
Hoeffding.
Gilles Stoltz Prédiction avec experts
10. Agrégation séquentielle de prédicteurs
Exponentielle des gradients
Applications à des données réelles
Une pondération exponentielle sans gradients
Deux familles d’algorithmes d’agrégation séquentielle
La régression ridge
Travaux récents et perspectives
La version fenêtrée repose sur une largeur de fenêtre T et produit
les combinaisons convexes données par
t−1
exp −η s = max{1, t−T } s (p s )
j
pj,t =
N t−1
i=1 exp −η s = max{1, t−T } s (p s )
i
La version escomptée utilise une suite décroissante (βs ) pour
former
t−1
exp −ηt s=1 1 + βt−s s (p s )
j
pj,t =
N t−1
i=1 exp −ηt s=1 1 + βt−s s (p s )
i
On peut exhiber une borne théorique sur le regret de la version
escomptée, dépendant de (βs ).
Pour la prédiction de la qualité de l’air, nous avons utilisé des
escomptes assez forts, βs = 100/s 2 .
Gilles Stoltz Prédiction avec experts
11. Agrégation séquentielle de prédicteurs
Exponentielle des gradients
Applications à des données réelles
Une pondération exponentielle sans gradients
Deux familles d’algorithmes d’agrégation séquentielle
La régression ridge
Travaux récents et perspectives
1 Agrégation séquentielle de prédicteurs
Cadre mathématique
La philosophie sous-jacente à ce cadre
Résumé du cadre
2 Applications à des données réelles
Prédiction de la qualité de l’air
Autres domaines
3 Deux familles d’algorithmes d’agrégation séquentielle
Exponentielle des gradients
Une pondération exponentielle sans gradients
La régression ridge
4 Travaux récents et perspectives
Calibration des algorithmes
Agrégation lacunaire
Autres objectifs ou autres résultats
Gilles Stoltz Prédiction avec experts
12. Agrégation séquentielle de prédicteurs
Exponentielle des gradients
Applications à des données réelles
Une pondération exponentielle sans gradients
Deux familles d’algorithmes d’agrégation séquentielle
La régression ridge
Travaux récents et perspectives
La régression ridge a été introduite dans les années 70 par Hoerl et
Kennard et intensivement étudiée depuis dans un cadre
stochastique.
Vovk ’01 et Azoury et Warmuth ’01 en proposent une analyse pour
des suites individuelles.
Formellement, en perte quadratique, la régression ridge choisit des
combinaisons linéaires u t des prédictions des experts données, à
l’échéance t 2, par un critère de moindres carrés pénalisés,
2
t−1 N
2
u t ∈ argmin λ u 2 + ys − uj fj,s
u∈RN s=1 j=1
Elle peut être mise en œuvre efficacement de manière séquentielle
et assure que son regret est O(ln n).
Gilles Stoltz Prédiction avec experts
13. Agrégation séquentielle de prédicteurs
Exponentielle des gradients
Applications à des données réelles
Une pondération exponentielle sans gradients
Deux familles d’algorithmes d’agrégation séquentielle
La régression ridge
Travaux récents et perspectives
Une propriété tout à fait sympathique de la régression ridge est
qu’elle semble débiaiser automatiquement les experts.
On peut en effet la faire tourner sur un seul expert (proposant les
s
prédictions fj,t ) et faire ainsi presqu’aussi bien que le meilleur des
experts, indexés chacun par γ, proposant les prédictions γ fj,t .s
S’il y a un facteur de biais multiplicatif à-peu-près contant 1/γ, il
est donc corrigé.
Sur les données d’ozone, cela donne les erreurs quadratiques
moyennes suivantes, par exemple sur le meilleur et le moins bon
modèle :
Sans Ridge Avec Ridge Sans Ridge Avec Ridge
35.79 24.78 22.43 21.66
Gilles Stoltz Prédiction avec experts
14. Framework A simple strategy Non stationarity Empirical studies References
Two empirical studies
– Prediction of air quality
– Forecasting of the electricity consumption
15. Framework A simple strategy Non stationarity Empirical studies References
Two empirical studies
The methodology of our studies is in four steps:
1 Build the experts (possibly on a training data set) and pick
another data set for the evaluation of our methods;
2 Compute some benchmarks and some reference oracles;
3 Evaluate our strategies when run with fixed parameters (i.e.,
with the best parameters in hindsight);
4 The performance of interest is actually the one of the
data-driven meta-strategies.
16. Framework A simple strategy Non stationarity Empirical studies References
First study:
Prediction of air quality
Joint work with Vivien Mallet (INRIA) and M.Sc. students;
published in the Journal of Geophysical Research
Some characteristics of one among the studied data sets:
– 126 days during summer ’01; one-day ahead prediction
– 241 stations in France and Germany
– Typical ozone concentrations between 40 µg m−3 and
150 µg m−3 ; sometimes above the values 180 µg m−3 or 240
µg m−3
– 48 experts, built in Mallet et Sportisse ’06 by choosing a
physical and chemical formulation, a numerical approximation
scheme to solve the involved PDEs, and a set of input data
(among many)
17. Agrégation séquentielle de prédicteurs
Applications à des données réelles Prédiction de la qualité de l’air
Deux familles d’algorithmes d’agrégation séquentielle Autres domaines
Travaux récents et perspectives
On dispose d’un réseau S de stations à travers l’Europe et chaque
s
modèle j = 1, . . . , 48 procure une prédiction fj,t pour le pic à la
station s et au jour t, qui est ensuite comparée au pic réalisé yts .
Le statisticien détermine chaque jour une unique combinaison
convexe p t = (p1,t , . . . , pN,t ) à utiliser en toutes les stations pour
agréger les prédictions (et obtenir ainsi un champ de prévisions).
Les écarts sont mesurés en perte quadratique moyenne, ce qui
revient à considérer la fonction de perte
2
48
p t , (yts )s∈St = pj,t fj,t − yts
s
s∈St j=1
où St est le sous-ensemble des stations actives au jour t.
La définition s’étend au cas des combinaisons linéaires u t (qui
permettent par exemple de réduire le biais des modèles).
Gilles Stoltz Prédiction avec experts
18. Agrégation séquentielle de prédicteurs
Applications à des données réelles Prédiction de la qualité de l’air
Deux familles d’algorithmes d’agrégation séquentielle Autres domaines
Travaux récents et perspectives
Les figures ci-dessous montrent que tous les experts sont utiles et
apportent de l’information.
110
56 100
54
52 90
Concentration
50 80
48
46 70
44 60
42
50
-10 -5 0 5 10 15 20
40
30
0 5 10 15 20 25 30 35 40 45 0 5 10 15 20
Hour
Figure: A gauche : Coloration de l’Europe en fonction de l’indice du
meilleur expert local. A droite : Profils moyens de prédiction sur une
journée (moyennes spatiales et temporelles, en µg /m3 ).
Gilles Stoltz Prédiction avec experts
19. Agrégation séquentielle de prédicteurs
Applications à des données réelles Prédiction de la qualité de l’air
Deux familles d’algorithmes d’agrégation séquentielle Autres domaines
Travaux récents et perspectives
Les erreurs cumulées de la méthode d’agrégation et de la
combinaison linéaire constante induite par u valent respectivement
2
n 48
Ln = uj,t fj,t − yts
s
t=1 s∈St j=1
2
n 48
et Ln (u) = uj fj,t − yts
s
t=1 s∈St j=1
où St est le sous-ensemble des stations actives au jour t.
Les erreurs quadratiques moyennes associées sont données par
Ln Ln (u)
rn = n et rn (u) = n
t=1 |St | t=1 |St |
Gilles Stoltz Prédiction avec experts
20. Agrégation séquentielle de prédicteurs
Applications à des données réelles Prédiction de la qualité de l’air
Deux familles d’algorithmes d’agrégation séquentielle Autres domaines
Travaux récents et perspectives
L’espoir est qu’un bon ensemble d’experts et la considération d’une
procédure avec un faible regret entraînent à leur tour une faible
erreur quadratique moyenne.
En effet,
Ln inf Ln (u) + o(n)
u∈U
se ré-écrit comme
2 2
rn inf rn (u) + o(1)
u∈U
(U est par exemple le simplexe des probabilités ou une boule 1 ).
Gilles Stoltz Prédiction avec experts
21. Agrégation séquentielle de prédicteurs
Applications à des données réelles Prédiction de la qualité de l’air
Deux familles d’algorithmes d’agrégation séquentielle Autres domaines
Travaux récents et perspectives
Moyenne M. fondamental M. convexe M. linéaire Prescient
24.41 22.43 21.45 19.24 11.99
Ci-dessus, les erreurs quadratiques moyennes (en µg /m3 )
– de la moyenne des prédictions des 48 modèles, i.e.,
rn (1/48, . . . , 1/48) ,
– du meilleur modèle fondamental parmi j = 1, . . . , 48,
– de la meilleure combinaison convexe q des 48 modèles, i.e.,
minq rn (q),
– de la meilleure combinaison linéaire u (parmi tous les vecteurs
de R48 ) des 48 modèles, i.e., minu rn (u),
– du prédicteur prescient qui aurait connaissance des yts avant de
former sa prédiction et ne serait contraint que par l’obligation
de choisir une combinaison linéaire des prédictions des
modèles.
Gilles Stoltz Prédiction avec experts
22. Agrégation séquentielle de prédicteurs
Applications à des données réelles Prédiction de la qualité de l’air
Deux familles d’algorithmes d’agrégation séquentielle Autres domaines
Travaux récents et perspectives
Nous avons mis en œuvre environ 20 méthodes d’agrégation
différentes et nous concentrons ici sur deux familles qui ont obtenu
de bons résultats, EG et la régression ridge (et leurs variantes).
EG est l’abréviation d’exponentielle des gradients. Cette méthode
forme des combinaisons convexes dont les composantes sont
données par une pondération exponentielle des sommes des
composantes des gradients des pertes passées.
Son regret moyen par rapport à l’ensemble des combinaisons
√
convexes constantes est plus petit que 1/ n.
La régression ridge est une méthode d’estimation classique en perte
quadratique et qui utilise la meilleure combinaison linéaire pénalisée
sur les données passées (pénalisation en terme de norme 2 ).
Son regret moyen par rapport à toute combinaison linéaire
constante est plus petite qu’une quantité de l’ordre de (ln n)/n.
Gilles Stoltz Prédiction avec experts
23. Agrégation séquentielle de prédicteurs
Applications à des données réelles Prédiction de la qualité de l’air
Deux familles d’algorithmes d’agrégation séquentielle Autres domaines
Travaux récents et perspectives
Les versions fenêtrées n’utilisent qu’un nombre fixe des plus
récentes pertes passées, pour ensuite pondérer exponentiellement
leurs gradients (EG) ou calculer sur elles seulement une meilleure
combinaison linéaire pénalisée (régression ridge).
L’escompte multiplie chaque perte passée par un facteur d’autant
plus petit que ce passé est lointain.
EG EG fenêtré EG esc. Ridge Ridge fenêtrée Ridge esc.
21.47 21.37 21.31 20.77 20.03 19.45
La meilleure combinaison convexe constante est battue et la version
escomptée de la régression ridge a des performances très proches de
celles de la meilleure combinaison linéaire constante.
Moyenne M. fondamental M. convexe M. linéaire Prescient
24.41 22.43 21.45 19.24 11.99
Gilles Stoltz Prédiction avec experts
24. Agrégation séquentielle de prédicteurs
Applications à des données réelles Prédiction de la qualité de l’air
Deux familles d’algorithmes d’agrégation séquentielle Autres domaines
Travaux récents et perspectives
Les méthodes d’agrégation séquentielle ne se concentrent pas sur
un seul expert.
Les poids attribués aux modèles peuvent changer rapidement et de
manière significative au cours du temps.
0.9 10
0.8
0.7 5
0.6
Weight
0
Weight
0.5
0.4
-5
0.3
0.2 -10
0.1
0.0 -15
0 20 40 60 80 100 120 0 20 40 60 80 100 120
Step Step
Figure: Poids produits au cours du temps par (à gauche) EG et la version
escomptée de la régression ridge (à droite).
Gilles Stoltz Prédiction avec experts
25. Agrégation séquentielle de prédicteurs
Calibration des algorithmes
Applications à des données réelles
Agrégation lacunaire
Deux familles d’algorithmes d’agrégation séquentielle
Autres objectifs ou autres résultats
Travaux récents et perspectives
1 Agrégation séquentielle de prédicteurs
Cadre mathématique
La philosophie sous-jacente à ce cadre
Résumé du cadre
2 Applications à des données réelles
Prédiction de la qualité de l’air
Autres domaines
3 Deux familles d’algorithmes d’agrégation séquentielle
Exponentielle des gradients
Une pondération exponentielle sans gradients
La régression ridge
4 Travaux récents et perspectives
Calibration des algorithmes
Agrégation lacunaire
Autres objectifs ou autres résultats
Gilles Stoltz Prédiction avec experts
26. Agrégation séquentielle de prédicteurs
Calibration des algorithmes
Applications à des données réelles
Agrégation lacunaire
Deux familles d’algorithmes d’agrégation séquentielle
Autres objectifs ou autres résultats
Travaux récents et perspectives
On rappelle que l’exponentielle des gradients prédit, pour t 2,
avec p t défini, composante j par composante j selon
t−1
exp −η s=1 s (p s )
j
pj,t (η) =
N t−1
i=1 exp −η s=1 s (p s )
i
L’idée ici est de faire varier η en fonction de t et considérer pour ηt
le meilleur paramètre η sur les échéances 1, . . . , t − 1,
t−1
ηt ∈ argmin s p s (η) .
η>0 s=1
On utilise alors p t (ηt ) pour la prédiction au jour t.
Gilles Stoltz Prédiction avec experts
27. Agrégation séquentielle de prédicteurs
Calibration des algorithmes
Applications à des données réelles
Agrégation lacunaire
Deux familles d’algorithmes d’agrégation séquentielle
Autres objectifs ou autres résultats
Travaux récents et perspectives
On peut définir de manière similaire une calibration automatique de
Ridge. Sur les données d’ozone :
Meilleure convexe 21.45
EG avec meilleur η 21.47
EG avec (ηt ) 21.80
Meilleure linéaire 19.24
Ridge avec meilleur λ 20.77
Ridge avec (λt ) 20.81
Le “meilleur” paramètre désigne le paramètre constant η ou λ,
choisi de manière rétrospective, qui aurait donné les meilleurs
résultats en termes d’erreur quadratique.
Il n’y a pas encore de borne théorique pour cette méthode de
calibration, mais nous y travaillons !
Gilles Stoltz Prédiction avec experts
28. Agrégation séquentielle de prédicteurs
Calibration des algorithmes
Applications à des données réelles
Agrégation lacunaire
Deux familles d’algorithmes d’agrégation séquentielle
Autres objectifs ou autres résultats
Travaux récents et perspectives
1 Agrégation séquentielle de prédicteurs
Cadre mathématique
La philosophie sous-jacente à ce cadre
Résumé du cadre
2 Applications à des données réelles
Prédiction de la qualité de l’air
Autres domaines
3 Deux familles d’algorithmes d’agrégation séquentielle
Exponentielle des gradients
Une pondération exponentielle sans gradients
La régression ridge
4 Travaux récents et perspectives
Calibration des algorithmes
Agrégation lacunaire
Autres objectifs ou autres résultats
Gilles Stoltz Prédiction avec experts
29. Agrégation séquentielle de prédicteurs
Calibration des algorithmes
Applications à des données réelles
Agrégation lacunaire
Deux familles d’algorithmes d’agrégation séquentielle
Autres objectifs ou autres résultats
Travaux récents et perspectives
Pour obtenir des combinaisons linéaires ou convexes n’utilisant
qu’un nombre restreint de modèles, on peut seuiller les
combinaisons proposées (pour EG) ou changer le type de pénalité
(pour Ridge).
La méthode LASSO (Tibshirani, ’96) choisit des combinaisons
linéaires u t des prédictions des experts données, à l’échéance t 2,
par un critère de moindres carrés pénalisés en norme 1 ,
2
t−1 N
u t = argmin λ u 1 + ys − uj fj,s
u∈RN s=1 j=1
Les combinaisons qui en résultent ont en général de nombreux
coefficients nuls (et sont dites lacunaires).
Gilles Stoltz Prédiction avec experts
30. Agrégation séquentielle de prédicteurs
Calibration des algorithmes
Applications à des données réelles
Agrégation lacunaire
Deux familles d’algorithmes d’agrégation séquentielle
Autres objectifs ou autres résultats
Travaux récents et perspectives
Une version escomptée de LASSO conduit ainsi à une très forte
sélection parmi les modèles (une vingtaine est éliminée sur les
données d’ozone).
Ridge esc. LASSO esc. M. linéaire
19.45 19.31 19.24
10
5
0
Indices of zero weights
40
Weight
5 30
10
15
20
25
0 20 40 60 80
Step
100 120
Gilles Stoltz Prédiction avec experts
20
10
0
0 20 40 60
Step
80 100 120
31. Framework A simple strategy Non stationarity Empirical studies References
Second study:
Forecasting of the electricity consumption
Joint work with Yannig Goude (EDF R&D) and M.Sc. students (Marie
Devaine, Pierre Gaillard); submitted
Specialized experts are available: each of them only outputs a forecast
when specific conditions are met (working day vs. week end,
temperature, etc.).
The definitions and strategies need to be generalized to this setting.
Exhaustive list of references: Blum ’97; Freund et al. ’97; Cesa-Bianchi and
Lugosi ’03; Blum and Mansour ’07... This is it!
On our data set,
– 3 families of experts, 24 experts in total;
– [operational constraint:] one-day ahead prediction at a half-hour
step, i.e., the next 48 half-hour instances are to be predicted every
day at noon
32. Framework A simple strategy Non stationarity Empirical studies References
90
55
80
Consumption (GW)
Consumption (GW)
50
70
60
45
50
40
40
35
30
9 11 12 1 3 4 5 7 8 Mon Tue Wed Thu Fri Sat Sun
Month Day in the week
Electricity consumption in France
– Year 2007–08 (left)
– Typical summer week (right)
33. Framework A simple strategy Non stationarity Empirical studies References
Some orders of magnitude for the prediction problem at hand are
indicated below.
Time intervals Every 30 minutes
Number of days D 320
Time instances T 15 360 (= 320 × 48)
Number of experts N 24 (= 15 + 8 + 1)
Median of the yt 56 330 MW
Bound B on the yt 92 760 MW
34. Framework A simple strategy Non stationarity Empirical studies References
We indicate RMSE (average errors and 95 % standard errors).
Best expert Uniform mean Best p
782 ± 10 724 ± 11 658 ± 9
Exp. weights Best parameter Adaptive
629 ± 8 637 ± 9
Shifts m = T − 1 = 15 359 m = 200 m = 50
223 ± ? 414 ± ? 534 ± ?
Fixed-Share Best parameter Adaptive
599 ± 9 629 ± 8
35. Framework A simple strategy Non stationarity Empirical studies References
1.0
0.9
0.8
RMSE (GW)
—— Best expert
0.7
---- Best p
Exp. weights
0.6
• Fixed-share
0.5
0.4
0 5 10 15 20
Hour
Average RMSEs (in GW / not in MW) according to the half hours
A picture is worth thousand tables, right?
The average RMSE were similar but the behaviors seem different by
the half-hours.
36. Framework A simple strategy Non stationarity Empirical studies References
References
In case you’re not bored to death (yet) by this topic!
37. Framework A simple strategy Non stationarity Empirical studies References
The so-called “red bible!”
Prediction, Learning, and Games
Nicolò Cesa-Bianchi et Gábor Lugosi