Mais conteúdo relacionado
Semelhante a ノンパラメトリックベイズを用いた逆強化学習 (9)
ノンパラメトリックベイズを用いた逆強化学習
- 3. 逆強化学習による報酬の推定
1. 逆強化学習とは
3
逆強化学習 (IRL : Inverse Reinforcement Learning)
Given
(1) エージェントの振舞データ
(2) エージェントの感覚入力
(3) エージェントがいた環境モデル
Determine
エージェントが方策の学習に用いた報酬
[Russell 98] Russell, S. (1998). Learning agents for uncertain environments (extended abstract).
Proceedings of the 11th Annual Conference on Computational Learning Theory (COLT), 101–103.
[Russell 98]
無くても良い
- 5. 逆強化学習の定式化
1. 逆強化学習とは
5
Given
(1) 振舞データ ・軌跡集合 𝒟 = {𝜁1, … , 𝜁 𝑑, … , 𝜁 𝐷}
・軌跡 𝜁 𝑑 = {𝑠1, 𝑎1, … , 𝑠𝑖, 𝑎𝑖, … , 𝑠 𝐻, 𝑎 𝐻}
(2) 感覚入力 ・特徴 𝚽 = {𝜙1, . . , 𝜙 𝑘, … , 𝜙 𝐾}
(3) 環境モデル ・MDP\𝑹 ⟨𝒮, 𝒜, 𝑇, 𝛾⟩
Determine
報酬 𝑹 = (𝑅 𝑠1 , … , 𝑅(𝑠 𝒮 ))
𝑹 = 𝒇 𝒘, 𝚽 , 𝑤は重みベクトル
有限長 𝐻
特に 𝑇 の部分
- 7. Bayesian IRL [Ramachandran 07]
2. ベイジアン逆強化学習
7
逆強化学習をベイズの枠組みで定式化した論文
報酬は確率分布 𝑃(𝑹) から生成されると仮定
利点
エージェントの事前知識を事前確率として反映
[Ramachandran 07] Ramachandran, D., & Amir, E. (2007). Bayesian inverse reinforcement learning. In
IJCAI International Joint Conference on Artificial Intelligence (pp. 2586–2591).
- 9. 尤度 𝑃(𝒟|𝑹)
2. ベイジアン逆強化学習
9
エージェントの方策に関する二つの仮定を置く
仮定①:方策は収益を最大化
𝑃 (𝑠𝑖, 𝑎𝑖) 𝑹 =
exp(𝜂𝑄 𝜋∗
(𝑠 𝑖,𝑎 𝑖,𝑹))
𝑏∈𝒜 exp(𝜂𝑄 𝜋∗
(𝑠 𝑖,𝑏,𝑹))
, (𝑠𝑖, 𝑎𝑖) ∈ 𝜁 𝑑
仮定②:方策は定常
𝑃 𝜁 𝑑 𝑹 = 𝑃 𝑠1, 𝑎1 𝑹 … 𝑃 𝑠 𝐻, 𝑎 𝐻 𝑹
𝑃 𝜁 𝑑 𝑹 = 𝑠 𝑖,𝑎 𝑖 ∈𝜁 𝑑
exp(𝜂𝑄 𝜋∗
(𝑠 𝑖,𝑎 𝑖,𝑹))
𝑏∈𝒜 exp(𝜂𝑄 𝜋∗
(𝑠 𝑖,𝑏,𝑹))
𝜂 :軌跡データの信頼度パラメタ
(ボルツマン分布の温度パラメタ)
尤度
- 10. 事前分布 𝑃(𝑹)
2. ベイジアン逆強化学習
10
仮定
振舞データ 𝒟 以外の情報が無いとき,エントロピー最大化の原理
に従って報酬の確率分布には独立同分布(i.i.d.)が成り立つ
𝑃 𝑹 = 𝑠∈𝒮 𝑃(𝑅(𝑠))
= 𝑃 𝑅 𝑠1 𝑃 𝑅 𝑠2 … 𝑃(𝑅(𝑠|𝒮|))
エージェントの報酬に関する事前知識を導入
・問題に関して無知 一様分布
・報酬の差が小さい 正規分布
・計画問題(ゴール指向) ベータ分布
事前分布
- 11. 事後分布から点推定 = 報酬の推定
2. ベイジアン逆強化学習
11
ベイズの定理より以下の式を導出
MCMC法により 𝑍 を計算せずに報酬(点) 𝑹 を推定
事後確率最大化 (MAP) は勾配で計算可能
尤度 事前分布
𝑃 𝑹 𝜁 𝑑 =
𝑃 𝜁 𝑑 𝑹 𝑃 𝑹
𝑃(𝜁 𝑑)
事後分布
1
𝑍
= 𝑠 𝑖,𝑎 𝑖 ∈𝜁 𝑑
exp(𝜂𝑄 𝜋∗
(𝑠𝑖, 𝑎𝑖, 𝑹)) 𝑠 𝑖∈𝒮 𝑃(𝑅(𝑠𝑖))
[Choi 11] Choi, J., & Kim, K. E. (2011). MAP Inference for Bayesian Inverse Reinforcement
Learning. In Nips (pp. 1–9).
[Choi 11]
推定報酬における
エージェントと同じの行動の価値
事前に設定した確率
- 13. ノンパラメトリックベイズへの拡張
3. 逆強化学習 × ノンパラメトリック
13
報酬は確率分布から生成されると考える
逆強化学習をベイズの枠組みで定式化
他の事前知識を導入したい
最初に決める定数も減らしたい
➡ノンパラメトリックベイズを用いた逆強化学習
3.1 軌跡に関する事前知識
3.2 報酬に関する事前知識
3.3 環境に関する事前知識
- 14. ノンパラメトリックベイズのイメージ
3. 逆強化学習 × ノンパラメトリック
14
BIRL:報酬の生成過程のモデル化
振舞データの生成過程を柔軟にモデル化可能に!!
ノンパラメトリックベイズ
モデルの構造に「無限次元」を仮定
例えば,データのクラスタリングの場合
混合数に無限
混合数
クラスタ
同時に学習
- 15. 3.1 軌跡に関する事前知識
3. 逆強化学習 × ノンパラメトリック
15
今までの軌跡に対する考え方
(複数)エージェントは1種類の報酬に従って振舞データ 𝒟 を生成
[Choi 12]の提案では
(複数)エージェントは複数種類の報酬に従って振舞データ 𝒟 を生成
[Choi 12] Nonparametric Bayesian Inverse Reinforcement Learning for Multiple Reward
Functions. In Nips (pp. 1–9).
振舞データ 𝒟
𝜁1
𝜁 𝑑
𝜁4
𝜁7
𝜁11
𝜁1𝜁 𝐷
𝜁12
𝜁13
𝜁15
𝜁21
𝜁2 𝑹1
𝑹2
𝑹3
クラスタ
報酬
同時に学習
- 16. グラフィカルモデル
3. 逆強化学習 × ノンパラメトリック
16
BIRLのグラフィカルモデル (事前分布は正規分布)
𝑀 : 環境のモデル
𝐻 : 軌跡の長さ
𝜇, 𝜎 : 正規分布のパラメタ
𝑟𝑑 : 軌跡 𝜁 𝑑, 1 ≤ 𝑑 ≤ 𝐷 の報酬
IRL for multiple reward function [Choi 12] のグラフィカルモデル
𝑟𝑘,𝑑 : クラスタ 𝑘 における
軌跡 𝜁 𝑑 の報酬
𝑝 𝑘 : クラスタ 𝑘 混合確率
𝒑|𝛼~Dirichlet
𝛼
𝐾
, …
𝛼
𝐾
, 𝐾 = ∞
𝑐 𝑚 : 𝑘 に分類される確率
𝑐 𝑚|𝑷~Multinomial(𝑝1, … , 𝑃 𝐾) ディリクレ過程を導入
- 17. 実験結果 Simulated-highway problem
3.1 軌跡に関する事前知識
17
h
左・中央・右を走る三種類の報酬から軌跡を生成
EM-MLIRL: EMでクラスタリング後に逆強化学習
提案手法は誤差(EVD)が小さく,クラスタも三種類
Expected Value Difference = |𝑉 𝜋∗(𝑹A) 𝑹A − 𝑉 𝜋∗ 𝑹L
(𝑹A)|
推定報酬 𝑹L で真の報酬 𝑹A と同じ方策を得ることができるか
- 20. Bayesian Nonparametric IRL [Michini 11]
3.2 報酬に関する事前知識
20
状態行動対 𝑠𝑖, 𝑎𝑖 ∈ 𝜁 がいくつかのグループに分割
例:𝜁 = {𝑠1, 𝑎1, … , 𝑠𝑖, 𝑎𝑖, 𝑠𝑖+1, 𝑎𝑖+1, … , 𝑠 𝐻−1, 𝑎 𝐻−1, 𝑠 𝐻, 𝑎 𝐻}
分割されたグループごとにサブゴールを生成
1のサブゴール = 𝑹1
2のサブゴール = 𝑹2
3のサブゴール = 𝑹3
[Michini 11] Michini, B., & P. How, J. (2012). Bayesian Nonparametric Inverse
Reinforcement Learning. Joint European Conference on Machine Learning and Knowledge
Discovery in Databases, 148–163.
1,2,3の三つのグループに分割
サブゴール
分割
同時に学習
- 21. エージェントのサブゴールと方策
3.2 報酬に関する事前知識
21
Definition 1:状態のサブゴール 𝑔 ∈ 𝒮
𝑅 𝑔(𝑠) =
𝑐 at state 𝑔
0 at all other states
𝑅 𝑔 𝚽 𝑠 =
𝑐, 𝑠 ∈ 𝑔(𝚽)
0, 𝑠 ∉ 𝑔(𝚽)
Definition 2:エージェントの方策 𝜋
𝑃 𝑎𝑖 𝑠𝑖, 𝑔 = 𝜋 𝑎𝑖 𝑠𝑖, 𝑔 =
exp(𝜂𝑄∗(𝑠 𝑖,𝑎 𝑖,𝑹 𝑔))
𝑏∈𝒜 exp(𝜂𝑄∗(𝑠 𝑖,𝑏,𝑹 𝑔))
𝑐は正の定数
特徴ベクトルのサブゴールに拡張
サブゴール 𝑔 を目指す確率的な方策
- 22. エージェントの軌跡 𝜁 の生成過程
3.2 報酬に関する事前知識
22
軌跡 𝜁 = {𝑠1, 𝑎1, … , 𝑠𝑖, 𝑎𝑖, … , 𝑠 𝐻, 𝑎 𝐻}
エージェントは状態 𝑠𝑖 で分割グループ 𝑧𝑖 を選択
分割グループ 𝑧𝑖 のサブゴール 𝑔 𝑧 𝑖
をもとに方策を学習
行動 𝑎𝑖 ~ 𝜋 𝑎𝑖 𝑠𝑖, 𝑔 𝑧 𝑖
を生成
𝑃 𝜁, 𝒛, 𝒈 = 𝑃 𝜁 𝒛, 𝒈 𝑃 𝒛, 𝒈
= 𝑃 𝜁 𝒛, 𝒈 𝑃 𝒛 𝑃(𝒈)
= 𝑖=1
𝐻
𝑃 𝜁 𝑔 𝑧 𝑖
𝑃(𝑧𝑖|𝑧−𝑖) 𝑖∈𝜁 𝑃(𝑔 𝑧 𝑖
)
尤度 CRP 事前分布
中華料理過程
- 23. 実験結果 20×20 grid world, 8方位行動
3.2 報酬に関する事前知識
23
他IRL(Abbeel04, MM06, BIRL07)よりも正確に方策を推定
4種類のグループとそれぞれのサブゴールを推定
予測分布 𝑃 𝑧𝑖 𝑧−𝑖, 𝒈, 𝜁 ∝ 𝑃 𝑧𝑖, 𝜁 𝑧−𝑖 𝜁−𝑖
= 𝑃 𝑧𝑖 𝑧−𝑖 𝑃(𝜁|𝑔 𝑧 𝑖
)
CRP 尤度
- 24. BNP- Feature Construction for IRL [Choi 13]
3.2 報酬に関する事前知識
24
特徴ベクトル 𝜙 ∈ 𝚽 をあらかじめ用意するのは困難
適当なバイナリ特徴量 𝜓 ∈ 𝚿 で 𝜙 を論理積で構築
Given
環境のモデル ℳ = MDP\𝑹, 振舞データ 𝒟
バイナリ特徴量 𝜓 ∈ 𝚿
Determine
特徴ベクトル 𝜙 ∈ 𝚽 ,重みベクトル 𝒘
報酬 𝑅 = 𝑓(𝚽, 𝒘)
[Choi 13]Choi, J., & Kim, K. E. (2013). Bayesian Nonparametric Feature Construction for
Inverse Reinforcement Learning. In IJCAI International Joint Conference on Artificial
Intelligence (pp. 1287–1293).
- 25. 論理積による特徴量 𝜙 の表現
3.2 報酬に関する事前知識
25
バイナリ特徴量 𝜓 ∈ 𝚿
例 Simulated-highway
𝜓1:左車線にいる, 𝜓2:右車線にいる, 𝜓3:速度が20[km/h]未満
バイナリ特徴量 𝜓 の論理積で特徴量 𝜙 を表現
𝜙 𝑘 = ∧ 𝑚∈𝑀 𝑠.𝑡. 𝑥 𝑚=1 ∧ 𝑍 𝑚,𝑘=1 𝜓 𝑚
𝑘
𝑥 𝑚:𝜓 𝑚 を使用or不使用を表すバイナリ
𝑍 𝑚,𝑘 = 1: 𝜓 𝑚
𝑘
が 𝜙 𝑘 に属するか表すバイナリ
𝜓 𝑚
𝑘
= 𝜓 𝑚 if 𝑈 𝑚,𝑘 = 1, 𝜓 𝑚
𝑘
= ¬𝜓 𝑚 otherwise.
- 26. グラフィカルモデル
3.2 報酬に関する事前知識
26
報酬 𝑟 ≔ 𝒘⊤ 𝚽
否定か
𝜅|𝜷~Beta(𝜷 = [𝛽1, 𝛽2])
𝒁|𝛼~IBP(𝛼)
IBPを導入
(インド料理過程)
特徴ベクトルの次元 𝑲 → ∞
𝑥 𝑚|𝜅~Bernoulli(𝜅)
𝑈 𝑚,𝑘~Bernoulli(0.5)
𝑤 𝑘~𝑃(𝑤 𝑘)
𝜙 𝑘 = 1になるのは
𝑧 𝑚,𝑘 = 1 ∧ 𝑢 𝑚,𝑘 = 0 ∧ 𝜓 𝑚 = 1 ∧ 𝑥 𝑚 = 1
𝑧 𝑚,𝑘 = 1 ∧ 𝑢 𝑚,𝑘 = 1 ∧ 𝜓 𝑚 = 0 ∧ 𝑥 𝑚 = 1
特徴 特徴を使うか
Given
𝑚 が 𝑘に
属するか
- 31. BNP-IRL for Switched MDP [Surana 14]
3.3 環境に関する事前知識
31
エージェントの環境がMDPではないという事前知識
Switched MDPの逆強化学習
エージェントは複数のMDP間を遷移
MDPA
MDPB
MDPC
𝐌𝐃𝐏間を遷移
B→A
A→C
C→B
時刻 1 2 23 24 𝑡 𝑡 + 1
[Surana 14] Surana, A., & Srivastava, K. (2014). Bayesian Nonparametric Inverse
Reinforcement Learning for Switched Markov Decision Processes. In 2014 13th
International Conference on Machine Learning and Applications (pp. 47–54).
・MDPの数
・MDP間の遷移確率
・各MDPの報酬
を同時に推定
- 36. 紹介した論文の整理
3. 逆強化学習 × ノンパラメトリック
36
Given
(1) 振舞データ ・軌跡集合 𝒟 = {𝜁1, … , 𝜁 𝑑, … , 𝜁 𝐷}
・軌跡 𝜁 𝑑 = 𝑠1, 𝑎1, … , 𝑠𝑖, 𝑎𝑖, … , 𝑠 𝐻, 𝑎 𝐻
(2) 感覚入力 ・特徴 𝚽 = {𝜙1, . . , 𝜙 𝑘, … , 𝜙 𝐾}
(3) 環境モデル ・MDP ⟨𝒮, 𝒜, 𝑇, 𝛾⟩
軌跡のクラスタリング [Choi 12]
サブゴール分割 [Michini 11]
論理積の特徴構築 [Choi13]
MDP間の遷移 [Surana 14]
Notas do Editor
- Normalized Mutual Information (正規化相互情報量
• 正解集合の数とクラスタ数が異なる場合 – PurityやEntropyは良い指標ではない場合がある – 正規化相互情報量を指標として使う方が良い