ノンパラメトリックベイズを用いた逆強化学習

ノンパラメトリックベイズを用いた
逆強化学習の紹介
石川翔太
千葉大学荒井研究室
2018/1/16 第11回RLアーキテクチャ勉強会

本発表の構成
2
1. 逆強化学習とは
2. ベイジアン逆強化学習
Bayesian Inverse Reinforcement Learning
3. 逆強化学習 × ノンパラメトリックベイズ
3.1 軌跡に関する事前知識の導入
3.2 報酬に関する事前知識の導入
3.3 環境に関する事前知識の導入
4. 発表のまとめ

逆強化学習による報酬の推定
3
逆強化学習 (IRL : Inverse Reinforcement Learning)
Given
(1) エージェントの振舞データ
(2) エージェントの感覚入力
(3) エージェントがいた環境モデル
Determine
エージェントが方策の学習に用いた報酬
[Russell 98] Russell, S. (1998). Learning agents for uncertain environments (extended abstract).
Proceedings of the 11th Annual Conference on Computational Learning Theory (COLT), 101–103.
[Russell 98]
無くても良い

逆強化学習の対象問題
4
IRLで推定した報酬
徒弟学習 (apprenticeship learning)
エージェント = 師匠 (エキスパート)
推定した報酬をもとに弟子が師匠の方策を学習
推定した報酬を分析 (reward learning)
報酬がエージェントの目的・選好・関心を表現
人や動物のモデル化や振舞データの分析などに有効
※ノンパラメトリックベイズ逆強化学習では
人が分析しやすい形で報酬を推定できる点で
reward learningに有効
(エキスパートの報酬)

逆強化学習の定式化
5
Given
(1) 振舞データ・軌跡集合 𝒟 = {𝜁1, … , 𝜁 𝑑, … , 𝜁 𝐷}
・軌跡 𝜁 𝑑 = {𝑠1, 𝑎1, … , 𝑠𝑖, 𝑎𝑖, … , 𝑠 𝐻, 𝑎 𝐻}
(2) 感覚入力・特徴 𝚽 = {𝜙1, . . , 𝜙 𝑘, … , 𝜙 𝐾}
(3) 環境モデル・MDP＼𝑹 ⟨𝒮, 𝒜, 𝑇, 𝛾⟩
Determine
報酬 𝑹 = (𝑅 𝑠1 , … , 𝑅(𝑠 𝒮 ))
𝑹 = 𝒇 𝒘, 𝚽 , 𝑤は重みベクトル
有限長 𝐻
特に 𝑇 の部分

本発表の構成
6

Bayesian IRL [Ramachandran 07]
7
逆強化学習をベイズの枠組みで定式化した論文
報酬は確率分布 𝑃(𝑹) から生成されると仮定
利点
エージェントの事前知識を事前確率として反映
[Ramachandran 07] Ramachandran, D., & Amir, E. (2007). Bayesian inverse reinforcement learning. In
IJCAI International Joint Conference on Artificial Intelligence (pp. 2586–2591).

Bayesian IRLの定式化
8
ベイズの定理より以下の式を導出
エージェントにいくつかの仮定をおき，
尤度 𝑃(𝜁 𝑑|𝑹) と事前分布 𝑃(𝑹) を定式化
尤度事前分布
𝑃 𝑹 𝜁 𝑑 =
𝑃 𝜁 𝑑 𝑹 𝑃 𝑹
𝑃(𝜁 𝑑)
事後分布

尤度 𝑃(𝒟|𝑹)
9
エージェントの方策に関する二つの仮定を置く
仮定①：方策は収益を最大化
𝑃 (𝑠𝑖, 𝑎𝑖) 𝑹 =
exp(𝜂𝑄 𝜋∗
(𝑠 𝑖,𝑎 𝑖,𝑹))
𝑏∈𝒜 exp(𝜂𝑄 𝜋∗
(𝑠 𝑖,𝑏,𝑹))
, (𝑠𝑖, 𝑎𝑖) ∈ 𝜁 𝑑
仮定②：方策は定常
𝑃 𝜁 𝑑 𝑹 = 𝑃 𝑠1, 𝑎1 𝑹 … 𝑃 𝑠 𝐻, 𝑎 𝐻 𝑹
𝑃 𝜁 𝑑 𝑹 = 𝑠 𝑖,𝑎 𝑖 ∈𝜁 𝑑
(𝑠 𝑖,𝑎 𝑖,𝑹))
𝑏∈𝒜 exp(𝜂𝑄 𝜋∗
(𝑠 𝑖,𝑏,𝑹))
𝜂 ：軌跡データの信頼度パラメタ
(ボルツマン分布の温度パラメタ)
尤度

事前分布 𝑃(𝑹)
10
仮定
振舞データ 𝒟 以外の情報が無いとき，エントロピー最大化の原理
に従って報酬の確率分布には独立同分布(i.i.d.)が成り立つ
𝑃 𝑹 = 𝑠∈𝒮 𝑃(𝑅(𝑠))
= 𝑃 𝑅 𝑠1 𝑃 𝑅 𝑠2 … 𝑃(𝑅(𝑠|𝒮|))
エージェントの報酬に関する事前知識を導入
・問題に関して無知一様分布
・報酬の差が小さい正規分布
・計画問題(ゴール指向) ベータ分布
事前分布

事後分布から点推定 = 報酬の推定
11
ベイズの定理より以下の式を導出
MCMC法により 𝑍 を計算せずに報酬(点) 𝑹 を推定
事後確率最大化 (MAP) は勾配で計算可能
尤度事前分布
𝑃 𝑹 𝜁 𝑑 =
𝑃 𝜁 𝑑 𝑹 𝑃 𝑹
𝑃(𝜁 𝑑)
事後分布
1
𝑍
= 𝑠 𝑖,𝑎 𝑖 ∈𝜁 𝑑
(𝑠𝑖, 𝑎𝑖, 𝑹)) 𝑠 𝑖∈𝒮 𝑃(𝑅(𝑠𝑖))
[Choi 11] Choi, J., & Kim, K. E. (2011). MAP Inference for Bayesian Inverse Reinforcement
Learning. In Nips (pp. 1–9).
[Choi 11]
推定報酬における
エージェントと同じの行動の価値
事前に設定した確率

BIRL まとめ
12
報酬は確率分布から生成されると考える
逆強化学習をベイズの枠組みで定式化
事前知識を導入できる
振舞データの
生成過程をモデル化
(事前知識の導入)
振舞データ
推論計算
(MCMC法)
予測

ノンパラメトリックベイズへの拡張
3. 逆強化学習 × ノンパラメトリック
13
報酬は確率分布から生成されると考える
逆強化学習をベイズの枠組みで定式化
他の事前知識を導入したい
最初に決める定数も減らしたい
➡ノンパラメトリックベイズを用いた逆強化学習
3.1 軌跡に関する事前知識
3.2 報酬に関する事前知識
3.3 環境に関する事前知識

ノンパラメトリックベイズのイメージ
14
BIRL：報酬の生成過程のモデル化
振舞データの生成過程を柔軟にモデル化可能に！！
ノンパラメトリックベイズ
モデルの構造に「無限次元」を仮定
例えば，データのクラスタリングの場合
混合数に無限
混合数
クラスタ
同時に学習

15
今までの軌跡に対する考え方
(複数)エージェントは１種類の報酬に従って振舞データ 𝒟 を生成
[Choi 12]の提案では
(複数)エージェントは複数種類の報酬に従って振舞データ 𝒟 を生成
[Choi 12] Nonparametric Bayesian Inverse Reinforcement Learning for Multiple Reward
Functions. In Nips (pp. 1–9).
振舞データ 𝒟
𝜁1
𝜁 𝑑
𝜁4
𝜁7
𝜁11
𝜁1𝜁 𝐷
𝜁12
𝜁13
𝜁15
𝜁21
𝜁2 𝑹1
𝑹2
𝑹3
クラスタ
報酬
同時に学習

グラフィカルモデル
16
BIRLのグラフィカルモデル (事前分布は正規分布)
𝑀 : 環境のモデル
𝐻 : 軌跡の長さ
𝜇, 𝜎 : 正規分布のパラメタ
𝑟𝑑 : 軌跡 𝜁 𝑑, 1 ≤ 𝑑 ≤ 𝐷 の報酬
IRL for multiple reward function [Choi 12] のグラフィカルモデル
𝑟𝑘,𝑑 : クラスタ 𝑘 における
軌跡 𝜁 𝑑 の報酬
𝑝 𝑘 : クラスタ 𝑘 混合確率
𝒑|𝛼~Dirichlet
𝛼
𝐾
, …
𝛼
𝐾
, 𝐾 = ∞
𝑐 𝑚 : 𝑘 に分類される確率
𝑐 𝑚|𝑷~Multinomial(𝑝1, … , 𝑃 𝐾) ディリクレ過程を導入

実験結果 Simulated-highway problem
17
ｈ
左・中央・右を走る三種類の報酬から軌跡を生成
EM-MLIRL： EMでクラスタリング後に逆強化学習
提案手法は誤差(EVD)が小さく，クラスタも三種類
Expected Value Difference = |𝑉 𝜋∗(𝑹A) 𝑹A − 𝑉 𝜋∗ 𝑹L
(𝑹A)|
推定報酬 𝑹L で真の報酬 𝑹A と同じ方策を得ることができるか

本発表の構成
18

特徴ベクトルによる報酬の表現
19
特徴ベクトルを用いて報酬を表現
𝑹 = 𝑓(𝚽, 𝒘)
報酬関数を線形で表すことが多い
𝑹 = 𝒘⊤ 𝚽
𝑅 𝑠 = 𝑤1 𝜙1 𝑠 + ⋯ + 𝑤 𝑘 𝜙 𝑘(𝑠) + ⋯ + 𝑤 𝐾 𝜙 𝐾(𝑠)
エージェントの報酬が非線形という事前知識を持つ場合
・いくつかのサブゴールに分割 [Michini 11]
・論理積を用いて非線形報酬を表現 [Choi 13]
※重みベクトル 𝒘 を決定する問題に変わる

Bayesian Nonparametric IRL [Michini 11]
20
状態行動対 𝑠𝑖, 𝑎𝑖 ∈ 𝜁 がいくつかのグループに分割
例：𝜁 = {𝑠1, 𝑎1, … , 𝑠𝑖, 𝑎𝑖, 𝑠𝑖+1, 𝑎𝑖+1, … , 𝑠 𝐻−1, 𝑎 𝐻−1, 𝑠 𝐻, 𝑎 𝐻}
分割されたグループごとにサブゴールを生成
１のサブゴール = 𝑹1
２のサブゴール = 𝑹2
３のサブゴール = 𝑹3
[Michini 11] Michini, B., & P. How, J. (2012). Bayesian Nonparametric Inverse
Reinforcement Learning. Joint European Conference on Machine Learning and Knowledge
Discovery in Databases, 148–163.
１，２，３の三つのグループに分割
サブゴール
分割
同時に学習

エージェントのサブゴールと方策
21
Definition 1：状態のサブゴール 𝑔 ∈ 𝒮
𝑅 𝑔(𝑠) =
𝑐 at state 𝑔
0 at all other states
𝑅 𝑔 𝚽 𝑠 =
𝑐, 𝑠 ∈ 𝑔(𝚽)
0, 𝑠 ∉ 𝑔(𝚽)
Definition 2：エージェントの方策 𝜋
𝑃 𝑎𝑖 𝑠𝑖, 𝑔 = 𝜋 𝑎𝑖 𝑠𝑖, 𝑔 =
exp(𝜂𝑄∗(𝑠 𝑖,𝑎 𝑖,𝑹 𝑔))
𝑏∈𝒜 exp(𝜂𝑄∗(𝑠 𝑖,𝑏,𝑹 𝑔))
𝑐は正の定数
特徴ベクトルのサブゴールに拡張
サブゴール 𝑔 を目指す確率的な方策

エージェントの軌跡 𝜁 の生成過程
22
軌跡 𝜁 = {𝑠1, 𝑎1, … , 𝑠𝑖, 𝑎𝑖, … , 𝑠 𝐻, 𝑎 𝐻}
エージェントは状態 𝑠𝑖 で分割グループ 𝑧𝑖 を選択
分割グループ 𝑧𝑖 のサブゴール 𝑔 𝑧 𝑖
をもとに方策を学習
行動 𝑎𝑖 ~ 𝜋 𝑎𝑖 𝑠𝑖, 𝑔 𝑧 𝑖
を生成
𝑃 𝜁, 𝒛, 𝒈 = 𝑃 𝜁 𝒛, 𝒈 𝑃 𝒛, 𝒈
= 𝑃 𝜁 𝒛, 𝒈 𝑃 𝒛 𝑃(𝒈)
= 𝑖=1
𝐻
𝑃 𝜁 𝑔 𝑧 𝑖
𝑃(𝑧𝑖|𝑧−𝑖) 𝑖∈𝜁 𝑃(𝑔 𝑧 𝑖
)
尤度 CRP 事前分布
中華料理過程

実験結果 20×20 grid world, 8方位行動
23
他IRL(Abbeel04, MM06, BIRL07)よりも正確に方策を推定
４種類のグループとそれぞれのサブゴールを推定
予測分布 𝑃 𝑧𝑖 𝑧−𝑖, 𝒈, 𝜁 ∝ 𝑃 𝑧𝑖, 𝜁 𝑧−𝑖 𝜁−𝑖
= 𝑃 𝑧𝑖 𝑧−𝑖 𝑃(𝜁|𝑔 𝑧 𝑖
)
CRP 尤度

BNP- Feature Construction for IRL [Choi 13]
24
特徴ベクトル 𝜙 ∈ 𝚽 をあらかじめ用意するのは困難
適当なバイナリ特徴量 𝜓 ∈ 𝚿 で 𝜙 を論理積で構築
Given
環境のモデル ℳ = MDP＼𝑹, 振舞データ 𝒟
バイナリ特徴量 𝜓 ∈ 𝚿
Determine
特徴ベクトル 𝜙 ∈ 𝚽 ，重みベクトル 𝒘
報酬 𝑅 = 𝑓(𝚽, 𝒘)
[Choi 13]Choi, J., & Kim, K. E. (2013). Bayesian Nonparametric Feature Construction for
Inverse Reinforcement Learning. In IJCAI International Joint Conference on Artificial
Intelligence (pp. 1287–1293).

論理積による特徴量 𝜙 の表現
25
バイナリ特徴量 𝜓 ∈ 𝚿
例 Simulated-highway
𝜓1:左車線にいる, 𝜓2:右車線にいる, 𝜓3:速度が20[km/h]未満
バイナリ特徴量 𝜓 の論理積で特徴量 𝜙 を表現
𝜙 𝑘 = ∧ 𝑚∈𝑀 𝑠.𝑡. 𝑥 𝑚=1 ∧ 𝑍 𝑚,𝑘=1 𝜓 𝑚
𝑘
𝑥 𝑚：𝜓 𝑚 を使用or不使用を表すバイナリ
𝑍 𝑚,𝑘 = 1： 𝜓 𝑚
𝑘
が 𝜙 𝑘 に属するか表すバイナリ
𝜓 𝑚
𝑘
= 𝜓 𝑚 if 𝑈 𝑚,𝑘 = 1, 𝜓 𝑚
𝑘
= ¬𝜓 𝑚 otherwise.

26
報酬 𝑟 ≔ 𝒘⊤ 𝚽
否定か
𝜅|𝜷~Beta(𝜷 = [𝛽1, 𝛽2])
𝒁|𝛼~IBP(𝛼)
IBPを導入
(インド料理過程)
特徴ベクトルの次元 𝑲 → ∞
𝑥 𝑚|𝜅~Bernoulli(𝜅)
𝑈 𝑚,𝑘~Bernoulli(0.5)
𝑤 𝑘~𝑃(𝑤 𝑘)
𝜙 𝑘 = 1になるのは
𝑧 𝑚,𝑘 = 1 ∧ 𝑢 𝑚,𝑘 = 0 ∧ 𝜓 𝑚 = 1 ∧ 𝑥 𝑚 = 1
𝑧 𝑚,𝑘 = 1 ∧ 𝑢 𝑚,𝑘 = 1 ∧ 𝜓 𝑚 = 0 ∧ 𝑥 𝑚 = 1
特徴特徴を使うか
Given
𝑚 が 𝑘に
属するか

実験 Object-world
27
object との位置で報酬が決定
非線形報酬
初期配置後8回行動
行動は4方向 + 立ち止まる
遷移にランダム性あり

実験結果近似誤差EVDについて
28
非線形報酬を推定するGPIRL[Levine 11]とほぼ同等の性能
GPIRLよりも優れている点は報酬の可読性
[Levine 11] Levine, S., Popovic, Z., & Koltun, V. (2011). Nonlinear Inverse Reinforcement
Learning with Gaussian Processes. In Nips (pp. 19–27).

実験結果報酬の可読性について
29
振舞データ 𝒟 を生成した報酬
真の報酬
推定報酬
𝜓 がバイナリかつ論理積なので
人が特徴 𝜙 を読める
可読性がある報酬を推定可能
推定報酬

本発表の構成
30

BNP-IRL for Switched MDP [Surana 14]
31
エージェントの環境がMDPではないという事前知識
Switched MDPの逆強化学習
エージェントは複数のMDP間を遷移
MDPA
MDPB
MDPC
𝐌𝐃𝐏間を遷移
B→A
A→C
C→B
時刻 1 2 23 24 𝑡 𝑡 + 1
[Surana 14] Surana, A., & Srivastava, K. (2014). Bayesian Nonparametric Inverse
Reinforcement Learning for Switched Markov Decision Processes. In 2014 13th
International Conference on Machine Learning and Applications (pp. 47–54).
・MDPの数
・MDP間の遷移確率
・各MDPの報酬
を同時に推定

32
エージェントは状態遷移後にMDPを遷移
全てのMDPで状態遷移確率は同じものとしている
𝜉𝑗
𝜉𝑗|𝛼, 𝜅, 𝛽~DP(𝛼 + 𝜅,
𝛼𝛽 + 𝜅𝛿𝑗
𝛼 + 𝜅
)
𝛽|𝛾~GEM(𝛾)
𝑧𝑡| 𝜉𝑗 𝑗=1
∞
, 𝑧𝑡−1~𝜉 𝑧 𝑡−1
𝜉𝑗：MDP 𝑗 から
他MDPへ遷移確率
𝜃𝑗：MDP 𝑗 の報酬パラメータ

実験結果建物の警備シナリオ
33
建物の周囲A,B,C地点を警備(巡回)するシナリオ
建物
建物

実験結果推定した報酬関数
34
MCMC法でのサンプリング
MDPごとに異なる重みを推定
A
B
C

実験結果軌跡の予測結果
35
軌跡(所与，左上)
C→B→A→C→B
軌跡(推定，右上)
C→B→A→C→B
順番はほぼ一致
切替タイミングは異なる

紹介した論文の整理
36
Given
(1) 振舞データ・軌跡集合 𝒟 = {𝜁1, … , 𝜁 𝑑, … , 𝜁 𝐷}
・軌跡 𝜁 𝑑 = 𝑠1, 𝑎1, … , 𝑠𝑖, 𝑎𝑖, … , 𝑠 𝐻, 𝑎 𝐻
(2) 感覚入力・特徴 𝚽 = {𝜙1, . . , 𝜙 𝑘, … , 𝜙 𝐾}
(3) 環境モデル・MDP ⟨𝒮, 𝒜, 𝑇, 𝛾⟩
軌跡のクラスタリング [Choi 12]
サブゴール分割 [Michini 11]
論理積の特徴構築 [Choi13]
MDP間の遷移 [Surana 14]

発表のまとめ
37
逆強化学習は報酬を推定する手法
報酬が人の目的を表すと考えて分析 → reward learning
ベイジアン逆強化学習は推定に事前知識を反映できる
ノンパラメトリックベイズを用いた逆強化学習を説明
 分割数などの変数をあらかじめ決める必要なし(無限次元の過程)
 人が分析しやすい形の報酬を推定 → reward learning に適している
 各論文のMCMC法の説明は割愛
振舞データの
生成過程をモデル化
振舞データ
推論計算
(MCMC法)
予測

ノンパラメトリックベイズを用いた逆強化学習

Recomendados

Recomendados

Mais conteúdo relacionado

Mais procurados

Mais procurados (20)

Semelhante a ノンパラメトリックベイズを用いた逆強化学習

Semelhante a ノンパラメトリックベイズを用いた逆強化学習 (9)

Último

Último (10)

ノンパラメトリックベイズを用いた逆強化学習

Notas do Editor