SlideShare uma empresa Scribd logo
1 de 37
ノンパラメトリックベイズを用いた
逆強化学習の紹介
石川 翔太
千葉大学 荒井研究室
2018/1/16 第11回RLアーキテクチャ勉強会
本発表の構成
2
1. 逆強化学習とは
2. ベイジアン逆強化学習
Bayesian Inverse Reinforcement Learning
3. 逆強化学習 × ノンパラメトリックベイズ
3.1 軌跡に関する事前知識の導入
3.2 報酬に関する事前知識の導入
3.3 環境に関する事前知識の導入
4. 発表のまとめ
逆強化学習による報酬の推定
1. 逆強化学習とは
3
逆強化学習 (IRL : Inverse Reinforcement Learning)
Given
(1) エージェントの振舞データ
(2) エージェントの感覚入力
(3) エージェントがいた環境モデル
Determine
エージェントが方策の学習に用いた報酬
[Russell 98] Russell, S. (1998). Learning agents for uncertain environments (extended abstract).
Proceedings of the 11th Annual Conference on Computational Learning Theory (COLT), 101–103.
[Russell 98]
無くても良い
逆強化学習の対象問題
1. 逆強化学習とは
4
IRLで推定した報酬
徒弟学習 (apprenticeship learning)
エージェント = 師匠 (エキスパート)
推定した報酬をもとに弟子が師匠の方策を学習
推定した報酬を分析 (reward learning)
報酬がエージェントの目的・選好・関心を表現
人や動物のモデル化や振舞データの分析などに有効
※ノンパラメトリックベイズ逆強化学習では
人が分析しやすい形で報酬を推定できる点で
reward learningに有効
(エキスパートの報酬)
逆強化学習の定式化
1. 逆強化学習とは
5
Given
(1) 振舞データ ・軌跡集合 𝒟 = {𝜁1, … , 𝜁 𝑑, … , 𝜁 𝐷}
・軌跡 𝜁 𝑑 = {𝑠1, 𝑎1, … , 𝑠𝑖, 𝑎𝑖, … , 𝑠 𝐻, 𝑎 𝐻}
(2) 感覚入力 ・特徴 𝚽 = {𝜙1, . . , 𝜙 𝑘, … , 𝜙 𝐾}
(3) 環境モデル ・MDP\𝑹 ⟨𝒮, 𝒜, 𝑇, 𝛾⟩
Determine
報酬 𝑹 = (𝑅 𝑠1 , … , 𝑅(𝑠 𝒮 ))
𝑹 = 𝒇 𝒘, 𝚽 , 𝑤は重みベクトル
有限長 𝐻
特に 𝑇 の部分
本発表の構成
6
1. 逆強化学習とは
2. ベイジアン逆強化学習
Bayesian Inverse Reinforcement Learning
3. 逆強化学習 × ノンパラメトリックベイズ
3.1 軌跡に関する事前知識の導入
3.2 報酬に関する事前知識の導入
3.3 環境に関する事前知識の導入
4. 発表のまとめ
Bayesian IRL [Ramachandran 07]
2. ベイジアン逆強化学習
7
逆強化学習をベイズの枠組みで定式化した論文
報酬は確率分布 𝑃(𝑹) から生成されると仮定
利点
エージェントの事前知識を事前確率として反映
[Ramachandran 07] Ramachandran, D., & Amir, E. (2007). Bayesian inverse reinforcement learning. In
IJCAI International Joint Conference on Artificial Intelligence (pp. 2586–2591).
Bayesian IRLの定式化
2. ベイジアン逆強化学習
8
ベイズの定理より以下の式を導出
エージェントにいくつかの仮定をおき,
尤度 𝑃(𝜁 𝑑|𝑹) と事前分布 𝑃(𝑹) を定式化
尤度 事前分布
𝑃 𝑹 𝜁 𝑑 =
𝑃 𝜁 𝑑 𝑹 𝑃 𝑹
𝑃(𝜁 𝑑)
事後分布
尤度 𝑃(𝒟|𝑹)
2. ベイジアン逆強化学習
9
エージェントの方策に関する二つの仮定を置く
仮定①:方策は収益を最大化
𝑃 (𝑠𝑖, 𝑎𝑖) 𝑹 =
exp(𝜂𝑄 𝜋∗
(𝑠 𝑖,𝑎 𝑖,𝑹))
𝑏∈𝒜 exp(𝜂𝑄 𝜋∗
(𝑠 𝑖,𝑏,𝑹))
, (𝑠𝑖, 𝑎𝑖) ∈ 𝜁 𝑑
仮定②:方策は定常
𝑃 𝜁 𝑑 𝑹 = 𝑃 𝑠1, 𝑎1 𝑹 … 𝑃 𝑠 𝐻, 𝑎 𝐻 𝑹
𝑃 𝜁 𝑑 𝑹 = 𝑠 𝑖,𝑎 𝑖 ∈𝜁 𝑑
exp(𝜂𝑄 𝜋∗
(𝑠 𝑖,𝑎 𝑖,𝑹))
𝑏∈𝒜 exp(𝜂𝑄 𝜋∗
(𝑠 𝑖,𝑏,𝑹))
𝜂 :軌跡データの信頼度パラメタ
(ボルツマン分布の温度パラメタ)
尤度
事前分布 𝑃(𝑹)
2. ベイジアン逆強化学習
10
仮定
振舞データ 𝒟 以外の情報が無いとき,エントロピー最大化の原理
に従って報酬の確率分布には独立同分布(i.i.d.)が成り立つ
𝑃 𝑹 = 𝑠∈𝒮 𝑃(𝑅(𝑠))
= 𝑃 𝑅 𝑠1 𝑃 𝑅 𝑠2 … 𝑃(𝑅(𝑠|𝒮|))
エージェントの報酬に関する事前知識を導入
・問題に関して無知 一様分布
・報酬の差が小さい 正規分布
・計画問題(ゴール指向) ベータ分布
事前分布
事後分布から点推定 = 報酬の推定
2. ベイジアン逆強化学習
11
ベイズの定理より以下の式を導出
MCMC法により 𝑍 を計算せずに報酬(点) 𝑹 を推定
事後確率最大化 (MAP) は勾配で計算可能
尤度 事前分布
𝑃 𝑹 𝜁 𝑑 =
𝑃 𝜁 𝑑 𝑹 𝑃 𝑹
𝑃(𝜁 𝑑)
事後分布
1
𝑍
= 𝑠 𝑖,𝑎 𝑖 ∈𝜁 𝑑
exp(𝜂𝑄 𝜋∗
(𝑠𝑖, 𝑎𝑖, 𝑹)) 𝑠 𝑖∈𝒮 𝑃(𝑅(𝑠𝑖))
[Choi 11] Choi, J., & Kim, K. E. (2011). MAP Inference for Bayesian Inverse Reinforcement
Learning. In Nips (pp. 1–9).
[Choi 11]
推定報酬における
エージェントと同じの行動の価値
事前に設定した確率
BIRL まとめ
2. ベイジアン逆強化学習
12
報酬は確率分布から生成されると考える
逆強化学習をベイズの枠組みで定式化
事前知識を導入できる
振舞データの
生成過程をモデル化
(事前知識の導入)
振舞データ
推論計算
(MCMC法)
予測
ノンパラメトリックベイズへの拡張
3. 逆強化学習 × ノンパラメトリック
13
報酬は確率分布から生成されると考える
逆強化学習をベイズの枠組みで定式化
他の事前知識を導入したい
最初に決める定数も減らしたい
➡ノンパラメトリックベイズを用いた逆強化学習
3.1 軌跡に関する事前知識
3.2 報酬に関する事前知識
3.3 環境に関する事前知識
ノンパラメトリックベイズのイメージ
3. 逆強化学習 × ノンパラメトリック
14
BIRL:報酬の生成過程のモデル化
振舞データの生成過程を柔軟にモデル化可能に!!
ノンパラメトリックベイズ
モデルの構造に「無限次元」を仮定
例えば,データのクラスタリングの場合
混合数に無限
混合数
クラスタ
同時に学習
3.1 軌跡に関する事前知識
3. 逆強化学習 × ノンパラメトリック
15
今までの軌跡に対する考え方
(複数)エージェントは1種類の報酬に従って振舞データ 𝒟 を生成
[Choi 12]の提案では
(複数)エージェントは複数種類の報酬に従って振舞データ 𝒟 を生成
[Choi 12] Nonparametric Bayesian Inverse Reinforcement Learning for Multiple Reward
Functions. In Nips (pp. 1–9).
振舞データ 𝒟
𝜁1
𝜁 𝑑
𝜁4
𝜁7
𝜁11
𝜁1𝜁 𝐷
𝜁12
𝜁13
𝜁15
𝜁21
𝜁2 𝑹1
𝑹2
𝑹3
クラスタ
報酬
同時に学習
グラフィカルモデル
3. 逆強化学習 × ノンパラメトリック
16
BIRLのグラフィカルモデル (事前分布は正規分布)
𝑀 : 環境のモデル
𝐻 : 軌跡の長さ
𝜇, 𝜎 : 正規分布のパラメタ
𝑟𝑑 : 軌跡 𝜁 𝑑, 1 ≤ 𝑑 ≤ 𝐷 の報酬
IRL for multiple reward function [Choi 12] のグラフィカルモデル
𝑟𝑘,𝑑 : クラスタ 𝑘 における
軌跡 𝜁 𝑑 の報酬
𝑝 𝑘 : クラスタ 𝑘 混合確率
𝒑|𝛼~Dirichlet
𝛼
𝐾
, …
𝛼
𝐾
, 𝐾 = ∞
𝑐 𝑚 : 𝑘 に分類される確率
𝑐 𝑚|𝑷~Multinomial(𝑝1, … , 𝑃 𝐾) ディリクレ過程を導入
実験結果 Simulated-highway problem
3.1 軌跡に関する事前知識
17
h
左・中央・右を走る三種類の報酬から軌跡を生成
EM-MLIRL: EMでクラスタリング後に逆強化学習
提案手法は誤差(EVD)が小さく,クラスタも三種類
Expected Value Difference = |𝑉 𝜋∗(𝑹A) 𝑹A − 𝑉 𝜋∗ 𝑹L
(𝑹A)|
推定報酬 𝑹L で真の報酬 𝑹A と同じ方策を得ることができるか
本発表の構成
18
1. 逆強化学習とは
2. ベイジアン逆強化学習
Bayesian Inverse Reinforcement Learning
3. 逆強化学習 × ノンパラメトリックベイズ
3.1 軌跡に関する事前知識の導入
3.2 報酬に関する事前知識の導入
3.3 環境に関する事前知識の導入
4. 発表のまとめ
特徴ベクトルによる報酬の表現
3.2 報酬に関する事前知識
19
特徴ベクトルを用いて報酬を表現
𝑹 = 𝑓(𝚽, 𝒘)
報酬関数を線形で表すことが多い
𝑹 = 𝒘⊤ 𝚽
𝑅 𝑠 = 𝑤1 𝜙1 𝑠 + ⋯ + 𝑤 𝑘 𝜙 𝑘(𝑠) + ⋯ + 𝑤 𝐾 𝜙 𝐾(𝑠)
エージェントの報酬が非線形という事前知識を持つ場合
・いくつかのサブゴールに分割 [Michini 11]
・論理積を用いて非線形報酬を表現 [Choi 13]
※重みベクトル 𝒘 を決定する問題に変わる
Bayesian Nonparametric IRL [Michini 11]
3.2 報酬に関する事前知識
20
状態行動対 𝑠𝑖, 𝑎𝑖 ∈ 𝜁 がいくつかのグループに分割
例:𝜁 = {𝑠1, 𝑎1, … , 𝑠𝑖, 𝑎𝑖, 𝑠𝑖+1, 𝑎𝑖+1, … , 𝑠 𝐻−1, 𝑎 𝐻−1, 𝑠 𝐻, 𝑎 𝐻}
分割されたグループごとにサブゴールを生成
1のサブゴール = 𝑹1
2のサブゴール = 𝑹2
3のサブゴール = 𝑹3
[Michini 11] Michini, B., & P. How, J. (2012). Bayesian Nonparametric Inverse
Reinforcement Learning. Joint European Conference on Machine Learning and Knowledge
Discovery in Databases, 148–163.
1,2,3の三つのグループに分割
サブゴール
分割
同時に学習
エージェントのサブゴールと方策
3.2 報酬に関する事前知識
21
Definition 1:状態のサブゴール 𝑔 ∈ 𝒮
𝑅 𝑔(𝑠) =
𝑐 at state 𝑔
0 at all other states
𝑅 𝑔 𝚽 𝑠 =
𝑐, 𝑠 ∈ 𝑔(𝚽)
0, 𝑠 ∉ 𝑔(𝚽)
Definition 2:エージェントの方策 𝜋
𝑃 𝑎𝑖 𝑠𝑖, 𝑔 = 𝜋 𝑎𝑖 𝑠𝑖, 𝑔 =
exp(𝜂𝑄∗(𝑠 𝑖,𝑎 𝑖,𝑹 𝑔))
𝑏∈𝒜 exp(𝜂𝑄∗(𝑠 𝑖,𝑏,𝑹 𝑔))
𝑐は正の定数
特徴ベクトルのサブゴールに拡張
サブゴール 𝑔 を目指す確率的な方策
エージェントの軌跡 𝜁 の生成過程
3.2 報酬に関する事前知識
22
軌跡 𝜁 = {𝑠1, 𝑎1, … , 𝑠𝑖, 𝑎𝑖, … , 𝑠 𝐻, 𝑎 𝐻}
エージェントは状態 𝑠𝑖 で分割グループ 𝑧𝑖 を選択
分割グループ 𝑧𝑖 のサブゴール 𝑔 𝑧 𝑖
をもとに方策を学習
行動 𝑎𝑖 ~ 𝜋 𝑎𝑖 𝑠𝑖, 𝑔 𝑧 𝑖
を生成
𝑃 𝜁, 𝒛, 𝒈 = 𝑃 𝜁 𝒛, 𝒈 𝑃 𝒛, 𝒈
= 𝑃 𝜁 𝒛, 𝒈 𝑃 𝒛 𝑃(𝒈)
= 𝑖=1
𝐻
𝑃 𝜁 𝑔 𝑧 𝑖
𝑃(𝑧𝑖|𝑧−𝑖) 𝑖∈𝜁 𝑃(𝑔 𝑧 𝑖
)
尤度 CRP 事前分布
中華料理過程
実験結果 20×20 grid world, 8方位行動
3.2 報酬に関する事前知識
23
他IRL(Abbeel04, MM06, BIRL07)よりも正確に方策を推定
4種類のグループとそれぞれのサブゴールを推定
予測分布 𝑃 𝑧𝑖 𝑧−𝑖, 𝒈, 𝜁 ∝ 𝑃 𝑧𝑖, 𝜁 𝑧−𝑖 𝜁−𝑖
= 𝑃 𝑧𝑖 𝑧−𝑖 𝑃(𝜁|𝑔 𝑧 𝑖
)
CRP 尤度
BNP- Feature Construction for IRL [Choi 13]
3.2 報酬に関する事前知識
24
特徴ベクトル 𝜙 ∈ 𝚽 をあらかじめ用意するのは困難
適当なバイナリ特徴量 𝜓 ∈ 𝚿 で 𝜙 を論理積で構築
Given
環境のモデル ℳ = MDP\𝑹, 振舞データ 𝒟
バイナリ特徴量 𝜓 ∈ 𝚿
Determine
特徴ベクトル 𝜙 ∈ 𝚽 ,重みベクトル 𝒘
報酬 𝑅 = 𝑓(𝚽, 𝒘)
[Choi 13]Choi, J., & Kim, K. E. (2013). Bayesian Nonparametric Feature Construction for
Inverse Reinforcement Learning. In IJCAI International Joint Conference on Artificial
Intelligence (pp. 1287–1293).
論理積による特徴量 𝜙 の表現
3.2 報酬に関する事前知識
25
バイナリ特徴量 𝜓 ∈ 𝚿
例 Simulated-highway
𝜓1:左車線にいる, 𝜓2:右車線にいる, 𝜓3:速度が20[km/h]未満
バイナリ特徴量 𝜓 の論理積で特徴量 𝜙 を表現
𝜙 𝑘 = ∧ 𝑚∈𝑀 𝑠.𝑡. 𝑥 𝑚=1 ∧ 𝑍 𝑚,𝑘=1 𝜓 𝑚
𝑘
𝑥 𝑚:𝜓 𝑚 を使用or不使用を表すバイナリ
𝑍 𝑚,𝑘 = 1: 𝜓 𝑚
𝑘
が 𝜙 𝑘 に属するか表すバイナリ
𝜓 𝑚
𝑘
= 𝜓 𝑚 if 𝑈 𝑚,𝑘 = 1, 𝜓 𝑚
𝑘
= ¬𝜓 𝑚 otherwise.
グラフィカルモデル
3.2 報酬に関する事前知識
26
報酬 𝑟 ≔ 𝒘⊤ 𝚽
否定か
𝜅|𝜷~Beta(𝜷 = [𝛽1, 𝛽2])
𝒁|𝛼~IBP(𝛼)
IBPを導入
(インド料理過程)
特徴ベクトルの次元 𝑲 → ∞
𝑥 𝑚|𝜅~Bernoulli(𝜅)
𝑈 𝑚,𝑘~Bernoulli(0.5)
𝑤 𝑘~𝑃(𝑤 𝑘)
𝜙 𝑘 = 1になるのは
𝑧 𝑚,𝑘 = 1 ∧ 𝑢 𝑚,𝑘 = 0 ∧ 𝜓 𝑚 = 1 ∧ 𝑥 𝑚 = 1
𝑧 𝑚,𝑘 = 1 ∧ 𝑢 𝑚,𝑘 = 1 ∧ 𝜓 𝑚 = 0 ∧ 𝑥 𝑚 = 1
特徴 特徴を使うか
Given
𝑚 が 𝑘に
属するか
実験 Object-world
3.2 報酬に関する事前知識
27
object との位置で報酬が決定
非線形報酬
初期配置後8回行動
行動は4方向 + 立ち止まる
遷移にランダム性あり
実験結果 近似誤差EVDについて
3.2 報酬に関する事前知識
28
非線形報酬を推定するGPIRL[Levine 11]とほぼ同等の性能
GPIRLよりも優れている点は報酬の可読性
[Levine 11] Levine, S., Popovic, Z., & Koltun, V. (2011). Nonlinear Inverse Reinforcement
Learning with Gaussian Processes. In Nips (pp. 19–27).
実験結果 報酬の可読性について
3.2 報酬に関する事前知識
29
振舞データ 𝒟 を生成した報酬
真の報酬
推定報酬
𝜓 がバイナリかつ論理積なので
人が特徴 𝜙 を読める
可読性がある報酬を推定可能
推定報酬
本発表の構成
30
1. 逆強化学習とは
2. ベイジアン逆強化学習
Bayesian Inverse Reinforcement Learning
3. 逆強化学習 × ノンパラメトリックベイズ
3.1 軌跡に関する事前知識の導入
3.2 報酬に関する事前知識の導入
3.3 環境に関する事前知識の導入
4. 発表のまとめ
BNP-IRL for Switched MDP [Surana 14]
3.3 環境に関する事前知識
31
エージェントの環境がMDPではないという事前知識
Switched MDPの逆強化学習
エージェントは複数のMDP間を遷移
MDPA
MDPB
MDPC
𝐌𝐃𝐏間を遷移
B→A
A→C
C→B
時刻 1 2 23 24 𝑡 𝑡 + 1
[Surana 14] Surana, A., & Srivastava, K. (2014). Bayesian Nonparametric Inverse
Reinforcement Learning for Switched Markov Decision Processes. In 2014 13th
International Conference on Machine Learning and Applications (pp. 47–54).
・MDPの数
・MDP間の遷移確率
・各MDPの報酬
を同時に推定
グラフィカルモデル
3.3 環境に関する事前知識
32
エージェントは状態遷移後にMDPを遷移
全てのMDPで状態遷移確率は同じものとしている
𝜉𝑗
𝜉𝑗|𝛼, 𝜅, 𝛽~DP(𝛼 + 𝜅,
𝛼𝛽 + 𝜅𝛿𝑗
𝛼 + 𝜅
)
𝛽|𝛾~GEM(𝛾)
𝑧𝑡| 𝜉𝑗 𝑗=1
∞
, 𝑧𝑡−1~𝜉 𝑧 𝑡−1
𝜉𝑗:MDP 𝑗 から
他MDPへ遷移確率
𝜃𝑗:MDP 𝑗 の報酬パラメータ
実験結果 建物の警備シナリオ
3.3 環境に関する事前知識
33
建物の周囲A,B,C地点を警備(巡回)するシナリオ
建物
建物
実験結果 推定した報酬関数
3.3 環境に関する事前知識
34
MCMC法でのサンプリング
MDPごとに異なる重みを推定
A
B
C
実験結果 軌跡の予測結果
3.3 環境に関する事前知識
35
軌跡(所与,左上)
C→B→A→C→B
軌跡(推定,右上)
C→B→A→C→B
順番はほぼ一致
切替タイミングは異なる
紹介した論文の整理
3. 逆強化学習 × ノンパラメトリック
36
Given
(1) 振舞データ ・軌跡集合 𝒟 = {𝜁1, … , 𝜁 𝑑, … , 𝜁 𝐷}
・軌跡 𝜁 𝑑 = 𝑠1, 𝑎1, … , 𝑠𝑖, 𝑎𝑖, … , 𝑠 𝐻, 𝑎 𝐻
(2) 感覚入力 ・特徴 𝚽 = {𝜙1, . . , 𝜙 𝑘, … , 𝜙 𝐾}
(3) 環境モデル ・MDP ⟨𝒮, 𝒜, 𝑇, 𝛾⟩
軌跡のクラスタリング [Choi 12]
サブゴール分割 [Michini 11]
論理積の特徴構築 [Choi13]
MDP間の遷移 [Surana 14]
発表のまとめ
37
逆強化学習は報酬を推定する手法
報酬が人の目的を表すと考えて分析 → reward learning
ベイジアン逆強化学習は推定に事前知識を反映できる
ノンパラメトリックベイズを用いた逆強化学習を説明
 分割数などの変数をあらかじめ決める必要なし(無限次元の過程)
 人が分析しやすい形の報酬を推定 → reward learning に適している
 各論文のMCMC法の説明は割愛
振舞データの
生成過程をモデル化
振舞データ
推論計算
(MCMC法)
予測

Mais conteúdo relacionado

Mais procurados

強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
Shota Imai
 

Mais procurados (20)

[DL輪読会]`強化学習のための状態表現学習 -より良い「世界モデル」の獲得に向けて-
[DL輪読会]`強化学習のための状態表現学習 -より良い「世界モデル」の獲得に向けて-[DL輪読会]`強化学習のための状態表現学習 -より良い「世界モデル」の獲得に向けて-
[DL輪読会]`強化学習のための状態表現学習 -より良い「世界モデル」の獲得に向けて-
 
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
 
MIRU2016 チュートリアル
MIRU2016 チュートリアルMIRU2016 チュートリアル
MIRU2016 チュートリアル
 
Control as Inference (強化学習とベイズ統計)
Control as Inference (強化学習とベイズ統計)Control as Inference (強化学習とベイズ統計)
Control as Inference (強化学習とベイズ統計)
 
Skip Connection まとめ(Neural Network)
Skip Connection まとめ(Neural Network)Skip Connection まとめ(Neural Network)
Skip Connection まとめ(Neural Network)
 
ようやく分かった!最尤推定とベイズ推定
ようやく分かった!最尤推定とベイズ推定ようやく分かった!最尤推定とベイズ推定
ようやく分かった!最尤推定とベイズ推定
 
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
 
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
 
方策勾配型強化学習の基礎と応用
方策勾配型強化学習の基礎と応用方策勾配型強化学習の基礎と応用
方策勾配型強化学習の基礎と応用
 
機械学習のためのベイズ最適化入門
機械学習のためのベイズ最適化入門機械学習のためのベイズ最適化入門
機械学習のためのベイズ最適化入門
 
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learningゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
 
バンディット問題について
バンディット問題についてバンディット問題について
バンディット問題について
 
PILCO - 第一回高橋研究室モデルベース強化学習勉強会
PILCO - 第一回高橋研究室モデルベース強化学習勉強会PILCO - 第一回高橋研究室モデルベース強化学習勉強会
PILCO - 第一回高橋研究室モデルベース強化学習勉強会
 
【DL輪読会】時系列予測 Transfomers の精度向上手法
【DL輪読会】時系列予測 Transfomers の精度向上手法【DL輪読会】時系列予測 Transfomers の精度向上手法
【DL輪読会】時系列予測 Transfomers の精度向上手法
 
[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...
[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...
[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...
 
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
 
Generative Adversarial Imitation Learningの紹介(RLアーキテクチャ勉強会)
Generative Adversarial Imitation Learningの紹介(RLアーキテクチャ勉強会)Generative Adversarial Imitation Learningの紹介(RLアーキテクチャ勉強会)
Generative Adversarial Imitation Learningの紹介(RLアーキテクチャ勉強会)
 
異常検知と変化検知 9章 部分空間法による変化点検知
異常検知と変化検知 9章 部分空間法による変化点検知異常検知と変化検知 9章 部分空間法による変化点検知
異常検知と変化検知 9章 部分空間法による変化点検知
 
最近のディープラーニングのトレンド紹介_20200925
最近のディープラーニングのトレンド紹介_20200925最近のディープラーニングのトレンド紹介_20200925
最近のディープラーニングのトレンド紹介_20200925
 
全力解説!Transformer
全力解説!Transformer全力解説!Transformer
全力解説!Transformer
 

Semelhante a ノンパラメトリックベイズを用いた逆強化学習

Semelhante a ノンパラメトリックベイズを用いた逆強化学習 (9)

PRML2.1 2.2
PRML2.1 2.2PRML2.1 2.2
PRML2.1 2.2
 
Prml2.1 2.2,2.4-2.5
Prml2.1 2.2,2.4-2.5Prml2.1 2.2,2.4-2.5
Prml2.1 2.2,2.4-2.5
 
Active Learning と Bayesian Neural Network
Active Learning と Bayesian Neural NetworkActive Learning と Bayesian Neural Network
Active Learning と Bayesian Neural Network
 
人工知能2018 6 強化学習の基礎
人工知能2018 6 強化学習の基礎人工知能2018 6 強化学習の基礎
人工知能2018 6 強化学習の基礎
 
自由エネルギー原理から エナクティヴィズムへ
自由エネルギー原理から エナクティヴィズムへ自由エネルギー原理から エナクティヴィズムへ
自由エネルギー原理から エナクティヴィズムへ
 
NN, CNN, and Image Analysis
NN, CNN, and Image AnalysisNN, CNN, and Image Analysis
NN, CNN, and Image Analysis
 
混合モデルとEMアルゴリズム(PRML第9章)
混合モデルとEMアルゴリズム(PRML第9章)混合モデルとEMアルゴリズム(PRML第9章)
混合モデルとEMアルゴリズム(PRML第9章)
 
An introduction to statistical learning 4 logistic regression manu
An introduction to statistical learning 4 logistic regression manuAn introduction to statistical learning 4 logistic regression manu
An introduction to statistical learning 4 logistic regression manu
 
Multi-agent Inverse reinforcement learning: 相互作用する行動主体の報酬推定
Multi-agent Inverse reinforcement learning: 相互作用する行動主体の報酬推定Multi-agent Inverse reinforcement learning: 相互作用する行動主体の報酬推定
Multi-agent Inverse reinforcement learning: 相互作用する行動主体の報酬推定
 

Último

Último (10)

Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsUtilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native Integrations
 
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
 

ノンパラメトリックベイズを用いた逆強化学習

Notas do Editor

  1. Normalized Mutual Information (正規化相互情報量 • 正解集合の数とクラスタ数が異なる場合 – PurityやEntropyは良い指標ではない場合がある – 正規化相互情報量を指標として使う方が良い