SlideShare uma empresa Scribd logo
1 de 35
Generative Adversarial
Imitation Learning
Jonathan Ho, Stefano Ermon (NIPS 2016)
中田 勇介(M1)
千葉大学 大学院 融合理工学府
荒井研究室
2017/11/14 RLアーキテクチャ勉強会
発表の構成
2
論文の主な貢献
模倣学習,IRL ,RLの概要
RL○IRLを凸最適化問題として定式化
既存の徒弟学習手法を凸最適化問題の枠組みで説明
 徒弟学習(Apprenticeship learning) = IRLによる模倣学習
提案法:GANsを用いた模倣学習アルゴリズム
実験結果
まとめ
論文の主な貢献
3
RL○IRLと同じ方策を学習する模倣学習アルゴリズム
 環境の情報を必要としないモデルフリーアルゴリズム
 報酬(コスト)を推定することなく方策を直接学習
 既存のIRLが必要とする試行錯誤(RL)を削減
 大規模,高次元状態行動空間に適用可能
RL○IRLを凸最適化(min max)問題として定式化
既存の模倣学習手法を定式化した枠組みで説明
 IRLを使った模倣学習手法 [Abbeel 04], [Syed 08]
GANを用いた模倣学習アルゴリズムを提案
模倣学習
4
所与:エキスパートの意思決定系列
学習対象:エキスパートの方策
主なアプローチは二つ
 Behavior cloning [Pomerleau 89]
 Apprenticeship Learning (IRL) [Abbeel 04], [Syed 08]
逆強化学習
5
エキスパートが最小化するコストを推定する手法
 エキスパート,タスクの解き方を知っているエージェント
 推定したコストを最小化する方策 = エキスパートの方策
三つのステップで推定 Update cost
Run RLCompare with
Expert
逆強化学習
6
目的関数(Maximum causal Entropy IRL)
※
上式の解 に対する最適方策はエキスパートの方策と一致
強化学習
7
コストの期待値を最小化する方策を学習
IRLで求めたコストに対してRLすればエキスパートの
方策を再現可能
目的関数(エキスパートの方策を再現する場合)
論文の目的
8
上式はIRLを解いてRLを解くという2段階の問題設定
RL○IRLを1段階の問題設定で定式化したい
変数を変換しRL○IRLを凸最適化問題として定式化
凸最適化問題とは
9
非凸関数凸関数
凸最適化問題とは
10
凸関数 凹関数
凸関数をひっくり返したものが凹関数
凸最適化問題とは
11
von Neumannのミニマックス定理(鞍点の存在定理)
 YとZはそれぞれ空でないコンパクト凸集合.KはY×Zを定義
域とする実数値関数.Zを固定したK(・, z)が下半連続な凸関数.
Yを固定したK(y, ・)が上半連続な凹関数ならば関数K(y, z)には
鞍点が存在する.
https://ja.wikipedia.org/wiki/%E9%9E%8D%E7%82%B9
凸最適化問題とは
12
局所的な最小値が大域的な最小値と一致
狭義凸関数で最小値を持てば解は一意に決まる
最適性条件など諸定理が分かっていることも嬉しい
 KKT条件,双対定理,鞍点定理,ミニマックス定理 等
IRL,RLの再定式化
13
凸な正則化関数を含むIRLを定義
正則化関数を導入しコスト関数の表現能力を目的関数に反映
IRL,RLの再定式化
14
正則化関数を含むIRLの解を と表す
 を凸最適化問題にするために変数を変換
コストの期待値は次式で表される
ρが満たす性質
15
 と は一対一対応

 はアフィン集合
命題3.2.
16
命題:RL○IRLで得られる方策は次式で表される
 は の凸共役関数
証明
17
変数をρに変換した関数を定義
凸関数 凹関数線形関数線形関数
証明
18
と は対応
命題の式の解
上式を用いて命題の式の解,IRL,RL○IRLを表す
IRLの解
RL○IRLの解
と は一対一対応なので を示せば命題が示せる
証明
19
 は任意の に対して凸関数( が変数)
 は任意の に対して凹関数( が変数)
上記と変数の定義域から は鞍点 を持つ
鞍点の定義
凸関数 凹関数線形関数線形関数
※Von Neumannのミニマックス定理
証明
20
鞍点の定義
鞍点の定義より次式が成り立つ
証明
21
minとmaxの定義から次式が成り立つ
証明
22
鞍点の定義から導いた式
minとmaxの定義から導いた式
関数 は上の二つの式を満たすので
※minimax dualityからも分かる.
証明
23
上式より, は の鞍点である
命題の式の解
IRLの解
証明
24
上式より, は の鞍点である
鞍点なので次式が成り立つ
命題の式の解
IRLの解
証明
25
RL○IRLの解 は次式で表される
鞍点の条件から導いた式 は
よって
と は一対一対応
は狭義凸関数
証明終わり
証明から分かること
26
今までは次式を解いていた
証明によって次式を解けば良いことが分かった
IRLの解
RL○IRLの解
IRLに関して分かったこと
27
IRLは関数 の鞍点を求めていた
上の事実は正則化関数が定数の場合が理解しやすい
上式の解は次の問題のラグランジュ関数の解に等しい
Cがラグランジュ変数
(制約なし)
IRLに関して分かったこと
28
IRLはラグランジュ変数を求めていたことになる
例えば,MaxEnt IRLは次の二つのステップを繰り返す
これは双対上昇法(鞍点の座標を求める手法)
双対上昇法は主問題が安易に解ける場合は有効
しかし,IRLの場合はRLを解く必要があるため非効率
主問題
IRLに関して分かったこと
29
凹関数の上昇
方向に更新
凸関数最適化
凹関数の勾配
計算
Update Cost
Compare with
Expert
IRL 双対上昇法
Run RL
非効率
線形コストの場合の模倣学習
30
模倣学習の場合,双対上昇法(IRL)は非効率的
疑問:導出した問題は効率的に解けるのか?
導出した問題
既存の徒弟学習
IRLの解
線形コストの場合の模倣学習
31
コスト関数が線形の場合には効率的な方法がある
1. 軌跡をサンプルし解析的にコストを求める
2. 解いたコストを使って方策勾配
1, 2を繰り返す
線形の場合は解析的に解ける
GANsを用いた非線形コストの模倣学習
32
非線形のコスト関数を使いたい
GANsは,ある非線形関数のミニマックス問題を解ける
GANsの目的関数と一致するように正則化関数を定義
模倣学習の目的関数
最小値で分布が一致
アルゴリズム
33
実験結果
34
まとめ
35
IRLを必要としない模倣学習アルゴリズムを提案
モデルフリーのアルゴリズム
教師データの数は少なくて良い
IRLの解を凸解析の枠組みで説明

Mais conteúdo relacionado

Mais procurados

[DL輪読会]Learning Latent Dynamics for Planning from Pixels
[DL輪読会]Learning Latent Dynamics for Planning from Pixels[DL輪読会]Learning Latent Dynamics for Planning from Pixels
[DL輪読会]Learning Latent Dynamics for Planning from PixelsDeep Learning JP
 
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
[DL輪読会]Dream to Control: Learning Behaviors by Latent ImaginationDeep Learning JP
 
[DL輪読会]`強化学習のための状態表現学習 -より良い「世界モデル」の獲得に向けて-
[DL輪読会]`強化学習のための状態表現学習 -より良い「世界モデル」の獲得に向けて-[DL輪読会]`強化学習のための状態表現学習 -より良い「世界モデル」の獲得に向けて-
[DL輪読会]`強化学習のための状態表現学習 -より良い「世界モデル」の獲得に向けて-Deep Learning JP
 
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...Deep Learning JP
 
自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)cvpaper. challenge
 
多様な強化学習の概念と課題認識
多様な強化学習の概念と課題認識多様な強化学習の概念と課題認識
多様な強化学習の概念と課題認識佑 甲野
 
TensorFlowで逆強化学習
TensorFlowで逆強化学習TensorFlowで逆強化学習
TensorFlowで逆強化学習Mitsuhisa Ohta
 
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence ModelingDeep Learning JP
 
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展Deep Learning JP
 
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜SSII
 
Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)Yoshitaka Ushiku
 
猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoderSho Tatsuno
 
「世界モデル」と関連研究について
「世界モデル」と関連研究について「世界モデル」と関連研究について
「世界モデル」と関連研究についてMasahiro Suzuki
 
Semi supervised, weakly-supervised, unsupervised, and active learning
Semi supervised, weakly-supervised, unsupervised, and active learningSemi supervised, weakly-supervised, unsupervised, and active learning
Semi supervised, weakly-supervised, unsupervised, and active learningYusuke Uchida
 
PCAの最終形態GPLVMの解説
PCAの最終形態GPLVMの解説PCAの最終形態GPLVMの解説
PCAの最終形態GPLVMの解説弘毅 露崎
 
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
[DL輪読会]ドメイン転移と不変表現に関するサーベイ[DL輪読会]ドメイン転移と不変表現に関するサーベイ
[DL輪読会]ドメイン転移と不変表現に関するサーベイDeep Learning JP
 
生成モデルの Deep Learning
生成モデルの Deep Learning生成モデルの Deep Learning
生成モデルの Deep LearningSeiya Tokui
 
報酬設計と逆強化学習
報酬設計と逆強化学習報酬設計と逆強化学習
報酬設計と逆強化学習Yusuke Nakata
 
[DL輪読会]Temporal Abstraction in NeurIPS2019
[DL輪読会]Temporal Abstraction in NeurIPS2019[DL輪読会]Temporal Abstraction in NeurIPS2019
[DL輪読会]Temporal Abstraction in NeurIPS2019Deep Learning JP
 
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...Deep Learning JP
 

Mais procurados (20)

[DL輪読会]Learning Latent Dynamics for Planning from Pixels
[DL輪読会]Learning Latent Dynamics for Planning from Pixels[DL輪読会]Learning Latent Dynamics for Planning from Pixels
[DL輪読会]Learning Latent Dynamics for Planning from Pixels
 
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
 
[DL輪読会]`強化学習のための状態表現学習 -より良い「世界モデル」の獲得に向けて-
[DL輪読会]`強化学習のための状態表現学習 -より良い「世界モデル」の獲得に向けて-[DL輪読会]`強化学習のための状態表現学習 -より良い「世界モデル」の獲得に向けて-
[DL輪読会]`強化学習のための状態表現学習 -より良い「世界モデル」の獲得に向けて-
 
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
 
自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)
 
多様な強化学習の概念と課題認識
多様な強化学習の概念と課題認識多様な強化学習の概念と課題認識
多様な強化学習の概念と課題認識
 
TensorFlowで逆強化学習
TensorFlowで逆強化学習TensorFlowで逆強化学習
TensorFlowで逆強化学習
 
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
 
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
 
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
 
Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)
 
猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder
 
「世界モデル」と関連研究について
「世界モデル」と関連研究について「世界モデル」と関連研究について
「世界モデル」と関連研究について
 
Semi supervised, weakly-supervised, unsupervised, and active learning
Semi supervised, weakly-supervised, unsupervised, and active learningSemi supervised, weakly-supervised, unsupervised, and active learning
Semi supervised, weakly-supervised, unsupervised, and active learning
 
PCAの最終形態GPLVMの解説
PCAの最終形態GPLVMの解説PCAの最終形態GPLVMの解説
PCAの最終形態GPLVMの解説
 
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
[DL輪読会]ドメイン転移と不変表現に関するサーベイ[DL輪読会]ドメイン転移と不変表現に関するサーベイ
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
 
生成モデルの Deep Learning
生成モデルの Deep Learning生成モデルの Deep Learning
生成モデルの Deep Learning
 
報酬設計と逆強化学習
報酬設計と逆強化学習報酬設計と逆強化学習
報酬設計と逆強化学習
 
[DL輪読会]Temporal Abstraction in NeurIPS2019
[DL輪読会]Temporal Abstraction in NeurIPS2019[DL輪読会]Temporal Abstraction in NeurIPS2019
[DL輪読会]Temporal Abstraction in NeurIPS2019
 
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
 

Generative Adversarial Imitation Learningの紹介(RLアーキテクチャ勉強会)