SlideShare uma empresa Scribd logo
1 de 45
報酬設計と逆強化学習
千葉大学大学院 荒井研究室 修士2年
中田 勇介
2018/6/23 現在の強化学習に何が足りないのか?
362 /
中田勇介
専門
強化学習,逆強化学習
経歴
千葉大学大学院 都市環境システムコース
千葉大学 都市環境システム学科
明石高専 建築学科
Github: https://github.com/uidilr
chainer/chainerrl, openai/gymに,ほんの少し貢献
自己紹介
363 /
1. 強化学習における報酬設計問題
2. 逆強化学習
3. デモンストレーションを用いる強化学習
4. まとめ
目次
364 /
マルコフ決定過程における最適方策を学習
最適方策
強化学習(RL)
・ ・ ・
365 /
マルコフ決定過程における最適方策を学習
最適方策
強化学習(RL)
・ ・ ・
366 /
強化学習(RL)
報酬の期待値が最大の方策を学習
設計者自身が解けない問題を強化学習で解ける
例: 囲碁の素人がAlphaGoをトレーニング
367 /
強化学習(RL)
報酬の期待値が最大の方策を学習
人が設計
368 /
強化学習(RL)
報酬の期待値が最大の方策を学習
報酬の例
R(s) = 1 s = 目標状態
0 otherwise
人が設計
369 /
強化学習(RL)
報酬に対する最適方策を学習
報酬の例
R(s) = 1 s = 目標状態
0 otherwise
疎(スパース)な報酬の下での学習は困難
人が設計
3610 /
強化学習(RL)
報酬に対する最適方策を学習
報酬の例
R(s) = 1 s = 目標状態
0 otherwise
疎(スパース)な報酬の下での学習は困難
→目標状態以外にも報酬を与える?
人が設計
3611 /
強化学習(RL)
報酬に対する最適方策を学習
報酬の例
R(s) = 1 s = 目標状態
0 otherwise
疎(スパース)な報酬の下での学習は困難
→目標状態以外にも報酬を与える?
→意図しない方策が最適になる場合も
人が設計
3613 /
強化学習(RL)
意図しない方策の学習を防ぐために報酬設計を試行錯誤
3614 /
強化学習(RL)
意図しない方策の学習を防ぐために報酬設計を試行錯誤
→報酬設計を試行錯誤する前に,問題を整理
3615 /
強化学習(RL)
設計者が解ける 設計者が解けない
意図しない方策の学習を防ぐために報酬設計を試行錯誤
→報酬設計を試行錯誤する前に,問題を整理
3616 /
強化学習(RL)
設計者が解ける 設計者が解けない
報酬設計 容易
報酬設計 困難
意図しない方策の学習を防ぐために報酬設計を試行錯誤
→報酬設計を試行錯誤する前に,問題を整理
3617 /
強化学習(RL)
設計者が解ける 設計者が解けない
報酬設計 容易 強化学習 強化学習
報酬設計 困難 -
意図しない方策の学習を防ぐために報酬設計を試行錯誤
→報酬設計を試行錯誤する前に,問題を整理
3618 /
意図しない方策の学習を防ぐために報酬設計を試行錯誤
→報酬設計を試行錯誤する前に,問題を整理
設計者が解ける(デモンストレーションできる)
→方策や軌跡から報酬を推定すれば良い
強化学習(RL)
設計者が解ける 設計者が解けない
報酬設計 容易 強化学習 強化学習
報酬設計 困難 逆強化学習 -
3619 /
強化学習(RL)
環境のモデル
報酬
3620 /
強化学習(RL)
環境のモデル
方策報酬
3621 /
逆強化学習(IRL)
環境のモデル
方策, 軌跡
3622 /
逆強化学習(IRL)
報酬
環境のモデル
方策, 軌跡
3623 /
逆強化学習(IRL)
報酬
環境のモデル
方策, 軌跡
・ ・ ・
3624 /
逆強化学習(IRL)
環境のモデル
方策報酬
3625 /
逆強化学習(IRL)
報酬更新
強化学習
エキスパート
と比較
3626 /
1. Maximum Entropy IRL [Ziebart et al., 2008]
- Guided Cost Learning[Finn et al., 2016]
- GAIL [Ho et al., 2016]
- AIRL [Fu et al., 2018]
2. Bayesian IRL [Ramachandran et al., 2007]
- BNFIRL [Choi et al., 2013]
3. IRL in Linearly solvable MDP [Dvijotham et al., 2010]
- LogReg IRL [Uchibe, 2018]
逆強化学習(IRL)
3627 /
1. エキスパート方策の模倣
- ロボットアームの制御[Finn et al., 2016]
- 自動運転 [Sharifzadeh et al., 2017]
2. 動物や人の行動の解析
- 線虫の行動解析[Yamaguchi et al., 2018]
- 歩行者の行動解析 [Kitani et al., 2012]
- SNSユーザーのトピック変化解析 [Yang et al., 2018]
逆強化学習問題を解くモチベーション
3628 /
設計者が解ける(デモンストレーションできる)
逆強化学習と教師あり学習
設計者が解ける 設計者が解けない
報酬設計 容易 強化学習 強化学習
報酬設計 困難 逆強化学習 -
3629 /
設計者が解ける(デモンストレーションできる)
逆強化学習と教師あり学習
設計者が解ける 設計者が解けない
報酬設計 容易 強化学習 強化学習
報酬設計 困難
逆強化学習
教師あり学習
-
3630 /
逆強化学習と教師あり学習
逆強化学習 教師あり学習
所与 教師データ
シミュレータ
教師データ
出力 方策,報酬 方策
メリット 教師データ数: 少
確率的な状態遷移に強い
報酬の転移可能
シミュレータ不要
デメリット シミュレータ必要 教師データ数: 多
3631 /
対象問題の分類と解法
設計者が解ける 設計者が解けない
報酬設計 容易 強化学習 強化学習
報酬設計 困難
逆強化学習
教師あり学習
-
3632 /
対象問題の分類と入力
設計者が解ける 設計者が解けない
報酬設計 容易 報酬 報酬
報酬設計 困難 デモンストレーション -
3633 /
対象問題の分類と入力
設計者が解ける 設計者が解けない
報酬設計 容易
報酬
デモンストレーション
報酬
報酬設計 困難 デモンストレーション -
3634 /
デモンストレーションで探索範囲を誘導
DQN From Demonstration [Hester et al., 2017]
Q-filter [Nair et al., 2017]
自ら集めた報酬が高いサンプルを
デモンストレーションとして使用
Self-Imitation Learning [Oh et al., 2018]
デモンストレーションを用いる強化学習
3635 /
デモンストレーションで探索範囲を誘導
DQN From Demonstration [Hester et al., 2017]
Q-filter [Nair et al., 2017]
自ら集めた報酬が高いサンプルを
デモンストレーションとして使用
Self-Imitation Learning [Oh et al., 2018]
報酬設計が容易なスパースな報酬でも方策が学習可能に
デモンストレーションを用いる強化学習
3636 /
報酬設計は,意図通りの問題を設定する方法としては脆弱
→疎な報酬では学習が困難
→複雑な報酬では,意図しない方策が最適方策に
複雑な報酬を設計せずに方策を学習する方法が必要
→逆強化学習
→デモンストレーションを用いる強化学習
まとめ
3637 /
報酬設計は,意図通りの問題を設定する方法としては脆弱
→スパースな報酬では学習が困難
→複雑な報酬では,意図しない方策が最適方策に
複雑な報酬を設計せずに方策を学習する方法が必要
→逆強化学習
→デモンストレーションを用いる強化学習
設計者の知識を報酬以外の形で問題に反映する方法が必要
まとめ
3638 /
予備スライド
3639 /
逆強化学習と教師あり学習
初期状態
目標状態
3640 /
逆強化学習
- 教師データ数が少なくても学習
- 確率的な状態遷移に強い
逆強化学習と教師あり学習
初期状態
目標状態
報酬
3641 /
逆強化学習
- 教師データ数が少なくても学習
- 確率的な状態遷移に強い
逆強化学習と教師あり学習
初期状態
目標状態
報酬
3642 /
逆強化学習
- 教師データ数が少なくても学習
- 確率的な状態遷移に強い
逆強化学習と教師あり学習
初期状態
目標状態
報酬
3643 /
教師あり学習
逆強化学習と教師あり学習
初期状態
目標状態
3644 /
教師あり学習
強化学習
逆強化学習と教師あり学習
最大エントロピー
報酬設計と逆強化学習

Mais conteúdo relacionado

Mais procurados

[DL輪読会] Adversarial Skill Chaining for Long-Horizon Robot Manipulation via T...
[DL輪読会] Adversarial Skill Chaining for Long-Horizon Robot Manipulation via  T...[DL輪読会] Adversarial Skill Chaining for Long-Horizon Robot Manipulation via  T...
[DL輪読会] Adversarial Skill Chaining for Long-Horizon Robot Manipulation via T...Deep Learning JP
 
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)Shota Imai
 
深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)Masahiro Suzuki
 
強化学習の基礎的な考え方と問題の分類
強化学習の基礎的な考え方と問題の分類強化学習の基礎的な考え方と問題の分類
強化学習の基礎的な考え方と問題の分類佑 甲野
 
TensorFlowで逆強化学習
TensorFlowで逆強化学習TensorFlowで逆強化学習
TensorFlowで逆強化学習Mitsuhisa Ohta
 
強化学習における好奇心
強化学習における好奇心強化学習における好奇心
強化学習における好奇心Shota Imai
 
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)Shota Imai
 
【DL輪読会】Implicit Behavioral Cloning
【DL輪読会】Implicit Behavioral Cloning【DL輪読会】Implicit Behavioral Cloning
【DL輪読会】Implicit Behavioral CloningDeep Learning JP
 
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...Deep Learning JP
 
POMDP下での強化学習の基礎と応用
POMDP下での強化学習の基礎と応用POMDP下での強化学習の基礎と応用
POMDP下での強化学習の基礎と応用Yasunori Ozaki
 
Decision Transformer: Reinforcement Learning via Sequence Modeling
Decision Transformer: Reinforcement Learning via Sequence ModelingDecision Transformer: Reinforcement Learning via Sequence Modeling
Decision Transformer: Reinforcement Learning via Sequence ModelingYasunori Ozaki
 
「世界モデル」と関連研究について
「世界モデル」と関連研究について「世界モデル」と関連研究について
「世界モデル」と関連研究についてMasahiro Suzuki
 
方策勾配型強化学習の基礎と応用
方策勾配型強化学習の基礎と応用方策勾配型強化学習の基礎と応用
方策勾配型強化学習の基礎と応用Ryo Iwaki
 
[DL輪読会] マルチエージェント強化学習と心の理論
[DL輪読会] マルチエージェント強化学習と心の理論[DL輪読会] マルチエージェント強化学習と心の理論
[DL輪読会] マルチエージェント強化学習と心の理論Deep Learning JP
 
Deep Recurrent Q-Learning(DRQN) for Partially Observable MDPs
Deep Recurrent Q-Learning(DRQN) for Partially Observable MDPsDeep Recurrent Q-Learning(DRQN) for Partially Observable MDPs
Deep Recurrent Q-Learning(DRQN) for Partially Observable MDPsHakky St
 
深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜
深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜
深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜Jun Okumura
 
[DL輪読会]深層強化学習はなぜ難しいのか?Why Deep RL fails? A brief survey of recent works.
[DL輪読会]深層強化学習はなぜ難しいのか?Why Deep RL fails? A brief survey of recent works.[DL輪読会]深層強化学習はなぜ難しいのか?Why Deep RL fails? A brief survey of recent works.
[DL輪読会]深層強化学習はなぜ難しいのか?Why Deep RL fails? A brief survey of recent works.Deep Learning JP
 
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learningゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement LearningPreferred Networks
 
機械学習モデルの判断根拠の説明
機械学習モデルの判断根拠の説明機械学習モデルの判断根拠の説明
機械学習モデルの判断根拠の説明Satoshi Hara
 
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence ModelingDeep Learning JP
 

Mais procurados (20)

[DL輪読会] Adversarial Skill Chaining for Long-Horizon Robot Manipulation via T...
[DL輪読会] Adversarial Skill Chaining for Long-Horizon Robot Manipulation via  T...[DL輪読会] Adversarial Skill Chaining for Long-Horizon Robot Manipulation via  T...
[DL輪読会] Adversarial Skill Chaining for Long-Horizon Robot Manipulation via T...
 
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
 
深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)
 
強化学習の基礎的な考え方と問題の分類
強化学習の基礎的な考え方と問題の分類強化学習の基礎的な考え方と問題の分類
強化学習の基礎的な考え方と問題の分類
 
TensorFlowで逆強化学習
TensorFlowで逆強化学習TensorFlowで逆強化学習
TensorFlowで逆強化学習
 
強化学習における好奇心
強化学習における好奇心強化学習における好奇心
強化学習における好奇心
 
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
 
【DL輪読会】Implicit Behavioral Cloning
【DL輪読会】Implicit Behavioral Cloning【DL輪読会】Implicit Behavioral Cloning
【DL輪読会】Implicit Behavioral Cloning
 
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
 
POMDP下での強化学習の基礎と応用
POMDP下での強化学習の基礎と応用POMDP下での強化学習の基礎と応用
POMDP下での強化学習の基礎と応用
 
Decision Transformer: Reinforcement Learning via Sequence Modeling
Decision Transformer: Reinforcement Learning via Sequence ModelingDecision Transformer: Reinforcement Learning via Sequence Modeling
Decision Transformer: Reinforcement Learning via Sequence Modeling
 
「世界モデル」と関連研究について
「世界モデル」と関連研究について「世界モデル」と関連研究について
「世界モデル」と関連研究について
 
方策勾配型強化学習の基礎と応用
方策勾配型強化学習の基礎と応用方策勾配型強化学習の基礎と応用
方策勾配型強化学習の基礎と応用
 
[DL輪読会] マルチエージェント強化学習と心の理論
[DL輪読会] マルチエージェント強化学習と心の理論[DL輪読会] マルチエージェント強化学習と心の理論
[DL輪読会] マルチエージェント強化学習と心の理論
 
Deep Recurrent Q-Learning(DRQN) for Partially Observable MDPs
Deep Recurrent Q-Learning(DRQN) for Partially Observable MDPsDeep Recurrent Q-Learning(DRQN) for Partially Observable MDPs
Deep Recurrent Q-Learning(DRQN) for Partially Observable MDPs
 
深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜
深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜
深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜
 
[DL輪読会]深層強化学習はなぜ難しいのか?Why Deep RL fails? A brief survey of recent works.
[DL輪読会]深層強化学習はなぜ難しいのか?Why Deep RL fails? A brief survey of recent works.[DL輪読会]深層強化学習はなぜ難しいのか?Why Deep RL fails? A brief survey of recent works.
[DL輪読会]深層強化学習はなぜ難しいのか?Why Deep RL fails? A brief survey of recent works.
 
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learningゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
 
機械学習モデルの判断根拠の説明
機械学習モデルの判断根拠の説明機械学習モデルの判断根拠の説明
機械学習モデルの判断根拠の説明
 
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
 

報酬設計と逆強化学習

Notas do Editor

  1. 本発表の目次です. はじめに,強化学習を簡単にご紹介し,強化学習における報酬設計問題を取り上げます. その後に,報酬設計の試行錯誤を回避する方法として, 逆強化学習とデモンストレーションを用いる強化学習を取り上げます.
  2. 強化学習は,マルコフ決定過程における最適方策を学習します.
  3. 最適方策とは,方策の下で得られる報酬の期待値が最大の方策を指します.
  4. 強化学習は,報酬に対する最適方策を学習をするため,設計者自身が解けない問題を解くことができます. そのような例として,AlphaGoなどがあります.強化学習によって,設計者よりも囲碁が強いエージェントを作ることができます. 強化学習では,設計者よりも優れた方策を学習できる点が,教師あり学習との大きな違いです.
  5. 強化学習の報酬は人が設計します. その報酬は,設計者がエージェントに解かせたい問題を反映している必要があります. 解かせたい問題を正しく反映する報酬は簡単に設計できるのでしょうか.
  6. よくある報酬設計の例として, 目標とする状態に正の報酬,それ以外の状態に0や負の報酬を与える方法があります. 先ほどの囲碁の例でいうと,勝利で正の報酬,それ以外で0の報酬といった感じです. 確かに,これなら簡単に定義できそうです.
  7. しかし,このようにスパースな報酬では,状態空間が大きい場合に,最適方策の獲得が困難である場合が多いです. なぜなら,強化学習は,報酬が得られる状態を訪れなければ,学習が進まないからです.
  8. では,目標状態以外にも報酬を割り振ったらいいんじゃないか. 学習が進むんじゃないかと考える訳です. そうすれば,報酬が得られる状態を訪れやすくなって,学習が進みやすくなりそうですよね.
  9. 果たして,目標状態以外にも報酬を与えた問題は,本当に意図した問題なのでしょうか. 強化学習は報酬の期待値が最大となる方策を学習をします. 報酬の設計を誤ると,本来意図した問題と異なる問題を解かせることになってしまいます. ここでは,動画で,そのような例をお見せします.
  10. LiveSlide Site https://www.youtube.com/watch?time_continue=46&v=tlOIHko8ySg
  11. 報酬の設計によって,意図しない方策が学習されることがお分かり頂けたと思います. よし,今回の反省を生かして,報酬の設計を変えてみよう.となりそうですが. ここではまず,解きたい問題を,二つの指標で分類してみます.
  12. ここではまず,解きたい問題を,二つの指標で分類してみます.
  13. 一つ目の指標を設計者が解ける問題か,解けない問題かで分類します. 言い換えれば,人が既にこなせるタスクを機械学習で自動化したいのか,人がこなせないタスクを機械学習にやらせたいのかです. 例えば,自動運転なら,人は運転できますから,設計者が解ける問題ですし, 私が,AlphaGoをトレーニングする場合は,囲碁は弱いんで,後者です.
  14. 次に,報酬設計の難易度で問題を分類します. 人が,解けても,報酬設計が難しい問題があります.先ほどのボートレースのゲームや自動運転がこれに当たります. これらの問題をどのように解くべきでしょうか. 5:30 NNのハイパーパラメータ調整, 囲碁, 車の運転
  15. 上側は,報酬が設計できる問題ですので,強化学習を適用するのが良さそうです. では下側はどうでしょうか. 右下の設計者が解けず,報酬設計困難な場合は,お手上げです. 報酬を試行錯誤で設計するしかありません. 設計者が解けて,報酬設計が困難な場合はどうでしょうか.
  16. 設計者が解けるというのは,自動車の運転みたいにデモンストレーションができる訳です. 報酬を人が設計する代わりに, デモンストレーションを生成する方策が最適方策となる報酬を推定する方法が考えられます. これが逆強化学習です.
  17. 一旦強化学習から整理すると, 強化学習は,環境のモデルと,報酬を所与として,
  18. 報酬の期待値が最大の最適方策を学習します.
  19. 一方,逆強化学習は,環境のモデルと,エキスパートの方策や軌跡などのデータから報酬を推定します.
  20. ここで,軌跡とは,状態と行動の系列,意思決定系列を指します.
  21. 逆強化学習で推定した報酬に対する最適方策はエキスパート方策と一致するため,エキスパート方策 pi_Eが模倣できます.
  22. 逆強化学習の基本的な流れを示します. まず報酬を初期化して,推定報酬に対して強化学習をし,最適方策を求める. 最適方策とエキスパート方策を比較し,比較の結果に基づいて報酬を更新します. これを繰り返します. 7:00
  23. こちらが
  24. ここで,逆強化学習を解くモチベーションをご紹介します. 一つは,エキスパート方策の模倣です. もう一つは,行動解析で,報酬自体が関心であることもあります.
  25. ここまでで,ご説明した通り,逆強化学習は,デモンストレーション,いわば教師データが用意できる場合の手法です.
  26. 当然,教師あり学習でいいのではないかという疑問が出ると思います.
  27. ここで,逆強化学習と教師あり学習を比較した表です. 逆強化学習は,シミュレータ等の試行錯誤が可能な環境を必要としますが, 教師データ数が少なくて良く,確率的な状態遷移に強いことが挙げられます. また,エキスパートの報酬が推定できていれば,状態遷移確率が異なる環境における,エキスパートの方策を学習できます.
  28. ここまで,対象問題を4つに分類し,強化学習,逆強化学習,教師あり学習の三つの機械学習手法を取り上げました. そして,報酬設計が容易な時には,報酬を用いて方策を学習し, 報酬設計が困難だが,設計者が解ける問題では,デモンストレーションから方策を学習する方が良い. そうすることで報酬設計の試行錯誤を回避することができます.
  29. それぞれの問題で使える入力を表に示しています.
  30. 左上の設計者が解けて,報酬設計が容易な場合には,デモンストレーションが使えることがお分かり頂けると思います.
  31. 近年,デモンストレーションと強化学習を組み合わせる方法が提案されています. デモンストレーションを用いて探索範囲を誘導することによって
  32. 近年,デモンストレーションと強化学習を組み合わせる方法が提案されています. デモンストレーションを用いて
  33. 設計者が持つ知識を報酬に反映するほかない. 報酬設計を試行錯誤する前に, ほかの方法で,自分が持つ問題に対する知識を反映できないか考えるのが良いと思います. そして,
  34. このような報酬が推定されたとします.
  35. LiveSlide Site https://www.youtube.com/watch?v=Ej-Jb_y25Pc