NIPS2017読み会@PFN： Hierarchical Reinforcement Learning + α

Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
DeNA Co., Ltd.
システム & デザイン本部
AI システム部 AI 研究開発グループ
甲野佑
NIPS2017読み会@PFN：
Hierarchical Reinforcement Learning + α
@ NIPS2017

甲野佑
所属 : 株式会社ディー・エヌ・エー AI システム部 AI 研究開発グループ
出⾝ : 東京電機⼤学 (学部〜博⼠)
研究 : 強化学習＋神経⽣理・認知モデル
最近の興味：強化学習の進化＝⾏く末，階層型強化学習
〜 2017年3⽉: ⼤学で強化学習の研究
2017年4⽉〜 : 強化学習を応⽤したゲーム AI の研究開発
対象ゲーム：
逆転オセロニア＝潜在的⾏動選択肢数が増えていく⼆⼈零和ゲーム
⾃⼰紹介
2

3
HRL@NIPS 2017
階層型強化学習 (HRL) ワークショップがついに開催
WS of HRL と本会議の関連論⽂をいくつか紹介
趣旨

⽬次
4
1. 強化学習 (RL) とは？
2. 階層型強化学習 (HRL) とは？
3. HRL の効能と懸念
4. HRL の基本的な学習フレーム
5. HRL 関係の論⽂紹介 (本題)
オマケ. いくつか通常 RL の論⽂紹介 (時間があれば)

強化学習とは
5
主体的に環境に働きかけ，獲得報酬を最大化する行動を学習
環境
観測＝環境の変化・報酬
⾏動＝報酬兼情報の収集
エージェント

環境
エージェント
6
を最⼤化させる
を獲得するのが⽬的
強化学習とは - 教師あり学習との違い -

環境
エージェント
7
が⼤きく変わるのが厄介
を更新・変化すると
強化学習とは - 教師あり学習との違い -

強化学習とは
8
(基本的には)
課題が MDP であることと，あらゆる状態への訪問が前提
→ かなり厳しい制約
環境
エージェント

強化学習とは
9
深層学習との融合 (e.g. DQN) で価値関数の関数近似が可能
最近の発展は概ね関数近似課題として学習の効率化を重視
- 状態遷移サンプルを使いまわせるように
- ターゲットの安定性
- 複数ステップの報酬
- 場当たり的な POMDP 対応
画⾯認識
(CNN)
⾏動価値評価
(強化学習)
ゲーム画⾯
(環境)
⾏動

10
関数近似課題として強化学習を解く過程で
- LSTM による時系列の圧縮＝ POMDP 対処
- Oﬀ-policy, On-policy の関係 → 統合 TD(λ) の理論発
展
- 複雑な強化学習の研究の進展
- モデルベースとの融合
- 階層型強化学習
- 暗黙的にサブゴールが学習可能に？
→ より⼈間的な⾼度な強化学習の⻑年の課題に光が
強化学習とは

11
細かな意思決定
プリミティブな⾏動 : a
⽅策 : π(a;s)
階層型強化学習とは
通常は・・・

12
⼤まかな意思決定
⽬的指向 : g
下位⽅策 : π(a;s,g) 上位⽅策 : πgoal(g;s)
下位層⽅策
を選択
(g として)
× 複数種
試⾏錯誤か
ら上位層⽅
策を⽣成？
→ 意思決定を⽬的思考に分解・構造化

13
低次⾏動（下位⽅策・通常 RL が制御）
- プリミティブな⾏動の分布
- ゲームだったらコントローラのボタン
- 多関節ロボットだったら各関節のトルクなど
⾼次⾏動（スキル・オプション，上位⽅策が制御）⽬的論
的な⾏動，⾏動系列の抽象化
- 「鍵を取りに⾏く」「⿂を取る」
- 「⾛る」「⾼いところに移動する」
低次⾏動での RL は⻑⼤な条件付けのような学習
⼈間的には低次⾏動 → ⾼次⾏動に以降するのが⾃然
状態：ランプ点灯⾏動：ボタン押下報酬：エサ獲得

14
低次⾏動（下位⽅策・通常 RL が制御）
- プリミティブな⾏動の分布
- ゲームだったらコントローラのボタン
- 多関節ロボットだったら各関節のトルクなど
⾼次⾏動（スキル・オプション，上位⽅策が制御）
- ⽬的論的な⾏動，⾏動系列の抽象化
- 「鍵を取りに⾏く」「⿂を取る」
- 「⾛る」「⾼いところに移動する」
低次⾏動での RL は⻑⼤な条件付けのような学習
⼈間的には低次⾏動 → ⾼次⾏動に以降するのが⾃然

15
階層型強化学習の効能
探索の効率化
- 関節の微⼩な調整ではなく，⾏動系列 A/B の試⾏錯誤ができる
- 意味のある状態への到達可能性の向上
タスク間の汎化・⽣涯学習
- 学習結果の部分的な転移による新課題での学習の効率化
POMDP への対抗
- MDP への場当たり的な対処 (Over step な概念であるため)
より⾼次な⾏動の獲得に寄与
- ⾼次⾏動のさらなる組み合わせが可能に
→ 強化学習の主要な課題に効果がある可能性が⾼い

16
階層型強化学習の懸念
学習形式が複雑になる
- ⾼次・低次を別々のフェイズで学習
- (単⼀タスクのみの学習では) 普通の RL より時間がかかる
サブゴール・サブタスク分割（Option 獲得）
- 中間⽬標を⾃律的に判断するのは困難
TD学習，⽅策勾配のような安定したフレームワークの不在
- 深層学習上で基本となりそうなのは 2 種類存在（後述）
タスク間の転移ルールが確⽴されていない
- 追加学習の問題なども存在
→ 通常の強化学習以上に萌芽的な分野

17
そもそもどんな表現形式で学習する？
深層階層型強化学習の基本的な学習フレーム

18
Option-Critic アーキテクチャ (2016) 〜 Option 由来
vs
FeUdal network (2017) 〜 FRL 由来
どちらも古典的概念に深層学習技術を導⼊したアーキテクチャ
（計算リソースとテクニックと運はかなり必要？）
深層階層型強化学習の基本的な学習フレーム

19
← 上位⽅策
← Option 終了条件
← 下位⽅策 (Option)
固有数の下位⽅策 (Option) を
スイッチして⾏動選択
基本構造は Actor-Critic 由来
重要なのは
Option の終了条件分布の学習
※ 終了＝打ち切り分布
Option-Critic architecture
Bacon, P.-L., Harb, J., Precup, D. The option-critic architecture. Proceedings of AAAI, 1726–1734, 2017.

20
上位⽅策から下位⽅策を全て微分可能なネットワークで学習
状態の特徴空間上の ”相対的なゴール (⽅向)” 概念を導⼊
A3C + LSTM 由来
FeUdal Networks (DeepMind 産)
※
※
上位層⽅策 (相対的ゴール分布)：
下位層⽅策：
Vezhnevets, A. S., Osindero, S., Schaul, T., Heess, N., Jaderberg, M., Silver, D., and Kavukcuoglu, K. FeUdal Networks for Hierarchical Reinforcement
Learning. ArXiv. Retrieved from http://arxiv.org/abs/1703.01161 , 2017.

21
サブゴール定義 Option 数
Option-Critic 状態に対する
確率分布
固定
FeUdal network 時間依存
最⻑時間が固定
⾃由
深層階層型強化学習の学習フレーム⽐較
→ ⼀⻑⼀短なのでどちらが良いかは決着がついてない
(どちらかというと Option-Critic 寄り？)

22
ハンドメイドな階層型強化学習
- h-DQN (Joshua B. Tenenbaum) 
- SNN for HRL (Pieter Abbeel)
下位⽅策の異なる表現形式
- STRAW (Macro Action) 等
深層階層型強化学習のその他形式
→ 他にも⾊々あるし今後も出てくる可能性
(割と Option-Critic 強めではある)
Kulkarni, T. D., Narasimhan, K., Saeedi, A., Tenenbaum, J. B. Hierarchical Deep Reinforcement Learning: Integrating Temporal Abstraction and
Intrinsic Motivation. Proceedings of the 30th Conference on Neural Information Processing Systems (NIPS 2016), 2016.
Florensa, C., Duan, Y., Abbeel, P. Stochastic Neural Networks for Hierarchical Reinforcement Learning. Proceedings of the International Conference on
Learning Representations (ICLR 2017), 2017.
Vezhnevets, A., Mnih, V., Agapiou, J., Osindero, S., Graves, A., Vinyals, O., Kavukcuoglu, K. Strategic Attentive Writer for Learning Macro-Actions.
ArXiv. Retrieved from https://arxiv.org/abs/1606.04695, 2016.

23
Option 打ち切り分布学習の理論拡張 (Peng Q(λ) のある種の近似)
- Learning with options that terminate oﬀ-policy
下位⽅策の学習に利⽤可能な後知恵強化学習 (UFVA 由来)
- Hindsight Experience Replay
- Hindsight Policy Gradients
- (類似) Importance Sampled Option-Critic for More Sample
Eﬃcient Reinforcement Learning
汎化に対する解釈性の付与
- Successor Features for Transfer in Reinforcement Learning
- Hierarchical and Interpretable Skill Acquisition
in Multi-task Reinforcement Learning
HRL 論⽂紹介

24
サブゴール＝ Option の打ち切り分布を如何に学習するか
Option-Critic だと学習される階層構造が⼆極化する危険
Option 打ち切り分布学習の理論拡張

25
Option-Critic の学習の⼆極化 (理想)
× 複数種
⽬的指向 : g

26
× ⼀種
Option-Critic の学習の⼆極化 (スキル未分化)
↑ ⼀種の下位⽅策で全てが賄える (スキル未分化)
⽬的指向 : g

27
× 複数種
Option-Critic の学習の⼆極化 (スキル過細分化)
サブゴールが 1 step ごとに発⽣ (スキル過細分化) ↑
⽬的指向 : g

28
Option-Critic の学習の⼆極化
スキル未分化・過細分化は本質的には同様
スキル (Option) の終了・打ち切り分布＝サブゴール
が，うまく学習できていないため発⽣
→ ゴールの遠さへの対処＝時間概念に起因
発想
→ 打ち切り分布から時間成分を分離

29
Learning with options that terminate oﬀ-policy
peng Q(λ) との対応から β の成分をパラメータを分離
実際の終了分布 ζ という概念の導⼊
Harutyunyan, A., Vrancx, P., Bacon, P.-L., Precup, D., Nowe, A. Learning with options that terminate off-policy. Proceedings of Hierarchical Reinforcement
Learning Workshop at the 31st Conference on Neural Information Processing Systems (HRL@NIPS 2017), 2017.
継続確率:
TD 誤差:
収益予測:
収益更新:

30
打ち切り時期に関して Sampling 分布 ζ と Target 分布 β が別
通常の Option-Critic は ζ = β
← Target 分布使用
↑ Sampling 分布使用

31
(1) ζ ⼩ (Option の Sampling: ⻑) → 学習速度が向上
(2) β ⼤ (Option の Target: 短, Oﬀ-policy) → 制御性能が向上
(3) Q(β) は oﬀ-policy 打ち切りに収束
短期 Option の獲得と⻑期的収益で安定性を両⽴させる⽰唆

32
今後：
短期 Option → ⻑期 Option への拡張は可能 (転移には⼤事)
(階層型ゆえ) 効率は良くないが
途中式から重点サンプリングで効率化可能である⽰唆

33
下位⽅策の学習に利⽤可能な後知恵強化学習
上位層⽅策と下位層⽅策 (複数) を両⽅が学習するから
学習が⾮常に困難＆時間がかかる
→ 同時に複数の下位⽅策を学習して効率化

34
通常 RL の拡張アルゴリズム
Universal Value Function Approximators (UVFA)
→ 下位層⽅策と表現形式がほぼ同様
後知恵 (ある種の記憶改竄) による効率改善
→ HER, HPG
最初からゴール状態を定義して学習 ↓
下位⽅策の学習に利⽤可能な後知恵強化学習

35
あらかじめゴールを決めて学習を開始
実際の結果系列から ”訪問状態がゴールだった” を書き換えて
経験再⽣して学習 (スパース報酬のための⼿法)
Hindsight Experience Replay
← 後知恵
(⽬的の記憶の改竄)
Andrychowicz, M., Wolski, F., Ray, A., Schneider, J., Fong, R., Welinder, P., McGrew, B., Tobin, J., Abbeel, P., Zaremba, W. Hindsight Experience
Replay. Proceedings of the 31st Conference on Neural Information Processing Systems (NIPS 2017), 2017.

36
ゴール状態間の類似度から暗黙的なカリキュラム学習
スパースな報酬をカウントベース(楽観的信頼度評価)無しで学習
Hindsight Experience Replay
Andrychowicz, M., Wolski, F., Ray, A., Schneider, J., Fong, R., Welinder, P., McGrew, B., Tobin, J., Abbeel, P., Zaremba, W. Hindsight Experience
Replay. Proceedings of the 31st Conference on Neural Information Processing Systems (NIPS 2017), 2017.

37
異なるゴールに向かって⽣成された軌跡を
⽅策分布の学習に利⽤ (近似版も提案)
Hindsight Policy Gradients
↓
Importance sampling
Mutz, F., Schmidhuber, J. Hindsight Policy Gradients. Proceedings of Hierarchical Reinforcement Learning Workshop at the 31st Conference on Neural
Information Processing Systems (HRL@NIPS 2017), 2017.
いつもの⽅策勾配：
後知恵⽅策勾配：

38
もっとも簡便だが正確性に⽋ける近似⼿法 AHPG が⾼成績
HRL 的には同時に様々な下位⽅策が学習できる利点
Hindsight Policy Gradients

39
ゴール状態間の類似度から暗黙的なカリキュラム学習
→ 関数近似の恩恵
ゴールの定義が明確でなくとも学習が進む
→ 階層型強化学習との相性：良（はず）
（現状の Option-Critic にそのままは使えない）
HER と HPG の共通点
最初からゴール状態を定義して学習 ↓

40
通常の Actor-Critic と同等の学習効率を実現
Importance Sampled Option-Critic for
More Sample Eﬃcient Reinforcement Learning
IS を Option-Critic に応⽤
他の option の軌跡の情報を使って別の Option を更新

41
学習内容を汎化しやすい環境認識
あるいは
汎化しやすいスキル学習
課題の汎化を容易に

42
Successor Features for Transfer
in Reinforcement Learning
固定された報酬成分 ↓
タスク定義 ↑
報酬成分＝収益成分＝分解された特徴量 Φ
MDP を報酬予測から Φ の重み w を推定する逆問題化
→ 新しい MDP を再度の強化学習なしでも対処可能に
無更新 Bound:
Barreto, A., Dabney, W., Munos, R., Hunt, J., J., Tom Schaul, Silver, D., Hasselt, H., P. Successor Features for Transfer in Reinforcement Learning.
Proceedings of the 31st Conference on Neural Information Processing Systems (NIPS 2017), 2017.

43
Successor Features for Transfer
in Reinforcement Learning
Start, Goal, 通過点 Object が
変わっても再学習が容易に
Barreto, A., Dabney, W., Munos, R., Hunt, J., J., Tom Schaul, Silver, D., Hasselt, H., P. Successor Features for Transfer in Reinforcement Learning.
Proceedings of the 31st Conference on Neural Information Processing Systems (NIPS 2017), 2017.

44
スキルの ”意味” の学習
再利⽤可能性の向上
解釈可能な Option

45
Hierarchical and Interpretable Skill Acquisition
Shu, T., Xiong, C., Socher, R. Hierarchical and Interpretable Skill Acquisition in Multi-task Reinforcement Learning. Proceedings of the 31st Conference on
Neural Information Processing Systems (HRL@NIPS 2017), 2017.
⼈間の指⽰ (grammar) を付加して⽅策の階層を段階的に学習
Stochastic Temporal Grammar = STG : ⽅策間の遷移確率

46
Flat policy : プリミティブな⾏動選択 (初期 & 予備)
Base policy : 上位の policy (番号が⾼いほど上位)
Instruction policy : ⼀つ下位の Base policy を⽣成
Switch policy : Flat policy と Base policy の切り替え

47
STG : Switch と Instruction の学習に使⽤される⽅策遷移の確⽴分布
学習法：
Grammar に紐づくタスク集合からサンプリング
上位から下位のタスクを反復的に学習する (＝タスクが所与である必要)

48
提案されているアイディアを全て組み合わせた⽅が学習が効率的
タスクが所与なのは気になるが階層の解釈はしやすい
⽅策間の遷移確率(e.g. STG)は今後重要になってくる

49
FeUdal network
- 今回はまだ FeUdal Network の派⽣はない
→ 学習の安定性が問題？
Option-Critic
- Option-Critic (打ち切り分布付き) : 解釈や転移は容易？
→ Oﬀ-policy Terminate は⼀つの⽰唆
→ さらなる発展に期待
決着はまだ先
他の形式が基本フレームになる可能性もありえる
Option-Critic vs FeUdal network (振り返り)

50
階層型強化学習＝⼈間的な⾏動学習には必要な要素
まだまだ萌芽的な研究領域
強化学習＋深層学習＝階層型への恩恵
数年前の Deep RL のように WS から
メインセッションに急成⻑していく可能性
雑感

引⽤⽂献
51
[1] Bacon, P.-L., Harb, J., Precup, D. The option-critic architecture. Proceedings of AAAI, 1726–1734, 2017.
[2] Vezhnevets, A. S., Osindero, S., Schaul, T., Heess, N., Jaderberg, M., Silver, D., and Kavukcuoglu, K. FeUdal Networks for
Hierarchical Reinforcement Learning. ArXiv. Retrieved from http://arxiv.org/abs/1703.01161 , 2017.
[3] Kulkarni, T. D., Narasimhan, K., Saeedi, A., Tenenbaum, J. B. Hierarchical Deep Reinforcement Learning: Integrating
Temporal Abstraction and Intrinsic Motivation. Proceedings of the 30th Conference on Neural Information Processing Systems
(NIPS 2016), 2016.
[4] Florensa, C., Duan, Y., Abbeel, P. Stochastic Neural Networks for Hierarchical Reinforcement Learning. Proceedings of
the International Conference on Learning Representations (ICLR 2017), 2017.
[5] Vezhnevets, A., Mnih, V., Agapiou, J., Osindero, S., Graves, A., Vinyals, O., Kavukcuoglu, K. Strategic Attentive Writer for
Learning Macro-Actions. ArXiv. Retrieved from https://arxiv.org/abs/1606.04695, 2016.
[6] Harutyunyan, A., Vrancx, P., Bacon, P.-L., Precup, D., Nowe, A. Learning with options that terminate off-policy. Proceedings
of Hierarchical Reinforcement Learning Workshop at the 31st Conference on Neural Information Processing Systems
(HRL@NIPS 2017), 2017.
[7] Andrychowicz, M., Wolski, F., Ray, A., Schneider, J., Fong, R., Welinder, P., McGrew, B., Tobin, J., Abbeel, P., Zaremba, W.
Hindsight Experience Replay. Proceedings of the 31st Conference on Neural Information Processing Systems (NIPS 2017),
2017.
[8] Mutz, F., Schmidhuber, J. Hindsight Policy Gradients. Proceedings of Hierarchical Reinforcement Learning Workshop at the
31st Conference on Neural Information Processing Systems (HRL@NIPS 2017), 2017.
[9] Goel, K., Brunskill, E. Importance Sampled Option-Critic for More Sample Efficient Reinforcement Learning. Proceedings
of Hierarchical Reinforcement Learning Workshop at the 31st Conference on Neural Information Processing Systems
(HRL@NIPS 2017), 2017.
[10] Barreto, A., Dabney, W., Munos, R., Hunt, J., J., Tom Schaul, Silver, D., Hasselt, H., P. Successor Features for Transfer in
Reinforcement Learning. Proceedings of the 31st Conference on Neural Information Processing Systems (NIPS 2017), 2017.
[11] Shu, T., Xiong, C., Socher, R. Hierarchical and Interpretable Skill Acquisition in Multi-task Reinforcement Learning.
Proceedings of the 31st Conference on Neural Information Processing Systems (HRL@NIPS 2017), 2017.

52
⾮ HRL の RL 論⽂もいくつか紹介
オマケ

53
モデルフリー＋モデルベース (ALphaZero の進化系になりうる)
- Imagination-Augmented Agents (I2A)
記憶の抽象化
- Enhanced Experience Replay Generation
楽観的探索の⼯夫
- EX2
- #Exploration
価値関数の性質に由来する近似性能の向上
- Natural Value Approximator (NVA)
通常 RL 論⽂紹介

54
Rollout するためには環境モデルが必要 (e.g. AlphaGo)
環境モデルを状態遷移のモデルから学習
しかし RL 精度×環境モデル学習で直列的に悪化
モデルフリー + モデルベース

55
Imagination-Augmented Agents
for Deep Reinforcement Learning
擬似 rollout で AlphaGo のようなことをする
環境モデルを形成して推定するが，誤差が⼤きい
モデルベースが出⼒した数値も NN で解釈する
環境は動的にも学べるが負荷が⼤きいので事前に学習
Racanière, S., Weber, T., David Reichert, Buesing, L., Guez, A., Rezende, D. J., Badia, A. P., Vinyals, O., Heess, N., Li, Y., Pascanu, R. Battaglia, P.,
Hassabis, R., Silver, D., Wierstra, D. Imagination-Augmented Agents for Deep Reinforcement Learning. Proceedings of the 31st Conference on Neural
Information Processing Systems (NIPS 2017), 2017.

56
Imagination-Augmented Agents
擬似 rollout で AlphaGo のようなことをする
環境モデルを形成して推定するが，誤差が⼤きい
モデルベースが出⼒した数値も NN で解釈する
環境は動的にも学べるが負荷が⼤きいので事前に学習
Racanière, S., Weber, T., David Reichert, Buesing, L., Guez, A., Rezende, D. J., Badia, A. P., Vinyals, O., Heess, N., Li, Y., Pascanu, R. Battaglia, P.,
Hassabis, R., Silver, D., Wierstra, D. Imagination-Augmented Agents for Deep Reinforcement Learning. Proceedings of the 31st Conference on Neural
Information Processing Systems (NIPS 2017), 2017.

57
環境の状態遷移サンプルは無限にある⽅が良い
記憶容量には限界が
→ 記憶の抽象化
記憶の抽象化

58
Experience Replay を EGAN で変換
記憶の抽象化 (⽣成モデル化で) で無限の記憶領域を獲得
※ Open AI Lab, カートポール
Enhanced Experience Replay Generation
for Eﬃcient Reinforcement Learning
Huang, V., Ley, T., Vlachou-Konchylaki, M., Hu, W. Enhanced Experience Replay Generation for Efficient Reinforcement Learning. ArXiv. Retrieved
from https://arxiv.org/abs/1705.08245 , 2017.

59
ランダムな探索だと効率が悪い
関数近似による未知領域の過⼩評価を解決したい
→ 状態への訪問カウントで信頼度を評価 (楽観さ)
信頼度(訪問カウント)の評価は抽象化に向かない
→ ⼯夫が⾊々なされている
楽観的探索の⼯夫

60
経験に対する⽣成モデルを作り
鑑定⼠に訪問状態の新しさを推定させて擬似報酬を与える
EX2 : Exploration with Exemplar Models
Huang, V., Ley, T., Vlachou-Konchylaki, M., Hu, W. Enhanced Experience Replay Generation for Efficient Reinforcement Learning. ArXiv. Retrieved
from https://arxiv.org/abs/1705.08245 , 2017.

61
#Exploration: A Study of Count-Based Exploration
AE で状態をハッシュ化したテーブルに対して
到達回数をカウントして擬似カウントベース探索
複雑なモデル (VIME) でなくても良い効果が発⽣
※ Variational Information Maximizing Exploration (VIME)
Tang, H., Houthooft, R., Foote, D., Stooke, A., Chen, X., Duan, Y., Schulman, J., DeTurck, F., Abbeel, P. #Exploration: A Study of Count-Based Exploration
for Deep Reinforcement Learning. Proceedings of the 31st Conference on Neural Information Processing Systems (NIPS 2017), 2017.

62
#Exploration: A Study of Count-Based Exploration
AE で状態をハッシュ化したテーブルに対して
到達回数をカウントして擬似カウントベース探索
複雑なモデル (VIME) でなくても良い効果が発⽣
※ Variational Information Maximizing Exploration (VIME)
Tang, H., Houthooft, R., Foote, D., Stooke, A., Chen, X., Duan, Y., Schulman, J., DeTurck, F., Abbeel, P. #Exploration: A Study of Count-Based Exploration
for Deep Reinforcement Learning. Proceedings of the 31st Conference on Neural Information Processing Systems (NIPS 2017), 2017.

63
類似状態に対して極端な変化が起こるのが状態価値関数
関数近似すると近似能⼒への負荷が⾼い
価値関数の性質に由来する近似性能の向上

64
類似状態に対して極端な変化が起こるのが状態価値関数
関数近似すると近似能⼒への負荷が⾼い
Natural Value Approximators:
Learning when to Trust Past Estimates
Xu, Z., Modayil, J., Hasselt, H., P., Barreto, A., Silver, D., Schaul, T. Natural Value Approximators: Learning when to Trust Past Estimates. Proceedings of
the 31st Conference on Neural Information Processing Systems (NIPS 2017), 2017.

65
⾃然価値：
損失関数：
更新式の逆算から⾃然価値を表現
⾃然価値推定と通常価値推定との重み付け変数 β を学習
ある種の Semi-MDP にも使える

66
更新式の逆算から⾃然価値を表現
⾃然価値推定と通常価値推定との重み付け変数 β を学習
ある種の Semi-MDP にも使える

67
ご静聴ありがとうございました

引⽤⽂献
68
[9] Racanière, S., Weber, T., David Reichert, Buesing, L., Guez, A., Rezende, D. J., Badia, A. P., Vinyals, O., Heess, N., Li, Y.,
Pascanu, R. Battaglia, P., Hassabis, R., Silver, D., Wierstra, D. Imagination-Augmented Agents for Deep Reinforcement
Learning. Proceedings of the 31st Conference on Neural Information Processing Systems (NIPS 2017), 2017.
[10] Huang, V., Ley, T., Vlachou-Konchylaki, M., Hu, W. Enhanced Experience Replay Generation for Efficient Reinforcement
Learning. ArXiv. Retrieved from https://arxiv.org/abs/1705.08245 , 2017.
[11] Fu, J., Co-Reyes, J., Levine, S. EX2 : Exploration with Exemplar Models for Deep Reinforcement Learning. Proceedings of
[12] Tang, H., Houthooft, R., Foote, D., Stooke, A., Chen, X., Duan, Y., Schulman, J., DeTurck, F., Abbeel, P. #Exploration: A
Study of Count-Based Exploration for Deep Reinforcement Learning. Proceedings of the 31st Conference on Neural Information
Processing Systems (NIPS 2017), 2017.
[13] Xu, Z., Modayil, J., Hasselt, H., P., Barreto, A., Silver, D., Schaul, T. Natural Value Approximators: Learning when to Trust
Past Estimates. Proceedings of the 31st Conference on Neural Information Processing Systems (NIPS 2017), 2017.

NIPS2017読み会@PFN： Hierarchical Reinforcement Learning + α

Recomendados

Recomendados

Mais conteúdo relacionado

Mais procurados

Mais procurados (20)

Semelhante a NIPS2017読み会@PFN： Hierarchical Reinforcement Learning + α

Semelhante a NIPS2017読み会@PFN： Hierarchical Reinforcement Learning + α (20)

Último

Último (11)

NIPS2017読み会@PFN： Hierarchical Reinforcement Learning + α