O slideshow foi denunciado.
Utilizamos seu perfil e dados de atividades no LinkedIn para personalizar e exibir anúncios mais relevantes. Altere suas preferências de anúncios quando desejar.

NIPS2017読み会@PFN: Hierarchical Reinforcement Learning + α

3.491 visualizações

Publicada em

NIPS2017読み会@PFN ( https://connpass.com/event/76552/ ) での登壇資料を公開用に編集.

Publicada em: Tecnologia
  • Seja o primeiro a comentar

NIPS2017読み会@PFN: Hierarchical Reinforcement Learning + α

  1. 1. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. DeNA Co., Ltd. システム & デザイン本部 AI システム部 AI 研究開発グループ 甲野 佑 NIPS2017読み会@PFN: Hierarchical Reinforcement Learning + α @ NIPS2017
  2. 2. 甲野 佑 所属 : 株式会社ディー・エヌ・エー AI システム部 AI 研究開発グループ 出⾝ : 東京電機⼤学 (学部〜博⼠) 研究 : 強化学習 + 神経⽣理・認知モデル 最近の興味:強化学習の進化=⾏く末,階層型強化学習 〜 2017年3⽉: ⼤学で強化学習の研究 2017年4⽉〜 : 強化学習を応⽤したゲーム AI の研究開発 対象ゲーム:  逆転オセロニア = 潜在的⾏動選択肢数が増えていく⼆⼈零和ゲーム ⾃⼰紹介 Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 2
  3. 3. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 3 HRL@NIPS 2017 階層型強化学習 (HRL) ワークショップがついに開催 WS of HRL と本会議の関連論⽂をいくつか紹介 趣旨
  4. 4. ⽬次 Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 4 1. 強化学習 (RL) とは? 2. 階層型強化学習 (HRL) とは? 3. HRL の効能と懸念 4. HRL の基本的な学習フレーム 5. HRL 関係の論⽂紹介 (本題) オマケ. いくつか通常 RL の論⽂紹介 (時間があれば)
  5. 5. 強化学習とは Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 5 主体的に環境に働きかけ,獲得報酬を最大化する行動を学習 環境 観測 = 環境の変化・報酬 ⾏動 = 報酬 兼 情報の収集 エージェント
  6. 6. 環境 観測 = 環境の変化・報酬 ⾏動 = 報酬 兼 情報の収集 エージェント Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 6 を最⼤化させる を獲得するのが⽬的 主体的に環境に働きかけ,獲得報酬を最大化する行動を学習 強化学習とは - 教師あり学習との違い -
  7. 7. 環境 観測 = 環境の変化・報酬 ⾏動 = 報酬 兼 情報の収集 エージェント Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 7 が⼤きく変わるのが厄介 を更新・変化すると 主体的に環境に働きかけ,獲得報酬を最大化する行動を学習 強化学習とは - 教師あり学習との違い -
  8. 8. 強化学習とは Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 8 主体的に環境に働きかけ,獲得報酬を最大化する行動を学習 (基本的には) 課題が MDP であることと,あらゆる状態への訪問が前提 → かなり厳しい制約 環境 観測 = 環境の変化・報酬 ⾏動 = 報酬 兼 情報の収集 エージェント
  9. 9. 強化学習とは Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 9 深層学習との融合 (e.g. DQN) で価値関数の関数近似が可能 最近の発展は概ね関数近似課題として学習の効率化を重視  - 状態遷移サンプルを使いまわせるように  - ターゲットの安定性   - 複数ステップの報酬   - 場当たり的な POMDP 対応 画⾯認識 (CNN) ⾏動価値評価 (強化学習) ゲーム画⾯ (環境) ⾏動
  10. 10. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 10 関数近似課題として強化学習を解く過程で - LSTM による時系列の圧縮 = POMDP 対処 - Off-policy, On-policy の関係 → 統合 TD(λ) の理論発 展 - 複雑な強化学習の研究の進展 - モデルベースとの融合 - 階層型強化学習 - 暗黙的にサブゴールが学習可能に? → より⼈間的な⾼度な強化学習の⻑年の課題に光が 強化学習とは
  11. 11. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 11 細かな意思決定 プリミティブな⾏動 : a ⽅策 : π(a;s) 階層型強化学習とは 通常は・・・
  12. 12. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 12 細かな意思決定 プリミティブな⾏動 : a ⼤まかな意思決定 ⽬的指向 : g 下位⽅策 : π(a;s,g) 上位⽅策 : πgoal(g;s) 下位層⽅策 を選択 (g として) × 複数種 試⾏錯誤か ら上位層⽅ 策を⽣成? 階層型強化学習とは → 意思決定を⽬的思考に分解・構造化
  13. 13. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 13 階層型強化学習とは 低次⾏動(下位⽅策・通常 RL が制御) - プリミティブな⾏動の分布 - ゲームだったらコントローラのボタン - 多関節ロボットだったら各関節のトルクなど ⾼次⾏動(スキル・オプション,上位⽅策が制御)⽬的論 的な⾏動,⾏動系列の抽象化 - 「鍵を取りに⾏く」「⿂を取る」 - 「⾛る」「⾼いところに移動する」 低次⾏動での RL は⻑⼤な条件付けのような学習 ⼈間的には低次⾏動 → ⾼次⾏動に以降するのが⾃然 状態:ランプ点灯 ⾏動:ボタン押下 報酬:エサ獲得
  14. 14. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 14 階層型強化学習とは 低次⾏動(下位⽅策・通常 RL が制御) - プリミティブな⾏動の分布 - ゲームだったらコントローラのボタン - 多関節ロボットだったら各関節のトルクなど ⾼次⾏動(スキル・オプション,上位⽅策が制御) - ⽬的論的な⾏動,⾏動系列の抽象化 - 「鍵を取りに⾏く」「⿂を取る」 - 「⾛る」「⾼いところに移動する」 低次⾏動での RL は⻑⼤な条件付けのような学習 ⼈間的には低次⾏動 → ⾼次⾏動に以降するのが⾃然
  15. 15. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 15 階層型強化学習の効能 探索の効率化 - 関節の微⼩な調整ではなく,⾏動系列 A/B の試⾏錯誤ができる - 意味のある状態への到達可能性の向上 タスク間の汎化・⽣涯学習 - 学習結果の部分的な転移による新課題での学習の効率化 POMDP への対抗 - MDP への場当たり的な対処 (Over step な概念であるため) より⾼次な⾏動の獲得に寄与 - ⾼次⾏動のさらなる組み合わせが可能に → 強化学習の主要な課題に効果がある可能性が⾼い
  16. 16. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 16 階層型強化学習の懸念 学習形式が複雑になる - ⾼次・低次を別々のフェイズで学習 - (単⼀タスクのみの学習では) 普通の RL より時間がかかる サブゴール・サブタスク分割(Option 獲得) - 中間⽬標を⾃律的に判断するのは困難 TD学習,⽅策勾配のような安定したフレームワークの不在 - 深層学習上で基本となりそうなのは 2 種類存在(後述) タスク間の転移ルールが確⽴されていない - 追加学習の問題なども存在 → 通常の強化学習以上に萌芽的な分野
  17. 17. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 17 そもそもどんな表現形式で学習する? 深層階層型強化学習の基本的な学習フレーム
  18. 18. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 18 Option-Critic アーキテクチャ (2016) 〜 Option 由来 vs FeUdal network (2017) 〜 FRL 由来 どちらも古典的概念に深層学習技術を導⼊したアーキテクチャ (計算リソースとテクニックと運はかなり必要?) 深層階層型強化学習の基本的な学習フレーム
  19. 19. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 19 ← 上位⽅策 ← Option 終了条件 ← 下位⽅策 (Option) 固有数の下位⽅策 (Option) を スイッチして⾏動選択 基本構造は Actor-Critic 由来 重要なのは Option の終了条件分布の学習 ※ 終了=打ち切り分布 Option-Critic architecture Bacon, P.-L., Harb, J., Precup, D. The option-critic architecture. Proceedings of AAAI, 1726–1734, 2017.
  20. 20. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 20 上位⽅策から下位⽅策を全て微分可能なネットワークで学習 状態の特徴空間上の ”相対的なゴール (⽅向)” 概念を導⼊ A3C + LSTM 由来 FeUdal Networks (DeepMind 産) ※ ※ 上位層⽅策 (相対的ゴール分布): 下位層⽅策: Vezhnevets, A. S., Osindero, S., Schaul, T., Heess, N., Jaderberg, M., Silver, D., and Kavukcuoglu, K. FeUdal Networks for Hierarchical Reinforcement Learning. ArXiv. Retrieved from http://arxiv.org/abs/1703.01161 , 2017.
  21. 21. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 21 サブゴール定義 Option 数 Option-Critic 状態に対する 確率分布 固定 FeUdal network 時間依存 最⻑時間が固定 ⾃由 深層階層型強化学習の学習フレーム⽐較 → ⼀⻑⼀短なのでどちらが良いかは決着がついてない (どちらかというと Option-Critic 寄り?)
  22. 22. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 22 ハンドメイドな階層型強化学習  - h-DQN (Joshua B. Tenenbaum)
  - SNN for HRL (Pieter Abbeel) 下位⽅策の異なる表現形式  - STRAW (Macro Action) 等 深層階層型強化学習のその他形式 → 他にも⾊々あるし今後も出てくる可能性 (割と Option-Critic 強めではある) Kulkarni, T. D., Narasimhan, K., Saeedi, A., Tenenbaum, J. B. Hierarchical Deep Reinforcement Learning: Integrating Temporal Abstraction and Intrinsic Motivation. Proceedings of the 30th Conference on Neural Information Processing Systems (NIPS 2016), 2016. Florensa, C., Duan, Y., Abbeel, P. Stochastic Neural Networks for Hierarchical Reinforcement Learning. Proceedings of the International Conference on Learning Representations (ICLR 2017), 2017. Vezhnevets, A., Mnih, V., Agapiou, J., Osindero, S., Graves, A., Vinyals, O., Kavukcuoglu, K. Strategic Attentive Writer for Learning Macro-Actions. ArXiv. Retrieved from https://arxiv.org/abs/1606.04695, 2016.
  23. 23. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 23 Option 打ち切り分布学習の理論拡張 (Peng Q(λ) のある種の近似)  - Learning with options that terminate off-policy 下位⽅策の学習に利⽤可能な後知恵強化学習 (UFVA 由来)  - Hindsight Experience Replay  - Hindsight Policy Gradients  - (類似) Importance Sampled Option-Critic for More Sample         Efficient Reinforcement Learning 汎化に対する解釈性の付与  - Successor Features for Transfer in Reinforcement Learning  - Hierarchical and Interpretable Skill Acquisition   in Multi-task Reinforcement Learning HRL 論⽂紹介
  24. 24. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 24 サブゴール = Option の打ち切り分布を如何に学習するか Option-Critic だと学習される階層構造が⼆極化する危険 Option 打ち切り分布学習の理論拡張
  25. 25. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 25 Option-Critic の学習の⼆極化 (理想) × 複数種 細かな意思決定 プリミティブな⾏動 : a ⼤まかな意思決定 ⽬的指向 : g 下位⽅策 : π(a;s,g) 上位⽅策 : πgoal(g;s)
  26. 26. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 26 × ⼀種 Option-Critic の学習の⼆極化 (スキル未分化) ↑ ⼀種の下位⽅策で全てが賄える (スキル未分化) 細かな意思決定 プリミティブな⾏動 : a ⼤まかな意思決定 ⽬的指向 : g 下位⽅策 : π(a;s,g) 上位⽅策 : πgoal(g;s)
  27. 27. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 27 × 複数種 Option-Critic の学習の⼆極化 (スキル過細分化) サブゴールが 1 step ごとに発⽣ (スキル過細分化) ↑ 細かな意思決定 プリミティブな⾏動 : a ⼤まかな意思決定 ⽬的指向 : g 下位⽅策 : π(a;s,g) 上位⽅策 : πgoal(g;s)
  28. 28. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 28 Option-Critic の学習の⼆極化 スキル未分化・過細分化は本質的には同様 スキル (Option) の終了・打ち切り分布=サブゴール が,うまく学習できていないため発⽣ → ゴールの遠さへの対処 = 時間概念に起因 発想 → 打ち切り分布から時間成分を分離
  29. 29. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 29 Learning with options that terminate off-policy peng Q(λ) との対応から β の成分をパラメータを分離 実際の終了分布 ζ という概念の導⼊ Harutyunyan, A., Vrancx, P., Bacon, P.-L., Precup, D., Nowe, A. Learning with options that terminate off-policy. Proceedings of Hierarchical Reinforcement Learning Workshop at the 31st Conference on Neural Information Processing Systems (HRL@NIPS 2017), 2017. 継続確率: TD 誤差: 収益予測: 収益更新:
  30. 30. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 30 Learning with options that terminate off-policy 打ち切り時期に関して Sampling 分布 ζ と Target 分布 β が別 通常の Option-Critic は ζ = β Harutyunyan, A., Vrancx, P., Bacon, P.-L., Precup, D., Nowe, A. Learning with options that terminate off-policy. Proceedings of Hierarchical Reinforcement Learning Workshop at the 31st Conference on Neural Information Processing Systems (HRL@NIPS 2017), 2017. ← Target 分布使用 ↑ Sampling 分布使用
  31. 31. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 31 Learning with options that terminate off-policy (1) ζ ⼩ (Option の Sampling: ⻑) → 学習速度が向上 (2) β ⼤ (Option の Target: 短, Off-policy) → 制御性能が向上 (3) Q(β) は off-policy 打ち切りに収束 短期 Option の獲得と⻑期的収益で安定性を両⽴させる⽰唆 Harutyunyan, A., Vrancx, P., Bacon, P.-L., Precup, D., Nowe, A. Learning with options that terminate off-policy. Proceedings of Hierarchical Reinforcement Learning Workshop at the 31st Conference on Neural Information Processing Systems (HRL@NIPS 2017), 2017.
  32. 32. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 32 Learning with options that terminate off-policy 今後: 短期 Option → ⻑期 Option への拡張は可能 (転移には⼤事) (階層型ゆえ) 効率は良くないが 途中式から重点サンプリングで効率化可能である⽰唆 Harutyunyan, A., Vrancx, P., Bacon, P.-L., Precup, D., Nowe, A. Learning with options that terminate off-policy. Proceedings of Hierarchical Reinforcement Learning Workshop at the 31st Conference on Neural Information Processing Systems (HRL@NIPS 2017), 2017.
  33. 33. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 33 下位⽅策の学習に利⽤可能な後知恵強化学習 上位層⽅策と下位層⽅策 (複数) を両⽅が学習するから 学習が⾮常に困難 & 時間がかかる → 同時に複数の下位⽅策を学習して効率化
  34. 34. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 34 通常 RL の拡張アルゴリズム Universal Value Function Approximators (UVFA) → 下位層⽅策と表現形式がほぼ同様 後知恵 (ある種の記憶改竄) による効率改善 → HER, HPG 最初からゴール状態を定義して学習 ↓ 下位⽅策の学習に利⽤可能な後知恵強化学習
  35. 35. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 35 あらかじめゴールを決めて学習を開始 実際の結果系列から ”訪問状態がゴールだった” を書き換えて 経験再⽣して学習 (スパース報酬のための⼿法) Hindsight Experience Replay ← 後知恵  (⽬的の記憶の改竄) Andrychowicz, M., Wolski, F., Ray, A., Schneider, J., Fong, R., Welinder, P., McGrew, B., Tobin, J., Abbeel, P., Zaremba, W. Hindsight Experience Replay. Proceedings of the 31st Conference on Neural Information Processing Systems (NIPS 2017), 2017.
  36. 36. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 36 ゴール状態間の類似度から暗黙的なカリキュラム学習 スパースな報酬をカウントベース(楽観的信頼度評価)無しで学習 Hindsight Experience Replay Andrychowicz, M., Wolski, F., Ray, A., Schneider, J., Fong, R., Welinder, P., McGrew, B., Tobin, J., Abbeel, P., Zaremba, W. Hindsight Experience Replay. Proceedings of the 31st Conference on Neural Information Processing Systems (NIPS 2017), 2017.
  37. 37. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 37 異なるゴールに向かって⽣成された軌跡を ⽅策分布の学習に利⽤ (近似版も提案) Hindsight Policy Gradients ↓ Importance sampling Mutz, F., Schmidhuber, J. Hindsight Policy Gradients. Proceedings of Hierarchical Reinforcement Learning Workshop at the 31st Conference on Neural Information Processing Systems (HRL@NIPS 2017), 2017. いつもの⽅策勾配: 後知恵⽅策勾配:
  38. 38. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 38 もっとも簡便だが正確性に⽋ける近似⼿法 AHPG が⾼成績 HRL 的には同時に様々な下位⽅策が学習できる利点 Hindsight Policy Gradients Mutz, F., Schmidhuber, J. Hindsight Policy Gradients. Proceedings of Hierarchical Reinforcement Learning Workshop at the 31st Conference on Neural Information Processing Systems (HRL@NIPS 2017), 2017.
  39. 39. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 39 ゴール状態間の類似度から暗黙的なカリキュラム学習 → 関数近似の恩恵 ゴールの定義が明確でなくとも学習が進む → 階層型強化学習との相性:良(はず) (現状の Option-Critic にそのままは使えない) HER と HPG の共通点 最初からゴール状態を定義して学習 ↓
  40. 40. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 40 通常の Actor-Critic と同等の学習効率を実現 Importance Sampled Option-Critic for More Sample Efficient Reinforcement Learning IS を Option-Critic に応⽤ 他の option の軌跡の情報を使って別の Option を更新 Mutz, F., Schmidhuber, J. Hindsight Policy Gradients. Proceedings of Hierarchical Reinforcement Learning Workshop at the 31st Conference on Neural Information Processing Systems (HRL@NIPS 2017), 2017.
  41. 41. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 41 学習内容を汎化しやすい環境認識 あるいは 汎化しやすいスキル学習 課題の汎化を容易に
  42. 42. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 42 Successor Features for Transfer in Reinforcement Learning 固定された報酬成分 ↓ タスク定義 ↑ 報酬成分 = 収益成分=分解された特徴量 Φ MDP を報酬予測から Φ の重み w を推定する逆問題化 → 新しい MDP を再度の強化学習なしでも対処可能に 無更新 Bound: Barreto, A., Dabney, W., Munos, R., Hunt, J., J., Tom Schaul, Silver, D., Hasselt, H., P. Successor Features for Transfer in Reinforcement Learning. Proceedings of the 31st Conference on Neural Information Processing Systems (NIPS 2017), 2017.
  43. 43. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 43 Successor Features for Transfer in Reinforcement Learning Start, Goal, 通過点 Object が 変わっても再学習が容易に Barreto, A., Dabney, W., Munos, R., Hunt, J., J., Tom Schaul, Silver, D., Hasselt, H., P. Successor Features for Transfer in Reinforcement Learning. Proceedings of the 31st Conference on Neural Information Processing Systems (NIPS 2017), 2017.
  44. 44. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 44 スキルの ”意味” の学習 再利⽤可能性の向上 解釈可能な Option
  45. 45. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 45 Hierarchical and Interpretable Skill Acquisition in Multi-task Reinforcement Learning Shu, T., Xiong, C., Socher, R. Hierarchical and Interpretable Skill Acquisition in Multi-task Reinforcement Learning. Proceedings of the 31st Conference on Neural Information Processing Systems (HRL@NIPS 2017), 2017. ⼈間の指⽰ (grammar) を付加して⽅策の階層を段階的に学習 Stochastic Temporal Grammar = STG : ⽅策間の遷移確率
  46. 46. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 46 Hierarchical and Interpretable Skill Acquisition in Multi-task Reinforcement Learning Shu, T., Xiong, C., Socher, R. Hierarchical and Interpretable Skill Acquisition in Multi-task Reinforcement Learning. Proceedings of the 31st Conference on Neural Information Processing Systems (HRL@NIPS 2017), 2017. Flat policy : プリミティブな⾏動選択 (初期 & 予備) Base policy : 上位の policy (番号が⾼いほど上位) Instruction policy : ⼀つ下位の Base policy を⽣成 Switch policy : Flat policy と Base policy の切り替え
  47. 47. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 47 Hierarchical and Interpretable Skill Acquisition in Multi-task Reinforcement Learning Shu, T., Xiong, C., Socher, R. Hierarchical and Interpretable Skill Acquisition in Multi-task Reinforcement Learning. Proceedings of the 31st Conference on Neural Information Processing Systems (HRL@NIPS 2017), 2017. STG : Switch と Instruction の学習に使⽤される⽅策遷移の確⽴分布 学習法:  Grammar に紐づくタスク集合からサンプリング  上位から下位のタスクを反復的に学習する (=タスクが所与である必要)
  48. 48. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 48 Hierarchical and Interpretable Skill Acquisition in Multi-task Reinforcement Learning 提案されているアイディアを全て組み合わせた⽅が学習が効率的 タスクが所与なのは気になるが階層の解釈はしやすい ⽅策間の遷移確率(e.g. STG)は今後重要になってくる Shu, T., Xiong, C., Socher, R. Hierarchical and Interpretable Skill Acquisition in Multi-task Reinforcement Learning. Proceedings of the 31st Conference on Neural Information Processing Systems (HRL@NIPS 2017), 2017.
  49. 49. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 49 FeUdal network  - 今回はまだ FeUdal Network の派⽣はない   → 学習の安定性が問題? Option-Critic  - Option-Critic (打ち切り分布付き) : 解釈や転移は容易?   → Off-policy Terminate は⼀つの⽰唆   → さらなる発展に期待 決着はまだ先 他の形式が基本フレームになる可能性もありえる Option-Critic vs FeUdal network (振り返り)
  50. 50. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 50 階層型強化学習 = ⼈間的な⾏動学習には必要な要素 まだまだ萌芽的な研究領域 強化学習 + 深層学習 = 階層型への恩恵 数年前の Deep RL のように WS から メインセッションに急成⻑していく可能性 雑感
  51. 51. 引⽤⽂献 Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 51 [1] Bacon, P.-L., Harb, J., Precup, D. The option-critic architecture. Proceedings of AAAI, 1726–1734, 2017. [2] Vezhnevets, A. S., Osindero, S., Schaul, T., Heess, N., Jaderberg, M., Silver, D., and Kavukcuoglu, K. FeUdal Networks for Hierarchical Reinforcement Learning. ArXiv. Retrieved from http://arxiv.org/abs/1703.01161 , 2017. [3] Kulkarni, T. D., Narasimhan, K., Saeedi, A., Tenenbaum, J. B. Hierarchical Deep Reinforcement Learning: Integrating Temporal Abstraction and Intrinsic Motivation. Proceedings of the 30th Conference on Neural Information Processing Systems (NIPS 2016), 2016. [4] Florensa, C., Duan, Y., Abbeel, P. Stochastic Neural Networks for Hierarchical Reinforcement Learning. Proceedings of the International Conference on Learning Representations (ICLR 2017), 2017. [5] Vezhnevets, A., Mnih, V., Agapiou, J., Osindero, S., Graves, A., Vinyals, O., Kavukcuoglu, K. Strategic Attentive Writer for Learning Macro-Actions. ArXiv. Retrieved from https://arxiv.org/abs/1606.04695, 2016. [6] Harutyunyan, A., Vrancx, P., Bacon, P.-L., Precup, D., Nowe, A. Learning with options that terminate off-policy. Proceedings of Hierarchical Reinforcement Learning Workshop at the 31st Conference on Neural Information Processing Systems (HRL@NIPS 2017), 2017. [7] Andrychowicz, M., Wolski, F., Ray, A., Schneider, J., Fong, R., Welinder, P., McGrew, B., Tobin, J., Abbeel, P., Zaremba, W. Hindsight Experience Replay. Proceedings of the 31st Conference on Neural Information Processing Systems (NIPS 2017), 2017. [8] Mutz, F., Schmidhuber, J. Hindsight Policy Gradients. Proceedings of Hierarchical Reinforcement Learning Workshop at the 31st Conference on Neural Information Processing Systems (HRL@NIPS 2017), 2017. [9] Goel, K., Brunskill, E. Importance Sampled Option-Critic for More Sample Efficient Reinforcement Learning. Proceedings of Hierarchical Reinforcement Learning Workshop at the 31st Conference on Neural Information Processing Systems (HRL@NIPS 2017), 2017. [10] Barreto, A., Dabney, W., Munos, R., Hunt, J., J., Tom Schaul, Silver, D., Hasselt, H., P. Successor Features for Transfer in Reinforcement Learning. Proceedings of the 31st Conference on Neural Information Processing Systems (NIPS 2017), 2017. [11] Shu, T., Xiong, C., Socher, R. Hierarchical and Interpretable Skill Acquisition in Multi-task Reinforcement Learning. Proceedings of the 31st Conference on Neural Information Processing Systems (HRL@NIPS 2017), 2017.
  52. 52. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 52 ⾮ HRL の RL 論⽂もいくつか紹介 オマケ
  53. 53. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 53 モデルフリー+モデルベース (ALphaZero の進化系になりうる)  - Imagination-Augmented Agents (I2A) 記憶の抽象化  - Enhanced Experience Replay Generation 楽観的探索の⼯夫  - EX2  - #Exploration 価値関数の性質に由来する近似性能の向上  - Natural Value Approximator (NVA) 通常 RL 論⽂紹介
  54. 54. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 54 Rollout するためには環境モデルが必要 (e.g. AlphaGo) 環境モデルを状態遷移のモデルから学習 しかし RL 精度×環境モデル学習で直列的に悪化 モデルフリー + モデルベース
  55. 55. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 55 Imagination-Augmented Agents for Deep Reinforcement Learning 擬似 rollout で AlphaGo のようなことをする 環境モデルを形成して推定するが,誤差が⼤きい モデルベースが出⼒した数値も NN で解釈する 環境は動的にも学べるが負荷が⼤きいので事前に学習 Racanière, S., Weber, T., David Reichert, Buesing, L., Guez, A., Rezende, D. J., Badia, A. P., Vinyals, O., Heess, N., Li, Y., Pascanu, R. Battaglia, P., Hassabis, R., Silver, D., Wierstra, D. Imagination-Augmented Agents for Deep Reinforcement Learning. Proceedings of the 31st Conference on Neural Information Processing Systems (NIPS 2017), 2017.
  56. 56. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 56 Imagination-Augmented Agents for Deep Reinforcement Learning 擬似 rollout で AlphaGo のようなことをする 環境モデルを形成して推定するが,誤差が⼤きい モデルベースが出⼒した数値も NN で解釈する 環境は動的にも学べるが負荷が⼤きいので事前に学習 Racanière, S., Weber, T., David Reichert, Buesing, L., Guez, A., Rezende, D. J., Badia, A. P., Vinyals, O., Heess, N., Li, Y., Pascanu, R. Battaglia, P., Hassabis, R., Silver, D., Wierstra, D. Imagination-Augmented Agents for Deep Reinforcement Learning. Proceedings of the 31st Conference on Neural Information Processing Systems (NIPS 2017), 2017.
  57. 57. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 57 環境の状態遷移サンプルは無限にある⽅が良い 記憶容量には限界が → 記憶の抽象化 記憶の抽象化
  58. 58. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 58 Experience Replay を EGAN で変換 記憶の抽象化 (⽣成モデル化で) で無限の記憶領域を獲得 ※ Open AI Lab, カートポール Enhanced Experience Replay Generation for Efficient Reinforcement Learning Huang, V., Ley, T., Vlachou-Konchylaki, M., Hu, W. Enhanced Experience Replay Generation for Efficient Reinforcement Learning. ArXiv. Retrieved from https://arxiv.org/abs/1705.08245 , 2017.
  59. 59. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 59 ランダムな探索だと効率が悪い 関数近似による未知領域の過⼩評価を解決したい → 状態への訪問カウントで信頼度を評価 (楽観さ) 信頼度(訪問カウント)の評価は抽象化に向かない → ⼯夫が⾊々なされている 楽観的探索の⼯夫
  60. 60. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 60 経験に対する⽣成モデルを作り 鑑定⼠に訪問状態の新しさを推定させて擬似報酬を与える EX2 : Exploration with Exemplar Models for Deep Reinforcement Learning Huang, V., Ley, T., Vlachou-Konchylaki, M., Hu, W. Enhanced Experience Replay Generation for Efficient Reinforcement Learning. ArXiv. Retrieved from https://arxiv.org/abs/1705.08245 , 2017.
  61. 61. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 61 #Exploration: A Study of Count-Based Exploration for Deep Reinforcement Learning AE で状態をハッシュ化したテーブルに対して 到達回数をカウントして擬似カウントベース探索 複雑なモデル (VIME) でなくても良い効果が発⽣ ※ Variational Information Maximizing Exploration (VIME) Tang, H., Houthooft, R., Foote, D., Stooke, A., Chen, X., Duan, Y., Schulman, J., DeTurck, F., Abbeel, P. #Exploration: A Study of Count-Based Exploration for Deep Reinforcement Learning. Proceedings of the 31st Conference on Neural Information Processing Systems (NIPS 2017), 2017.
  62. 62. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 62 #Exploration: A Study of Count-Based Exploration for Deep Reinforcement Learning AE で状態をハッシュ化したテーブルに対して 到達回数をカウントして擬似カウントベース探索 複雑なモデル (VIME) でなくても良い効果が発⽣ ※ Variational Information Maximizing Exploration (VIME) Tang, H., Houthooft, R., Foote, D., Stooke, A., Chen, X., Duan, Y., Schulman, J., DeTurck, F., Abbeel, P. #Exploration: A Study of Count-Based Exploration for Deep Reinforcement Learning. Proceedings of the 31st Conference on Neural Information Processing Systems (NIPS 2017), 2017.
  63. 63. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 63 類似状態に対して極端な変化が起こるのが状態価値関数 関数近似すると近似能⼒への負荷が⾼い 価値関数の性質に由来する近似性能の向上
  64. 64. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 64 類似状態に対して極端な変化が起こるのが状態価値関数 関数近似すると近似能⼒への負荷が⾼い Natural Value Approximators: Learning when to Trust Past Estimates Xu, Z., Modayil, J., Hasselt, H., P., Barreto, A., Silver, D., Schaul, T. Natural Value Approximators: Learning when to Trust Past Estimates. Proceedings of the 31st Conference on Neural Information Processing Systems (NIPS 2017), 2017.
  65. 65. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 65 Natural Value Approximators: Learning when to Trust Past Estimates ⾃然価値: 損失関数: 更新式の逆算から⾃然価値を表現 ⾃然価値推定と通常価値推定との重み付け変数 β を学習 ある種の Semi-MDP にも使える Xu, Z., Modayil, J., Hasselt, H., P., Barreto, A., Silver, D., Schaul, T. Natural Value Approximators: Learning when to Trust Past Estimates. Proceedings of the 31st Conference on Neural Information Processing Systems (NIPS 2017), 2017.
  66. 66. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 66 更新式の逆算から⾃然価値を表現 ⾃然価値推定と通常価値推定との重み付け変数 β を学習 ある種の Semi-MDP にも使える Natural Value Approximators: Learning when to Trust Past Estimates Xu, Z., Modayil, J., Hasselt, H., P., Barreto, A., Silver, D., Schaul, T. Natural Value Approximators: Learning when to Trust Past Estimates. Proceedings of the 31st Conference on Neural Information Processing Systems (NIPS 2017), 2017.
  67. 67. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 67 ご静聴ありがとうございました
  68. 68. 引⽤⽂献 Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 68 [9] Racanière, S., Weber, T., David Reichert, Buesing, L., Guez, A., Rezende, D. J., Badia, A. P., Vinyals, O., Heess, N., Li, Y., Pascanu, R. Battaglia, P., Hassabis, R., Silver, D., Wierstra, D. Imagination-Augmented Agents for Deep Reinforcement Learning. Proceedings of the 31st Conference on Neural Information Processing Systems (NIPS 2017), 2017. [10] Huang, V., Ley, T., Vlachou-Konchylaki, M., Hu, W. Enhanced Experience Replay Generation for Efficient Reinforcement Learning. ArXiv. Retrieved from https://arxiv.org/abs/1705.08245 , 2017. [11] Fu, J., Co-Reyes, J., Levine, S. EX2 : Exploration with Exemplar Models for Deep Reinforcement Learning. Proceedings of the 31st Conference on Neural Information Processing Systems (NIPS 2017), 2017. [12] Tang, H., Houthooft, R., Foote, D., Stooke, A., Chen, X., Duan, Y., Schulman, J., DeTurck, F., Abbeel, P. #Exploration: A Study of Count-Based Exploration for Deep Reinforcement Learning. Proceedings of the 31st Conference on Neural Information Processing Systems (NIPS 2017), 2017. [13] Xu, Z., Modayil, J., Hasselt, H., P., Barreto, A., Silver, D., Schaul, T. Natural Value Approximators: Learning when to Trust Past Estimates. Proceedings of the 31st Conference on Neural Information Processing Systems (NIPS 2017), 2017.

×