O slideshow foi denunciado.
Utilizamos seu perfil e dados de atividades no LinkedIn para personalizar e exibir anúncios mais relevantes. Altere suas preferências de anúncios quando desejar.

強化学習技術とゲーム AI 〜 今できる事と今後できて欲しい事 〜

12.935 visualizações

Publicada em

SHIBUYA Synapse #2 ( https://shibuya.ai/ ) での登壇資料を,公開用に編集.

Publicada em: Tecnologia
  • Hello! Get Your Professional Job-Winning Resume Here - Check our website! https://vk.cc/818RFv
       Responder 
    Tem certeza que deseja  Sim  Não
    Insira sua mensagem aqui
  • それだけでは不十分だと思いますが,近年のトレンドとしてはそのような動きがあるように思います.I2A なんてまさにそんな感じですね.
       Responder 
    Tem certeza que deseja  Sim  Não
    Insira sua mensagem aqui
  • 外部環境のシミュレータを機械学習によって獲得できれば…ってことでしょうか?
       Responder 
    Tem certeza que deseja  Sim  Não
    Insira sua mensagem aqui

強化学習技術とゲーム AI 〜 今できる事と今後できて欲しい事 〜

  1. 1. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. DeNA Co., Ltd. システム & デザイン本部 AI システム部 AI 研究開発グループ 甲野 佑 強化学習技術とゲーム AI 〜 今できる事と今後できて欲しい事 〜
  2. 2. 甲野 佑 所属 : 株式会社ディー・エヌ・エー AI システム部 AI 研究開発グループ 出⾝ : 東京電機⼤学 (学部〜博⼠) 研究 : 強化学習 + 神経⽣理・認知モデル 〜2017年3⽉: ⼤学で強化学習の研究してきました 2017年4⽉〜: 強化学習を応⽤したゲーム AI の研究開発をしています ⾃⼰紹介 Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 2
  3. 3. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 3 ゲーム AI の進化と強化学習の貢献の話 あるいは 強化学習の進化におけるゲーム AI の貢献の話 本⽇のテーマ
  4. 4. はじめに Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 4 2010 年代前半「囲碁で⼈間に ”機械” が勝つのは10年先の話」 2016 年 3 ⽉ 9 ⽇ AlphaGo (DeepMind) がイ・セドル九段に勝利 DeepMind は「10 年」を早送りした ゲーム AI に「何が」起こったのか? 本当に知的な「強いゲーム AI」に近づいたのか?
  5. 5. ⽬次 Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 5 1. はじめに 2. ゲームのプレイヤー AI の歴史 3. 強化学習とは 4. 強化学習 × ゲーム AI のこれまでの進化 5. 強化学習 × ゲーム AI のこれからの挑戦 6. おわりに
  6. 6. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 6 2014年に何かが起きている 年 備考 バッグギャモン 1990 リバーシ 1997 6 番勝負で世界王者村上健⽒が敗れる チェス 1998 世界王者ガルリ・カスパロフ⽒が敗れる ※ ほぼ完勝できるようになったのは 2006 ATARI (レトロビデオゲーム) 2014 ⼀部のゲームでプロプレーヤーを上回る 囲碁 2016 イ・セドル九段が破れる 将棋 2017 佐藤天彦名⼈が敗れる ポーカー 2017 数⼈のプロ相⼿に勝利 DotaⅡ 2017 Open AI 製 AI がプロプレーヤーに勝利 StarCraftⅡ 継続中 DeepMind が研究開発中 ゲームのプレイヤー AI の歴史
  7. 7. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 7 ゲームのプレイヤー AI における技術進化 評価関数ありゲーム⽊探索 (e.g. MinMax) 評価関数なしゲーム⽊探索 (e.g. MCTS) 動物の学習理論 + MDP 最適制御 ⼈⼯ NN (パーセプトロン) 強化学習 (e.g. Q 学習) 深層学習 (特に CNN) 深層強化学習 (e.g. DQN, A3C) AlphaGo Dota Ⅱ AI 発展中 発展中 【ゲーム⽊探索】 【ニューラルネット】 【強化学習】 〜 2010年代 前半 ゲーム⽊=ゲーム展開の有向グラフの探索が主流
  8. 8. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 8 ゲームのプレイヤー AI における技術進化 評価関数ありゲーム⽊探索 (e.g. MinMax) 評価関数なしゲーム⽊探索 (e.g. MCTS) 動物の学習理論 + MDP 最適制御 ⼈⼯ NN (パーセプトロン) 強化学習 (e.g. Q 学習) 深層学習 (特に CNN) 深層強化学習 (e.g. DQN, A3C) AlphaGo Dota Ⅱ AI 発展中 発展中 【ゲーム⽊探索】 【ニューラルネット】 【強化学習】 2010年代 後半 ⾼度な強化学習技術の出現
  9. 9. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 9 ゲーム AI に進化をもたらした強化学習とは? 【疑問】
  10. 10. 環境 観測 = 環境の変化・報酬 ⾏動 = 報酬 兼 情報の収集 エージェント Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 10 を最⼤化させる を獲得するのが⽬的 主体的に環境に働きかけ,獲得報酬を最大化する行動を学習 強化学習とは - 教師あり学習との違い -
  11. 11. 環境 観測 = 環境の変化・報酬 ⾏動 = 報酬 兼 情報の収集 エージェント Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 11 が⼤きく変わるのが厄介 を更新・変化すると 主体的に環境に働きかけ,獲得報酬を最大化する行動を学習 強化学習とは - 教師あり学習との違い -
  12. 12. 強化学習とは - 教師あり学習との違い - Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 12 環境 観測 = 環境の変化・報酬 ⾏動 = 報酬 兼 情報の収集 エージェント 未知関数 学習データ ⼊⼒ 出⼒ ⼊⼒ 予測 ある現象・法則(環境) 教師あり学習器 【教師あり学習】 【強化学習】 モデル 教師あり学習の領分 観測 収集 誤差 模倣 - 学習データから未知関数を学習モデルに模倣させるのが教師あり学習 - 環境 (⺟集団) から学習データの収集は教師あり学習の範疇外
  13. 13. 強化学習とは - 教師あり学習との違い - Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 13 環境 観測 = 環境の変化・報酬 ⾏動 = 報酬 兼 情報の収集 エージェント 未知関数⼊⼒ 出⼒ ⼊⼒ ある現象・法則(環境) 教師あり学習器 - 環境の遷移 (=どんなデータが⼿に⼊るか) はエージェント⾃⾝の選択次第 - エージェント⾃⾝によって収集される環境情報が偏る・急激に変わる 【教師あり学習】 【強化学習】 モデル 教師あり学習の領分 予測 学習データ 観測 収集 誤差 模倣
  14. 14. 強化学習とは - スキナー箱 - Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 14 理屈は⽝に芸を覚えさせるのとほぼ同じ (繰り返し) → 基本の理屈は単純 状態:ランプ点灯 行動:ボタン押下 報酬:エサ獲得 強化 基本的には鳩の条件付け実験 ”スキナー箱” そのもの
  15. 15. 強化学習のゲーム AI の何に貢献した? + 近年,強化学習の何が変わった? Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 15 【疑問】
  16. 16. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 16 ゲームプレイ AI における技術進化【再掲】 評価関数ありゲーム⽊探索 (e.g. MinMax) 評価関数なしゲーム⽊探索 (e.g. MCTS) 動物の学習理論 + MDP 最適制御 ⼈⼯ NN (パーセプトロン) 強化学習 (e.g. Q 学習) 深層学習 (特に CNN) 深層強化学習 (e.g. DQN, A3C) AlphaGo Dota Ⅱ AI 発展中 発展中 【ゲーム⽊探索】 【ニューラルネット】 【強化学習】 〜 2010年代 前半の主流 → ゲーム⽊ (ゲーム展開知識) に依存
  17. 17. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 17 【問題】 従来⼿法はゲーム⽊ (= 完全なゲーム展開の知識) が既知 ゲーム⽊が未知でもゲーム画⾯から学習したい
  18. 18. レトロビデオゲーム ̶ ATARI ̶ Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 18 視覚 (CNN) + (Experience Replay +) 強化学習 = DQN ゲーム⽊ (全ゲーム展開) が既知 → 未知でも画⾯から学習可能に Mnih, V.,et al.: Human-level control through deep reinforcement learning. Nature, 518:529–533, 2015. (h:ps://storage.googleapis.com/deepmind-media/dqn/DQNNaturePaper.pdf)
  19. 19. DQN - 要素技術の集合体 - Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 19 - CNN との結合によりゲーム画⾯から学習可能に  → 強化学習は ”視覚” を獲得 画⾯認識 (CNN) ⾏動価値評価 (強化学習) ゲーム画⾯ (環境) ⾏動 - 勝敗 (報酬) から学習する強化学習はゲーム AI と相性良
  20. 20. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 20 蓄積 ゲーム画⾯ (環境) ⾏動 経験の記憶 夢
 (経験再⽣) - ランダムに “記憶 (夢)” を再⽣して学習  → ニューラルネットと強化学習の相性の悪さを緩和   - 相性の悪さ = i.i.d の制約,可塑性と安定性のジレンマ DQN - 要素技術の集合体 -
  21. 21. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 21 【問題】 “視覚” = 画⾯外のことを扱えない (画⾯の切り替わりに弱い) ≒ 画⾯や⾏動の時系列・履歴を扱えない      → ブロック崩し等 = 俯瞰課題は得意      → 3D迷路等 = ⼀⼈称視点課題は不可
  22. 22. ⼀⼈称視点ゲーム ̶ 3D迷路・FPS ̶ Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 22 基底核 (Actor-Critic) + 系列記憶 + 並列処理 = A3C + LSTM → ゲーム画⾯の切り替わり・⼀⼈称視点に強く DeepMind. Asynchronous Methods for Deep Reinforcement Learning: Labyrinth. (2015, June 14) [Video file] Retrieved from h:ps://www.youtube.com/watch?v=nMR5mjCFZCw (screenshot)
  23. 23. → Asynchronous Advantage Actor-Critic (A3C) とは (中略)  - 並列化で LSTM = 短〜中期的な ”記憶 (系列)” が使⽤可能 深層強化学習の進化 - 時系列 - Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 23 × 並列数分 ↓ 系列的な記憶 →【問題】記憶を含めても⾒えていない事は学習できない 画⾯の切り替わりを吸収LSTM ゲーム画⾯ (環境) ⾏動 経験の記憶 蓄積しない
  24. 24. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 24 環境エージェント ⾒えないものは学習できない 【問題】 制限された観測 誰が環境を変える? ・エージェント⾃⾝ ・環境そのもの  - 法則  - ⾃分以外の何か   - 何かは⼀種類?
  25. 25. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 25 環境エージェント 誰が環境を変える? ・エージェント⾃⾝ ・環境そのもの  - 法則  - ⾃分以外の何か   - 何かは⼀種類? ⾒えないものは学習できない 【問題】 制限された観測 他の何か種類数 ×
  26. 26. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 26 【問題】 強化学習 AI は対戦ゲームが苦⼿ → ⾃分以外のエージェントが存在 & 戦略が⼀種ではない
  27. 27. ⼆⼈対戦ゲーム ̶ 囲碁 ̶ Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 27 過去の⾃⾝と⾃⼰対戦 (強化学習) + 先読み (ゲーム⽊探索) = AlphaGo → 様々な戦略に対応する AI AlphaGo の⾏動価値 Silver, D., et al.: Mastering the Game of Go with Deep Neural Networks and Tree Search, (1), 1–37. 2016.
  28. 28. 深層強化学習の進化 - ⾃⼰対戦と仮想敵の構築 - Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 28 環境 = 様々な戦術 平均戦術 学習 エージェント 対戦・学習 戦術G 戦術A 戦術B 戦術D 戦術C 戦術E 戦術F なぜできたのか?【その1】  → 戦略が⼀種でなくても多様な戦略を平均化 (ゲーム理論)   - 膨⼤な『過去の⾃分』とのランダムな『⾃⼰対戦』    - 学習段階の違いでバリエーションを担保 
  29. 29. 深層強化学習の進化 - ⾃⼰対戦と仮想敵の構築 - Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 29 なぜできたのか?【その1】  → 戦略が⼀種でなくても多様な戦略を平均化 (ゲーム理論)   - 膨⼤な『過去の⾃分』とのランダムな『⾃⼰対戦』 過去の⾃⾝の戦術 仮想敵 学習 エージェント 対戦・学習 過去G 過去A 過去B 過去D 過去C 過去E 過去F ⾃⾝を保存 ランダム 選択
  30. 30. なぜできたのか?【その2】  - 平均化敵戦略に対してどこに打つのが「良い」かを数値化  - 教師あり,強化学習で学習した評価関数を先読みに利⽤ → 発展系 AlphaGo Zero (⼈間の知識の除外)  - (AlphaGo 上の) ⼈間の知識は⾼品質なサンプリングデータ  - ⾼⽔準な環境探索アルゴリズムの動的形成で代替え   - ゲーム⽊が既知であるからこそできる⼿法  - 【疑問】ゲーム⽊の知識を除外した場合は? 深層強化学習の進化 - ⾃⼰対戦と仮想敵の構築 - Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 30 ゲーム⽊探索 (先読み) 深層学習 (評価関数の形成) AlphaGo Silver, D., et al.: Mastering the Game of Go with Deep Neural Networks and Tree Search, (1), 1–37. 2016.
  31. 31. - 発展系 AlphaGo Zero (⼈間の知識の除外)  → ⼈間の知識 = ⾼品質な勝敗データ  → ⾼品質な環境探索アルゴリズムで置換   - ゲーム⽊が既知であるからこそできる⼿法 深層強化学習の進化 - ⾃⼰対戦と仮想敵の構築 - Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 31 ゲーム⽊探索 (先読み) 深層学習 (評価関数の形成) AlphaGo プロの棋譜 ⾼品質探索 アルゴリズム 動的形成
  32. 32. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 32 ゲームプレイ AI における技術進化【再掲】 評価関数ありゲーム⽊探索 (e.g. MinMax) 評価関数なしゲーム⽊探索 (e.g. MCTS) 動物の学習理論 + MDP 最適制御 ⼈⼯ NN (パーセプトロン) 強化学習 (e.g. Q 学習) 深層学習 (特に CNN) 深層強化学習 (e.g. DQN, A3C) AlphaGo Dota Ⅱ AI 発展中 発展中 【ゲーム⽊探索】 【ニューラルネット】 【強化学習】 結局,ゲーム⽊ (全ゲーム展開の知識) が必要に
  33. 33. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 33 【疑問】 ゲーム⽊ (= 全ゲーム展開構造) が得られない場合に 複雑な課題は不可能?
  34. 34. 複雑な課題 ̶ e.g. DOTA2 ̶ Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 34 OpenAI. Learned Bot Behaviors (2017, August 11) [Video file] Retrieved from h:ps://www.youtube.com/watch?v=wpa5wyutpGc (screenshot) ゲーム⽊なしの 単純なタスク → 複雑なタスクへの移⾏
  35. 35. 深層強化学習の進化 - 学習過程の再現・汎化 - Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 35 (Dota Ⅱ に限らず・・・) → 複数のタスクを同時に⾏う  - マルチタスクによって共通する重要な汎化⾏動の発⾒ Teh, Y. W., et.al.: Distral : Robust MulAtask Reinforcement Learning. NIPS. 2017.
  36. 36. 深層強化学習の進化 - 学習過程の再現・汎化 - Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 36 (Dota Ⅱ に限らず・・・) → 好奇⼼の付加  - 知らない状況を好む事で環境の探索を促進 Bellemare, M. G., et al.: Unifying Count-Based ExploraAon and Intrinsic MoAvaAon, NIPS. 2016. Ostrovski, G., et al.: Count-Based ExploraAon with Neural Density Models. NIPS. 2017.
  37. 37. 深層強化学習の進化 - 学習過程の再現・汎化 - Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 37 (Dota Ⅱ に限らず・・・) → 複数モジュールで補助 → 簡単なタスクから徐々にタスクを複雑化  - イルカに複雑な芸を覚えさせるように Jaderberg, M., at al.: Reinforcement learning with unsupervised auxiliary tasks. In Internagonal Conference on Learning Representagons. 2017.
  38. 38. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 38 では次の課題は? 【疑問】
  39. 39. 今後の挑戦 ̶ StarCraft Ⅱ ̶ Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 39 膨⼤な⾏動の組み合わせ・膨⼤な状態パターン (画⾯内・外) → ⻑期戦略・知識の構造化 (強化学習の本質的な課題) DeepMind. StarCrah II DeepMind feature layer API. (2016, November 04) [Video file] Retrieved from h:ps://www.youtube.com/watch?v=5iZlrBqDYPM (screenshot)
  40. 40. 深層強化学習の課題 Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 40 【問題】学習に時間がかかる 【問題】理論上未解決課題が多い   不完全知覚, マルチエージェント, ⾮定常環境への適応 ... etc  - 新しい成果に『理論』は昔から存在していた  - 多くは莫⼤な計算リソースでクリアしている   → 理論的にクリアできない課題はできない → 他の技術との融合 or 理論の発展
  41. 41. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 41 - 推論,脳内シミュレート  → エージェント内部に外部環境のシミュレータを構築   - “熟慮” の獲得 これからの強化学習ゲーム AI に必要なもの Weber, T., et.al.: ImaginaAon-Augmented Agents for Deep Reinforcement Learning. NIPS. 2017.
  42. 42. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 42 - ⽬的意識,⾏動の抽象化  → プランニング,サブゴール形成 (内部構造の階層化)   - “熟慮” の低コスト化 = 探索効率化・学習時間削減 これからの強化学習ゲーム AI に必要なもの Vezhnevets, A. S., et. al.: FeUdal Networks for Hierarchical Reinforcement Learning. 2017. arXiv. h:p://arxiv.org/abs/1703.01161 Vezhnevets, A., et al.: Strategic aNenAve writer for learning macro-acAons. In Advances in Neural Informagon Processing Systems, pp. 3486–3494 2016.
  43. 43. おわりに Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 43   古典    ゲーム構造 (ゲーム⽊) が既知なら探索可能   これまで    強化学習が ”視覚” と “記憶” を獲得しゲーム AI へ応⽤                     + 莫⼤な計算リソース   これから    より⻑期戦略を⾃⾝でシミュレートする賢さ (“熟慮”)    ⽬的意識を持った課題の分解・構造化による汎化                   or 更に莫⼤な計算リソース
  44. 44. おわりに Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 44 【冒頭の問い】 本当に知的な「強いゲーム AI」に近づいたのか? → もちろんまだまだ
  45. 45. おわりに Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 45 次世代のAI の⾃律的な成⻑技術 (≒ 強化学習) の 理論的拡張はまだ始まったばかり AI が安全に失敗できるゲーム AI での探求が 汎⽤的な AI 技術を⽣む ”ゆりかご” になるかも
  46. 46. 引⽤⽂献 Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 46 [Reinforcement Learning: Sutton, 1998] Sutton, R. S. and Barto, A. G. Reinforcement Learning: An Introduction. MIT Press, Cambridge, 1998. [MCTS (UCT): Kocsis, 2006] Kocsis, L., and C. Szepesvari, C., Bandit based Monte-Carlo Planning, in Euro. Conf. Mach. Learn. Berlin, Germany: Springer, 282–293. 2006. [DQN: Mnih, 2015] V. Mnih, K. Kavukcuoglu, D. Silver, A. Rusu, J. Veness, M. Bellemare, A. Graves, M. Riedmiller. A. Fidjeland, G. Ostrovski, S. Petersen, C. Beattie, A. Sadik, I. Antonoglou, H. King, D. Kumaran, D. Wierstra, S. Legg, and D. Hassabis. Human-level control through deep reinforcement learning. Nature 518 (7540): 529--533 (2015) http://dx.doi.org/10.1038/nature14236, (https:// storage.googleapis.com/deepmind-media/dqn/DQNNaturePaper.pdf). [A3C: Mnih, 2016] Mnih, V., Mirza, M., Graves, A., Harley, T., Lillicrap, T. P., & Silver, D. Asynchronous Methods for Deep Reinforcement Learning. ICML, 2016. [AlphaGo, Silver, 2016] Silver, D., Huang, A., Maddison, C. J., Guez, A., Sifre, L., Den, G. Van, Hassabis, D. Mastering the Game of Go with Deep Neural Networks and Tree Search, (1), 1–37. 2016. (https://storage.googleapis.com/deepmind-media/alphago/AlphaGoNaturePaper.pdf) [AlphaGo Zero: Silver, 2017] Silver, D., Schrittwieser, J., Simonyan, K., Antonoglou, I., Huang, A., Hubert, T., Hassabis, D., et al.: Mastering the Game of Go without Human Knowledge. 2017. [Dota Ⅱ AI] https://blog.openai.com/dota-2/ and, https://blog.openai.com/more-on-dota-2/ [StarCraft Ⅱ Challenge: Vinyals, 2017] Vinyals, O., Vezhnevets, A. S., & Silver, D., et.al.: StarCraft II : A New Challenge for Reinforcement Learning. 2017. https://arxiv.org/pdf/1708.04782.pdf [UNREAL: Jaderberg, 2017] Jaderberg, M., Mnih, V., Czarnecki, W.M., Schaul, T., Leibo, J.Z., Silver, D., and Kavukcuoglu, K. Reinforcement learning with unsupervised auxiliary tasks. In International Conference on Learning Representations. 2017. [Distral: Teh, 2017] Teh, Y. W., Bapst, V., Czarnecki, W. M., Quan, J., Kirkpatrick, J., Hadsell, R. Pascanu, R., et.al.: Distral : Robust Multitask Reinforcement Learning. NIPS. 2017. [Pseudo-Counts: Bellemare, 2016] Bellemare, M. G., Schaul, T., Saxton, D., and Ostrovski, G. Unifying Count-Based Exploration and Intrinsic Motivation, NIPS. 2016. [PixelCNN pseudo-counts: Ostrovski, 2017] Ostrovski, G., Bellemare, M. G., Oord, V. D. O., Munon, R. Count-Based Exploration with Neural Density Models. NIPS. 2017. [I2A: Weber, 2017] Weber, T., Racanière, S., Reichert, D. P., Buesing, L., et.al.: Imagination-Augmented Agents for Deep Reinforcement Learning. NIPS. 2017. arXiv. https://arxiv.org/pdf/1707.06203.pdf [STRAW: Vezhnevets, 2017] Vezhnevets, A., Mnih, V., Osindero, S., Graves, A., Vinyals, O., Agapiou, J., et al.: Strategic attentive writer for learning macro-actions. In: Advances in Neural Information Processing Systems, pp. 3486–3494 2016.[FuN: Vezhnevets, 2017] Vezhnevets, A. S., Osindero, S., Schaul, T., Heess, N., Jaderberg, M., Silver, D., and Kavukcuoglu, K. FeUdal Networks for Hierarchical Reinforcement Learning. 2017. (http://arxiv.org/abs/1703.01161)

×