O slideshow foi denunciado.
Utilizamos seu perfil e dados de atividades no LinkedIn para personalizar e exibir anúncios mais relevantes. Altere suas preferências de anúncios quando desejar.

[DL輪読会]Imagination-Augmented Agents for Deep Reinforcement Learning / Learning model-based planning from scratch

2.252 visualizações

Publicada em

2017/7/28
Deep Learning JP:
http://deeplearning.jp/seminar-2/

Publicada em: Tecnologia
  • accessibility Books Library allowing access to top content, including thousands of title from favorite author, plus the ability to read or download a huge selection of books for your pc or smartphone within minutes ,Download or read Ebooks here ... ......................................................................................................................... Download FULL PDF EBOOK here { https://urlzs.com/UABbn }
       Responder 
    Tem certeza que deseja  Sim  Não
    Insira sua mensagem aqui
  • Download or read that Ebooks here ... ......................................................................................................................... DOWNLOAD FULL PDF EBOOK here { http://bit.ly/2m77EgH } ......................................................................................................................... Download EPUB Ebook here { http://bit.ly/2m77EgH } ......................................................................................................................... Download Doc Ebook here { http://bit.ly/2m77EgH } ......................................................................................................................... .........................................................................................................................
       Responder 
    Tem certeza que deseja  Sim  Não
    Insira sua mensagem aqui
  • accessibility Books Library allowing access to top content, including thousands of title from favorite author, plus the ability to read or download a huge selection of books for your pc or smartphone within minutes DOWNLOAD THIS BOOKS INTO AVAILABLE FORMAT ......................................................................................................................... ......................................................................................................................... Download Full PDF EBOOK here { http://bit.ly/2m6jJ5M } ......................................................................................................................... Download Full EPUB Ebook here { http://bit.ly/2m6jJ5M } ......................................................................................................................... ...................................ALL FOR EBOOKS................................................. Cookbooks, Manga, Memoir, Music, Mystery, Non Fiction, Paranormal, Philosophy, Poetry, Psychology, Religion, Art, Biography, Business, Chick Lit, Children's, Christian, Classics, Comics, Contemporary, Romance, Science, Science Fiction, Self Help, Suspense, Spirituality, Sports, Thriller, Travel, Young Adult, Crime, Ebooks, Fantasy, Fiction, Graphic Novels, Historical Fiction, History, Horror, Humor And Comedy,
       Responder 
    Tem certeza que deseja  Sim  Não
    Insira sua mensagem aqui
  • accessibility Books Library allowing access to top content, including thousands of title from favorite author, plus the ability to read or download a huge selection of books for your pc or smartphone within minutes ,Download or read Ebooks here ... ......................................................................................................................... Download FULL PDF EBOOK here { http://bit.ly/2m6jJ5M }
       Responder 
    Tem certeza que deseja  Sim  Não
    Insira sua mensagem aqui
  • Download or read that Ebooks here ... ......................................................................................................................... DOWNLOAD FULL PDF EBOOK here { http://bit.ly/2m6jJ5M } ......................................................................................................................... Download EPUB Ebook here { http://bit.ly/2m6jJ5M } ......................................................................................................................... Download Doc Ebook here { http://bit.ly/2m6jJ5M } ......................................................................................................................... .........................................................................................................................
       Responder 
    Tem certeza que deseja  Sim  Não
    Insira sua mensagem aqui

[DL輪読会]Imagination-Augmented Agents for Deep Reinforcement Learning / Learning model-based planning from scratch

  1. 1. DEEP LEARNING JP [DL Papers] Learning model-based planning from scratch & Imagination-Augmented Agents for Deep Reinforcement Learning Hiroaki Shioya, Matsuo Lab http://deeplearning.jp/
  2. 2. 論文情報 2 ● 2本ともDeepMindが発表した深層強化学習+プランニングに関する論文 ● 11 July 2017発表で、現状arxivのみ ● モチベーション ○ model-base大事 ○ プランニング大事
  3. 3. 強化学習 ● エージェントの良いふるまいを学習したい ● 問題設定 3 environment P, R, γ agent Π, V a s, r notation: s : 状態 a : 行動 r : 報酬 P:遷移関数 (s×a→s) R : 報酬関数 (s×a→r) Π:方策(s→a) V : 価値関数(s → v) γ : 割引率 環境との相互作用を通じて ΠやVを学習し、累積期待報酬和の最大化を目指す
  4. 4. 強化学習とDeep Learning ● 方策や価値関数を表す強力な関数近似器 ○ 画像など高次元の生データを状態入力として処理可 ○ 複雑なタスクを解けるような方策、価値関数も近似可 ● 複雑なタスクをNNで扱う際に生じる学習の不安定性や試行回数の多さを補うよう に強化学習アルゴリズムが発展 ○ DQN, TRPO (安定性) ○ GPS(サンプル効率) 4 state NN policy action state NN value function state value
  5. 5. プランニングって何 ● 外部環境のモデル(PとR)をもっておいて、先読みした結果を元にどう行動するか決 める 5 : 状態(s) : 行動(a) P:遷移関数 (s×a→s) R : 報酬関数 (s×a→r) のモデル (internal model) 良さそう 実環境 real world a
  6. 6. 最近の研究成果の多くは、プランニングを用いていない ● DQN, DDPG, TRPOなど、近年よく使われる深層強化学習アルゴリズムは、多くが 環境の内部モデルをもたない (モデルフリー) 6 : 状態(s) : 行動(a) P:遷移関数 (s×a→s) R : 報酬関数 (s×a→r) のモデル (internal model) 良さそう 実環境 real world a
  7. 7. ではどうしてるの?→ 経験から価値を推定する ● ある状態sで行動aをとるとどれくらい良さそうか(報酬を多く獲得できそうか)を経験 をもとに推定していく ● 結果、状態sの観測に対し、試行錯誤の期間に試してみて良かった行動をとるよう になる 7
  8. 8. モデルフリーができるのに、なんでプランニングしたいの ● モデルフリーだと異なる設定に一般化できない ○ 目標が変化しても、学習期間に良かった行動を取り続ける ● モデルベースの方が、サンプル効率が良くなる ○ 特にDRLは試行回数が重い ● 人間もやってるっぽい ○ 神経科学の知見にも合う [Hassabis 2017] ○ 経験的にも、プランニングしてるよね 8 [Hassabis 2017] Hassabis, Demis, et al. "Neuroscience-Inspired Artificial Intelligence." Neuron95.2 (2017): 245-258.
  9. 9. なんでプランニングしないの→モデルが不正確 ● 多くのタスクでは、環境のモデルは未知 ○ 囲碁などのゲームはあてはまらない ● 未知な場合は、経験を元に学習する ○ しかし、学習しても誤差はある程度残る ● 不正確なモデルを使うと、却ってダメな結果を導く ○ しかも、強化学習のように前の予測結果にさらにモデルを使用する問題設定だと、ステップが進む につれて誤差が蓄積、拡大する 9 内部モデルの予測軌道 実際の軌道
  10. 10. (Classical) Planning ● 多くは完全なモデルを与えられているか、単純なモデルで近似 ● 例 ○ trajectory optimization ○ model predictive control(MPC) ○ Dyna [Sutton 1991] ○ Monte Carlo Tree Search(MCTS) 10 [Sutton 1991]Dyna, an integrated architecture for learning, planning, and reacting. ACM SIGART Bulletin, 2(4):160–163, 1991
  11. 11. (Classical) Planning + DL ● モデルをNNで近似すれば複雑なダイナミクスでも扱えないだろうか? ○ 従来はlinear conbination feature, gaussian processなどで近似 ● 例 ○ trajectory optimization + DL ■ Embed to Control [Watter 2015] ■ Prediction and Control with Temporal Segment Models [Mishara 2017] ○ model predictive control(MPC) + DL ■ Deep MPC [Lenz 2015] ■ Deep Video Prediction [Finn 2017] ● 十分な成功を収めているとは言い難い 11 [Watter 2015] Embed to control: A locally linear latent dynamics model for control from raw images. In Advances in Neural Information Processing Systems, pages 2746–2754, 2015. [Mishara 2017]Mishra, Nikhil, Pieter Abbeel, and Igor Mordatch. "Prediction and Control with Temporal Segment Models." arXiv preprint arXiv:1703.04070 (2017). [Lenz 2015] DeepMPC: Learning deep latent features for model predictive control. In Robotics: Science and Systems, 2015. [Finn 2017]Deep visual foresight for planning robot motion. In IEEE International Conference on Robotics and Automation (ICRA), 2017
  12. 12. ここまでのまとめ ● 近年のDRLの発展は目覚ましいが、その多くがモデルフリー ● モデルフリーは異なる設定での汎化性能に欠点があり、克服のためにはモデル ベースのプランニングが鍵になりそう ● しかし、(NNのような強力な関数近似器を用いても)十分な正確性をもったモデルを 学習するのは難しく、プランニング活用の壁になっている 12
  13. 13. Imagination-Augmented Agents for Deep Reinforcement Learning 13
  14. 14. 不正確なプランニングをNNに解釈してほしい ● モデルを正確に推定するのは難しいので、代わりに不正確なプランニングから使え る情報だけ抽出して、残りは無視してほしい ● どう抽出すればいいのかよくわからない→NNに投げて抽出してもらおう ● プランニングだけからは行動を決定できないので、モデルフリーRLも学習して、プラ ンニングからの情報はそのcontext infromationとして活用しよう 14
  15. 15. Model a. imagination core ○ 内部モデルに相当する ○ environment modelの構造は下図 b. Single imagination rollout ○ 1.がplanningに、2.がそれを解釈する部分に 相当する ○ 2. encoder は逆向きLSTM(あまり向きは大 事じゃなかった) c. Full I2A Architecture ○ planningとmodel-freeを統合する ○ aggregaterは単純なconcat ○ 最後に2つを入力にとる NN 15
  16. 16. 学習 a. imagination core ○ pre-trainする(その方が早いらしい) ○ π_^はπを蒸留して得る b. Single imagination rollout ○ 普通のRL c. Full I2A Architecture ○ 普通のRL 16
  17. 17. imagination rollout strategy ● 選択可能な各行動から1回ずつrolloutする ○ つまり行動が離散の場合の戦略しか示されていない ○ この論文ではALEでしか実験してないので問題はない 17
  18. 18. 実験1:Sokoban ● ブロックを特定の位置まで運ぶパズルゲーム ● プランニングが求められる特性をもつ ○ ブロックは押すことしかできないので一部不可逆な移動が生じる ○ 毎回パズルの配置が異なる 18
  19. 19. model-bath pathは有効、不完全なモデルも扱える ● I2A(提案手法)がstandard(I2Aのmodel-free pathのみ)を上回る ● copy-IAAはEMを元のoを返すものに置換し たもの(parameter増の影響をみるため ) ● no reward IAAはobservationのみ予測 ● unroll depthは5がoptimalだった(ゲーム自 体は平均50stepくらい) ● I2Aはpoor model(parameter落として精度下 げた)でもタスク成功率が落ちない ● MCはencodingなし ● MCはmodelが良くてもstandardと同程度、 modelが悪いと性能に壊滅的な悪影響を与 える 19
  20. 20. MCTSより読みの効率良い、タスク間汎化も ● 完全なモデルを与える ● I2A@87とMCTS@87を比較すると読んだス テップ数が1桁違う ● MCTSは読みを増やせばさらに性能をあげ られるが、I2AもMC searchがつかえて、や はり高効率 ● 4boxでtrainした ● I2Aはstandardと比べて汎化 20
  21. 21. 実験2:MiniPacman ● 1つのモデルで異なるタスクに使える内部モデルを学習できるか実験 ● タスクを変更してもEMは追加で学習しない ● それでもI2Aがbaselineを上回る 21
  22. 22. まとめ ● 不正確なプランニングをNNでうまく処理してmodel-free methodに取り込むことが できた ● 他のタスクに対して適用できるか、今後の発展に期待 ● あと、step数で比較しているが、内部シミュレーションが入っていないので計算コス トは増えている 22
  23. 23. Learning model-based planning from scratch 23
  24. 24. プランニングの構築の仕方自体も学習できないか ● 不正確性に対処できればプランニングは完成か?→ No! ● どこを読むか、どこで読みを打ち切るかはヒューリスティックに設計している ○ 読みを打ち切って行動してみるべきか、読むならどのノードから読みを始めるべきかは自由度があ る、それにimaginationはタダじゃない ● どこを、どこまで読むか決定するメタなエージェントも一緒に学習したい 24
  25. 25. METACONTROL FOR ADAPTIVE IMAGINATION-BASED OPTIMIZATION[Hamrick 2017] ● ICML 2017 ● 本論文と近いアイデア ○ meta controllerが、行動するか否か、どの モデルでプランを評価するかを決める ○ 計算コストの低いモデルを適合的に使い たいというモチベーション ● one-shot decision makingな問題 25 [Hamrick 2017]Metacontrol for adaptive imagination-based optimization, 2017
  26. 26. Model ● Manager ○ 読みを打ち切るかどうか、どこから読み 始めるか決める ■ 行動空間はact or not + 読み始め候補のnode数 ○ これまでの行動や読みの履歴を入力 ● Controller ○ 現在状態とMemoryの出力を受け取る ○ imagineとactで共通 ● Imagination ○ 環境の内部モデル ○ Interaction Networkを使う ● Memory ○ 読みや行動の結果を文脈とともに記憶 ○ LSTM 26
  27. 27. Imagination Strategy ● 3つのimagination strategyを考えた ○ 1-step: 常に現在のノードから読みの続き を始める ○ n-step: 常に最後のノードから読みの続き を始める ○ tree: これまで読んだ任意のノードから読 みを始めて良い 27
  28. 28. 学習 ● Manager ○ タスクに関するlossと、imaginationにか かるコストを報酬にして REINFORCE ● Controller ○ タスクに関するlossのみを使いSVG ● Imagination ○ 現実で行動した際のデータを使って教師 あり学習 ● Memory ○ Controllerと同時に学習 28
  29. 29. 実験1:Spaceship task ● 目的の場所への到着を目指す ● 惑星どうしの複雑な重力場がある ● コントロールにも一定のノイズ 29
  30. 30. 結果 A. 読みを増やすと良くなる B. imagination costを増やすと、読みを 減らすよう学習できてる C. imagination costを増やすと、読みが 減ってtotal costは増える D. imagination strategyは 1-step<n-step<tree E. D.に同じ 下図は、生成されたimaginationとactionの 軌道 30
  31. 31. 実験2:Discrete mazes ● 迷路を解くタスク ● discrete domainにも適用してみる ● perfect modelを与えている ● その他、meta controllerを与えてしまうなど、ちょっと怪しい 31
  32. 32. 結果 ● 上図:タスク中に現れたimagination strategyの割合,状況により様々な strategyがあり得る ● 下図上 : 迷路同じでゴールが異なる。 imaginationによって異なるタスクにも 汎化 ● 下図下:迷路もゴールも異なる場合 32
  33. 33. まとめ ● プランニングの情報を用いて難しいcontinuous coutrolタスクの精度向上 ● 加えて、meta controllerがimaginationのコストを見ながら、どこから読むのか、い つまで読むのかを学習してくれる ● 今後はより広範なタスクへの適用に期待 ● internal resource costをどう設計するかは謎 33
  34. 34. おまけ)プランニングに関して、その他の方向性 34
  35. 35. 記号的推論、因果推論との統合 ● Schema Networks: Zero-shot Transfer with a Generative Causal Model of Intuitive Physics[Kansky 2017] ○ ICML 2017 ○ AIベンチャー, vicariousの論文 ○ オブジェクト間の物理的な因果関係を獲 得して、目標から逆向きに推論する計画 問題を解く。物理法則が変化していない別 タスクにzero shotで適応できる。 ○ DLじゃない 35 [Kansky 2017]Schema networks: Zero-shot transfer with a generative causal model of intuitive physics. Accepted at International Conference for Machine Learning, 2017, 2017.
  36. 36. 物理的な関係推論 ● Interaction Network[Battaglia 2016] ● NIPS 2016 ● 物理的な運動推論ができる ● Visual Interaction Network[Watters 2016] ● 画像から物理的な運動推論が可能 36 []Battaglia 2016]Interaction networks for learning about objects, relations and physics. In Advances in Neural Information Processing Systems, pages 4502–4510, 2016 [Watters 2016]Visual interaction networks,” CoRR, vol. abs/1706.01433, 2017. [Online]. Available: http://arxiv.org/abs/ 1706.01433. これまで難しかった環境の予測モデルができる?
  37. 37. さらにその先? ● 既知の因果関係を組み合わせて、未知の因果関係を推測 ○ 0ショットで環境のモデルを獲得できる可能性がある 37
  38. 38. まとめ ● プランニングの活用はRLにおいて大事 ● Imagination-Augmented Agents for Deep Reinforcement Learningでは、モデル にほぼ不可避な不正確性を扱う新しい方法を提案 ● Learning model-based planning from scratchでは、プランニングの構築自体を学 習する枠組みを提案、新しい課題に着手している ● その他にも、プランニングの新しい側面にチャレンジするための要素が少しずつで てきている 38

×