[DL輪読会]Deep Dynamics Models for Learning Dexterous Manipulation

1
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
Deep Dynamics Models for Learning Dexterous
Manipulation(PDDM)
Keno Harada, UT, B3

書誌情報
● 著者情報:
○ Anusha Nagabandi, Kurt Konoglie, Sergey Levine, Vikash Kumar
○ Google Brain
● 論文リンク: https://arxiv.org/pdf/1909.11652.pdf(CoRL 2019?)
● Blog:
○ Google: https://sites.google.com/view/pddm/
○ BAIR: https://bair.berkeley.edu/blog/2019/09/30/deep-dynamics/
● CS285(http://rail.eecs.berkeley.edu/deeprlcourse/)のLecture10, 11で
PDDMに関係する技術の詳しい解説がなされています
2

デモ
gif from
https://sites.google.co
m/view/pddm/
3

研究概要
● 複数本の指でのdexterous manipulation task 難しい
○ 複数の方向から同時に対象物体に力を及ぼすことが可能でないと達成が難
しい
○ 多数の関節を制御し複雑な力を与える必要性
○ 接触が生じたり, 消えたりが繰り返されるため, 正確な物理モデルが必要と
される解析的な手法では難しい -> 学習ベースに成功の可能性が
● モデルベース強化学習
○ 環境のダイナミクスを学習する
○ 必要となるデータ数はmodel-freeより少ないため実用的
○ dexterous manipulation taskのような難しいタスクへの適用はまだあまり
なされていない
4

研究概要
● Online planning with deep dynamics models(PDDM)
○ Model Predictive Control
■ Neural network dynamics for modelbased deep reinforcement learning
with model-free fine-tuning(https://arxiv.org/pdf/1708.02596.pdf)
○ Ensembles for model uncertainty estimation
■ Deep Reinforcement Learning in a Handful of Trials using Probabilistic
Dynamics Models(https://papers.nips.cc/paper/7725-deep-
reinforcement-learning-in-a-handful-of-trials-using-probabilistic-
dynamics-models.pdf)
● 一言で言うと: 不確実性を考慮に入れたダイナミクスの予測をブートストラッ
プアンサンブルで行い，行動の選択をMPCによって行う
● 個々の手法は既存のものだが，組み合わせは新しく, 肝だとしている 5

アウトライン
● Learning the Dynamics
○ モデルベース強化学習の課題
○ 不確実性の考慮
○ ブートストラップアンサンブル
● Model Predictive Control
○ Random Shooting
○ Iterative Random-Shooting with Refinement
○ Filtering and Reward-Weighted Refinement
● PDDM
● 実験結果
6

Learning the Dynamics
モデルベース強化学習の課題
● モデルフリーの手法に比べてパフォーマンス劣る
○ モデルベースは学習されたモデルを基にPlanningする
■ ダイナミクスモデルが誤っていても，そのモデルにおいて報酬が高く得られるような行動を選択する
■ 高次元になるほどモデルが誤った予測をする可能性が高くなる(らしい)
■ モデルが予測に自信がないところを把握したい-> 不確実性の考慮
image from CS285 Lecture 11
slide
7

● aleatoric or stochastic uncertainty
○ 環境自身の持つ不確実性
○ データに対する不確実性
■ データ自体にノイズがある
● epistemic or model uncertainty
○ 十分に環境の遷移データが得られず, NNの学習が十分でない不確実性
不確実性の考慮
slide
8

不確実性の考慮
● 環境自身の持つ不確実性の対処
○ -> 確率分布のパラメータをNNで出力し，サンプリングすることで対処
● 十分に環境の遷移データが得られず, NNの学習が十分でない不確実性への対処
○ -> ダイナミクスモデルを複数用意することで対処(ブートストラップアン
サンブル)
slide
9

ブートストラップアンサンブル
● 複数のダイナミクスモデルを用いて遷移を予測し，一連の行動を行った際の報
酬の平均から，対象となる行動系列の評価を行う
slide
10

11

Model Predictive Control
Slide from CS285 Lecture 11
12

Random shooting
● ある系列長のactionの系列をいくつか候補として挙げる
● その中で最も報酬が高く得られたaction系列を採用する
○ どれくらい報酬が得られるかは学習したモデルを使用し評価
○ Model Predictive Controlでは最初のactionだけ採用し, また次のstepで
Random shootingを行う
Slide from CS285 Lecture 10,
11
13

Iterative Random-Shooting with Refinement
● 候補に挙げるアクション系列を，報酬が高く得られた範囲からとるようにし，
確度を高めていく
○ 何度かサンプリングを行い，最終的にアクション系列を定める
slide
14

Filtering and Reward-Weighted Refinement
● time step間の相関を考慮に入れ，アクション系列のサンプリングを行う時絞り
込む分布の更新をよりサンプル全体を考慮して有効的に行う
報酬による重み付けを行い
分布を更新
Time step間の相関の考慮(?)
filtering
15

PDDM
16

実験結果(モデルデザイン)
17

実験結果
● Valve Turning: 9-DoFのハンドでvalve
を回す
● In-hand Reorientation: キューブをある
指定の方向へ移動させる
● Handwriting: 正確な操作が求められる
● Boading Balls: 落とさずに二つのボー
ルを回転させる
18

まとめ
● Dexterous manipulation taskを実用的に解けるような，ブートストラップアン
サンブルで不確実性を考慮し，Filtering and Reward-Weighted Refinementによ
って行動系列を選択してMPCを行う，既存手法をうまく組み合わせたモデルベ
ース強化学習手法PDDMを提案
24

[DL輪読会]Deep Dynamics Models for Learning Dexterous Manipulation

Recomendados

Recomendados

Mais conteúdo relacionado

Mais procurados

Mais procurados (20)

Mais de Deep Learning JP

Mais de Deep Learning JP (20)

Último

Último (8)

[DL輪読会]Deep Dynamics Models for Learning Dexterous Manipulation

Notas do Editor