SlideShare uma empresa Scribd logo
1 de 23
1
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
Solar: Deep structured latent representations for
model-based reinforcement learning
Presentater: Kei Akuzawa, Matsuo Lab. D1
AGENDA
• 書誌情報
• 発表のモチベーション
• 背景
• Deep State Space Models
• LQR
• 手法
• 全体像
• 環境モデルの学習
• 環境モデルを用いたLQR
• 関連研究
• 実験
• まとめ
書誌情報
• タイトル
• SOLAR: Deep Structured Representations for Model-Based Reinforcement Learning
• 著者
• Marvin Zhang, Sharad Vikram, Laura Smith, Pieter Abbeel, Matthew J. Johnson, Sergey Levin
• UC Berkeleyが中心
• ICML2019
• 一言まとめ
• 強化学習において,潜在変数の遷移が線形となるような深層状態空間モデル(Deep
State Space Model, DSSM)を採用することにより,複雑な環境(観測が画像)におい
てもLinnear-Quadratic Regulator(LQR)でコントローラーを学習できるようにした
発表のモチベーション
• 近年モデルベース強化学習(RL)の進展が目覚ましい.進展の背景:
• 環境モデルがDeep Neural Netsを利用して画像等高次元の観測を扱えるように
• Deep State Space Models (DSSM) に関する知見が整ってきた
• 近年UC Berkley, Deepmind等がよく採用する環境モデルのクラス
• 前回の発表では,DSSMの進展を中心に扱った.しかしDSSMをどうRLに組み入れ
るかは以前発展途上
• https://www.slideshare.net/DeepLearningJP2016/dlsimpleimproved-dynamics-
modelplanet-vaerl
• 今回発表する論文は,DSSMをRLに組み合わせる新しいアプローチを提案
• 制御理論で目にするLinnear-Quadratic Regulator(LQR)と組み合わせたい
• (制御アルゴリズムの詳細わかってないです……orz)
• 組み合わせるために,新たなDSSMを提案
背景 Deep State Space Models
• Notation:
• 𝑜𝑡: 観測(画像など)
• 𝑎 𝑡: アクション
• 𝑠𝑡: 潜在変数(状態)
• State Space Models (SSM): 状態と観測が異なる系
• 𝑡期の状態𝑠𝑡のみから観測𝑜𝑡が決まるため,予測
が高速(観測の逐次的な生成が必要ない)
• 状態𝑠𝑡がマルコフ性を満たす(POMDPへの自然
な拡張になっている)
• ただし𝑠𝑡は観測できないので推論を行う
𝑜𝑡−1
𝑎 𝑡−2
𝑜𝑡
𝑎 𝑡−1
𝑠𝑡−1 𝑠𝑡
背景 Deep State Space Models
• 学習:
• Amortized Inference (VAEと同様入力データで条件づけられた推論モデル)
を用いることが多い
• 生成モデル:
• 𝑝 𝑜1:𝑇|𝑎1:𝑇 = 𝑡=1
𝑇
𝑝 𝑜𝑡 𝑠𝑡 𝑝 𝑠𝑡 𝑠𝑡−1, 𝑎 𝑡−1 𝑑𝑠1:𝑇
• 推論モデル:
• 𝑞 𝑠1:𝑇|𝑜1:𝑇, 𝑎1:𝑇 = 𝑡=1
𝑇
𝑞 𝑠𝑡|𝑜1:𝑇. 𝑎 𝑡
• ELBO:
• 𝐸 𝑞 𝑠1:𝑇|𝑜1:𝑇,𝑎1:𝑇
log 𝑝 𝑜1:𝑇|𝑠1:𝑇 − 𝐷 𝐾𝐿[𝑞 𝑠𝑡|𝑜1:𝑇, 𝑎1:𝑇 |𝑝 𝑠𝑡 𝑠𝑡−1, 𝑎 𝑡−1 ]
𝑜𝑡−1
𝑎 𝑡−2
𝑜𝑡
𝑎 𝑡−1
𝑠𝑡−1 𝑠𝑡
[余談] DSSMとそのRLにおける用途
DSSMのRLにおける用途 DSSM自体の工夫
Solar 最適制御(潜在変数の遷移が線形
となるようなDSSMを採用すること
により,画像観測においても
Linnear-Quadratic Regulator(LQR)
でコントローラーを学習)
潜在空間上の遷移が線形になるよ
うに設計
PlaNet [Hafner+ 2019] プランニング(DSSMの潜在空間上
で高速なプランニングを行う)
長期の予測が行えるような補助タ
スク(overshooting)
SLAC [Lee+2019] 表現学習(DSSMで推論した潜在変
数がマルコフ性を満たすことを利
用して,𝑠𝑡を入力にとるactorを用い
たsoft actor-criticを提案)
方策自体もグラフィカルモデルで
書く(Control as Inference)
背景 Linear Quadratic Regulator
• 線形の時変環境モデル,二次形式のコスト関数が与えられている状況を想定
• for 𝑡 ∈ {1, … , 𝑇}
• 𝑝 𝑠𝑡 𝑠𝑡−1, 𝑎 𝑡−1 = 𝑁 𝑭 𝒕
𝑠𝑡−1
𝑎 𝑡−1
, 𝜮 𝑡
• 𝑝 𝑐𝑡 𝑠𝑡, 𝑎 𝑡 = 𝑁(
1
2
𝑠𝑡
𝑎 𝑡
𝑇
𝐶
𝑠𝑡
𝑎 𝑡
+ 𝑐 𝑇
𝑠𝑡
𝑎 𝑡
)
• コストが最小かつエントロピーが最大になる方策を陽に求めることができる(制
御理論のアルゴリズムが使えて嬉しい)
• 基本GPS[Levin and Abeel 2014]で提案された改善版アルゴリズムと同じっぽい
• (GPSのようにNeural Network PolicyにFittingしているわけではない???)
手法 全体像
• 線形の環境モデルがあれば,制御理論のアルゴリズムが使える
• Q. 観測が画像のとき,線形の環境モデルを立てることができるか…?
• A. DNNで観測を写像した先の潜在空間上なら,
遷移を線形にしても良さそう!
• 𝑝 𝑠𝑡 𝑠𝑡−1, 𝑎 𝑡−1 = 𝑁(𝑭
𝑠𝑡−1
𝑎 𝑡−1
, 𝜮)
𝑜𝑡−1
𝑎 𝑡−2
𝑜𝑡
𝑎 𝑡−1
𝑠𝑡−1 𝑠𝑡
𝑭, 𝜮
𝑡 = 2, … , 𝑇
手法 全体像
(1) 現在の方策で
rollouts(訓練
データ)を収集
(2) 環境モデルの
学習
(3) LQRに必要な
パラメーター
𝑭, 𝒕 𝜮 𝒕 𝒕を推論
(4) LQRで方策を
訓練
手法 環境モデルの学習
• LQRを使うために遷移モデルを線形に設計
• 𝑝 𝑠𝑡 𝑠𝑡−1, 𝑎 𝑡−1 = 𝑁(𝑭
𝑠𝑡−1
𝑎 𝑡−1
, 𝜮)
where 𝑭, 𝜮~𝑀𝑁𝐼𝑊 𝜓, 𝜈, 𝑀0, 𝑉
• 𝑀𝑁𝐼𝑊: ガウスの共役事前分布
(Matrix Normal inverse-Wishart distribution)
• つまり,事後分布 𝑝 𝑭, 𝜮 𝑠𝑡, 𝑠𝑡−1, 𝑎 𝑡−1 𝑖 も𝑀𝑁𝐼𝑊で
嬉しい
• LQRを使うためコスト関数も二次形式で設計し学習
• 𝑝 𝑐𝑡 𝑠𝑡, 𝑎 𝑡 = 𝑁(
1
2
𝑠𝑡
𝑎 𝑡
𝑇
𝐶
𝑠𝑡
𝑎 𝑡
+ 𝑐 𝑇
𝑠𝑡
𝑎 𝑡
)
𝑜𝑡−1
𝑎 𝑡−2
𝑜𝑡
𝑎 𝑡−1
𝑠𝑡−1 𝑠𝑡
𝑭, 𝜮
𝑡 = 2, … , 𝑇
手法 環境モデルの学習
• 特に関心のある分布
• 𝑝 𝑭, 𝜮 𝑜1:𝑇, 𝑎1:𝑇 (𝑭, 𝜮 がLQRに必要)
• 𝑝 𝑠1:𝑇 𝑜1:𝑇, 𝑎1:𝑇, 𝑭, 𝜮 (𝑠𝑡が方策の入力として必要)
• どちらも解析的にわからないので近似する
• 𝑞 𝑭, 𝜮 = 𝑁𝑀𝐼𝑊(𝜓′, 𝜈′, 𝑀0
′
, 𝑉′)
• 𝑞 𝑠1:𝑇 𝑜1:𝑇, 𝑎1:𝑇, 𝑭, 𝜮 ∝
𝑝(𝑠1) 𝑡=1
𝑇
𝑝 𝑠𝑡 𝑠𝑡−1, 𝑎 𝑡−1, 𝑭, 𝜮 𝜓(𝑠𝑡; 𝑜𝑡, 𝜙)
• Product of Experts(PoE) を利用している
• 𝜓 𝑠𝑡; 𝑜𝑡, 𝜙 = 𝑁(𝜇, 𝜎 = 𝑒 𝜙(𝑜𝑡)), 𝑒 𝜙はエンコーダ
• うまいパラメータ共有
𝑜𝑡−1
𝑎 𝑡−2
𝑜𝑡
𝑎 𝑡−1
𝑠𝑡−1 𝑠𝑡
𝑭, 𝜮
𝑡 = 2, … , 𝑇
手法 環境モデルの学習
• ELBO:
• 𝐸 𝑞 𝑠1:𝑇|𝑜1:𝑇
log 𝑝 𝑜1:𝑇|𝑠1:𝑇 −
𝐷 𝐾𝐿 𝑞 𝑠𝑡|𝑜𝑡, 𝑠𝑡−1, 𝑎 𝑡−1, 𝑭, 𝜮 𝑝 𝑠𝑡 𝑠𝑡−1, 𝑎 𝑡−1, 𝑭, 𝜮 − 𝐷 𝐾𝐿[𝑞 𝑭, 𝜮 |𝑝 𝑭, 𝜮 ]
• (基本的にVAEのELBOと同じ)
• あとは, 𝑝 𝑜1:𝑇|𝑠1:𝑇 , 𝜓(𝑠𝑡; 𝑜𝑡, 𝜙), 𝑞 𝑭, 𝜮 のパラメータについてELBOの勾配で学習
• とくに𝑞 𝑭, 𝜮 = 𝑁𝑀𝐼𝑊(𝜓′, 𝜈′, 𝑀0
′
, 𝑉′) に関しては自然勾配が計算できる
• 普通のAmortized Inference, VAEと違いここだけStochastic Variational Inference
• 詳細はJohnson+2016
再構成誤差
近似分布と事前分布のKL項
手法 環境モデルを用いたLQR
• 環境モデルを学習し以下が得られたと想定
• 𝑞∗ 𝑭, 𝜮
• 𝜓∗
𝑠𝑡; 𝑜𝑡, 𝜙
• 𝑝∗ 𝑐𝑡 𝑠𝑡, 𝑎 𝑡 = 𝑁(
1
2
𝑠𝑡
𝑎 𝑡
𝑇
𝐶
𝑠𝑡
𝑎 𝑡
+ 𝑐 𝑇
𝑠𝑡
𝑎 𝑡
)
• コスト関数𝑝∗
𝑐𝑡 𝑠𝑡, 𝑎 𝑡 は持っているので,あとは 𝑭, 𝒕 𝜮 𝒕 𝒕=𝟏,…𝑻がLQRに必要
• ある軌道[𝑜0, 𝑎0, 𝑐0, … , 𝑜 𝑇, 𝑎 𝑇, 𝑐 𝑇]が与えられたとする.𝑝(𝑭 𝒕, 𝜮 𝒕|𝑜1:𝑇, 𝑎1:𝑇)を最も
よく近似する𝑞 𝑭 𝑡, 𝜮 𝒕 を求めたい
• 𝑞∗ 𝑭, 𝜮 を𝑞 𝑭 𝒕, 𝜮 𝒕 の事前分布として用いて(経験ベイズ),ELBOについて
𝑞(𝑠𝑡| … )と𝑞 𝑭 𝒕, 𝜮 𝒕 のEM法を解けば最適な𝑞 𝑭 𝑡, 𝜮 𝒕 が求まる
• ( 最適な𝑞(𝑠𝑡| … )と𝑞 𝑭 𝒕, 𝜮 𝒕 はClosed Formで書ける)
関連研究
• DSSMの遷移モデルの設計が大事
• 特に線形だと制御理論の知見を活かせる,遷移行列のスペクトルが意味を持
つ[Johnson+2016]など,メリットがある
• 他に,線形の遷移モデルを組んでいる研究はあるだろうか?どんな生成/推論モ
デルが好ましいだろうか
• (論文自体で紹介されている関連研究ではなく,発表者から見た関連研究です)
関連研究 E2C
• 「潜在空間上で線形の遷移モデルを学習し,それをLQRに利用する」というコン
セプトの初出
• 定式化がDSSMになっていない => 潜在変数がマルコフ性を満たす保証がない
[PlaNetで指摘]
• 遷移行列のパラメータ𝐴 𝑡は𝐴 𝑡 = ℎ 𝜓
𝑡𝑟𝑎𝑛𝑠
(𝑧𝑡)で求める
• ただし遷移行列𝐴 𝑡はパラメータ数が𝑂(𝑛 𝑟𝑜𝑤 𝑛 𝑐𝑜𝑙)でスケールしないので,実用
上は𝐴 𝑡 = (𝑰 + 𝑣 𝑡 𝑟𝑡
𝑇
)と置いて𝑣 𝑡 𝑧𝑡 , 𝑟𝑡(𝑧𝑡)を求める
関連研究 Deep Variational Bayes Filters
• Amortized Inferenceで線形の遷移を作る方法の提案
• 遷移を次のように設計: 𝑧𝑡 = 𝐴 𝑡 𝑧𝑡 + 𝐵𝑡 𝑢 𝑡 + 𝑛𝑜𝑖𝑠𝑒
• where 𝐴 𝑡 = 𝑖=1
𝑀
𝛼 𝑡
(𝑖)
𝐴(𝑖) , ただし 𝛼 𝑡 = 𝑓𝜓 𝑧𝑡, 𝑢 𝑡 ,
• データ非依存の行列𝐴(𝑖)をM個用意しておいて,そのM個の行列に対する重み
をデータ点依存でInferenceしている
• (おそらく)ナイーブにAmortized Inferenceを行って(𝑞(𝐴 𝑡|𝑜1:𝑇)のように
設計して),データ点ごとに遷移行列を計算するのは難しいから
関連研究 遷移行列へのInferenceまとめ
直感的 数式的
Solar Stochastic Variational Inference 𝑞∗
𝑭, 𝜮 = 𝑀𝑁𝐼𝑊 𝜓′
, 𝜈′
, 𝑀0
′
, 𝑉′
事後分布𝑞 𝑭 𝒕, 𝜮 𝒕|𝑠1:𝑇, 𝑎1:𝑇 も解析
的に求まる
E2C[Watter+2015] 𝐴 𝑡 = ℎ 𝜓
𝑡𝑟𝑎𝑛𝑠
(𝑧𝑡)として,パラメー
タ𝜓を学習
𝐴 𝑡 = ℎ 𝜓
𝑡𝑟𝑎𝑛𝑠
(𝑧𝑡)
DVBF[Karl+2017] Amortized Inference (データ点非
依存なM個の遷移行列と,デー
タ点依存の重みの線形和)
𝐴 𝑡 =
𝑖=1
𝑀
𝛼 𝑡
(𝑖)
𝐴(𝑖)
,
𝑤ℎ𝑒𝑟𝑒 𝛼 𝑡 = 𝑓𝜓 𝑧𝑡, 𝑢 𝑡
結局どれが良いのかは良くわからないが,なんとなくSolarが使い回しやすそう
実験
• 比較手法
• PPO: モデルフリーのベースライン
• LQR-FLM from pixels: 表現学習なし
• (当然)全く学習できず
• Deep Visual Foresight(DVF): SOTAモデルベースRL
• pixel空間でMPCをやらせる.
• RCE: E2Cの改善版
• VAE ablation: Inferenceモデルの学習に系列情報を考慮しない
• 推論モデルを𝑞(𝑠𝑡|𝑜𝑡)にして,遷移モデルを後から学習している
• MPC baseline: 環境のモデルをPlanningに用いる
• おそらくPlaNetのようにDSSMの潜在空間をPlanningに使ってる
実験
• モデルベースはサンプル効率が良い
• 環境モデルの事前訓練を行うためMPC
baselineは序盤強いが,訓練が進むにつれ
SOLARが優位
• RCEが全然動いてないのはなぜ…?
• RCEの論文と解いてるタスクは違うらしい
実験 Sawyer Block Stacking
• 初期位置が違う3つのタスク(右上)
• 特に難しいタスク3ではMPCベースライ
ンより提案手法の方が良い
• 長期の予測を行うのが難しいので,
環境モデルをPlanningに使うより
policy improvementに使う方が良い?
感想
• DSSMをRLと組み合わせる新しいアプローチの提案として興味深い研究
• 線形の遷移を作る方法はいくつかあるので,そのあたりの検証も欲しい
• また線形の遷移を作った時に,非線形の遷移モデルを持つDSSMと比べて尤度が
どうなるか等も知りたい
• 制御説明できなくてすみません
References
• D. Hafner, T. Lillicrap, I. Fischer, R. Villegas, D. Ha, H. Lee, and J. Davidson. Learning latent
dynamics for planning from pixels. In International Conference on Machine Learning
(ICML), 2019.
• A. X. Lee, A. Nagabandi, P. Abbeel, S. Levine. Stochastic Latent Actor-Critic: Deep
Reinforcement Learning with a Latent Variable Model, arxiv, 2019.
• Levine, S. and Abbeel, P. Learning neural network policies with guided policy search
under unknown dynamics. In NIPS, 2014.
• Johnson, M., Duvenaud, D., Wiltschko, A., Datta, S., and Adams, R. Composing graphical
models with neural networks for structured representations and fast inference. In NIPS,
2016.
• Watter, M., Springenberg, J., Boedecker, J., and Riedmiller, M. Embed to control: A locally
linear latent dynamics model for control from raw images. In NIPS, 2015
• M. Karl, M. Soelch, J. Bayer, and P. van der Smagt. Deep variational bayes filters: Unsuper-
vised learning of state space models from raw data. In Proceedings of ICLR, 2017.

Mais conteúdo relacionado

Mais procurados

MLP-Mixer: An all-MLP Architecture for Vision
MLP-Mixer: An all-MLP Architecture for VisionMLP-Mixer: An all-MLP Architecture for Vision
MLP-Mixer: An all-MLP Architecture for Visionharmonylab
 
Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)Yoshitaka Ushiku
 
【DL輪読会】Perceiver io a general architecture for structured inputs & outputs
【DL輪読会】Perceiver io  a general architecture for structured inputs & outputs 【DL輪読会】Perceiver io  a general architecture for structured inputs & outputs
【DL輪読会】Perceiver io a general architecture for structured inputs & outputs Deep Learning JP
 
AIのラボからロボティクスへ --- 東大松尾研究室のWRS2020パートナーロボットチャレンジへの挑戦
AIのラボからロボティクスへ --- 東大松尾研究室のWRS2020パートナーロボットチャレンジへの挑戦AIのラボからロボティクスへ --- 東大松尾研究室のWRS2020パートナーロボットチャレンジへの挑戦
AIのラボからロボティクスへ --- 東大松尾研究室のWRS2020パートナーロボットチャレンジへの挑戦Tatsuya Matsushima
 
【DL輪読会】DayDreamer: World Models for Physical Robot Learning
【DL輪読会】DayDreamer: World Models for Physical Robot Learning【DL輪読会】DayDreamer: World Models for Physical Robot Learning
【DL輪読会】DayDreamer: World Models for Physical Robot LearningDeep Learning JP
 
SHAP値の考え方を理解する(木構造編)
SHAP値の考え方を理解する(木構造編)SHAP値の考え方を理解する(木構造編)
SHAP値の考え方を理解する(木構造編)Kazuyuki Wakasugi
 
[DL輪読会]A Bayesian Perspective on Generalization and Stochastic Gradient Descent
 [DL輪読会]A Bayesian Perspective on Generalization and Stochastic Gradient Descent [DL輪読会]A Bayesian Perspective on Generalization and Stochastic Gradient Descent
[DL輪読会]A Bayesian Perspective on Generalization and Stochastic Gradient DescentDeep Learning JP
 
[DL輪読会]Understanding Black-box Predictions via Influence Functions
[DL輪読会]Understanding Black-box Predictions via Influence Functions [DL輪読会]Understanding Black-box Predictions via Influence Functions
[DL輪読会]Understanding Black-box Predictions via Influence Functions Deep Learning JP
 
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence ModelingDeep Learning JP
 
機械学習による統計的実験計画(ベイズ最適化を中心に)
機械学習による統計的実験計画(ベイズ最適化を中心に)機械学習による統計的実験計画(ベイズ最適化を中心に)
機械学習による統計的実験計画(ベイズ最適化を中心に)Kota Matsui
 
機械学習モデルの判断根拠の説明
機械学習モデルの判断根拠の説明機械学習モデルの判断根拠の説明
機械学習モデルの判断根拠の説明Satoshi Hara
 
[DL輪読会]Temporal Abstraction in NeurIPS2019
[DL輪読会]Temporal Abstraction in NeurIPS2019[DL輪読会]Temporal Abstraction in NeurIPS2019
[DL輪読会]Temporal Abstraction in NeurIPS2019Deep Learning JP
 
ノンパラメトリックベイズを用いた逆強化学習
ノンパラメトリックベイズを用いた逆強化学習ノンパラメトリックベイズを用いた逆強化学習
ノンパラメトリックベイズを用いた逆強化学習Shota Ishikawa
 
畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化Yusuke Uchida
 
Spatial Temporal Graph Convolutional Networks for Skeleton-Based Action Recog...
Spatial Temporal Graph Convolutional Networks for Skeleton-Based Action Recog...Spatial Temporal Graph Convolutional Networks for Skeleton-Based Action Recog...
Spatial Temporal Graph Convolutional Networks for Skeleton-Based Action Recog...yukihiro domae
 
[DeepLearning論文読み会] Dataset Distillation
[DeepLearning論文読み会] Dataset Distillation[DeepLearning論文読み会] Dataset Distillation
[DeepLearning論文読み会] Dataset DistillationRyutaro Yamauchi
 
[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative Models[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative ModelsDeep Learning JP
 
深層生成モデルと世界モデル
深層生成モデルと世界モデル深層生成モデルと世界モデル
深層生成モデルと世界モデルMasahiro Suzuki
 
【DL輪読会】A Path Towards Autonomous Machine Intelligence
【DL輪読会】A Path Towards Autonomous Machine Intelligence【DL輪読会】A Path Towards Autonomous Machine Intelligence
【DL輪読会】A Path Towards Autonomous Machine IntelligenceDeep Learning JP
 
最適輸送の計算アルゴリズムの研究動向
最適輸送の計算アルゴリズムの研究動向最適輸送の計算アルゴリズムの研究動向
最適輸送の計算アルゴリズムの研究動向ohken
 

Mais procurados (20)

MLP-Mixer: An all-MLP Architecture for Vision
MLP-Mixer: An all-MLP Architecture for VisionMLP-Mixer: An all-MLP Architecture for Vision
MLP-Mixer: An all-MLP Architecture for Vision
 
Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)
 
【DL輪読会】Perceiver io a general architecture for structured inputs & outputs
【DL輪読会】Perceiver io  a general architecture for structured inputs & outputs 【DL輪読会】Perceiver io  a general architecture for structured inputs & outputs
【DL輪読会】Perceiver io a general architecture for structured inputs & outputs
 
AIのラボからロボティクスへ --- 東大松尾研究室のWRS2020パートナーロボットチャレンジへの挑戦
AIのラボからロボティクスへ --- 東大松尾研究室のWRS2020パートナーロボットチャレンジへの挑戦AIのラボからロボティクスへ --- 東大松尾研究室のWRS2020パートナーロボットチャレンジへの挑戦
AIのラボからロボティクスへ --- 東大松尾研究室のWRS2020パートナーロボットチャレンジへの挑戦
 
【DL輪読会】DayDreamer: World Models for Physical Robot Learning
【DL輪読会】DayDreamer: World Models for Physical Robot Learning【DL輪読会】DayDreamer: World Models for Physical Robot Learning
【DL輪読会】DayDreamer: World Models for Physical Robot Learning
 
SHAP値の考え方を理解する(木構造編)
SHAP値の考え方を理解する(木構造編)SHAP値の考え方を理解する(木構造編)
SHAP値の考え方を理解する(木構造編)
 
[DL輪読会]A Bayesian Perspective on Generalization and Stochastic Gradient Descent
 [DL輪読会]A Bayesian Perspective on Generalization and Stochastic Gradient Descent [DL輪読会]A Bayesian Perspective on Generalization and Stochastic Gradient Descent
[DL輪読会]A Bayesian Perspective on Generalization and Stochastic Gradient Descent
 
[DL輪読会]Understanding Black-box Predictions via Influence Functions
[DL輪読会]Understanding Black-box Predictions via Influence Functions [DL輪読会]Understanding Black-box Predictions via Influence Functions
[DL輪読会]Understanding Black-box Predictions via Influence Functions
 
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
 
機械学習による統計的実験計画(ベイズ最適化を中心に)
機械学習による統計的実験計画(ベイズ最適化を中心に)機械学習による統計的実験計画(ベイズ最適化を中心に)
機械学習による統計的実験計画(ベイズ最適化を中心に)
 
機械学習モデルの判断根拠の説明
機械学習モデルの判断根拠の説明機械学習モデルの判断根拠の説明
機械学習モデルの判断根拠の説明
 
[DL輪読会]Temporal Abstraction in NeurIPS2019
[DL輪読会]Temporal Abstraction in NeurIPS2019[DL輪読会]Temporal Abstraction in NeurIPS2019
[DL輪読会]Temporal Abstraction in NeurIPS2019
 
ノンパラメトリックベイズを用いた逆強化学習
ノンパラメトリックベイズを用いた逆強化学習ノンパラメトリックベイズを用いた逆強化学習
ノンパラメトリックベイズを用いた逆強化学習
 
畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化
 
Spatial Temporal Graph Convolutional Networks for Skeleton-Based Action Recog...
Spatial Temporal Graph Convolutional Networks for Skeleton-Based Action Recog...Spatial Temporal Graph Convolutional Networks for Skeleton-Based Action Recog...
Spatial Temporal Graph Convolutional Networks for Skeleton-Based Action Recog...
 
[DeepLearning論文読み会] Dataset Distillation
[DeepLearning論文読み会] Dataset Distillation[DeepLearning論文読み会] Dataset Distillation
[DeepLearning論文読み会] Dataset Distillation
 
[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative Models[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative Models
 
深層生成モデルと世界モデル
深層生成モデルと世界モデル深層生成モデルと世界モデル
深層生成モデルと世界モデル
 
【DL輪読会】A Path Towards Autonomous Machine Intelligence
【DL輪読会】A Path Towards Autonomous Machine Intelligence【DL輪読会】A Path Towards Autonomous Machine Intelligence
【DL輪読会】A Path Towards Autonomous Machine Intelligence
 
最適輸送の計算アルゴリズムの研究動向
最適輸送の計算アルゴリズムの研究動向最適輸送の計算アルゴリズムの研究動向
最適輸送の計算アルゴリズムの研究動向
 

Semelhante a [DL輪読会]SOLAR: Deep Structured Representations for Model-Based Reinforcement Learning

LCCC2010:Learning on Cores, Clusters and Cloudsの解説
LCCC2010:Learning on Cores,  Clusters and Cloudsの解説LCCC2010:Learning on Cores,  Clusters and Cloudsの解説
LCCC2010:Learning on Cores, Clusters and Cloudsの解説Preferred Networks
 
[DL輪読会]Shaping Belief States with Generative Environment Models for RL
[DL輪読会]Shaping Belief States with Generative Environment Models for RL[DL輪読会]Shaping Belief States with Generative Environment Models for RL
[DL輪読会]Shaping Belief States with Generative Environment Models for RLDeep Learning JP
 
PyTorch, PixyzによるGenerative Query Networkの実装
PyTorch, PixyzによるGenerative Query Networkの実装PyTorch, PixyzによるGenerative Query Networkの実装
PyTorch, PixyzによるGenerative Query Networkの実装Shohei Taniguchi
 
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)Morpho, Inc.
 
NIPS KANSAI Reading Group #7: Temporal Difference Models: Model-Free Deep RL ...
NIPS KANSAI Reading Group #7: Temporal Difference Models: Model-Free Deep RL ...NIPS KANSAI Reading Group #7: Temporal Difference Models: Model-Free Deep RL ...
NIPS KANSAI Reading Group #7: Temporal Difference Models: Model-Free Deep RL ...Eiji Uchibe
 
LSD-SLAM:Large Scale Direct Monocular SLAM
LSD-SLAM:Large Scale Direct Monocular SLAMLSD-SLAM:Large Scale Direct Monocular SLAM
LSD-SLAM:Large Scale Direct Monocular SLAMEndoYuuki
 
CVPR2019 読み会「Understanding the Limitations of CNN-based Absolute Camera Pose ...
CVPR2019 読み会「Understanding the Limitations of CNN-based Absolute Camera Pose ...CVPR2019 読み会「Understanding the Limitations of CNN-based Absolute Camera Pose ...
CVPR2019 読み会「Understanding the Limitations of CNN-based Absolute Camera Pose ...Sho Kagami
 
虹彩認証 - Introduction to Biometrics
虹彩認証 - Introduction to Biometrics虹彩認証 - Introduction to Biometrics
虹彩認証 - Introduction to Biometricsyoko meip
 
Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vi...
Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vi...Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vi...
Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vi...Yoshitaka Ushiku
 
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
[DL輪読会]Meta-Learning Probabilistic Inference for PredictionDeep Learning JP
 
ISMB読み会 2nd graph kernel
ISMB読み会 2nd graph kernelISMB読み会 2nd graph kernel
ISMB読み会 2nd graph kernel弘毅 露崎
 
[論文紹介] Convolutional Neural Network(CNN)による超解像
[論文紹介] Convolutional Neural Network(CNN)による超解像[論文紹介] Convolutional Neural Network(CNN)による超解像
[論文紹介] Convolutional Neural Network(CNN)による超解像Rei Takami
 
Online moving camera_background_subtraction
Online moving camera_background_subtractionOnline moving camera_background_subtraction
Online moving camera_background_subtractionDaichi Suzuo
 
Learning Spatial Common Sense with Geometry-Aware Recurrent Networks
Learning Spatial Common Sense with Geometry-Aware Recurrent NetworksLearning Spatial Common Sense with Geometry-Aware Recurrent Networks
Learning Spatial Common Sense with Geometry-Aware Recurrent NetworksKento Doi
 
[DL Hacks] Deterministic Variational Inference for RobustBayesian Neural Netw...
[DL Hacks] Deterministic Variational Inference for RobustBayesian Neural Netw...[DL Hacks] Deterministic Variational Inference for RobustBayesian Neural Netw...
[DL Hacks] Deterministic Variational Inference for RobustBayesian Neural Netw...Deep Learning JP
 
論文紹介 LexToMap: lexical-based topological mapping
論文紹介 LexToMap: lexical-based topological mapping論文紹介 LexToMap: lexical-based topological mapping
論文紹介 LexToMap: lexical-based topological mappingAkira Taniguchi
 
[DL輪読会]Temporal DifferenceVariationalAuto-Encoder
[DL輪読会]Temporal DifferenceVariationalAuto-Encoder[DL輪読会]Temporal DifferenceVariationalAuto-Encoder
[DL輪読会]Temporal DifferenceVariationalAuto-EncoderDeep Learning JP
 
【2016.08】cvpaper.challenge2016
【2016.08】cvpaper.challenge2016【2016.08】cvpaper.challenge2016
【2016.08】cvpaper.challenge2016cvpaper. challenge
 
[DL輪読会]GQNと関連研究,世界モデルとの関係について
[DL輪読会]GQNと関連研究,世界モデルとの関係について[DL輪読会]GQNと関連研究,世界モデルとの関係について
[DL輪読会]GQNと関連研究,世界モデルとの関係についてDeep Learning JP
 

Semelhante a [DL輪読会]SOLAR: Deep Structured Representations for Model-Based Reinforcement Learning (20)

LCCC2010:Learning on Cores, Clusters and Cloudsの解説
LCCC2010:Learning on Cores,  Clusters and Cloudsの解説LCCC2010:Learning on Cores,  Clusters and Cloudsの解説
LCCC2010:Learning on Cores, Clusters and Cloudsの解説
 
[DL輪読会]Shaping Belief States with Generative Environment Models for RL
[DL輪読会]Shaping Belief States with Generative Environment Models for RL[DL輪読会]Shaping Belief States with Generative Environment Models for RL
[DL輪読会]Shaping Belief States with Generative Environment Models for RL
 
PyTorch, PixyzによるGenerative Query Networkの実装
PyTorch, PixyzによるGenerative Query Networkの実装PyTorch, PixyzによるGenerative Query Networkの実装
PyTorch, PixyzによるGenerative Query Networkの実装
 
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
 
NIPS KANSAI Reading Group #7: Temporal Difference Models: Model-Free Deep RL ...
NIPS KANSAI Reading Group #7: Temporal Difference Models: Model-Free Deep RL ...NIPS KANSAI Reading Group #7: Temporal Difference Models: Model-Free Deep RL ...
NIPS KANSAI Reading Group #7: Temporal Difference Models: Model-Free Deep RL ...
 
LSD-SLAM:Large Scale Direct Monocular SLAM
LSD-SLAM:Large Scale Direct Monocular SLAMLSD-SLAM:Large Scale Direct Monocular SLAM
LSD-SLAM:Large Scale Direct Monocular SLAM
 
CVPR2019 読み会「Understanding the Limitations of CNN-based Absolute Camera Pose ...
CVPR2019 読み会「Understanding the Limitations of CNN-based Absolute Camera Pose ...CVPR2019 読み会「Understanding the Limitations of CNN-based Absolute Camera Pose ...
CVPR2019 読み会「Understanding the Limitations of CNN-based Absolute Camera Pose ...
 
虹彩認証 - Introduction to Biometrics
虹彩認証 - Introduction to Biometrics虹彩認証 - Introduction to Biometrics
虹彩認証 - Introduction to Biometrics
 
Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vi...
Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vi...Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vi...
Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vi...
 
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
 
Car rmodel
Car rmodelCar rmodel
Car rmodel
 
ISMB読み会 2nd graph kernel
ISMB読み会 2nd graph kernelISMB読み会 2nd graph kernel
ISMB読み会 2nd graph kernel
 
[論文紹介] Convolutional Neural Network(CNN)による超解像
[論文紹介] Convolutional Neural Network(CNN)による超解像[論文紹介] Convolutional Neural Network(CNN)による超解像
[論文紹介] Convolutional Neural Network(CNN)による超解像
 
Online moving camera_background_subtraction
Online moving camera_background_subtractionOnline moving camera_background_subtraction
Online moving camera_background_subtraction
 
Learning Spatial Common Sense with Geometry-Aware Recurrent Networks
Learning Spatial Common Sense with Geometry-Aware Recurrent NetworksLearning Spatial Common Sense with Geometry-Aware Recurrent Networks
Learning Spatial Common Sense with Geometry-Aware Recurrent Networks
 
[DL Hacks] Deterministic Variational Inference for RobustBayesian Neural Netw...
[DL Hacks] Deterministic Variational Inference for RobustBayesian Neural Netw...[DL Hacks] Deterministic Variational Inference for RobustBayesian Neural Netw...
[DL Hacks] Deterministic Variational Inference for RobustBayesian Neural Netw...
 
論文紹介 LexToMap: lexical-based topological mapping
論文紹介 LexToMap: lexical-based topological mapping論文紹介 LexToMap: lexical-based topological mapping
論文紹介 LexToMap: lexical-based topological mapping
 
[DL輪読会]Temporal DifferenceVariationalAuto-Encoder
[DL輪読会]Temporal DifferenceVariationalAuto-Encoder[DL輪読会]Temporal DifferenceVariationalAuto-Encoder
[DL輪読会]Temporal DifferenceVariationalAuto-Encoder
 
【2016.08】cvpaper.challenge2016
【2016.08】cvpaper.challenge2016【2016.08】cvpaper.challenge2016
【2016.08】cvpaper.challenge2016
 
[DL輪読会]GQNと関連研究,世界モデルとの関係について
[DL輪読会]GQNと関連研究,世界モデルとの関係について[DL輪読会]GQNと関連研究,世界モデルとの関係について
[DL輪読会]GQNと関連研究,世界モデルとの関係について
 

Mais de Deep Learning JP

【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving PlannersDeep Learning JP
 
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについてDeep Learning JP
 
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...Deep Learning JP
 
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-ResolutionDeep Learning JP
 
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxivDeep Learning JP
 
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLMDeep Learning JP
 
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo... 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...Deep Learning JP
 
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place RecognitionDeep Learning JP
 
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?Deep Learning JP
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究についてDeep Learning JP
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )Deep Learning JP
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...Deep Learning JP
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"Deep Learning JP
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "Deep Learning JP
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat ModelsDeep Learning JP
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"Deep Learning JP
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...Deep Learning JP
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...Deep Learning JP
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...Deep Learning JP
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...Deep Learning JP
 

Mais de Deep Learning JP (20)

【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
 
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて
 
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
 
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
 
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
 
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM
 
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo... 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
 
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
 

Último

デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)UEHARA, Tetsutaro
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfFumieNakayama
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...博三 太田
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案sugiuralab
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?akihisamiyanaga1
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NTT DATA Technology & Innovation
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineerYuki Kikuchi
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfFumieNakayama
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)Hiroshi Tomioka
 

Último (9)

デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
 

[DL輪読会]SOLAR: Deep Structured Representations for Model-Based Reinforcement Learning

  • 1. 1 DEEP LEARNING JP [DL Papers] http://deeplearning.jp/ Solar: Deep structured latent representations for model-based reinforcement learning Presentater: Kei Akuzawa, Matsuo Lab. D1
  • 2. AGENDA • 書誌情報 • 発表のモチベーション • 背景 • Deep State Space Models • LQR • 手法 • 全体像 • 環境モデルの学習 • 環境モデルを用いたLQR • 関連研究 • 実験 • まとめ
  • 3. 書誌情報 • タイトル • SOLAR: Deep Structured Representations for Model-Based Reinforcement Learning • 著者 • Marvin Zhang, Sharad Vikram, Laura Smith, Pieter Abbeel, Matthew J. Johnson, Sergey Levin • UC Berkeleyが中心 • ICML2019 • 一言まとめ • 強化学習において,潜在変数の遷移が線形となるような深層状態空間モデル(Deep State Space Model, DSSM)を採用することにより,複雑な環境(観測が画像)におい てもLinnear-Quadratic Regulator(LQR)でコントローラーを学習できるようにした
  • 4. 発表のモチベーション • 近年モデルベース強化学習(RL)の進展が目覚ましい.進展の背景: • 環境モデルがDeep Neural Netsを利用して画像等高次元の観測を扱えるように • Deep State Space Models (DSSM) に関する知見が整ってきた • 近年UC Berkley, Deepmind等がよく採用する環境モデルのクラス • 前回の発表では,DSSMの進展を中心に扱った.しかしDSSMをどうRLに組み入れ るかは以前発展途上 • https://www.slideshare.net/DeepLearningJP2016/dlsimpleimproved-dynamics- modelplanet-vaerl • 今回発表する論文は,DSSMをRLに組み合わせる新しいアプローチを提案 • 制御理論で目にするLinnear-Quadratic Regulator(LQR)と組み合わせたい • (制御アルゴリズムの詳細わかってないです……orz) • 組み合わせるために,新たなDSSMを提案
  • 5. 背景 Deep State Space Models • Notation: • 𝑜𝑡: 観測(画像など) • 𝑎 𝑡: アクション • 𝑠𝑡: 潜在変数(状態) • State Space Models (SSM): 状態と観測が異なる系 • 𝑡期の状態𝑠𝑡のみから観測𝑜𝑡が決まるため,予測 が高速(観測の逐次的な生成が必要ない) • 状態𝑠𝑡がマルコフ性を満たす(POMDPへの自然 な拡張になっている) • ただし𝑠𝑡は観測できないので推論を行う 𝑜𝑡−1 𝑎 𝑡−2 𝑜𝑡 𝑎 𝑡−1 𝑠𝑡−1 𝑠𝑡
  • 6. 背景 Deep State Space Models • 学習: • Amortized Inference (VAEと同様入力データで条件づけられた推論モデル) を用いることが多い • 生成モデル: • 𝑝 𝑜1:𝑇|𝑎1:𝑇 = 𝑡=1 𝑇 𝑝 𝑜𝑡 𝑠𝑡 𝑝 𝑠𝑡 𝑠𝑡−1, 𝑎 𝑡−1 𝑑𝑠1:𝑇 • 推論モデル: • 𝑞 𝑠1:𝑇|𝑜1:𝑇, 𝑎1:𝑇 = 𝑡=1 𝑇 𝑞 𝑠𝑡|𝑜1:𝑇. 𝑎 𝑡 • ELBO: • 𝐸 𝑞 𝑠1:𝑇|𝑜1:𝑇,𝑎1:𝑇 log 𝑝 𝑜1:𝑇|𝑠1:𝑇 − 𝐷 𝐾𝐿[𝑞 𝑠𝑡|𝑜1:𝑇, 𝑎1:𝑇 |𝑝 𝑠𝑡 𝑠𝑡−1, 𝑎 𝑡−1 ] 𝑜𝑡−1 𝑎 𝑡−2 𝑜𝑡 𝑎 𝑡−1 𝑠𝑡−1 𝑠𝑡
  • 7. [余談] DSSMとそのRLにおける用途 DSSMのRLにおける用途 DSSM自体の工夫 Solar 最適制御(潜在変数の遷移が線形 となるようなDSSMを採用すること により,画像観測においても Linnear-Quadratic Regulator(LQR) でコントローラーを学習) 潜在空間上の遷移が線形になるよ うに設計 PlaNet [Hafner+ 2019] プランニング(DSSMの潜在空間上 で高速なプランニングを行う) 長期の予測が行えるような補助タ スク(overshooting) SLAC [Lee+2019] 表現学習(DSSMで推論した潜在変 数がマルコフ性を満たすことを利 用して,𝑠𝑡を入力にとるactorを用い たsoft actor-criticを提案) 方策自体もグラフィカルモデルで 書く(Control as Inference)
  • 8. 背景 Linear Quadratic Regulator • 線形の時変環境モデル,二次形式のコスト関数が与えられている状況を想定 • for 𝑡 ∈ {1, … , 𝑇} • 𝑝 𝑠𝑡 𝑠𝑡−1, 𝑎 𝑡−1 = 𝑁 𝑭 𝒕 𝑠𝑡−1 𝑎 𝑡−1 , 𝜮 𝑡 • 𝑝 𝑐𝑡 𝑠𝑡, 𝑎 𝑡 = 𝑁( 1 2 𝑠𝑡 𝑎 𝑡 𝑇 𝐶 𝑠𝑡 𝑎 𝑡 + 𝑐 𝑇 𝑠𝑡 𝑎 𝑡 ) • コストが最小かつエントロピーが最大になる方策を陽に求めることができる(制 御理論のアルゴリズムが使えて嬉しい) • 基本GPS[Levin and Abeel 2014]で提案された改善版アルゴリズムと同じっぽい • (GPSのようにNeural Network PolicyにFittingしているわけではない???)
  • 9. 手法 全体像 • 線形の環境モデルがあれば,制御理論のアルゴリズムが使える • Q. 観測が画像のとき,線形の環境モデルを立てることができるか…? • A. DNNで観測を写像した先の潜在空間上なら, 遷移を線形にしても良さそう! • 𝑝 𝑠𝑡 𝑠𝑡−1, 𝑎 𝑡−1 = 𝑁(𝑭 𝑠𝑡−1 𝑎 𝑡−1 , 𝜮) 𝑜𝑡−1 𝑎 𝑡−2 𝑜𝑡 𝑎 𝑡−1 𝑠𝑡−1 𝑠𝑡 𝑭, 𝜮 𝑡 = 2, … , 𝑇
  • 10. 手法 全体像 (1) 現在の方策で rollouts(訓練 データ)を収集 (2) 環境モデルの 学習 (3) LQRに必要な パラメーター 𝑭, 𝒕 𝜮 𝒕 𝒕を推論 (4) LQRで方策を 訓練
  • 11. 手法 環境モデルの学習 • LQRを使うために遷移モデルを線形に設計 • 𝑝 𝑠𝑡 𝑠𝑡−1, 𝑎 𝑡−1 = 𝑁(𝑭 𝑠𝑡−1 𝑎 𝑡−1 , 𝜮) where 𝑭, 𝜮~𝑀𝑁𝐼𝑊 𝜓, 𝜈, 𝑀0, 𝑉 • 𝑀𝑁𝐼𝑊: ガウスの共役事前分布 (Matrix Normal inverse-Wishart distribution) • つまり,事後分布 𝑝 𝑭, 𝜮 𝑠𝑡, 𝑠𝑡−1, 𝑎 𝑡−1 𝑖 も𝑀𝑁𝐼𝑊で 嬉しい • LQRを使うためコスト関数も二次形式で設計し学習 • 𝑝 𝑐𝑡 𝑠𝑡, 𝑎 𝑡 = 𝑁( 1 2 𝑠𝑡 𝑎 𝑡 𝑇 𝐶 𝑠𝑡 𝑎 𝑡 + 𝑐 𝑇 𝑠𝑡 𝑎 𝑡 ) 𝑜𝑡−1 𝑎 𝑡−2 𝑜𝑡 𝑎 𝑡−1 𝑠𝑡−1 𝑠𝑡 𝑭, 𝜮 𝑡 = 2, … , 𝑇
  • 12. 手法 環境モデルの学習 • 特に関心のある分布 • 𝑝 𝑭, 𝜮 𝑜1:𝑇, 𝑎1:𝑇 (𝑭, 𝜮 がLQRに必要) • 𝑝 𝑠1:𝑇 𝑜1:𝑇, 𝑎1:𝑇, 𝑭, 𝜮 (𝑠𝑡が方策の入力として必要) • どちらも解析的にわからないので近似する • 𝑞 𝑭, 𝜮 = 𝑁𝑀𝐼𝑊(𝜓′, 𝜈′, 𝑀0 ′ , 𝑉′) • 𝑞 𝑠1:𝑇 𝑜1:𝑇, 𝑎1:𝑇, 𝑭, 𝜮 ∝ 𝑝(𝑠1) 𝑡=1 𝑇 𝑝 𝑠𝑡 𝑠𝑡−1, 𝑎 𝑡−1, 𝑭, 𝜮 𝜓(𝑠𝑡; 𝑜𝑡, 𝜙) • Product of Experts(PoE) を利用している • 𝜓 𝑠𝑡; 𝑜𝑡, 𝜙 = 𝑁(𝜇, 𝜎 = 𝑒 𝜙(𝑜𝑡)), 𝑒 𝜙はエンコーダ • うまいパラメータ共有 𝑜𝑡−1 𝑎 𝑡−2 𝑜𝑡 𝑎 𝑡−1 𝑠𝑡−1 𝑠𝑡 𝑭, 𝜮 𝑡 = 2, … , 𝑇
  • 13. 手法 環境モデルの学習 • ELBO: • 𝐸 𝑞 𝑠1:𝑇|𝑜1:𝑇 log 𝑝 𝑜1:𝑇|𝑠1:𝑇 − 𝐷 𝐾𝐿 𝑞 𝑠𝑡|𝑜𝑡, 𝑠𝑡−1, 𝑎 𝑡−1, 𝑭, 𝜮 𝑝 𝑠𝑡 𝑠𝑡−1, 𝑎 𝑡−1, 𝑭, 𝜮 − 𝐷 𝐾𝐿[𝑞 𝑭, 𝜮 |𝑝 𝑭, 𝜮 ] • (基本的にVAEのELBOと同じ) • あとは, 𝑝 𝑜1:𝑇|𝑠1:𝑇 , 𝜓(𝑠𝑡; 𝑜𝑡, 𝜙), 𝑞 𝑭, 𝜮 のパラメータについてELBOの勾配で学習 • とくに𝑞 𝑭, 𝜮 = 𝑁𝑀𝐼𝑊(𝜓′, 𝜈′, 𝑀0 ′ , 𝑉′) に関しては自然勾配が計算できる • 普通のAmortized Inference, VAEと違いここだけStochastic Variational Inference • 詳細はJohnson+2016 再構成誤差 近似分布と事前分布のKL項
  • 14. 手法 環境モデルを用いたLQR • 環境モデルを学習し以下が得られたと想定 • 𝑞∗ 𝑭, 𝜮 • 𝜓∗ 𝑠𝑡; 𝑜𝑡, 𝜙 • 𝑝∗ 𝑐𝑡 𝑠𝑡, 𝑎 𝑡 = 𝑁( 1 2 𝑠𝑡 𝑎 𝑡 𝑇 𝐶 𝑠𝑡 𝑎 𝑡 + 𝑐 𝑇 𝑠𝑡 𝑎 𝑡 ) • コスト関数𝑝∗ 𝑐𝑡 𝑠𝑡, 𝑎 𝑡 は持っているので,あとは 𝑭, 𝒕 𝜮 𝒕 𝒕=𝟏,…𝑻がLQRに必要 • ある軌道[𝑜0, 𝑎0, 𝑐0, … , 𝑜 𝑇, 𝑎 𝑇, 𝑐 𝑇]が与えられたとする.𝑝(𝑭 𝒕, 𝜮 𝒕|𝑜1:𝑇, 𝑎1:𝑇)を最も よく近似する𝑞 𝑭 𝑡, 𝜮 𝒕 を求めたい • 𝑞∗ 𝑭, 𝜮 を𝑞 𝑭 𝒕, 𝜮 𝒕 の事前分布として用いて(経験ベイズ),ELBOについて 𝑞(𝑠𝑡| … )と𝑞 𝑭 𝒕, 𝜮 𝒕 のEM法を解けば最適な𝑞 𝑭 𝑡, 𝜮 𝒕 が求まる • ( 最適な𝑞(𝑠𝑡| … )と𝑞 𝑭 𝒕, 𝜮 𝒕 はClosed Formで書ける)
  • 15. 関連研究 • DSSMの遷移モデルの設計が大事 • 特に線形だと制御理論の知見を活かせる,遷移行列のスペクトルが意味を持 つ[Johnson+2016]など,メリットがある • 他に,線形の遷移モデルを組んでいる研究はあるだろうか?どんな生成/推論モ デルが好ましいだろうか • (論文自体で紹介されている関連研究ではなく,発表者から見た関連研究です)
  • 16. 関連研究 E2C • 「潜在空間上で線形の遷移モデルを学習し,それをLQRに利用する」というコン セプトの初出 • 定式化がDSSMになっていない => 潜在変数がマルコフ性を満たす保証がない [PlaNetで指摘] • 遷移行列のパラメータ𝐴 𝑡は𝐴 𝑡 = ℎ 𝜓 𝑡𝑟𝑎𝑛𝑠 (𝑧𝑡)で求める • ただし遷移行列𝐴 𝑡はパラメータ数が𝑂(𝑛 𝑟𝑜𝑤 𝑛 𝑐𝑜𝑙)でスケールしないので,実用 上は𝐴 𝑡 = (𝑰 + 𝑣 𝑡 𝑟𝑡 𝑇 )と置いて𝑣 𝑡 𝑧𝑡 , 𝑟𝑡(𝑧𝑡)を求める
  • 17. 関連研究 Deep Variational Bayes Filters • Amortized Inferenceで線形の遷移を作る方法の提案 • 遷移を次のように設計: 𝑧𝑡 = 𝐴 𝑡 𝑧𝑡 + 𝐵𝑡 𝑢 𝑡 + 𝑛𝑜𝑖𝑠𝑒 • where 𝐴 𝑡 = 𝑖=1 𝑀 𝛼 𝑡 (𝑖) 𝐴(𝑖) , ただし 𝛼 𝑡 = 𝑓𝜓 𝑧𝑡, 𝑢 𝑡 , • データ非依存の行列𝐴(𝑖)をM個用意しておいて,そのM個の行列に対する重み をデータ点依存でInferenceしている • (おそらく)ナイーブにAmortized Inferenceを行って(𝑞(𝐴 𝑡|𝑜1:𝑇)のように 設計して),データ点ごとに遷移行列を計算するのは難しいから
  • 18. 関連研究 遷移行列へのInferenceまとめ 直感的 数式的 Solar Stochastic Variational Inference 𝑞∗ 𝑭, 𝜮 = 𝑀𝑁𝐼𝑊 𝜓′ , 𝜈′ , 𝑀0 ′ , 𝑉′ 事後分布𝑞 𝑭 𝒕, 𝜮 𝒕|𝑠1:𝑇, 𝑎1:𝑇 も解析 的に求まる E2C[Watter+2015] 𝐴 𝑡 = ℎ 𝜓 𝑡𝑟𝑎𝑛𝑠 (𝑧𝑡)として,パラメー タ𝜓を学習 𝐴 𝑡 = ℎ 𝜓 𝑡𝑟𝑎𝑛𝑠 (𝑧𝑡) DVBF[Karl+2017] Amortized Inference (データ点非 依存なM個の遷移行列と,デー タ点依存の重みの線形和) 𝐴 𝑡 = 𝑖=1 𝑀 𝛼 𝑡 (𝑖) 𝐴(𝑖) , 𝑤ℎ𝑒𝑟𝑒 𝛼 𝑡 = 𝑓𝜓 𝑧𝑡, 𝑢 𝑡 結局どれが良いのかは良くわからないが,なんとなくSolarが使い回しやすそう
  • 19. 実験 • 比較手法 • PPO: モデルフリーのベースライン • LQR-FLM from pixels: 表現学習なし • (当然)全く学習できず • Deep Visual Foresight(DVF): SOTAモデルベースRL • pixel空間でMPCをやらせる. • RCE: E2Cの改善版 • VAE ablation: Inferenceモデルの学習に系列情報を考慮しない • 推論モデルを𝑞(𝑠𝑡|𝑜𝑡)にして,遷移モデルを後から学習している • MPC baseline: 環境のモデルをPlanningに用いる • おそらくPlaNetのようにDSSMの潜在空間をPlanningに使ってる
  • 21. 実験 Sawyer Block Stacking • 初期位置が違う3つのタスク(右上) • 特に難しいタスク3ではMPCベースライ ンより提案手法の方が良い • 長期の予測を行うのが難しいので, 環境モデルをPlanningに使うより policy improvementに使う方が良い?
  • 22. 感想 • DSSMをRLと組み合わせる新しいアプローチの提案として興味深い研究 • 線形の遷移を作る方法はいくつかあるので,そのあたりの検証も欲しい • また線形の遷移を作った時に,非線形の遷移モデルを持つDSSMと比べて尤度が どうなるか等も知りたい • 制御説明できなくてすみません
  • 23. References • D. Hafner, T. Lillicrap, I. Fischer, R. Villegas, D. Ha, H. Lee, and J. Davidson. Learning latent dynamics for planning from pixels. In International Conference on Machine Learning (ICML), 2019. • A. X. Lee, A. Nagabandi, P. Abbeel, S. Levine. Stochastic Latent Actor-Critic: Deep Reinforcement Learning with a Latent Variable Model, arxiv, 2019. • Levine, S. and Abbeel, P. Learning neural network policies with guided policy search under unknown dynamics. In NIPS, 2014. • Johnson, M., Duvenaud, D., Wiltschko, A., Datta, S., and Adams, R. Composing graphical models with neural networks for structured representations and fast inference. In NIPS, 2016. • Watter, M., Springenberg, J., Boedecker, J., and Riedmiller, M. Embed to control: A locally linear latent dynamics model for control from raw images. In NIPS, 2015 • M. Karl, M. Soelch, J. Bayer, and P. van der Smagt. Deep variational bayes filters: Unsuper- vised learning of state space models from raw data. In Proceedings of ICLR, 2017.