SlideShare uma empresa Scribd logo
1 de 17
DEEP LEARNING JP
[DL Papers]
“Is Conditional Generative Modeling All You
Need For Decision-Making?”
Presenter: Manato Yaguchi B4
(Hokkaido University)
http://deeplearning.jp/
目次
1. 書誌情報
2. Introduciton
3. 前提知識
4. 提案手法
5. 実験結果
6. まとめ
2
1. 書誌情報
紹介論文
タイトル: Is Conditional Generative Modeling All You Need For Decision-Making?(arxiv)
ICLR2023(top 5%)
出典: ArXiv (2022. 11)
著者: Anurag Ajay, Yilun Du, Abhi Gupta, Joshua B. Tenenbaum, Tommi S. Jaakkola, Pulkit Agrawal
Improbable AI Lab Operations Research Center Computer Science and Artificial Intelligence Lab Massachusetts Institute of
Technology
プロジェクトページ
概要
- 条件付き拡散モデルにより、強化学習に代わる手法として意思決定問題を行った
- 報酬で条件づけられた拡散モデルとして方策をモデル化することで、強化学習に見られる
複雑さを排除
- 制約やスキル等の他の条件変数も適用でき、かつ複数の制約を同時に組み合わせることが
可能 3
2. Introduction:条件付き生成モデル
4
• Conditional generative modeling
生成モデルを意思決定問題に適用することはできないのか?
• 画像生成:DALL-E • 言語モデル:Minerva
[1] [2]
2. Introduction:オフライン意思決定問題
5
• Offline decision-making
問題設定:報酬を最大化するような行動の軌跡を、最適ではない訓練データを元
に最適化
これまでの主な手法:価値関数等を用いた強化学習
問題点:
- オフポリシー学習や、ブートストラップ法により、価値関数の推定は不安定な
傾向がある
- 価値関数を安定させるため、各タスクに応じた複雑な設計が必要になる
報酬で条件づけられた拡散モデルにより、シンプルかつ高精度
にしたい
[3]
3. 前提知識:DDPM
6
• 𝑋0を入力として、Tステップに分けてガウスノイズを加える(forward
process)
𝑞 𝑋1:𝑇 𝑋0 =
𝑡=1
𝑇
𝑞 𝑋𝑡 𝑋𝑡−1 , 𝑞 𝑋𝑡 𝑋𝑡−1 = 𝑁(𝑋𝑡; 1 − 𝛽𝑡𝑋𝑡−1, 𝛽𝑡𝐼)
• その後、𝑋𝑇から、ノイズを取り除き、元画像を復元するように、モデルを
学習する(reverse process)
𝑝𝜃 𝑋0:𝑇 = 𝑝 𝑋𝑇
𝑇
𝑝𝜃 𝑋𝑡−1 𝑋𝑡 , 𝑝𝜃 𝑋𝑡−1 𝑋𝑡 = 𝑁(𝑋𝑡−1; 𝜇𝜃 𝑋𝑡, 𝑡 , Σ𝜃 𝑋𝑡, 𝑡 )
[4]
3. 前提知識:DDPM
7
• 訓練は、負の対数尤度関数の変分下界を考える
E −𝑙𝑜𝑔𝑝𝜃 𝑋0 ≤ E𝑞 −𝑙𝑜𝑔
𝑝𝜃 𝑋0:𝑇
𝑞 𝑋1:𝑇 𝑋0
= E𝑞 −𝑙𝑜𝑔𝑝 𝑋𝑇 −
𝑡≥1
𝑙𝑜𝑔
𝑝𝜃 𝑋𝑡−1 𝑋𝑡
𝑞 𝑋𝑡 𝑋𝑡−1
= 𝐿
• これは時刻tにおけるノイズを予測することと等価であることが示される
E𝑋0,𝜀[
𝛽𝑡
2
2𝜎𝑡
2
𝛼𝑡 1 − 𝛼𝑡
𝜖 − 𝜖𝜃 𝛼𝑡𝑋0 + 1 − 𝛼𝑡𝜖, 𝑡
2
]
• 上の式の代わりに、以下の式を最小化すると結果が良いことが、実験的に知られている
𝐿simple 𝜃 = E𝑡,𝑋0,𝜖[ 𝜖 − 𝜖𝜃( 𝛼𝑡𝑋0 + 1 − 𝛼𝑡𝜖, 𝑡)
2
]
[4]
3. 前提知識:Guided Diffusion
8
• 条件付き分布𝑞(𝑥|𝑦)をモデル化することで、yに関するデータをサンプリングでき
るようにしたい
• 𝜖𝜃(𝑥𝑘, 𝑘) ∝ ∇𝑥𝑘
log 𝑝(𝑥𝑘)から着想を得て、2通りの条件付けの方法が提案されてい
る
• Classifier-guidance:𝜖𝜃 𝑥𝑘, 𝑘 − 𝜔 1 − 𝛼𝑘∇𝑥𝑘
log 𝑝(𝑦|𝑥𝑘)
– ノイズがのったデータ𝑥𝑘を用いて、分類器𝑝(𝑦|𝑥𝑘)を訓練する必要がある
– 分類モデルの損失勾配で重みづける
• Classifier-free:𝜖𝜃 𝑥𝑘, 𝑘 + 𝜔(𝜖𝜃 𝑥𝑘, 𝑦, 𝑘 − 𝜖𝜃 𝑥𝑘, 𝑘 )
– 拡散モデルの訓練時に、𝑦で条件づけられた 𝜖𝜃 𝑥𝑘, 𝑦, 𝑘 をモデル化する必要が
ある
– 𝜖𝜃 𝑥𝑘, 𝑘 は、 𝜖𝜃 𝑥𝑘, ∅, 𝑘 とみなす
[5]
4. 提案手法:全体像
9
• 目標:max
𝜃
E𝜏~𝐷[log 𝑝𝜃(𝑥0(𝜏)|𝑦(𝜏))]
• Hタイムステップ分の状態の組 𝑥𝑘 𝜏 = (𝑠𝑡, 𝑠𝑡+1, … , 𝑠𝑡+𝐻−1)𝑘 を考える
• 𝑞(𝑥𝑘+1(𝜏)|𝑥𝑘(𝜏)), 𝑝𝜃(𝑥𝑘−1(𝜏)|𝑥𝑘 𝜏 , 𝑦(𝜏))として、拡散モデルを構築
• 二つの連続した時間における状態𝑠𝑡, 𝑠𝑡+1をもとに、行動𝑎𝑡を推論する
- 𝑎𝑡 = 𝑓𝜙(𝑠𝑡, 𝑠𝑡+1), 𝑓𝜙は訓練データから学習する関数
4. 提案手法:classifier-free guidanceによるプランニン
グ
10
• 𝑥𝑘 𝜏 = (𝑠𝑡, 𝑠𝑡+1, … , 𝑠𝑡+𝐻−1)𝑘により、拡散モデルを構築
• 拡散モデルをプランニングに用いるには、報酬や制約𝑦(𝜏)で条件付ける必要性
1. 分類器 𝑝𝜙(𝑦(𝜏)|𝑥𝑘(𝜏)) を訓練し、ノイズがのった軌跡𝑥𝑘(𝜏)から𝑦(𝜏)を予測する手法
– 𝑦(𝜏)として報酬を与える場合、一般にQ関数を予測する必要があり、RL的手法と同様の問題
2. Classifier-freeによる条件付け
𝜖 = 𝜖𝜃 𝑥𝑘 𝜏 , ∅, 𝑘 + 𝜔(𝜖𝜃 𝑥𝑘 𝜏 , 𝑦 𝜏 , 𝑘 − 𝜖𝜃(𝑥𝑘 𝜏 , ∅, 𝑘))
- ガウスノイズ𝑥𝐾(𝜏)から始まり、上の式に従って𝑥𝑘, 𝑥𝑘−1へとデノイズしていく
4. 提案手法:報酬以外の条件付け
11
• 𝑦(𝜏)による条件付けについて、報酬、制約、行動の3つによる条件付けが考えられ
る
1. 報酬 (return): 𝜖𝜃 𝑥𝑘 𝜏 , 𝑦 𝜏 , 𝑘 = 𝜖𝜃 𝑥𝑘 𝜏 , 𝑅 𝜏 , 𝑘
- 報酬は𝑅 𝜏 ∈ [0,1]で規格化, 高い報酬を得たい場合は、 𝑅 𝜏 =1とする
2. 制約 (constraint): 𝜖𝜃 𝑥𝑘 𝜏 , 𝑦 𝜏 , 𝑘 = 𝜖𝜃 𝑥𝑘 𝜏 , 1(𝜏 ∈ 𝐶𝑖), 𝑘
- 制約の集合𝐶𝑖を満たすように条件付ける
- 制約について、one-hot encodingを行う
- 訓練データは一つの制約で条件付けられているが、推論時は複数の制約で条件
付け可能
3. 行動 (skill): 𝜖𝜃 𝑥𝑘 𝜏 , 𝑦 𝜏 , 𝑘 = 𝜖𝜃 𝑥𝑘 𝜏 , 1(𝜏 ∈ 𝐵𝑖), 𝑘
4. 提案手法:モデルの訓練
12
𝐿 𝜃, 𝜙 = E𝑘,𝜏∈𝐷,𝛽~𝐵𝑒𝑟𝑛(𝑝) 𝜖 − 𝜖𝜃 𝑥𝑘 𝜏 , 1 − 𝛽 𝑦 𝜏 + 𝛽∅, 𝑘 2 + E(𝑠,𝑎,𝑠′)∈𝐷[ 𝑎 − 𝑓𝜙(𝑠, 𝑠′)
2
]
で損失関数を定義.
• 第一項について:各軌跡𝜏について、𝜖~𝑁(0, 𝐼)と𝑘~𝒰{1, … , K}をサンプリングし、 𝑥𝑘 𝜏 を構築し
た後、 𝑥𝑘 𝜏 にのっているノイズを予測するように𝜖𝜃を学習する
• 第二項について:訓練データセット中の、任意の連続する2つの状態遷移(𝑠, 𝑠′)を元に、行動aを予
測する関数𝑓𝜙を学習する
5. 実験
13
• D4RLデータセットを用いて、既存のオフライン強化学習による手法と比較
• 報酬を最大化するような軌跡を出力することができるという点において、既存手
法を大きく上回る
5. 実験
14
• BlockHeight(赤)>BlockHeight(青)のような制約を与え、どの程度制約を満たす軌跡を出力
できるか実験した
• 下の段は、BlockHeight(赤)>BlockHeight(青)>BlockHeight(紫)のような複数の制約
– 訓練データには一つの制約によりラベル付けされたデータしか存在しないことに注意
• 実験1で用いたCQL等は、そもそもブロックを積むことにし失敗し、ほぼ0%
5. 実験
15
• 四足歩行のロボットが、複数の歩き方に関するスキルを獲得する様子を実験
• 左図は横軸がtimestepで、縦軸が歩き方に関する確率
• 各タイムステップごとに、どのような歩き方をしているかに関する確率を出力す
る分類器を別に訓練
6. 考察・所感
16
• まとめ
- 連続的な意思決定問題を、強化学習手法に代わり、条件付き生成モデルの枠組
みで解いた
- 従来の強化学習手法を上回る結果を出した
- 訓練データに見られる一つずつの制約や行動を、テスト時に柔軟に組み合わせ、
複数の制約や行動に対応することができた
• 今後の展望
- 連続的な状態のエントロピーを活用することで、オンラインファインチューニ
ングを行う
- 報酬ではなく先の状態で条件付けたモデルを考えることで、予測の難しいより
確率的な環境に対応できるようにする
引用
17
[1] Aditya Ramesh, Prafulla Dhariwal, Alex Nichol, Casey Chu, and Mark Chen.
Hierarchical textconditional image generation with clip latents. arXiv preprint
arXiv:2204.06125, 2022.
[2] Aitor Lewkowycz, Anders Andreassen, David Dohan, Ethan Dyer, Henryk
Michalewski, Vinay Ramasesh, Ambrose Slone, Cem Anil, Imanol Schlag, Theo
Gutman-Solo, et al. Solving quantitative reasoning problems with language models.
arXiv preprint arXiv:2206.14858, 2022.
[3] Justin Fu, Aviral Kumar, Ofir Nachum, George Tucker, and Sergey Levine. D4RL:
Datasets for deep data-driven reinforcement learning. arXiv preprint
arXiv:2004.07219, 2020.
[4] Jonathan Ho, Ajay Jain, and Pieter Abbeel. Denoising diffusion probabilistic
models. In Advances in Neural Information Processing Systems, 2020.
[5] [DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and …
(slideshare.net)

Mais conteúdo relacionado

Mais procurados

Mais procurados (20)

[DL輪読会]World Models
[DL輪読会]World Models[DL輪読会]World Models
[DL輪読会]World Models
 
【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
 
実装レベルで学ぶVQVAE
実装レベルで学ぶVQVAE実装レベルで学ぶVQVAE
実装レベルで学ぶVQVAE
 
自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)
 
画像生成・生成モデル メタサーベイ
画像生成・生成モデル メタサーベイ画像生成・生成モデル メタサーベイ
画像生成・生成モデル メタサーベイ
 
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks? 【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
 
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
 
【DL輪読会】Flow Matching for Generative Modeling
【DL輪読会】Flow Matching for Generative Modeling【DL輪読会】Flow Matching for Generative Modeling
【DL輪読会】Flow Matching for Generative Modeling
 
【DL輪読会】Foundation Models for Decision Making: Problems, Methods, and Opportun...
【DL輪読会】Foundation Models for Decision Making: Problems, Methods, and Opportun...【DL輪読会】Foundation Models for Decision Making: Problems, Methods, and Opportun...
【DL輪読会】Foundation Models for Decision Making: Problems, Methods, and Opportun...
 
【DL輪読会】"A Generalist Agent"
【DL輪読会】"A Generalist Agent"【DL輪読会】"A Generalist Agent"
【DL輪読会】"A Generalist Agent"
 
Transformer メタサーベイ
Transformer メタサーベイTransformer メタサーベイ
Transformer メタサーベイ
 
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
 
【DL輪読会】Patches Are All You Need? (ConvMixer)
【DL輪読会】Patches Are All You Need? (ConvMixer)【DL輪読会】Patches Are All You Need? (ConvMixer)
【DL輪読会】Patches Are All You Need? (ConvMixer)
 
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
 
【DL輪読会】Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Mo...
【DL輪読会】Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Mo...【DL輪読会】Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Mo...
【DL輪読会】Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Mo...
 
【メタサーベイ】Video Transformer
 【メタサーベイ】Video Transformer 【メタサーベイ】Video Transformer
【メタサーベイ】Video Transformer
 
【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...
【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...
【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...
 
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
 
機械学習モデルの判断根拠の説明(Ver.2)
機械学習モデルの判断根拠の説明(Ver.2)機械学習モデルの判断根拠の説明(Ver.2)
機械学習モデルの判断根拠の説明(Ver.2)
 
モデルアーキテクチャ観点からのDeep Neural Network高速化
モデルアーキテクチャ観点からのDeep Neural Network高速化モデルアーキテクチャ観点からのDeep Neural Network高速化
モデルアーキテクチャ観点からのDeep Neural Network高速化
 

Semelhante a 【DL輪読会】Is Conditional Generative Modeling All You Need For Decision-Making?

NIPS KANSAI Reading Group #7: Temporal Difference Models: Model-Free Deep RL ...
NIPS KANSAI Reading Group #7: Temporal Difference Models: Model-Free Deep RL ...NIPS KANSAI Reading Group #7: Temporal Difference Models: Model-Free Deep RL ...
NIPS KANSAI Reading Group #7: Temporal Difference Models: Model-Free Deep RL ...
Eiji Uchibe
 

Semelhante a 【DL輪読会】Is Conditional Generative Modeling All You Need For Decision-Making? (15)

Computational Motor Control: Reinforcement Learning (JAIST summer course)
Computational Motor Control: Reinforcement Learning (JAIST summer course) Computational Motor Control: Reinforcement Learning (JAIST summer course)
Computational Motor Control: Reinforcement Learning (JAIST summer course)
 
1017 論文紹介第四回
1017 論文紹介第四回1017 論文紹介第四回
1017 論文紹介第四回
 
0728 論文紹介第三回
0728 論文紹介第三回0728 論文紹介第三回
0728 論文紹介第三回
 
Connecting embedding for knowledge graph entity typing
Connecting embedding for knowledge graph entity typingConnecting embedding for knowledge graph entity typing
Connecting embedding for knowledge graph entity typing
 
Rainbow: Combining Improvements in Deep Reinforcement Learning (AAAI2018 unde...
Rainbow: Combining Improvements in Deep Reinforcement Learning (AAAI2018 unde...Rainbow: Combining Improvements in Deep Reinforcement Learning (AAAI2018 unde...
Rainbow: Combining Improvements in Deep Reinforcement Learning (AAAI2018 unde...
 
[DL輪読会]STORM: An Integrated Framework for Fast Joint-Space Model-Predictive C...
[DL輪読会]STORM: An Integrated Framework for Fast Joint-Space Model-Predictive C...[DL輪読会]STORM: An Integrated Framework for Fast Joint-Space Model-Predictive C...
[DL輪読会]STORM: An Integrated Framework for Fast Joint-Space Model-Predictive C...
 
Evolved policy gradients
Evolved policy gradientsEvolved policy gradients
Evolved policy gradients
 
LCCC2010:Learning on Cores, Clusters and Cloudsの解説
LCCC2010:Learning on Cores,  Clusters and Cloudsの解説LCCC2010:Learning on Cores,  Clusters and Cloudsの解説
LCCC2010:Learning on Cores, Clusters and Cloudsの解説
 
Deeplearning lt.pdf
Deeplearning lt.pdfDeeplearning lt.pdf
Deeplearning lt.pdf
 
NIPS KANSAI Reading Group #7: Temporal Difference Models: Model-Free Deep RL ...
NIPS KANSAI Reading Group #7: Temporal Difference Models: Model-Free Deep RL ...NIPS KANSAI Reading Group #7: Temporal Difference Models: Model-Free Deep RL ...
NIPS KANSAI Reading Group #7: Temporal Difference Models: Model-Free Deep RL ...
 
Introduction of featuretweakR package
Introduction of featuretweakR packageIntroduction of featuretweakR package
Introduction of featuretweakR package
 
東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太
東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太
東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太
 
強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習
 
[DL輪読会]Learning to Act by Predicting the Future
[DL輪読会]Learning to Act by Predicting the Future[DL輪読会]Learning to Act by Predicting the Future
[DL輪読会]Learning to Act by Predicting the Future
 
NIPS KANSAI Reading Group #7: 逆強化学習の行動解析への応用
NIPS KANSAI Reading Group #7: 逆強化学習の行動解析への応用NIPS KANSAI Reading Group #7: 逆強化学習の行動解析への応用
NIPS KANSAI Reading Group #7: 逆強化学習の行動解析への応用
 

Mais de Deep Learning JP

Mais de Deep Learning JP (20)

【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
 
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて
 
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
 
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
 
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
 
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM
 
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo... 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
 
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
 

Último

Último (10)

LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
 
Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsUtilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native Integrations
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
 
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
 

【DL輪読会】Is Conditional Generative Modeling All You Need For Decision-Making?

  • 1. DEEP LEARNING JP [DL Papers] “Is Conditional Generative Modeling All You Need For Decision-Making?” Presenter: Manato Yaguchi B4 (Hokkaido University) http://deeplearning.jp/
  • 2. 目次 1. 書誌情報 2. Introduciton 3. 前提知識 4. 提案手法 5. 実験結果 6. まとめ 2
  • 3. 1. 書誌情報 紹介論文 タイトル: Is Conditional Generative Modeling All You Need For Decision-Making?(arxiv) ICLR2023(top 5%) 出典: ArXiv (2022. 11) 著者: Anurag Ajay, Yilun Du, Abhi Gupta, Joshua B. Tenenbaum, Tommi S. Jaakkola, Pulkit Agrawal Improbable AI Lab Operations Research Center Computer Science and Artificial Intelligence Lab Massachusetts Institute of Technology プロジェクトページ 概要 - 条件付き拡散モデルにより、強化学習に代わる手法として意思決定問題を行った - 報酬で条件づけられた拡散モデルとして方策をモデル化することで、強化学習に見られる 複雑さを排除 - 制約やスキル等の他の条件変数も適用でき、かつ複数の制約を同時に組み合わせることが 可能 3
  • 4. 2. Introduction:条件付き生成モデル 4 • Conditional generative modeling 生成モデルを意思決定問題に適用することはできないのか? • 画像生成:DALL-E • 言語モデル:Minerva [1] [2]
  • 5. 2. Introduction:オフライン意思決定問題 5 • Offline decision-making 問題設定:報酬を最大化するような行動の軌跡を、最適ではない訓練データを元 に最適化 これまでの主な手法:価値関数等を用いた強化学習 問題点: - オフポリシー学習や、ブートストラップ法により、価値関数の推定は不安定な 傾向がある - 価値関数を安定させるため、各タスクに応じた複雑な設計が必要になる 報酬で条件づけられた拡散モデルにより、シンプルかつ高精度 にしたい [3]
  • 6. 3. 前提知識:DDPM 6 • 𝑋0を入力として、Tステップに分けてガウスノイズを加える(forward process) 𝑞 𝑋1:𝑇 𝑋0 = 𝑡=1 𝑇 𝑞 𝑋𝑡 𝑋𝑡−1 , 𝑞 𝑋𝑡 𝑋𝑡−1 = 𝑁(𝑋𝑡; 1 − 𝛽𝑡𝑋𝑡−1, 𝛽𝑡𝐼) • その後、𝑋𝑇から、ノイズを取り除き、元画像を復元するように、モデルを 学習する(reverse process) 𝑝𝜃 𝑋0:𝑇 = 𝑝 𝑋𝑇 𝑇 𝑝𝜃 𝑋𝑡−1 𝑋𝑡 , 𝑝𝜃 𝑋𝑡−1 𝑋𝑡 = 𝑁(𝑋𝑡−1; 𝜇𝜃 𝑋𝑡, 𝑡 , Σ𝜃 𝑋𝑡, 𝑡 ) [4]
  • 7. 3. 前提知識:DDPM 7 • 訓練は、負の対数尤度関数の変分下界を考える E −𝑙𝑜𝑔𝑝𝜃 𝑋0 ≤ E𝑞 −𝑙𝑜𝑔 𝑝𝜃 𝑋0:𝑇 𝑞 𝑋1:𝑇 𝑋0 = E𝑞 −𝑙𝑜𝑔𝑝 𝑋𝑇 − 𝑡≥1 𝑙𝑜𝑔 𝑝𝜃 𝑋𝑡−1 𝑋𝑡 𝑞 𝑋𝑡 𝑋𝑡−1 = 𝐿 • これは時刻tにおけるノイズを予測することと等価であることが示される E𝑋0,𝜀[ 𝛽𝑡 2 2𝜎𝑡 2 𝛼𝑡 1 − 𝛼𝑡 𝜖 − 𝜖𝜃 𝛼𝑡𝑋0 + 1 − 𝛼𝑡𝜖, 𝑡 2 ] • 上の式の代わりに、以下の式を最小化すると結果が良いことが、実験的に知られている 𝐿simple 𝜃 = E𝑡,𝑋0,𝜖[ 𝜖 − 𝜖𝜃( 𝛼𝑡𝑋0 + 1 − 𝛼𝑡𝜖, 𝑡) 2 ] [4]
  • 8. 3. 前提知識:Guided Diffusion 8 • 条件付き分布𝑞(𝑥|𝑦)をモデル化することで、yに関するデータをサンプリングでき るようにしたい • 𝜖𝜃(𝑥𝑘, 𝑘) ∝ ∇𝑥𝑘 log 𝑝(𝑥𝑘)から着想を得て、2通りの条件付けの方法が提案されてい る • Classifier-guidance:𝜖𝜃 𝑥𝑘, 𝑘 − 𝜔 1 − 𝛼𝑘∇𝑥𝑘 log 𝑝(𝑦|𝑥𝑘) – ノイズがのったデータ𝑥𝑘を用いて、分類器𝑝(𝑦|𝑥𝑘)を訓練する必要がある – 分類モデルの損失勾配で重みづける • Classifier-free:𝜖𝜃 𝑥𝑘, 𝑘 + 𝜔(𝜖𝜃 𝑥𝑘, 𝑦, 𝑘 − 𝜖𝜃 𝑥𝑘, 𝑘 ) – 拡散モデルの訓練時に、𝑦で条件づけられた 𝜖𝜃 𝑥𝑘, 𝑦, 𝑘 をモデル化する必要が ある – 𝜖𝜃 𝑥𝑘, 𝑘 は、 𝜖𝜃 𝑥𝑘, ∅, 𝑘 とみなす [5]
  • 9. 4. 提案手法:全体像 9 • 目標:max 𝜃 E𝜏~𝐷[log 𝑝𝜃(𝑥0(𝜏)|𝑦(𝜏))] • Hタイムステップ分の状態の組 𝑥𝑘 𝜏 = (𝑠𝑡, 𝑠𝑡+1, … , 𝑠𝑡+𝐻−1)𝑘 を考える • 𝑞(𝑥𝑘+1(𝜏)|𝑥𝑘(𝜏)), 𝑝𝜃(𝑥𝑘−1(𝜏)|𝑥𝑘 𝜏 , 𝑦(𝜏))として、拡散モデルを構築 • 二つの連続した時間における状態𝑠𝑡, 𝑠𝑡+1をもとに、行動𝑎𝑡を推論する - 𝑎𝑡 = 𝑓𝜙(𝑠𝑡, 𝑠𝑡+1), 𝑓𝜙は訓練データから学習する関数
  • 10. 4. 提案手法:classifier-free guidanceによるプランニン グ 10 • 𝑥𝑘 𝜏 = (𝑠𝑡, 𝑠𝑡+1, … , 𝑠𝑡+𝐻−1)𝑘により、拡散モデルを構築 • 拡散モデルをプランニングに用いるには、報酬や制約𝑦(𝜏)で条件付ける必要性 1. 分類器 𝑝𝜙(𝑦(𝜏)|𝑥𝑘(𝜏)) を訓練し、ノイズがのった軌跡𝑥𝑘(𝜏)から𝑦(𝜏)を予測する手法 – 𝑦(𝜏)として報酬を与える場合、一般にQ関数を予測する必要があり、RL的手法と同様の問題 2. Classifier-freeによる条件付け 𝜖 = 𝜖𝜃 𝑥𝑘 𝜏 , ∅, 𝑘 + 𝜔(𝜖𝜃 𝑥𝑘 𝜏 , 𝑦 𝜏 , 𝑘 − 𝜖𝜃(𝑥𝑘 𝜏 , ∅, 𝑘)) - ガウスノイズ𝑥𝐾(𝜏)から始まり、上の式に従って𝑥𝑘, 𝑥𝑘−1へとデノイズしていく
  • 11. 4. 提案手法:報酬以外の条件付け 11 • 𝑦(𝜏)による条件付けについて、報酬、制約、行動の3つによる条件付けが考えられ る 1. 報酬 (return): 𝜖𝜃 𝑥𝑘 𝜏 , 𝑦 𝜏 , 𝑘 = 𝜖𝜃 𝑥𝑘 𝜏 , 𝑅 𝜏 , 𝑘 - 報酬は𝑅 𝜏 ∈ [0,1]で規格化, 高い報酬を得たい場合は、 𝑅 𝜏 =1とする 2. 制約 (constraint): 𝜖𝜃 𝑥𝑘 𝜏 , 𝑦 𝜏 , 𝑘 = 𝜖𝜃 𝑥𝑘 𝜏 , 1(𝜏 ∈ 𝐶𝑖), 𝑘 - 制約の集合𝐶𝑖を満たすように条件付ける - 制約について、one-hot encodingを行う - 訓練データは一つの制約で条件付けられているが、推論時は複数の制約で条件 付け可能 3. 行動 (skill): 𝜖𝜃 𝑥𝑘 𝜏 , 𝑦 𝜏 , 𝑘 = 𝜖𝜃 𝑥𝑘 𝜏 , 1(𝜏 ∈ 𝐵𝑖), 𝑘
  • 12. 4. 提案手法:モデルの訓練 12 𝐿 𝜃, 𝜙 = E𝑘,𝜏∈𝐷,𝛽~𝐵𝑒𝑟𝑛(𝑝) 𝜖 − 𝜖𝜃 𝑥𝑘 𝜏 , 1 − 𝛽 𝑦 𝜏 + 𝛽∅, 𝑘 2 + E(𝑠,𝑎,𝑠′)∈𝐷[ 𝑎 − 𝑓𝜙(𝑠, 𝑠′) 2 ] で損失関数を定義. • 第一項について:各軌跡𝜏について、𝜖~𝑁(0, 𝐼)と𝑘~𝒰{1, … , K}をサンプリングし、 𝑥𝑘 𝜏 を構築し た後、 𝑥𝑘 𝜏 にのっているノイズを予測するように𝜖𝜃を学習する • 第二項について:訓練データセット中の、任意の連続する2つの状態遷移(𝑠, 𝑠′)を元に、行動aを予 測する関数𝑓𝜙を学習する
  • 13. 5. 実験 13 • D4RLデータセットを用いて、既存のオフライン強化学習による手法と比較 • 報酬を最大化するような軌跡を出力することができるという点において、既存手 法を大きく上回る
  • 14. 5. 実験 14 • BlockHeight(赤)>BlockHeight(青)のような制約を与え、どの程度制約を満たす軌跡を出力 できるか実験した • 下の段は、BlockHeight(赤)>BlockHeight(青)>BlockHeight(紫)のような複数の制約 – 訓練データには一つの制約によりラベル付けされたデータしか存在しないことに注意 • 実験1で用いたCQL等は、そもそもブロックを積むことにし失敗し、ほぼ0%
  • 15. 5. 実験 15 • 四足歩行のロボットが、複数の歩き方に関するスキルを獲得する様子を実験 • 左図は横軸がtimestepで、縦軸が歩き方に関する確率 • 各タイムステップごとに、どのような歩き方をしているかに関する確率を出力す る分類器を別に訓練
  • 16. 6. 考察・所感 16 • まとめ - 連続的な意思決定問題を、強化学習手法に代わり、条件付き生成モデルの枠組 みで解いた - 従来の強化学習手法を上回る結果を出した - 訓練データに見られる一つずつの制約や行動を、テスト時に柔軟に組み合わせ、 複数の制約や行動に対応することができた • 今後の展望 - 連続的な状態のエントロピーを活用することで、オンラインファインチューニ ングを行う - 報酬ではなく先の状態で条件付けたモデルを考えることで、予測の難しいより 確率的な環境に対応できるようにする
  • 17. 引用 17 [1] Aditya Ramesh, Prafulla Dhariwal, Alex Nichol, Casey Chu, and Mark Chen. Hierarchical textconditional image generation with clip latents. arXiv preprint arXiv:2204.06125, 2022. [2] Aitor Lewkowycz, Anders Andreassen, David Dohan, Ethan Dyer, Henryk Michalewski, Vinay Ramasesh, Ambrose Slone, Cem Anil, Imanol Schlag, Theo Gutman-Solo, et al. Solving quantitative reasoning problems with language models. arXiv preprint arXiv:2206.14858, 2022. [3] Justin Fu, Aviral Kumar, Ofir Nachum, George Tucker, and Sergey Levine. D4RL: Datasets for deep data-driven reinforcement learning. arXiv preprint arXiv:2004.07219, 2020. [4] Jonathan Ho, Ajay Jain, and Pieter Abbeel. Denoising diffusion probabilistic models. In Advances in Neural Information Processing Systems, 2020. [5] [DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and … (slideshare.net)

Notas do Editor

  1. 出典図: 2006.11239.pdf (arxiv.org)
  2. a_t = 1 – b_t A_t’ = a_1*a_2*…*a_t
  3. 状態sを観測し、yで条件付けられたdiffusion modelと過去Cstepの観測情報を元に推測