[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling

Deep Learning JP
Deep Learning JPDeep Learning JP
DEEP LEARNING JP
[DL Papers] Decision Transformer :
Reinforcement Learning via sequence modeling
XIN ZHANG, Matsuo Lab
http://deeplearning.jp/
書誌情報
● タイトル:
○ Decision Transformer:Reinforcement Learning via sequence modeling
● 著者
○ Lili Chen*, Kevin Lu*, Aravind Rajeswaran, Kimin Lee, Aditya Grover, Michael Laskin, Pieter Abbeel,
Aravind Srinivas*, Igor Mordatch
● 研究機関:UC Berkeley, Facebook AI Research, Google Brain
● 12 Jun 2021
● 概要
○ Transformerを用いて、RLを系列モデリングの手法として扱う手法を提案
○ Model-free offline RLのベースラインのSOTAと同等な精度.
2
1. Introduction
Transformer
● 強力なTransformerをRLで使えないか?
● Self-Attentionが長い系列のRLを扱いやすそう
Offline RL
● 誤差の累積と価値関数のオーバー予測が課題
● Transformerを用いるには自然な設定
From CS 285
3. Method
1 timestep
Decision Transformer(DT)
● GPTアーキテクチャ
○ 次のActionを予測する
○ 離散値:cross-entropy
○ 連続値:mean-squared
● returns-to-go:
○ ある時点のActionは、それ以降の
Rewardのみに影響を与える
○ Actionを予測するのに必要
● Feed K timesteps (3K tokens)
DT Algorithm
Illustrative example
❏ 状態Stateと期待されているRewardについて、学習データに似たようなものが
あれば、そのActionを出力する
4. Evaluations on Offline RL Benchmarks
❏ CQLと良い勝負。ただQbertが弱い。
❏ K=30 (except K=50 for Pong)
4.1 Atari(Breakout, Qbert, Pong, Seaquest)
Qbert
4.2 OpenAI Gym(HalfCheetah, Hopper, Walker, Reacher)
❏ OpenAI gymは大体勝ってる
❏ K=20 (except K=20 for Reacher)
5. Discussion
5.1 Does DT perform BC on a subset of the data?
❏ Percentile BC:最適のデータを使う(最適がわからないので、非現実)
❏ BCとの違いを示そうとしている。
5.2 How well does DT model the distribution of returns?
❏ Rewardでとるべき行動の指定ができる。”最適な行動”だけではない。
❏ 一方で、適切なRewardの入力が求められる。わからない場合は困る。
5.3 What is the benefit of using a longer context length?
❏ When K = 1, such as RL, DT performs poorly.
❏ Kの設定が重要、タスクによって変わってるのでハイパーパラメータになる
5.4 Does DT perform effective long-term credit assignment?
❏ Key-to-Doorの設定では、DTが重要なものを捉えられている。
❏ データが増えるとBCでもできる。
Key-to-Doorの例(論文の図がない!)
- Key room(左)でKeyを取得する
- empty room(中)
- door room(右)でDoor(青)を開ける
5.5 Can DT be accurate critics in sparse reward settings?
❏ DTのAttentionはうまく機能している。
❏ (DTが得意そうな実験をデザインしている気がするが)
5.6 Does DT perform well in sparse reward settings?
❏ Delayed reward:最後にまとめてRewardを受けとる設定
❏ Decision Transformerへのダメージが最も小さい
6. Related Work
6.1 Offline and supervised reinforcement learning
I. Distribution shift in offline RL.
A. Constrain the policy action space.
B. Incorporate value pessimism
C. Incorporate pessimism into learned dynamics models.
II. Learning wide behavior distibution
A. Learning a task-agnostic set of skill, eigher with likelihood-based approaches.
B. maximizing mutual information
III. Return conditioning/’supervised RL’
A. similar to DT. DT benefit from the use of long contexts for behavior modeling as long-term
credit assignment.
❏ Offline RLの分布シフト問題に取り組む研究がたくさんある!
❏ 強化学習をSupervised Learningとして扱う研究
6.2 Credit assignment(貢献度の分配)
❏ 報酬を最も重要なStepで与える必要があり、その分配を求める研究
❏ 実験通じて、Transformerが良さそうことが分かった
1. Self-Attentional Credit Assignment for Transfer in Reinforcement
Learning
2. Hindsight Credit Assignment
3. Counterfactual credit assignment in model-free reinforcement
learning
6.3 Conditional language generation
6.4 Attention and transformer models
❏ 条件付き言語生成、TransformerとAttentionなどの関連研究がたくさんある
7. Conclusion
Offline RL, Sequence modeling, goal condition by reward.
❏ アイデアが面白くて、関連研究がいっぱいでる予想
❏ 適切な報酬が知らないと困るので、解決できそうなアイデアを考えたい
Future work
- Stochastic Decision Transformer
- conditioning on return distributions to model stochastic settings instead of deterministic returns
- Model-based Decision Transformer.
- Transformer models can also be used to model the state evolution of trajectory
- For Real-world application
- Augmenting RL.
Decision Transformer
- Offline RL設定でGPT アーキテクチャを用いた。
- 適切なRewardを設定して、それを得られるActionを出力する。
- Model freeの手法(CQL)と比較し、うまくいってる。
Appendix
- Youtuber Yannic の解説
1 de 25

Recomendados

強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演) por
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)Shota Imai
2.3K visualizações35 slides
近年のHierarchical Vision Transformer por
近年のHierarchical Vision Transformer近年のHierarchical Vision Transformer
近年のHierarchical Vision TransformerYusuke Uchida
13.9K visualizações46 slides
強化学習 DQNからPPOまで por
強化学習 DQNからPPOまで強化学習 DQNからPPOまで
強化学習 DQNからPPOまでharmonylab
9.6K visualizações45 slides
Curriculum Learning (関東CV勉強会) por
Curriculum Learning (関東CV勉強会)Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)Yoshitaka Ushiku
64K visualizações43 slides
[DL輪読会] マルチエージェント強化学習と心の理論 por
[DL輪読会] マルチエージェント強化学習と心の理論[DL輪読会] マルチエージェント強化学習と心の理論
[DL輪読会] マルチエージェント強化学習と心の理論Deep Learning JP
4.1K visualizações42 slides
[DL輪読会]Learning Latent Dynamics for Planning from Pixels por
[DL輪読会]Learning Latent Dynamics for Planning from Pixels[DL輪読会]Learning Latent Dynamics for Planning from Pixels
[DL輪読会]Learning Latent Dynamics for Planning from PixelsDeep Learning JP
3.9K visualizações25 slides

Mais conteúdo relacionado

Mais procurados

[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination por
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
[DL輪読会]Dream to Control: Learning Behaviors by Latent ImaginationDeep Learning JP
2.4K visualizações20 slides
Transformerを多層にする際の勾配消失問題と解決法について por
Transformerを多層にする際の勾配消失問題と解決法についてTransformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法についてSho Takase
4.8K visualizações16 slides
多様な強化学習の概念と課題認識 por
多様な強化学習の概念と課題認識多様な強化学習の概念と課題認識
多様な強化学習の概念と課題認識佑 甲野
58K visualizações38 slides
強化学習と逆強化学習を組み合わせた模倣学習 por
強化学習と逆強化学習を組み合わせた模倣学習強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習Eiji Uchibe
25.3K visualizações48 slides
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing por
[DL輪読会]GLIDE: Guided Language to Image Diffusion  for Generation and Editing[DL輪読会]GLIDE: Guided Language to Image Diffusion  for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and EditingDeep Learning JP
3K visualizações21 slides
【DL輪読会】論文解説:Offline Reinforcement Learning as One Big Sequence Modeling Problem por
【DL輪読会】論文解説:Offline Reinforcement Learning as One Big Sequence Modeling Problem【DL輪読会】論文解説:Offline Reinforcement Learning as One Big Sequence Modeling Problem
【DL輪読会】論文解説:Offline Reinforcement Learning as One Big Sequence Modeling ProblemDeep Learning JP
1.2K visualizações14 slides

Mais procurados(20)

[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination por Deep Learning JP
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
Deep Learning JP2.4K visualizações
Transformerを多層にする際の勾配消失問題と解決法について por Sho Takase
Transformerを多層にする際の勾配消失問題と解決法についてTransformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法について
Sho Takase4.8K visualizações
多様な強化学習の概念と課題認識 por 佑 甲野
多様な強化学習の概念と課題認識多様な強化学習の概念と課題認識
多様な強化学習の概念と課題認識
佑 甲野58K visualizações
強化学習と逆強化学習を組み合わせた模倣学習 por Eiji Uchibe
強化学習と逆強化学習を組み合わせた模倣学習強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習
Eiji Uchibe25.3K visualizações
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing por Deep Learning JP
[DL輪読会]GLIDE: Guided Language to Image Diffusion  for Generation and Editing[DL輪読会]GLIDE: Guided Language to Image Diffusion  for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
Deep Learning JP3K visualizações
【DL輪読会】論文解説:Offline Reinforcement Learning as One Big Sequence Modeling Problem por Deep Learning JP
【DL輪読会】論文解説:Offline Reinforcement Learning as One Big Sequence Modeling Problem【DL輪読会】論文解説:Offline Reinforcement Learning as One Big Sequence Modeling Problem
【DL輪読会】論文解説:Offline Reinforcement Learning as One Big Sequence Modeling Problem
Deep Learning JP1.2K visualizações
【DL輪読会】Scaling Laws for Neural Language Models por Deep Learning JP
【DL輪読会】Scaling Laws for Neural Language Models【DL輪読会】Scaling Laws for Neural Language Models
【DL輪読会】Scaling Laws for Neural Language Models
Deep Learning JP3.5K visualizações
強化学習における好奇心 por Shota Imai
強化学習における好奇心強化学習における好奇心
強化学習における好奇心
Shota Imai3.3K visualizações
[DL輪読会]Flow-based Deep Generative Models por Deep Learning JP
[DL輪読会]Flow-based Deep Generative Models[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative Models
Deep Learning JP14.6K visualizações
[DL輪読会]Wav2CLIP: Learning Robust Audio Representations From CLIP por Deep Learning JP
[DL輪読会]Wav2CLIP: Learning Robust Audio Representations From CLIP[DL輪読会]Wav2CLIP: Learning Robust Audio Representations From CLIP
[DL輪読会]Wav2CLIP: Learning Robust Audio Representations From CLIP
Deep Learning JP853 visualizações
Deeplearning輪読会 por 正志 坪坂
Deeplearning輪読会Deeplearning輪読会
Deeplearning輪読会
正志 坪坂9.3K visualizações
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展 por Deep Learning JP
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
Deep Learning JP3.1K visualizações
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning por Preferred Networks
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learningゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
Preferred Networks117.4K visualizações
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces por Deep Learning JP
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
Deep Learning JP4.8K visualizações
全力解説!Transformer por Arithmer Inc.
全力解説!Transformer全力解説!Transformer
全力解説!Transformer
Arithmer Inc.9.6K visualizações
Skip Connection まとめ(Neural Network) por Yamato OKAMOTO
Skip Connection まとめ(Neural Network)Skip Connection まとめ(Neural Network)
Skip Connection まとめ(Neural Network)
Yamato OKAMOTO17K visualizações
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜 por SSII
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
SSII3.7K visualizações
backbone としての timm 入門 por Takuji Tahara
backbone としての timm 入門backbone としての timm 入門
backbone としての timm 入門
Takuji Tahara7.4K visualizações
最近のディープラーニングのトレンド紹介_20200925 por 小川 雄太郎
最近のディープラーニングのトレンド紹介_20200925最近のディープラーニングのトレンド紹介_20200925
最近のディープラーニングのトレンド紹介_20200925
小川 雄太郎9K visualizações
深層生成モデルと世界モデル(2020/11/20版) por Masahiro Suzuki
深層生成モデルと世界モデル(2020/11/20版)深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)
Masahiro Suzuki7.1K visualizações

Similar a [DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling

[DL輪読会]Meta-Learning Probabilistic Inference for Prediction por
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
[DL輪読会]Meta-Learning Probabilistic Inference for PredictionDeep Learning JP
2.8K visualizações33 slides
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners por
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving PlannersDeep Learning JP
261 visualizações28 slides
ディープラーニング最近の発展とビジネス応用への課題 por
ディープラーニング最近の発展とビジネス応用への課題ディープラーニング最近の発展とビジネス応用への課題
ディープラーニング最近の発展とビジネス応用への課題Kenta Oono
18.3K visualizações47 slides
Generative Models(メタサーベイ ) por
Generative Models(メタサーベイ )Generative Models(メタサーベイ )
Generative Models(メタサーベイ )cvpaper. challenge
7.5K visualizações113 slides
[DL輪読会]Imagination-Augmented Agents for Deep Reinforcement Learning / Learnin... por
[DL輪読会]Imagination-Augmented Agents for Deep Reinforcement Learning / Learnin...[DL輪読会]Imagination-Augmented Agents for Deep Reinforcement Learning / Learnin...
[DL輪読会]Imagination-Augmented Agents for Deep Reinforcement Learning / Learnin...Deep Learning JP
3.7K visualizações38 slides
[DL輪読会]Learning to Adapt: Meta-Learning for Model-Based Control por
[DL輪読会]Learning to Adapt: Meta-Learning for Model-Based Control[DL輪読会]Learning to Adapt: Meta-Learning for Model-Based Control
[DL輪読会]Learning to Adapt: Meta-Learning for Model-Based ControlDeep Learning JP
1.5K visualizações19 slides

Similar a [DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling(20)

[DL輪読会]Meta-Learning Probabilistic Inference for Prediction por Deep Learning JP
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
Deep Learning JP2.8K visualizações
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners por Deep Learning JP
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
Deep Learning JP261 visualizações
ディープラーニング最近の発展とビジネス応用への課題 por Kenta Oono
ディープラーニング最近の発展とビジネス応用への課題ディープラーニング最近の発展とビジネス応用への課題
ディープラーニング最近の発展とビジネス応用への課題
Kenta Oono18.3K visualizações
Generative Models(メタサーベイ ) por cvpaper. challenge
Generative Models(メタサーベイ )Generative Models(メタサーベイ )
Generative Models(メタサーベイ )
cvpaper. challenge7.5K visualizações
[DL輪読会]Imagination-Augmented Agents for Deep Reinforcement Learning / Learnin... por Deep Learning JP
[DL輪読会]Imagination-Augmented Agents for Deep Reinforcement Learning / Learnin...[DL輪読会]Imagination-Augmented Agents for Deep Reinforcement Learning / Learnin...
[DL輪読会]Imagination-Augmented Agents for Deep Reinforcement Learning / Learnin...
Deep Learning JP3.7K visualizações
[DL輪読会]Learning to Adapt: Meta-Learning for Model-Based Control por Deep Learning JP
[DL輪読会]Learning to Adapt: Meta-Learning for Model-Based Control[DL輪読会]Learning to Adapt: Meta-Learning for Model-Based Control
[DL輪読会]Learning to Adapt: Meta-Learning for Model-Based Control
Deep Learning JP1.5K visualizações
[DL輪読会]逆強化学習とGANs por Deep Learning JP
[DL輪読会]逆強化学習とGANs[DL輪読会]逆強化学習とGANs
[DL輪読会]逆強化学習とGANs
Deep Learning JP8.7K visualizações
AgileTourOsaka2011 関係者に理解してもらえるアジャイル開発にむけて por Shuji Morisaki
AgileTourOsaka2011 関係者に理解してもらえるアジャイル開発にむけてAgileTourOsaka2011 関係者に理解してもらえるアジャイル開発にむけて
AgileTourOsaka2011 関係者に理解してもらえるアジャイル開発にむけて
Shuji Morisaki1.6K visualizações
【DL輪読会】Data-Efficient Reinforcement Learning with Self-Predictive Representat... por Deep Learning JP
【DL輪読会】Data-Efficient Reinforcement Learning with Self-Predictive Representat...【DL輪読会】Data-Efficient Reinforcement Learning with Self-Predictive Representat...
【DL輪読会】Data-Efficient Reinforcement Learning with Self-Predictive Representat...
Deep Learning JP948 visualizações
なぜソフトウェアアーキテクトが必要なのか - Devlove 20110423 por Yusuke Suzuki
なぜソフトウェアアーキテクトが必要なのか - Devlove 20110423なぜソフトウェアアーキテクトが必要なのか - Devlove 20110423
なぜソフトウェアアーキテクトが必要なのか - Devlove 20110423
Yusuke Suzuki49.9K visualizações
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation por Takumi Ohkuma
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation 「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
Takumi Ohkuma245 visualizações
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation por Deep Learning JP
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
Deep Learning JP1.5K visualizações
【DL輪読会】Scale Efficiently: Insights from Pre-training and Fine-tuning Transfor... por Deep Learning JP
【DL輪読会】Scale Efficiently: Insights from Pre-training and Fine-tuning Transfor...【DL輪読会】Scale Efficiently: Insights from Pre-training and Fine-tuning Transfor...
【DL輪読会】Scale Efficiently: Insights from Pre-training and Fine-tuning Transfor...
Deep Learning JP493 visualizações
2021 10-07 kdd2021読み会 uc phrase por Tatsuya Shirakawa
2021 10-07 kdd2021読み会 uc phrase2021 10-07 kdd2021読み会 uc phrase
2021 10-07 kdd2021読み会 uc phrase
Tatsuya Shirakawa4K visualizações
[DL輪読会]ドメイン転移と不変表現に関するサーベイ por Deep Learning JP
[DL輪読会]ドメイン転移と不変表現に関するサーベイ[DL輪読会]ドメイン転移と不変表現に関するサーベイ
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
Deep Learning JP6.9K visualizações
第2回 モデリング勉強会 por hakoika-itwg
第2回 モデリング勉強会第2回 モデリング勉強会
第2回 モデリング勉強会
hakoika-itwg1.8K visualizações
モジュールの凝集度・結合度・インタフェース por Hajime Yanagawa
モジュールの凝集度・結合度・インタフェースモジュールの凝集度・結合度・インタフェース
モジュールの凝集度・結合度・インタフェース
Hajime Yanagawa16.7K visualizações
【メタサーベイ】基盤モデル / Foundation Models por cvpaper. challenge
【メタサーベイ】基盤モデル / Foundation Models【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models
cvpaper. challenge16.5K visualizações
Decision Transformer: Reinforcement Learning via Sequence Modeling por Tomoya Oda
Decision Transformer: Reinforcement Learning via Sequence ModelingDecision Transformer: Reinforcement Learning via Sequence Modeling
Decision Transformer: Reinforcement Learning via Sequence Modeling
Tomoya Oda52 visualizações

Mais de Deep Learning JP

【DL輪読会】事前学習用データセットについて por
【DL輪読会】事前学習用データセットについて【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについてDeep Learning JP
275 visualizações20 slides
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP... por
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...Deep Learning JP
186 visualizações26 slides
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition por
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place RecognitionDeep Learning JP
255 visualizações30 slides
【DL輪読会】Can Neural Network Memorization Be Localized? por
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?Deep Learning JP
516 visualizações15 slides
【DL輪読会】Hopfield network 関連研究について por
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究についてDeep Learning JP
1.3K visualizações29 slides
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 ) por
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )Deep Learning JP
341 visualizações14 slides

Mais de Deep Learning JP(20)

【DL輪読会】事前学習用データセットについて por Deep Learning JP
【DL輪読会】事前学習用データセットについて【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて
Deep Learning JP275 visualizações
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP... por Deep Learning JP
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
Deep Learning JP186 visualizações
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition por Deep Learning JP
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
Deep Learning JP255 visualizações
【DL輪読会】Can Neural Network Memorization Be Localized? por Deep Learning JP
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
Deep Learning JP516 visualizações
【DL輪読会】Hopfield network 関連研究について por Deep Learning JP
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
Deep Learning JP1.3K visualizações
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 ) por Deep Learning JP
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
Deep Learning JP341 visualizações
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M... por Deep Learning JP
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
Deep Learning JP234 visualizações
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO" por Deep Learning JP
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
Deep Learning JP798 visualizações
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination " por Deep Learning JP
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
Deep Learning JP448 visualizações
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models por Deep Learning JP
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
Deep Learning JP1.4K visualizações
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware" por Deep Learning JP
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
Deep Learning JP416 visualizações
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo... por Deep Learning JP
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
Deep Learning JP406 visualizações
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ... por Deep Learning JP
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
Deep Learning JP691 visualizações
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive... por Deep Learning JP
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
Deep Learning JP818 visualizações
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil... por Deep Learning JP
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
Deep Learning JP378 visualizações
【DL輪読会】Deep Transformers without Shortcuts: Modifying Self-attention for Fait... por Deep Learning JP
【DL輪読会】Deep Transformers without Shortcuts: Modifying Self-attention for Fait...【DL輪読会】Deep Transformers without Shortcuts: Modifying Self-attention for Fait...
【DL輪読会】Deep Transformers without Shortcuts: Modifying Self-attention for Fait...
Deep Learning JP330 visualizações
【DL輪読会】マルチモーダル 基盤モデル por Deep Learning JP
【DL輪読会】マルチモーダル 基盤モデル【DL輪読会】マルチモーダル 基盤モデル
【DL輪読会】マルチモーダル 基盤モデル
Deep Learning JP1.1K visualizações
【DL輪読会】TrOCR: Transformer-based Optical Character Recognition with Pre-traine... por Deep Learning JP
【DL輪読会】TrOCR: Transformer-based Optical Character Recognition with Pre-traine...【DL輪読会】TrOCR: Transformer-based Optical Character Recognition with Pre-traine...
【DL輪読会】TrOCR: Transformer-based Optical Character Recognition with Pre-traine...
Deep Learning JP748 visualizações
【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif... por Deep Learning JP
【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...
【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...
Deep Learning JP248 visualizações
【DL輪読会】大量API・ツールの扱いに特化したLLM por Deep Learning JP
【DL輪読会】大量API・ツールの扱いに特化したLLM【DL輪読会】大量API・ツールの扱いに特化したLLM
【DL輪読会】大量API・ツールの扱いに特化したLLM
Deep Learning JP1.2K visualizações

Último

PCCC23:富士通株式会社 テーマ1「次世代高性能・省電力プロセッサ『FUJITSU-MONAKA』」 por
PCCC23:富士通株式会社 テーマ1「次世代高性能・省電力プロセッサ『FUJITSU-MONAKA』」PCCC23:富士通株式会社 テーマ1「次世代高性能・省電力プロセッサ『FUJITSU-MONAKA』」
PCCC23:富士通株式会社 テーマ1「次世代高性能・省電力プロセッサ『FUJITSU-MONAKA』」PC Cluster Consortium
45 visualizações12 slides
光コラボは契約してはいけない por
光コラボは契約してはいけない光コラボは契約してはいけない
光コラボは契約してはいけないTakuya Matsunaga
25 visualizações17 slides
Keycloakの全体像: 基本概念、ユースケース、そして最新の開発動向 por
Keycloakの全体像: 基本概念、ユースケース、そして最新の開発動向Keycloakの全体像: 基本概念、ユースケース、そして最新の開発動向
Keycloakの全体像: 基本概念、ユースケース、そして最新の開発動向Hitachi, Ltd. OSS Solution Center.
89 visualizações26 slides
PCCC23:東京大学情報基盤センター 「Society5.0の実現を目指す『計算・データ・学習』の融合による革新的スーパーコンピューティング」 por
PCCC23:東京大学情報基盤センター 「Society5.0の実現を目指す『計算・データ・学習』の融合による革新的スーパーコンピューティング」PCCC23:東京大学情報基盤センター 「Society5.0の実現を目指す『計算・データ・学習』の融合による革新的スーパーコンピューティング」
PCCC23:東京大学情報基盤センター 「Society5.0の実現を目指す『計算・データ・学習』の融合による革新的スーパーコンピューティング」PC Cluster Consortium
23 visualizações36 slides
Windows 11 information that can be used at the development site por
Windows 11 information that can be used at the development siteWindows 11 information that can be used at the development site
Windows 11 information that can be used at the development siteAtomu Hidaka
90 visualizações41 slides
速習! PostgreSQL専用HAソフトウェア: Patroni(PostgreSQL Conference Japan 2023 発表資料) por
速習! PostgreSQL専用HAソフトウェア: Patroni(PostgreSQL Conference Japan 2023 発表資料)速習! PostgreSQL専用HAソフトウェア: Patroni(PostgreSQL Conference Japan 2023 発表資料)
速習! PostgreSQL専用HAソフトウェア: Patroni(PostgreSQL Conference Japan 2023 発表資料)NTT DATA Technology & Innovation
29 visualizações38 slides

Último(12)

PCCC23:富士通株式会社 テーマ1「次世代高性能・省電力プロセッサ『FUJITSU-MONAKA』」 por PC Cluster Consortium
PCCC23:富士通株式会社 テーマ1「次世代高性能・省電力プロセッサ『FUJITSU-MONAKA』」PCCC23:富士通株式会社 テーマ1「次世代高性能・省電力プロセッサ『FUJITSU-MONAKA』」
PCCC23:富士通株式会社 テーマ1「次世代高性能・省電力プロセッサ『FUJITSU-MONAKA』」
PC Cluster Consortium45 visualizações
光コラボは契約してはいけない por Takuya Matsunaga
光コラボは契約してはいけない光コラボは契約してはいけない
光コラボは契約してはいけない
Takuya Matsunaga25 visualizações
Keycloakの全体像: 基本概念、ユースケース、そして最新の開発動向 por Hitachi, Ltd. OSS Solution Center.
Keycloakの全体像: 基本概念、ユースケース、そして最新の開発動向Keycloakの全体像: 基本概念、ユースケース、そして最新の開発動向
Keycloakの全体像: 基本概念、ユースケース、そして最新の開発動向
PCCC23:東京大学情報基盤センター 「Society5.0の実現を目指す『計算・データ・学習』の融合による革新的スーパーコンピューティング」 por PC Cluster Consortium
PCCC23:東京大学情報基盤センター 「Society5.0の実現を目指す『計算・データ・学習』の融合による革新的スーパーコンピューティング」PCCC23:東京大学情報基盤センター 「Society5.0の実現を目指す『計算・データ・学習』の融合による革新的スーパーコンピューティング」
PCCC23:東京大学情報基盤センター 「Society5.0の実現を目指す『計算・データ・学習』の融合による革新的スーパーコンピューティング」
PC Cluster Consortium23 visualizações
Windows 11 information that can be used at the development site por Atomu Hidaka
Windows 11 information that can be used at the development siteWindows 11 information that can be used at the development site
Windows 11 information that can be used at the development site
Atomu Hidaka90 visualizações
速習! PostgreSQL専用HAソフトウェア: Patroni(PostgreSQL Conference Japan 2023 発表資料) por NTT DATA Technology & Innovation
速習! PostgreSQL専用HAソフトウェア: Patroni(PostgreSQL Conference Japan 2023 発表資料)速習! PostgreSQL専用HAソフトウェア: Patroni(PostgreSQL Conference Japan 2023 発表資料)
速習! PostgreSQL専用HAソフトウェア: Patroni(PostgreSQL Conference Japan 2023 発表資料)
今、改めて考えるPostgreSQLプラットフォーム - マルチクラウドとポータビリティ -(PostgreSQL Conference Japan 20... por NTT DATA Technology & Innovation
今、改めて考えるPostgreSQLプラットフォーム - マルチクラウドとポータビリティ -(PostgreSQL Conference Japan 20...今、改めて考えるPostgreSQLプラットフォーム - マルチクラウドとポータビリティ -(PostgreSQL Conference Japan 20...
今、改めて考えるPostgreSQLプラットフォーム - マルチクラウドとポータビリティ -(PostgreSQL Conference Japan 20...
NTT DATA Technology & Innovation151 visualizações
SNMPセキュリティ超入門 por mkoda
SNMPセキュリティ超入門SNMPセキュリティ超入門
SNMPセキュリティ超入門
mkoda453 visualizações
SSH応用編_20231129.pdf por icebreaker4
SSH応用編_20231129.pdfSSH応用編_20231129.pdf
SSH応用編_20231129.pdf
icebreaker4380 visualizações
The Things Stack説明資料 by The Things Industries por CRI Japan, Inc.
The Things Stack説明資料 by The Things IndustriesThe Things Stack説明資料 by The Things Industries
The Things Stack説明資料 by The Things Industries
CRI Japan, Inc.76 visualizações
定例会スライド_キャチs 公開用.pdf por Keio Robotics Association
定例会スライド_キャチs 公開用.pdf定例会スライド_キャチs 公開用.pdf
定例会スライド_キャチs 公開用.pdf
Keio Robotics Association132 visualizações

[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling

  • 1. DEEP LEARNING JP [DL Papers] Decision Transformer : Reinforcement Learning via sequence modeling XIN ZHANG, Matsuo Lab http://deeplearning.jp/
  • 2. 書誌情報 ● タイトル: ○ Decision Transformer:Reinforcement Learning via sequence modeling ● 著者 ○ Lili Chen*, Kevin Lu*, Aravind Rajeswaran, Kimin Lee, Aditya Grover, Michael Laskin, Pieter Abbeel, Aravind Srinivas*, Igor Mordatch ● 研究機関:UC Berkeley, Facebook AI Research, Google Brain ● 12 Jun 2021 ● 概要 ○ Transformerを用いて、RLを系列モデリングの手法として扱う手法を提案 ○ Model-free offline RLのベースラインのSOTAと同等な精度. 2
  • 4. Transformer ● 強力なTransformerをRLで使えないか? ● Self-Attentionが長い系列のRLを扱いやすそう Offline RL ● 誤差の累積と価値関数のオーバー予測が課題 ● Transformerを用いるには自然な設定 From CS 285
  • 6. 1 timestep Decision Transformer(DT) ● GPTアーキテクチャ ○ 次のActionを予測する ○ 離散値:cross-entropy ○ 連続値:mean-squared ● returns-to-go: ○ ある時点のActionは、それ以降の Rewardのみに影響を与える ○ Actionを予測するのに必要 ● Feed K timesteps (3K tokens)
  • 9. 4. Evaluations on Offline RL Benchmarks
  • 10. ❏ CQLと良い勝負。ただQbertが弱い。 ❏ K=30 (except K=50 for Pong) 4.1 Atari(Breakout, Qbert, Pong, Seaquest) Qbert
  • 11. 4.2 OpenAI Gym(HalfCheetah, Hopper, Walker, Reacher) ❏ OpenAI gymは大体勝ってる ❏ K=20 (except K=20 for Reacher)
  • 13. 5.1 Does DT perform BC on a subset of the data? ❏ Percentile BC:最適のデータを使う(最適がわからないので、非現実) ❏ BCとの違いを示そうとしている。
  • 14. 5.2 How well does DT model the distribution of returns? ❏ Rewardでとるべき行動の指定ができる。”最適な行動”だけではない。 ❏ 一方で、適切なRewardの入力が求められる。わからない場合は困る。
  • 15. 5.3 What is the benefit of using a longer context length? ❏ When K = 1, such as RL, DT performs poorly. ❏ Kの設定が重要、タスクによって変わってるのでハイパーパラメータになる
  • 16. 5.4 Does DT perform effective long-term credit assignment? ❏ Key-to-Doorの設定では、DTが重要なものを捉えられている。 ❏ データが増えるとBCでもできる。 Key-to-Doorの例(論文の図がない!) - Key room(左)でKeyを取得する - empty room(中) - door room(右)でDoor(青)を開ける
  • 17. 5.5 Can DT be accurate critics in sparse reward settings? ❏ DTのAttentionはうまく機能している。 ❏ (DTが得意そうな実験をデザインしている気がするが)
  • 18. 5.6 Does DT perform well in sparse reward settings? ❏ Delayed reward:最後にまとめてRewardを受けとる設定 ❏ Decision Transformerへのダメージが最も小さい
  • 20. 6.1 Offline and supervised reinforcement learning I. Distribution shift in offline RL. A. Constrain the policy action space. B. Incorporate value pessimism C. Incorporate pessimism into learned dynamics models. II. Learning wide behavior distibution A. Learning a task-agnostic set of skill, eigher with likelihood-based approaches. B. maximizing mutual information III. Return conditioning/’supervised RL’ A. similar to DT. DT benefit from the use of long contexts for behavior modeling as long-term credit assignment. ❏ Offline RLの分布シフト問題に取り組む研究がたくさんある! ❏ 強化学習をSupervised Learningとして扱う研究
  • 21. 6.2 Credit assignment(貢献度の分配) ❏ 報酬を最も重要なStepで与える必要があり、その分配を求める研究 ❏ 実験通じて、Transformerが良さそうことが分かった 1. Self-Attentional Credit Assignment for Transfer in Reinforcement Learning 2. Hindsight Credit Assignment 3. Counterfactual credit assignment in model-free reinforcement learning
  • 22. 6.3 Conditional language generation 6.4 Attention and transformer models ❏ 条件付き言語生成、TransformerとAttentionなどの関連研究がたくさんある
  • 24. Offline RL, Sequence modeling, goal condition by reward. ❏ アイデアが面白くて、関連研究がいっぱいでる予想 ❏ 適切な報酬が知らないと困るので、解決できそうなアイデアを考えたい Future work - Stochastic Decision Transformer - conditioning on return distributions to model stochastic settings instead of deterministic returns - Model-based Decision Transformer. - Transformer models can also be used to model the state evolution of trajectory - For Real-world application - Augmenting RL. Decision Transformer - Offline RL設定でGPT アーキテクチャを用いた。 - 適切なRewardを設定して、それを得られるActionを出力する。 - Model freeの手法(CQL)と比較し、うまくいってる。