Início
Conheça mais
Enviar pesquisa
Carregar
Entrar
Cadastre-se
Anúncio
Check these out next
【DL輪読会】Mastering Diverse Domains through World Models
Deep Learning JP
POMDP下での強化学習の基礎と応用
Yasunori Ozaki
【メタサーベイ】基盤モデル / Foundation Models
cvpaper. challenge
【DL輪読会】Transformers are Sample Efficient World Models
Deep Learning JP
[DL輪読会]Causality Inspired Representation Learning for Domain Generalization
Deep Learning JP
[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech,...
Deep Learning JP
[DL輪読会]Flow-based Deep Generative Models
Deep Learning JP
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
Shota Imai
1
de
14
Top clipped slide
【DL輪読会】Scaling laws for single-agent reinforcement learning
17 de Feb de 2023
•
0 gostou
0 gostaram
×
Seja o primeiro a gostar disto
mostrar mais
•
287 visualizações
visualizações
×
Vistos totais
0
No Slideshare
0
De incorporações
0
Número de incorporações
0
Baixar agora
Baixar para ler offline
Denunciar
Tecnologia
2023/2/10 Deep Learning JP http://deeplearning.jp/seminar-2/
Deep Learning JP
Seguir
Deep Learning JP
Anúncio
Anúncio
Anúncio
Recomendados
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
Deep Learning JP
2.4K visualizações
•
25 slides
【メタサーベイ】数式ドリブン教師あり学習
cvpaper. challenge
4.4K visualizações
•
33 slides
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
Shota Imai
1.7K visualizações
•
35 slides
[DL輪読会]Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets
Deep Learning JP
2.3K visualizações
•
17 slides
【DL輪読会】Scaling Laws for Neural Language Models
Deep Learning JP
3K visualizações
•
27 slides
強化学習と逆強化学習を組み合わせた模倣学習
Eiji Uchibe
24.6K visualizações
•
48 slides
Mais conteúdo relacionado
Apresentações para você
(20)
【DL輪読会】Mastering Diverse Domains through World Models
Deep Learning JP
•
588 visualizações
POMDP下での強化学習の基礎と応用
Yasunori Ozaki
•
2.3K visualizações
【メタサーベイ】基盤モデル / Foundation Models
cvpaper. challenge
•
14.9K visualizações
【DL輪読会】Transformers are Sample Efficient World Models
Deep Learning JP
•
621 visualizações
[DL輪読会]Causality Inspired Representation Learning for Domain Generalization
Deep Learning JP
•
593 visualizações
[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech,...
Deep Learning JP
•
2.3K visualizações
[DL輪読会]Flow-based Deep Generative Models
Deep Learning JP
•
13.6K visualizações
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
Shota Imai
•
250.9K visualizações
【DL輪読会】ViT + Self Supervised Learningまとめ
Deep Learning JP
•
3.2K visualizações
Semantic segmentation
Takuya Minagawa
•
106.7K visualizações
研究効率化Tips Ver.2
cvpaper. challenge
•
17.4K visualizações
最適輸送入門
joisino
•
8.5K visualizações
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
Deep Learning JP
•
3.8K visualizações
[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...
Deep Learning JP
•
2.3K visualizações
[DL輪読会]Pay Attention to MLPs (gMLP)
Deep Learning JP
•
16.2K visualizações
最適化超入門
Takami Sato
•
166.6K visualizações
強化学習における好奇心
Shota Imai
•
2.6K visualizações
DQNからRainbowまで 〜深層強化学習の最新動向〜
Jun Okumura
•
85.4K visualizações
深層生成モデルと世界モデル
Masahiro Suzuki
•
16.1K visualizações
画像生成・生成モデル メタサーベイ
cvpaper. challenge
•
7.8K visualizações
Similar a 【DL輪読会】Scaling laws for single-agent reinforcement learning
(20)
【DL輪読会】StyleGAN-T: Unlocking the Power of GANs for Fast Large-Scale Text-to-I...
Deep Learning JP
•
419 visualizações
(2020.9) 機械学習による化学反応の予測と設計
Ichigaku Takigawa
•
856 visualizações
Top-K Off-Policy Correction for a REINFORCE Recommender System
harmonylab
•
3.7K visualizações
東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太
Preferred Networks
•
4.4K visualizações
CNNの構造最適化手法(第3回3D勉強会)
MasanoriSuganuma
•
945 visualizações
機械学習品質管理・保証の動向と取り組み
Shintaro Fukushima
•
8.2K visualizações
第3回NIPS読み会・関西発表資料
Takato Horii
•
5.5K visualizações
Elastic ML Introduction
Hiroshi Yoshioka
•
1.2K visualizações
20180117_ICON技術セミナー4_常盤
ICT_CONNECT_21
•
405 visualizações
[データマイニング+WEB勉強会][R勉強会] R言語によるクラスター分析 - 活用編
Koichi Hamada
•
18.4K visualizações
IVS CTO Night & Day 2016 Tech Talk - AI
Toshiaki Enami
•
621 visualizações
Connecting embedding for knowledge graph entity typing
禎晃 山崎
•
81 visualizações
統計学勉強会#2
Hidehisa Arai
•
5.6K visualizações
菊地の研究ポートフォリオ2019版 v1.01
Shunsuke Kikuchi
•
8.3K visualizações
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
Deep Learning JP
•
2.7K visualizações
【CVPR 2020 メタサーベイ】Vision Applications and Systems
cvpaper. challenge
•
1.3K visualizações
学習・教育分野で今後生まれる新たなビジネス
miraikenkyu
•
254 visualizações
LOD (Linked Open Data) の動向と今後の展望
Kouji Kozaki
•
1.7K visualizações
トピックモデルの基礎と応用
Tomonari Masada
•
8.5K visualizações
横幹連合サービス科学
Yuriko Sawatani
•
932 visualizações
Anúncio
Mais de Deep Learning JP
(20)
【DL輪読会】マルチモーダル 基盤モデル
Deep Learning JP
•
60 visualizações
【DL輪読会】TrOCR: Transformer-based Optical Character Recognition with Pre-traine...
Deep Learning JP
•
19 visualizações
【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...
Deep Learning JP
•
19 visualizações
【DL輪読会】大量API・ツールの扱いに特化したLLM
Deep Learning JP
•
270 visualizações
【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
Deep Learning JP
•
93 visualizações
【DL輪読会】Poisoning Language Models During Instruction Tuning Instruction Tuning...
Deep Learning JP
•
159 visualizações
【DL輪読会】Egocentric Video Task Translation (CVPR 2023 Highlight)
Deep Learning JP
•
101 visualizações
【DL輪読会】Flow Matching for Generative Modeling
Deep Learning JP
•
803 visualizações
【DL輪読会】Visual Classification via Description from Large Language Models (ICLR...
Deep Learning JP
•
1.4K visualizações
【DL輪読会】GPT-4Technical Report
Deep Learning JP
•
963 visualizações
【DL輪読会】Emergent World Representations: Exploring a Sequence ModelTrained on a...
Deep Learning JP
•
241 visualizações
【DL輪読会】Reward Design with Language Models
Deep Learning JP
•
627 visualizações
【DL輪読会】Foundation Models for Decision Making: Problems, Methods, and Opportun...
Deep Learning JP
•
292 visualizações
【DL輪読会】One-Shot Domain Adaptive and Generalizable Semantic Segmentation with ...
Deep Learning JP
•
229 visualizações
【DL輪読会】DiffRF: Rendering-guided 3D Radiance Field Diffusion [N. Muller+ CVPR2...
Deep Learning JP
•
390 visualizações
【DL輪読会】Hyena Hierarchy: Towards Larger Convolutional Language Models
Deep Learning JP
•
887 visualizações
【DL輪読会】Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Mo...
Deep Learning JP
•
1.1K visualizações
【DL輪読会】Segment Anything
Deep Learning JP
•
2K visualizações
【DL輪読会】Is Conditional Generative Modeling All You Need For Decision-Making?
Deep Learning JP
•
256 visualizações
【DL輪読会】Decoupling Human and Camera Motion from Videos in the Wild (CVPR2023)
Deep Learning JP
•
427 visualizações
Último
(20)
Wandb LLM Webinar May 30 2023 (配布用).pdf
Yuya Yamamoto
•
141 visualizações
ChatGPT触ってみた
infinite_loop
•
64 visualizações
統計学の攻略_正規分布ファミリーの全体像.pdf
akipii Oga
•
318 visualizações
統計学の攻略_統計的仮説検定の9パターン.pdf
akipii Oga
•
314 visualizações
mi-3. データサイエンス・AIの演習
kunihikokaneko1
•
4 visualizações
統計学の攻略_推測統計学の考え方.pdf
akipii Oga
•
323 visualizações
触感に関わる共感覚的表現と基本6感情の対応関係の検証
Matsushita Laboratory
•
23 visualizações
20230602_enebular_meetup_kitazaki_v1.pdf
Ayachika Kitazaki
•
40 visualizações
JSAI2023_企画セッション(仕掛学)資料
Matsushita Laboratory
•
45 visualizações
mi-4. 機械学習
kunihikokaneko1
•
4 visualizações
開発環境向けEKSのコスト最適
ducphan87
•
13 visualizações
Voyager: An Open-Ended Embodied Agent with Large Language Models
harmonylab
•
27 visualizações
mi-7. 学習と検証, 学習不足, 過学習, 学習曲線
kunihikokaneko1
•
4 visualizações
mi-1. 人工知能の概要
kunihikokaneko1
•
5 visualizações
JSTQB_テストプロセスの概念モデル.pdf
akipii Oga
•
311 visualizações
GitHub最新情報キャッチアップ 2023年6月
Kazumi IWANAGA
•
7 visualizações
社内ソフトスキルを考える
infinite_loop
•
91 visualizações
コードレビュー改善のためにJenkinsとIntelliJ IDEAのプラグインを自作してみた話
Rakuten Group, Inc.
•
40 visualizações
Forguncy製品概要.pptx
フォーガンシー
•
172 visualizações
mi-2. データサイエンス・AIの事例
kunihikokaneko1
•
4 visualizações
Anúncio
【DL輪読会】Scaling laws for single-agent reinforcement learning
http://deeplearning.jp/ “Scaling laws for
single-agent reinforcement learning” 東京大学工学系研究科 稲富翔伍 DEEP LEARNING JP [DL Papers] 1
2023/02/10 2 書誌情報 1.Intro 論文名 Scaling laws
for single-agent reinforcement learning 著者 Jacob Hilton, Jie Tang, John Schulman (Open AI) 投稿 arXiv 31st Jan. 2023 概要 • RLにおけるべき乗則を示すため、Intrinsic Performance を導入 • モデルサイズ・環境へのインタラクション(データ収集)についてべき乗則が見 られた • 計算予算と最適なモデルサイズの関係もべき乗則に従う
2023/02/10 3 べき乗則 1.Intro Test Loss Scaling Laws for
Neural Language Models - Kaplanら(2020) べき乗則(Scaling Laws) Okimuraさん輪読資料より https://www.slideshare.net/DeepLearningJP2016/dlscaling-laws-for-neural-l anguage-models OpenAIの大規模モデル Scaling Laws RL分野でのブレイクスルーが接 深層学習でのべき乗 則 モデルサイズや計算コストをかければ性能がべき乗則に従い 増える。
2023/02/10 4 生成モデルとRLのべき乗則 1.Intro 生成モデル(ここではGPTのような自己回帰型の言語生成モデル) Loss:クロスエントロピー誤差が用いられる。 モデルサイズ・計算コストに対して、テスト時の滑らかなLoss減少が見られた(Smooth power laws)。 RLではクロスエントロピー誤差は用いられないため別の性能指標が必要。 -
サッカーなどの対戦型ゲームで用いられるイロレーティングは、計算量に対するべき乗則に従い滑らかに変化する指 標。 一方、すべてのRLにおいて滑らかに変化する“自然な”指標があるわけではない。 例:物を集めるゲームでは、ある一定の能力を獲得すると、急激にポイントが増加する。 そこで、性能指標“Intrinsic performance”を導入。 - 計算量に基づいた指標 これを用いて、モデルサイズや環境とのインタラクション量が性能に対してどのような関係か調べる。 結論:べき乗則に従い性能増加する! 強化学習 アナロジー:生成モデルでの、“自然な“指標以外のべき乗 則 「計算予算が一定のときのテスト時ロスが最小となる最適モ デルサイズは、計算予算のべき乗則に従う。」 =計算予算を倍に増やすなら、モデルサイズも倍にすれば よい。
2023/02/10 5 Intrinsic performance -
RLでべき乗則を示すには 2.Scaling laws without cross-entropy loss “自然な“性能指標Mean episode returnでは直線的な性能増加がみられない。 スコア5-10の間(下図黄枠)で射撃や回避に必要な性能を獲得し、その後は簡単にスコア増 加。 Star pilot 性能指標としてIntrinsic performanceを導入。訓練時の計算量を性能とみなす。 定義:「ある方策のIntrinsic performanceは、任意のサイズのモデルが同じ収益(return)に 到達するように学習させるために必要な最小の計算量」 → 定義が難解であるため学習曲線のグラフで理解
2023/02/10 6 Intrinsic performanceのグラフの読み方(輪読者の解釈) 2.Scaling laws
without cross-entropy loss ・ (b)では(a)の縦軸をIntrinsic performanceに変えた。 ・ (b)ではIntrinsic Performanceの定義より、Efficient Frontierは直線になる。(定義の読み替え) ・ (a)の曲線形状は学習による性能向上を示すが、(b)の曲線の形状は意味を読み取らなくてよさそう。 → Efficeint Frontierに接する点が重要 ・ Power law asymptote(漸近線)は10^4.3 ~ 10^5.8のモデルについての漸近線が示されている ・ モデルサイズの指数を単調に増やした場合に、点の間隔も凡そ均等になっている
2023/02/10 7 Intrinsic performanceに対するべき乗則 ・
計算量に対する最適なモデルサイズ 2.Scaling laws without cross-entropy loss Intrinsic performanceを導入すると、以下の経験式がおおよそ成立すると分かった。 十分なインタラクションがある場合(E→∞)、IはNのべき乗則に従う。 十分なモデルサイズである場合、IはEのべき乗則に従う。 I:Intrinsic performance, N:モデルサイズ(パラメタ数), E:環境とのインタラクション, その他は正の定数 ※唐突に聞こえるが、類似の式が言語モデルにおいて成立していた。 ある一定の計算予算(計算量)の制限における最適なモデルサイズは、計算予算のべき乗則に 従う。 計算量に対する最適なモデルサイズ:(1)から導出される補題 1 べき乗則:式(1)の解釈
2023/02/10 8 実験環境・アルゴリズム等の条件 3.Experimental Setup Star pilot 1.
Procgen Benchmark Coin Run 2. Dota2 3. MNIST 各ゲームにEasy, Hard の2種のモード PPG-EWMA CNNのサイズを様々変 更 1vs1のMOVAゲーム PPO LSTMのサイズを様々変 更 数字を当てられたらreward1が得られる。 GAE(Generalized Advantage Estimation) のパラメータを変更することで、Horizon length (未来のどこまでを考慮するか)の影響を調べる PPO-EWMA CNNのサイズを様々変更 強化学習でなくても解けるが、強化学習の枠組みに落とし込 んで学習させる。 Fruit Bot
2023/02/10 9 べき乗則の成立 ・ 2つの指数の関係 4.Results 式(1)
は学習初期を除いて、様々な環境・モデルサイズに対して成 立。 “Main Result” 2つの指数の関係
2023/02/10 10 計算量と最適なモデルサイズの関係 4.Results ・理論的には、最適なハイパーパラメタと十分なランダムシード値を用いることで、指数(傾き)は0.5に近 づく。 - 今回の実験だけでは結論が出ない。 ・係数(グラフの切片に相当)については環境によって大きく違うことが分かる。 ・MNISTを除き、ある計算コストに対するRLの最適モデルサイズは生成モデルに比べ小さい。 - RLタスクの方が、horizonの長いこと、パラメータ当たりのForwardのFLOPsが多いことが影響 ※ここでは環境の実行コストは考慮しない
→後で考 慮 補題1(再掲) Procgen 0.40~0.65 MNIST 0.66~0.80 Dota 2 0.76 指数 の値
2023/02/10 11 Forward pass のモデルサイズと計算量 4.Results Forward
pass を指標に用いることでスケーリングの関係が類似す る。 パラメタ毎のFLOPs(層の深さ)を考慮できるため。
2023/02/10 12 サンプル効率の外挿 ・ 環境の実行を考慮した最適モデルサイズ 5.Discussion モデルサイズを無限大にすると、10^7.0モデル の最大性能まで、半分のインタラクションで到 達 サンプル効率について議論するなら、環境の実行 コストを考慮する必要がある。 計算費用をかける際、モデルサイズが環境サイズ より小さい場合、非効率である。 サンプル効率の外 挿 環境の実行を考量した最適モデルサイ ズ
2023/02/10 13 計算量の予測のために 5.Discussion ・べき乗則の指数は生成モデルと同程度 - 今回の実験ではばらつきがあったが、およそ0.5になるものと考えられる。 ・べき乗則の係数は数桁の差がある - Horizon
lengthにより説明できる ・演算強度の違い(モデルのパラメタ毎のFLOPs)を考慮するためにはForward passのFLOPsを使用する ・サンプル効率はHorizon lengthのアフィン関数である。 ・べき乗則の指数の正確な予測は困難 Transformative AI(破壊的・強力なAI)を作るためには? - 人間の脳の理解によるパラメタ数決定と、学習を行うためのべき乗則が必要
• 単一AgentのRLにおけるべき乗則を示すため、Intrinsic Performance
を導入 • 計算量に基づく指標 • 定義は難解であるので、今回は学習曲線を用いた解釈を紹介 • モデルサイズ・環境へのインタラクション(データ収集)についてべき乗則が見られた • 実験により、経験則の成立を確認 • 計算予算と最適なモデルサイズの関係もべき乗則に従う • べき乗則に影響を与える条件の整理 感想 • MNISTの実験を深く理解できず… • RLも巨大化してサンプル効率を高めた“すごいモデル”がそのうち登場しそう。 2023/02/10 14 まとめ
Anúncio