SlideShare a Scribd company logo
Enviar pesquisa
Carregar
Entrar
Cadastre-se
【DL輪読会】Foundation Models for Decision Making: Problems, Methods, and Opportunities
Denunciar
Deep Learning JP
Seguir
Deep Learning JP
21 de Apr de 2023
•
0 gostou
•
479 visualizações
1
de
37
【DL輪読会】Foundation Models for Decision Making: Problems, Methods, and Opportunities
21 de Apr de 2023
•
0 gostou
•
479 visualizações
Baixar agora
Baixar para ler offline
Denunciar
Tecnologia
2023/4/21 Deep Learning JP http://deeplearning.jp/seminar-2/
Deep Learning JP
Seguir
Deep Learning JP
Recomendados
【DL輪読会】Scaling laws for single-agent reinforcement learning
Deep Learning JP
399 visualizações
•
14 slides
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
Deep Learning JP
2.8K visualizações
•
25 slides
【DL輪読会】Contrastive Learning as Goal-Conditioned Reinforcement Learning
Deep Learning JP
447 visualizações
•
19 slides
【DL輪読会】Is Conditional Generative Modeling All You Need For Decision-Making?
Deep Learning JP
384 visualizações
•
17 slides
【DL輪読会】論文解説:Offline Reinforcement Learning as One Big Sequence Modeling Problem
Deep Learning JP
1.2K visualizações
•
14 slides
【DL輪読会】Reward Design with Language Models
Deep Learning JP
805 visualizações
•
16 slides
Mais conteúdo relacionado
Mais procurados
【DL輪読会】Scale Efficiently: Insights from Pre-training and Fine-tuning Transfor...
Deep Learning JP
451 visualizações
•
17 slides
【DL輪読会】Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
Deep Learning JP
612 visualizações
•
17 slides
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
Deep Learning JP
3.6K visualizações
•
52 slides
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning 画像×言語の大規模基盤モ...
Deep Learning JP
2.1K visualizações
•
27 slides
【DL輪読会】SDEdit: Guided Image Synthesis and Editing with Stochastic Differentia...
Deep Learning JP
575 visualizações
•
11 slides
方策勾配型強化学習の基礎と応用
Ryo Iwaki
18K visualizações
•
42 slides
Mais procurados
(20)
【DL輪読会】Scale Efficiently: Insights from Pre-training and Fine-tuning Transfor...
Deep Learning JP
•
451 visualizações
【DL輪読会】Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
Deep Learning JP
•
612 visualizações
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
Deep Learning JP
•
3.6K visualizações
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning 画像×言語の大規模基盤モ...
Deep Learning JP
•
2.1K visualizações
【DL輪読会】SDEdit: Guided Image Synthesis and Editing with Stochastic Differentia...
Deep Learning JP
•
575 visualizações
方策勾配型強化学習の基礎と応用
Ryo Iwaki
•
18K visualizações
【DL輪読会】Implicit Behavioral Cloning
Deep Learning JP
•
871 visualizações
Curriculum Learning (関東CV勉強会)
Yoshitaka Ushiku
•
61.3K visualizações
Skip Connection まとめ(Neural Network)
Yamato OKAMOTO
•
16.9K visualizações
[DL輪読会]Model soups: averaging weights of multiple fine-tuned models improves ...
Deep Learning JP
•
2.5K visualizações
【DL輪読会】DayDreamer: World Models for Physical Robot Learning
Deep Learning JP
•
632 visualizações
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
Deep Learning JP
•
7.8K visualizações
畳み込みニューラルネットワークの高精度化と高速化
Yusuke Uchida
•
64.3K visualizações
【DL輪読会】CLIPORT: What and Where Pathways for Robotic Manipulation (CoRL 2021)
Deep Learning JP
•
833 visualizações
【DL輪読会】Transformers are Sample Efficient World Models
Deep Learning JP
•
915 visualizações
【メタサーベイ】数式ドリブン教師あり学習
cvpaper. challenge
•
5.4K visualizações
強化学習と逆強化学習を組み合わせた模倣学習
Eiji Uchibe
•
25K visualizações
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
Deep Learning JP
•
2.4K visualizações
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
Deep Learning JP
•
2.3K visualizações
SSII2019OS: 深層学習にかかる時間を短くしてみませんか? ~分散学習の勧め~
SSII
•
10.4K visualizações
Similar a 【DL輪読会】Foundation Models for Decision Making: Problems, Methods, and Opportunities
JSiSE39_多重課題シミュレーション事前学習eラーニング開発計画
Yoshikazu Asada
3.4K visualizações
•
20 slides
自動計測制御学会発表091124
ikiikilab
398 visualizações
•
14 slides
NeurIPS2019参加報告
Masanari Kimura
465 visualizações
•
66 slides
eラーニング教材を活用した語彙学習方略がライティングに与える影響
Yusaku Kawaguchi
1.8K visualizações
•
52 slides
研究支援と評価
Makiko Watanabe
527 visualizações
•
19 slides
大学における科学コミュニケーション(石村/杉山)2.0
Professional University of Information and Management for Innovation (情報経営イノベーション専門職大学)
602 visualizações
•
40 slides
Similar a 【DL輪読会】Foundation Models for Decision Making: Problems, Methods, and Opportunities
(20)
JSiSE39_多重課題シミュレーション事前学習eラーニング開発計画
Yoshikazu Asada
•
3.4K visualizações
自動計測制御学会発表091124
ikiikilab
•
398 visualizações
NeurIPS2019参加報告
Masanari Kimura
•
465 visualizações
eラーニング教材を活用した語彙学習方略がライティングに与える影響
Yusaku Kawaguchi
•
1.8K visualizações
研究支援と評価
Makiko Watanabe
•
527 visualizações
大学における科学コミュニケーション(石村/杉山)2.0
Professional University of Information and Management for Innovation (情報経営イノベーション専門職大学)
•
602 visualizações
適切な研究課題の設定が論文掲載の第一歩
英文校正エディテージ
•
7.4K visualizações
131102ちゅらシム・プレゼン
Ikegami Keiichi
•
350 visualizações
(講演資料)開発現場で役立つ論文の書き方のお話
Makoto SAKAI
•
686 visualizações
jsish20130308_hiroe
Takanori Hiroe
•
832 visualizações
[DL輪読会]One Model To Learn Them All
Deep Learning JP
•
2.1K visualizações
【メタサーベイ】Vision and Language のトップ研究室/研究者
cvpaper. challenge
•
1.7K visualizações
02 matsushita
i-construction
•
71.3K visualizações
【報告】いきいき研究室増産プロジェクトFORUM2012
Yusuke Yamamoto
•
27.3K visualizações
看護実習前に、恋バナとコンパから学ぶシミュレーションとデブリーフィング
Takahiro Matsumoto
•
904 visualizações
Learning Process-Based Therapy_Chapter 3 (Book Club Japan).pdf
Jun Kashihara
•
679 visualizações
[DL輪読会]モデルベース強化学習とEnergy Based Model
Deep Learning JP
•
1.9K visualizações
知識創造型学習支援システムと開発と研究活動への適用
Kotaro Miura
•
35 visualizações
220630_ishizone_intro.pdf
ssuser70401c
•
13 visualizações
2014年・臨床研修ws・genericバージョン
Ikegami Keiichi
•
356 visualizações
Mais de Deep Learning JP
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
Deep Learning JP
147 visualizações
•
28 slides
【DL輪読会】事前学習用データセットについて
Deep Learning JP
193 visualizações
•
20 slides
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
Deep Learning JP
147 visualizações
•
26 slides
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
Deep Learning JP
195 visualizações
•
30 slides
【DL輪読会】Can Neural Network Memorization Be Localized?
Deep Learning JP
457 visualizações
•
15 slides
【DL輪読会】Hopfield network 関連研究について
Deep Learning JP
940 visualizações
•
29 slides
Mais de Deep Learning JP
(20)
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
Deep Learning JP
•
147 visualizações
【DL輪読会】事前学習用データセットについて
Deep Learning JP
•
193 visualizações
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
Deep Learning JP
•
147 visualizações
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
Deep Learning JP
•
195 visualizações
【DL輪読会】Can Neural Network Memorization Be Localized?
Deep Learning JP
•
457 visualizações
【DL輪読会】Hopfield network 関連研究について
Deep Learning JP
•
940 visualizações
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
Deep Learning JP
•
268 visualizações
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
Deep Learning JP
•
189 visualizações
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
Deep Learning JP
•
574 visualizações
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
Deep Learning JP
•
409 visualizações
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
Deep Learning JP
•
1.1K visualizações
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
Deep Learning JP
•
377 visualizações
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
Deep Learning JP
•
338 visualizações
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
Deep Learning JP
•
601 visualizações
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
Deep Learning JP
•
696 visualizações
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
Deep Learning JP
•
301 visualizações
【DL輪読会】Deep Transformers without Shortcuts: Modifying Self-attention for Fait...
Deep Learning JP
•
285 visualizações
【DL輪読会】マルチモーダル 基盤モデル
Deep Learning JP
•
849 visualizações
【DL輪読会】TrOCR: Transformer-based Optical Character Recognition with Pre-traine...
Deep Learning JP
•
452 visualizações
【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...
Deep Learning JP
•
213 visualizações
Último
磁石内臓イヤリングによる磁力変化を利用したジェスチャ識別
sugiuralab
93 visualizações
•
1 slide
骨抜きアジャイルの骨を生み出す 〜私(スクラムマスター)のXP学習記録〜(XP祭り2023 発表資料)
NTT DATA Technology & Innovation
442 visualizações
•
44 slides
インフラチームとCCoEの関係.pptx
ssuser5c7ee4
73 visualizações
•
18 slides
ヒアラブルデバイスにおける音漏れ信号を用いた空中ジェスチャ認識
sugiuralab
83 visualizações
•
1 slide
遠征ドルヲタのための便利サイトを作ってみた
Kenta Fujimoto
93 visualizações
•
24 slides
指側面を入力インタフェース化するリング型デバイス
sugiuralab
5 visualizações
•
1 slide
Último
(11)
磁石内臓イヤリングによる磁力変化を利用したジェスチャ識別
sugiuralab
•
93 visualizações
骨抜きアジャイルの骨を生み出す 〜私(スクラムマスター)のXP学習記録〜(XP祭り2023 発表資料)
NTT DATA Technology & Innovation
•
442 visualizações
インフラチームとCCoEの関係.pptx
ssuser5c7ee4
•
73 visualizações
ヒアラブルデバイスにおける音漏れ信号を用いた空中ジェスチャ認識
sugiuralab
•
83 visualizações
遠征ドルヲタのための便利サイトを作ってみた
Kenta Fujimoto
•
93 visualizações
指側面を入力インタフェース化するリング型デバイス
sugiuralab
•
5 visualizações
拡散する画像生成.pdf
NTTDOCOMO-ServiceInnovation
•
226 visualizações
MLOps Course Slides_JP(配布用).pdf
Yuya Yamamoto
•
250 visualizações
NoSQL/SQLデュアルインターフェースを備えた IoT向けデータベースGridDB - 強化された時系列データ管理・検索機能について -
griddb
•
7 visualizações
PostgreSQLのバグとの付き合い方 ~バグの調査からコミュニティへの報告、修正パッチ投稿まで~(Open Source Conference 202...
NTT DATA Technology & Innovation
•
39 visualizações
画像生成AIの問題点
iPride Co., Ltd.
•
127 visualizações
【DL輪読会】Foundation Models for Decision Making: Problems, Methods, and Opportunities
1.
1 Foundation Models for
Decision Making: Problems, Methods, and Opportunities 2023.4.21 Presenter: Tatsuya Matsushima @__tmats__ , Matsuo Lab
2.
基盤モデルを意思決定問題に用いる研究に関するレビュー論文 • 大規模データで事前学習された基盤モデルは幅広い画像や言語 タスクで高い性能を示している • 基盤モデルを実用的な連続意思決定問題に利用するための アプローチを整理 概要 2
3.
Foundation Models for
Decision Making: Problems, Methods, and Opportunities • Sherry Yang1,2, Ofir Nachum1, Yilun Du3, Jason Wei1, Pieter Abbeel2, Dale Schuurmans1,4 • 1Google Brain, 2UC Berkley, 3MIT, 4University of Alberta • https://arxiv.org/abs/2303.04129 • v1: 2023/3/7 • 本発表では,本論文で紹介されているそれぞれの研究よりも, 本論文自体のまとめ方や構成を中心に話します • 紹介されている論文を読む会は別の機会にちゃんとやりたい ※特に出典が明記されていない図は当論文から引用 書誌情報 3
4.
背景 多様なデータセットで自己教師あり学習で事前学習された 基盤モデルは多様な下流タスクで高い転移性能を示している • 画像やテキストの世界だけではなく,外部の要素やエージェントに 接する応用への期待も高まる • 例)ロボットの制御・プランニング・・・etc 4
5.
背景 基盤モデルを外部の要素やエージェントと関わる対象に応用しよ うとすると新しい課題も生まれる • 外部の要素から与えられるフィードバックからどのように 学習するか? • 言語や画像などの大規模データセットに含まれない多様な モダリティにどのように適応するか? •
例:ロボットの行動 • 長期のreasoningやplanningをいかに行うか? これらの課題は今まで連続意思決定問題として扱われてきた 5
6.
基盤モデルと連続的な意思決定問題の関係の整理 基盤モデルとしては • 単純なzero-shot/few-shotの画像・言語モデルだけではなく 長期のreasoningや複数の相互作用の問題を含むようになっている 連続的意思決定問題としては • 複数のモデル・複数のタスク・汎用的なエージェントの学習のため に,これまでと比べて格段に大きいデータセットを使うように なってきている CLIPやViTなどの事前学習モデルの利用によって 両者の境界がより曖昧になりつつある 6
7.
2.前提知識 • 連続的意思決定問題の定式化 • MDP •
模倣学習 • 強化学習 • プランニング・最適制御 • シナリオの例 7
8.
この先出てくるデータセットに関する表記 • 1つもしくは複数の方策から生成された軌道からなるデータセット • 行動や報酬を含むインタラクティブな軌道 •
(普通の)画像や言語のデータセット • 静的なデータセット( ) 𝒟 RL = {τ} 𝒟 x ∼ 𝒟 8
9.
オフラインRLとの比較 オフラインRL • タスク固有のデータセット (タスク固有の状態・行動・報酬) からRLアルゴリズムを学習することに焦点をおく 意思決定のための基盤モデル •
多様なデータ(例:画像や言語領域のデータ)を使った 自己教師あり学習の後にタスク特有の適応 𝒟 RL 9
10.
シナリオの例① 人間のフィードバックを利用した対話エージェント • プロンプトや報酬ベースのfine-tuningを利用してより複雑な reasoningや対話タスクを徐々に学習していく • 10
11.
シナリオの例② インターネットを環境として利用 • インターネットは無制限の環境としてみなせる • 大量の情報があり,相互作用するコストが小さい 11
12.
シナリオの例③ 共通の方策としての動画生成 • 状態と行動の対応が環境によって異なるのが汎用的なロボットを学 習する際の問題になっている • 方策の学習をテキストで条件づけられた動画生成の問題と同じよう にみなすことができるはず 12
13.
3.条件付き生成モデルとしての基盤モデル • 生成モデルの定式化 • 潜在変数モデル •
自己回帰モデル • 拡散モデル • エネルギーベースモデル • エージェントの挙動に関する生成モデル • 世界に関する生成モデル 13
14.
エージェントの挙動に関する生成モデルとして利用 ① 基盤モデルをエージェントの挙動の事前知識として用いる場合 • (RL界隈の)skill,optionともいえる •
軌道に関連する何らかの情報で条件づけられる行動の最尤推定 • VAE・自己回帰モデル・transformer・拡散モデルなどが使える 14
15.
エージェントの挙動に関する生成モデル ② 大量の挙動に関するデータセットを用いた汎用エージェントを 学習する場合 • 複数のタスク固有のデータセット
を組み合わせて使う • 例)Gatoでは共通のtokenizationを使って統合 • 大量にあるインターネットスケールの を活用 • ただし,タスク固有のデータセット よりも行動のアノテーションが 少ない • 例)UniPiでは動画の予測モデルと,生成された動画から行動を予測す る逆モデルを学習 𝒟 RL 𝒟 𝒟 RL 15
16.
エージェントの挙動に関する生成モデル ③ 大規模なオンライン学習の利用 • シミュレータやゲーム環境は本来大規模なデータからエージェント を学習できるはず •
しかし現時点でそこまで基盤モデルが活用されているわけではない ④探索やエージェントの自己改善に利用 • タスク固有のデータセット に探索行動が含まれていたら, 探索の挙動自体を獲得できるはず • 例)algorithm distillation 𝒟 RL 16
17.
世界に関する生成モデルとして利用 ① モデルベースのプランニングのための1ステップの報酬とダイナミクス の予測 • オフラインのデータ
が与えられたもとで,報酬関数 と遷移関数 を 生成モデルとして学習 • 自己回帰モデルとしては以下のようにかける • Trajectory Transformerは状態・行動・報酬の各次元を離散化してGPT- styleの自己回帰モデルを適用 • VQ-VAEやMAEを使って観測を離散化してtransformerや潜在空間上のダイ ナミクスモデルを適用する手法もある τ ∼ 𝒟 RL ℛ 𝒯 17
18.
世界に関する生成モデルとして利用 ② 長期的な生成モデルを使ってプランニングに利用 • 軌道
の同時分布を拡散モデルを使って直接モデル化 • この分布が得られていればプランニングは簡単になる • に軌道レベルの実現したい性質を反映すれば良い • 例)ゴール,スキル,ダイナミクスの制約,テキストの説明 τ z(τ) 18
19.
4.表現学習器としての基盤モデル • Plug-and-Playな利用 • タスク指示に画像と言語の利用 •
連続的意思決定のための表現学習 19
20.
Plug-and-Playな利用 意思決定するエージェントの認識モジュールの前処理や初期値と してoff-the-shelfな基盤モデルを利用 • 例)動画キャプショニングモデルを用いてエージェントの観測を テキストに起こして情報を付加する • 例)CLIPなどのvision-languageモデルを利用して,エージェント の観測や報酬を処理するために画像と言語をalignする •
ドメイン固有な行動空間を持つような設定には活用しにくい 20
21.
タスク指示に画像と言語を利用 テキストのコマンドや画像の入力を,エージェントのロバストで 汎用的でマルチタスクの方策の学習に利用する • Plug-and-Playな基盤モデルの利用法の一つ • 例)現在のロボットの状態のほかに,「ドアを閉める」というテキ ストの説明や,ドアが閉まっているゴールの画像を付加する • 21
22.
連続的意思決定問題のための表現学習として利用 • 順モデル・逆モデル・価値関数・好奇心の評価指標として利用 • 時間的な表現学習のために利用 •
例)時系列方向にcontrastive learning • 状態・行動・報酬・ダイナミクスの表現をMAEとして学習 • オフラインRLをpretrainingとして利用 • 22
23.
5.エージェントと環境としての基盤モデル 事前学習された基盤モデルがエージェントや環境として作用する ケース • 人間との相互作用する場合 • ツールと相互作用する場合 •
基盤モデルが環境になる場合 23
24.
人間と相互作用する場合 対話エージェントの最適化をする場合 • 広範なデータ も対話のタスク特化のデータ
も同じテキストの モダリティ • 自己教師あり学習を事前学習に使い,タスク特化のfine-tuningが できる問題設定 • 例)chat GPTで使われているRLHF(Reinforcement Learning with Human Feedback) • 最新の情報の取り込みやhullicinationに課題が残る 𝒟𝒟 RL 24
25.
ツールと相互作用する場合 Webブラウザのようなツールを相互作用できる環境とみなす • 大量でオンラインのシミュレータへのアクセスが必要な手法を実問 題に利用できるようになる • 例)MCTSを使ったプランニング • 25
26.
基盤モデルが環境になる場合 ある答えを引き出すために反復的にpromptingする場合, 基盤モデル自体が環境になっているとみなせる • 高次の行動を使ってpromptを生成する • 例)DECOMPOSE,
RANK, DENOISE, PARAPHRAZE • 例)SUMMARISE, PRUNE, SEARCH • これらの行動によってより長いコンテクストが使えるようになる 26
27.
6.残る問題と課題 • データセットをいかに収集・活用するか • 環境とタスクをいかに構造化するか •
基盤モデル自体の改善 • 意思決定の改善 27
28.
データセットをいかに収集・活用するか 基盤モデルを意思決定問題に活用する際の最も大きい問題の一つ はデータセットのギャップ • Vision-languageの大規模なデータセット とタスク固有のインタ ラクティブなデータセット
はモダリティやその構造が異なるこ とが多い • 後処理で を にすることもできる • 例)hindsight relabellingをする • を複数集めて のように扱うこともできる • 例)Gato 𝒟𝒟 RL 𝒟𝒟 RL 𝒟 RL 𝒟 28
29.
データセットをいかに収集・活用するか 存在するvision-languageのデータセット の例 𝒟 29
30.
データセットをいかに収集・活用するか 存在する意思決定のデータセット の例 𝒟 RL 30
31.
環境とタスクをいかに構造化するか 基盤モデルが画像やテキストをタスクのインターフェイスにしている のに対し,意思決定問題は個別の状態空間・行動空間を持つ • それぞれの意思決定問題間で知識を共有したり汎化するのが難しい 統一的なエンコーディング • 異なる環境の全ての状態・行動・報酬に統一のエンコーディングをして 時系列モデリングとして扱う 環境をテキストにしてしまう •
観測をキャプションモデルを使って書き起こす 動画を使って方策を表現する • 動画予測と行動予測を学習(ただし追加的な学習が必要) 31
32.
基盤モデル自体の改善 長いコンテクストへの対応と外部メモリの利用 • 効果的な意思決定のためには観測と行動の過去の長い歴史が必要なことがある • Promptingにより中間処理しる(ただしプロンプト依存) 複数の基盤モデルを組み合わせる •
言語を使って複数の基盤モデルを操作する • 言語はさまざまな基盤モデルの共通のインターフェイスになっている 世界に基盤モデルをグラウンドさせる • 例)シミュレータの中間生成物を行動生成のコンテクストに利用 • Mind's eyeなど • 例)シミュレータによる評価をフィードバックとして用いて最適化 32
33.
意思決定の改善 期待された挙動をいかに引き出すか? • Task-agnosticな基盤モデルをtask-specificな意思決定モデルに効 率的に適応させる必要がある • Instruction
finetuning, CoTの利用などを使って欲しい挙動に近づけ る オフラインからオンラインにする • 事前学習された基盤モデルをRLなどで直接finetuningする • 大量のオンラインのデータが必要になる • これを実現するためのインフラ自体が必要 33
34.
7.まとめ 基盤モデルは汎用人工知能を実現するための道標になるだけでは なく,意思決定システムのさまざまな構成要素を特徴づける • エージェントの挙動と世界の生成モデル • 世界に関する知識の表現 •
インタラクティブなエージェントと環境 しかし,基盤モデルを意思決定問題に用いるためには,データの モダリティの違いや環境やタスクの不明瞭さなどに課題がまだ残 っている 34
35.
感想 • 基盤モデルの概念のもとに,系列モデリング問題として,強化学 習・模倣学習の手法を整理すると最近のかなり多くの研究が この枠組みの中に入るのが面白い • 例)Decision
Transformer, Trajectory Transformer, Diffuser, Gato, Diffusion Policy, EBMベース(implicit BC)… • この先ロボット学習がどういうアプローチをとっていくかを考える 上で有益なマップになりそう 35
36.
おしらせ(ぜひご投稿ください) ①「基盤モデルのロボット応用」に関するオーガナイズド セッションをRSJ2023で企画しています. • 東大JSKの河原塚先生と合同で企画 ②「基盤モデルのロボット応用」に関する特集号を 英文誌Advanced Roboticsで企画しています •
東大JSK河原塚先生に加えて,理研AIPの栗田さん, Google BrainのAndy Zeng,Meta AIのChris Paxton, 立命館大谷口先生,早大尾形先生 がEditor 詳細は https://sites.google.com/view/robotics-foundation- models 36
37.
37