Anúncio
Anúncio

Mais conteúdo relacionado

Similar a 第7回WBAシンポジウム:松嶋達也〜自己紹介と論点の提示〜スケーラブルなロボット学習システムに向けて(20)

Mais de The Whole Brain Architecture Initiative(20)

Anúncio

Último(20)

第7回WBAシンポジウム:松嶋達也〜自己紹介と論点の提示〜スケーラブルなロボット学習システムに向けて

  1. 自己紹介と論点 提示 2022.10.12 16:25-16:40 東京大学大学院 工学系研究科 松尾豊研究室 博士課程 松嶋 達也 matsushima@weblab.t.u-tokyo.ac.jp @__tmats__ 第7回全脳アーキテクチャ・シンポジウム
  2. 自己紹介 松嶋 達也 (Tatsuya Matsushima) 技術経営戦略学専攻 松尾豊研究室 博士課程3年 ● ロボット学習・サービスロボティクス ● 深層学習を利用した模倣学習・強化学習手法 開発 ● 人間と共生できるような適応的なロボット 開発と, そ ようなロボットを作ることによる生命性や知能 構成的な理解に興味があります とくに現在 ,多様な環境・タスクに適応できるサービス ロボット 実現に向け,ロボットが実世界で行動して収集・ 蓄積したログデータ(オフラインデータ)を利用して制御 改善に役立てる枠組み 研究をしています 2
  3. 研究活動 概観 サービスロボットへ 利用を意識したロボット学習手法 開発・実システム構築を通じた 実証(データ)・研究を促進するエコシステム構築 3方向に取り組む 3 コアな手法 開発 研究を加 させる エコシステム 構築 実証 (データ・実応用) ・メタ模倣学習 2020/10:英文誌Frontiers in Robotics & AI採録 ・オフライン強化学習 2021/1:国際会議ICLR2021採録 など ・家庭内ロボットシステム 構築・検証 2020/12:RCJ2020テクニカルチャレンジ優勝・総合準優勝 2021/9 :WRS2020 Partner Robot Challenge準優勝 (Advanced Robotics採録) ・サービスロボット 共同研究 など ・教育活動を通じた人材育成(仲間を増やす) 2020年度〜:強化学習に関する自主講義を夏冬2回開始(約300名/年) 2021年度〜:工学部・工学系でロボット学習系 PBLを開講 2021年度〜:世界モデルに関する講義を開講(受講者募集中) ロボットシステム入門教材(ルンバハック)をOSSとして開発 ・ロボット学習分野コミュニティ形成 2020/8:TRAILとして組織化
  4. 松尾研ロボットチーム 歴史 ● 2018/7 HSRが松尾研に到着 ○ 初めて 実機&メンバーが3人しかおらず開発が進まない時代が続く ● 2019/6 立命館大谷口研訪問・SDEを利用開始 ● 2019/8 WRS2020にエントリ ○ 松尾研 ロボティクスで 技術力向上を目指す ○ 学部生などを募集してサークル的に開発を開始( 8名規模) ● 2020秋 システムV1が完成 ● 2020/12 RCJ2020に参加 ○ 総合準優勝.テクニカルチャレンジ優勝 ● 2020冬 システムV2 開発開始 ○ V1 反省を生かし高 化を目指す.開発体制 改善 ● 2021/4 東大 正規 プロジェクト演習型講義として導入 ○ 工学部・工学系研究科「人工知能応用プロジェクト」( 15名規模) ● 2021/6 松尾研下ロボットサブグループ「TRAIL」を組織 ● 2021/9 WRS2020参加・準優勝 4
  5. 松尾研ロボットチーム 活動体制 TRAIL ウェブサイトを参照 ● https://trail.t.u-tokyo.ac.jp/ja/ 5
  6. 研究活動 目的・背景 サービスロボット 活用により,インクルーシブな社会を創る ● ロボットを使ってできることが増えると,社会と 関わり方が変化 サービスロボット ● 人々 生活に密接に関わる領域で 自動化を目的としたロボット ● 例)医療・福祉・介護領域,家庭内,小売店舗 …で 利用 ● 少子化・労働力不足へ 懸念を背景に活用が期待される ● しかし,産業用ロボットに比べて実社会で 導入が進んでいない ➡汎用性・安全性 観点から要求が大きく異なるため 6 図出典: http://rtc.nagoya.riken.jp/RIBA/, https://www.toyota.co.jp/jpn/tech/partner_robot/robot/#link02, https://orylab.com/product/orihime-d/
  7. サービスロボットシステム 課題 環境・タスクが構 化されていない(unstructured) ● 常に変化する環境内で非常に多く タスクを達成する必要がある 例)家庭内ロボット(生活支援ロボット)による家事 ● 片付けタスク一つをとっても,家庭ごとに間取りや家具が違う ● 同じ家庭でも,日によって家 中にある物体も変わってくる ● さらに,洗濯物たたみもやってほしい・・・etc ● 個別 環境やタスクそれぞれを網羅するように, ありうる全て 制御を(がん って)設計する 非現実的 7
  8. サービスロボットシステム 課題 環境・タスクが構 化されていない(unstructured) ● 常に変化する環境内で非常に多く タスクを達成する必要がある 例)家庭内ロボット(生活支援ロボット)による家事 ● 片付けタスク一つをとっても,家庭ごとに間取りや家具が違う ● 同じ家庭でも,日によって家 中にある物体も変わってくる ● さらに,洗濯物たたみもやってほしい・・・etc ● 個別 環境やタスクそれぞれを網羅するように, ありうる全て 制御を(がん って)設計する 非現実的 そ 逆に,何らか 方法でロボットが動いてしまえ データを使って制御を学習できる で ? 8
  9. ロボット学習で オフラインデータ 活用 ロボットが実世界で行動して収集・蓄積したログデータ (オフラインデータ)を利用して制御 改善に役立てる ● ロボットがなんらか 形で動け ,データが蓄積され ロボット ソフトウェアが改善される世界観 ● 近年 スマホアプリ ようなイメージ 9
  10. 研究 全体像 ロボットが動作することで蓄積されるオフラインデータから, 多様な環境・タスクに適応できる制御方策 学習手法を開発し, スケール可能なサービスロボットシステムを構築する方法 体系化を目指す 10
  11. VR機器を使ってロボット 遠隔操作 遠隔操作によるデータ収集 11 Robot arm (xArm7) HSR (beta-version)
  12. Deployment-Efficient Reinforcement Learning via Model-Based Offline Optimization Tatsuya Matsushima1 *, Hiroki Furuta1 *, Yutaka Matsuo1 , Ofir Nachum2 , Shixiang Shane Gu2 1 The University of Tokyo, 2 Google Brain (*Contributed Equally) Contact: matsushima@weblab.t.u-tokyo.ac.jp ICLR2021
  13. 概要:オフラインデータから 方策改善 ● これまでに何らか 方法で集められたデータセット(オフラインデータ) からデータセット以上 性能を達成する方策を求めることを目指す ● 実応用上 コストとリスクを意識して,方策がデプロイされた回数に 関するRL 性能指標(デプロイ効率)を提案 ● 高デプロイ効率を達成するため 手法として,オフラインRL 設定で ダイナミクスモデルを学習しながら方策改善するBREMENを提案 ● 物理シミュレーション(locomotion/manipulation)を用いた 多様なベンチマークで高サンプル効率と高デプロイ効率を確認 13
  14. 背景: 強化学習 実応用時 コストとリスク 削減 連続的な意思決定問題において(深層)強化学習(RL) 有効性が示されてきた ● 超高頻度なデータ収集と方策 改善に依存 しかし,新たな探索的な方策 デプロイに 潜在的なリスクとコストがあり, (ある種 )実応用で 好ましくない ● e.g. ロボット制御,医療,教育 14
  15. 関連する枠組み: オフラインRL オフラインRLで 固定 データセットから方策を学習する ● 何らか suboptimalな性能 データセットがすでに入手できている仮定 ● 通常 1から学習を行わない 15
  16. 貢献①:RLアルゴリズム 新しい指標を提案 方策がデプロイされた回数に関する指標(デプロイ効率,deployment-efficiency) を提案 ● サンプル効率(何個 データを使うか)が高いアルゴリズムでも, deployment-efficiency 非常に低くなりうる e.g. SAC ● オンラインRL・オフラインRL 手法が直接比較可能になった 16
  17. 貢献②:デプロイ効率 高い手法BREMENを提案 BREMEN(Behaviour-Regularized Model Ensemble)を提案 ● モデルベース オフラインRL手法 ● 高いサンプル効率・デプロイ効率を達成 効率的で安定的な方策学習(改善) ため 工夫を組み込む 1. ダイナミクスモデル アンサンブルを利用した方策 学習 2. デモデータから推定した挙動方策によるconservativeな方策改善 17
  18. オフラインRL手法として サンプル効率 検証 既存 データセットを10-20倍小さいデータセットにしても方策を改善可能 ● 既存手法 不安定で,データセット スコアより悪化するさえある BREMEN オフラインRL 設定で安定していてサンプル効率が高いことを確認 18
  19. デプロイ効率 検証(locomotion) オフラインRL手法を繰り返し適用して検証 ● デプロイ回数を制約した上でランダムなデータセットからオンライン 学習 BREMEN (purple) デプロイ回数 制約下で顕著な性能向上を示した 19
  20. World Robot Challenge 2020 -- Partner Robot: A Data-Driven Approach for Room Tidying with Mobile Manipulator Team Weblab Team Leader: Tatsuya Matsushima Advisor: Yusuke Iwasawa & Yutaka Matsuo Team Contact: robocup@weblab.t.u-tokyo.ac.jp Accepted as a journal paper in “Advanced Robotics” (in preparation) arXiv preprint: https://arxiv.org/abs/2207.10106
  21. 実世界で サービスロボットシステム構築 ロボット学習を用いた家庭内サービスロボットシステム構築 可能性と課題を洗い出すため,実システムを構築し検証(約2年間) ● トヨタ自動車社製HSR (Human Support Robot)を利用 ○ モバイルマニピュレータ(自律移動台車+ロボットアーム) ● 家庭内で 「お片付け」と「取ってきて」タスクを行う ● 世界大会World Robot Summit (WRS) 2020競技会出場を目指す ○ 2021/9/6-12に開催 21 9/6-12@中部国際空港 部屋 片付けタスク 指定された物体を棚から取ってくる
  22. WRS2020パートナーロボットチャレンジ タスク 22 Task1: 部屋 お片付け ● 15分間で30個 物体を正しい場所に 片付ける ○ 25個 既知 物体(YCB)と 5個 未知物体が出現 ● 物体 カテゴリに応じて片付ける先 場所が決まる ○ e.g. 食品 トレー 上 ● 出現する物体とそ 配置 毎回ランダムに変化 Task2: 障害物回避・棚から指示されたも をとってくる ● 通路にある小さい物体に衝突せずに 自律移動 ● 指示された物体をocclusionが 激しい棚から取り出して, 家具や物体に衝突せずに持って指示 した人に手渡す ● 物体 配置や指示 毎回ランダム
  23. WRS2020 結果 WRS2020パートナーロボットチャレンジ準優勝 ● 予選総当たりで 1位 九工大チームに僅差 (652points vs 630 points) ● 動画 準決勝(vs 玉川大) ○ 我々 チーム 左側 23 https://youtu.be/H96I4mRltbg?t=16905 8倍
  24. プロジェクトで注力した点 我々 狙い 深層学習を用いたモジュールを使い,できるだけシステム内 ヒューリスティク スやハードコーディングを削減し,エッジケースに汎化させる ● 深層学習を用いた物体検出 ● 最新 アーキテクチャを用いた物体認識 ○ 強力な事前学習済みモデル 利用と現場で 軽量な再学習 ● シミュレータを用いた家具や把持姿勢予測 学習 ○ シミュレータを用いて大量 データを生成させ実世界で 汎化を目指す ● データを用いて把持判定する柔らかい触覚センサを開発 24
  25. 基盤モデルを利用した簡単にチューニング可能な物体認識 事前学習済み CLIP (vision transformer, ViTベース)を用いて特徴量抽出 ● 画像・テキスト マルチモーダルモデル ● いわゆる”foundation model” (基盤モデル) ● 下流 全結合層 みを再学習 ○ 現場で軽量に再学習可能 ● Prompt-engineering(言語補助情報 チューニング)も有効 25
  26. 認識 Simulator-to-Real(sim2real)転移 26 家具位置推定モジュールをシミュレータを用いて学習し実機転移 ● ランダムな物体をシミュレータに配置し大量 データセットを生成 ● 深度画像を入力としてFully Convolutional Network (FCN)を用いた セグメンテーションモデルを学習 ● 実世界で 家具 形状・配置にロバスト
  27. 開発体制 工夫(RSJ2022で発表予定) ● Dockerを利用した開発環境 仮想化 ○ ホスト UbuntuやCUDA バージョンに依存しない ○ 簡単に新しい計算機を導入できる(環境構築が非常に楽) ■ WRS大会1ヶ月前に背中PC2台を調達,余裕で間に合う ● Github actionsを用いたCI/CD ○ pushするとDocker imageを自動でビルド ○ シミュレータを使ったCI/CDもやりかけたが reality gapが大 ● データセットや重み バージョニング ○ DVCを利用,データ AWS S3で保管 ○ 会場でも集めたデータをpush/pullして 複数 マシン 間 同期をとっていた ● (割と)アジャイルに開発 毎週土曜日に集まってWRS ルール・設定で 結合テスト・スコア トラック・開発内容 評価 27
  28. これまで 研究を踏まえた考察 オフラインに蓄積されたデモ ,深層強化学習を使って 制御方策 学習する際 強い教師信号(事前知識)になりうる ● 多様なタスク・環境に適応するために 多様なデータが必要 そ ために ①実応用を考慮したサンプル効率 高い オフライン方策学習アルゴリズム 開発 ②データ収集と方策 学習 スケールアップ ため システム設計 両方が必要 28
  29. 話題提供(ご参考) 共通 ● 全脳アーキテクチャ 「脳全体 アーキテクチャに学ぶ」というアプローチで進められてきているが,これ まで ロボティクス 発展においてど ような脳神経科学に関する知見が活用されてきたでしょうか.さら に.これから 発展においてど ような知見が参考になると考えられますか. ○ 例え ,これまであまりロボティクス 文脈で 議論されることが少なかったが注目に値する脳機 能・現象・議論など ありますでしょうか.あるとすると,なぜそれまであまり中心になかった でしょ うか. ● 知能研究 一つ 出口に,開かれた環境下で人間 ようにさまざまな振る舞いを実行できるロボット 実現があるように思います.こ 点に関して,ど ようなロボットやそ 機能が実現されれ ,ひとまず研 究 ゴールに近づいたというようなマイルストーン ようなも ありますか. ● 知能研究とロボット研究を比較すると,身体 扱い方が大きく異なるように思われます.ソフトウェアや演 算装置として 脳だけで なく,それがど ような身体を通じて知能を実現する かについても重要なふ うに思われる ですが,知能研究をする上でど ようなハードウェアを想定すべき,使っていくべきかに関 してご意見 ありますか? ● お二人 議論で 学習によってシステム 知的な振る舞いを構成するという点 大前提としてあると思 います.開かれた環境下(ど ような環境・タスクがやってくる か事前にわからない設定)で柔軟に知的 に動き続けるロボットを作るために ,ど ようなデータをど ようにして集める が良い でしょうか. 29
  30. 話題提供(ご参考) 谷口先生へ ● 全脳 確率的生成モデル 研究について.ど ように確率モデルを立てれ ,それぞれ 認知機能を 実現でき,それらをど ように組み合せられるかという点に着目されているように思います.一方で,それ ら 各モジュールを(もし深層ニューラルネットで記述しようとすると)ど ようなアーキテクチャや学習法 を採用するかに関しても大きな選択 余地があると思われる ですが(例え transformerなどを じめ とする大規模言語モデル),近年 DL アーキテクチャやデータ・学習方法的な研究 発展をど ように 感じていらっしゃいますか? 尾形先生へ ● 深層予測学習 研究について.行動を変化させることでモデル 予測誤差を減らそうとする挙動が得ら れると仰っていたが,繰り返し的に同じような時系列が複数回事前に存在していることが前提であるよう に思われます.エピソード的にしにくいデータが存在している場合(例え ,段階的なタスクや,家庭内で 長時間ロボットを遠隔操作したデータがある場合など),ど ように学習データを構成すれ 良い でしょ うか? 30
Anúncio