O slideshow foi denunciado.
Utilizamos seu perfil e dados de atividades no LinkedIn para personalizar e exibir anúncios mais relevantes. Altere suas preferências de anúncios quando desejar.

生活支援ロボットのマルチモーダル言語理解技術

220 visualizações

Publicada em

2018/09/12 SICE併設イベント

Publicada em: Tecnologia
  • Seja o primeiro a comentar

生活支援ロボットのマルチモーダル言語理解技術

  1. 1. 生活支援ロボットの マルチモーダル言語理解技術 国立研究開発法人 情報通信研究機構 杉浦孔明
  2. 2. ここ10年で 音声コミュニケーション技術は世界を変えた • 2005年頃 – 社会の反応「遅い。性能悪い。 使い物にならない」 • 現在 – 検索の約半分が音声由来(米国) (2010年頃) 長期・地道な基礎研究活動は重要 • 1986年 ATR自動翻訳電話研スタート • 2011年 VoiceTraが100万ユーザ達成
  3. 3. Q. では、ロボットのコミュニケーション機能はすぐ作れるか? A. No! 実際には、研究課題・開発課題は多い 耐雑音性の向上が 必要な例 (信号処理研究) 言語理解精度の向上が 必要な例 (音声言語処理研究)
  4. 4. 生活支援ロボットのマルチモーダル言語処理
  5. 5. Motivation: 介助犬レベルの支援を行う生活支援ロボットの 音声言語理解技術を構築する 社会課題 • 要支援者を物理的・経済的に支える 生産年齢人口の減少 • ポテンシャルユーザのなかで介助犬 (育成に2年300万円)の利用者≒0.5% 家族の世話で仕事 辞めないと… 介助犬を世話 できない
  6. 6. Motivation: 介助犬レベルの支援を行う生活支援ロボットの 音声言語理解技術を構築する https://www.toyota.com/usa/toyota-effect/romy-robot.html 音声(言語) を使った場合 はどんな課題 があるの? 候補が少ないならいいけど、 多いならタッチパネルは不便。 音声のほうが便利では? 社会課題 • 要支援者を物理的・経済的に支える 生産年齢人口の減少 • ポテンシャルユーザのなかで介助犬 (育成に2年300万円)の利用者≒0.5% 家族の世話で仕事 辞めないと… 介助犬を世話 できない
  7. 7. 悪い対話例: 質問が多いため不便 ( 質問多すぎ…) ユーザは、「現在把持中のペットボトルをキッチンで一番 大きい棚の3段目の右側に片付けて」とは言わない どのペットボトルですか?どこに片 付けますか?キッチンのどの棚です か?棚の何番目の段ですか?… ペットボトルを 片付けておいて 状況
  8. 8. Q. 生活支援ロボットによる音声言語理解で何が技術的困難か? A. 主に2つの曖昧性(不完全情報+記号接地)である。 • 不完全情報への対応 – 「どれを・どこに・どうやって」、をユーザが明示的に指定しな ければ動作できない • 記号接地への対応 – 言語的特徴(単語、文節、文脈等)を表す確率モデル – 物理的特徴(物体/シーン、物体間関係性、関節角時系列等)を表 す確率モデル • つまり、 – 言語表現が不完全または欠損した部分を、マルチモーダル情報で どう補うか、が問題
  9. 9. 生活支援ロボット音声対話システム • 変化する状況に応じてユーザの命令を理解し、意図した 物体を取ってくる • 直前に物体を動かされたり、場所を細かく指定されな かった場合でも、命令を適切に理解して実行可能 20fpsレベル(≒物体検出速度)で 言語理解結果を更新可能
  10. 10. マルチモーダル言語理解の関連研究 例 • SHRDLU [Winograd, 1970s] • 物体操作の言語理解・生成[Iwahashi,Sugiura+ 10] • 移動指示の言語理解[Kollar+ HRI10 Best paper](左) • ビデオおよび内容を表す文の対応の学習[Yu+ ACL 2013 Best Paper] • ピッキング指示の言語理解[Hatori+ ICRA18 Best paper](右)
  11. 11. 道具立て1)最近のDeep Neural Network (DNN)のホット トピックであるGenerative Adversarial Nets (GAN) G (Generator) 𝑝𝑝(𝑆𝑆 = 𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟|𝑥𝑥) 𝒙𝒙𝒇𝒇𝒇𝒇𝒇𝒇𝒇𝒇 𝒛𝒛 𝒙𝒙𝒓𝒓𝒓𝒓𝒓𝒓𝒓𝒓 D (Discriminator) Discriminator(D)とGenerator(G)のコスト関数 DCGAN [Radford+ 15] 乱数 1024x1024画像の生成[Karras+ ICLR18]
  12. 12. Latent Classifier Generative Adversarial Nets(LAC-GAN) [Sugiura+2017] 分類に有効な表現をExtractorに生成させ、 それをGeneratorに真似させる点がミソ K. Sugiura and H. Kawai, "Grounded Language Understanding for Manipulation Instructions Using GAN-Based Classification", In Proc. IEEE ASRU, Okinawa, Japan, pp. 519-524, 2017.
  13. 13. Dのコスト関数を、Sに関するコストと、分類結果のクロス エントロピーの重み付き和とする • LAC-GANの学習順序 z,cの生成+Dの学習 (Gは固定) z,cの生成+Gの学習 (Dは固定)Eの学習 • E,D,Gのコスト関数 (cross entropy)
  14. 14. 分散表現 応用1) 動作タスク成功度の予測 • 入力:物体名称+状況(「Bottle, please」) • 出力:動作成功度 • Baseline[Odena+ 16]の精度58.2%を、67.1%に改善 Name: bottle Situation: insulated water bottle with sipper top. ... a set of keys by the water bottle. ラベル 1:禁止 2:不可能 3:困難 4:容易 分散表現 Name: bottle Situation: a bottle in a woman's hand. … woman holding a water bottle. ラベル 1:禁止 2:不可能 3:困難 4:容易 K. Sugiura and H. Kawai, "Grounded Language Understanding for Manipulation Instructions Using GAN-Based Classification", In Proc. IEEE ASRU, Okinawa, Japan, pp. 519-524, 2017.
  15. 15. 応用2)「どこへ」が指定されていない場合に、対象領域 を(障害物・タスク実行難易度に依存して)推定 ※安全性の観点からユーザに敢えて確認を求めることが重要
  16. 16. Multimodal Classifier GAN (MMC-GAN)を開発し、 Carry and Placeタスクの言語理解精度を改善した • 入力例:「お茶を片付けて」 • LAC-GANとの違い=Extractorを 全結合型からCNN型に変更 • MMC-GANにより、精度を 82.2%から86.2%に改善 A. Magassouba, K. Sugiura, H. Kawai, "A Multimodal Classifier Generative Adversarial Network for Carry and Place Tasks from Ambiguous Language Instructions", IEEE Robotics and Automation Letters (with IROS 2018 option), 2018.
  17. 17. 軌道生成: マニピュレーションとコミュニケーションの共通項
  18. 18. 模倣学習の主要手法 手法 References 制御ベース Dynamic Motion Primitives [Ijspeert 2002] ニューラルネット &強化学習 • RNNPB [Sugita 2005, Ogata 2007] • 深層強化学習[Levine 2015] 確率モデル • ガウス過程 [Lawrence 2004], ガウス回帰[Calinon 2010] • 確率最適制御 [松原 2015] • 隠れマルコフモデル(HMM; Hidden Markov Model) [Ogawara 2002, Inamura 2004] • 模倣学習は音声合成と相似形である – 共通: 多次元の時系列回帰 – 違い: 座標変換、衝突回避等 • 模倣学習 ≒動作学習+動作認識+動作生成 杉浦孔明, "模倣学習における確率ロボティクスの新展開", システム制御情報学会誌, Vol. 60, No. 12, pp. 521-527, 2016.
  19. 19. 参照点に依存したHMMによる模倣学習 [Sugiura+ 07][Sugiura+ 11] デルタパラメータの物理的意味 =速度・加速度の2次精度中心差分近似 : 時刻 tにおける位置 最尤の座標系の探索 参照オブジェクトID HMM パラメータ 座標系タイプ * Sugiura, K. et al, “Learning, Recognition, and Generation of Motion by …”, Advanced Robotics, Vol.25, No.17, 2011 : 位置・速度・加速度の時系列 特徴量 AをBにのせる
  20. 20. [Tokuda 2000]の手法で音声と同様に動作軌道生成が可能 最尤軌道生成: 位置・速度・加速度の時系列 AをBにのせる : 差分近似係数の行列 *Tokuda, K. et al, “Speech parameter generation algorithms for HMM-based speech synthesis”, 2000
  21. 21. デモ 21
  22. 22. 模倣学習の展望 • 音声合成で成功した手法は、模倣学習でも使えるはず • 最近の音声合成(声質変換含む) – CycleGAN, PixelRNN, PixelCNN++, Parallel WaveNet, Tacotron2 – 入手可能なソースコードも多い • LINE山本氏: https://github.com/r9y9/Colaboratory
  23. 23. 生活支援ロボットのベンチマーク評価
  24. 24. ベンチマーク評価例1:ロボカップ@ホーム • 生活支援ロボットの競技会として世界最大* – ロボカップのリーグのひとつ – 中心課題:移動マニピュレーション・ヒューマンロボットインタラクション – 8個の規定タスクと3つのデモタスクにより評価される • 技術的難しさ – 未知環境での移動(実店舗)、日用品の把持、騒音下での音声対話 24
  25. 25. ロボカップ関連の社会展開 • Quince: ロボカップレスキューから原子炉建屋投入へ • Kiva SystemsをAmazonが7.75億ドルで買収 → 年間 4.5~9億ドルのコスト削減効果* – 2016年Amazon Picking ChallengeはRoboCupと共催 • ロボカップでのNAOの採用を機にAldebaranが業績を伸 ばし、ソフトバンクが1億ドルを出資 →Pepperの原形 25 by Kiva SystemsQuince NAO:5000台稼働 *Janney Capital Marketsによる試算
  26. 26. ベンチマーク評価例2:World Robot Summit (WRS) 10/17-21 Partner Robot Challenge Virtual Space • 賞金 1位1000万円, 2位300万円, 3位100万円 • 分野:マルチモーダル言語理解、ジェスチャ認識、マルチモーダル言語生成 • シミュレーションが有用性を持つ領域に特化 – 100平米レベルの環境を複数(→リグレッションテストが可能になる) – ランダムに状況を生成して統計的に有意な結果を得る
  27. 27. HandyManタスク: 3つのサブタスクのひとつ • ランダムに生成された指示(言語理解、移動、物体操作)を実行する タスク – 例:「キッチンに行ってペットボトルを見つけて、寝室のテーブ ルに届けて」 • 現状のレベル – タスク達成率19.5%(=WRS Pre-event 2018 1位) ロボット
  28. 28. Fetch and Carry: 「AをBから取る」「AをBに置く」 • ランダムに配置される物体の把持 – 日用品(既知32種類、未知4種類) • ランダムに選択される家具 – 机・テーブル・棚等(15種類) Go to the living room, grasp the apple and give it to me.” x2
  29. 29. 自然言語理解 • 入力: ランダムに生成される長い命令文(平均16単語/文) – 例:「ベッドルームに行って、空のマヨネーズを取って、燃え るゴミのゴミ箱に捨てて」 • 出力 – どこへ(destination) – どこから(source)、何を(target)、どこへ(destination)、 どうする x2
  30. 30. システムインテグレーション視点の展望 「有り物は何で、どこまでやればいいのか」
  31. 31. ツール例 Rospeex On-Premiseによる高速な音声認識(企業向けのみ) • RospeexOn-Premise=Rospeex On-Cloud(5万 ユニークユーザ)を自社内に設置可能 – HSRに搭載可能なサイズ • 顧客の発話履歴をクラウドに送りたくない場合 に最適 • NICT VoiceTraは既に180の企業・研究機関と連携 31 Rospeex On-Cloudユーザ分布 2018/3/2 日経新聞 1面トップ
  32. 32. Q. 何をどこまでやればよいのか? A. IAADPタスクを基準として理解(と実行)を評価すればよい タスク略称 細目 タスク内容 曖昧性 Retrieve 12 Aを持ってくる・捨てる(例:ス マートフォンを持ってくる) 中 Carry 8 AからBにCを移動させる(例:要 支援者から家族に物を渡す) 高 OpenClose 20 ドア・食器棚・引き出し等の開閉 (把手ストラップ有) 低 Following 2 人発見・追跡(例:要支援者のあ とを付いて物を運ぶ) 低 SoftObjManip 7 柔軟物等の複雑な物体操作(例: 食材を布袋から取り出す) 中 IAADP*が定義した介助犬タスクのうち、生活支援ロボットHSRが可能 なタスクは全49細目 *International Association of Assistance Dog Partners
  33. 33. 1. マルチモーダル言語理解 2. マニピュレーションとコミュニケーションの共通項 3. 生活支援ロボットのベンチマーク評価 4. SI視点の展望 まとめ 謝辞:本研究にサポートをいただきました※50音順 • 研究助成( JSPS科研費、 JST CREST、総務省SCOPE) • 共同研究機関(トヨタ自動車)

×