O slideshow foi denunciado.
Utilizamos seu perfil e dados de atividades no LinkedIn para personalizar e exibir anúncios mais relevantes. Altere suas preferências de anúncios quando desejar.

生活支援ロボットにおけるGenerative Adversarial Netsを用いた曖昧な指示の理解

631 visualizações

Publicada em

20180606人工知能学会全国大会発表資料

Publicada em: Tecnologia
  • Seja o primeiro a comentar

生活支援ロボットにおけるGenerative Adversarial Netsを用いた曖昧な指示の理解

  1. 1. 生活支援ロボットにおける Generative Adversarial Netsを用いた 曖昧な指示の理解 国立研究開発法人 情報通信研究機構 杉浦孔明,マガスーバ・アリー,河井恒
  2. 2. Motivation: 生活支援ロボットに対し短い文で命令できれば 便利である https://www.toyota.com/usa/toyota-effect/romy-robot.html 音声(言語) を使った場合 はどんな課題 があるの? 候補が少ないならいいけど、 多いならタッチパネルは不便。 音声のほうが便利では? 社会課題 • 要支援者を物理的・経済的に支える 生産年齢人口の減少 • ポテンシャルユーザのなかで介助犬 (育成に2年300万円)の利用者≒0.5% 家族の世話で仕事 辞めないと… 介助犬を世話 できない
  3. 3. 悪い対話例: 質問が多いため不便 ( 質問多すぎ…) ユーザは、「現在把持中のペットボトルをキッチンで一番 大きい棚の3段目の右側に片付けて」とは言わない どのペットボトルですか?どこに片 付けますか?キッチンのどの棚です か?棚の何番目の段ですか?… ペットボトルを 片付けておいて 状況
  4. 4. 問題設定: Carry and Placeタスクにおけるマルチモーダル言語理解 対象タスク:Carry and Place • ユーザに指示された物体を適切 な場所(対象領域)に移動させ るタスク 入力 • 指示文、状態を表す文、(環境 中を巡回して得た)対象領域の カメラ画像 出力 • 対象領域の尤もらしさ
  5. 5. Q. Carry and Placeタスクはどれくらい重要なのか? A. Retrieveタスクと合わせ、約40%をカバー • IAADP*が定義した介助犬タスクのうち、 生活支援ロボットHSRが可能なタスクは 全49細目 • Retrieveと合わせて20細目をカバー – cf. Retrieveタスク言語理解(2017) *International Association of Assistance Dog Partners
  6. 6. 関連研究:GANの応用では「生成」がメインであり、言語 理解にGANを応用した研究はほとんどない 分野 例 マルチモーダル 言語理解 • 物体操作の言語理解・生成[Iwahashi,Sugiura+ 10] • 移動指示の言語理解[Kollar+ 10] • ピッキング指示の言語理解[Hatori+ 18] Generative Adversarial Nets (GAN) • GAN [Goodfellow+ 14]:Fakeデータを生成する GeneratorとReal/Fakeデータを判別するDiscriminator の敵対的学習 • 「The GAN Zoo」=GANをリスト化したサイト GAN-based classification • AC-GAN [Odena+ 16]:Discriminatorの出力にクラス ラベルを追加 • cGAN classifier [Shen+ 17], LAC-GAN [Sugiura+ 17]
  7. 7. デモビデオ
  8. 8. Generative Adversarial Nets (GAN) [Goodfellow+ 14]: Human-readableな「擬似データ」を、Gが生成 G (Generator) 𝑝𝑝(𝑆𝑆 = 𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟|𝑥𝑥) 𝒙𝒙𝒇𝒇𝒇𝒇𝒇𝒇𝒇𝒇 𝒛𝒛 𝒙𝒙𝒓𝒓𝒓𝒓𝒓𝒓𝒓𝒓 D (Discriminator) Discriminator(D)とGenerator(G)のコスト関数 DCGAN [Radford+ 15] 乱数
  9. 9. Latent Classifier GAN (LAC-GAN)によるデータ拡張と 言語理解[Sugiura+ 17] • 分類に有効な表現をExtractorに生成させ、それを Generatorに真似させる点がミソ • Extractorが全結合型のため、画像等に向かなかった 「データが少ないがDNNで精度を 上げたい」タスクに向いている。
  10. 10. 提案手法: MultiModal Classifier GAN(MMC-GAN)のExtractor • マルチモーダルデータのデータ拡張を潜在空間で行う (⇔各入力の次元数は異なるので、元の空間では非効率的) • PV-DM[Le+ 14](472万文で学習)を用いて、「指示文」 「コンテキスト文」をパラグラフ分散表現に変換
  11. 11. Carry and Placeマルチモーダルデータセットの構築 • 日用品をランダムに対象領域に配置 • 画像を撮影(Depthのみ使用) • 指示および状態を表す文をランダムに 生成 – 例:Put down the towel • 対象領域の尤もらしさを4段階でラベ ル付け – HSRによるPlaceの難易度に依存(障 害物、領域の位置、高さ) ラベル A1 A2 A3 A4 計 画像数 212 432 398 240 1282
  12. 12. 定量的結果 指示のみ 指示+状態 指示+状態+画像 手法 GAN type Valid Test Valid Test Valid Test ベース ライン - 35.3 28.6 34.3 26.7 77.0 76.6 提案 GAN 27.1 24.8 28.0 27.5 84.2 79.1 CGAN 28.5 28.8 28.1 27.6 83.7 81.0 • Dへの入力=600次元、出力=4クラス(動作成功度) • サンプル数=1282(学習:検証:テスト=83%:8.5%:8.5%) • 評価尺度=分類精度 – 「Validationセットで最良性能のモデル」のテストセット精度 ベースラインより 提案手法が良い 言語のみでは精度低
  13. 13. テストセットに対する定性的結果およびConfusion matrix 正しい予測 誤分類 似たクラスへの混同 が多い
  14. 14. 背景 生活支援ロボットに対し、短い文で命令できれば 便利である 提案 MMC-GANによるデータ拡張(マルチモーダル) と分類を同時に行う 結果 ベースライン(単純なCNN)より言語理解精度が 高い まとめ

×