O slideshow foi denunciado.
Utilizamos seu perfil e dados de atividades no LinkedIn para personalizar e exibir anúncios mais relevantes. Altere suas preferências de anúncios quando desejar.

Latent Classifier Generative Adversarial Netsによる動詞のない命令文理解

849 visualizações

Publicada em

20170913日本ロボット学会学術講演会発表資料

Publicada em: Tecnologia
  • Seja o primeiro a comentar

Latent Classifier Generative Adversarial Netsによる動詞のない命令文理解

  1. 1. Latent Classifier Generative Adversarial Nets による動詞のない命令文理解 国立研究開発法人 情報通信研究機構 杉浦孔明,河井恒
  2. 2. Motivation: 生活支援ロボットに対し短い文で命令できれば 便利である • 生活支援ロボットは、ユーザと家族を時間的拘束から解放し得る – 背景: すべての生活支援を家族や介助犬(育成に2年・300万円 必要だが普及率は0.5%)が担当できる訳ではない https://www.toyota.com/usa/toyota-effect/romy-robot.html 音声(言語) を使った場合 はどんな課題 があるの? 候補が少ないならGUIでいい けど、多いなら音声のほうが 早いのでは? • 今回研究として切り出した問題 – 物体操作命令を対象とした、状況依存言語理解
  3. 3. 問題設定: 物体操作命令を対象とした状況依存言語理解 • 何が難しいか? – 不完全情報(どこ/何/どうする、が一部欠損) – 状況依存性(タスク成功率最大の理解結果が変わる) Instruction: “Bottle, please” Name: bottle Situation: An almost empty plastic water bottle. The water bottle on the desk. ユーザの意図 “Bring the plastic bottle on the desk to me, please”
  4. 4. 本研究では、物体認識[Redmon+ 15]、image-to-text[Vinyals+ 14]、 音声対話[Sugiura+ 15]は扱わず、状況依存言語理解のみを扱う 「カウンターの上に座っている マイクロ波オーブン」 x2 音声対話 物体認識
  5. 5. 関連研究:GANの応用では「生成」がメインであり、言語 理解にGANを応用した研究はほとんどない 分野 例 状況依存言語理解 • 物体操作対話 [Iwahashi & Sugiura+ 10] • 移動指示に関するSLU[Kollar+ 10] Generative Adversarial Nets (GAN) • GAN [Goodfellow+ 14]:Fakeデータを生成する GeneratorとReal/Fakeデータを判別するDiscriminator の敵対的学習 • Conditional GAN [Mirza+ 14], InfoGAN [Chen+ 16] GAN-based classification • AC-GAN [Odena+ 16]:Discriminatorの出力にクラス ラベルを追加 • CatGAN [Springenberg 15], cGAN classifier [Shen+ 17] LAC-GANの着想 • タスクが生成でなく分類であるなら、GeneratorにHuman- readableなデータ(画像、言語等)を生成させなくてもよい
  6. 6. Generative Adversarial Nets (GAN) [Goodfellow+ 14]: Human-readableな「擬似データ」を、Gが生成 G (Generator) 𝑝𝑝(𝑆𝑆 = 𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟|𝑥𝑥) 𝒙𝒙𝒇𝒇𝒇𝒇𝒇𝒇𝒇𝒇 𝒛𝒛 𝒙𝒙𝒓𝒓𝒓𝒓𝒓𝒓𝒓𝒓 D (Discriminator) Discriminator(D)とGenerator(G)のコスト関数 DCGAN [Radford+ 15]InfoGAN [Chen+ 16] 乱数
  7. 7. 提案手法 Latent Classifier Generative Adversarial Netsは、 Gが大量生成したサンプルをdata augmentationに用いる PA ReLU BN ReLU BN ReLU softmax BN ReLU BN tanh BN ReLU OR BN ReLUReLU dropout softmax 𝒙𝒙𝒓𝒓𝒓𝒓𝒓𝒓 G (Generator) D (Discriminator) E (Extractor) BN: batch normalization PA: Pre-Activation 𝑝𝑝𝐷𝐷(𝑦𝑦) 𝑝𝑝𝐷𝐷(𝑆𝑆) 𝒙𝒙𝒇𝒇𝒇𝒇𝒇𝒇𝒇𝒇 𝒄𝒄 𝒛𝒛 𝒙𝒙𝒓𝒓𝒓𝒓𝒓𝒓𝒓𝒓 400 400 100 50 100 50 100 100 100 100 50 104 5 4 𝑝𝑝𝐸𝐸(𝑦𝑦) 𝒙𝒙 分類に有効な表現をExtractorに生成させ、 それをGeneratorに真似させる点がミソ LAC-GANの構成
  8. 8. Dのコスト関数を、Sに関するコストと、分類結果のクロス エントロピーの重み付き和とする • LAC-GANの学習順序 z,cの生成+Dの学習 (Gは固定) z,cの生成+Gの学習 (Dは固定)Eの学習 • E,D,Gのコスト関数 (cross entropy)
  9. 9. 分散表現 Visual Genomeデータセット[Krishna+ 16]を元に、評価用 データセットを構築した • Object Manipulation Multimodal Data Set – 動作タスク成功度(=動作が成功しそうか)を人手でラベル付け • 言語由来の特徴量のみを利用 – PV-DM[Le+ 14](472万文で学習)を用いて、「名称」「状況」の 説明文をパラグラフ分散表現に変換 Name: bottle Situation: insulated water bottle with sipper top. ... a set of keys by the water bottle. ラベル 1:禁止 2:不可能 3:困難 4:容易 分散表現 Name: bottle Situation: a bottle in a woman's hand. … woman holding a water bottle. ラベル 1:禁止 2:不可能 3:困難 4:容易 タスク成功に重要な情報が 言語で表現されている
  10. 10. 結果: LAC-GANはBaselineよりも良く、単純なDNNよりも良い • 入力=400次元(分散表現)、出力=4クラス(動作成功度) • サンプル数=670(学習:検証:テスト=80%:10%:10%) • 評価尺度=分類精度 – 「Validationセットで最良性能のモデル」のテストセット精度 手法 テストセット精度 (汎化誤差) Baseline(AC-GAN[Odena+ 16]、PA無) 50.7% Baseline(AC-GAN、PA有) 58.2% Extractorのみ(=単純なDNNに相当) 61.1% 提案手法(LAC-GAN) 67.1% LAC-GANでData augmentationしたほうがよい Pre-activation(PA) による標準化の効果
  11. 11. 背景 生活支援ロボットに対し、短い文で命令できれば 便利である 提案 LAC-GANによる動作タスク成功度を最大化する 状況依存命令文理解 結果 AC-GANや単純なDNNなどのベースラインより 高い精度 【お知らせ】 NICT先進的音声技術研究室では、研究員を 募集しています(締切2017/11/29) まとめ

×