Discriminative Deep Dyna-Q: Robust Planning for Dialogue Policy Learning

EMNLP2018読み会
https://arxivtimes.connpass.com/event/109849/
Discriminative Deep Dyna-Q:
Robust Planning for Dialogue Policy Learning
2018/12/9
株式会社野村総合研究所
デジタル基盤イノベーション本部
ビッグデータイノベーション推進部
岡田智靖

Copyright（C） Nomura Research Institute, Ltd. All rights reserved.
はじめに: 本研究に関連する各種公開情報

Copyright（C） Nomura Research Institute, Ltd. All rights reserved. 2
本研究に関連する公開情報
著者らのグループは近年「対話とディープラーニング」のチュートリアルを数多く提供している
本論文著者ら（国立台湾大学Yun-Nung (Vivian) Chen研究室、およびMicrosoft Research
のJianfeng Gaoらのグループ）は近年「対話システムのためのディープラーニング」の研究で目立って
いるグループで、2017～2018の国際会議でも数多くの関連チュートリアルを提供している
チュートリアル資料はほとんど公開されているので（下記リンクあり）、研究サーベイとして有用です
 EMNLP 2018 (SCAI Workshop) “Towards Open-Domain Conversational AI”
 ACL 2018, SIGIR 2018 “Neural Approaches to Conversational AI” (tech report)
 ICASSP 2017, ACL 2017, Interspeech 2017, COLING 2018
“Deep Learning for Dialogue Systems” (ACL 2017 video)
https://www.csie.ntu.edu.tw/~yvchen/index.htmlhttps://sites.google.com/view/deepdial/

チュートリアル・講演資料の例（EMNLP2018併催ワークショップSCAIの講演資料）
https://github.com/DeepPavlov/scai17/raw/master/slides/2018/SCAI2018_chen.pdf

EMNLP2018で併催された「検索指向の会話AI」ワークショップ https://scai.info/
本研究もEMNLP2018併催のワークショップ “Search-Oriented Conversational AI (SCAI)”
のVivian Chenによる招待講演 “Towards Open-Domain Conversational AI” で紹介された
なお、このワークショップはほとんどがスライド資料も公開されていて、内容も興味深いものが多いので
対話システムに興味がある方にはおすすめです
https://scai.info/

最近のACL, EMNLP, NAACLはビデオが公開されている https://vimeo.com/aclweb
再生数も少ないのであまり気づかれていないのでは
EMNLP2018もビデオ記録されているのでそのうち公開されるはず
最近のACLはスライド資料や動画を研究資産として公開する動きがあるので非常にありがたい傾向
https://vimeo.com/aclweb http://emnlp2018.org/participants/

Copyright（C） Nomura Research Institute, Ltd. All rights reserved.
本題

まとめ
研究のまとめ
一言でいうと
深層強化学習を用いたタスク達成型対話において、実ユーザーとの対話とユーザーシミュレーターと
の対話を組み合わせて学習させるフレームワーク（D3Q）を提案
先行研究との比較
同グループの先行研究（DDQ [Peng+ ACL2018]）に対して、GANにインスパイアされた
Discriminator（識別器）を加え、対話応答が実ユーザーらしいかをジャッジさせるようにした
検証方法
映画チケット予約タスクのデータセットでシミュレーターを用いた自動評価と人手による評価を行い、
ベースラインのDQNやDDQよりも高い性能を得た
考察
識別器によるジャッジを加えることで、シミュレーターによる模倣経験の質をコントロールすることができ、
効率的かつロバストな対話方策学習を行うことができた
さらには、対話だけでなく、汎用的に他の強化学習問題にも適用できる手法であると言える

先行研究
先行研究 DDQ: Deep Dyna-Q [Peng+ ACL2018]
強化学習によるタスク達成型対話のオンライン学習の課題
実ユーザーからの学習（Human-in-the-loop）: 高コスト、探索で悪い経験になる場合も
ユーザーシミュレーター: 低コストだが、実ユーザーとは異なるので悪い経験を過学習する場合も
課題を克服するため、環境（実ユーザー）からの直接強化学習と、世界モデル（ユーザーシミュレー
ター）による模倣学習を組み合わせたDDQを提案
※なお、論文以外にも以下の資料が公開されている
 ACL2018口頭発表のビデオ: https://vimeo.com/285805408
 ACL2018口頭発表のスライド: http://anthology.aclweb.org/attachments/P/P18/P18-1203.Presentation.pdf
 ソースコード: https://github.com/MiuLab/DDQ

研究概要
D3Q: Discriminative Deep Dyna-Q [Su+ EMNLP2018]
先行研究のDDQに対してDiscriminator（識別器）を加えたD3Qを提案
環境（実ユーザー）と世界モデル（シミュレーター）双方から、実ユーザーらしい経験だけを学習する
ようにした
Figure 2: Illustration of the proposed D3Q dialogue system framework. Figure 1: Proposed D3Q for dialogue policy learning.

Figure 2: Illustration of the proposed D3Q dialogue system framework.
研究概要
対話システムとして6つのモジュールから構成される
(1) Bi-LSTMによる意図理解とスロット抽出
[Hakkani-Tür+ 2016]
(2) Neural belief trackerによる内部状態管理
[Mrkšić+ 2017]
(3) 方策モデルによる行動選択
（次の対話状態の決定）
(4) LSTMによる言語生成
[Wen+ 2015]
(5) 世界モデルによる
ユーザー行動と報酬の模倣
(6) RNNベースの識別器による
模倣経験の品質コントロール

研究概要
大きく4つの学習プロセスがある
(a) Direct Reinforcement Learning
実経験から対話方策モデルを学習・更新
(b) World Model Learning
実経験から世界モデルを学習・更新
(c) Discriminative Training
実経験を模倣経験から
区別するように学習・更新
(d) Controlled Planning
識別器の良質な出力をもとに
対話方策モデルを学習・更新
Figure 1: Proposed D3Q for dialogue policy learning.

研究概要
世界モデルと識別器のしくみ
世界モデル(𝐺)
 対話の各ターンで状態sと行動a（one-hotベクトル）を入力し、ユーザー応答o、報酬r、終了フラグtを出力
 Multi-task DNN [Liu+ 2015]として構成、oとtは分類タスク、rは回帰タスクとなる
識別器(𝐷)
 実／模倣ユーザーの対話文脈をLSTMで特徴ベクトルに変換し、以下の目的関数で実ユーザーとの経験𝑥から
学習させたMLPで実ユーザーらしさの（＝高品質な経験である）確率を出力する
𝔼 𝑟𝑒𝑎𝑙[log 𝐷(𝑥)] + 𝔼 𝑠𝑖𝑚𝑢[log(1 − 𝐷 𝐺 . ))]
DQNアルゴリズムにより、3つのリプレイバッファが使われる
 実経験を学習させた𝐵 𝑢
、模倣経験を出力させた𝐵 𝑠
、識別器が高品質な経験として選別した𝐵ℎ
Figure 3: The model architectures of the world model and the discriminator for controlled planning.
𝑩 𝒉
(𝑠, 𝑎, 𝑟, 𝑠′
)
High-
quality

評価
実験
対象タスクとデータセット
 映画チケット予約タスクで実験
 データセットはAmazon Mechanical Turkで収集した280の対話に11の意図と18のスロットをラベリング
 スロットにはinform slots（ユーザーが与える情報）とrequest slots（エージェントが与える情報）がある
実験設定
 はじめから全スロットで学習させる設定（フルドメイン）と、
一定epoch数経過ごとに徐々に対象スロットを増やしていく設定（ドメイン拡張）で実験する
 シミュレーションを用いた自動評価（別のユーザーシミュレーターを利用）と人手評価による実験を行う
ベースライン
 DQNとDDQをベースラインにして、D3Qの効果を確認する
 DQN(𝐾)、DDQ(𝐾)、D3Q(𝐾)の𝐾は学習後に方策として更新する行動選択のステップ数を意味する
 D3Q(𝐾, fixed 𝜃 𝐷)は識別器を学習させない設定で、シミュレーション実験のみで利用
実装
 具体的なハイパーパラメーター等の設定値は論文参照
 論文では https://github.com/MiuLab/D3Q にソースコードがあるとあるが、12/9現在は存在していない
※先行研究DDQのソースコードは https://github.com/MiuLab/DDQ に存在する

評価
実験用のユーザーシミュレーター（※D3QのWorld Modelとは別）
映画チケット予約ドメイン用にルールベースで作られたシミュレーター [Li+ 2016]
https://github.com/MiuLab/TC-Bot にてオープンソースで公開されている
https://sites.google.com/view/deepdial/

評価
シミュレーション評価
対話成功率、報酬(※)、ターン数を指標として評価
フルドメイン設定、ドメイン拡張設定ともに、提案手法D3Qが
ベースラインのDQNやDDQを超えた性能を発揮し、
この実験設定でのState of the Artを達成したと評価
ただし、初期の学習カーブはD3Qが最も高く収束が早い
ものの、特にドメイン拡張設定ではepoch数が重なると
素のDQNのほうが高い値に収束するように見えるが、
論文では言及されていない
 ※報酬: 対話成功時に2*ターン数、失敗時に-1*ターン数、
加えて短い対話を奨励するためターンごとに-1する
Figure 8: The learning curves of agents (DQN, DDQ, and
D3Q) under the domain extension setting.
Figure 7: The learning curves of D3Q, DDQ(5),
DDQ(5), and D3Q fixed θD agents.
フルドメイン設定の学習曲線
ドメイン拡張設定の学習曲線
フルドメイン設定の定量評価

評価
DDQに比べ、方策更新時のステップ数Kを大きくしても学習曲線が安定した
DDQでは方策更新時の行動選択ステップ数Kを大きくすると低品質な模倣経験が入り込む可能性が
高くなり、学習曲線が安定しなかったため、ヒューリスティクスで少ないステップ数を採用していた
D3Qでは識別器によって高品質な経験のみを選別するようになったため、Kを増やしてもロバストに方策
学習が行えるようになった
Figure 4: The learning curves of DDQ(K) agents
where (K−1) is the number of planning steps.
Figure 6: The Learning curves of D3Q(K) agents
which (K-1) is the number of planning steps.
DDQ(K)の学習曲線 D3Q(K)の学習曲線

評価
人手評価
人手の対話によるブラインドテスト（どのモデルかは知らされず対話ごとにランダムに変わる）を実施
フルドメイン、ドメイン拡張ともに、提案手法D3QがベースラインのDQNやDDQを超えた評価値となった
フルドメインの人手評価ドメイン拡張の人手評価
（b-は拡張前、a-は拡張後）
Figure 9: The human evaluation results of D3Q, DDQ(5), and
D3Q in the full domain setting, the number of test dialogues
indicated on each bar, and the p-values from a two-sided
permutation test (difference in mean is significant with p<0.05).
Figure 10: The human evaluation results of DQN, DDQ(5), and D3Q in the domain
extension setting, the number of test dialogues indicated on each bar. The prefix ’b-
’ implies that the trained models are picked before the environment extends to full
domain, while the prefix ’a-’ indicates that the trained models are picked after the
environment becomes full domain (difference in mean is significant with p<0.05).

まとめ
研究のまとめ
一言でいうと
深層強化学習を用いたタスク達成型対話において、実ユーザーとの対話とユーザーシミュレーターと
の対話を組み合わせて学習させるフレームワーク（D3Q）を提案
先行研究との比較
同グループの先行研究（DDQ [Peng+ ACL2018]）に対して、GANにインスパイアされた
Discriminator（識別器）を加え、対話応答が実ユーザーらしいかをジャッジさせるようにした
検証方法
映画チケット予約タスクのデータセットでシミュレーターを用いた自動評価と人手による評価を行い、
ベースラインのDQNやDDQよりも高い性能を得た
考察
識別器によるジャッジを加えることで、シミュレーターによる模倣経験の質をコントロールすることができ、
効率的かつロバストな対話方策学習を行うことができた
さらには、対話だけでなく、汎用的に他の強化学習問題にも適用できる手法であると言える

文献
本スライドで言及した参考文献（論文より）
 [Peng+ ACL2018]
 Baolin Peng, Xiujun Li, Jianfeng Gao, Jingjing Liu, and Kam-Fai Wong. 2018. Deep Dyna-Q: Integrating Planning
for Task-Completion Dialogue Policy Learning. In Proceedings of the 56th Annual Meeting of the Association for
Computational Linguistics (Long Papers), pages 2182–2192
 [Su+ EMNLP2018]
 Shang-Yu Su, Xiujun Li, Jianfeng Gao, Jingjing Liu, and Yun-Nung Chen. 2018. Discriminative Deep Dyna-Q:
Robust Planning for Dialogue Policy Learning. In Proceedings of the 2018 Conference on Empirical Methods in
Natural Language Processing, pages 3813–3823
 [Hakkani-Tür+ 2016]
 Dilek Hakkani-Tür, Gokhan Tur, Asli Celikyilmaz, Yun-Nung Chen, Jianfeng Gao, Li Deng, and Ye-Yi Wang. 2016.
Multi-domain joint semantic frame parsing using bi-directional rnn-lstm. In Proceedings of Interspeech 2016.
 [Mrkšić+ 2017]
 Nikola Mrkšić, Diarmuid Ó Séaghdha, Tsung-Hsien Wen, Blaise Thomson, and Steve Young. 2017. Neural belief
tracker: Data-driven dialogue state tracking. In Proceedings of the 55th Annual Meeting of the Association for
Computational Linguistics (Volume 1: Long Papers), volume 1, pages 1777–1788.
 [Wen+ 2015]
 Tsung-Hsien Wen, Milica Gasic, Nikola Mrkšić, Pei-Hao Su, David Vandyke, and Steve Young. 2015. Semantically
conditioned LSTM-based natural language generation for spoken dialogue systems. In Proceedings of the
2015 Conference on Empirical Methods in Natural Language Processing, pages 1711–1721.
 [Liu+ 2015]
 Xiaodong Liu, Jianfeng Gao, Xiaodong He, Li Deng, Kevin Duh, and Ye-Yi Wang. 2015. Representation learning
using multi-task deep neural networks for semantic classification and information retrieval.
 [Li+ 2016]
 Xiujun Li, Zachary C Lipton, Bhuwan Dhingra, Lihong Li, Jianfeng Gao, and Yun-Nung Chen. 2016. A user simulator
for task-completion dialogues. arXiv preprint arXiv:1612.05688.

Discriminative Deep Dyna-Q: Robust Planning for Dialogue Policy Learning

Discriminative Deep Dyna-Q: Robust Planning for Dialogue Policy Learning

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to Discriminative Deep Dyna-Q: Robust Planning for Dialogue Policy Learning

Similar to Discriminative Deep Dyna-Q: Robust Planning for Dialogue Policy Learning (20)

Recently uploaded

Recently uploaded (10)

Discriminative Deep Dyna-Q: Robust Planning for Dialogue Policy Learning