SlideShare a Scribd company logo
1 of 21
Download to read offline
EMNLP2018読み会
https://arxivtimes.connpass.com/event/109849/
Discriminative Deep Dyna-Q:
Robust Planning for Dialogue Policy Learning
2018/12/9
株式会社野村総合研究所
デジタル基盤イノベーション本部
ビッグデータイノベーション推進部
岡田 智靖
Copyright(C) Nomura Research Institute, Ltd. All rights reserved.
はじめに: 本研究に関連する各種公開情報
Copyright(C) Nomura Research Institute, Ltd. All rights reserved. 2
本研究に関連する公開情報
著者らのグループは近年「対話とディープラーニング」のチュートリアルを数多く提供している
本論文著者ら(国立台湾大学Yun-Nung (Vivian) Chen研究室、およびMicrosoft Research
のJianfeng Gaoらのグループ)は近年「対話システムのためのディープラーニング」の研究で目立って
いるグループで、2017~2018の国際会議でも数多くの関連チュートリアルを提供している
チュートリアル資料はほとんど公開されているので(下記リンクあり)、研究サーベイとして有用です
 EMNLP 2018 (SCAI Workshop) “Towards Open-Domain Conversational AI”
 ACL 2018, SIGIR 2018 “Neural Approaches to Conversational AI” (tech report)
 ICASSP 2017, ACL 2017, Interspeech 2017, COLING 2018
“Deep Learning for Dialogue Systems” (ACL 2017 video)
https://www.csie.ntu.edu.tw/~yvchen/index.htmlhttps://sites.google.com/view/deepdial/
Copyright(C) Nomura Research Institute, Ltd. All rights reserved. 3
本研究に関連する公開情報
チュートリアル・講演資料の例(EMNLP2018併催ワークショップSCAIの講演資料)
https://github.com/DeepPavlov/scai17/raw/master/slides/2018/SCAI2018_chen.pdf
Copyright(C) Nomura Research Institute, Ltd. All rights reserved. 4
本研究に関連する公開情報
EMNLP2018で併催された「検索指向の会話AI」ワークショップ https://scai.info/
本研究もEMNLP2018併催のワークショップ “Search-Oriented Conversational AI (SCAI)”
のVivian Chenによる招待講演 “Towards Open-Domain Conversational AI” で紹介された
なお、このワークショップはほとんどがスライド資料も公開されていて、内容も興味深いものが多いので
対話システムに興味がある方にはおすすめです
https://scai.info/
Copyright(C) Nomura Research Institute, Ltd. All rights reserved. 5
本研究に関連する公開情報
最近のACL, EMNLP, NAACLはビデオが公開されている https://vimeo.com/aclweb
再生数も少ないのであまり気づかれていないのでは
EMNLP2018もビデオ記録されているのでそのうち公開されるはず
最近のACLはスライド資料や動画を研究資産として公開する動きがあるので非常にありがたい傾向
https://vimeo.com/aclweb http://emnlp2018.org/participants/
Copyright(C) Nomura Research Institute, Ltd. All rights reserved.
本題
Copyright(C) Nomura Research Institute, Ltd. All rights reserved. 7
まとめ
研究のまとめ
一言でいうと
深層強化学習を用いたタスク達成型対話において、実ユーザーとの対話とユーザーシミュレーターと
の対話を組み合わせて学習させるフレームワーク(D3Q)を提案
先行研究との比較
同グループの先行研究(DDQ [Peng+ ACL2018])に対して、GANにインスパイアされた
Discriminator(識別器)を加え、対話応答が実ユーザーらしいかをジャッジさせるようにした
検証方法
映画チケット予約タスクのデータセットでシミュレーターを用いた自動評価と人手による評価を行い、
ベースラインのDQNやDDQよりも高い性能を得た
考察
識別器によるジャッジを加えることで、シミュレーターによる模倣経験の質をコントロールすることができ、
効率的かつロバストな対話方策学習を行うことができた
さらには、対話だけでなく、汎用的に他の強化学習問題にも適用できる手法であると言える
Copyright(C) Nomura Research Institute, Ltd. All rights reserved. 8
先行研究
先行研究 DDQ: Deep Dyna-Q [Peng+ ACL2018]
強化学習によるタスク達成型対話のオンライン学習の課題
実ユーザーからの学習(Human-in-the-loop): 高コスト、探索で悪い経験になる場合も
ユーザーシミュレーター: 低コストだが、実ユーザーとは異なるので悪い経験を過学習する場合も
課題を克服するため、環境(実ユーザー)からの直接強化学習と、世界モデル(ユーザーシミュレー
ター)による模倣学習を組み合わせたDDQを提案
※なお、論文以外にも以下の資料が公開されている
 ACL2018口頭発表のビデオ: https://vimeo.com/285805408
 ACL2018口頭発表のスライド: http://anthology.aclweb.org/attachments/P/P18/P18-1203.Presentation.pdf
 ソースコード: https://github.com/MiuLab/DDQ
Copyright(C) Nomura Research Institute, Ltd. All rights reserved. 9
研究概要
D3Q: Discriminative Deep Dyna-Q [Su+ EMNLP2018]
先行研究のDDQに対してDiscriminator(識別器)を加えたD3Qを提案
環境(実ユーザー)と世界モデル(シミュレーター)双方から、実ユーザーらしい経験だけを学習する
ようにした
Figure 2: Illustration of the proposed D3Q dialogue system framework. Figure 1: Proposed D3Q for dialogue policy learning.
Copyright(C) Nomura Research Institute, Ltd. All rights reserved. 10
Figure 2: Illustration of the proposed D3Q dialogue system framework.
研究概要
対話システムとして6つのモジュールから構成される
(1) Bi-LSTMによる意図理解とスロット抽出
[Hakkani-Tür+ 2016]
(2) Neural belief trackerによる内部状態管理
[Mrkšić+ 2017]
(3) 方策モデルによる行動選択
(次の対話状態の決定)
(4) LSTMによる言語生成
[Wen+ 2015]
(5) 世界モデルによる
ユーザー行動と報酬の模倣
(6) RNNベースの識別器による
模倣経験の品質コントロール
Copyright(C) Nomura Research Institute, Ltd. All rights reserved. 11
研究概要
大きく4つの学習プロセスがある
(a) Direct Reinforcement Learning
実経験から対話方策モデルを学習・更新
(b) World Model Learning
実経験から世界モデルを学習・更新
(c) Discriminative Training
実経験を模倣経験から
区別するように学習・更新
(d) Controlled Planning
識別器の良質な出力をもとに
対話方策モデルを学習・更新
Figure 1: Proposed D3Q for dialogue policy learning.
Copyright(C) Nomura Research Institute, Ltd. All rights reserved. 12
研究概要
世界モデルと識別器のしくみ
世界モデル(𝐺)
 対話の各ターンで状態sと行動a(one-hotベクトル)を入力し、ユーザー応答o、報酬r、終了フラグtを出力
 Multi-task DNN [Liu+ 2015]として構成、oとtは分類タスク、rは回帰タスクとなる
識別器(𝐷)
 実/模倣ユーザーの対話文脈をLSTMで特徴ベクトルに変換し、以下の目的関数で実ユーザーとの経験𝑥から
学習させたMLPで実ユーザーらしさの(=高品質な経験である)確率を出力する
𝔼 𝑟𝑒𝑎𝑙[log 𝐷(𝑥)] + 𝔼 𝑠𝑖𝑚𝑢[log(1 − 𝐷 𝐺 . ))]
DQNアルゴリズムにより、3つのリプレイバッファが使われる
 実経験を学習させた𝐵 𝑢
、模倣経験を出力させた𝐵 𝑠
、識別器が高品質な経験として選別した𝐵ℎ
Figure 3: The model architectures of the world model and the discriminator for controlled planning.
𝑩 𝒉
(𝑠, 𝑎, 𝑟, 𝑠′
)
High-
quality
Copyright(C) Nomura Research Institute, Ltd. All rights reserved. 13
評価
実験
対象タスクとデータセット
 映画チケット予約タスクで実験
 データセットはAmazon Mechanical Turkで収集した280の対話に11の意図と18のスロットをラベリング
 スロットにはinform slots(ユーザーが与える情報)とrequest slots(エージェントが与える情報)がある
実験設定
 はじめから全スロットで学習させる設定(フルドメイン)と、
一定epoch数経過ごとに徐々に対象スロットを増やしていく設定(ドメイン拡張)で実験する
 シミュレーションを用いた自動評価(別のユーザーシミュレーターを利用)と人手評価による実験を行う
ベースライン
 DQNとDDQをベースラインにして、D3Qの効果を確認する
 DQN(𝐾)、DDQ(𝐾)、D3Q(𝐾)の𝐾は学習後に方策として更新する行動選択のステップ数を意味する
 D3Q(𝐾, fixed 𝜃 𝐷)は識別器を学習させない設定で、シミュレーション実験のみで利用
実装
 具体的なハイパーパラメーター等の設定値は論文参照
 論文では https://github.com/MiuLab/D3Q にソースコードがあるとあるが、12/9現在は存在していない
※先行研究DDQのソースコードは https://github.com/MiuLab/DDQ に存在する
Copyright(C) Nomura Research Institute, Ltd. All rights reserved. 14
評価
実験用のユーザーシミュレーター(※D3QのWorld Modelとは別)
映画チケット予約ドメイン用にルールベースで作られたシミュレーター [Li+ 2016]
https://github.com/MiuLab/TC-Bot にてオープンソースで公開されている
https://sites.google.com/view/deepdial/
Copyright(C) Nomura Research Institute, Ltd. All rights reserved. 15
評価
シミュレーション評価
対話成功率、報酬(※)、ターン数を指標として評価
フルドメイン設定、ドメイン拡張設定ともに、提案手法D3Qが
ベースラインのDQNやDDQを超えた性能を発揮し、
この実験設定でのState of the Artを達成したと評価
ただし、初期の学習カーブはD3Qが最も高く収束が早い
ものの、特にドメイン拡張設定ではepoch数が重なると
素のDQNのほうが高い値に収束するように見えるが、
論文では言及されていない
 ※報酬: 対話成功時に2*ターン数、失敗時に-1*ターン数、
加えて短い対話を奨励するためターンごとに-1する
Figure 8: The learning curves of agents (DQN, DDQ, and
D3Q) under the domain extension setting.
Figure 7: The learning curves of D3Q, DDQ(5),
DDQ(5), and D3Q fixed θD agents.
フルドメイン設定の学習曲線
ドメイン拡張設定の学習曲線
フルドメイン設定の定量評価
Copyright(C) Nomura Research Institute, Ltd. All rights reserved. 16
評価
DDQに比べ、方策更新時のステップ数Kを大きくしても学習曲線が安定した
DDQでは方策更新時の行動選択ステップ数Kを大きくすると低品質な模倣経験が入り込む可能性が
高くなり、学習曲線が安定しなかったため、ヒューリスティクスで少ないステップ数を採用していた
D3Qでは識別器によって高品質な経験のみを選別するようになったため、Kを増やしてもロバストに方策
学習が行えるようになった
Figure 4: The learning curves of DDQ(K) agents
where (K−1) is the number of planning steps.
Figure 6: The Learning curves of D3Q(K) agents
which (K-1) is the number of planning steps.
DDQ(K)の学習曲線 D3Q(K)の学習曲線
Copyright(C) Nomura Research Institute, Ltd. All rights reserved. 17
評価
人手評価
人手の対話によるブラインドテスト(どのモデルかは知らされず対話ごとにランダムに変わる)を実施
フルドメイン、ドメイン拡張ともに、提案手法D3QがベースラインのDQNやDDQを超えた評価値となった
フルドメインの人手評価 ドメイン拡張の人手評価
(b-は拡張前、a-は拡張後)
Figure 9: The human evaluation results of D3Q, DDQ(5), and
D3Q in the full domain setting, the number of test dialogues
indicated on each bar, and the p-values from a two-sided
permutation test (difference in mean is significant with p<0.05).
Figure 10: The human evaluation results of DQN, DDQ(5), and D3Q in the domain
extension setting, the number of test dialogues indicated on each bar. The prefix ’b-
’ implies that the trained models are picked before the environment extends to full
domain, while the prefix ’a-’ indicates that the trained models are picked after the
environment becomes full domain (difference in mean is significant with p<0.05).
Copyright(C) Nomura Research Institute, Ltd. All rights reserved. 18
まとめ
研究のまとめ
一言でいうと
深層強化学習を用いたタスク達成型対話において、実ユーザーとの対話とユーザーシミュレーターと
の対話を組み合わせて学習させるフレームワーク(D3Q)を提案
先行研究との比較
同グループの先行研究(DDQ [Peng+ ACL2018])に対して、GANにインスパイアされた
Discriminator(識別器)を加え、対話応答が実ユーザーらしいかをジャッジさせるようにした
検証方法
映画チケット予約タスクのデータセットでシミュレーターを用いた自動評価と人手による評価を行い、
ベースラインのDQNやDDQよりも高い性能を得た
考察
識別器によるジャッジを加えることで、シミュレーターによる模倣経験の質をコントロールすることができ、
効率的かつロバストな対話方策学習を行うことができた
さらには、対話だけでなく、汎用的に他の強化学習問題にも適用できる手法であると言える
Copyright(C) Nomura Research Institute, Ltd. All rights reserved. 19
文献
本スライドで言及した参考文献(論文より)
 [Peng+ ACL2018]
 Baolin Peng, Xiujun Li, Jianfeng Gao, Jingjing Liu, and Kam-Fai Wong. 2018. Deep Dyna-Q: Integrating Planning
for Task-Completion Dialogue Policy Learning. In Proceedings of the 56th Annual Meeting of the Association for
Computational Linguistics (Long Papers), pages 2182–2192
 [Su+ EMNLP2018]
 Shang-Yu Su, Xiujun Li, Jianfeng Gao, Jingjing Liu, and Yun-Nung Chen. 2018. Discriminative Deep Dyna-Q:
Robust Planning for Dialogue Policy Learning. In Proceedings of the 2018 Conference on Empirical Methods in
Natural Language Processing, pages 3813–3823
 [Hakkani-Tür+ 2016]
 Dilek Hakkani-Tür, Gokhan Tur, Asli Celikyilmaz, Yun-Nung Chen, Jianfeng Gao, Li Deng, and Ye-Yi Wang. 2016.
Multi-domain joint semantic frame parsing using bi-directional rnn-lstm. In Proceedings of Interspeech 2016.
 [Mrkšić+ 2017]
 Nikola Mrkšić, Diarmuid Ó Séaghdha, Tsung-Hsien Wen, Blaise Thomson, and Steve Young. 2017. Neural belief
tracker: Data-driven dialogue state tracking. In Proceedings of the 55th Annual Meeting of the Association for
Computational Linguistics (Volume 1: Long Papers), volume 1, pages 1777–1788.
 [Wen+ 2015]
 Tsung-Hsien Wen, Milica Gasic, Nikola Mrkšić, Pei-Hao Su, David Vandyke, and Steve Young. 2015. Semantically
conditioned LSTM-based natural language generation for spoken dialogue systems. In Proceedings of the
2015 Conference on Empirical Methods in Natural Language Processing, pages 1711–1721.
 [Liu+ 2015]
 Xiaodong Liu, Jianfeng Gao, Xiaodong He, Li Deng, Kevin Duh, and Ye-Yi Wang. 2015. Representation learning
using multi-task deep neural networks for semantic classification and information retrieval.
 [Li+ 2016]
 Xiujun Li, Zachary C Lipton, Bhuwan Dhingra, Lihong Li, Jianfeng Gao, and Yun-Nung Chen. 2016. A user simulator
for task-completion dialogues. arXiv preprint arXiv:1612.05688.
Discriminative Deep Dyna-Q: Robust Planning for Dialogue Policy Learning

More Related Content

What's hot

Convolutional Neural Network @ CV勉強会関東
Convolutional Neural Network @ CV勉強会関東Convolutional Neural Network @ CV勉強会関東
Convolutional Neural Network @ CV勉強会関東
Hokuto Kagaya
 
多層NNの教師なし学習 コンピュータビジョン勉強会@関東 2014/5/26
多層NNの教師なし学習 コンピュータビジョン勉強会@関東 2014/5/26多層NNの教師なし学習 コンピュータビジョン勉強会@関東 2014/5/26
多層NNの教師なし学習 コンピュータビジョン勉強会@関東 2014/5/26
Takashi Abe
 

What's hot (20)

Cvim saisentan-6-4-tomoaki
Cvim saisentan-6-4-tomoakiCvim saisentan-6-4-tomoaki
Cvim saisentan-6-4-tomoaki
 
分散表現を用いたリアルタイム学習型セッションベース推薦システム
分散表現を用いたリアルタイム学習型セッションベース推薦システム分散表現を用いたリアルタイム学習型セッションベース推薦システム
分散表現を用いたリアルタイム学習型セッションベース推薦システム
 
Tutorial-DeepLearning-PCSJ-IMPS2016
Tutorial-DeepLearning-PCSJ-IMPS2016Tutorial-DeepLearning-PCSJ-IMPS2016
Tutorial-DeepLearning-PCSJ-IMPS2016
 
20150414seminar
20150414seminar20150414seminar
20150414seminar
 
NVIDIA Seminar ディープラーニングによる画像認識と応用事例
NVIDIA Seminar ディープラーニングによる画像認識と応用事例NVIDIA Seminar ディープラーニングによる画像認識と応用事例
NVIDIA Seminar ディープラーニングによる画像認識と応用事例
 
これから始める人のためのディープラーニング基礎講座
これから始める人のためのディープラーニング基礎講座これから始める人のためのディープラーニング基礎講座
これから始める人のためのディープラーニング基礎講座
 
DeepLearningDay2016Spring
DeepLearningDay2016SpringDeepLearningDay2016Spring
DeepLearningDay2016Spring
 
IEEE ITSS Nagoya Chapter
IEEE ITSS Nagoya ChapterIEEE ITSS Nagoya Chapter
IEEE ITSS Nagoya Chapter
 
Overcoming Catastrophic Forgetting in Neural Networks読んだ
Overcoming Catastrophic Forgetting in Neural Networks読んだOvercoming Catastrophic Forgetting in Neural Networks読んだ
Overcoming Catastrophic Forgetting in Neural Networks読んだ
 
効率的学習 / Efficient Training(メタサーベイ)
効率的学習 / Efficient Training(メタサーベイ)効率的学習 / Efficient Training(メタサーベイ)
効率的学習 / Efficient Training(メタサーベイ)
 
Deep Learningによる画像認識革命 ー歴史・最新理論から実践応用までー
Deep Learningによる画像認識革命 ー歴史・最新理論から実践応用までーDeep Learningによる画像認識革命 ー歴史・最新理論から実践応用までー
Deep Learningによる画像認識革命 ー歴史・最新理論から実践応用までー
 
Convolutional Neural Network @ CV勉強会関東
Convolutional Neural Network @ CV勉強会関東Convolutional Neural Network @ CV勉強会関東
Convolutional Neural Network @ CV勉強会関東
 
Introduction of the_paper
Introduction of the_paperIntroduction of the_paper
Introduction of the_paper
 
[Paper Reading] Theoretical Analysis of Self-Training with Deep Networks on U...
[Paper Reading] Theoretical Analysis of Self-Training with Deep Networks on U...[Paper Reading] Theoretical Analysis of Self-Training with Deep Networks on U...
[Paper Reading] Theoretical Analysis of Self-Training with Deep Networks on U...
 
PythonによるDeep Learningの実装
PythonによるDeep Learningの実装PythonによるDeep Learningの実装
PythonによるDeep Learningの実装
 
クラウドソーシングにおける協調的な共同作業に対する組織構成システム
クラウドソーシングにおける協調的な共同作業に対する組織構成システムクラウドソーシングにおける協調的な共同作業に対する組織構成システム
クラウドソーシングにおける協調的な共同作業に対する組織構成システム
 
DLフレームワークChainerの紹介と分散深層強化学習によるロボット制御
DLフレームワークChainerの紹介と分散深層強化学習によるロボット制御DLフレームワークChainerの紹介と分散深層強化学習によるロボット制御
DLフレームワークChainerの紹介と分散深層強化学習によるロボット制御
 
DeNAにおける機械学習・深層学習活用
DeNAにおける機械学習・深層学習活用DeNAにおける機械学習・深層学習活用
DeNAにおける機械学習・深層学習活用
 
多層NNの教師なし学習 コンピュータビジョン勉強会@関東 2014/5/26
多層NNの教師なし学習 コンピュータビジョン勉強会@関東 2014/5/26多層NNの教師なし学習 コンピュータビジョン勉強会@関東 2014/5/26
多層NNの教師なし学習 コンピュータビジョン勉強会@関東 2014/5/26
 
【SSII2015】人を観る技術の先端的研究
【SSII2015】人を観る技術の先端的研究【SSII2015】人を観る技術の先端的研究
【SSII2015】人を観る技術の先端的研究
 

Similar to Discriminative Deep Dyna-Q: Robust Planning for Dialogue Policy Learning

DEIM2019 楽天技術研究所の研究とケーススタディ(推薦システム)
DEIM2019 楽天技術研究所の研究とケーススタディ(推薦システム)DEIM2019 楽天技術研究所の研究とケーススタディ(推薦システム)
DEIM2019 楽天技術研究所の研究とケーススタディ(推薦システム)
Sho Nakamura
 
ヒンシツ大学セミナー ゴール指向の測定と品質保証活動 -メトリクス解説およびGqm法のワークショップ-
ヒンシツ大学セミナー ゴール指向の測定と品質保証活動 -メトリクス解説およびGqm法のワークショップ-ヒンシツ大学セミナー ゴール指向の測定と品質保証活動 -メトリクス解説およびGqm法のワークショップ-
ヒンシツ大学セミナー ゴール指向の測定と品質保証活動 -メトリクス解説およびGqm法のワークショップ-
Hironori Washizaki
 
Sigir2013 勉強会資料
Sigir2013 勉強会資料Sigir2013 勉強会資料
Sigir2013 勉強会資料
Mitsuo Yamamoto
 
Qua s tom-メトリクスによるソフトウェアの品質把握と改善
Qua s tom-メトリクスによるソフトウェアの品質把握と改善Qua s tom-メトリクスによるソフトウェアの品質把握と改善
Qua s tom-メトリクスによるソフトウェアの品質把握と改善
Hironori Washizaki
 
『逆転オセロニア』における運用効率化支援 〜デッキログのデータマイニング〜
『逆転オセロニア』における運用効率化支援  〜デッキログのデータマイニング〜『逆転オセロニア』における運用効率化支援  〜デッキログのデータマイニング〜
『逆転オセロニア』における運用効率化支援 〜デッキログのデータマイニング〜
DeNA
 

Similar to Discriminative Deep Dyna-Q: Robust Planning for Dialogue Policy Learning (20)

DEIM2019 楽天技術研究所の研究とケーススタディ(推薦システム)
DEIM2019 楽天技術研究所の研究とケーススタディ(推薦システム)DEIM2019 楽天技術研究所の研究とケーススタディ(推薦システム)
DEIM2019 楽天技術研究所の研究とケーススタディ(推薦システム)
 
ヒンシツ大学セミナー ゴール指向の測定と品質保証活動 -メトリクス解説およびGqm法のワークショップ-
ヒンシツ大学セミナー ゴール指向の測定と品質保証活動 -メトリクス解説およびGqm法のワークショップ-ヒンシツ大学セミナー ゴール指向の測定と品質保証活動 -メトリクス解説およびGqm法のワークショップ-
ヒンシツ大学セミナー ゴール指向の測定と品質保証活動 -メトリクス解説およびGqm法のワークショップ-
 
効果的なXPの導入を目的とした プラクティス間の相互作用の分析
効果的なXPの導入を目的とした プラクティス間の相互作用の分析効果的なXPの導入を目的とした プラクティス間の相互作用の分析
効果的なXPの導入を目的とした プラクティス間の相互作用の分析
 
Sigir2013 勉強会資料
Sigir2013 勉強会資料Sigir2013 勉強会資料
Sigir2013 勉強会資料
 
Qua s tom-メトリクスによるソフトウェアの品質把握と改善
Qua s tom-メトリクスによるソフトウェアの品質把握と改善Qua s tom-メトリクスによるソフトウェアの品質把握と改善
Qua s tom-メトリクスによるソフトウェアの品質把握と改善
 
機械学習エンジニアリング・品質保証 (ESS2018招待講演 鷲崎弘宜)
機械学習エンジニアリング・品質保証 (ESS2018招待講演 鷲崎弘宜)機械学習エンジニアリング・品質保証 (ESS2018招待講演 鷲崎弘宜)
機械学習エンジニアリング・品質保証 (ESS2018招待講演 鷲崎弘宜)
 
Dll commuinity and academy update 201803 v2
Dll commuinity and academy update 201803 v2Dll commuinity and academy update 201803 v2
Dll commuinity and academy update 201803 v2
 
エヌビディアが加速するディープラーニング ~進化するニューラルネットワークとその開発方法について~
エヌビディアが加速するディープラーニング ~進化するニューラルネットワークとその開発方法について~エヌビディアが加速するディープラーニング ~進化するニューラルネットワークとその開発方法について~
エヌビディアが加速するディープラーニング ~進化するニューラルネットワークとその開発方法について~
 
TensorFlowとは? ディープラーニング (深層学習) とは?
TensorFlowとは? ディープラーニング (深層学習) とは?TensorFlowとは? ディープラーニング (深層学習) とは?
TensorFlowとは? ディープラーニング (深層学習) とは?
 
Presentation oct-2018-tokyo r
Presentation oct-2018-tokyo rPresentation oct-2018-tokyo r
Presentation oct-2018-tokyo r
 
論証と合意のためのモデル: D-Case
論証と合意のためのモデル: D-Case論証と合意のためのモデル: D-Case
論証と合意のためのモデル: D-Case
 
「解説資料」VideoMix: Rethinking Data Augmentation for Video Classification
「解説資料」VideoMix: Rethinking Data Augmentation for  Video Classification「解説資料」VideoMix: Rethinking Data Augmentation for  Video Classification
「解説資料」VideoMix: Rethinking Data Augmentation for Video Classification
 
SSII2022 [OS3-03] スケーラブルなロボット学習システムに向けて
SSII2022 [OS3-03] スケーラブルなロボット学習システムに向けてSSII2022 [OS3-03] スケーラブルなロボット学習システムに向けて
SSII2022 [OS3-03] スケーラブルなロボット学習システムに向けて
 
メトリクスによるソフトウェア品質評価・改善および製品品質実態
メトリクスによるソフトウェア品質評価・改善および製品品質実態メトリクスによるソフトウェア品質評価・改善および製品品質実態
メトリクスによるソフトウェア品質評価・改善および製品品質実態
 
【Unite Tokyo 2019】Unity Test Runnerを活用して内部品質を向上しよう
【Unite Tokyo 2019】Unity Test Runnerを活用して内部品質を向上しよう【Unite Tokyo 2019】Unity Test Runnerを活用して内部品質を向上しよう
【Unite Tokyo 2019】Unity Test Runnerを活用して内部品質を向上しよう
 
『逆転オセロニア』における運用効率化支援 〜デッキログのデータマイニング〜
『逆転オセロニア』における運用効率化支援  〜デッキログのデータマイニング〜『逆転オセロニア』における運用効率化支援  〜デッキログのデータマイニング〜
『逆転オセロニア』における運用効率化支援 〜デッキログのデータマイニング〜
 
データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで V e-1
データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで V e-1データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで V e-1
データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで V e-1
 
テスト自動化のこれまでとこれから
テスト自動化のこれまでとこれからテスト自動化のこれまでとこれから
テスト自動化のこれまでとこれから
 
データモデルの更新を効率よく検証するの並列可能性
データモデルの更新を効率よく検証するの並列可能性データモデルの更新を効率よく検証するの並列可能性
データモデルの更新を効率よく検証するの並列可能性
 
Iot algyan jhirono 20190111
Iot algyan jhirono 20190111Iot algyan jhirono 20190111
Iot algyan jhirono 20190111
 

Recently uploaded

Recently uploaded (10)

論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
 
Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsUtilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native Integrations
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
 
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
 

Discriminative Deep Dyna-Q: Robust Planning for Dialogue Policy Learning

  • 1. EMNLP2018読み会 https://arxivtimes.connpass.com/event/109849/ Discriminative Deep Dyna-Q: Robust Planning for Dialogue Policy Learning 2018/12/9 株式会社野村総合研究所 デジタル基盤イノベーション本部 ビッグデータイノベーション推進部 岡田 智靖
  • 2. Copyright(C) Nomura Research Institute, Ltd. All rights reserved. はじめに: 本研究に関連する各種公開情報
  • 3. Copyright(C) Nomura Research Institute, Ltd. All rights reserved. 2 本研究に関連する公開情報 著者らのグループは近年「対話とディープラーニング」のチュートリアルを数多く提供している 本論文著者ら(国立台湾大学Yun-Nung (Vivian) Chen研究室、およびMicrosoft Research のJianfeng Gaoらのグループ)は近年「対話システムのためのディープラーニング」の研究で目立って いるグループで、2017~2018の国際会議でも数多くの関連チュートリアルを提供している チュートリアル資料はほとんど公開されているので(下記リンクあり)、研究サーベイとして有用です  EMNLP 2018 (SCAI Workshop) “Towards Open-Domain Conversational AI”  ACL 2018, SIGIR 2018 “Neural Approaches to Conversational AI” (tech report)  ICASSP 2017, ACL 2017, Interspeech 2017, COLING 2018 “Deep Learning for Dialogue Systems” (ACL 2017 video) https://www.csie.ntu.edu.tw/~yvchen/index.htmlhttps://sites.google.com/view/deepdial/
  • 4. Copyright(C) Nomura Research Institute, Ltd. All rights reserved. 3 本研究に関連する公開情報 チュートリアル・講演資料の例(EMNLP2018併催ワークショップSCAIの講演資料) https://github.com/DeepPavlov/scai17/raw/master/slides/2018/SCAI2018_chen.pdf
  • 5. Copyright(C) Nomura Research Institute, Ltd. All rights reserved. 4 本研究に関連する公開情報 EMNLP2018で併催された「検索指向の会話AI」ワークショップ https://scai.info/ 本研究もEMNLP2018併催のワークショップ “Search-Oriented Conversational AI (SCAI)” のVivian Chenによる招待講演 “Towards Open-Domain Conversational AI” で紹介された なお、このワークショップはほとんどがスライド資料も公開されていて、内容も興味深いものが多いので 対話システムに興味がある方にはおすすめです https://scai.info/
  • 6. Copyright(C) Nomura Research Institute, Ltd. All rights reserved. 5 本研究に関連する公開情報 最近のACL, EMNLP, NAACLはビデオが公開されている https://vimeo.com/aclweb 再生数も少ないのであまり気づかれていないのでは EMNLP2018もビデオ記録されているのでそのうち公開されるはず 最近のACLはスライド資料や動画を研究資産として公開する動きがあるので非常にありがたい傾向 https://vimeo.com/aclweb http://emnlp2018.org/participants/
  • 7. Copyright(C) Nomura Research Institute, Ltd. All rights reserved. 本題
  • 8. Copyright(C) Nomura Research Institute, Ltd. All rights reserved. 7 まとめ 研究のまとめ 一言でいうと 深層強化学習を用いたタスク達成型対話において、実ユーザーとの対話とユーザーシミュレーターと の対話を組み合わせて学習させるフレームワーク(D3Q)を提案 先行研究との比較 同グループの先行研究(DDQ [Peng+ ACL2018])に対して、GANにインスパイアされた Discriminator(識別器)を加え、対話応答が実ユーザーらしいかをジャッジさせるようにした 検証方法 映画チケット予約タスクのデータセットでシミュレーターを用いた自動評価と人手による評価を行い、 ベースラインのDQNやDDQよりも高い性能を得た 考察 識別器によるジャッジを加えることで、シミュレーターによる模倣経験の質をコントロールすることができ、 効率的かつロバストな対話方策学習を行うことができた さらには、対話だけでなく、汎用的に他の強化学習問題にも適用できる手法であると言える
  • 9. Copyright(C) Nomura Research Institute, Ltd. All rights reserved. 8 先行研究 先行研究 DDQ: Deep Dyna-Q [Peng+ ACL2018] 強化学習によるタスク達成型対話のオンライン学習の課題 実ユーザーからの学習(Human-in-the-loop): 高コスト、探索で悪い経験になる場合も ユーザーシミュレーター: 低コストだが、実ユーザーとは異なるので悪い経験を過学習する場合も 課題を克服するため、環境(実ユーザー)からの直接強化学習と、世界モデル(ユーザーシミュレー ター)による模倣学習を組み合わせたDDQを提案 ※なお、論文以外にも以下の資料が公開されている  ACL2018口頭発表のビデオ: https://vimeo.com/285805408  ACL2018口頭発表のスライド: http://anthology.aclweb.org/attachments/P/P18/P18-1203.Presentation.pdf  ソースコード: https://github.com/MiuLab/DDQ
  • 10. Copyright(C) Nomura Research Institute, Ltd. All rights reserved. 9 研究概要 D3Q: Discriminative Deep Dyna-Q [Su+ EMNLP2018] 先行研究のDDQに対してDiscriminator(識別器)を加えたD3Qを提案 環境(実ユーザー)と世界モデル(シミュレーター)双方から、実ユーザーらしい経験だけを学習する ようにした Figure 2: Illustration of the proposed D3Q dialogue system framework. Figure 1: Proposed D3Q for dialogue policy learning.
  • 11. Copyright(C) Nomura Research Institute, Ltd. All rights reserved. 10 Figure 2: Illustration of the proposed D3Q dialogue system framework. 研究概要 対話システムとして6つのモジュールから構成される (1) Bi-LSTMによる意図理解とスロット抽出 [Hakkani-Tür+ 2016] (2) Neural belief trackerによる内部状態管理 [Mrkšić+ 2017] (3) 方策モデルによる行動選択 (次の対話状態の決定) (4) LSTMによる言語生成 [Wen+ 2015] (5) 世界モデルによる ユーザー行動と報酬の模倣 (6) RNNベースの識別器による 模倣経験の品質コントロール
  • 12. Copyright(C) Nomura Research Institute, Ltd. All rights reserved. 11 研究概要 大きく4つの学習プロセスがある (a) Direct Reinforcement Learning 実経験から対話方策モデルを学習・更新 (b) World Model Learning 実経験から世界モデルを学習・更新 (c) Discriminative Training 実経験を模倣経験から 区別するように学習・更新 (d) Controlled Planning 識別器の良質な出力をもとに 対話方策モデルを学習・更新 Figure 1: Proposed D3Q for dialogue policy learning.
  • 13. Copyright(C) Nomura Research Institute, Ltd. All rights reserved. 12 研究概要 世界モデルと識別器のしくみ 世界モデル(𝐺)  対話の各ターンで状態sと行動a(one-hotベクトル)を入力し、ユーザー応答o、報酬r、終了フラグtを出力  Multi-task DNN [Liu+ 2015]として構成、oとtは分類タスク、rは回帰タスクとなる 識別器(𝐷)  実/模倣ユーザーの対話文脈をLSTMで特徴ベクトルに変換し、以下の目的関数で実ユーザーとの経験𝑥から 学習させたMLPで実ユーザーらしさの(=高品質な経験である)確率を出力する 𝔼 𝑟𝑒𝑎𝑙[log 𝐷(𝑥)] + 𝔼 𝑠𝑖𝑚𝑢[log(1 − 𝐷 𝐺 . ))] DQNアルゴリズムにより、3つのリプレイバッファが使われる  実経験を学習させた𝐵 𝑢 、模倣経験を出力させた𝐵 𝑠 、識別器が高品質な経験として選別した𝐵ℎ Figure 3: The model architectures of the world model and the discriminator for controlled planning. 𝑩 𝒉 (𝑠, 𝑎, 𝑟, 𝑠′ ) High- quality
  • 14. Copyright(C) Nomura Research Institute, Ltd. All rights reserved. 13 評価 実験 対象タスクとデータセット  映画チケット予約タスクで実験  データセットはAmazon Mechanical Turkで収集した280の対話に11の意図と18のスロットをラベリング  スロットにはinform slots(ユーザーが与える情報)とrequest slots(エージェントが与える情報)がある 実験設定  はじめから全スロットで学習させる設定(フルドメイン)と、 一定epoch数経過ごとに徐々に対象スロットを増やしていく設定(ドメイン拡張)で実験する  シミュレーションを用いた自動評価(別のユーザーシミュレーターを利用)と人手評価による実験を行う ベースライン  DQNとDDQをベースラインにして、D3Qの効果を確認する  DQN(𝐾)、DDQ(𝐾)、D3Q(𝐾)の𝐾は学習後に方策として更新する行動選択のステップ数を意味する  D3Q(𝐾, fixed 𝜃 𝐷)は識別器を学習させない設定で、シミュレーション実験のみで利用 実装  具体的なハイパーパラメーター等の設定値は論文参照  論文では https://github.com/MiuLab/D3Q にソースコードがあるとあるが、12/9現在は存在していない ※先行研究DDQのソースコードは https://github.com/MiuLab/DDQ に存在する
  • 15. Copyright(C) Nomura Research Institute, Ltd. All rights reserved. 14 評価 実験用のユーザーシミュレーター(※D3QのWorld Modelとは別) 映画チケット予約ドメイン用にルールベースで作られたシミュレーター [Li+ 2016] https://github.com/MiuLab/TC-Bot にてオープンソースで公開されている https://sites.google.com/view/deepdial/
  • 16. Copyright(C) Nomura Research Institute, Ltd. All rights reserved. 15 評価 シミュレーション評価 対話成功率、報酬(※)、ターン数を指標として評価 フルドメイン設定、ドメイン拡張設定ともに、提案手法D3Qが ベースラインのDQNやDDQを超えた性能を発揮し、 この実験設定でのState of the Artを達成したと評価 ただし、初期の学習カーブはD3Qが最も高く収束が早い ものの、特にドメイン拡張設定ではepoch数が重なると 素のDQNのほうが高い値に収束するように見えるが、 論文では言及されていない  ※報酬: 対話成功時に2*ターン数、失敗時に-1*ターン数、 加えて短い対話を奨励するためターンごとに-1する Figure 8: The learning curves of agents (DQN, DDQ, and D3Q) under the domain extension setting. Figure 7: The learning curves of D3Q, DDQ(5), DDQ(5), and D3Q fixed θD agents. フルドメイン設定の学習曲線 ドメイン拡張設定の学習曲線 フルドメイン設定の定量評価
  • 17. Copyright(C) Nomura Research Institute, Ltd. All rights reserved. 16 評価 DDQに比べ、方策更新時のステップ数Kを大きくしても学習曲線が安定した DDQでは方策更新時の行動選択ステップ数Kを大きくすると低品質な模倣経験が入り込む可能性が 高くなり、学習曲線が安定しなかったため、ヒューリスティクスで少ないステップ数を採用していた D3Qでは識別器によって高品質な経験のみを選別するようになったため、Kを増やしてもロバストに方策 学習が行えるようになった Figure 4: The learning curves of DDQ(K) agents where (K−1) is the number of planning steps. Figure 6: The Learning curves of D3Q(K) agents which (K-1) is the number of planning steps. DDQ(K)の学習曲線 D3Q(K)の学習曲線
  • 18. Copyright(C) Nomura Research Institute, Ltd. All rights reserved. 17 評価 人手評価 人手の対話によるブラインドテスト(どのモデルかは知らされず対話ごとにランダムに変わる)を実施 フルドメイン、ドメイン拡張ともに、提案手法D3QがベースラインのDQNやDDQを超えた評価値となった フルドメインの人手評価 ドメイン拡張の人手評価 (b-は拡張前、a-は拡張後) Figure 9: The human evaluation results of D3Q, DDQ(5), and D3Q in the full domain setting, the number of test dialogues indicated on each bar, and the p-values from a two-sided permutation test (difference in mean is significant with p<0.05). Figure 10: The human evaluation results of DQN, DDQ(5), and D3Q in the domain extension setting, the number of test dialogues indicated on each bar. The prefix ’b- ’ implies that the trained models are picked before the environment extends to full domain, while the prefix ’a-’ indicates that the trained models are picked after the environment becomes full domain (difference in mean is significant with p<0.05).
  • 19. Copyright(C) Nomura Research Institute, Ltd. All rights reserved. 18 まとめ 研究のまとめ 一言でいうと 深層強化学習を用いたタスク達成型対話において、実ユーザーとの対話とユーザーシミュレーターと の対話を組み合わせて学習させるフレームワーク(D3Q)を提案 先行研究との比較 同グループの先行研究(DDQ [Peng+ ACL2018])に対して、GANにインスパイアされた Discriminator(識別器)を加え、対話応答が実ユーザーらしいかをジャッジさせるようにした 検証方法 映画チケット予約タスクのデータセットでシミュレーターを用いた自動評価と人手による評価を行い、 ベースラインのDQNやDDQよりも高い性能を得た 考察 識別器によるジャッジを加えることで、シミュレーターによる模倣経験の質をコントロールすることができ、 効率的かつロバストな対話方策学習を行うことができた さらには、対話だけでなく、汎用的に他の強化学習問題にも適用できる手法であると言える
  • 20. Copyright(C) Nomura Research Institute, Ltd. All rights reserved. 19 文献 本スライドで言及した参考文献(論文より)  [Peng+ ACL2018]  Baolin Peng, Xiujun Li, Jianfeng Gao, Jingjing Liu, and Kam-Fai Wong. 2018. Deep Dyna-Q: Integrating Planning for Task-Completion Dialogue Policy Learning. In Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Long Papers), pages 2182–2192  [Su+ EMNLP2018]  Shang-Yu Su, Xiujun Li, Jianfeng Gao, Jingjing Liu, and Yun-Nung Chen. 2018. Discriminative Deep Dyna-Q: Robust Planning for Dialogue Policy Learning. In Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing, pages 3813–3823  [Hakkani-Tür+ 2016]  Dilek Hakkani-Tür, Gokhan Tur, Asli Celikyilmaz, Yun-Nung Chen, Jianfeng Gao, Li Deng, and Ye-Yi Wang. 2016. Multi-domain joint semantic frame parsing using bi-directional rnn-lstm. In Proceedings of Interspeech 2016.  [Mrkšić+ 2017]  Nikola Mrkšić, Diarmuid Ó Séaghdha, Tsung-Hsien Wen, Blaise Thomson, and Steve Young. 2017. Neural belief tracker: Data-driven dialogue state tracking. In Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), volume 1, pages 1777–1788.  [Wen+ 2015]  Tsung-Hsien Wen, Milica Gasic, Nikola Mrkšić, Pei-Hao Su, David Vandyke, and Steve Young. 2015. Semantically conditioned LSTM-based natural language generation for spoken dialogue systems. In Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing, pages 1711–1721.  [Liu+ 2015]  Xiaodong Liu, Jianfeng Gao, Xiaodong He, Li Deng, Kevin Duh, and Ye-Yi Wang. 2015. Representation learning using multi-task deep neural networks for semantic classification and information retrieval.  [Li+ 2016]  Xiujun Li, Zachary C Lipton, Bhuwan Dhingra, Lihong Li, Jianfeng Gao, and Yun-Nung Chen. 2016. A user simulator for task-completion dialogues. arXiv preprint arXiv:1612.05688.