公開URL:https://openreview.net/forum?id=HkejNgBtPB
出典:Rong Ye, Wenxian Shi, Hao Zhou, Zhongyu Wei, Lei Li : Variational Template Machine for Data-to-Text Generation, 8th International Conference on Learning Representations(ICLR2020), Addis Ababa, Ethiopia (2020)
概要:Table形式の構造化データから文章を生成するタスク(Data-to-Text)において、Variational Auto Encoder(VAE)ベースの手法Variational Template Machine(VTM)を提案する論文です。Encoder-Decoderモデルを用いた既存のアプローチでは、生成文の多様性に欠けるという課題があります。本論文では多様な文章を生成するためにはテンプレートが重要であるという主張に基づき、テンプレートを学習可能なVAEベースの手法を提案します。提案手法では潜在変数の空間をテンプレート空間とコンテンツ空間に明示的に分離することによって、正確で多様な文生成が可能となります。また、table-textのペアデータだけではなくtableデータのないraw textデータを利用した半教師あり学習を行います。
5. Related Work
• Data-to-Text
– Encoder-Decoder Model による End-to-End学習[1,2]
– 潜在変数としてテンプレートを導入
• 制御可能で解釈可能な生成に着目
• Semi-HMM Decoder[3]
• Semi-HMMモデルを使用したData2Text Studio[4]
– 対話的な手法で Table入力からテンプレートを抽出して文生成
4
[1] Parag Jain, Anirban Laha, Karthik Sankaranarayanan, Preksha Nema, Mitesh M Khapra, and Shreyas Shetty. A
mixed hierarchical attention based encoder-decoder approach for standard table summarization. In Proceedings of
the Conference of the North American Chapter of the Association for Computational Linguistics, 2018.
[2] Heng Gong, Xiaocheng Feng, Bing Qin, and Ting Liu. Table-to-text generation with effective hierarchical
encoder on three dimensions (row, column and time). In Proceedings of the Conference on Empirical Methods in
Natural Language Processing and the International Joint Conference on Natural Language Processing, 2019.
[3] Sam Wiseman, Stuart Shieber, and Alexander Rush. Learning neural templates for text generation. In
Proceedings of the Conference on Empirical Methods in Natural Language Processing, 2018.
[4] Longxu Dou, Guanghui Qin, Jinpeng Wang, Jin-Ge Yao, and Chin-Yew Lin. Data2text studio: Automated text
generation from structured data. In Proceedings of the Conference on Empirical Methods in Natural Language
Processing: System Demonstrations, 2018.
Encoder-Decoderは流暢な文を生成可能だが文の多様性に欠ける
6. Related Work
• Semi-supervised Learning From Raw Data
– data と text の pairwiseデータの整備は高コスト
• raw text データは取得が比較的容易
– 十分なデータが無いとEncoder-Decoderは失敗する可能性[1]
– 機械翻訳の分野では逆翻訳が有効[2,3]
5
[1] Shuming Ma, Pengcheng Yang, Tianyu Liu, Peng Li, Jie Zhou, and Xu Sun. Key fact as pivot: A two-stage model for low resource table-to-
text generation. In Proceedings of the Annual Meeting of the Association for Computational Linguistics, 2019.
[2] Rico Sennrich, Barry Haddow, and Alexandra Birch. Improving neural machine translation models with monolingual data. In Proceedings of
the Annual Meeting of the Association for Computational Linguistics, 2016.
[3] Franck Burlot and Franc¸ois Yvon. Using monolingual data in neural machine translation: a systematic study. In Proceedings of the
Conference on Machine Translation: Research Papers, 2018.
本論文では raw text を使用した半教師あり学習手法を提案
(逆翻訳に触発)
7. Related Work
• Latent Variable Generative Model
– Variational Auto Encoder (VAE) [1]
• RNNベースのVAEで多様で良質な文が生成可能[2]
– 近年では、Disentangledな潜在変数の学習が研究される
• 潜在空間を構文空間と意味空間に分離[3]
6
[1] Diederik P. Kingma and Max Welling. Auto-encoding variational bayes. In Proceedings of the International Conference on
Learning Representations, 2014.
[2] Samuel Bowman, Luke Vilnis, Oriol Vinyals, Andrew M Dai, Rafal Jozefowicz, and Samy Bengio. Generating sentences from a
continuous space. In Proceedings of the Conference on Computational Natural Language Learning., 2016.
[3] Yu Bao, Hao Zhou, Shujian Huang, Lei Li, Lili Mou, Olga Vechtomova, Xinyu Dai, and Jiajun Chen. Generating sentences from
disentangled syntactic and semantic spaces. In Proceedings of the Conference of the Association for Computational Linguistics,
2019.
本論文では、VAEベースの手法を提案
潜在空間をテンプレート空間とコンテンツ空間に分離
15. 提案手法 VTM の学習(pairwise text)
• Preserving-Content Loss (𝐿 𝑝𝑐)
– コンテンツ情報を潜在変数に埋め込むための補助損失項
14
content
潜在変数𝑐
Encoder
𝑞 𝜙 𝑧
(𝑧|𝑦)
Decoder
𝑝 𝜃(𝑦|𝑧, 𝑐)
text
𝑦
tempate
潜在変数𝑧
text
𝑦
Encoder
𝑞 𝜙 𝑐
(𝑐|𝑦)
text
𝑦
Preserving-Content Loss
ℎ = 𝑓𝑒𝑛𝑐 𝑥 :pairwise dataで使用していたencoder
16. 提案手法 VTM の学習
• Mutual Information Loss 𝐿 𝑀𝐼
– KL崩壊 (KL collapse) を緩和させるために相互情報項を追加[1,2,3]
– KL崩壊
• VAEの学習で起きる課題の一つ
• 潜在変数の事後分布 と 事前分布 を一致させる方向に学習してしまう
15
Mutual Information Loss
相互情報量
[1] Xi Chen, Yan Duan, Rein Houthooft, John Schulman, Ilya Sutskever, and Pieter Abbeel. Infogan:
Interpretable representation learning by information maximizing generative adversarial nets.
Proceedings of the Advances in Neural Information Processing Systems, 2016.
[2] Shengjia Zhao, Jiaming Song, and Stefano Ermon. Infovae: Information maximizing variational
autoencoders. arXiv preprint arXiv:1706.02262, 2017.
[3] Tiancheng Zhao, Kyusong Lee, and Maxine Eskenazi. Unsupervised discrete sentence
representation learning for interpretable neural dialog generation. In Proceedings of the Annual Meeting
of the Association for Computational Linguistics, 2018.
17. 提案手法 VTM の学習 (Training procedure) 16
𝐿 𝐸𝐿𝐵𝑂 𝑝:pair wiseデータのELBO
𝐿 𝐸𝐿𝐵𝑂 𝑟
:raw textデータのELBO
𝐿 𝑝𝑡:テンプレート情報を潜在変数に埋め込むための補助損失項
𝐿 𝑝𝑐:コンテンツ情報を潜在変数に埋め込むための補助損失項
𝐿 𝑀𝐼:KL collapse を緩和するための相互情報量項
pairwise
raw text
pairwise & raw text
18. Experiment
• Dataset
– 2種類
– データセットの table-text のペアの一部を使用
– 大部分を raw text として text のみ使用
• ペア:raw text = 1 : 10
17
SPNLG[1] レストランの記述
WIKI[2,3] Wikipediaの人物紹介[2,3] (+動物[3])
[1] Lena Reed, Shereen Oraby, and Marilyn Walker. Can neural generators for dialogue learn sentence planning and
discourse structuring? In Proceedings of the International Conference on Natural Language Generation, 2018.
[2] Remi Lebret, David Grangier, and Michael Auli. Neural text generation from structured data with ´ application to the
biography domain. In Proceedings of the Conference on Empirical Methods in Natural Language Processing, 2016.
[3] Qingyun Wang, Xiaoman Pan, Lifu Huang, Boliang Zhang, Zhiying Jiang, Heng Ji, and Kevin Knight. Describing a
knowledge base. In Proceedings of the International Conference on Natural Language Generation, 2018b.
21. Experiment
• Evaluation Metrics
– BLEU
• 高い方が良い
• 生成文と正解文の n-gram の一致に基づいて計算
– self-BLEU[1]
• 低いほど良い
• 生成文内でBLEUを計算
20
流暢さ 多様性
SPNLG BLEU-4, NIST, ROUGE-L(F-score) self-BLEU
WIKI BLEU-4, NIST, METEOR, ROUGE-L(F-score), CIDEr self-BLEU
[1] Yaoming Zhu, Sidi Lu, Lei Zheng, Jiaxian Guo, Weinan Zhang, Jun Wang, and Yong Yu. Texygen: A
benchmarking platform for text generation models. In Proceedings of the International ACM SIGIR
Conference on Research & Development in Information Retrieval, 2018.
22. Experiment
• Baseline Models
– Table2seq
• tableをEncode -> Seq2seqで文生成
• TableEncoderとDecoderのアーキテクチャは提案手法と同じ
• 学習はペアのデータのみ(raw textは使用しない)
• 復号化
– ビームサーチで5文 (Table2seq-beam)
– forward sampling (Table2seq-sample)
• raw textでDecoderを事前学習(Table2seq-pretrain)
– 復号化はビームサーチ(Table2seq-beamと同じ)
– Temp-KN[1]
• 5-gram Kneser-Ney 言語モデルによってテンプレートを生成
次にfieldのトークンをtableから単語に置き換え
21
[1] Remi Lebret, David Grangier, and Michael Auli. Neural text generation from structured data with
application to the biography domain. In Proceedings of the Conference on Empirical Methods in Natural
Language Processing, 2016.
32. Experimental Results on SPNLG Dataset
• Case Study
31
テンプレート構造が異なる文章を生成しているが
文中の情報が間違っている
(例)
文4:”it is a Japanese place.”
33. Experimental Results on SPNLG Dataset
• Case Study
32
• テンプレートの多様性が高く、正確な文が生成されている
• 文数や接続詞が異なる文を生成可能
提案手法
34. Experimental Results on WIKI Dataset
• Quantitative Analysis, Ablation Study
33
SPNLGデータセットと同様の結果
35. Experimental Results on WIKI Dataset
• Comparison with the pseudo-table-based method
– raw text の別の利用法
• 固有表現抽出(NER)によってraw text から疑似的なTableを構築
– NER+Table2seq
• table-textデータからBi-LSTM-CRFモデル[1]を学習し、
raw textの疑似的なTableを構築
• table-textデータと疑似table-textデータの両方でTable2seqを学習
– ドメイン変更:人物紹介(841,507文) -> 動物(101,807文)
• モデルの一般化を証明
34
[1] Zhiheng Huang, Wei Xu, and Kai Yu. Bidirectional lstm-crf models for sequence tagging. arXiv preprint
arXiv:1508.01991, 2015.
36. Experimental Results on WIKI Dataset
• Comparison with the pseudo-table-based method
– 流暢さと多様性のトレードオフを解析
• 異なるサンプリング方法の下での品質と多様性を評価
• 温度付きソフトマックス関数を使用
– 温度𝜏を変化させプロット(0.1, 0.2, 0.3, 0.5, 0.6, 0.9, 1.0)
35
左上の方が良いモデル
VTM(提案手法)の方が良い
37. Experimental Results on WIKI Dataset
• Computational cost
– Train: 検証セット中で最も低い誤差に到達するまでの時間
– Test: テストセットで72k 文を生成するのにかかる時間
– hardware
• single Tesla V100 GPU
36
提案手法(VTM)はBaselineより学習には時間がかかるが
推論にかかる時間は同程度
39. Experimental Results on WIKI Dataset
• Case Study
38
https://en.wikipedia.org/wiki/Jack_Ryder_(cricketer)
40. Experimental Results on WIKI Dataset
• Case Study
39
• 多様な文を生成可能
• 誤った内容や無関係な内容を生成する可能性が高い
(例)
文3ではクラブ名が間違っている
41. Experimental Results on WIKI Dataset
• Case Study
40
可読性を維持しつつ複数のテンプレートを持つ文章を生成可能
提案手法
(raw text 非使用)
42. Experimental Results on WIKI Dataset
• Case Study
41
• 他のモデルには無い、より多様な表現を生成
• pairデータに無いraw textによってテンプレート空間
の情報が豊かになる可能性を暗示している
(例)
5. “[fullname], also known as [nickname] ([birth date] –
[daeth date]) was a [country] [article name 4].”
提案手法