MAUVE: Measuring the Gap Between Neural Text and Human Text using Divergence Frontiers

Copyright © 2020 調和系工学研究室 - 北海道大学大学院情報科学研究院情報理工学部門複合情報工学分野 – All rights reserved.
MAUVE: Measuring the Gap
Between Neural Text and Human
Text using Divergence Frontiers
北海道大学大学院情報科学研究院
情報理工学部門複合情報工学分野調和系工学研究室
修士1年花野愛里咲

• 著者
– Krishna Pillutla，Swabha Swayamdipta，Rowan
Zellers，John Thickstun，Sean Welleck，Yejin
Choi，Zaid Harchaoui
• 発表
– NeurIPS(2021)
• 論文URL
– https://arxiv.org/pdf/2102.01454.pdf
• コード
– https://github.com/krishnap25/mauve
論文情報 2

• オープンエンドテキスト生成のための
評価指標MAUVEの提案
• モデルによるテキストの分布と人間が書いた
テキストの分布の近さをKL divergenceを
用いて定量化
• 既存の評価指標よりも人間による評価との
相関が確認された
概要 3

• 大規模テキスト生成モデルは高品質・一貫性を
持つ人間のようなテキストの生成が可能
• モデルが生成したテキストと人間の言語の近さ
を測定することは依然として未解決
• 人間が書いたテキストの分布とモデルによる
テキスト分布のギャップの測定を目的とする
背景 4

• 人間のテキスト分布とモデルによるテキスト
分布のギャップは2種類のエラーから生じる
– タイプ1エラー：生成モデルが人間が書きそうも
ないテキストを生成する
– タイプ2エラー：生成モデルが人間が書きそうな
テキストを生成できない
• これらをKL divergenceを用いて定式化
提案手法 5

• モデルによるテキスト分布Qと人間による
テキスト分布Pの混合分布𝑅𝜆をとる
• MAUVEは𝜆を(0, 1)で動かして得られた
ダイバージェンス曲線下の面積
• MAUVEの値が大きいほどQはPに近いことを示す
提案手法 6
𝑅𝜆 = 𝜆𝑃 + 1 − 𝜆 𝑄 𝜆 ∈ (0, 1)
横軸：タイプ1エラー
縦軸：タイプ2エラー
𝑐：スケーリングのための
ハイパーパラメータ

• 問題点
– 人間のテキスト分布が未知
– 典型的なモデル分布では次元が高すぎる
• 推定手順
1. 人間のテキストとモデルのテキストをサンプリング
2. 言語モデルを用いて各テキスト列の埋め込みベクトル
を得る（GPT-2を使用）
3. 埋め込まれたサンプルを量子化（k-means法を使用）
• ベクトル量子化：データ集合をk個のクラスタに分割し，
各クラスタをk個の代表ベクトルで近似
4. 各クラスタ内のデータ数をカウントしてヒストグラム
を形成
• 高次元のテキスト分布を低次元の離散分布に
変換
提案手法 7

関連研究 8
• 他の評価指標の問題点
– 2つのエラーを考慮していない
– ダイバージェンス曲線上のある1点しか考慮していない
オープンエンドテキスト生成のための自動評価指標

• タスク
– 与えられたテキストの続きを生成
• ドメイン：ウェブテキスト，ニュース，物語
• モデル
– ウェブテキストデータセットで事前学習したGPT-2
• デコーディングアルゴリズム
– ancestral sampling:言語モデルのステップごとの分布
から直接サンプリング
– greedy decoding:次の単語として最も確率の高い単語
を選択
– nucleus sampling:確率の合計がpを超えるような最小の
個数の候補を動的に決定
実験設定 9

1. 生成されたテキスト長，デコーディングアル
ゴリズム，モデルサイズの違いによる特性を
どのように定量化するのか
2. 埋め込みモデル，量子化アルゴリズム，
ハイパーパラメータの違いによらずロバスト
であるか
3. 人間の判断と相関があるか
実験 10

11
実験1-1
• 生成されたテキストの長さによる質の違いを
定量化できるか
– 生成するテキストの長さが長いほど質が悪化する[1]
• 比較指標の中でMAUVEだけがテキストの長さが
長いほど質が低下することを捉えている
– モデルサイズによらず一貫した傾向あり
[1] H. Rashkin, A. Celikyilmaz, Y. Choi, and J. Gao. PlotTMachines: Outline-Conditioned Generation with Dynamic
Plot State Tracking. arXiv Preprint, 2020.

12
実験1-2
• デコーディングアルゴリズムによる質の違いを
捉えられるか
– Greedy sampling < Ancestral sampling < Nucleus
sampling の順にテキストの質が高い[2][3][4][5]
• MAUVEはデコーディングアルゴリズムの特徴を
捉えることができている
[2] A. Holtzman, J. Buys, M. Forbes, and Y. Choi. The Curious Case of Neural Text Degeneration. In Proc. of ICLR, 2020.
[3] S. Welleck, I. Kulikov, S. Roller, E. Dinan, K. Cho, and J. Weston. Neural Text Generation With Unlikelihood Training. In Proc. of ICLR, 2020.
[4] S. Welleck, I. Kulikov, J. Kim, R. Y. Pang, and K. Cho. Consistency of a Recurrent Language Model With Respect to Incomplete Decoding. In
Proc. of EMNLP, pages 5553–5568, 2020.
[5] A. Fan, M. Lewis, and Y. N. Dauphin. Hierarchical Neural Story Generation. In Proc. of ACL, pages 889–898, 2018.

13
実験1-3
• モデルサイズによる質の違いを捉えられるか
– モデルサイズは大きいほどテキストの質が高い[6][7]
• MAUVEはモデルサイズの特徴を捉えることが
できている
[6] A. Radford, J. Wu, R. Child, D. Luan, D. Amodei, and I. Sutskever. Language Models are Unsupervised Multitask Learners. OpenAI
blog, 1(8):9, 2019.
[7] T. B. Brown, B. Mann, N. Ryder, M. Subbiah, J. Kaplan, P. Dhariwal, A. Neelakantan, P. Shyam, G. Sastry, A. Askell, S. Agarwal, A.
Herbert-Voss, G. Krueger, T. Henighan, R. Child, A. Ramesh, D. M. Ziegler, J. Wu, C. Winter, C. Hesse, M. Chen, E. Sigler, M. Litwin, S.
Gray, B. Chess, J. Clark, C. Berner, S. McCandlish, A. Radford, I. Sutskever, and D. Amodei. Language Models are Few-Shot Learners. In
Proc. of NeurIPS, 2020.

• 異なる埋め込みモデルでも同じ傾向を示すか
– RoBERTa largeとGPT-2 largeを比較
実験2-1 14
• 異なる埋め込みモデルでもMAUVEは以下の既知の
特性を示した
– モデルサイズが大きいほどテキストの質が高い
– Greedy sampling < Ancestral sampling < Nucleus sampling
の順にテキストの質が高い

• 異なる量子化アルゴリズムを用いてもロバストで
あるか
– K-means法，Deep Residual Mixture Models(DRMM),
格子量子化を比較
• K=100から5000までの K-means法で計算された
MAUVEはデフォルトのK=500のときとほぼ完全
に相関する（相関係数は0.99または1.00）
• DRMMまたは格子量子化で計算されたMAUVEは
K-means法とほぼ完全な相関を持つ（相関係数は
0.99以上）
実験2-2 15

• スケーリングパラメータcの値によらず
ロバストであるか
実験2-3 16
𝐶 𝑃, 𝑄 = {(exp −𝑐𝐾𝐿 𝑄 𝑅𝜆 , exp −𝑐𝐾𝐿 𝑃 𝑅𝜆
𝑅𝜆 = 𝜆𝑃 + 1 − 𝜆 𝑄, 𝜆 ∈ (0, 1)}
• cの値はダイバージェンス曲線の相対的な順序
には影響を与えない

• 人間の判断と相関があるか
– 評価者は与えられた文章に続く文章を5段階の
リッカート尺度でペアから1つを選択
• Human-like:どちらの文章が人間が書いた可能性が高いか
• Interesting:どちらの文章がより面白いか
• Sensible:どちらの文章が論理的に正しいか
実験3 17
GPT-2のモデル
サイズ4種類
• small
• medium
• large
• xl
デコーディング
アルゴリズム2種類
• pure sampling
• nucleus sampling
人間が書いた
テキスト（継続文）
× ＋
• 文章は9種類あるためペアは36組
– 各組に対して90のアノテーションを取得

18

• 1対1の比較からランキングに変換するために
Bradley-Terryモデルを使用
実験3 19
• Bradley-Terryスコアと各評価指標の相関係数
を算出
Bradley-Terryスコア
（Bradley-Terryスコアは値が大きいほど評価者からの選好が強いことを示す）

• 人間の判断と相関があるか
– 「human-like」「interesting」「sensible」の3つ
の指標を評価
• MAUVEは他の評価指標よりも人間の評価との
相関が大幅に高い
実験3 20

• モデルのテキストと人間のテキストを識別する
分類器の精度との相関
– 分類器の精度が低いほど生成されたテキストは
人間のテキストとの識別が難しい
• 使用する分類モデル
– ニュース生成：Grover mega
– 物語生成：GPT-2
実験3 21
• MAUVEは他の比較指標よりも識別精度との相関
が最も高い

• モデルによるテキストと人間のテキストの
ギャップを測る自動評価指標MAUVEを提案
• MAUVEはテキストの生成長，デコーディング
アルゴリズム，モデルサイズの違いを捉え，
人間の判断と相関することが確認された
• 今後の展望：翻訳や要約などのクローズド
エンドなタスクへの拡張
まとめ 22

MAUVE: Measuring the Gap Between Neural Text and Human Text using Divergence Frontiers

Recomendados

Recomendados

Mais conteúdo relacionado

Mais procurados

Mais procurados (20)

Semelhante a MAUVE: Measuring the Gap Between Neural Text and Human Text using Divergence Frontiers

Semelhante a MAUVE: Measuring the Gap Between Neural Text and Human Text using Divergence Frontiers (20)

Mais de harmonylab

Mais de harmonylab (20)

Último

Último (10)

MAUVE: Measuring the Gap Between Neural Text and Human Text using Divergence Frontiers