抽出型要約と言い換えによる生成型要約の訓練データ拡張

抽出型要約と⾔い換えによる
⽣成型要約の訓練データ拡張
東京⼯業⼤学情報理⼯学院
LOEM Mengsay，⾼瀬翔，⾦⼦正弘，岡崎直観
NLP2022 抽出型要約と⾔い換えによる⽣成型要約の訓練データ拡張 1

概要
• ⽣成型要約の疑似データを⽣成する新たな⼿法を提案した
• 抽出型要約と⾔い換えの組み合わせ
• 抽出型要約で原⽂の重要な部分を取り出す
• ⾔い換えで多様な表現を取得する
• 逆翻訳や⾃⼰学習の既存⼿法より効果的である
• ⾒出し⽣成と⽂書要約タスクで要約の性能を向上させた
• 疑似データの構築コストが低い

背景：⾃動要約タスク
The Los Angeles Dodgers acquired
South Korean right-hander Jae Seo
from the New York Mets on
Wednesday in a four-player swap
Korea’s Seo headed to Dodgers from Mets
Dodgers acquired right-hander Seo from Mets
抽出型要約：原⽂の⼀部を取り出す
⽣成型要約：新たな表現で要約を⽣成
⼈間による要約に近いものが期待できる
• 与えられた原⽂から⾃動的に要約を出⼒するタスク
原⽂

背景：⽣成型要約
The Los Angeles Dodgers acquired South Korean
right-hander Jae Seo from the New York Mets on
エンコーダデコーダ
• 系列変換タスクとして定義できる
• 原⽂ → 要約
• エンコーダ・デコーダモデルで解かれる(Rushら2015)
• ⾼い性能を達成するためには⼤量の訓練データが必要 (Koehnら2017)

背景：⽣成型要約
The Los Angeles Dodgers acquired South Korean
right-hander Jae Seo from the New York Mets on
エンコーダデコーダ
• 系列変換タスクとして定義できる
• 原⽂ → 要約
• エンコーダ・デコーダモデルで解かれる(Rushら2015)
• ⾼い性能を達成するためには⼤量の訓練データが必要 (Koehnら2017)
⼈⼿による⼤規模なコーパスの作成は困難・⾼コスト
↓
疑似訓練データの⾃動⽣成が必要

関連研究：疑似データの⾃動⽣成
• 逆翻訳 (Sennrichら2016a, Paridaら2019)
• 逆⽅向の翻訳モデルで疑似データを作成する
• 要約タスクでは⾮現実な処理になってしまう
• ⾃⼰学習 (Zhangら2016, Heら2020)
• 教師モデルで疑似データを作成する
• 多様な疑似データの⽣成は困難(Guら2018)

疑似データの⾃動⽣成①：逆翻訳
英⽇
翻訳モデル
Create
pseudo-data
with a
backward
translation
model.
Unrealistic
processing
in summa-
rization task
逆⽅向の翻
訳モデルで
疑似データ
を作成する
⽇英
翻訳モデル
疑似データ
を⽣成する
Generate
Pseudo-
data
疑似データ⽣成
英⽇翻訳タスクの場合
学習
真訓練
データ
英語⽇本語
英語⽇本語
• 要約タスクでは⾮現実的な処理になってしまう

原⽂-要約
モデル
Create
pseudo-data
with a
backward
translation
model.
Unrealistic
processing
in summa-
rization task
要約-原⽂
モデル
Pseudo-data
with
backward
Pseudo
学習
真訓練
データ
要約タスクの場合
Generate
Pseudo-
data
原⽂要約
疑似原⽂要約

原⽂-要約
モデル
Create
pseudo-data
with a
backward
translation
model.
Unrealistic
processing
in summa-
rization task
要約-原⽂
モデル
Pseudo-data
with
backward
Pseudo
学習
真訓練
データ
Generate
Pseudo-
data
原⽂要約
疑似原⽂要約
要約から原⽂を⽣成するモデルが必要
↓
⾮現実的な処理になってしまう

疑似データの⾃動⽣成②：⾃⼰学習
要約モデル
Create
pseudo-data
with a
backward
translation
model.
Unrealistic
processing
in summa-
rization task
要約モデル
（教師モデル）
Generate
Pseudo-
data with
…
Pseudo-data
with
backward
Pseudo-data
学習
真訓練
データ
原⽂要約
原⽂疑似要約
• ⾃⼰学習 (Zhangら2016, Heら2020)

疑似データの⾃動⽣成②：⾃⼰学習
要約モデル
Create
pseudo-data
with a
backward
translation
model.
Unrealistic
processing
in summa-
rization task
要約モデル
（教師モデル）
Generate
Pseudo-
data with
…
Pseudo-data
with
backward
Pseudo-data
学習
真訓練
データ
原⽂要約
原⽂疑似要約
• ⾃⼰学習 (Zhangら2016, Heら2020)
• 教師モデルの性能は真の訓練データ量に左右される
• 多様な疑似データを⽣成ことは困難

提案⼿法：抽出型要約と⾔い換え
• 抽出型要約：重要な部分を抽出し，原⽂を圧縮する
• ⾔い換え：抽出された要約の多様な表現を獲得する
Chinese men’s team have put
a major step towards a new
title at the military pentathlon
world championships.
Chinese men’s team
have put a major step
towards a new title.
has taken a big step
抽出型要約言い換え
ステップ１ステップ２
※ 複数⽂を含む⼊⼒の場合は，各⽂に対して独⽴に提案⼿法を適⽤する
原⽂疑似要約

提案⼿法：ステップ１- 抽出型要約
重要な部分＝係り受け⽊の部分⽊とする
• 部分⽊の深さで要約の⻑さを制御する
• 訓練データが不要
原⽂疑似要約

Chinese
men’s team
have put
a step major
towards a title
at championships
the world
military
pentathlon
new
原⽂疑似要約

Chinese
men’s team
have put
a step major
towards a title
at championships
the world
military
pentathlon
new
原⽂疑似要約
この構⽂の深さは６なので，
深さ３よりも深いノードを削除する

提案⼿法：ステップ２- ⾔い換え
折り返し翻訳で⾔い換えを⾏う
→ 多様な疑似要約を獲得
• 既存の機械翻訳モデルを⽤いる
原⽂疑似要約

Die chinesische Herrenmannschaft
hat einen großen Schritt in Richtung
eines neuen Titels gemacht.
英語 →ドイツ語
原⽂疑似要約

原⽂疑似要約
ドイツ語 → 英語

原⽂疑似要約
ドイツ語 → 英語
⾔い換え表現
を獲得！

実験設定
• 提案⼿法の有効性を評価する
• ⾒出し⽣成タスク
• Gigawordデータセット
• ⽂書要約タスク
• CNN/DailyMailデータセット
• エンコーダ・デコーダ：Transformer
• 評価指標：ROUGE
• 参照要約とモデルの出⼒の⼀致度

実験設定
要約モデル
Create
pseudo-data
with a
backward
translation
model.
Unrealistic
processing
in summa-
rization task
Pseudo-data
with
backward
原⽂要約
学習
真訓練
データ

実験設定
要約モデル
Create
pseudo-data
with a
backward
translation
model.
Unrealistic
processing
in summa-
rization task
Pseudo-data
with
backward
原⽂要約
学習
真訓練
データ
疑似訓練
データ
⽐較⼿法
• 逆翻訳
• ⾃⼰学習
• 提案⼿法
要約モデル
Create
pseudo-data
with a
backward
translation
model.
Unrealistic
processing
in summa-
rization task
Pseudo-data
with
backward
原⽂要約
学習
真訓練
データ

実験設定
要約モデル
Create
pseudo-data
with a
backward
translation
model.
Unrealistic
processing
in summa-
rization task
Pseudo-data
with
backward
原⽂要約
学習
真訓練
データ
疑似訓練
データ
⽐較⼿法
• 逆翻訳
• ⾃⼰学習
• 提案⼿法
要約モデル
Create
pseudo-data
with a
backward
translation
model.
Unrealistic
processing
in summa-
rization task
Pseudo-data
with
backward
原⽂要約
学習
真訓練
データ
ROUGEが上がると良い
評価
評価

結果：両タスクで性能を上昇させた
• 提案⼿法は他のデータ拡張⼿法よりも⾼い性能を達成した
• ⾒出し⽣成では，ROUGE-2スコアを⼤幅に向上させた
• ⽂書要約では，全てのROUGEスコアを有意に向上させた
ROUGE-1, ROUGE-2 ：1-gram, 2-gramの一致
ROUGE-L ：最長共有部分列の一致
手法
見出し生成文書要約
訓練事例数 ROUGE 訓練事例数 ROUGE
真疑似１２ L 真疑似１２ L
拡張なし 380万 - 37.95 18.80 35.05 28万 - 39.76 17.55 36.75
オーバーサンプリング 760万 - 38.26 19.14 35.41 56万 - 40.14 17.86 37.05
逆翻訳 380万 380万 38.49 19.24 35.63 28万 28万 39.93 17.74 36.85
自己学習 380万 380万 38.32 19.06 35.37 28万 28万 40.19 17.87 37.21
提案手法 380万 380万 38.51 19.52 35.72 28万 28万 40.57 18.22 37.51
真のデータ
を重複
⾼いほどよい

結果：両タスクで性能を上昇させた
• 提案⼿法は他のデータ拡張⼿法よりも⾼い性能を達成した
• ⾒出し⽣成では，ROUGE-2スコアを⼤幅に向上させた
• ⽂書要約では，全てのROUGEスコアを有意に向上させた
手法
拡張なし 380万 - 37.95 18.80 35.05 28万 - 39.76 17.55 36.75
オーバーサンプリング 760万 - 38.26 19.14 35.41 56万 - 40.14 17.86 37.05
逆翻訳 380万 380万 38.49 19.24 35.63 28万 28万 39.93 17.74 36.85
自己学習 380万 380万 38.32 19.06 35.37 28万 28万 40.19 17.87 37.21
提案手法 380万 380万 38.51 19.52 35.72 28万 28万 40.57 18.22 37.51
真のデータ
を重複
⾼いほどよい

分析：低リソース設定でも有効
• 実験設定
• 各訓練セットから1千件の事例を抽出 → 真の訓練データとする
• 残りの事例を疑似データの⽣成に利⽤する
• 結果
• 両タスクで他の⼿法より有意に⾼い性能を達成した
→ 真の訓練データの量が少ない場合にも有効である
手法
拡張なし 1千 - 4.84 0.58 4.66 1千 - 2.48 0.29 2.45
オーバーサンプリング 380万 - 9.89 1.39 9.30 28万 - 13.63 0.89 12.63
逆翻訳 1千 380万 12.19 2.43 11.31 1千 28万 9.73 0.50 8.92
自己学習 1千 380万 7.27 1.07 6.98 1千 28万 14.37 1.52 13.36
提案手法 1千 380万 23.58 6.56 21.12 1千 28万 34.47 12.91 31.36
真のデータ
を重複
⾼いほどよい

分析：疑似データの多様性
• 疑似要約と真の要約の意味的と表層的類似度を評価する
• 意味的類似度が⾼く，表層的類似度が低い → より多様性が⾼い

The team has put a major step to the final round.
表層類似度が⾼い例
The team has put a big step to the final stage.
表層類似度が低い例
The team has taken a significant step toward the final match.
意
味
的
類
似
度
が
⾼
い

⾔い換え表現が少ない → 表層類似度が⾼い
⾔い換え表現が多い → 表層類似度が低い
⾔い換え表現
意
味
的
類
似
度
が
⾼
い

• 両⽅の⼿法のBERTScoreが⾼い
→ ⽣成された要約は疑似要約として意味的に適している
• 提案⼿法のBLEUが⾃⼰学習より低い
→ 真の要約と異なるフレーズを多く含んでいるものが多い
→ より多様な疑似データ
表層的：低い→多様意味的：⾼い→適切

まとめ
• ⽣成型要約の疑似データを⽣成する新たな⼿法を提案した
• 抽出型要約で原⽂の重要な部分を取り出す
• ⾔い換えで多様な表現を取得する
• 逆翻訳や⾃⼰学習の既存⼿法より効果的である
• 真の訓練データが少ない場合でも頑健である
• 疑似データの構築コストの⾯でも優れている

参考⽂献
• Alexander M. Rush, Sumit Chopra, and Jason Weston. A neural attention model
for abstractive sentence summarization. In Proceedings of EMNLP, pp. 379-
389, 2015.
• Philipp Koehn and Rebecca Knowles. Six challenges for neural machine
translation. In Proceedings of the First Workshop on Neural Machine
Translation, pp. 28-39, 2017.
• Rico Sennrich, Barry Haddow, and Alexandra Birch. Improving neural machine
translation models with monolingual data. In Proceedings of ACL, pp. 86-96,
2016.
• Shantipriya Parida and Petr Motlicek. Abstract text summarization: A low
resource challenge. In Proceedings of EMNLP-IJCNLP, pp.5994-5998, 2019.
• Jiajun Zhang and Chengqing Zong. Exploiting source-side monolingual data in
neural machine translation. In Proceedings of EMNLP, pp. 1535-1545, 2016.
• Junxian He, Jiatao Gu, Jiajun Shen, and Marc'Aurelio Ranzato. Revisiting self-
training for neural sequence generation. In International Conference on
Learning Representations,2020.

付録

疑似データ⽣成の効率
• 提案⼿法では，疑似データの⽣成には学習を必要としない
• 疑似データの構築時間を⼤幅に短縮できる
• 他の⼿法と⽐較して1/10 以下の⾦額で疑似データを構築できる
補足資料

低リソース設定
手法
拡張なし 1千 - 4.84 0.58 4.66 1千 - 2.48 0.29 2.45
オーバーサンプリング 380万 - 9.89 1.39 9.30 28万 - 13.63 0.89 12.63
逆翻訳 1千 380万 12.19 2.43 11.31 1千 28万 9.73 0.50 8.92
自己学習 1千 380万 7.27 1.07 6.98 1千 28万 14.37 1.52 13.36
提案手法 1千 380万 23.58 6.56 21.12 1千 28万 34.47 12.91 31.36
ステップ１のみ 1千 380万 22.56 5.25 19.87 1千 28万 32.95 12.07 29.44
抽出型要約 - - 18.72 4.26 17.09 - - 28.52 8.02 23.83
• ステップ１（抽出型要約）のみでも⼗分性能の向上を貢献できる
補足資料

逆翻訳による疑似データ
• ⽣成された原⽂は元の原⽂より短い
→ 要約から原⽂を⽣成することが難しい
• ⽂書要約の場合 ROUGE スコアは極めて低い
→ 逆翻訳は原⽂の⽣成に失敗している
• ⾒出し⽣成のROUGE スコアは⾼い
→ 要約から短い原⽂の核となる部分を復元できる可能性がある
• 出し⽣成タスクは記事の先頭⼀分から⾒出しを⽣成するタスク
• 原⽂の主要な部分が含まれていることが多い
→ ⾼いROUGE スコアの要因になっていると考えられる
補足資料

抽出型要約と言い換えによる生成型要約の訓練データ拡張

Recomendados

Recomendados

Mais conteúdo relacionado

Mais procurados

Mais procurados (20)

Semelhante a 抽出型要約と言い換えによる生成型要約の訓練データ拡張

Semelhante a 抽出型要約と言い換えによる生成型要約の訓練データ拡張 (8)

抽出型要約と言い換えによる生成型要約の訓練データ拡張