SlideShare uma empresa Scribd logo
1 de 38
Baixar para ler offline
抽出型要約と⾔い換えによる
⽣成型要約の訓練データ拡張
東京⼯業⼤学情報理⼯学院
LOEM Mengsay,⾼瀬 翔,⾦⼦ 正弘,岡崎 直観
NLP2022 抽出型要約と⾔い換えによる⽣成型要約の訓練データ拡張 1
概要
• ⽣成型要約の疑似データを⽣成する新たな⼿法を提案した
• 抽出型要約と⾔い換えの組み合わせ
• 抽出型要約で原⽂の重要な部分を取り出す
• ⾔い換えで多様な表現を取得する
• 逆翻訳や⾃⼰学習の既存⼿法より効果的である
• ⾒出し⽣成と⽂書要約タスクで要約の性能を向上させた
• 疑似データの構築コストが低い
NLP2022 抽出型要約と⾔い換えによる⽣成型要約の訓練データ拡張 2
背景:⾃動要約タスク
The Los Angeles Dodgers acquired
South Korean right-hander Jae Seo
from the New York Mets on
Wednesday in a four-player swap
Korea’s Seo headed to Dodgers from Mets
Dodgers acquired right-hander Seo from Mets
抽出型要約:原⽂の⼀部を取り出す
⽣成型要約:新たな表現で要約を⽣成
⼈間による要約に近いものが期待できる
• 与えられた原⽂から⾃動的に要約を出⼒するタスク
NLP2022 抽出型要約と⾔い換えによる⽣成型要約の訓練データ拡張 3
原⽂
背景:⽣成型要約
The Los Angeles Dodgers acquired South Korean
right-hander Jae Seo from the New York Mets on
Wednesday in a four-player swap
Korea’s Seo headed to Dodgers from Mets
エンコーダ デコーダ
• 系列変換タスクとして定義できる
• 原⽂ → 要約
• エンコーダ・デコーダモデルで解かれる(Rushら2015)
• ⾼い性能を達成するためには⼤量の訓練データが必要 (Koehnら2017)
NLP2022 抽出型要約と⾔い換えによる⽣成型要約の訓練データ拡張 4
背景:⽣成型要約
The Los Angeles Dodgers acquired South Korean
right-hander Jae Seo from the New York Mets on
Wednesday in a four-player swap
Korea’s Seo headed to Dodgers from Mets
エンコーダ デコーダ
• 系列変換タスクとして定義できる
• 原⽂ → 要約
• エンコーダ・デコーダモデルで解かれる(Rushら2015)
• ⾼い性能を達成するためには⼤量の訓練データが必要 (Koehnら2017)
NLP2022 抽出型要約と⾔い換えによる⽣成型要約の訓練データ拡張 5
⼈⼿による⼤規模なコーパスの作成は困難・⾼コスト
↓
疑似訓練データの⾃動⽣成が必要
関連研究:疑似データの⾃動⽣成
• 逆翻訳 (Sennrichら2016a, Paridaら2019)
• 逆⽅向の翻訳モデルで疑似データを作成する
• 要約タスクでは⾮現実な処理になってしまう
• ⾃⼰学習 (Zhangら2016, Heら2020)
• 教師モデルで疑似データを作成する
• 多様な疑似データの⽣成は困難(Guら2018)
NLP2022 抽出型要約と⾔い換えによる⽣成型要約の訓練データ拡張 6
疑似データの⾃動⽣成①:逆翻訳
英⽇
翻訳モデル
Create
pseudo-data
with a
backward
translation
model.
Unrealistic
processing
in summa-
rization task
逆⽅向の翻
訳モデルで
疑似データ
を作成する
⽇英
翻訳モデル
疑似データ
を⽣成する
Generate
Pseudo-
data
疑似データ⽣成
英⽇翻訳タスクの場合
学習
真訓練
データ
NLP2022 抽出型要約と⾔い換えによる⽣成型要約の訓練データ拡張 7
英語 ⽇本語
英語 ⽇本語
• 逆翻訳 (Sennrichら2016a, Paridaら2019)
• 逆⽅向の翻訳モデルで疑似データを作成する
• 要約タスクでは⾮現実的な処理になってしまう
疑似データの⾃動⽣成①:逆翻訳
原⽂-要約
モデル
Create
pseudo-data
with a
backward
translation
model.
Unrealistic
processing
in summa-
rization task
要約-原⽂
モデル
疑似データ⽣成
Pseudo-data
with
backward
Pseudo
学習
真訓練
データ
NLP2022 抽出型要約と⾔い換えによる⽣成型要約の訓練データ拡張 8
要約タスクの場合
Generate
Pseudo-
data
原⽂ 要約
疑似原⽂ 要約
• 逆翻訳 (Sennrichら2016a, Paridaら2019)
• 逆⽅向の翻訳モデルで疑似データを作成する
• 要約タスクでは⾮現実的な処理になってしまう
疑似データの⾃動⽣成①:逆翻訳
原⽂-要約
モデル
Create
pseudo-data
with a
backward
translation
model.
Unrealistic
processing
in summa-
rization task
要約-原⽂
モデル
疑似データ⽣成
Pseudo-data
with
backward
Pseudo
学習
真訓練
データ
NLP2022 抽出型要約と⾔い換えによる⽣成型要約の訓練データ拡張 9
要約タスクの場合
Generate
Pseudo-
data
原⽂ 要約
疑似原⽂ 要約
• 逆翻訳 (Sennrichら2016a, Paridaら2019)
• 逆⽅向の翻訳モデルで疑似データを作成する
• 要約タスクでは⾮現実的な処理になってしまう
要約から原⽂を⽣成するモデルが必要
↓
⾮現実的な処理になってしまう
疑似データの⾃動⽣成②:⾃⼰学習
要約モデル
Create
pseudo-data
with a
backward
translation
model.
Unrealistic
processing
in summa-
rization task
要約モデル
(教師モデル)
Generate
Pseudo-
data with
…
疑似データ⽣成
Pseudo-data
with
backward
Pseudo-data
学習
真訓練
データ
NLP2022 抽出型要約と⾔い換えによる⽣成型要約の訓練データ拡張 10
原⽂ 要約
原⽂ 疑似要約
要約タスクの場合
• ⾃⼰学習 (Zhangら2016, Heら2020)
• 教師モデルで疑似データを作成する
• 多様な疑似データの⽣成は困難(Guら2018)
疑似データの⾃動⽣成②:⾃⼰学習
要約モデル
Create
pseudo-data
with a
backward
translation
model.
Unrealistic
processing
in summa-
rization task
要約モデル
(教師モデル)
Generate
Pseudo-
data with
…
疑似データ⽣成
Pseudo-data
with
backward
Pseudo-data
学習
真訓練
データ
NLP2022 抽出型要約と⾔い換えによる⽣成型要約の訓練データ拡張 11
原⽂ 要約
原⽂ 疑似要約
要約タスクの場合
• ⾃⼰学習 (Zhangら2016, Heら2020)
• 教師モデルで疑似データを作成する
• 多様な疑似データの⽣成は困難(Guら2018)
• 教師モデルの性能は真の訓練データ量に左右される
• 多様な疑似データを⽣成ことは困難
提案⼿法: 抽出型要約と⾔い換え
• 抽出型要約と⾔い換えの組み合わせ
• 抽出型要約:重要な部分を抽出し,原⽂を圧縮する
• ⾔い換え: 抽出された要約の多様な表現を獲得する
Chinese men’s team have put
a major step towards a new
title at the military pentathlon
world championships.
Chinese men’s team
have put a major step
towards a new title.
Chinese men’s team
has taken a big step
towards a new title.
抽出型要約 言い換え
ステップ1 ステップ2
※ 複数⽂を含む⼊⼒の場合は,各⽂に対して独⽴に提案⼿法を適⽤する
NLP2022 抽出型要約と⾔い換えによる⽣成型要約の訓練データ拡張 12
原⽂ 疑似要約
提案⼿法:ステップ1- 抽出型要約
重要な部分=係り受け⽊の部分⽊とする
• 部分⽊の深さで要約の⻑さを制御する
• 訓練データが不要
※ 複数⽂を含む⼊⼒の場合は,各⽂に対して独⽴に提案⼿法を適⽤する
Chinese men’s team have put
a major step towards a new
title at the military pentathlon
world championships.
Chinese men’s team
have put a major step
towards a new title.
Chinese men’s team
has taken a big step
towards a new title.
抽出型要約 言い換え
ステップ1 ステップ2
NLP2022 抽出型要約と⾔い換えによる⽣成型要約の訓練データ拡張 13
• 抽出型要約と⾔い換えの組み合わせ
• 抽出型要約:重要な部分を抽出し,原⽂を圧縮する
• ⾔い換え: 抽出された要約の多様な表現を獲得する
原⽂ 疑似要約
提案⼿法:ステップ1- 抽出型要約
重要な部分=係り受け⽊の部分⽊とする
• 部分⽊の深さで要約の⻑さを制御する
• 訓練データが不要
Chinese
men’s team
have put
a step major
towards a title
at championships
the world
military
pentathlon
new
※ 複数⽂を含む⼊⼒の場合は,各⽂に対して独⽴に提案⼿法を適⽤する
Chinese men’s team have put
a major step towards a new
title at the military pentathlon
world championships.
Chinese men’s team
have put a major step
towards a new title.
Chinese men’s team
has taken a big step
towards a new title.
抽出型要約 言い換え
ステップ1 ステップ2
NLP2022 抽出型要約と⾔い換えによる⽣成型要約の訓練データ拡張 14
• 抽出型要約と⾔い換えの組み合わせ
• 抽出型要約:重要な部分を抽出し,原⽂を圧縮する
• ⾔い換え: 抽出された要約の多様な表現を獲得する
原⽂ 疑似要約
提案⼿法:ステップ1- 抽出型要約
重要な部分=係り受け⽊の部分⽊とする
• 部分⽊の深さで要約の⻑さを制御する
• 訓練データが不要
Chinese
men’s team
have put
a step major
towards a title
at championships
the world
military
pentathlon
new
※ 複数⽂を含む⼊⼒の場合は,各⽂に対して独⽴に提案⼿法を適⽤する
Chinese men’s team have put
a major step towards a new
title at the military pentathlon
world championships.
Chinese men’s team
have put a major step
towards a new title.
Chinese men’s team
has taken a big step
towards a new title.
抽出型要約 言い換え
ステップ1 ステップ2
NLP2022 抽出型要約と⾔い換えによる⽣成型要約の訓練データ拡張 15
• 抽出型要約と⾔い換えの組み合わせ
• 抽出型要約:重要な部分を抽出し,原⽂を圧縮する
• ⾔い換え: 抽出された要約の多様な表現を獲得する
原⽂ 疑似要約
この構⽂の深さは6なので,
深さ3よりも深いノードを削除する
提案⼿法:ステップ2- ⾔い換え
折り返し翻訳で⾔い換えを⾏う
→ 多様な疑似要約を獲得
• 既存の機械翻訳モデルを⽤いる
※ 複数⽂を含む⼊⼒の場合は,各⽂に対して独⽴に提案⼿法を適⽤する
Chinese men’s team have put
a major step towards a new
title at the military pentathlon
world championships.
Chinese men’s team
have put a major step
towards a new title.
Chinese men’s team
has taken a big step
towards a new title.
抽出型要約 言い換え
ステップ1 ステップ2
NLP2022 抽出型要約と⾔い換えによる⽣成型要約の訓練データ拡張 16
• 抽出型要約と⾔い換えの組み合わせ
• 抽出型要約:重要な部分を抽出し,原⽂を圧縮する
• ⾔い換え: 抽出された要約の多様な表現を獲得する
原⽂ 疑似要約
提案⼿法:ステップ2- ⾔い換え
折り返し翻訳で⾔い換えを⾏う
→ 多様な疑似要約を獲得
• 既存の機械翻訳モデルを⽤いる
Chinese men’s team
have put a major step
towards a new title.
Die chinesische Herrenmannschaft
hat einen großen Schritt in Richtung
eines neuen Titels gemacht.
英語 →ドイツ語
※ 複数⽂を含む⼊⼒の場合は,各⽂に対して独⽴に提案⼿法を適⽤する
Chinese men’s team have put
a major step towards a new
title at the military pentathlon
world championships.
Chinese men’s team
have put a major step
towards a new title.
Chinese men’s team
has taken a big step
towards a new title.
抽出型要約 言い換え
ステップ1 ステップ2
NLP2022 抽出型要約と⾔い換えによる⽣成型要約の訓練データ拡張 17
• 抽出型要約と⾔い換えの組み合わせ
• 抽出型要約:重要な部分を抽出し,原⽂を圧縮する
• ⾔い換え: 抽出された要約の多様な表現を獲得する
原⽂ 疑似要約
提案⼿法:ステップ2- ⾔い換え
折り返し翻訳で⾔い換えを⾏う
→ 多様な疑似要約を獲得
• 既存の機械翻訳モデルを⽤いる
Chinese men’s team
have put a major step
towards a new title.
Die chinesische Herrenmannschaft
hat einen großen Schritt in Richtung
eines neuen Titels gemacht.
英語 →ドイツ語
※ 複数⽂を含む⼊⼒の場合は,各⽂に対して独⽴に提案⼿法を適⽤する
Chinese men’s team have put
a major step towards a new
title at the military pentathlon
world championships.
Chinese men’s team
have put a major step
towards a new title.
Chinese men’s team
has taken a big step
towards a new title.
抽出型要約 言い換え
ステップ1 ステップ2
NLP2022 抽出型要約と⾔い換えによる⽣成型要約の訓練データ拡張 18
• 抽出型要約と⾔い換えの組み合わせ
• 抽出型要約:重要な部分を抽出し,原⽂を圧縮する
• ⾔い換え: 抽出された要約の多様な表現を獲得する
原⽂ 疑似要約
Chinese men’s team
has taken a big step
towards a new title.
ドイツ語 → 英語
提案⼿法:ステップ2- ⾔い換え
折り返し翻訳で⾔い換えを⾏う
→ 多様な疑似要約を獲得
• 既存の機械翻訳モデルを⽤いる
Chinese men’s team
have put a major step
towards a new title.
Die chinesische Herrenmannschaft
hat einen großen Schritt in Richtung
eines neuen Titels gemacht.
英語 →ドイツ語
※ 複数⽂を含む⼊⼒の場合は,各⽂に対して独⽴に提案⼿法を適⽤する
Chinese men’s team have put
a major step towards a new
title at the military pentathlon
world championships.
Chinese men’s team
have put a major step
towards a new title.
Chinese men’s team
has taken a big step
towards a new title.
抽出型要約 言い換え
ステップ1 ステップ2
NLP2022 抽出型要約と⾔い換えによる⽣成型要約の訓練データ拡張 19
• 抽出型要約と⾔い換えの組み合わせ
• 抽出型要約:重要な部分を抽出し,原⽂を圧縮する
• ⾔い換え: 抽出された要約の多様な表現を獲得する
原⽂ 疑似要約
Chinese men’s team
has taken a big step
towards a new title.
ドイツ語 → 英語
⾔い換え表現
を獲得!
実験設定
• 提案⼿法の有効性を評価する
• ⾒出し⽣成タスク
• Gigawordデータセット
• ⽂書要約タスク
• CNN/DailyMailデータセット
• エンコーダ・デコーダ:Transformer
• 評価指標:ROUGE
• 参照要約とモデルの出⼒の⼀致度
NLP2022 抽出型要約と⾔い換えによる⽣成型要約の訓練データ拡張 20
実験設定
• 提案⼿法の有効性を評価する
• ⾒出し⽣成タスク
• Gigawordデータセット
• ⽂書要約タスク
• CNN/DailyMailデータセット
• エンコーダ・デコーダ:Transformer
• 評価指標:ROUGE
• 参照要約とモデルの出⼒の⼀致度
NLP2022 抽出型要約と⾔い換えによる⽣成型要約の訓練データ拡張 21
要約モデル
Create
pseudo-data
with a
backward
translation
model.
Unrealistic
processing
in summa-
rization task
Pseudo-data
with
backward
原⽂ 要約
学習
真訓練
データ
実験設定
• 提案⼿法の有効性を評価する
• ⾒出し⽣成タスク
• Gigawordデータセット
• ⽂書要約タスク
• CNN/DailyMailデータセット
• エンコーダ・デコーダ:Transformer
• 評価指標:ROUGE
• 参照要約とモデルの出⼒の⼀致度
NLP2022 抽出型要約と⾔い換えによる⽣成型要約の訓練データ拡張 22
要約モデル
Create
pseudo-data
with a
backward
translation
model.
Unrealistic
processing
in summa-
rization task
Pseudo-data
with
backward
原⽂ 要約
学習
真訓練
データ
疑似訓練
データ
⽐較⼿法
• 逆翻訳
• ⾃⼰学習
• 提案⼿法
要約モデル
Create
pseudo-data
with a
backward
translation
model.
Unrealistic
processing
in summa-
rization task
Pseudo-data
with
backward
原⽂ 要約
学習
真訓練
データ
実験設定
• 提案⼿法の有効性を評価する
• ⾒出し⽣成タスク
• Gigawordデータセット
• ⽂書要約タスク
• CNN/DailyMailデータセット
• エンコーダ・デコーダ:Transformer
• 評価指標:ROUGE
• 参照要約とモデルの出⼒の⼀致度
NLP2022 抽出型要約と⾔い換えによる⽣成型要約の訓練データ拡張 23
要約モデル
Create
pseudo-data
with a
backward
translation
model.
Unrealistic
processing
in summa-
rization task
Pseudo-data
with
backward
原⽂ 要約
学習
真訓練
データ
疑似訓練
データ
⽐較⼿法
• 逆翻訳
• ⾃⼰学習
• 提案⼿法
要約モデル
Create
pseudo-data
with a
backward
translation
model.
Unrealistic
processing
in summa-
rization task
Pseudo-data
with
backward
原⽂ 要約
学習
真訓練
データ
ROUGEが上がると良い
評価
評価
結果:両タスクで性能を上昇させた
• 提案⼿法は他のデータ拡張⼿法よりも⾼い性能を達成した
• ⾒出し⽣成では,ROUGE-2スコアを⼤幅に向上させた
• ⽂書要約では,全てのROUGEスコアを有意に向上させた
ROUGE-1, ROUGE-2 :1-gram, 2-gramの一致
ROUGE-L :最長共有部分列の一致
手法
見出し生成 文書要約
訓練事例数 ROUGE 訓練事例数 ROUGE
真 疑似 1 2 L 真 疑似 1 2 L
拡張なし 380万 - 37.95 18.80 35.05 28万 - 39.76 17.55 36.75
オーバーサンプリング 760万 - 38.26 19.14 35.41 56万 - 40.14 17.86 37.05
逆翻訳 380万 380万 38.49 19.24 35.63 28万 28万 39.93 17.74 36.85
自己学習 380万 380万 38.32 19.06 35.37 28万 28万 40.19 17.87 37.21
提案手法 380万 380万 38.51 19.52 35.72 28万 28万 40.57 18.22 37.51
NLP2022 抽出型要約と⾔い換えによる⽣成型要約の訓練データ拡張 24
真のデータ
を重複
⾼いほどよい
結果:両タスクで性能を上昇させた
• 提案⼿法は他のデータ拡張⼿法よりも⾼い性能を達成した
• ⾒出し⽣成では,ROUGE-2スコアを⼤幅に向上させた
• ⽂書要約では,全てのROUGEスコアを有意に向上させた
ROUGE-1, ROUGE-2 :1-gram, 2-gramの一致
ROUGE-L :最長共有部分列の一致
手法
見出し生成 文書要約
訓練事例数 ROUGE 訓練事例数 ROUGE
真 疑似 1 2 L 真 疑似 1 2 L
拡張なし 380万 - 37.95 18.80 35.05 28万 - 39.76 17.55 36.75
オーバーサンプリング 760万 - 38.26 19.14 35.41 56万 - 40.14 17.86 37.05
逆翻訳 380万 380万 38.49 19.24 35.63 28万 28万 39.93 17.74 36.85
自己学習 380万 380万 38.32 19.06 35.37 28万 28万 40.19 17.87 37.21
提案手法 380万 380万 38.51 19.52 35.72 28万 28万 40.57 18.22 37.51
NLP2022 抽出型要約と⾔い換えによる⽣成型要約の訓練データ拡張 25
真のデータ
を重複
⾼いほどよい
分析:低リソース設定でも有効
• 実験設定
• 各訓練セットから1千件の事例を抽出 → 真の訓練データとする
• 残りの事例を疑似データの⽣成に利⽤する
• 結果
• 両タスクで他の⼿法より有意に⾼い性能を達成した
→ 真の訓練データの量が少ない場合にも有効である
手法
見出し生成 文書要約
訓練事例数 ROUGE 訓練事例数 ROUGE
真 疑似 1 2 L 真 疑似 1 2 L
拡張なし 1千 - 4.84 0.58 4.66 1千 - 2.48 0.29 2.45
オーバーサンプリング 380万 - 9.89 1.39 9.30 28万 - 13.63 0.89 12.63
逆翻訳 1千 380万 12.19 2.43 11.31 1千 28万 9.73 0.50 8.92
自己学習 1千 380万 7.27 1.07 6.98 1千 28万 14.37 1.52 13.36
提案手法 1千 380万 23.58 6.56 21.12 1千 28万 34.47 12.91 31.36
ROUGE-1, ROUGE-2 :1-gram, 2-gramの一致
ROUGE-L :最長共有部分列の一致
NLP2022 抽出型要約と⾔い換えによる⽣成型要約の訓練データ拡張 26
真のデータ
を重複
⾼いほどよい
分析:疑似データの多様性
• 疑似要約と真の要約の意味的と表層的類似度を評価する
• 意味的類似度が⾼く,表層的類似度が低い → より多様性が⾼い
NLP2022 抽出型要約と⾔い換えによる⽣成型要約の訓練データ拡張 27
分析:疑似データの多様性
• 疑似要約と真の要約の意味的と表層的類似度を評価する
• 意味的類似度が⾼く,表層的類似度が低い → より多様性が⾼い
NLP2022 抽出型要約と⾔い換えによる⽣成型要約の訓練データ拡張 28
The team has put a major step to the final round.
表層類似度が⾼い例
The team has put a big step to the final stage.
表層類似度が低い例
The team has taken a significant step toward the final match.
意
味
的
類
似
度
が
⾼
い
分析:疑似データの多様性
• 疑似要約と真の要約の意味的と表層的類似度を評価する
• 意味的類似度が⾼く,表層的類似度が低い → より多様性が⾼い
NLP2022 抽出型要約と⾔い換えによる⽣成型要約の訓練データ拡張 29
The team has put a major step to the final round.
⾔い換え表現が少ない → 表層類似度が⾼い
The team has put a big step to the final stage.
⾔い換え表現が多い → 表層類似度が低い
The team has taken a significant step toward the final match.
⾔い換え表現
意
味
的
類
似
度
が
⾼
い
分析:疑似データの多様性
• 疑似要約と真の要約の意味的と表層的類似度を評価する
• 意味的類似度が⾼く,表層的類似度が低い → より多様性が⾼い
NLP2022 抽出型要約と⾔い換えによる⽣成型要約の訓練データ拡張 30
The team has put a major step to the final round.
⾔い換え表現が少ない → 表層類似度が⾼い
The team has put a big step to the final stage.
⾔い換え表現が多い → 表層類似度が低い
The team has taken a significant step toward the final match.
⾔い換え表現
意
味
的
類
似
度
が
⾼
い
分析:疑似データの多様性
• 疑似要約と真の要約の意味的と表層的類似度を評価する
• 意味的類似度が⾼く,表層的類似度が低い → より多様性が⾼い
• 両⽅の⼿法のBERTScoreが⾼い
→ ⽣成された要約は疑似要約として意味的に適している
• 提案⼿法のBLEUが⾃⼰学習より低い
→ 真の要約と異なるフレーズを多く含んでいるものが多い
→ より多様な疑似データ
NLP2022 抽出型要約と⾔い換えによる⽣成型要約の訓練データ拡張 31
表層的:低い→多様 意味的:⾼い→適切
分析:疑似データの多様性
• 疑似要約と真の要約の意味的と表層的類似度を評価する
• 意味的類似度が⾼く,表層的類似度が低い → より多様性が⾼い
• 両⽅の⼿法のBERTScoreが⾼い
→ ⽣成された要約は疑似要約として意味的に適している
• 提案⼿法のBLEUが⾃⼰学習より低い
→ 真の要約と異なるフレーズを多く含んでいるものが多い
→ より多様な疑似データ
NLP2022 抽出型要約と⾔い換えによる⽣成型要約の訓練データ拡張 32
表層的:低い→多様 意味的:⾼い→適切
まとめ
• ⽣成型要約の疑似データを⽣成する新たな⼿法を提案した
• 抽出型要約と⾔い換えの組み合わせ
• 抽出型要約で原⽂の重要な部分を取り出す
• ⾔い換えで多様な表現を取得する
• 逆翻訳や⾃⼰学習の既存⼿法より効果的である
• 真の訓練データが少ない場合でも頑健である
• 疑似データの構築コストの⾯でも優れている
NLP2022 抽出型要約と⾔い換えによる⽣成型要約の訓練データ拡張 33
参考⽂献
• Alexander M. Rush, Sumit Chopra, and Jason Weston. A neural attention model
for abstractive sentence summarization. In Proceedings of EMNLP, pp. 379-
389, 2015.
• Philipp Koehn and Rebecca Knowles. Six challenges for neural machine
translation. In Proceedings of the First Workshop on Neural Machine
Translation, pp. 28-39, 2017.
• Rico Sennrich, Barry Haddow, and Alexandra Birch. Improving neural machine
translation models with monolingual data. In Proceedings of ACL, pp. 86-96,
2016.
• Shantipriya Parida and Petr Motlicek. Abstract text summarization: A low
resource challenge. In Proceedings of EMNLP-IJCNLP, pp.5994-5998, 2019.
• Jiajun Zhang and Chengqing Zong. Exploiting source-side monolingual data in
neural machine translation. In Proceedings of EMNLP, pp. 1535-1545, 2016.
• Junxian He, Jiatao Gu, Jiajun Shen, and Marc'Aurelio Ranzato. Revisiting self-
training for neural sequence generation. In International Conference on
Learning Representations,2020.
NLP2022 抽出型要約と⾔い換えによる⽣成型要約の訓練データ拡張 34
付録
NLP2022 抽出型要約と⾔い換えによる⽣成型要約の訓練データ拡張 35
疑似データ⽣成の効率
• 提案⼿法では,疑似データの⽣成には学習を必要としない
• 疑似データの構築時間を⼤幅に短縮できる
• 他の⼿法と⽐較して1/10 以下の⾦額で疑似データを構築できる
NLP2022 抽出型要約と⾔い換えによる⽣成型要約の訓練データ拡張 36
補足資料
低リソース設定
手法
見出し生成 文書要約
訓練事例数 ROUGE 訓練事例数 ROUGE
真 疑似 1 2 L 真 疑似 1 2 L
拡張なし 1千 - 4.84 0.58 4.66 1千 - 2.48 0.29 2.45
オーバーサンプリング 380万 - 9.89 1.39 9.30 28万 - 13.63 0.89 12.63
逆翻訳 1千 380万 12.19 2.43 11.31 1千 28万 9.73 0.50 8.92
自己学習 1千 380万 7.27 1.07 6.98 1千 28万 14.37 1.52 13.36
提案手法 1千 380万 23.58 6.56 21.12 1千 28万 34.47 12.91 31.36
ステップ1のみ 1千 380万 22.56 5.25 19.87 1千 28万 32.95 12.07 29.44
抽出型要約 - - 18.72 4.26 17.09 - - 28.52 8.02 23.83
ROUGE-1, ROUGE-2 :1-gram, 2-gramの一致
ROUGE-L :最長共有部分列の一致
NLP2022 抽出型要約と⾔い換えによる⽣成型要約の訓練データ拡張 37
• ステップ1(抽出型要約)のみでも⼗分性能の向上を貢献できる
補足資料
逆翻訳による疑似データ
• ⽣成された原⽂は元の原⽂より短い
→ 要約から原⽂を⽣成することが難しい
• ⽂書要約の場合 ROUGE スコアは極めて低い
→ 逆翻訳は原⽂の⽣成に失敗している
• ⾒出し⽣成のROUGE スコアは⾼い
→ 要約から短い原⽂の核となる部分を復元できる可能性がある
• 出し⽣成タスクは記事の先頭⼀分から⾒出しを⽣成するタスク
• 原⽂の主要な部分が含まれていることが多い
→ ⾼いROUGE スコアの要因になっていると考えられる
NLP2022 抽出型要約と⾔い換えによる⽣成型要約の訓練データ拡張 38
補足資料

Mais conteúdo relacionado

Mais procurados

Mais procurados (20)

[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習
 
強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習
 
モデル高速化百選
モデル高速化百選モデル高速化百選
モデル高速化百選
 
Transformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法についてTransformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法について
 
HiPPO/S4解説
HiPPO/S4解説HiPPO/S4解説
HiPPO/S4解説
 
[DL輪読会]Neural Ordinary Differential Equations
[DL輪読会]Neural Ordinary Differential Equations[DL輪読会]Neural Ordinary Differential Equations
[DL輪読会]Neural Ordinary Differential Equations
 
画像キャプションの自動生成
画像キャプションの自動生成画像キャプションの自動生成
画像キャプションの自動生成
 
Transformerを雰囲気で理解する
Transformerを雰囲気で理解するTransformerを雰囲気で理解する
Transformerを雰囲気で理解する
 
[DL輪読会]Temporal DifferenceVariationalAuto-Encoder
[DL輪読会]Temporal DifferenceVariationalAuto-Encoder[DL輪読会]Temporal DifferenceVariationalAuto-Encoder
[DL輪読会]Temporal DifferenceVariationalAuto-Encoder
 
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
 
【DL輪読会】GIT RE-BASIN: MERGING MODELS MODULO PERMU- TATION SYMMETRIES
【DL輪読会】GIT RE-BASIN: MERGING MODELS MODULO PERMU- TATION SYMMETRIES【DL輪読会】GIT RE-BASIN: MERGING MODELS MODULO PERMU- TATION SYMMETRIES
【DL輪読会】GIT RE-BASIN: MERGING MODELS MODULO PERMU- TATION SYMMETRIES
 
強化学習その2
強化学習その2強化学習その2
強化学習その2
 
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
 
Deeplearning輪読会
Deeplearning輪読会Deeplearning輪読会
Deeplearning輪読会
 
最適輸送の計算アルゴリズムの研究動向
最適輸送の計算アルゴリズムの研究動向最適輸送の計算アルゴリズムの研究動向
最適輸送の計算アルゴリズムの研究動向
 
研究分野をサーベイする
研究分野をサーベイする研究分野をサーベイする
研究分野をサーベイする
 
機械学習品質管理・保証の動向と取り組み
機械学習品質管理・保証の動向と取り組み機械学習品質管理・保証の動向と取り組み
機械学習品質管理・保証の動向と取り組み
 
[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative Models[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative Models
 
[DL輪読会]The Neural Process Family−Neural Processes関連の実装を読んで動かしてみる−
[DL輪読会]The Neural Process Family−Neural Processes関連の実装を読んで動かしてみる−[DL輪読会]The Neural Process Family−Neural Processes関連の実装を読んで動かしてみる−
[DL輪読会]The Neural Process Family−Neural Processes関連の実装を読んで動かしてみる−
 
最近のDeep Learning (NLP) 界隈におけるAttention事情
最近のDeep Learning (NLP) 界隈におけるAttention事情最近のDeep Learning (NLP) 界隈におけるAttention事情
最近のDeep Learning (NLP) 界隈におけるAttention事情
 

Semelhante a 抽出型要約と言い換えによる生成型要約の訓練データ拡張 (8)

[DL輪読会]Deep Face Recognition: A Survey
[DL輪読会]Deep Face Recognition: A Survey[DL輪読会]Deep Face Recognition: A Survey
[DL輪読会]Deep Face Recognition: A Survey
 
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
 
市場で勝ち続けるための品質とテストの技術②
市場で勝ち続けるための品質とテストの技術②市場で勝ち続けるための品質とテストの技術②
市場で勝ち続けるための品質とテストの技術②
 
提案に役に立つ情報 (teianlab 勉強会)
提案に役に立つ情報 (teianlab 勉強会)提案に役に立つ情報 (teianlab 勉強会)
提案に役に立つ情報 (teianlab 勉強会)
 
Rm20140716 13key
Rm20140716 13keyRm20140716 13key
Rm20140716 13key
 
I suc発表用v2.8
I suc発表用v2.8I suc発表用v2.8
I suc発表用v2.8
 
[DL輪読会]Learning Latent Dynamics for Planning from Pixels
[DL輪読会]Learning Latent Dynamics for Planning from Pixels[DL輪読会]Learning Latent Dynamics for Planning from Pixels
[DL輪読会]Learning Latent Dynamics for Planning from Pixels
 
スクラム適用報告
スクラム適用報告スクラム適用報告
スクラム適用報告
 

抽出型要約と言い換えによる生成型要約の訓練データ拡張

  • 1. 抽出型要約と⾔い換えによる ⽣成型要約の訓練データ拡張 東京⼯業⼤学情報理⼯学院 LOEM Mengsay,⾼瀬 翔,⾦⼦ 正弘,岡崎 直観 NLP2022 抽出型要約と⾔い換えによる⽣成型要約の訓練データ拡張 1
  • 2. 概要 • ⽣成型要約の疑似データを⽣成する新たな⼿法を提案した • 抽出型要約と⾔い換えの組み合わせ • 抽出型要約で原⽂の重要な部分を取り出す • ⾔い換えで多様な表現を取得する • 逆翻訳や⾃⼰学習の既存⼿法より効果的である • ⾒出し⽣成と⽂書要約タスクで要約の性能を向上させた • 疑似データの構築コストが低い NLP2022 抽出型要約と⾔い換えによる⽣成型要約の訓練データ拡張 2
  • 3. 背景:⾃動要約タスク The Los Angeles Dodgers acquired South Korean right-hander Jae Seo from the New York Mets on Wednesday in a four-player swap Korea’s Seo headed to Dodgers from Mets Dodgers acquired right-hander Seo from Mets 抽出型要約:原⽂の⼀部を取り出す ⽣成型要約:新たな表現で要約を⽣成 ⼈間による要約に近いものが期待できる • 与えられた原⽂から⾃動的に要約を出⼒するタスク NLP2022 抽出型要約と⾔い換えによる⽣成型要約の訓練データ拡張 3 原⽂
  • 4. 背景:⽣成型要約 The Los Angeles Dodgers acquired South Korean right-hander Jae Seo from the New York Mets on Wednesday in a four-player swap Korea’s Seo headed to Dodgers from Mets エンコーダ デコーダ • 系列変換タスクとして定義できる • 原⽂ → 要約 • エンコーダ・デコーダモデルで解かれる(Rushら2015) • ⾼い性能を達成するためには⼤量の訓練データが必要 (Koehnら2017) NLP2022 抽出型要約と⾔い換えによる⽣成型要約の訓練データ拡張 4
  • 5. 背景:⽣成型要約 The Los Angeles Dodgers acquired South Korean right-hander Jae Seo from the New York Mets on Wednesday in a four-player swap Korea’s Seo headed to Dodgers from Mets エンコーダ デコーダ • 系列変換タスクとして定義できる • 原⽂ → 要約 • エンコーダ・デコーダモデルで解かれる(Rushら2015) • ⾼い性能を達成するためには⼤量の訓練データが必要 (Koehnら2017) NLP2022 抽出型要約と⾔い換えによる⽣成型要約の訓練データ拡張 5 ⼈⼿による⼤規模なコーパスの作成は困難・⾼コスト ↓ 疑似訓練データの⾃動⽣成が必要
  • 6. 関連研究:疑似データの⾃動⽣成 • 逆翻訳 (Sennrichら2016a, Paridaら2019) • 逆⽅向の翻訳モデルで疑似データを作成する • 要約タスクでは⾮現実な処理になってしまう • ⾃⼰学習 (Zhangら2016, Heら2020) • 教師モデルで疑似データを作成する • 多様な疑似データの⽣成は困難(Guら2018) NLP2022 抽出型要約と⾔い換えによる⽣成型要約の訓練データ拡張 6
  • 7. 疑似データの⾃動⽣成①:逆翻訳 英⽇ 翻訳モデル Create pseudo-data with a backward translation model. Unrealistic processing in summa- rization task 逆⽅向の翻 訳モデルで 疑似データ を作成する ⽇英 翻訳モデル 疑似データ を⽣成する Generate Pseudo- data 疑似データ⽣成 英⽇翻訳タスクの場合 学習 真訓練 データ NLP2022 抽出型要約と⾔い換えによる⽣成型要約の訓練データ拡張 7 英語 ⽇本語 英語 ⽇本語 • 逆翻訳 (Sennrichら2016a, Paridaら2019) • 逆⽅向の翻訳モデルで疑似データを作成する • 要約タスクでは⾮現実的な処理になってしまう
  • 8. 疑似データの⾃動⽣成①:逆翻訳 原⽂-要約 モデル Create pseudo-data with a backward translation model. Unrealistic processing in summa- rization task 要約-原⽂ モデル 疑似データ⽣成 Pseudo-data with backward Pseudo 学習 真訓練 データ NLP2022 抽出型要約と⾔い換えによる⽣成型要約の訓練データ拡張 8 要約タスクの場合 Generate Pseudo- data 原⽂ 要約 疑似原⽂ 要約 • 逆翻訳 (Sennrichら2016a, Paridaら2019) • 逆⽅向の翻訳モデルで疑似データを作成する • 要約タスクでは⾮現実的な処理になってしまう
  • 9. 疑似データの⾃動⽣成①:逆翻訳 原⽂-要約 モデル Create pseudo-data with a backward translation model. Unrealistic processing in summa- rization task 要約-原⽂ モデル 疑似データ⽣成 Pseudo-data with backward Pseudo 学習 真訓練 データ NLP2022 抽出型要約と⾔い換えによる⽣成型要約の訓練データ拡張 9 要約タスクの場合 Generate Pseudo- data 原⽂ 要約 疑似原⽂ 要約 • 逆翻訳 (Sennrichら2016a, Paridaら2019) • 逆⽅向の翻訳モデルで疑似データを作成する • 要約タスクでは⾮現実的な処理になってしまう 要約から原⽂を⽣成するモデルが必要 ↓ ⾮現実的な処理になってしまう
  • 10. 疑似データの⾃動⽣成②:⾃⼰学習 要約モデル Create pseudo-data with a backward translation model. Unrealistic processing in summa- rization task 要約モデル (教師モデル) Generate Pseudo- data with … 疑似データ⽣成 Pseudo-data with backward Pseudo-data 学習 真訓練 データ NLP2022 抽出型要約と⾔い換えによる⽣成型要約の訓練データ拡張 10 原⽂ 要約 原⽂ 疑似要約 要約タスクの場合 • ⾃⼰学習 (Zhangら2016, Heら2020) • 教師モデルで疑似データを作成する • 多様な疑似データの⽣成は困難(Guら2018)
  • 11. 疑似データの⾃動⽣成②:⾃⼰学習 要約モデル Create pseudo-data with a backward translation model. Unrealistic processing in summa- rization task 要約モデル (教師モデル) Generate Pseudo- data with … 疑似データ⽣成 Pseudo-data with backward Pseudo-data 学習 真訓練 データ NLP2022 抽出型要約と⾔い換えによる⽣成型要約の訓練データ拡張 11 原⽂ 要約 原⽂ 疑似要約 要約タスクの場合 • ⾃⼰学習 (Zhangら2016, Heら2020) • 教師モデルで疑似データを作成する • 多様な疑似データの⽣成は困難(Guら2018) • 教師モデルの性能は真の訓練データ量に左右される • 多様な疑似データを⽣成ことは困難
  • 12. 提案⼿法: 抽出型要約と⾔い換え • 抽出型要約と⾔い換えの組み合わせ • 抽出型要約:重要な部分を抽出し,原⽂を圧縮する • ⾔い換え: 抽出された要約の多様な表現を獲得する Chinese men’s team have put a major step towards a new title at the military pentathlon world championships. Chinese men’s team have put a major step towards a new title. Chinese men’s team has taken a big step towards a new title. 抽出型要約 言い換え ステップ1 ステップ2 ※ 複数⽂を含む⼊⼒の場合は,各⽂に対して独⽴に提案⼿法を適⽤する NLP2022 抽出型要約と⾔い換えによる⽣成型要約の訓練データ拡張 12 原⽂ 疑似要約
  • 13. 提案⼿法:ステップ1- 抽出型要約 重要な部分=係り受け⽊の部分⽊とする • 部分⽊の深さで要約の⻑さを制御する • 訓練データが不要 ※ 複数⽂を含む⼊⼒の場合は,各⽂に対して独⽴に提案⼿法を適⽤する Chinese men’s team have put a major step towards a new title at the military pentathlon world championships. Chinese men’s team have put a major step towards a new title. Chinese men’s team has taken a big step towards a new title. 抽出型要約 言い換え ステップ1 ステップ2 NLP2022 抽出型要約と⾔い換えによる⽣成型要約の訓練データ拡張 13 • 抽出型要約と⾔い換えの組み合わせ • 抽出型要約:重要な部分を抽出し,原⽂を圧縮する • ⾔い換え: 抽出された要約の多様な表現を獲得する 原⽂ 疑似要約
  • 14. 提案⼿法:ステップ1- 抽出型要約 重要な部分=係り受け⽊の部分⽊とする • 部分⽊の深さで要約の⻑さを制御する • 訓練データが不要 Chinese men’s team have put a step major towards a title at championships the world military pentathlon new ※ 複数⽂を含む⼊⼒の場合は,各⽂に対して独⽴に提案⼿法を適⽤する Chinese men’s team have put a major step towards a new title at the military pentathlon world championships. Chinese men’s team have put a major step towards a new title. Chinese men’s team has taken a big step towards a new title. 抽出型要約 言い換え ステップ1 ステップ2 NLP2022 抽出型要約と⾔い換えによる⽣成型要約の訓練データ拡張 14 • 抽出型要約と⾔い換えの組み合わせ • 抽出型要約:重要な部分を抽出し,原⽂を圧縮する • ⾔い換え: 抽出された要約の多様な表現を獲得する 原⽂ 疑似要約
  • 15. 提案⼿法:ステップ1- 抽出型要約 重要な部分=係り受け⽊の部分⽊とする • 部分⽊の深さで要約の⻑さを制御する • 訓練データが不要 Chinese men’s team have put a step major towards a title at championships the world military pentathlon new ※ 複数⽂を含む⼊⼒の場合は,各⽂に対して独⽴に提案⼿法を適⽤する Chinese men’s team have put a major step towards a new title at the military pentathlon world championships. Chinese men’s team have put a major step towards a new title. Chinese men’s team has taken a big step towards a new title. 抽出型要約 言い換え ステップ1 ステップ2 NLP2022 抽出型要約と⾔い換えによる⽣成型要約の訓練データ拡張 15 • 抽出型要約と⾔い換えの組み合わせ • 抽出型要約:重要な部分を抽出し,原⽂を圧縮する • ⾔い換え: 抽出された要約の多様な表現を獲得する 原⽂ 疑似要約 この構⽂の深さは6なので, 深さ3よりも深いノードを削除する
  • 16. 提案⼿法:ステップ2- ⾔い換え 折り返し翻訳で⾔い換えを⾏う → 多様な疑似要約を獲得 • 既存の機械翻訳モデルを⽤いる ※ 複数⽂を含む⼊⼒の場合は,各⽂に対して独⽴に提案⼿法を適⽤する Chinese men’s team have put a major step towards a new title at the military pentathlon world championships. Chinese men’s team have put a major step towards a new title. Chinese men’s team has taken a big step towards a new title. 抽出型要約 言い換え ステップ1 ステップ2 NLP2022 抽出型要約と⾔い換えによる⽣成型要約の訓練データ拡張 16 • 抽出型要約と⾔い換えの組み合わせ • 抽出型要約:重要な部分を抽出し,原⽂を圧縮する • ⾔い換え: 抽出された要約の多様な表現を獲得する 原⽂ 疑似要約
  • 17. 提案⼿法:ステップ2- ⾔い換え 折り返し翻訳で⾔い換えを⾏う → 多様な疑似要約を獲得 • 既存の機械翻訳モデルを⽤いる Chinese men’s team have put a major step towards a new title. Die chinesische Herrenmannschaft hat einen großen Schritt in Richtung eines neuen Titels gemacht. 英語 →ドイツ語 ※ 複数⽂を含む⼊⼒の場合は,各⽂に対して独⽴に提案⼿法を適⽤する Chinese men’s team have put a major step towards a new title at the military pentathlon world championships. Chinese men’s team have put a major step towards a new title. Chinese men’s team has taken a big step towards a new title. 抽出型要約 言い換え ステップ1 ステップ2 NLP2022 抽出型要約と⾔い換えによる⽣成型要約の訓練データ拡張 17 • 抽出型要約と⾔い換えの組み合わせ • 抽出型要約:重要な部分を抽出し,原⽂を圧縮する • ⾔い換え: 抽出された要約の多様な表現を獲得する 原⽂ 疑似要約
  • 18. 提案⼿法:ステップ2- ⾔い換え 折り返し翻訳で⾔い換えを⾏う → 多様な疑似要約を獲得 • 既存の機械翻訳モデルを⽤いる Chinese men’s team have put a major step towards a new title. Die chinesische Herrenmannschaft hat einen großen Schritt in Richtung eines neuen Titels gemacht. 英語 →ドイツ語 ※ 複数⽂を含む⼊⼒の場合は,各⽂に対して独⽴に提案⼿法を適⽤する Chinese men’s team have put a major step towards a new title at the military pentathlon world championships. Chinese men’s team have put a major step towards a new title. Chinese men’s team has taken a big step towards a new title. 抽出型要約 言い換え ステップ1 ステップ2 NLP2022 抽出型要約と⾔い換えによる⽣成型要約の訓練データ拡張 18 • 抽出型要約と⾔い換えの組み合わせ • 抽出型要約:重要な部分を抽出し,原⽂を圧縮する • ⾔い換え: 抽出された要約の多様な表現を獲得する 原⽂ 疑似要約 Chinese men’s team has taken a big step towards a new title. ドイツ語 → 英語
  • 19. 提案⼿法:ステップ2- ⾔い換え 折り返し翻訳で⾔い換えを⾏う → 多様な疑似要約を獲得 • 既存の機械翻訳モデルを⽤いる Chinese men’s team have put a major step towards a new title. Die chinesische Herrenmannschaft hat einen großen Schritt in Richtung eines neuen Titels gemacht. 英語 →ドイツ語 ※ 複数⽂を含む⼊⼒の場合は,各⽂に対して独⽴に提案⼿法を適⽤する Chinese men’s team have put a major step towards a new title at the military pentathlon world championships. Chinese men’s team have put a major step towards a new title. Chinese men’s team has taken a big step towards a new title. 抽出型要約 言い換え ステップ1 ステップ2 NLP2022 抽出型要約と⾔い換えによる⽣成型要約の訓練データ拡張 19 • 抽出型要約と⾔い換えの組み合わせ • 抽出型要約:重要な部分を抽出し,原⽂を圧縮する • ⾔い換え: 抽出された要約の多様な表現を獲得する 原⽂ 疑似要約 Chinese men’s team has taken a big step towards a new title. ドイツ語 → 英語 ⾔い換え表現 を獲得!
  • 20. 実験設定 • 提案⼿法の有効性を評価する • ⾒出し⽣成タスク • Gigawordデータセット • ⽂書要約タスク • CNN/DailyMailデータセット • エンコーダ・デコーダ:Transformer • 評価指標:ROUGE • 参照要約とモデルの出⼒の⼀致度 NLP2022 抽出型要約と⾔い換えによる⽣成型要約の訓練データ拡張 20
  • 21. 実験設定 • 提案⼿法の有効性を評価する • ⾒出し⽣成タスク • Gigawordデータセット • ⽂書要約タスク • CNN/DailyMailデータセット • エンコーダ・デコーダ:Transformer • 評価指標:ROUGE • 参照要約とモデルの出⼒の⼀致度 NLP2022 抽出型要約と⾔い換えによる⽣成型要約の訓練データ拡張 21 要約モデル Create pseudo-data with a backward translation model. Unrealistic processing in summa- rization task Pseudo-data with backward 原⽂ 要約 学習 真訓練 データ
  • 22. 実験設定 • 提案⼿法の有効性を評価する • ⾒出し⽣成タスク • Gigawordデータセット • ⽂書要約タスク • CNN/DailyMailデータセット • エンコーダ・デコーダ:Transformer • 評価指標:ROUGE • 参照要約とモデルの出⼒の⼀致度 NLP2022 抽出型要約と⾔い換えによる⽣成型要約の訓練データ拡張 22 要約モデル Create pseudo-data with a backward translation model. Unrealistic processing in summa- rization task Pseudo-data with backward 原⽂ 要約 学習 真訓練 データ 疑似訓練 データ ⽐較⼿法 • 逆翻訳 • ⾃⼰学習 • 提案⼿法 要約モデル Create pseudo-data with a backward translation model. Unrealistic processing in summa- rization task Pseudo-data with backward 原⽂ 要約 学習 真訓練 データ
  • 23. 実験設定 • 提案⼿法の有効性を評価する • ⾒出し⽣成タスク • Gigawordデータセット • ⽂書要約タスク • CNN/DailyMailデータセット • エンコーダ・デコーダ:Transformer • 評価指標:ROUGE • 参照要約とモデルの出⼒の⼀致度 NLP2022 抽出型要約と⾔い換えによる⽣成型要約の訓練データ拡張 23 要約モデル Create pseudo-data with a backward translation model. Unrealistic processing in summa- rization task Pseudo-data with backward 原⽂ 要約 学習 真訓練 データ 疑似訓練 データ ⽐較⼿法 • 逆翻訳 • ⾃⼰学習 • 提案⼿法 要約モデル Create pseudo-data with a backward translation model. Unrealistic processing in summa- rization task Pseudo-data with backward 原⽂ 要約 学習 真訓練 データ ROUGEが上がると良い 評価 評価
  • 24. 結果:両タスクで性能を上昇させた • 提案⼿法は他のデータ拡張⼿法よりも⾼い性能を達成した • ⾒出し⽣成では,ROUGE-2スコアを⼤幅に向上させた • ⽂書要約では,全てのROUGEスコアを有意に向上させた ROUGE-1, ROUGE-2 :1-gram, 2-gramの一致 ROUGE-L :最長共有部分列の一致 手法 見出し生成 文書要約 訓練事例数 ROUGE 訓練事例数 ROUGE 真 疑似 1 2 L 真 疑似 1 2 L 拡張なし 380万 - 37.95 18.80 35.05 28万 - 39.76 17.55 36.75 オーバーサンプリング 760万 - 38.26 19.14 35.41 56万 - 40.14 17.86 37.05 逆翻訳 380万 380万 38.49 19.24 35.63 28万 28万 39.93 17.74 36.85 自己学習 380万 380万 38.32 19.06 35.37 28万 28万 40.19 17.87 37.21 提案手法 380万 380万 38.51 19.52 35.72 28万 28万 40.57 18.22 37.51 NLP2022 抽出型要約と⾔い換えによる⽣成型要約の訓練データ拡張 24 真のデータ を重複 ⾼いほどよい
  • 25. 結果:両タスクで性能を上昇させた • 提案⼿法は他のデータ拡張⼿法よりも⾼い性能を達成した • ⾒出し⽣成では,ROUGE-2スコアを⼤幅に向上させた • ⽂書要約では,全てのROUGEスコアを有意に向上させた ROUGE-1, ROUGE-2 :1-gram, 2-gramの一致 ROUGE-L :最長共有部分列の一致 手法 見出し生成 文書要約 訓練事例数 ROUGE 訓練事例数 ROUGE 真 疑似 1 2 L 真 疑似 1 2 L 拡張なし 380万 - 37.95 18.80 35.05 28万 - 39.76 17.55 36.75 オーバーサンプリング 760万 - 38.26 19.14 35.41 56万 - 40.14 17.86 37.05 逆翻訳 380万 380万 38.49 19.24 35.63 28万 28万 39.93 17.74 36.85 自己学習 380万 380万 38.32 19.06 35.37 28万 28万 40.19 17.87 37.21 提案手法 380万 380万 38.51 19.52 35.72 28万 28万 40.57 18.22 37.51 NLP2022 抽出型要約と⾔い換えによる⽣成型要約の訓練データ拡張 25 真のデータ を重複 ⾼いほどよい
  • 26. 分析:低リソース設定でも有効 • 実験設定 • 各訓練セットから1千件の事例を抽出 → 真の訓練データとする • 残りの事例を疑似データの⽣成に利⽤する • 結果 • 両タスクで他の⼿法より有意に⾼い性能を達成した → 真の訓練データの量が少ない場合にも有効である 手法 見出し生成 文書要約 訓練事例数 ROUGE 訓練事例数 ROUGE 真 疑似 1 2 L 真 疑似 1 2 L 拡張なし 1千 - 4.84 0.58 4.66 1千 - 2.48 0.29 2.45 オーバーサンプリング 380万 - 9.89 1.39 9.30 28万 - 13.63 0.89 12.63 逆翻訳 1千 380万 12.19 2.43 11.31 1千 28万 9.73 0.50 8.92 自己学習 1千 380万 7.27 1.07 6.98 1千 28万 14.37 1.52 13.36 提案手法 1千 380万 23.58 6.56 21.12 1千 28万 34.47 12.91 31.36 ROUGE-1, ROUGE-2 :1-gram, 2-gramの一致 ROUGE-L :最長共有部分列の一致 NLP2022 抽出型要約と⾔い換えによる⽣成型要約の訓練データ拡張 26 真のデータ を重複 ⾼いほどよい
  • 27. 分析:疑似データの多様性 • 疑似要約と真の要約の意味的と表層的類似度を評価する • 意味的類似度が⾼く,表層的類似度が低い → より多様性が⾼い NLP2022 抽出型要約と⾔い換えによる⽣成型要約の訓練データ拡張 27
  • 28. 分析:疑似データの多様性 • 疑似要約と真の要約の意味的と表層的類似度を評価する • 意味的類似度が⾼く,表層的類似度が低い → より多様性が⾼い NLP2022 抽出型要約と⾔い換えによる⽣成型要約の訓練データ拡張 28 The team has put a major step to the final round. 表層類似度が⾼い例 The team has put a big step to the final stage. 表層類似度が低い例 The team has taken a significant step toward the final match. 意 味 的 類 似 度 が ⾼ い
  • 29. 分析:疑似データの多様性 • 疑似要約と真の要約の意味的と表層的類似度を評価する • 意味的類似度が⾼く,表層的類似度が低い → より多様性が⾼い NLP2022 抽出型要約と⾔い換えによる⽣成型要約の訓練データ拡張 29 The team has put a major step to the final round. ⾔い換え表現が少ない → 表層類似度が⾼い The team has put a big step to the final stage. ⾔い換え表現が多い → 表層類似度が低い The team has taken a significant step toward the final match. ⾔い換え表現 意 味 的 類 似 度 が ⾼ い
  • 30. 分析:疑似データの多様性 • 疑似要約と真の要約の意味的と表層的類似度を評価する • 意味的類似度が⾼く,表層的類似度が低い → より多様性が⾼い NLP2022 抽出型要約と⾔い換えによる⽣成型要約の訓練データ拡張 30 The team has put a major step to the final round. ⾔い換え表現が少ない → 表層類似度が⾼い The team has put a big step to the final stage. ⾔い換え表現が多い → 表層類似度が低い The team has taken a significant step toward the final match. ⾔い換え表現 意 味 的 類 似 度 が ⾼ い
  • 31. 分析:疑似データの多様性 • 疑似要約と真の要約の意味的と表層的類似度を評価する • 意味的類似度が⾼く,表層的類似度が低い → より多様性が⾼い • 両⽅の⼿法のBERTScoreが⾼い → ⽣成された要約は疑似要約として意味的に適している • 提案⼿法のBLEUが⾃⼰学習より低い → 真の要約と異なるフレーズを多く含んでいるものが多い → より多様な疑似データ NLP2022 抽出型要約と⾔い換えによる⽣成型要約の訓練データ拡張 31 表層的:低い→多様 意味的:⾼い→適切
  • 32. 分析:疑似データの多様性 • 疑似要約と真の要約の意味的と表層的類似度を評価する • 意味的類似度が⾼く,表層的類似度が低い → より多様性が⾼い • 両⽅の⼿法のBERTScoreが⾼い → ⽣成された要約は疑似要約として意味的に適している • 提案⼿法のBLEUが⾃⼰学習より低い → 真の要約と異なるフレーズを多く含んでいるものが多い → より多様な疑似データ NLP2022 抽出型要約と⾔い換えによる⽣成型要約の訓練データ拡張 32 表層的:低い→多様 意味的:⾼い→適切
  • 33. まとめ • ⽣成型要約の疑似データを⽣成する新たな⼿法を提案した • 抽出型要約と⾔い換えの組み合わせ • 抽出型要約で原⽂の重要な部分を取り出す • ⾔い換えで多様な表現を取得する • 逆翻訳や⾃⼰学習の既存⼿法より効果的である • 真の訓練データが少ない場合でも頑健である • 疑似データの構築コストの⾯でも優れている NLP2022 抽出型要約と⾔い換えによる⽣成型要約の訓練データ拡張 33
  • 34. 参考⽂献 • Alexander M. Rush, Sumit Chopra, and Jason Weston. A neural attention model for abstractive sentence summarization. In Proceedings of EMNLP, pp. 379- 389, 2015. • Philipp Koehn and Rebecca Knowles. Six challenges for neural machine translation. In Proceedings of the First Workshop on Neural Machine Translation, pp. 28-39, 2017. • Rico Sennrich, Barry Haddow, and Alexandra Birch. Improving neural machine translation models with monolingual data. In Proceedings of ACL, pp. 86-96, 2016. • Shantipriya Parida and Petr Motlicek. Abstract text summarization: A low resource challenge. In Proceedings of EMNLP-IJCNLP, pp.5994-5998, 2019. • Jiajun Zhang and Chengqing Zong. Exploiting source-side monolingual data in neural machine translation. In Proceedings of EMNLP, pp. 1535-1545, 2016. • Junxian He, Jiatao Gu, Jiajun Shen, and Marc'Aurelio Ranzato. Revisiting self- training for neural sequence generation. In International Conference on Learning Representations,2020. NLP2022 抽出型要約と⾔い換えによる⽣成型要約の訓練データ拡張 34
  • 36. 疑似データ⽣成の効率 • 提案⼿法では,疑似データの⽣成には学習を必要としない • 疑似データの構築時間を⼤幅に短縮できる • 他の⼿法と⽐較して1/10 以下の⾦額で疑似データを構築できる NLP2022 抽出型要約と⾔い換えによる⽣成型要約の訓練データ拡張 36 補足資料
  • 37. 低リソース設定 手法 見出し生成 文書要約 訓練事例数 ROUGE 訓練事例数 ROUGE 真 疑似 1 2 L 真 疑似 1 2 L 拡張なし 1千 - 4.84 0.58 4.66 1千 - 2.48 0.29 2.45 オーバーサンプリング 380万 - 9.89 1.39 9.30 28万 - 13.63 0.89 12.63 逆翻訳 1千 380万 12.19 2.43 11.31 1千 28万 9.73 0.50 8.92 自己学習 1千 380万 7.27 1.07 6.98 1千 28万 14.37 1.52 13.36 提案手法 1千 380万 23.58 6.56 21.12 1千 28万 34.47 12.91 31.36 ステップ1のみ 1千 380万 22.56 5.25 19.87 1千 28万 32.95 12.07 29.44 抽出型要約 - - 18.72 4.26 17.09 - - 28.52 8.02 23.83 ROUGE-1, ROUGE-2 :1-gram, 2-gramの一致 ROUGE-L :最長共有部分列の一致 NLP2022 抽出型要約と⾔い換えによる⽣成型要約の訓練データ拡張 37 • ステップ1(抽出型要約)のみでも⼗分性能の向上を貢献できる 補足資料
  • 38. 逆翻訳による疑似データ • ⽣成された原⽂は元の原⽂より短い → 要約から原⽂を⽣成することが難しい • ⽂書要約の場合 ROUGE スコアは極めて低い → 逆翻訳は原⽂の⽣成に失敗している • ⾒出し⽣成のROUGE スコアは⾼い → 要約から短い原⽂の核となる部分を復元できる可能性がある • 出し⽣成タスクは記事の先頭⼀分から⾒出しを⽣成するタスク • 原⽂の主要な部分が含まれていることが多い → ⾼いROUGE スコアの要因になっていると考えられる NLP2022 抽出型要約と⾔い換えによる⽣成型要約の訓練データ拡張 38 補足資料