3. 背景:⾃動要約タスク
The Los Angeles Dodgers acquired
South Korean right-hander Jae Seo
from the New York Mets on
Wednesday in a four-player swap
Korea’s Seo headed to Dodgers from Mets
Dodgers acquired right-hander Seo from Mets
抽出型要約:原⽂の⼀部を取り出す
⽣成型要約:新たな表現で要約を⽣成
⼈間による要約に近いものが期待できる
• 与えられた原⽂から⾃動的に要約を出⼒するタスク
NLP2022 抽出型要約と⾔い換えによる⽣成型要約の訓練データ拡張 3
原⽂
4. 背景:⽣成型要約
The Los Angeles Dodgers acquired South Korean
right-hander Jae Seo from the New York Mets on
Wednesday in a four-player swap
Korea’s Seo headed to Dodgers from Mets
エンコーダ デコーダ
• 系列変換タスクとして定義できる
• 原⽂ → 要約
• エンコーダ・デコーダモデルで解かれる(Rushら2015)
• ⾼い性能を達成するためには⼤量の訓練データが必要 (Koehnら2017)
NLP2022 抽出型要約と⾔い換えによる⽣成型要約の訓練データ拡張 4
5. 背景:⽣成型要約
The Los Angeles Dodgers acquired South Korean
right-hander Jae Seo from the New York Mets on
Wednesday in a four-player swap
Korea’s Seo headed to Dodgers from Mets
エンコーダ デコーダ
• 系列変換タスクとして定義できる
• 原⽂ → 要約
• エンコーダ・デコーダモデルで解かれる(Rushら2015)
• ⾼い性能を達成するためには⼤量の訓練データが必要 (Koehnら2017)
NLP2022 抽出型要約と⾔い換えによる⽣成型要約の訓練データ拡張 5
⼈⼿による⼤規模なコーパスの作成は困難・⾼コスト
↓
疑似訓練データの⾃動⽣成が必要
12. 提案⼿法: 抽出型要約と⾔い換え
• 抽出型要約と⾔い換えの組み合わせ
• 抽出型要約:重要な部分を抽出し,原⽂を圧縮する
• ⾔い換え: 抽出された要約の多様な表現を獲得する
Chinese men’s team have put
a major step towards a new
title at the military pentathlon
world championships.
Chinese men’s team
have put a major step
towards a new title.
Chinese men’s team
has taken a big step
towards a new title.
抽出型要約 言い換え
ステップ1 ステップ2
※ 複数⽂を含む⼊⼒の場合は,各⽂に対して独⽴に提案⼿法を適⽤する
NLP2022 抽出型要約と⾔い換えによる⽣成型要約の訓練データ拡張 12
原⽂ 疑似要約
13. 提案⼿法:ステップ1- 抽出型要約
重要な部分=係り受け⽊の部分⽊とする
• 部分⽊の深さで要約の⻑さを制御する
• 訓練データが不要
※ 複数⽂を含む⼊⼒の場合は,各⽂に対して独⽴に提案⼿法を適⽤する
Chinese men’s team have put
a major step towards a new
title at the military pentathlon
world championships.
Chinese men’s team
have put a major step
towards a new title.
Chinese men’s team
has taken a big step
towards a new title.
抽出型要約 言い換え
ステップ1 ステップ2
NLP2022 抽出型要約と⾔い換えによる⽣成型要約の訓練データ拡張 13
• 抽出型要約と⾔い換えの組み合わせ
• 抽出型要約:重要な部分を抽出し,原⽂を圧縮する
• ⾔い換え: 抽出された要約の多様な表現を獲得する
原⽂ 疑似要約
14. 提案⼿法:ステップ1- 抽出型要約
重要な部分=係り受け⽊の部分⽊とする
• 部分⽊の深さで要約の⻑さを制御する
• 訓練データが不要
Chinese
men’s team
have put
a step major
towards a title
at championships
the world
military
pentathlon
new
※ 複数⽂を含む⼊⼒の場合は,各⽂に対して独⽴に提案⼿法を適⽤する
Chinese men’s team have put
a major step towards a new
title at the military pentathlon
world championships.
Chinese men’s team
have put a major step
towards a new title.
Chinese men’s team
has taken a big step
towards a new title.
抽出型要約 言い換え
ステップ1 ステップ2
NLP2022 抽出型要約と⾔い換えによる⽣成型要約の訓練データ拡張 14
• 抽出型要約と⾔い換えの組み合わせ
• 抽出型要約:重要な部分を抽出し,原⽂を圧縮する
• ⾔い換え: 抽出された要約の多様な表現を獲得する
原⽂ 疑似要約
15. 提案⼿法:ステップ1- 抽出型要約
重要な部分=係り受け⽊の部分⽊とする
• 部分⽊の深さで要約の⻑さを制御する
• 訓練データが不要
Chinese
men’s team
have put
a step major
towards a title
at championships
the world
military
pentathlon
new
※ 複数⽂を含む⼊⼒の場合は,各⽂に対して独⽴に提案⼿法を適⽤する
Chinese men’s team have put
a major step towards a new
title at the military pentathlon
world championships.
Chinese men’s team
have put a major step
towards a new title.
Chinese men’s team
has taken a big step
towards a new title.
抽出型要約 言い換え
ステップ1 ステップ2
NLP2022 抽出型要約と⾔い換えによる⽣成型要約の訓練データ拡張 15
• 抽出型要約と⾔い換えの組み合わせ
• 抽出型要約:重要な部分を抽出し,原⽂を圧縮する
• ⾔い換え: 抽出された要約の多様な表現を獲得する
原⽂ 疑似要約
この構⽂の深さは6なので,
深さ3よりも深いノードを削除する
16. 提案⼿法:ステップ2- ⾔い換え
折り返し翻訳で⾔い換えを⾏う
→ 多様な疑似要約を獲得
• 既存の機械翻訳モデルを⽤いる
※ 複数⽂を含む⼊⼒の場合は,各⽂に対して独⽴に提案⼿法を適⽤する
Chinese men’s team have put
a major step towards a new
title at the military pentathlon
world championships.
Chinese men’s team
have put a major step
towards a new title.
Chinese men’s team
has taken a big step
towards a new title.
抽出型要約 言い換え
ステップ1 ステップ2
NLP2022 抽出型要約と⾔い換えによる⽣成型要約の訓練データ拡張 16
• 抽出型要約と⾔い換えの組み合わせ
• 抽出型要約:重要な部分を抽出し,原⽂を圧縮する
• ⾔い換え: 抽出された要約の多様な表現を獲得する
原⽂ 疑似要約
17. 提案⼿法:ステップ2- ⾔い換え
折り返し翻訳で⾔い換えを⾏う
→ 多様な疑似要約を獲得
• 既存の機械翻訳モデルを⽤いる
Chinese men’s team
have put a major step
towards a new title.
Die chinesische Herrenmannschaft
hat einen großen Schritt in Richtung
eines neuen Titels gemacht.
英語 →ドイツ語
※ 複数⽂を含む⼊⼒の場合は,各⽂に対して独⽴に提案⼿法を適⽤する
Chinese men’s team have put
a major step towards a new
title at the military pentathlon
world championships.
Chinese men’s team
have put a major step
towards a new title.
Chinese men’s team
has taken a big step
towards a new title.
抽出型要約 言い換え
ステップ1 ステップ2
NLP2022 抽出型要約と⾔い換えによる⽣成型要約の訓練データ拡張 17
• 抽出型要約と⾔い換えの組み合わせ
• 抽出型要約:重要な部分を抽出し,原⽂を圧縮する
• ⾔い換え: 抽出された要約の多様な表現を獲得する
原⽂ 疑似要約
18. 提案⼿法:ステップ2- ⾔い換え
折り返し翻訳で⾔い換えを⾏う
→ 多様な疑似要約を獲得
• 既存の機械翻訳モデルを⽤いる
Chinese men’s team
have put a major step
towards a new title.
Die chinesische Herrenmannschaft
hat einen großen Schritt in Richtung
eines neuen Titels gemacht.
英語 →ドイツ語
※ 複数⽂を含む⼊⼒の場合は,各⽂に対して独⽴に提案⼿法を適⽤する
Chinese men’s team have put
a major step towards a new
title at the military pentathlon
world championships.
Chinese men’s team
have put a major step
towards a new title.
Chinese men’s team
has taken a big step
towards a new title.
抽出型要約 言い換え
ステップ1 ステップ2
NLP2022 抽出型要約と⾔い換えによる⽣成型要約の訓練データ拡張 18
• 抽出型要約と⾔い換えの組み合わせ
• 抽出型要約:重要な部分を抽出し,原⽂を圧縮する
• ⾔い換え: 抽出された要約の多様な表現を獲得する
原⽂ 疑似要約
Chinese men’s team
has taken a big step
towards a new title.
ドイツ語 → 英語
19. 提案⼿法:ステップ2- ⾔い換え
折り返し翻訳で⾔い換えを⾏う
→ 多様な疑似要約を獲得
• 既存の機械翻訳モデルを⽤いる
Chinese men’s team
have put a major step
towards a new title.
Die chinesische Herrenmannschaft
hat einen großen Schritt in Richtung
eines neuen Titels gemacht.
英語 →ドイツ語
※ 複数⽂を含む⼊⼒の場合は,各⽂に対して独⽴に提案⼿法を適⽤する
Chinese men’s team have put
a major step towards a new
title at the military pentathlon
world championships.
Chinese men’s team
have put a major step
towards a new title.
Chinese men’s team
has taken a big step
towards a new title.
抽出型要約 言い換え
ステップ1 ステップ2
NLP2022 抽出型要約と⾔い換えによる⽣成型要約の訓練データ拡張 19
• 抽出型要約と⾔い換えの組み合わせ
• 抽出型要約:重要な部分を抽出し,原⽂を圧縮する
• ⾔い換え: 抽出された要約の多様な表現を獲得する
原⽂ 疑似要約
Chinese men’s team
has taken a big step
towards a new title.
ドイツ語 → 英語
⾔い換え表現
を獲得!
28. 分析:疑似データの多様性
• 疑似要約と真の要約の意味的と表層的類似度を評価する
• 意味的類似度が⾼く,表層的類似度が低い → より多様性が⾼い
NLP2022 抽出型要約と⾔い換えによる⽣成型要約の訓練データ拡張 28
The team has put a major step to the final round.
表層類似度が⾼い例
The team has put a big step to the final stage.
表層類似度が低い例
The team has taken a significant step toward the final match.
意
味
的
類
似
度
が
⾼
い
29. 分析:疑似データの多様性
• 疑似要約と真の要約の意味的と表層的類似度を評価する
• 意味的類似度が⾼く,表層的類似度が低い → より多様性が⾼い
NLP2022 抽出型要約と⾔い換えによる⽣成型要約の訓練データ拡張 29
The team has put a major step to the final round.
⾔い換え表現が少ない → 表層類似度が⾼い
The team has put a big step to the final stage.
⾔い換え表現が多い → 表層類似度が低い
The team has taken a significant step toward the final match.
⾔い換え表現
意
味
的
類
似
度
が
⾼
い
30. 分析:疑似データの多様性
• 疑似要約と真の要約の意味的と表層的類似度を評価する
• 意味的類似度が⾼く,表層的類似度が低い → より多様性が⾼い
NLP2022 抽出型要約と⾔い換えによる⽣成型要約の訓練データ拡張 30
The team has put a major step to the final round.
⾔い換え表現が少ない → 表層類似度が⾼い
The team has put a big step to the final stage.
⾔い換え表現が多い → 表層類似度が低い
The team has taken a significant step toward the final match.
⾔い換え表現
意
味
的
類
似
度
が
⾼
い
34. 参考⽂献
• Alexander M. Rush, Sumit Chopra, and Jason Weston. A neural attention model
for abstractive sentence summarization. In Proceedings of EMNLP, pp. 379-
389, 2015.
• Philipp Koehn and Rebecca Knowles. Six challenges for neural machine
translation. In Proceedings of the First Workshop on Neural Machine
Translation, pp. 28-39, 2017.
• Rico Sennrich, Barry Haddow, and Alexandra Birch. Improving neural machine
translation models with monolingual data. In Proceedings of ACL, pp. 86-96,
2016.
• Shantipriya Parida and Petr Motlicek. Abstract text summarization: A low
resource challenge. In Proceedings of EMNLP-IJCNLP, pp.5994-5998, 2019.
• Jiajun Zhang and Chengqing Zong. Exploiting source-side monolingual data in
neural machine translation. In Proceedings of EMNLP, pp. 1535-1545, 2016.
• Junxian He, Jiatao Gu, Jiajun Shen, and Marc'Aurelio Ranzato. Revisiting self-
training for neural sequence generation. In International Conference on
Learning Representations,2020.
NLP2022 抽出型要約と⾔い換えによる⽣成型要約の訓練データ拡張 34