Mais conteúdo relacionado Semelhante a Automatic Summarization (20) Mais de Hitoshi Nishikawa (6) Automatic Summarization2. 自己紹介
• 職歴
– 2008/04: 日本電信電話株式会社
• メディアインテリジェンス研究所(横須賀)
• 自動要約,評判分析,テキストマイニング,質問応答,言語生成の研究開発
– 2015/06: 東京工業大学
• 情報理工学院(大岡山)
• 自動要約,言語生成,照応解析,対話処理の研究および教育
• 委員等
– 言語処理学会 代議員・論文誌編集委員
– 情報処理学会 自然言語処理研究会幹事・論文誌編集委員
2018/05/31 NTCIR-14 QALab-PoliInfo 第2回説明会 1
経歴
3. 自己紹介
• 自然言語生成
– 自動要約,質問応答
• 自然言語処理アプリケーションの実用化
– オープンソース要約器など
– https://github.com/hitoshin
2018/05/31 NTCIR-14 QALab-PoliInfo 第2回説明会 2
興味
4. 自動要約
1. 導入
– 定義
– 分類
– 要素技術
2. 今日の自動要約技術
– 対象
– 文選択・文短縮・文の順序付け
– 要約の今後
3. まとめ
2018/05/31 NTCIR-14 QALab-PoliInfo 第2回説明会 3
Agenda
9. 自動要約の入出力
入力\出力 単一の文 単一の文章
単一の文 • 文短縮
• (文簡約)
複数の文 • Multi-Sentence Compression
• 文融合
単一の文書 • ヘッドライン生成 • 単一文書要約
複数の文書 • ヘッドライン生成 • 複数文書要約
2018/05/31 NTCIR-14 QALab-PoliInfo 第2回説明会 8
入出力によって以下のような課題がある
11. 技術
自動要約の構成要素
2018/05/31 NTCIR-14 QALab-PoliInfo 第2回説明会 10
3つの要素によって作成すべき/できる要約が決まる
入力文書集合
読者
要約
• 数(単一か複数か)
• ジャンル(新聞,技術文献,ブ
ログ,ツイッター)
• 書き手(玄人,素人)
• 主題
• 利用用途
– 要約の長さ
– ユーザーが選好する情報
(クエリ)の有無
• 計算資源(クロック数,ディス
ク)
• 利用できる技術とその精度
– 形態素解析,係り受け解析,述
語項構造解析,共参照解析
– 機械学習
16. 自動要約の分類
1. 要約の使い方:指示的要約 or 報知的要約
– 指示的:原文書を読むべきか判断するための要約
(e.g.新聞の見出し)
– 報知的:原文書の代わりとする要約(e.g.ニュー
スの字幕)
2. 必要な情報の指定:クエリ依存 or クエリ非
依存
– クエリ依存:何らかのクエリ(特定の情報への要
求)に対する要約(e.g.スニペット)
– クエリ非依存:特定の情報に依らない要約
2018/05/31 NTCIR-14 QALab-PoliInfo 第2回説明会 15
読み手に由来する分類
17. 自動要約の分類
3. 入力:単一自動要約 or 複数自動要約
– 単一:1つの文書を要約
– 複数:1つ以上の文書を要約
4. 手法:抽出的要約 or 生成的要約
– 抽出的要約:原文書を文に分解し、要約として相
応しい文を選び(重要文抽出)、それらを繋げる
ことで作る要約
– 生成的要約:原文書にない表現を含む(新しい表
現を生成する)要約
2018/05/31 NTCIR-14 QALab-PoliInfo 第2回説明会 16
入力と技術に由来するもの
20. 自動要約の要素技術
2018/05/31 NTCIR-14 QALab-PoliInfo 第2回説明会 19
ムバラク大統領に対す
る抗議デモが続くエジ
プトで、反体制派が4
日に大規模デモを実施
する。大統領に即時退
陣を迫る構え。
反政府派と大統領派が2日、激しく衝突
し多数の死傷者が出たエジプト・カイ
ロは、一夜明け、双方で散発的に投石
が行われるなど、緊迫した状態が続い
ている。エジプトで続く反政府デモは、
2日から3日未明にかけて、反政府派と
大統領支持派の衝突に発展し、火炎瓶
が建物や車に引火し、至るところで火
の手が上がり、黒煙が立ち込めた。
21. 自動要約の要素技術:文分割
2018/05/31 NTCIR-14 QALab-PoliInfo 第2回説明会 20
ムバラク大統領に対する
抗議デモが続くエジプト
で、反体制派が4日に大
規模デモを実施する。大
統領に即時退陣を迫る構
え。
反政府派と大統領派が2日、激しく衝突
し多数の死傷者が出たエジプト・カイロ
は、一夜明け、双方で散発的に投石が行
われるなど、緊迫した状態が続いている。
エジプトで続く反政府デモは、2日から
3日未明にかけて、反政府派と大統領支
持派の衝突に発展し、火炎瓶が建物や車
に引火し、至るところで火の手が上がり、
黒煙が立ち込めた。
1. ムバラク大統領に対す
る抗議デモが続くエジ
プトで、反体制派が4
日に大規模デモを実施
する。
2. 大統領に即時退陣を迫
る構え。
3. 反政府派と大統領派が2日、激しく衝突し多数
の死傷者が出たエジプト・カイロは、一夜明け、
双方で散発的に投石が行われるなど、緊迫した
状態が続いている。
4. エジプトで続く反政府デモは、2日から3日未
明にかけて、反政府派と大統領支持派の衝突に
発展し、火炎瓶が建物や車に引火し、至るとこ
ろで火の手が上がり、黒煙が立ち込めた。
22. 自動要約の要素技術:文短縮
2018/05/31 NTCIR-14 QALab-PoliInfo 第2回説明会 21
3. 反政府派と大統領
派が2日、激しく
衝突し多数の死傷
者 が 出 た エ ジ プ
ト・カイロは、一
夜明け、双方で散
発的に投石が行わ
れるなど、緊迫し
た状態が続いてい
る。
3a.反政府派と大統領派が2日、激しく衝
突し多数の死傷者が出たエジプト・カ
イロは、一夜明け、双方で散発的に投
石が行われるなど、緊迫した状態が続
いている。
3b.多数の死傷者が出たエジプト・カイロ
は、一夜明け、双方で散発的に投石が
行われるなど、緊迫した状態が続いて
いる。
3c.エジプト・カイロは、一夜明け、双方
で散発的に投石が行われるなど、緊迫
した状態が続いている。
23. 自動要約の要素技術:文選択
2018/05/31 NTCIR-14 QALab-PoliInfo 第2回説明会 22
1. ムバラク大統領に対す
る抗議デモが続くエジ
プトで、反体制派が4
日に大規模デモを実施
する。
2. 大統領に即時退陣を迫
る構え。
3. 反政府派と大統領派が2日、激しく衝突し
多数の死傷者が出たエジプト・カイロは、
一夜明け、双方で散発的に投石が行われ
るなど、緊迫した状態が続いている。
4. エジプトで続く反政府デモは、2日から3
日未明にかけて、反政府派と大統領支持
派の衝突に発展し、火炎瓶が建物や車に
引火し、至るところで火の手が上がり、
黒煙が立ち込めた。
1. ムバラク大統領に対す
る抗議デモが続くエジ
プトで、反体制派が4
日に大規模デモを実施
する。
4. エジプトで続く反政府デモは、2日から3
日未明にかけて、反政府派と大統領支持
派の衝突に発展し、火炎瓶が建物や車に
引火し、至るところで火の手が上がり、
黒煙が立ち込めた。
24. 自動要約の要素技術:順序付け
2018/05/31 NTCIR-14 QALab-PoliInfo 第2回説明会 23
1. ムバラク大統領に対す
る抗議デモが続くエジ
プトで、反体制派が4
日に大規模デモを実施
する。
4. エジプトで続く反政府デモは、2日から3
日未明にかけて、反政府派と大統領支持
派の衝突に発展し、火炎瓶が建物や車に
引火し、至るところで火の手が上がり、
黒煙が立ち込めた。
4. エジプトで続く反政府デモは、2日から3
日未明にかけて、反政府派と大統領支持
派の衝突に発展し、火炎瓶が建物や車に
引火し、至るところで火の手が上がり、
黒煙が立ち込めた。
1. ムバラク大統領に対する抗議デモが続く
エジプトで、反体制派が4日に大規模デ
モを実施する。
※単一自動
要約の場合
は不要
26. 自動要約の要素技術:内容
• 機械が生成した要約と,人間による要約
(参照要約)とのn-gram類似度を計算
2018/05/31 NTCIR-14 QALab-PoliInfo 第2回説明会 25
自動評価尺度 ROUGE (Lin04) が存在
エジプトで続く反政府デモは、2日から
3日未明にかけて、反政府派と大統領支
持派の衝突に発展し、火炎瓶が建物や
車に引火し、至るところで火の手が上
がり、黒煙が立ち込めた。ムバラク大
統領に対する抗議デモが続くエジプト
で、反体制派が4日に大規模デモを実
施する。
機械による要約
ムバラク大統領に対する抗議デモが
続くエジプトで、2日から3日未明に
かけて、反政府派と大統領支持派の
衝突が発生した。衝突の際には、火
炎瓶が建物や車に引火し、至るとこ
ろで火の手が上がり、黒煙が立ち込
めた。更に4日には、反体制派が大規
模デモの実施を計画している。
人間による要約
29. ˆS = argmax
S
f (S;D,U)
» argmax
S
f (S;w)
要素技術の分解
• 入力文書集合 D とユーザーの要求 U が与えられたとき,それを最
大化する S を探す問題として定式化
2018/05/31 NTCIR-14 QALab-PoliInfo 第2回説明会 28
要素技術をモデル,学習法,デコード法に整理
モデル
(目的関数の形態)
デコード
(最良の S の探索)
パラメータ
(重み,特徴量)
30. 要素技術の分解
文分割 文短縮 文選択 文の並べ替え 評価
モデル
• 逐次予測 (Paice+90,
Gillick+09)
• Sequential Labeling
(Hirao+10)
• 構文木の枝刈り
(Jing00;Clarke+07;Nomoto+07
;Zajic+07),
• STSG ( Cohn+07;Cohn+08),
• QSG (Woodsend+10)
• 最大被覆問題
(Fillatova+04;Yih+07;Gillick+
09;高村+08)
• ナップサック問題
(McDonald+07;平尾+09)
• 施設配置問題 (高村+10)
• 巡回セールマン問題
(Althaus+04)
• 景品収集巡回セールスマン
問題 (Nishikawa+10)
• ROUGE (Lin04)
• 拡張文字列カーネル (平尾
+06)
• Pyramid (Nenkova+07)
• 投票型回帰モデル (平尾
+07)
学習・
特徴量・
• 規則 (Paice+90),
• SVM (Gillick+09)
• 規則 (Jing00)
• 統計 (Clarke+06)
• CRF (Nomoto+07)
• Structured SVM (Cohn+07)
• Naïve Bayes (Kupeic+95),
• Maximum Entropy
(Osborne02)
• Logistic Regression
(Yih+07)
• SVM (Hirao+02)
• 規則
(Barzilay+02;Okazaki+04)
• 統計 (Lapata+03)
• SVM (Bollegala+06)
• n-gram (Lin04),
• Summary Content Unit
(Nenkova+07)
デコード
N/A • Dynamic Programing
(Cohn+07;Nomoto+07;
Cohn+09;Hirao+09),
• ILP (Clarke+06;Woodsend+10)
• 貪欲法 (Filatova+04),
• Stack Decoder (Yih+07)
• ILP (McDonald07)
• Lagrange Relaxation
(Nishikawa+12;Almeida+13;N
ishino+13)
• Greedy (Lapata+03)
• A* (Soricut+06)
• ILP
(Althaus+04;NIshikawa+10)
N/A
2018/05/31 NTCIR-14 QALab-PoliInfo 第2回説明会 29
大まかに以下のように分類できる
文分割 文短縮 文選択 文の順序付け 評価
モ
デ
ル
学
習
・
特
徴
量
デ
コ
ー
ド
31. 要約研究の成り立ち
文分割 文短縮 文選択 文の並べ替え 評価
モデル
• 逐次予測 (Paice+90,
Gillick+09)
• Sequential Labeling
(Hirao+10)
• 構文木の枝刈り
(Jing00;Clarke+07;No
moto+07;Zajic+07),
• STSG
( Cohn+07;Cohn+08),
• QSG (Woodsend+10)
• 最大被覆問題
(Fillatova+04;Yih+07
;Gillick+09;高村+08)
• ナップサック問題
(McDonald+07;平尾
+09)
• 施設配置問題 (高村
+10)
• 巡回セールマン問題
(Althaus+04)
• 景品収集巡回セールス
マン問題
(Nishikawa+10)
• ROUGE (Lin04)
• 拡張文字列カーネル
(平尾+06)
• Pyramid
(Nenkova+07)
• 投票型回帰モデル (平
尾+07)
学習・
特徴
量・
• 規則 (Paice+90),
• SVM (Gillick+09)
• 規則 (Jing00)
• 統計 (Clarke+06)
• CRF (Nomoto+07)
• Structured SVM
(Cohn+07)
• Naïve Bayes
(Kupeic+95),
• Maximum Entropy
(Osborne02)
• Logistic Regression
(Yih+07)
• SVM (Hirao+02)
• 規則
(Barzilay+02;Okazaki
+04)
• 統計 (Lapata+03)
• SVM (Bollegala+06)
• n-gram (Lin04),
• Summary Content
Unit (Nenkova+07)
デコー
ド
N/A • Dynamic
Programing
(Cohn+07;Nomoto+0
7;
Cohn+09;Hirao+09),
• ILP
(Clarke+06;Woodsend
+10)
• 貪欲法 (Filatova+04),
• Stack Decoder
(Yih+07)
• ILP (McDonald07)
• Lagrange
Relaxation
(Nishikawa+12;Alme
ida+13;Nishino+13)
• Greedy (Lapata+03)
• A* (Soricut+06)
• ILP
(Althaus+04;NIshika
wa+10)
N/A
2018/05/31 NTCIR-14 QALab-PoliInfo 第2回説明会 30
入力等の制約と現在の到達点等々加味し要約研究が成立
読者技術入力文書集合
どうすれば会議
に通るか……
要約研究
32. 自然言語処理における自動要約
• Text-to-Text 課題
– 機械翻訳,言い換え・簡約,自動要約,対話
– 中間表現を求めない
• 独特な点
– 文ではなく文章を扱う(文脈の重要性)
– 入出力の意味的等価性を保つことを求めない
• 機械に価値判断を求める稀有なタスク
• 大切なものを探す:質問応答,情報検索
– 一部 NLP の範囲を逸脱している
2018/05/31 NTCIR-14 QALab-PoliInfo 第2回説明会 31
生成側の技術だが独特なところがある
33. 自然言語生成との差異
言語生成 自動要約
深層生成 • 内容決定
• 論述計画
• 重要文選択
• 文の並べ替え
表層生成 • 表層生成器の利用
• 命題集約
• 語選択
• 入力文の再利用
• 文融合
• 言い換え
2018/05/31 NTCIR-14 QALab-PoliInfo 第2回説明会 32
自動要約は言語生成を非常に単純化したもの
34. 1. 自動要約
1. 導入
– 定義
– 分類
– 要素技術
2. 今日の自動要約技術
– 対象
– 文選択・文短縮・文の順序付け
– 要約の今後
3. まとめ
2018/05/31 NTCIR-14 QALab-PoliInfo 第2回説明会 33
Agenda
36. 要約の対象
• 科学技術文献・新聞記事からスタート
– 技術文献 (Luhn58;Edmundson69;Pollock75)
– 新聞記事 (Luhn58;Aone+98)
• 安価な計算機/インターネットの普及以降,多様なテ
キストが要約の対象となる
– 音声 (Furui+04;Lin+09;Xie+09;Higashinaka+10)
– 電子メール (Muresan+01;Sandu+10)
– レビュー (Carenini+06;Lerman+09)
– ツイッター (Sharifi+10;Takamura+11;久保+13)
2018/05/31 NTCIR-14 QALab-PoliInfo 第2回説明会 35
急速に要約の対象が拡大
38. 文選択
• Filatova による定式化 (Filatova+04)
– 陽な目的関数の導入
– モデル,パラメータ,デコードの分離
– 個別の文の逐次的選択から,最良の部分文集
合の探索へ
• 現代的な統計的自然言語処理の一分野と
して体裁が整う
2018/05/31 NTCIR-14 QALab-PoliInfo 第2回説明会 37
自動要約を最適化問題として再定義
39. 文選択
• 単一文書を構成する文の集合から,長さの制
約を満たす部分集合を選択 (McDonald07; 平
尾+09)
• 典型的なナップサック問題!
• 動的計画ナップサックアルゴリズムで擬多項
式時間での求解が可能
2018/05/31 NTCIR-14 QALab-PoliInfo 第2回説明会 38
単一文書要約:ナップサック問題
入力:文数 n ,各文のスコア s1, s2, … sn と各文の長さ l1, l2, … ln,
および最大要約長 L
出力:部分集合のうち長さの和が L 以内で s の和が最大のもの
41. 文選択
2018/05/31 NTCIR-14 QALab-PoliInfo 第2回説明会 40
複数文書要約:最大被覆問題 (Filatova+04)
ムバラク大統領に対す
る抗議デモが続くエジ
プトで、反政府派が4
日に大規模デモを実施
する。大統領に即時退
陣を迫る構え。
反政府派と大統領派が2日、激しく衝突
し多数の死傷者が出たエジプト・カイ
ロは、一夜明け、双方で散発的に投石
が行われるなど、緊迫した状態が続い
ている。エジプトで続く抗議デモは、2
日から3日未明にかけて、反政府派と大
統領支持派の衝突に発展し、火炎瓶が
建物や車に引火し、至るところで火の
手が上がり、黒煙が立ち込めた。
エジプト・カイロで2日から3日未明にかけて,反
政府派と大統領支持派が衝突.反政府派は4日に大
規模デモを実施,大統領に即時退陣を迫る.
44. 文選択
• 入力された各文がどの単語を含むかを示す行列と,
その単語の重要度を予め用意しておく
• 典型的な複数文書要約モデルであるため,様々な
方法が提案されている
– 貪欲法 (Filatova+04) ,スタックデコーダ (Yih+07) ,
分枝限定法 (高村+08;Gillick+09) など
2018/05/31 NTCIR-14 QALab-PoliInfo 第2回説明会 43
最大被覆問題の求解
入力:文数 n ,単語数 m ,文 1 から文 n がそれぞれ含む単語を示す
行列 M = ( c1,1, c1,2, …, cn,m-1, cn,m ) ,各単語のスコア w1, …, wm ,
文の長さ l1, l2, … ln および最大要約長 L
出力:部分集合のうち長さの和が L 以内で,選ばれている文が含む単
語のスコアの和が最大のもの
45. 文選択
少数の部分集合で文集合をできる限り「含意」(高村+10)
2018/05/31 NTCIR-14 QALab-PoliInfo 第2回説明会 44
複数文書要約:施設配置問題
ムバラク大統領に対する抗
議デモが続くエジプトで、
反体制派が4日に大規模デ
モを実施する。
大統領に即時退陣を迫る構え。
反政府派と大統領派が2日、激しく衝突
し多数の死傷者が出たエジプト・カイロ
は、一夜明け、双方で散発的に投石が行
われるなど、緊迫した状態が続いている。
エジプトで続く反政府デモは、2日から3日
未明にかけて、反政府派と大統領支持派の
衝突に発展し、火炎瓶が建物や車に引火し、
至るところで火の手が上がり、黒煙が立ち
込めた。
エジプト・カイロでは依然ムバラク大
統領に対する抗議デモが続いており,
反体制派は4日大統領に即時退陣を迫
る大規模デモを計画。
46. 文選択
2018/05/31 NTCIR-14 QALab-PoliInfo 第2回説明会 45
複数文書要約:施設配置問題
ムバラク大統領に対する抗
議デモが続くエジプトで、
反体制派が4日に大規模デ
モを実施する。
大統領に即時退陣を迫る構え。
反政府派と大統領派が2日、激しく衝突
し多数の死傷者が出たエジプト・カイロ
は、一夜明け、双方で散発的に投石が行
われるなど、緊迫した状態が続いている。
エジプトで続く反政府デモは、2日から3日
未明にかけて、反政府派と大統領支持派の
衝突に発展し、火炎瓶が建物や車に引火し、
至るところで火の手が上がり、黒煙が立ち
込めた。
エジプト・カイロでは依然ムバラク大
統領に対する抗議デモが続いており,
反体制派は4日大統領に即時退陣を迫
る大規模デモを計画。
少数の部分集合で文集合をできる限り「含意」(高村+10)
47. 文選択
2018/05/31 NTCIR-14 QALab-PoliInfo 第2回説明会 46
複数文書要約:施設配置問題
ムバラク大統領に対する抗
議デモが続くエジプトで、
反体制派が4日に大規模デ
モを実施する。
大統領に即時退陣を迫る構え。
反政府派と大統領派が2日、激しく衝突
し多数の死傷者が出たエジプト・カイロ
は、一夜明け、双方で散発的に投石が行
われるなど、緊迫した状態が続いている。
エジプトで続く反政府デモは、2日から3日
未明にかけて、反政府派と大統領支持派の
衝突に発展し、火炎瓶が建物や車に引火し、
至るところで火の手が上がり、黒煙が立ち
込めた。
エジプト・カイロでは依然ムバラク大
統領に対する抗議デモが続いており,
反体制派は4日大統領に即時退陣を迫
る大規模デモを計画。
少数の部分集合で文集合をできる限り「含意」(高村+10)
49. 文選択
• NP 困難
• 貪欲法や分枝カット法などが用いられる
2018/05/31 NTCIR-14 QALab-PoliInfo 第2回説明会 48
施設配置問題の求解
入力:文数 n ,文 i が文 j を含意する程度 e ∈ [0, 1] を示す行列 M
= ( e1,2, …, en-1,n ) ,各文の長さ l1, l2, … ln, および最大要約長 L
出力:部分集合のうち長さの和が L 以内で選ばれている文が文集合全
体を含意する値が最大のもの
50. 文選択
• 劣モジュラ最適化 (Lin+10;Lin+11;Morita+13)
– 目的関数が劣モジュラ性を持つ=最適化が容易
– 劣モジュラ性のある目的関数をわざと用意してお
けば,解きやすくなる
• ラグランジュ緩和
(Nishikawa+12;Almeida+13;Nishino+13)
– 元問題を解きやすい部分問題に分割,部分問題を
それぞれ解いて,解が合意するよう近づける
2018/05/31 NTCIR-14 QALab-PoliInfo 第2回説明会 49
求解時間との戦い:目的関数の工夫
52. 文選択における学習・特徴量
• 新聞
– 単語,固有表現,述語項構造
• レビュー
– Aspect-Polarity の2つ組をスコアリングの単
位として設定 (Carenini+06;Lerman+09)
• 人手で目的に合わせて設定
• 深層学習の利用が始まる(畳み込み)
2018/05/31 NTCIR-14 QALab-PoliInfo 第2回説明会 51
対象に合わせた特徴量を研究者が設定
53. 文選択における学習・特徴量
• 個別の重みづけから構造学習へ
– Structured SVM (Takamura+10;Berg-
Kirkpatrick+11; Lee+12, Almeida+13)
– ROUGE の損失関数への導入(MERT的)
• 自動要約はデータが少ない:転移学習の導入
– 様々なドメインのデータがあるが,量が少ない
– (Sandu+10;Xie+10;Lee+13)
2018/05/31 NTCIR-14 QALab-PoliInfo 第2回説明会 52
個別の重みづけから構造学習へ
54. 文短縮
• 抽出的要約の限界から生じる (Jing00)
– 抽出的アプローチにおいては長い文は扱いづらい
• 構文木を刈り込む
– 落としても良さそうなノードを
落とす
– 規則 (Jing00;Zajic+07),
統計 (Clarke+06),
学習 (Turner+05)
• 構文木を仮定しないものも
– Sequential Labeling (Hirao+10)
2018/05/31 NTCIR-14 QALab-PoliInfo 第2回説明会 53
文選択の前処理,構文木の枝刈り
Turner and Charniak: Supervised and
unsupervised learning for sentence
compression. ACL 2005.
58. 文短縮
• 重要度
– 部分木が含む単語の重要度
– 「東海道新幹線」「新型車両」
– tf-idf などの統計量や,機械
学習に基づいたスコアリング
• 言語尤度
– 係り受け
• pdep(開始|新幹線,で)
– n-gram
• pn-gram(開始|運転,を)
2018/05/31 NTCIR-14 QALab-PoliInfo 第2回説明会 57
部分木のよさを測る指標を定義
東海道新幹線で、
「N700A」が、
新型車両
8日から
開始
営業運転を
15点
59. 文短縮
• 近似解法
– 幅優先探索(ビームサーチ,スタックデコーダ)
• もちろん整数計画問題として表現することも
できる
– グラフカットとももちろん見なせる
2018/05/31 NTCIR-14 QALab-PoliInfo 第2回説明会 58
様々な探索法が用いられる
入力:木 T (ノード v1, …, vn とエッジ e1, …, em ),ノードのスコ
ア w1, …, wn とエッジのスコア c1, …, cn ,各ノードの長さ l1, l2,
… ln と最大文長 L
出力:ノードのスコアとエッジのスコアの和が最大となる部分木
60. 文短縮
• 同期文脈自由文法による書き換え (Galley+07) から同
期木置換文法による書き換え (Cohn+09) へ
• さらに準同期文法 による書き換え (Woodsend+10)
– STSG よりも「ゆるい」対応付け
• syntax-based MT の後を追う
2018/05/31 NTCIR-14 QALab-PoliInfo 第2回説明会 59
構文木の枝刈りから同期文法に基づく書き換えへ
Cohn and Lapata:
Sentence Compression
as Tree Transduction.
JAIR 34, pp.637—674,
2009.
62. 文の並べ替え
• 文の順序によってつながりのよさが変化
2018/05/31 NTCIR-14 QALab-PoliInfo 第2回説明会 61
選択した文集合を並べないといけない
1. ムバラク大統領に対する抗議デモ
が続くエジプトで、2日から3日
未明にかけて、反政府派と大統領
支持派の衝突が発生した。
2. 衝突の際には、火炎瓶が建物や車
に引火し、至るところで火の手が
上がり、黒煙が立ち込めた。
3. 更に4日には、反体制派が大規模
デモの実施を計画している。
1. 更に4日には、反体制派が大規模
デモの実施を計画している。
2. 衝突の際には、火炎瓶が建物や車
に引火し、至るところで火の手が
上がり、黒煙が立ち込めた。
3. ムバラク大統領に対する抗議デモ
が続くエジプトで、2日から3日
未明にかけて、反政府派と大統領
支持派の衝突が発生した。
• 国語の問題を機械に解かせる
64. 文の並べ替え
• 様々な手がかり
• テキストから特徴の連鎖を学習し,文のつながりのよさを与
えるパラメータを学習 (Lapata03, Barzilay+05)
2018/05/31 NTCIR-14 QALab-PoliInfo 第2回説明会 63
文のつながりのよさとは?
1. ムバラク大統領に対する抗議デモ
が続くエジプトで、2日から3日
未明にかけて、反政府派と大統領
支持派の衝突が発生した。
2. 衝突の際には、火炎瓶が建物や車
に引火し、至るところで火の手が
上がり、黒煙が立ち込めた。
3. 更に4日には、反体制派が大規模
デモの実施を計画している。
連続する文には同じ語彙が用いられや
すい
副詞「更に」が文書頭に来ることはな
い
最初の文には固有表現が含まれやすい
(ムバラク大統領,エジプト,2日,3
日)
65. 文の並べ替え
• 選択した文集合に最適な順列を与える
(Althaus+04)
• 分枝カット法などで求解
2018/05/31 NTCIR-14 QALab-PoliInfo 第2回説明会 64
整数計画問題として表現,求解
入力:文数 n ,文 s1, …, sn および文書頭 s0 ,文書末 sn+1 のつなが
りのよさを与える行列 M = (c0,1, c0,2, …, cn-1,n+1, cn,n+1)
出力:つながりのよさの和が最大の順列
66. 自動要約
1. 文選択
– 文の組み合わせに対するスコアリング
– 最適な文の組み合わせの探索
2. 文短縮(文の亜種の生成)
– 文の亜種のスコアリング
– 最適な亜種の探索
3. 文の並び替え
– 順序に対するスコアリング
– 最適な順序の探索
• 機械学習と組み合わせ最適化が跋扈
2018/05/31 NTCIR-14 QALab-PoliInfo 第2回説明会 65
大きく分けて3つの要素技術が存在
69. 大規模データの利用
• 大規模な入出力対が利用可能に
– ヘッドライン生成
• 25万(Fillippova13),950万(Rush+15)
• ウェブ上の記事を片っ端から収集
– 単一文書要約(新聞記事)
• 9千 (Woodsend+10),1万2千 (Nishikawa+14),10万
(Chang+16)
• ウェブニュースに要約が付与されるようになってきた
• 深層学習と親和的
2018/05/31 NTCIR-14 QALab-PoliInfo 第2回説明会 68
2015年前後より
70. 深層学習
• 重要文の選択
– 単一文書要約 (Cheng+16)
– 大規模な単一文書要約コーパスを導入
– ものすごく苦労してリード法に勝つ……
• 文の生成
– ヘッドライン生成 (Rush+15)
– NMT と基本的には同じ
• 2つのポイント
– 精度の向上
– 特徴量コーディングからの解放
2018/05/31 NTCIR-14 QALab-PoliInfo 第2回説明会 69
現時点で概ね2点で効果あり
71. 深層学習
2018/05/31 NTCIR-14 QALab-PoliInfo 第2回説明会 70
単一文書要約 (Cheng+ 16)
リード文
文選択(ロジス
ティック回帰)
ヘッドライン生成
文選択
単語選択
• 文を CNN でたたみ込んで文ベクトルを生成, RNN で文選択
• 100単語の要約でかなり苦労してリードより1単語分よくなる……
• ヘッドライン生成と同じ方法を持ってきても全然ダメ
–固有表現で困る
74. クラウドソーシング
• 記事への要約の付与
– 要約の品質の担保が困難 (浅原+15)
• 生成された要約の人手評価
– 内容的品質,言語的品質の評価
– 広く利用されている
– 熟練した評価者と比べると相当危険との報告
も (Gillick+10)
2018/05/31 NTCIR-14 QALab-PoliInfo 第2回説明会 73
コーパス構築・評価の標準に
77. 残課題
• ROUGE オラクルの計算 (平尾+16)
– 文選択だけでもかなり高い ROUGE スコア
0.7 が得られる
– さらに単純な文短縮を加えるだけで相当な
ROUGE スコア 0.8 に到達
• リード法の ROUGE はおおよそ 0.7 前後
– 3割程度は冒頭以外に重要な情報がありうる
2018/05/31 NTCIR-14 QALab-PoliInfo 第2回説明会 76
実はまだ重要文選択が十分でない
78. 残課題
• 人間が作成している要約のより広い代替
• あまり扱われていない要約
– 本のあらすじ
• 何を入力にすればよいのか不明(レビュー?)
– 魅力的な見出し (藤田+07;Kourogi+15)
• 東スポ
• 内容をより少ない文字数で伝えること以外の目的(商
品の購買,娯楽)
• 身の周りの要約を注意深く観察する必要
2018/05/31 NTCIR-14 QALab-PoliInfo 第2回説明会 77
要約対象の拡大
83. まとめ
1. 導入
– 定義
– 分類
– 要素技術
2. 今日の自動要約技術
– 対象
– 文選択・文短縮・文の順序付け
– 要約の今後
3. まとめ
2018/05/31 NTCIR-14 QALab-PoliInfo 第2回説明会 82
以下の内容についてお話ししました