Automatic Summarization

自己紹介
• 職歴
– 2008/04: 日本電信電話株式会社
• メディアインテリジェンス研究所（横須賀）
• 自動要約，評判分析，テキストマイニング，質問応答，言語生成の研究開発
– 2015/06: 東京工業大学
• 情報理工学院（大岡山）
• 自動要約，言語生成，照応解析，対話処理の研究および教育
• 委員等
– 言語処理学会代議員・論文誌編集委員
– 情報処理学会自然言語処理研究会幹事・論文誌編集委員
2018/05/31 NTCIR-14 QALab-PoliInfo 第2回説明会 1
経歴

自己紹介
• 自然言語生成
– 自動要約，質問応答
• 自然言語処理アプリケーションの実用化
– オープンソース要約器など
– https://github.com/hitoshin
興味

自動要約
1. 導入
– 定義
– 分類
– 要素技術
2. 今日の自動要約技術
– 対象
– 文選択・文短縮・文の順序付け
– 要約の今後
3. まとめ
Agenda

ばくっとした自動要約のお話
国連安全保障理事会は２０日、西アフリカ・マリ北部を制圧したイスラム過激派掃討のため軍事介入を認める
決議を全会一致で採択した。混迷のマリ情勢は新たな局面に入る。決議では、アフリカ国際マリ支援部隊（Ａ
ＦＩＳＭＡ）に対し「必要なあらゆる手段の行使」を認めた。派遣部隊はまずマリ軍兵士の教育や作戦を支援す
る。
自動要約の例
国連安全保障理事会は２０日、西アフリカ・マリ北部を制圧したイスラム過激派掃討のため軍事介入を認め
る決議を全会一致で採択した。周辺国で構成する西アフリカ諸国経済共同体（ＥＣＯＷＡＳ）による３３００人規
模の部隊派遣を承認。混迷のマリ情勢は新たな局面に入る。
決議では、アフリカ国際マリ支援部隊（ＡＦＩＳＭＡ）に対し「必要なあらゆる手段の行使」を認めた。派遣部隊
はまずマリ軍兵士の教育や作戦を支援する。派遣期間は１年。軍事行動の開始は来年秋以降になる見通し。
マリでは３月、首都バマコで反乱軍によるクーデターが発生。イスラム過激派が北部を制圧し、国土は事実
上二分された。今月１０日には政府軍兵士らがディアラ暫定政府首相の身柄を拘束。首相は翌１１日に退陣
を表明し、混乱が加速した。ロイター通信によると、ディアラ首相拘束はクーデターを主導したサノゴ大尉の指
示。背景には首相とトラオレ暫定大統領らとの間の政治的対立があったとされ、トラオレ大統領は職務を継続
している。

• 要約があると時間の節約になる
– 俗なところでは、「今北産業」
– 我々の身の回りには無数の要約が存在
• 安全保障上の要請
– アラビア語で書かれた新聞記事を機械翻訳、
英語にして自動要約 (DARPA TIDES program)
なぜ機械に文書を要約させるのか

• 自然言語処理技術（計算機で自然言語
（日本語や英語）を扱う技術）の一種
• 機械翻訳などと同様にテキストを出力す
る技術
– テキストを解析する技術と一線を画す（特に
評価が大変）
生成側の自然言語処理技術

自動要約の定義と応用
• 情報のソースを受け取り、そこから内容を抽出し、もっ
とも重要な内容をユーザに、簡約した形で、かつ、ユー
ザやアプリケーションの要求に応じた形で提示すること
(Mani01)
• 単一の、あるいは複数のニュース記事の要約
• 情報検索システムや質問応答システムの出力部
要求に合わせて，情報ソースを要約

自動要約の入出力
入力＼出力単一の文単一の文章
単一の文 • 文短縮
• （文簡約）
複数の文 • Multi-Sentence Compression
• 文融合
単一の文書 • ヘッドライン生成 • 単一文書要約
複数の文書 • ヘッドライン生成 • 複数文書要約
入出力によって以下のような課題がある

技術
自動要約の構成要素
3つの要素によって作成すべき／できる要約が決まる
入力文書集合
読者
要約

技術
3つの要素によって作成すべき／できる要約が決まる
入力文書集合
読者
要約
• 数（単一か複数か）
• ジャンル（新聞，技術文献，ブ
ログ，ツイッター）
• 書き手（玄人，素人）
• 主題
• 利用用途
– 要約の長さ
– ユーザーが選好する情報
（クエリ）の有無
• 計算資源（クロック数，ディス
ク）
• 利用できる技術とその精度
– 形態素解析，係り受け解析，述
語項構造解析，共参照解析
– 機械学習

読者（使途）による要求水準
入
力
文
書
の
性
質
に
よ
る
難
し
さ
技術

入
力
文
書
の
性
質
に
よ
る
難
し
さ
技術
現在の技術水準で
できること
読み手の要求水準によって
要約の難しさは変化
妙な文書だと要約が大変

入
力
文
書
の
性
質
に
よ
る
難
し
さ
技術
現在の技術水準で
できること
読み手の要求水準によって
要約の難しさは変化
妙な文書だと要約が大変
うまくつながるように
するのが大変

自動要約の分類
• 読み手に由来するもの
1. 要約の使い方：指示的要約／報知的要約
2. 必要な情報の指定：クエリ非依存要約／クエ
リ依存要約
• 入力に由来するもの
3. 入力文書の数：単一文書要約／複数文書要約
• 技術に由来するもの
4. 要約を作る方法：抽出的要約/生成的要約
4つの主要な分類が存在

1. 要約の使い方：指示的要約 or 報知的要約
– 指示的：原文書を読むべきか判断するための要約
（e.g.新聞の見出し）
– 報知的：原文書の代わりとする要約（e.g.ニュー
スの字幕）
2. 必要な情報の指定：クエリ依存 or クエリ非
依存
– クエリ依存：何らかのクエリ（特定の情報への要
求）に対する要約（e.g.スニペット）
– クエリ非依存：特定の情報に依らない要約
読み手に由来する分類

3. 入力：単一自動要約 or 複数自動要約
– 単一：1つの文書を要約
– 複数：1つ以上の文書を要約
4. 手法：抽出的要約 or 生成的要約
– 抽出的要約：原文書を文に分解し、要約として相
応しい文を選び（重要文抽出）、それらを繋げる
ことで作る要約
– 生成的要約：原文書にない表現を含む（新しい表
現を生成する）要約
入力と技術に由来するもの

研究の焦点は以下の組み合わせ
1.使い方指示的報知的
2.情報クエリ依存クエリ非依存
3.入力単一複数
4.手法抽出的生成的

自動要約の要素技術
1. 文分割：文書を文に分割する
2. 文短縮：修飾節を削除するなどして、原
文より短い原文の「亜種」を作る
3. 重要文抽出：要約に相応しい文を選び出
す
4. 文の順序付け：選んだ文を適切に並べる
5. 評価： ROUGE で評価，読みやすさにつ
いては人手
以下の要素技術の組み合わせで要約が行われる

自動要約の要素技術
ムバラク大統領に対す
る抗議デモが続くエジ
プトで、反体制派が４
日に大規模デモを実施
する。大統領に即時退
陣を迫る構え。
反政府派と大統領派が2日、激しく衝突
し多数の死傷者が出たエジプト・カイ
ロは、一夜明け、双方で散発的に投石
が行われるなど、緊迫した状態が続い
ている。エジプトで続く反政府デモは、
2日から3日未明にかけて、反政府派と
大統領支持派の衝突に発展し、火炎瓶
が建物や車に引火し、至るところで火
の手が上がり、黒煙が立ち込めた。

自動要約の要素技術：文分割
ムバラク大統領に対する
抗議デモが続くエジプト
で、反体制派が４日に大
規模デモを実施する。大
統領に即時退陣を迫る構
え。
し多数の死傷者が出たエジプト・カイロ
は、一夜明け、双方で散発的に投石が行
われるなど、緊迫した状態が続いている。
エジプトで続く反政府デモは、2日から
3日未明にかけて、反政府派と大統領支
持派の衝突に発展し、火炎瓶が建物や車
に引火し、至るところで火の手が上がり、
黒煙が立ち込めた。
1. ムバラク大統領に対す
する。
2. 大統領に即時退陣を迫
る構え。
3. 反政府派と大統領派が2日、激しく衝突し多数
の死傷者が出たエジプト・カイロは、一夜明け、
双方で散発的に投石が行われるなど、緊迫した
状態が続いている。
4. エジプトで続く反政府デモは、2日から3日未
明にかけて、反政府派と大統領支持派の衝突に
発展し、火炎瓶が建物や車に引火し、至るとこ
ろで火の手が上がり、黒煙が立ち込めた。

自動要約の要素技術：文短縮
3. 反政府派と大統領
派が2日、激しく
衝突し多数の死傷
者が出たエジプ
ト・カイロは、一
夜明け、双方で散
発的に投石が行わ
れるなど、緊迫し
た状態が続いてい
る。
3a.反政府派と大統領派が2日、激しく衝
突し多数の死傷者が出たエジプト・カ
イロは、一夜明け、双方で散発的に投
石が行われるなど、緊迫した状態が続
いている。
3b.多数の死傷者が出たエジプト・カイロ
は、一夜明け、双方で散発的に投石が
行われるなど、緊迫した状態が続いて
いる。
3c.エジプト・カイロは、一夜明け、双方
で散発的に投石が行われるなど、緊迫
した状態が続いている。

自動要約の要素技術：文選択
する。
2. 大統領に即時退陣を迫
る構え。
3. 反政府派と大統領派が2日、激しく衝突し
多数の死傷者が出たエジプト・カイロは、
一夜明け、双方で散発的に投石が行われ
るなど、緊迫した状態が続いている。
4. エジプトで続く反政府デモは、2日から3
日未明にかけて、反政府派と大統領支持
派の衝突に発展し、火炎瓶が建物や車に
引火し、至るところで火の手が上がり、
する。

自動要約の要素技術：順序付け
する。
1. ムバラク大統領に対する抗議デモが続く
エジプトで、反体制派が４日に大規模デ
モを実施する。
※単一自動
要約の場合
は不要

自動要約の要素技術：評価
• 評価の側面
– 内容的品質：原文書の内容を適切に反映した要約
になっているか？
– 言語的品質：読みやすい要約になっているか？
• 評価の方法
– 内的な評価：要約「そのもの」の品質を評価
– 外的な評価：要約以外のタスクで要約の品質を評
価（例えば，要約だけを使って情報検索の精度が
下がらないか，など）
要約の評価は2種類×2種類に分かれる

自動要約の要素技術：内容
• 機械が生成した要約と，人間による要約
（参照要約）とのn-gram類似度を計算
自動評価尺度 ROUGE (Lin04) が存在
エジプトで続く反政府デモは、2日から
3日未明にかけて、反政府派と大統領支
持派の衝突に発展し、火炎瓶が建物や
車に引火し、至るところで火の手が上
がり、黒煙が立ち込めた。ムバラク大
統領に対する抗議デモが続くエジプト
で、反体制派が４日に大規模デモを実
施する。
機械による要約
ムバラク大統領に対する抗議デモが
続くエジプトで、2日から3日未明に
かけて、反政府派と大統領支持派の
衝突が発生した。衝突の際には、火
炎瓶が建物や車に引火し、至るとこ
ろで火の手が上がり、黒煙が立ち込
めた。更に4日には、反体制派が大規
模デモの実施を計画している。
人間による要約

自動要約の要素技術：言語
• 人手によって以下の5尺度を評価することが一般的
1. 文法性：文法的でない文が含まれていないか？
2. 冗長性：全く同じ情報が繰り返されていないか？
3. 照応・省略：先行詞のない指示詞が含まれていないか？
4. 焦点：要約全体と無関係な情報が含まれていないか？
5. 構造と結束性：接続詞を補ったり削除したりする必要の
ある箇所はないか？
• 高コストで，自動化が望まれている
• 最近は Amazon Mechanical Turk が使われる
自動評価法はまだ確立されていない

自動要約の要素技術：まとめ
1. 文分割：文書を文に分割する
2. 文短縮：修飾節を削除するなどして、原
文より短い原文の「亜種」を作る
3. 重要文抽出：要約に相応しい文を選び出
す
4. 文の順序付け：選んだ文を適切に並べる
5. 評価： ROUGE で評価，読みやすさにつ
いては人手
5つの主要な要素技術が存在

ˆS = argmax
S
f (S;D,U)
» argmax
S
f (S;w)
要素技術の分解
• 入力文書集合 D とユーザーの要求 U が与えられたとき，それを最
大化する S を探す問題として定式化
要素技術をモデル，学習法，デコード法に整理
モデル
（目的関数の形態）
デコード
（最良の S の探索）
パラメータ
（重み，特徴量）

要素技術の分解
文分割文短縮文選択文の並べ替え評価
モデル
• 逐次予測 (Paice+90,
Gillick+09)
• Sequential Labeling
(Hirao+10)
• 構文木の枝刈り
(Jing00;Clarke+07;Nomoto+07
;Zajic+07),
• STSG ( Cohn+07;Cohn+08),
• QSG (Woodsend+10)
• 最大被覆問題
(Fillatova+04;Yih+07;Gillick+
09;高村+08)
• ナップサック問題
(McDonald+07;平尾+09)
• 施設配置問題 (高村+10)
• 巡回セールマン問題
(Althaus+04)
• 景品収集巡回セールスマン
問題 (Nishikawa+10)
• ROUGE (Lin04)
• 拡張文字列カーネル (平尾
+06)
• Pyramid (Nenkova+07)
• 投票型回帰モデル (平尾
+07)
学習・
特徴量・
• 規則 (Paice+90),
• SVM (Gillick+09)
• 規則 (Jing00)
• 統計 (Clarke+06)
• CRF (Nomoto+07)
• Structured SVM (Cohn+07)
• Naïve Bayes (Kupeic+95),
• Maximum Entropy
(Osborne02)
• Logistic Regression
(Yih+07)
• SVM (Hirao+02)
• 規則
(Barzilay+02;Okazaki+04)
• 統計 (Lapata+03)
• SVM (Bollegala+06)
• n-gram (Lin04),
• Summary Content Unit
(Nenkova+07)
デコード
N/A • Dynamic Programing
(Cohn+07;Nomoto+07;
Cohn+09;Hirao+09),
• ILP (Clarke+06;Woodsend+10)
• 貪欲法 (Filatova+04),
• Stack Decoder (Yih+07)
• ILP (McDonald07)
• Lagrange Relaxation
(Nishikawa+12;Almeida+13;N
ishino+13)
• Greedy (Lapata+03)
• A* (Soricut+06)
• ILP
(Althaus+04;NIshikawa+10)
N/A
大まかに以下のように分類できる
文分割文短縮文選択文の順序付け評価
モ
デ
ル
学
習
・
特
徴
量
デ
コ
ー
ド

要約研究の成り立ち
文分割文短縮文選択文の並べ替え評価
モデル
• 逐次予測 (Paice+90,
Gillick+09)
• Sequential Labeling
(Hirao+10)
• 構文木の枝刈り
(Jing00;Clarke+07;No
moto+07;Zajic+07),
• STSG
( Cohn+07;Cohn+08),
• QSG (Woodsend+10)
• 最大被覆問題
(Fillatova+04;Yih+07
;Gillick+09;高村+08)
• ナップサック問題
(McDonald+07;平尾
+09)
• 施設配置問題 (高村
+10)
• 巡回セールマン問題
(Althaus+04)
• 景品収集巡回セールス
マン問題
(Nishikawa+10)
• ROUGE (Lin04)
• 拡張文字列カーネル
(平尾+06)
• Pyramid
(Nenkova+07)
• 投票型回帰モデル (平
尾+07)
学習・
特徴
量・
• 規則 (Paice+90),
• SVM (Gillick+09)
• 規則 (Jing00)
• 統計 (Clarke+06)
• CRF (Nomoto+07)
• Structured SVM
(Cohn+07)
• Naïve Bayes
(Kupeic+95),
• Maximum Entropy
(Osborne02)
• Logistic Regression
(Yih+07)
• SVM (Hirao+02)
• 規則
(Barzilay+02;Okazaki
+04)
• 統計 (Lapata+03)
• SVM (Bollegala+06)
• n-gram (Lin04),
• Summary Content
Unit (Nenkova+07)
デコー
ド
N/A • Dynamic
Programing
(Cohn+07;Nomoto+0
7;
Cohn+09;Hirao+09),
• ILP
(Clarke+06;Woodsend
+10)
• 貪欲法 (Filatova+04),
• Stack Decoder
(Yih+07)
• ILP (McDonald07)
• Lagrange
Relaxation
(Nishikawa+12;Alme
ida+13;Nishino+13)
• Greedy (Lapata+03)
• A* (Soricut+06)
• ILP
(Althaus+04;NIshika
wa+10)
N/A
入力等の制約と現在の到達点等々加味し要約研究が成立
読者技術入力文書集合
どうすれば会議
に通るか……
要約研究

自然言語処理における自動要約
• Text-to-Text 課題
– 機械翻訳，言い換え・簡約，自動要約，対話
– 中間表現を求めない
• 独特な点
– 文ではなく文章を扱う（文脈の重要性）
– 入出力の意味的等価性を保つことを求めない
• 機械に価値判断を求める稀有なタスク
• 大切なものを探す：質問応答，情報検索
– 一部 NLP の範囲を逸脱している
生成側の技術だが独特なところがある

自然言語生成との差異
言語生成自動要約
深層生成 • 内容決定
• 論述計画
• 重要文選択
• 文の並べ替え
表層生成 • 表層生成器の利用
• 命題集約
• 語選択
• 入力文の再利用
• 文融合
• 言い換え
自動要約は言語生成を非常に単純化したもの

1. 自動要約
1. 導入
– 定義
– 分類
– 要素技術
– 対象
– 要約の今後
3. まとめ
Agenda

要約の対象
規模が拡大，テキストの品質は低下，どんどん難しく
新聞記事
入力
規模
電子メール
レビュー
書籍音声
ツイッター
テキストの品質の低さ
技術文献
ブログ
単一文書要約
複数文書要約

要約の対象
• 科学技術文献・新聞記事からスタート
– 技術文献 (Luhn58;Edmundson69;Pollock75)
– 新聞記事 (Luhn58;Aone+98)
• 安価な計算機／インターネットの普及以降，多様なテ
キストが要約の対象となる
– 音声 (Furui+04;Lin+09;Xie+09;Higashinaka+10)
– 電子メール (Muresan+01;Sandu+10)
– レビュー (Carenini+06;Lerman+09)
– ツイッター (Sharifi+10;Takamura+11;久保+13)
急速に要約の対象が拡大

文選択
• 個別の文の逐次的選択
(Barzilay+97;Radev+04)
• 以下のような素朴な方法
1. それぞれの文に個別にスコアを与える
• 重要と思われる内容語を含む文には高いスコアを
与えるなど
2. スコアが高い文から順番に選ぶ
3. 選んだ文を連結して要約として出力
文の逐次的な選択

文選択
• Filatova による定式化 (Filatova+04)
– 陽な目的関数の導入
– モデル，パラメータ，デコードの分離
– 個別の文の逐次的選択から，最良の部分文集
合の探索へ
• 現代的な統計的自然言語処理の一分野と
して体裁が整う
自動要約を最適化問題として再定義

文選択
• 単一文書を構成する文の集合から，長さの制
約を満たす部分集合を選択 (McDonald07; 平
尾+09)
• 典型的なナップサック問題！
• 動的計画ナップサックアルゴリズムで擬多項
式時間での求解が可能
単一文書要約：ナップサック問題
入力：文数 n ，各文のスコア s1, s2, … sn と各文の長さ l1, l2, … ln,
および最大要約長 L
出力：部分集合のうち長さの和が L 以内で s の和が最大のもの

文選択
国連安全保障理事会は２０日、西アフリカ・マリ北部を制圧したイスラム過激派掃討のため軍事介入
を認める決議を全会一致で採択した。混迷のマリ情勢は新たな局面に入る。決議では、アフリカ国際
マリ支援部隊（ＡＦＩＳＭＡ）に対し「必要なあらゆる手段の行使」を認めた。派遣部隊はまずマリ
軍兵士の教育や作戦を支援する。
これもナップサック問題を解いている
国連安全保障理事会は２０日、西アフリカ・マリ北部を制圧したイスラム過激派掃討のため軍事介
入を認める決議を全会一致で採択した。周辺国で構成する西アフリカ諸国経済共同体（ＥＣＯＷＡ
Ｓ）による３３００人規模の部隊派遣を承認。混迷のマリ情勢は新たな局面に入る。
決議では、アフリカ国際マリ支援部隊（ＡＦＩＳＭＡ）に対し「必要なあらゆる手段の行使」を認
めた。派遣部隊はまずマリ軍兵士の教育や作戦を支援する。派遣期間は１年。軍事行動の開始は来年
秋以降になる見通し。
マリでは３月、首都バマコで反乱軍によるクーデターが発生。イスラム過激派が北部を制圧し、国
土は事実上二分された。今月１０日には政府軍兵士らがディアラ暫定政府首相の身柄を拘束。首相は
翌１１日に退陣を表明し、混乱が加速した。ロイター通信によると、ディアラ首相拘束はクーデター
を主導したサノゴ大尉の指示。背景には首相とトラオレ暫定大統領らとの間の政治的対立があったと
され、トラオレ大統領は職務を継続している

文選択
複数文書要約：最大被覆問題 (Filatova+04)
ムバラク大統領に対す
プトで、反政府派が４
する。大統領に即時退
陣を迫る構え。
し多数の死傷者が出たエジプト・カイ
ロは、一夜明け、双方で散発的に投石
が行われるなど、緊迫した状態が続い
ている。エジプトで続く抗議デモは、2
日から3日未明にかけて、反政府派と大
統領支持派の衝突に発展し、火炎瓶が
建物や車に引火し、至るところで火の
手が上がり、黒煙が立ち込めた。
エジプト・カイロで2日から3日未明にかけて，反
政府派と大統領支持派が衝突．反政府派は4日に大
規模デモを実施，大統領に即時退陣を迫る．

文選択
• 異なり語をできる限り被覆する要約長内の文集合を選択
複数文書要約：最大被覆問題
単語A 単語B
文1
単語C 単語D
文2
単語A 単語C
文3
単語A 単語B
文1
文2
単語C 単語D
4点 3点 2点 1点
10点

文選択
• 異なり語をできる限り被覆する要約長内の文集合を選択
複数文書要約：最大被覆問題
単語A 単語B
文1
単語C 単語D
文2
単語A 単語C
文3
4点 3点 2点 1点
9点単語C
文1
文3
単語A 単語B

文選択
• 入力された各文がどの単語を含むかを示す行列と，
その単語の重要度を予め用意しておく
• 典型的な複数文書要約モデルであるため，様々な
方法が提案されている
– 貪欲法 (Filatova+04) ，スタックデコーダ (Yih+07) ，
分枝限定法 (高村+08;Gillick+09) など
最大被覆問題の求解
入力：文数 n ，単語数 m ，文 1 から文 n がそれぞれ含む単語を示す
行列 M = ( c1,1, c1,2, …, cn,m-1, cn,m ) ，各単語のスコア w1, …, wm ，
文の長さ l1, l2, … ln および最大要約長 L
出力：部分集合のうち長さの和が L 以内で，選ばれている文が含む単
語のスコアの和が最大のもの

文選択
少数の部分集合で文集合をできる限り「含意」(高村+10)
複数文書要約：施設配置問題
ムバラク大統領に対する抗
議デモが続くエジプトで、
反体制派が４日に大規模デ
大統領に即時退陣を迫る構え。
エジプトで続く反政府デモは、2日から3日
未明にかけて、反政府派と大統領支持派の
衝突に発展し、火炎瓶が建物や車に引火し、
至るところで火の手が上がり、黒煙が立ち
込めた。
エジプト・カイロでは依然ムバラク大
統領に対する抗議デモが続いており，
反体制派は4日大統領に即時退陣を迫
る大規模デモを計画。

文選択
込めた。

文選択
• テキスト含意認識 (Dagan+06)：2つの文が与えら
れたときに，それらが含意関係にあるか判定
• 難しい問題だが，統計的分類器などを用いて判定
文 a が文 b を「含意する」とは？
12日午前3時25分，千葉県銚子市沖で震度5の地震が観測された。
12日未明，千葉県
で大地震が発生。
12日，千葉県沖で
地震が発生。
微妙？含意
千葉県銚子市沖を千葉県といっ
てよいか？
震度5の地震は大地震か？
午前3時25分は未明か？

文選択
• NP 困難
• 貪欲法や分枝カット法などが用いられる
施設配置問題の求解
入力：文数 n ，文 i が文 j を含意する程度 e ∈ [0, 1] を示す行列 M
= ( e1,2, …, en-1,n ) ，各文の長さ l1, l2, … ln, および最大要約長 L
出力：部分集合のうち長さの和が L 以内で選ばれている文が文集合全
体を含意する値が最大のもの

文選択
• 劣モジュラ最適化 (Lin+10;Lin+11;Morita+13)
– 目的関数が劣モジュラ性を持つ＝最適化が容易
– 劣モジュラ性のある目的関数をわざと用意してお
けば，解きやすくなる
• ラグランジュ緩和
(Nishikawa+12;Almeida+13;Nishino+13)
– 元問題を解きやすい部分問題に分割，部分問題を
それぞれ解いて，解が合意するよう近づける
求解時間との戦い：目的関数の工夫

文選択における学習・特徴量
• 頻度や手がかり語といった特徴量は自動要約
黎明期より存在 (Luhn58;Edmundson69)
• 90年代より機械学習による文の重み付け（あ
るいは分類）が始める
– Naïve Bayes (Kupiec+95), Maximum Entropy
Classifier (Osborne02), SVM (Hirao+02), Logistic
Regression (Yih+07)
• 特徴量は bag-of-words や文の位置など
文に対する重み付け（分類）

• 新聞
– 単語，固有表現，述語項構造
• レビュー
– Aspect-Polarity の２つ組をスコアリングの単
位として設定 (Carenini+06;Lerman+09)
• 人手で目的に合わせて設定
• 深層学習の利用が始まる（畳み込み）
対象に合わせた特徴量を研究者が設定

• 個別の重みづけから構造学習へ
– Structured SVM (Takamura+10;Berg-
Kirkpatrick+11; Lee+12, Almeida+13)
– ROUGE の損失関数への導入（MERT的）
• 自動要約はデータが少ない：転移学習の導入
– 様々なドメインのデータがあるが，量が少ない
– (Sandu+10;Xie+10;Lee+13)
個別の重みづけから構造学習へ

文短縮
• 抽出的要約の限界から生じる (Jing00)
– 抽出的アプローチにおいては長い文は扱いづらい
• 構文木を刈り込む
– 落としても良さそうなノードを
落とす
– 規則 (Jing00;Zajic+07)，
統計 (Clarke+06),
学習 (Turner+05)
• 構文木を仮定しないものも
– Sequential Labeling (Hirao+10)
文選択の前処理，構文木の枝刈り
Turner and Charniak: Supervised and
unsupervised learning for sentence
compression. ACL 2005.

文短縮
構文木を刈り込む
「N700A」が、
東海道新幹線で、6年ぶりと
新型車両
なる
8日から
開始し、
営業運転を
出発式が
東京駅と
行われました
新大阪駅で
56文字

文短縮
構文木を刈り込む
東海道新幹線で、
「N700A」が、
新型車両
開始し、
営業運転を
出発式が
行われました
新大阪駅で
41文字

文短縮
部分木のよさを測る指標を定義
「N700A」が、
新型車両
8日から
開始
営業運転を
出発式が
東京駅と
行われました
新大阪駅で
10点
15点

文短縮
• 重要度
– 部分木が含む単語の重要度
– 「東海道新幹線」「新型車両」
– tf-idf などの統計量や，機械
学習に基づいたスコアリング
• 言語尤度
– 係り受け
• pdep(開始|新幹線,で)
– n-gram
• pn-gram(開始|運転,を)
部分木のよさを測る指標を定義
「N700A」が、
新型車両
8日から
開始
営業運転を
15点

文短縮
• 近似解法
– 幅優先探索（ビームサーチ，スタックデコーダ）
• もちろん整数計画問題として表現することも
できる
– グラフカットとももちろん見なせる
様々な探索法が用いられる
入力：木 T （ノード v1, …, vn とエッジ e1, …, em ），ノードのスコ
ア w1, …, wn とエッジのスコア c1, …, cn ，各ノードの長さ l1, l2,
… ln と最大文長 L
出力：ノードのスコアとエッジのスコアの和が最大となる部分木

文短縮
• 同期文脈自由文法による書き換え (Galley+07) から同
期木置換文法による書き換え (Cohn+09) へ
• さらに準同期文法による書き換え (Woodsend+10)
– STSG よりも「ゆるい」対応付け
• syntax-based MT の後を追う
構文木の枝刈りから同期文法に基づく書き換えへ
Cohn and Lapata:
Sentence Compression
as Tree Transduction.
JAIR 34, pp.637—674,
2009.

文短縮
対になっている構文木から同期文法を学習
Cohn and Lapata:
Sentence Compression
as Tree Transduction.
JAIR 34, pp.637—674,
2009.

文の並べ替え
• 文の順序によってつながりのよさが変化
選択した文集合を並べないといけない
1. ムバラク大統領に対する抗議デモ
が続くエジプトで、2日から3日
未明にかけて、反政府派と大統領
支持派の衝突が発生した。
2. 衝突の際には、火炎瓶が建物や車
に引火し、至るところで火の手が
上がり、黒煙が立ち込めた。
3. 更に4日には、反体制派が大規模
デモの実施を計画している。
• 国語の問題を機械に解かせる

文の並べ替え
巡回セールスマン問題の出現
文1
文2
文3
文書頭
文2
文3
文1
文2
文3
文3 文1
文3
文書末
文2
文1
文1
文2

文の並べ替え
• 様々な手がかり
• テキストから特徴の連鎖を学習し，文のつながりのよさを与
えるパラメータを学習 (Lapata03, Barzilay+05)
文のつながりのよさとは？
連続する文には同じ語彙が用いられや
すい
副詞「更に」が文書頭に来ることはな
い
最初の文には固有表現が含まれやすい
（ムバラク大統領，エジプト，2日，3
日）

文の並べ替え
• 選択した文集合に最適な順列を与える
(Althaus+04)
• 分枝カット法などで求解
整数計画問題として表現，求解
入力：文数 n ，文 s1, …, sn および文書頭 s0 ，文書末 sn+1 のつなが
りのよさを与える行列 M = (c0,1, c0,2, …, cn-1,n+1, cn,n+1)
出力：つながりのよさの和が最大の順列

自動要約
1. 文選択
– 文の組み合わせに対するスコアリング
– 最適な文の組み合わせの探索
2. 文短縮（文の亜種の生成）
– 文の亜種のスコアリング
– 最適な亜種の探索
3. 文の並び替え
– 順序に対するスコアリング
– 最適な順序の探索
• 機械学習と組み合わせ最適化が跋扈
大きく分けて3つの要素技術が存在

自動要約
1. 同時推論
2. 大規模データの利用
3. 深層学習
4. クラウドソーシング
5. まとめ
最近の動向

同時推論
• 文短縮＋文選択
– (Martins+09;富田+09;Woodsend+10;Berg-
Kirkpatrick+11;Woodsend+12;Morita+13)
– 構造学習＋転移学習＋拡張ラグランジュ緩和の全
部入りなども…… (Almeida+13)
• 文選択＋文の順序付け
– (Nishikawa+10;Christensen+13)
• デコードの工夫が重要
2010年代前後の潮流

大規模データの利用
• 大規模な入出力対が利用可能に
– ヘッドライン生成
• 25万(Fillippova13)，950万(Rush+15)
• ウェブ上の記事を片っ端から収集
– 単一文書要約（新聞記事）
• 9千 (Woodsend+10)，1万2千 (Nishikawa+14)，10万
(Chang+16)
• ウェブニュースに要約が付与されるようになってきた
• 深層学習と親和的
2015年前後より

深層学習
• 重要文の選択
– 単一文書要約 (Cheng+16)
– 大規模な単一文書要約コーパスを導入
– ものすごく苦労してリード法に勝つ……
• 文の生成
– ヘッドライン生成 (Rush+15)
– NMT と基本的には同じ
• 2つのポイント
– 精度の向上
– 特徴量コーディングからの解放
現時点で概ね2点で効果あり

深層学習
単一文書要約 (Cheng+ 16)
リード文
文選択（ロジス
ティック回帰）
ヘッドライン生成
文選択
単語選択
• 文を CNN でたたみ込んで文ベクトルを生成， RNN で文選択
• 100単語の要約でかなり苦労してリードより1単語分よくなる……
• ヘッドライン生成と同じ方法を持ってきても全然ダメ
–固有表現で困る

深層学習
単一文書要約 (See+ 2017)
• 完全に生成ベース (Abstractive)
• 入力をそのままコピーするような機構を導入 (Pointer-Generator)
• 繰り返し防止のため Coverage を導入
• しかしリード文に負けている……

ちなみに
単一文書要約 (Nishikawa+ 2014)
• 文選択＋文短縮
• リードは死ぬほど強い
• 単一文書要約とは何なのか……

クラウドソーシング
• 記事への要約の付与
– 要約の品質の担保が困難 (浅原+15)
• 生成された要約の人手評価
– 内容的品質，言語的品質の評価
– 広く利用されている
– 熟練した評価者と比べると相当危険との報告
も (Gillick+10)
コーパス構築・評価の標準に

最近の動向：まとめ
• 要素課題の同時解決
– 複雑な探索ルーチンの実装あるいは数理計画
としての定式化が必要
• 大規模な入出力対の入手
– 10万対程度の入出力対が標準的に
• 深層学習の利用
– 計算機資源がないとつらい
• クラウドソーシングによる評価
高まる参入障壁

自動要約
1. 重要文選択
2. 要約対象の拡大
3. ドメイン適応
4. 個人化
要約の今後

残課題
• ROUGE オラクルの計算 (平尾+16)
– 文選択だけでもかなり高い ROUGE スコア
0.7 が得られる
– さらに単純な文短縮を加えるだけで相当な
ROUGE スコア 0.8 に到達
• リード法の ROUGE はおおよそ 0.7 前後
– 3割程度は冒頭以外に重要な情報がありうる
実はまだ重要文選択が十分でない

残課題
• 人間が作成している要約のより広い代替
• あまり扱われていない要約
– 本のあらすじ
• 何を入力にすればよいのか不明（レビュー？）
– 魅力的な見出し (藤田+07;Kourogi+15)
• 東スポ
• 内容をより少ない文字数で伝えること以外の目的（商
品の購買，娯楽）
• 身の周りの要約を注意深く観察する必要
要約対象の拡大

残課題
• 入力される文書の種類によって要約器
（＝要約手法）を現状変えている
• 様々な種類の文書をどうすれば一貫した
方法で要約できるのか
• 特に長い文書はどうすればいいのかわか
らない
• 文書の種類同士の類似性を認識する必要
があるとにらんではいるが……
ドメイン適応

残課題
• 要約の個人化は内容面に集中
– クエリ依存要約
– 情報要求に合わせて特定の情報を集中的に含
む要約を生成
• 内容以外も個人化できる
個人化

要約の難しさ
• 機械翻訳
– 完全に知らない言語であれば少しでも内容が
わかると嬉しい
• 評判分析
– 精度8割で問題なし
• 自動要約
– ？？？？
嬉しさはわかりやすい気がするが？

要約の難しさ
• ユースケースによる
– 実用化はへんてこな要約でもまあなんとかな
るケースかどうかによる
– わかりやすいケース：スニペット
• サポートツールとしてはあり
へんてこな要約を許容してくれるか

まとめ
1. 導入
– 定義
– 分類
– 要素技術
– 対象
– 要約の今後
3. まとめ
以下の内容についてお話ししました

まとめ
• 機械学習（90年代後半），組み合わせ最適化（2010年
前後）に続いて深層学習の導入
– 長年の課題であった生成的な要約へ前進
– 精度的にはまだ劇的な進歩があったとはいいがたい
• 社会における広範な実用化へはまだ道半ば
– テキストの種類の多様性
– 相対的に低いと見られる User Tolerance
• 一方で期待は大きい
– 音声 UI の普及
自動要約は第3の過渡期

Automatic Summarization

Recomendados

Recomendados

Mais conteúdo relacionado

Mais procurados

Mais procurados (20)

Semelhante a Automatic Summarization

Semelhante a Automatic Summarization (20)

Mais de Hitoshi Nishikawa

Mais de Hitoshi Nishikawa (6)

Último

Último (10)

Automatic Summarization