トピックモデルの評価指標 Coherence 研究まとめ #トピ本

【論論⽂文紹介】　
トピックモデルの評価指標
Coherence 研究まとめ
2016/01/28
牧⼭山幸史
1

発表の流流れ
1.  研究背景、基礎知識識
2.  既存研究の紹介(5つ)
3.  まとめ
2

1. 研究背景、基礎知識識
•  トピックモデルの評価指標として
Perplexity と Coherence の 2 つが広く
使われている。
•  Perplexity：予測性能
•  Coherence：トピックの品質
•  確率率率モデルにおける Perplexity の定義は
明確だが Coherence はどう定義するか？
3

Coherence とは
•  和英辞典によると：
⾸首尾⼀一貫性
•  対義語：incoherence
⽀支離離滅裂裂
http://ejje.weblio.jp/content/coherence
http://ejje.weblio.jp/content/incoherence4
⾼高 Coherence
低 Coherence

Coherence とは
•  抽出されたトピックが⼈人間にとって解釈
しやすいかどうかを表す指標
•  トピックを表す単語集合を考える
{ farmers, farm, food, rice, agriculture }
{ stories, undated, receive, scheduled }
•  前者は Coherence が⾼高い。後者は低い。
5

Coherence 研究
•  Coherence の定義は明確ではない
•  Coherence が⾼高いかどうかは⼈人間により
判断可能
•  Chang(2009) ⼈人間による評価法を提案
•  Newman(2010) ⾃自動評価法を提案
•  その後、様々な⾃自動評価法が提案される
6

発表の流流れ
3.  まとめ
7

2. 既存研究の紹介
① Chang (2009)
② Newman (2010)
③ Mimno (2011)
④ Aletras (2013)
⑤ Lau (2014)
8

① Chang (2009)
•  “Reading Tea Leaves: How Humans
Interpret Topic Models”
紅茶茶占い：⼈人間はどうやってトピックモデルを解釈
するか
•  トピックモデルの評価指標として
Coherence を提案した最初の論論⽂文
•  Word Intrusion(単語の押しつけ)という⽅方法
でトピックの Coherence を⼈人間に評価させ
る
9

① Chang (2009)
＜研究背景＞
•  トピックモデルの評価指標として、
Perplexity が広く使われている
•  抽出されたトピックが解釈できないのは困る
•  トピックの品質に関する指標が必要
•  ⼈人間の解釈可能性(Human-Interpretability)
として Coherence を提案
10

Word Intrusion(単語の押しつけ)
•  トピックの単語群の中に、⼀一つだけ別の
単語を混ぜて、⼈人間に⾒見見つけさせる
•  仲間はずれはどれか？：
{ dog, cat, horse, apple, pig, cow }
{ car, teacher, platypus, agile, blue, Zaire }
•  前者は Coherence が⾼高い。後者は低い。
•  複数⼈人に作業させ、発⾒見見成功率率率を算出
11

① Chan (2009)
•  CTM, LDA, pLSI の 3つのトピックモデル
に対して、発⾒見見成功率率率(Coherence)を測定
•  結果は次ページ
•  CTM は Perplexity は良良いが(上表太字)、
Coherence が低い(下図⾚赤)という結果に
CTM: Correlated Topic Model
LDA: Latent Dirichlet Allocation
pLSI: Probabilistic Latent Semantic Indexing
12

① Chang (2009) まとめ
•  Coherence を定義した最初の論論⽂文
•  Word Intrusion によって⼈人間に評価させ
る
•  Perplexity が良良いモデルでも Coherence
が良良いとは限らない
14

① Chang (2009)
② Newman (2010)
③ Mimno (2011)
⑤ Lau (2014)
15

② Newman (2010)
•  “Automatic Evaluation of Topic
Coherence”
トピックコヒーレンスの⾃自動評価
•  ①Chang(2009) では、⼈人間による
Coherence の評価を⾏行行った
•  この論論⽂文では、⼈人間を介さない
Coherence の算出⽅方法を提案する
http://www.aclweb.org/anthology/N10-101216

② Newman (2010)
＜基本アイデア＞
•  Coherence は単語間の類似度度に依存する
{ farmers, farm, food, rice, agriculture }
{ stories, undated, receive, scheduled }
•  単語間類似度度をうまく定義できれば、　
⼈人⼿手を使わずに Coherence を算出できる
17

② Newman (2010)
•  トピックを代表する単語集合 w に対して、
単語間類似度度 D(wi, wj) の平均値もしくは
中央値を Coherence とする
•  ⼈人間による Coherence 評価と同じような
結果になる単語間類似度度 D(wi, wj) を探す
18

② Newman (2010)
•  ⼈人間による Coherence の評価⽅方法は、
①Chang(2009) と異異なり、直接的な⽅方法
•  トピックの単語集合を⾒見見せ、それらの単
語間の関連性を 3 段階評価させる
「良良い」「中間」「悪い」
•  ⼈人間による評価と単語類似度度による評価
のスピアマン相関を⾒見見る
Gold-standard: アノテータ間の相関
19

Downloaded BOOKS(12,000) from the Internet Archive
20

NEWS articles(55,000) from English Gigaword
21

② Newman (2010)
•  参照コーパスとして Wikipedia、単語間
類似度度として PMI (⾃自⼰己相互情報量量) を　
使った場合が、⼈人間による評価と相関が
最も⾼高い
※ 10 words sliding window
22

(余談)Google-based similarity
•  Google 検索索に基づく単語集合類似度度
•  単語集合 w の全ての単語を繋げたクエリ
を作る
+space +earth +moon +science +scientist
•  このクエリを投げたとき、検索索結果の上
位 100 件のタイトル部分に w 内の単語が
出現する数をカウントする
•  これを単語集合の類似度度とする
23

② Newman (2010) まとめ
•  Coherence を⼈人⼿手を使わずに算出する⽅方
法を提⽰示した
•  この⼿手法は、UCI Coherence と呼ばれ、
広く使われている
24

① Chang (2009)
② Newman (2010)
③ Mimno (2011)
⑤ Lau (2014)
25

③ Mimno (2011)
•  “Optimizing Semantic Coherence in
Topic Models”
トピックモデルの意味的コヒーレンスの最適化
•  ②Newman(2010)では、参照コーパス
(Wikipedia)を⽤用意する必要があった
•  本論論⽂文では、学習コーパスのみを⽤用いた
Coherence の算出⽅方法を提案する
26

③ Mimno (2011)
•  Framework は②Newman(2010)と同じ
•  単語間類似度度として、対数条件付き確率率率
•  学習コーパスを⽤用いる
D(v): 単語出現⽂文書数　D(v1,v2): 単語共起⽂文書数
27

③ Mimno (2011)
•  ⼈人間による３段階評価との関係を⾒見見る
•  ベースラインとして、そのトピックに割
り当てられたトークン数(ギブスサンプリ
ングにより推定)と⽐比較
•  ⼈人間による評価に近い結果が得られた
(※②Newmanとの⽐比較は⾏行行われていない)
28

③ Mimno (2011)
•  (good) v.s. (bad + intermediate)
•  ROC 曲線の AUC
– トークン数： 0.79
– Coherence：0.87
•  ロジスティック回帰の AIC
– トークン数： 152.5
– Coherence：113.8
– 両⽅方： 115.8
30

(余談) Word Intrusion の問題点
•  この論論⽂文では ①Chang が提案した Word
Intrusion の問題点が指摘されている
•  トピックの単語が Chain している場合、
仲間はずれを⾒見見つけやすい
{ apple, apple-pie, meat-pie,
meat, crab-meat, crab }
•  しかしこのトピックの Coherence は低い
31

③ Mimno (2011) まとめ
•  参照コーパスを使わず、学習コーパスの
みで Coherence を算出する⽅方法を⽰示した
•  UMass Coherence と呼ばれる
•  genism に実装されている
•  新語、専⾨門⽤用語に強いと思われる(予想)
•  (本論論⽂文では、この評価指標を最適にする新しい
トピックモデルも提案。関係ないので割愛)
32

① Chang (2009)
② Newman (2010)
③ Mimno (2011)
⑤ Lau (2014)
33

④ Aletras (2013)
•  “Evaluating Topic Coherence Using
Distributional Semantics”
統計的意味論論を使ったトピックコヒーレンスの
評価
•  統計的意味論論における単語間類似度度を
Coherence の⾃自動算出に使ってみた
34

④ Aletras (2013)
•  Framework は②Newman(2010)と同じ
•  単語間類似度度の算出に PMI でなく、意味
空間(Semantic Space)上の類似度度を使う
– コサイン類似度度、Dice係数、Jaccard係数
•  意味空間の作成に Wikipedia を使う
35

意味空間(Semantic Space)
•  単語を共起情報を⽤用いてベクトル化
– ⽂文脈ベクトルと呼ぶ
•  よく似た共起分布を持つ単語はよく似た
意味を持つ単語である
36

意味空間(Semantic Space)
http://www.slideshare.net/unnonouno/20140206-statistical-semantics
37

④ Aletras (2013)
•  意味空間を作るための単語の共起情報
•  PMI (⾃自⼰己相互情報量量)
•  NMPI (Normalized PMI) (Bouma2009)
※それぞれ⼆二乗値を⽤用いる
38

④ Aletras (2013)
•  全ての単語では意味空間の次元が⼤大きい
•  Reduced Semantic Space (Islam2006)
– 各単語 wi に対して、トップ βwi 個だけ使⽤用
•  Topic Word Space
– トピックに現れる単語のみを使⽤用
m: コーパスサイズ、σ: 補正変数(今回は3に固定)
39

④ Aletras (2013)
•  ⽂文脈ベクトル間の類似度度 3 つ
•  コサイン類似度度
•  Dice 係数
•  Jaccard 係数
http://sucrose.hatenablog.com/entry/2012/11/30/132803
40

④ Aletras (2013)
•  ⽂文脈ベクトル集合の類似度度 1 つ
•  トピックの全単語の⽂文脈ベクトルの重⼼心
(Centroid)を Tc とするとき、重⼼心からの
コサイン類似度度の平均値
41

④ Aletras (2013)
•  2 × 2 × (3+1) = 16 パターンについて、⼈人
間による評価とのスピアマン相関を⾒見見る
•  ⼈人間による評価は 3 段階評価
•  学習コーパス 3 つを LDA で学習
– NYT: New York Times articles(47,229)
– 20NG: News Group emails(20,000)
– Genomics: MEDLINE articles(30,000)
MEDLINE: 医学論論⽂文データベース
42

④ Aletras (2013)
•  既存研究で良良いものをベースラインとする
Average NPMI が最も良良い
Newman の PMI を NPMI
に変えたもの
43

Reduced Semantic Space
は既存研究より悪い
44

Topic Word Space は
既存研究より良良い
類似度度はコサイン類似度度が
総合的に良良い
45

④ Aletras (2013) まとめ
•  意味的な類似度度を⽤用いた Coherence 評価
•  Topic Word Space でコサイン類似度度を使
うと既存研究より良良くなった
•  統計的意味論論によるアプローチの有効性
を⽰示した
•  NPMI はコサイン類似度度以外でもいい値を
出しているので意味論論的アプローチに向
いている
46

① Chang (2009)
② Newman (2010)
③ Mimno (2011)
⑤ Lau (2014)
47

⑤ Lau(2014)
•  “Machine Reading Tea Leaves:
Automatically Evaluation Topic Coherence
and Topic Model Quality”
機械で紅茶茶占い：トピックコヒーレンスと　　ト
ピックモデル品質の⾃自動評価
•  Coherence を算出する様々な⼿手法が提案さ
れているが、どれが良良いか分からない
•  これらの⼿手法を俯瞰的に⽐比較し、どれが良良い
かを評価する
http://www.aclweb.org/anthology/E14-1056
48

既存研究まとめ
モデル⼈人間評価類似度度⽐比較
①Chang pLSI
LDA
CTM
Word
Intrusion
②Newman LDA 3段階 PMI なし
③Mimno LDA 3段階 LCP なし
④Aletras LDA 3段階 DS ②③
49
LCP: Log Conditional Probability
DS: Distributed Semantics

既存研究の問題点
•  ①Chang(2009) と誰も⽐比較していない
⇨ Word Intrusion の⾃自動化
•  トピックモデルの評価指標のはずが LDA
だけで評価
⇨ pLSI, LDA, CTM の 3つ
•  参照コーパスとして Wikipedia のみ
⇨ Wikipedia, New York Times の 2つ
50

既存研究の問題点
•  モデルレベルで⾒見見た場合の Coherence と
トピックレベルで⾒見見た場合の Coherence
を分けて考えてない
⇨ 分けて調査
51

モデルレベル Coherence
•  モデルに対する Coherence はトピックに
対する Coherence の平均値とする
•  pLSI, LDA, CTM のそれぞれをトピック数
50, 100, 150 で作成(合計 9 つ)
•  9 つのモデルを⼈人間による評価と⽐比較
•  ピアソン相関 (relative difference)
52

モデルレベル Coherence
•  ⼈人間による評価：
– Word Intrusion(WI)
– Observed Coherence(OC) : 3段階評価
•  この論論⽂文では、WI の⾃自動評価法を提案
•  OC については既存⼿手法を⽐比較
•  WI v.s. OC の⽐比較も⾏行行う
53

学習データと参照コーパス
•  学習データ：
– WIKI: Wikipedia(10,000)
– NEWS: New York Times(8,447)
•  参照コーパス：
– WIKI-FULL: Wikipedia(3,300,000)
– NEWS-FULL: New York Times(1,200,000)
54

Word Intrusion の⾃自動化
＜基本アイデア＞
•  Lau(2010) では、トピックの単語集合から
「最も良良くトピックを表す単語」を⾒見見つ
ける⽅方法を⽰示した
•  Word Intrusion は「トピックを表す単語
として最も悪いもの」を⾒見見つける作業で
ある
Lau(2010) Best Topic Word Selection for Topic Labelling
55

Word Intrusion の⾃自動化
•  Intruder word を含む単語の集合について
SVM-rank で順位を学習
•  特徴量量 3 つ
56

モデルレベル(WI)
•  PMI が良良い
(※NPMI は特徴量量の PMI を NPMI に変たもの)
•  参照コーパスは同じドメインが良良い
57

モデルレベル(OC)
•  単語間類似度度として 4 つ
•  PMI (②Newman)
•  NPMI (Newman改)
•  LCP (③Mimno)
– ただし、参照コーパスを使⽤用
•  DS (④Aletras)
– 意味空間上のコサイン類似度度
– Topic Word Space, PMI, Wikipedia
58

モデルレベル(OC)
•  総合的には NPMI が良良い
•  WIKI に対しては LCP がベスト
59

モデルレベル(WI v.s. OC)
•  WI-Human と OC-Human は強い相関
⇨ 2つのアプローチはほぼ同じとみなして良良い
•  PMI 以外は WI とも相関が⾼高い
•  参照コーパスは同じドメインが良良い
60

モデルレベルまとめ
•  WI と OC はほぼ同じとみなしてよい
•  以下の⼿手法のどれも良良い
– WI-Auto-PMI (WI でトップ)
– OC-Auto-NPMI (OC でトップ)
– OC-Auto-LCP (WIKI でトップ)
•  参照コーパスはドメインを同じにした⽅方
が良良い
61

トピックレベル Coherence
•  9 つのモデルの 900 トピックに対して　
モデルレベルと同様に⽐比較
•  モデルレベルに⽐比べて⾮非常に低い相関
•  本質的な難しさがある
•  Human Agreement: 評価者を２グループ
に分けて、その相関を算出
62

トピックレベル(WI)
•  ⾮非常に低い
63

トピックレベル(OC)
•  Human Agreement に勝利利
⇨ ⼈人間と同レベルの評価が可能
•  OC-NPMI と OC-DS が良良い
64

トピックレベル(WI v.s. OC)
•  WI-Human と OC-Human の相関は低い
•  WI-Human に対して最も良良いのは OC-DS
だが、Human Agreement より低い
65

(余談) WI の問題点
(太字：Intruder Word 　四⾓角：⼈人間が選んだ単語)
1 & 2 ← 最初から仲間はずれが⼀一つある
3 & 4 ← 偶然関係のある単語が Intrude された
5 & 6 ← Intruder Word が浮いている
66
OC-Human* および WI-Human* は [0,1] に正規化されている

⑤ Lau(2014) まとめ
•  Coherence の⾃自動評価について、これま
でに提案された様々な⼿手法を⽐比較した。
•  モデルレベルでは、WI と OC に違いはな
く、既存の OC-NPMI, OC-LCP および
我々の提案する WI-PMI が良良い。
•  トピックレベルでは、WI と OC には差が
あり、OC に対しては OC-NPMI と OC-
DS が⼈人間と同じレベルで評価可能。
67

発表の流流れ
3.  まとめ
68

トピックモデルの評価指標 Coherence 研究まとめ #トピ本

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Viewers also liked

Viewers also liked (20)

Similar to トピックモデルの評価指標 Coherence 研究まとめ #トピ本

Similar to トピックモデルの評価指標 Coherence 研究まとめ #トピ本 (20)

More from hoxo_m

More from hoxo_m (16)

トピックモデルの評価指標 Coherence 研究まとめ #トピ本