読書会「トピックモデルによる統計的潜在意味解析」第8回 3.6節 Dirichlet分布のパラメータ推定

1
読書会「トピックモデルによる統計的潜在意味解析」
第8回
3.6節 Dirichlet分布のパラメータ推定
日時： 2016/01/28 19:30～
場所：株式会社 ALBERT
発表者： @aoki_kenji

目次
2
• 3.6.1節対称／非対称Dirichlet分布の性質
• 3.6.2節変分ベイズ法におけるDirichlet分布の
パラメータ推定
• 3.6.3節固定点反復法
• 3.6.4節ニュートン・ラフソン法
• 3.6.5節逐次学習－確率的ニュートン・ラフソン法
• 3.6.6節周辺化ギブスサンプリング／変分ベイズ法の場合

以前の節との対応関係
3
学習アルゴリズム
以前に
出てきた節
3.6節での
対応箇所
Dirichlet分布の
パラメータ推定方法
ギブスサンプリング 3.2.3節
変分ベイズ法
3.3.5節
3.3.6節
3.6.3節
3.6.4節
固定点反復法
ニュートン・ラフソン法
確率的変分ベイズ法 3.4.3節 3.6.5節確率的ニュートン・ラフソン法
周辺化
ギブスサンプリング
3.2.4節
3.6.6節
固定点反復法
（近似的な）経験ベイズ法
周辺化変分ベイズ法 3.3.8節
粒子フィルタ 3.5.2節

目次
4

Dirichlet分布のパラメータ推定の重要性
5
◎LDAの確率分布（P.52 (3.27)式）より
𝑝 𝒘, 𝒛, 𝜽, 𝝓 𝜶, 𝜷 =
𝑑,𝑖
𝑝 𝑤 𝑑,𝑖 𝑧 𝑑,𝑖, 𝝓 𝑝 𝑧 𝑑,𝑖 𝜽 𝑑
𝑑
𝑝 𝜽 𝑑 𝜶
𝑘
𝑝 𝝓 𝑘 𝜷
𝜶：各ドキュメントにおける各トピックの出現確率（の確率分布）を調整
𝜷：各トピックにおける各単語の出現確率（の確率分布）を調整
𝜶の各要素が同じ値をもつ対称Dirichlet分布よりも、異なる値を持つ非対称
Dirichlet分布の方が望ましい性質が多々あることが知られている
一方𝜷に関しては、対称Dirichlet分布と非対称Dirichlet分布では、それほど
差がないことが知られている
Dirichlet分布のパラメータ

Dirichlet分布のパラメータ推定の重要性
6
◎対称Dirichlet分布と非対称Dirichlet分布の比較（P.111より抜粋）
𝜶が非対称の場合、内容語と非内容語の分離ができる
一方、𝜷は対称の方がよりはっきりと分離ができる

目次
7

変分ベイズ法の学習アルゴリズム（復習）
8
𝐹 𝑞 𝒛, 𝜽, 𝝓 𝝃 𝜃, 𝝃 𝜙, 𝜶, 𝜷
=
𝑘
log
𝛤 𝑣 𝛽𝑣
𝑣 𝛤 𝛽𝑣
− log
𝛤 𝑣 𝜉 𝑘,𝑣
𝜙
𝑣 𝛤 𝜉 𝑘,𝑣
𝜙
+
𝑘 𝑣
𝐸 𝑞 𝒛 𝑛 𝑘,𝑣 + 𝛽𝑣 − 𝜉 𝑘,𝑣
𝜙
𝐸
𝑞 𝝓 𝑘 𝝃 𝑘
𝜙 log 𝜙 𝑘,𝑣
+
𝑑
log
𝛤 𝑘 𝛼 𝑘
𝑘 𝛤 𝛼 𝑘
− log
𝛤 𝑘 𝜉 𝑑,𝑘
𝜃
𝑘 𝛤 𝜉 𝑑,𝑘
𝜃
+
𝑑 𝑘
𝐸 𝑞 𝒛 𝑛 𝑑,𝑘 + 𝛼 𝑘 − 𝜉 𝑑,𝑘
𝜃
𝐸
𝑞 𝜽 𝑑 𝝃 𝑑
𝜃 log 𝜃 𝑑,𝑘
+
𝑑 𝑖 𝑘
𝑞 𝑧 𝑑,𝑖 = 𝑘 log 𝑞 𝑧 𝑑,𝑖 = 𝑘
◎変分下限（事後分布にDirichlet分布を仮定）（P.82 (3.102)式より）
以下の変分下限を次頁のアルゴリズムで最大化する

変分ベイズ法の学習アルゴリズム（復習）
9
◎変分ベイズ法の擬似アルゴリズム（P.80より抜粋）
ココの話

変分ベイズ法での𝜶,𝜷の推定
10
𝐹 𝑞 𝒛, 𝜽, 𝝓 𝝃 𝜃
, 𝝃 𝜙
, 𝜶, 𝜷 を𝜶, 𝜷に関して最大化すればよい
以下を満たす𝜶, 𝜷を見つければよい
𝜕𝐹 𝑞 𝒛, 𝜽, 𝝓 𝝃 𝜃, 𝝃 𝜙, 𝜶, 𝜷
𝜕𝜶
= 𝟎,
𝜕𝜷
= 𝟎
ここでは固定点反復法とニュートン・ラフソン法を紹介する

目次
11

固定点反復法とは
12
𝑥 = 𝑓 𝑥
を満たす𝑥を
𝑥 𝑠+1 = 𝑓 𝑥 𝑠 , 𝑠 = 1,2, ⋯
の反復計算で求めるアルゴリズム
例えば以下のような方程式を解きたいときに使う
𝑔 𝑥 = 𝑥 − 𝑓 𝑥 = 0
ここでは
𝜕𝜶
= 𝟎,
𝜕𝜷
= 𝟎
が解きたい（偏微分）方程式

偏微分方程式の導出
13
テキストPP.114～115ではガンマ関数の不等式を利用して導出しているが、
ここでは直接導出する
Dirichlet分布とディガンマ関数の関係式（P.71 (3.74)式）
𝐸 𝑝 𝜽 𝜶 log 𝜃 𝑘 = 𝛹 𝛼 𝑘 − 𝛹
𝑘
𝛼 𝑘
を使うと
𝜕𝛼 𝑘
=
𝑑
𝛹
𝑘
𝛼 𝑘 − 𝛹 𝛼 𝑘 + 𝛹 𝜉 𝑑,𝑘
𝜃
− 𝛹
𝑘
𝜉 𝑑,𝑘
𝜃
= 0

14
したがって、もし
𝛼 𝑘 =
𝑑 𝛹 𝜉 𝑑,𝑘
𝜃
− 𝛹 𝛼 𝑘
𝑑 𝛹 𝑘 𝜉 𝑑,𝑘
𝜃
− 𝛹 𝑘 𝛼 𝑘
𝛼 𝑘
を満たす𝛼 𝑘 ≠ 0が見つかれば
𝜕𝐹 𝑞 𝒛, 𝜽, 𝝓 𝝃 𝜃
, 𝝃 𝜙
, 𝜶, 𝜷
𝜕𝛼 𝑘
= 0
が解けることになる → 固定点反復法

15
𝜉 𝑑,𝑘
𝜃
の更新式（P.76 (3.89)式）
𝜉 𝑑,𝑘
𝜃
= 𝐸 𝑞 𝒛 𝑛 𝑑,𝑘 + 𝛼 𝑘
を𝐹 𝑞 𝒛, 𝜽, 𝝓 𝝃 𝜃, 𝝃 𝜙, 𝜶, 𝜷 に代入後に
𝜕𝛼 𝑘
= 0
を解こうとすると、反復計算式は
𝛼 𝑘 =
𝑑 𝛹 𝐸 𝑞 𝒛 𝑛 𝑑,𝑘 + 𝛼 𝑘 − 𝛹 𝛼 𝑘
𝑑 𝛹 𝑘 𝐸 𝑞 𝒛 𝑛 𝑑,𝑘 + 𝛼 𝑘 − 𝛹 𝑘 𝛼 𝑘
𝛼 𝑘
となる → P.114 (3.191)式
この場合、𝛼 𝑘の更新時に𝜉 𝑑,𝑘
𝜃
も更新することになる

16
𝛽𝑣に関しても導出手順は全く同じ（P.115 (3.192)～(3.194)式）
ただし
𝛽 = 𝛽1 = ⋯ = 𝛽 𝑉
として、𝛽を推定した方がよい場合もある（この場合も導出手順はほとんど
同じ）

目次
17

ニュートン・ラフソン法とは
18
𝜕𝐹 𝜶
𝜕𝜶
= 𝟎
を満たす𝜶を
𝜶 = 𝜶 − 𝑯−1 𝜶 𝒈 𝜶
𝒈 𝜶 =
𝜕𝐹 𝜶
𝜕𝜶 𝜶= 𝜶
𝑯 𝜶 =
𝜕2 𝐹 𝜶
𝜕𝜶𝜕𝜶′
𝜶= 𝜶
の反復計算で求めるアルゴリズム（P.116 (3.198)～(3.200)式）
ここでは
, 𝝃 𝜙
, 𝜶, 𝜷
𝜕𝜶
= 𝟎,
, 𝝃 𝜙
, 𝜶, 𝜷
𝜕𝜷
= 𝟎
が解きたい（偏微分）方程式

19
ニュートン・ラフソン法の問題点としてヘッセ行列
𝑯 𝜶
の逆行列演算の計算量の問題がある
しかし、LDAの場合はトリガンマ関数𝛹 1 𝑥 を用いることで、解析的に逆
行列演算が可能である（PP.117 (3.201)式）
𝑯 𝜶 𝑘′ 𝑘 =
𝜕2 𝐹 𝜶
𝜕𝛼 𝑘′ 𝜕𝛼 𝑘
= 𝑀 𝛹 1
𝑘
𝛼 𝑘 − 𝛿 𝑘′
= 𝑘 𝛹 1
𝛼 𝑘
ただし、
𝛹 1 𝑥 =
𝑑𝛹 𝑥
𝑑𝑥
=
𝑑 log 𝛤 𝑥
𝑑𝑥2

20
𝑯−1 𝜶 と𝒈 𝜶 の具体的な導出については省略する
（PP.117 (3.202)～(3.209)式を参照）
𝛽𝑣に関しても導出手順は全く同じ
固定点反復法では必ずしも停留点に収束するとは限らないが、𝛼 𝑘, 𝛽𝑣は常に
正の値となる（P.114 (3.191)式を使った場合）
一方、ニュートン・ラフソン法の場合、𝛼 𝑘, 𝛽𝑣が負の値になる可能性がある
→ 固定点反復法がお勧めとのこと

目次
21

確率的変分ベイズ法の学習アルゴリズム（復習）
22
◎確率的変分ベイズ法の擬似アルゴリズム（P.99より抜粋）
ココの話
𝑀個の文書全てではなく一つの文書𝑑に関する情報のみを
使ってパラメータを更新

ニュートン・ラフソン法 → 確率的ニュートン・ラフソン法
23
ニュートン・ラフソン法の反復計算の中で全文書の情報を用いているのは
どこか？
𝜶 = 𝜶 − 𝑯−1 𝜶 𝒈 𝜶
𝒈 𝜶 =
𝜕𝐹 𝜶
𝜕𝜶 𝜶= 𝜶
𝑯 𝜶 =
𝜕2
𝐹 𝜶
𝜕𝜶𝜕𝜶′
𝜶= 𝜶

ニュートン・ラフソン法 → 確率的ニュートン・ラフソン法
24
𝑯 𝜶 はP.117 (3.201)式
𝑯 𝜶 𝑘′ 𝑘 =
𝜕2 𝐹 𝜶
𝜕𝛼 𝑘′ 𝜕𝛼 𝑘
= 𝑀 𝛹 1
𝑘
𝛼 𝑘 − 𝛿 𝑘′ = 𝑘 𝛹 1 𝛼 𝑘
より𝜶にしか依存しない
𝒈 𝜶 はP.116 (3.196)式
𝑔 𝛼 𝑘 = 𝑀 𝛹
𝑘
𝛼 𝑘 − 𝛹 𝛼 𝑘 +
𝑑
𝛹 𝜉 𝑑,𝑘
𝜃
− 𝛹
𝑘
𝜉 𝑑,𝑘
𝜃
より第二項がそれに該当する
→ 第二項を確率的最適化の考えにしたがって以下のように変更する
（P.119 (3.212)～(3.213)式）
𝑔 𝛼 𝑘 = 𝑀 𝛹
𝑘
𝛼 𝑘 − 𝛹 𝛼 𝑘 + 𝑀 𝛹 𝜉 𝑑,𝑘
𝜃
− 𝛹
𝑘
𝜉 𝑑,𝑘
𝜃
𝜶 = 𝜶 − 𝜈𝑠 𝑯−1 𝜶 𝒈 𝜶

目次
25

周辺化ギブスサンプリングの学習アルゴリズム（復習）
26
◎周辺化ギブスサンプリングの擬似アルゴリズム（P.57より抜粋）
ココの話

Dirichlet分布のパラメータ推定の方針
27
𝜶, 𝜷にさらに事前分布を仮定する？
→ Dirichlet分布のパラメータに対して共役な確率分布を設定できない
ここでは、よく用いられる方法として点推定による方法を紹介する

Dirichlet分布のパラメータ推定のための目的関数
28
以下の周辺尤度を𝜶, 𝜷に対して最大化する
𝑝 𝒘, 𝒛 𝜶, 𝜷 = 𝑝 𝒘, 𝒛, 𝜽, 𝝓 𝜶, 𝜷 𝑑𝜽𝑑𝝓
PP.120～121 (3.214)～(3.215)式を経てP.121 (3.216)式が得られる
𝑝 𝒘, 𝒛 𝑠 𝜶, 𝜷
=
𝑘
log
𝛤 𝑣 𝛽𝑣
𝑣 𝛤 𝛽𝑣
− log
𝛤 𝑣 𝑛 𝑘,𝑣
𝑠
+ 𝛽𝑣
𝑣 𝛤 𝑛 𝑘,𝑣
𝑠
+ 𝛽𝑣
+
𝑑
log
𝛤 𝑘 𝛼 𝑘
𝑘 𝛤 𝛼 𝑘
− log
𝛤 𝑘 𝑛 𝑑,𝑘
𝑠
+ 𝛼 𝑘
𝑘 𝛤 𝑛 𝑑,𝑘
𝑠
+ 𝛼 𝑘
ただし、
𝑛 𝑘,𝑣
𝑠
=
𝑑 𝑖
𝛿 𝑧 𝑑,𝑖
𝑠
= 𝑘, 𝑤 𝑑,𝑖 = 𝑣 , 𝑛 𝑑,𝑘
𝑠
=
𝑖
𝛿 𝑧 𝑑,𝑖
𝑠
= 𝑘
例えば、固定点反復法で周辺尤度を最大化する𝜶, 𝜷を𝜶 𝑠
, 𝜷 𝑠
とする

（近似的な）経験ベイズ法による推定
29
目的関数として𝑝 𝒘 𝜶, 𝜷 の下限（P.122 (3.218)式）
𝑝 𝒘 𝜶, 𝜷
≥
𝑘
log
𝛤 𝑣 𝛽𝑣
𝑣 𝛤 𝛽𝑣
− log
𝛤 𝑣 𝐸 𝑞 𝒛 𝑛 𝑘,𝑣 + 𝛽𝑣
𝑣 𝛤 𝐸 𝑞 𝒛 𝑛 𝑘,𝑣 + 𝛽𝑣
+
𝑑
log
𝛤 𝑘 𝛼 𝑘
𝑘 𝛤 𝛼 𝑘
− log
𝛤 𝑘 𝐸 𝑞 𝒛 𝑛 𝑑,𝑘 + 𝛼 𝑘
𝑘 𝛤 𝐸 𝑞 𝒛 𝑛 𝑑,𝑘 + 𝛼 𝑘
を設定するやり方もある
ただし、
𝐸 𝑞 𝒛 𝑛 𝑑,𝑘 =
𝑖
𝑞 𝑧 𝑑,𝑖 = 𝑘 , 𝐸 𝑞 𝒛 𝑛 𝑘,𝑣 =
𝑑 𝑖
𝑞 𝑧 𝑑,𝑖 = 𝑘 𝛿 𝑤 𝑑,𝑖 = 𝑣
𝑞 𝒛 として
• 周辺化ギブスサンプリングによって得られたサンプル分布
• 周辺化変分ベイズ法で推定された𝑞 𝑧 𝑑,𝑖
を用いればよい

読書会「トピックモデルによる統計的潜在意味解析」第8回 3.6節 Dirichlet分布のパラメータ推定

Recomendados

Recomendados

Mais conteúdo relacionado

Mais procurados

Mais procurados (20)

Semelhante a 読書会「トピックモデルによる統計的潜在意味解析」第8回 3.6節 Dirichlet分布のパラメータ推定

Semelhante a 読書会「トピックモデルによる統計的潜在意味解析」第8回 3.6節 Dirichlet分布のパラメータ推定 (20)