PRML復々習レーン#15 9.3.4-9.4

PRML復々習レーン#15
9.3.4 ベイズ線形回帰に関するEMアルゴリズム
9.4 一般のEMアルゴリズム

2013-11-09
Yoshihiko Suhara
@sleepy_yoshi

本発表の概要 (ゴール)
• ベイズ線形回帰に関するEMアルゴリズム
– やったねEMアルゴリズムで導出した更新式が直
接最大化して得られる更新式と一致したよ (棒

• 一般のEMアルゴリズム
– EMアルゴリズムは観測データの対数尤度の下界
を計算し (Eステップ)，下界を最大化する (Mス
テップ) 処理の繰り返しで最大化を行う
???

／
＼
／
_ノヽ､_.＼
／
（●）（●）＼
|
（__人__）
|
/
∩ノ ⊃ ／
( ＼／＿ノ | |
.＼ “ ／＿＿| |
＼／＿＿＿／

|
＼ __ ／
＿（ｍ）＿
|ミ|
／｀´ ＼
＿＿＿_
／⌒ ⌒＼
／（ ●）（●）＼
／::::::⌒（__人__）⌒::::: ＼
|
|r┬-|
|
/
`ー'´
∩ノ ⊃
( ＼
／＿ノ
.＼ “ ＿＿＿＿ノ／
＼_ ＿＿＿＿／

9.3.4 ベイズ線形回帰に関するEMアルゴリズム
EMアルゴリズムで導出した更新式が直接最大化して得られる更新式と
一致することを確認する

ベイズ線形回帰のエビデンス近似
• 目的: エビデンス関数𝑝 𝒕 𝛼, 𝛽 の𝛼, 𝛽に関する最大化
– cf. 対数尤度の 𝝁 𝑘 , 𝚺 𝑘 , 𝜋 𝑘

•

𝐾
𝑘=1 に関する最大化

𝒘を潜在変数とみなして，EMアルゴリズムの適用を考えると，完全データ
対数尤度は，
ln 𝑝 𝒕, 𝒘 𝛼, 𝛽 = ln 𝑝 𝒕 𝒘, 𝛽 + ln 𝑝 𝒘 𝛼

• ここで式(3.10), (3.52) より
𝔼 ln 𝑝 𝒕, 𝒘 𝛼, 𝛽
𝑀
𝛼
𝛼
𝑁
𝛽
𝛽
𝑇 𝒘 +
= ln
− 𝔼 𝒘
ln
−
2
2𝜋
2
2
2𝜋
2
•

𝑁

𝔼 𝑡𝑛 − 𝒘𝑇 𝜙𝑛
𝑛=1

𝛼と𝛽に関して微分を0とおくと，Mステップの更新式が得られる
– [演習9.20] [演習9.21]

• 式(9.64) を式(3.92)に代入して式(9.63)と一致することを確認

2

演習9.20

𝛼の更新式の導出
•

𝜕
𝜕𝛼

•

𝜕
𝜕𝛼

•

𝑀 1 2𝜋
2 2𝜋 𝛼


• 𝛼=

𝑀
𝛼
ln
2
2𝜋

−

1
2

𝑀
𝔼 𝒘𝑇 𝒘

−

𝛼
2

=0
𝔼 𝒘𝑇 𝒘

𝔼 𝒘𝑇 𝒘 =0

=0

演習9.21

𝛽の更新式の導出
•

𝜕
𝜕𝛽

•

𝜕
𝜕𝛽

•

𝑀 1 2𝜋
2 2𝜋 𝛽


• 𝛽=

𝑁
𝛽
ln
2
2𝜋

−

1
2

−

𝛽
2

𝑁
𝑛=1

𝑀
𝔼 𝑡 𝑛 −𝒘 𝑇 𝜙 𝑛 2

=0
𝑁
𝑛=1



2

2

=0

=0

ぼくのかんがえたさいきょうのあるごりずむ

RVM再訪
• RVMにおいては周辺対数尤度を直接最大化して𝜶と𝛽の更新式を
導いた
• ここではベイズ線形回帰と同様に𝒘を潜在変数とみなしてEMアル
ゴリズムを適用する
• 期待完全データ対数尤度は，「古い」パラメータ値を使って計算し
た𝒘の事後分布について期待値を取る
𝔼 𝒘 [ ln 𝑝(𝒕|𝑿, 𝒘, 𝛽 𝑝 𝒘 𝜶 }]
• ベイズ線形回帰と同様に𝜶, 𝛽について最大化すると，直接最大化
して得られるものと等しい
– 式(9.67) 式(9.68) [演習9.23]

9.4 一般のEMアルゴリズム

準備
• 記号
– 全ての観測変数: 𝑿
– 全ての潜在変数: 𝒁
– パラメータ組: 𝜽

• 𝒁は離散変数とするが，連続変数でも同様の
議論は成り立つ

目標は観測データの尤度最大化
• 以下の尤度関数を最大化したい

𝑃 𝑿 𝜽 =

𝑝 𝑿, 𝒁 𝜽
𝒁

• ここで以下の仮定をおく
– 𝑃 𝑋 𝜃 の最適化は困難であり，完全データ対数
尤度の最適化は容易である

対数尤度の分解
• 天下り的に潜在変数についての分布𝑞(𝒁)を導
入し，以下の分解を行う
ln 𝑝 𝑿 𝜽 = ℒ 𝑞, 𝜽 + KL 𝑞 ∥ 𝑝
• ただし，

ℒ 𝑞, 𝜽 =
𝒁

𝑞 𝒁 ln
𝑞 𝒁

KL 𝑞 ∥ 𝑝 = −
𝒁

𝑝 𝒁 𝑿, 𝜽
𝑞 𝒁 ln
𝑞 𝒁

演習9.24

式(9.70)の導出

この導出ができれば，
EMアルゴリズムをいちから
説明できるようになります

• ℒ 𝑞, 𝜽 + KL 𝑞 ∥ 𝑝

• =
• =
• =
• =

𝒁

𝑞 𝒁 ln

𝒁

𝑞(𝒁) ln

𝒁
𝒁

𝑞(𝒁) ln
𝑞(𝒁) ln

𝑝 𝑿,𝒁 𝜽
𝑞 𝒁
𝑝 𝑿,𝒁 𝜽
𝑞 𝒁

−

𝒁

𝑞 𝒁 ln

− ln

𝑝 𝒁 𝑿,𝜽
𝑞 𝒁

𝑝 𝒁 𝑿,𝜽
𝑞 𝒁

𝑝 𝑿,𝒁 𝜽
𝑞 𝒁|𝑿,𝜽

(*1) 𝑃 𝑿, 𝒁 𝜽 = 𝑃 𝒁 𝑿, 𝜽 𝑃(𝑿|𝜽) より

𝑃 𝒁 𝑿,𝜽 𝑃(𝑿|𝜽)
𝑃(𝒁|𝑿,𝜽)

• = 𝒁 𝑞 𝒁 ln 𝑃 𝑿 𝜽
• = ln 𝑃(𝑿|𝜽) 𝒁 𝑞(𝒁)
• = 𝑃(𝑿|𝜽)

(*2) 𝑞(𝒁)は総和が1になる確率分布より

ポイント
だよ

この分解の解釈 (1/2)
ln 𝑝 𝑿 𝜽 = ℒ 𝑞, 𝜽 + KL 𝑞 ∥ 𝑝
• 対数尤度を以下の2つに分解
– ℒ(𝑞, 𝜽): 対数尤度の下界
– KL 𝑞 ∥ 𝑝 : 𝑞(𝒁)と事後分布𝑝(𝒁|𝑿, 𝜽) のKLd
• 再掲: KL 𝑞 ∥ 𝑝 = −

𝒁

𝑞 𝒁 ln

𝑝 𝒁 𝑿,𝜽
𝑞 𝒁

• KLdは非負 (*1) であるため，ℒ 𝑞, 𝜽 ≤ ln 𝑝(𝑿|𝜽)が常
に成立
– KLdがゼロになるのは𝑞 𝒁 = 𝑝 𝒁 𝑿, 𝜽 のとき
– すなわち， ℒ 𝑞, 𝜽 はln 𝑝(𝑿|𝜽)の下界
(*1) 証明例 http://d.hatena.ne.jp/sleepy_yoshi/20110720/p1

ポイント
だよ

この分解の解釈 (2/2)
• 図解をするとこういうこと
これが常に非負

ln 𝑝(𝑿|𝜽)の下界

最大化したい対数尤度

ポイント
だよ

図解: Eステップ
• ℒ 𝑞, 𝜽old + KL 𝑞 ∥ 𝑝 の𝜽old を固定して𝑞(𝒁)について最大化
 KL 𝑞 ∥ 𝑝 = 0となるような𝑞(𝒁)，すなわち𝑞 𝒁 = 𝑝(𝒁|𝑿, 𝜽old )とする

下界を対数尤度と
同じ値まで持っていく

ポイント
だよ

図解: Mステップ
• 分布 𝑞(𝒁)を固定し，下界ℒ(𝑞, 𝜽)を𝜽について最大化し，𝜽new を得る
– ここで𝑞(𝒁)は固定したままなので，新しい𝑝 𝒁|𝑿, 𝜽new に一致しない
–  KL 𝑞 ∥ 𝑝 > 0 となる

新たに生まれたKLd

𝜽の最大化によって
下界が増加した量

KLdは非負なので
対数尤度の増加量≥
下界の増加量

Eステップ再考: Q関数をつくる
•

𝑞 𝑍 = 𝑝 𝑍 𝑋, 𝜃 old を以下の(9.71)式に代入

ℒ 𝑞, 𝜽 =
𝒁

=

𝑞 𝒁 ln
𝑞 𝒁

𝑝 𝒁 𝑿, 𝜽
𝒁

old

𝑃 𝑿, 𝒁 𝜽
ln
𝑃 𝒁 𝑿, 𝜽old

𝑝 𝒁 𝑿, 𝜽old ln 𝑃 𝑿, 𝒁 𝜽 −

=
𝒁

𝑃 𝒁 𝑿, 𝜽old ln 𝑃 𝒁 𝑿, 𝜽old
𝒁

𝑄関数

𝜽の選び方に非依存

= 𝑄 𝜽 𝜽old + const.
嬉しさのポイント

変数𝜽に依存する関数が対数の中にしか現れない
 𝑝 𝑿, 𝒁 𝜽 が指数型分布族やそれらの積の場合，
対数と指数がキャンセルして最適化が容易になる

パラメータ空間におけるEMアルゴリズムの解釈
• 混合要素が指数型分布族の場合，下界は凹関数
– かつ混合ガウス分布の場合には下界の極大値が閉じた解で求まる
– そうじゃない場合には数値計算を用いて最適化する必要あり

KLdが0になるからね!
𝜃 old において下界
と対数尤度が一致

Mステップを行うと
新たなKLdが生じる

対数尤度

下界

i.i.d.データ集合の場合
• 独立性の仮定から 𝑝 𝑿, 𝒁 = 𝑛 𝑝 𝒙 𝑛 , 𝒛 𝑛 となり，{𝒛 𝑛 }の周辺化
により𝑝 𝑿 = 𝑛 𝑝 𝒙 𝑛 が得られる
• Eステップにおける事後確率は以下のとおり表現できる
𝑁

𝑝 𝒁 𝑿, 𝜽 =

(9.75)

𝑝 𝒛 𝑛 𝒙 𝑛; 𝜽
𝑛=1

• ただし，混合ガウス分布の場合は「負担率が𝒙 𝑛 の値と𝜽の混合要
素パラメータだけに依存し，他のデータ点に依存しない」ことを言っ
ているだけ
– cf. グラフィカルモデルから𝒛 𝑛 の独立性を論じるところ (演習9.5)
𝜋
𝝁

𝑧1

𝑧2

…

𝑧𝑛

…
𝒙1

𝒙2

𝒙𝑛

𝚺

(9.75)式の導出
𝑝 𝒁 𝑿, 𝜽 =
=
𝑝 𝑿 𝜽
=

𝑁
𝑛=1 𝑝
𝑁
𝑛=1
𝒁

𝑁
𝑛=1

𝒙 𝑛, 𝒛 𝑛 𝜽
𝑝 𝒙 𝑛, 𝒛 𝑛 𝜽

𝑁
𝑛=1
𝑁
𝑛=1 𝑝
𝑁
𝑛=1

=

=

𝑝 𝒙 𝑛, 𝒛 𝑛 𝜽
𝒛 𝑛 𝑝 𝒙 𝑛, 𝒛 𝑛 𝜽
𝒙 𝑛, 𝒛 𝑛 𝜽
𝑝 𝒙𝑛 𝜽

𝑁

=

𝑝 𝒛 𝑛 𝒙 𝑛, 𝜽
𝑛=1

𝒁 𝑝 𝑿, 𝒁 𝜽

※ 和と積の交換

ちょいまとめ
• 「EMアルゴリズムのEステップとMステップはともに
対数尤度関数の正しく定義された下界の値を増加
させることと，EMアルゴリズムの1サイクルは，対数
尤度が増加する方向にモデルのパラメータを変化さ
せることとを見てきた」 (p.169)

事後分布𝑝(𝜽|𝑿)の最大化
• EMアルゴリズムは，事前分布𝑝(𝜽)を利用した事後分布𝑝(𝜽|𝑿)の
最大化にも利用可能
– 復習: MAP推定 ≒ 正則化項つき尤度最大化

•

𝑝 𝜽 𝑿 =

𝑝 𝜽,𝑿
𝑝 𝑿

より，以下を導出できる

ln 𝑝(𝜽|𝑿) = ln 𝑝(𝜽, 𝑿) − ln 𝑝(𝑿)
= ln 𝑝 𝑿 𝜽 + ln 𝑝(𝜽) − ln 𝑝(𝑿)

ln 𝑝 𝑿 𝜽 = ℒ 𝑞, 𝜽 + KL 𝑞 ∥ 𝑝 より

= ℒ 𝑞, 𝜽 + KL 𝑞 ∥ 𝑝 + ln 𝑝(𝜽) − ln 𝑝(𝑿)

KL 𝑞 ∥ 𝑝 ≥ 0 より

≥ ℒ 𝑞, 𝜽 + ln 𝑝(𝜽) − ln 𝑝(𝑿)

定数

ln 𝑝(𝜽)は𝑞(𝒁)に依存しないため，Mステップのみ変更が生じるが，
観測データが多ければ影響はわずか

EMアルゴリズムの発展手法
• Eステップ and/or Mステップがの計算が困難な場合には，
たとえば下記の方法が利用可能
– (1) 一般化EMアルゴリズム (GEM)
• Mステップにおいてℒ 𝑞, 𝜽 の最大化を諦め，少しでも増加するように
変化させる
– たとえば共役勾配法のような非線形最適化手法を利用

– (2) ECM法 (Expectation Conditional Maximization)
• パラメータをグループに分割し，あるイテレーションにおけるMステップ
では一部のパラメータ組以外の値を固定した制限付き最適化を行う

– (3) [Neal and Hinton 1999]
• Eステップにおいてℒ 𝑞, 𝜽 の𝑞(𝒁)に関する最適化を部分的に行う

オンラインEMアルゴリズム
• オンラインEMアルゴリズム
– 各イテレーションにおいて，1データ点のみ用いる逐次型のEMア
ルゴリズム
– Eステップ
• 1データのみを用いて負担率を再計算

– Mステップ
• 混合ガウスの場合，新旧の負担率があれば十分統計量の更新が可能
• 平均パラメータの例
–

𝝁new
𝑘

=

𝝁old
𝑘

+

𝛾 new 𝑧 𝑚𝑘 −𝛾old 𝑧 𝑚𝑘
𝑁new
𝑘

– 𝑁 new = 𝑁 old + 𝛾 new 𝑧
𝑘
𝑘

𝑚𝑘

− 𝛾 old 𝑧

(𝒙 𝑚 − 𝝁old )
𝑘
𝑚𝑘

• 残りの更新式は @shuyo さんのブログ記事をご覧ください
参考: オンラインEMアルゴリズムで混合ガウス分布推論 – Mi manca qualche giovedi?
http://d.hatena.ne.jp/n_shuyo/20100426/online_em

[再掲] まとめ
• ベイズ線形回帰に関するEMアルゴリズム
– やったねEMアルゴリズムで導出した更新式が直
接最大化して得られる更新式と一致したよ (棒

• 一般のEMアルゴリズム
– EMアルゴリズムは観測データの対数尤度の下界
を計算し (Eステップ)，下界を最大化する (Mス
テップ) 処理の繰り返しで最大化を行う

おまけ
• 混合ガウス分布だからEMじゃなきゃダメということはない
– パラメータ探索手法はなんでもよい．
– たとえば，「全ての組み合わせを調べる」ことも可能

• データ数𝑁，混合数𝐾とすると，𝐾 𝑁 通りの対数尤度を調べる必要あり

全探索でも見つけられそうな
対数尤度最大化の例

𝑥2

10個のデータ点，混合数2だったら
210 = 1024通り
これくらいならできそう?

𝑥1
最適化手法の中でEMがうれしい理由は
対数尤度の単調増加が保証されていること

PRML復々習レーン#15 9.3.4-9.4

Recomendados

Recomendados

Mais conteúdo relacionado

Mais de sleepy_yoshi

Mais de sleepy_yoshi (20)

Último

Último (11)

PRML復々習レーン#15 9.3.4-9.4