SlideShare uma empresa Scribd logo
1 de 20
Baixar para ler offline
PRML 第3章 3.3~3.4
線形回帰モデル
- 2 -
第3章 線形回帰モデル
◼ 3.3 ベイズ線形回帰
⚫ 3.3.1 パラメータの分布
⚫ 3.3.2 予測分布
⚫ 3.3.3 等価カーネル
◼ 3.4 ベイズモデル比較
◼ 3.5 エビデンス近似
⚫ 3.5.1 エビデンス関数の評価
⚫ 3.5.2 エビデンス関数の最大化
⚫ 3.5.3 有効パラメータ数
◼ 3.6 固定された基底関数の限界
ここまで
- 3 -
3.3 ベイズ線形回帰
◼ 今までの内容で分かったこと(最尤推定の場合)
⚫ 基底関数の数によって決まるモデルの複雑さをデータサイズに応じて
決定する必要性
⚫ 正則化項(Lasso, Ridge etc)を追加することによって、モデルの複雑さ
を調整可能(基底関数の数と形を選ぶことは正則化を付けても重要)
⇒ 解こうとしている問題に合わせてモデルの複雑さを決める必要
⇒ 尤度最大化では、常に複雑なモデルを選択する危険性(過学習)
◼ 過学習への対処
⚫ クロスバリデーション
学習、評価、テストの3つに分割するのが一般的。以下手順。
①[学習, 評価]の組み合わせをkに分割し、
k-1個のデータで学習、1個で評価。入れ替えながらハイパラ探索。
②ベスパラで[学習, 評価]データ全てを学習し、1つのモデルを作成。
③テストデータで性能評価。
⇒ これを複数モデルで実施して、テストデータでの評価結果を比較
(計算量が多い)。手元にある一部のデータを学習に使えない。
- 4 -
3.3 ベイズ線形回帰
◼ 3.3~3.6節のモチベーション
⚫ 教師データ全てを使って、線形回帰モデルをベイズ的に扱うと
ともに、モデルの複雑さを自動的に決定したい。
⚫ P164によると、テスト用の独立なデータは取っておいた方が賢
明とのこと。
- 5 -
3.3.1 パラメータの分布
◼ モデルパラメータwの推定
⚫ モデルパラメータwの事前分布を導入し、線形回帰モデルを
ベイズ的に扱う。
事前分布(3.48):p w = 𝑁 𝑤 𝑚0, 𝑆0
尤度関数(3.10):p(t|X, w, β) = Π 𝑛=0
𝑁
𝑁(𝑡 𝑛|𝑤 𝑇φ 𝑥 𝑛 , β−1)
事後分布(3.49):p w t ∝ p t X, w, β 𝑝 w = 𝑁(𝑤|𝑚 𝑁, 𝑆 𝑁) ※演習3.7
ただし、
平均(3.50):𝑚 𝑁 = 𝑆 𝑁 𝑆 𝑁
−1
𝑚0 + βΦ 𝑇 𝑡
分散共分散(3.51):S 𝑁
−1
= 𝑆0
−1
+ βΦ 𝑇
Φ
計画行列(3.16) :Φ =
φ0 𝑥1 ⋯ φ 𝑀−1(𝑥1)
⋮ ⋱ ⋮
φ0(𝑥 𝑁) ⋯ φ 𝑀−1(𝑥 𝑁)
基底関数:φ 𝑛 = φ 𝑥 𝑛 = (φ0 𝑥 𝑛 , φ1 𝑥 𝑛 , ‥φ 𝑀−1 𝑥 𝑛 ) 𝑇
※(m,m)((m,m)(m,1)+(m,n)(n,1))=(m,1)
※(m,m)+(m,n)(n,m)=(m,m)
※(n,m)
※(m,1)
- 6 -
演習3.7
- 7 -
演習3.7
- 8 -
◼ モデルパラメータwの推定(続き)
平均(3.50):𝑚 𝑁 = 𝑆 𝑁 𝑆 𝑁
−1
𝑚0 + βΦ 𝑇
𝑡
分散共分散(3.51):S 𝑁
−1
= 𝑆0
−1
+ βΦ 𝑇
Φ
⚫ 事前分布を単一の精度パラメータαとし、期待値=0のガウスを考
える(αとβは既知)。
事前分布(3.52):p(w|α) = 𝑁 𝑤 0, α−1 𝐼
事後分布(3.49):p w t ∝ p(t|X, w, β)P w|α = 𝑁(𝑤|𝑚 𝑁, 𝑆 𝑁)
ただし、
平均(3.53):𝑚 𝑁 = β𝑆 𝑁Φ 𝑇
𝑡
分散共分散(3.54):S 𝑁
−1
= α𝐼 + βΦ 𝑇Φ
⚫ 事後分布の対数を取ったものをwに関して最大化すればwの推定
が可能
事後分布(3.55):ln p w t = −
β
2
σ 𝑛=1
𝑁
{𝑡 𝑛 − 𝑤 𝑇
φ(𝑥 𝑛)}2
−
α
2
𝑤 𝑇
𝑤 + 定数
3.3.1 パラメータの分布
二乗和誤差 正則化項
- 9 -
◼ ベイズ学習と逐次的な更新
事後分布が次の事前分布に=逐次更新
3.3.1 パラメータの分布
- 10 -
3.3.1 パラメータの分布
①一様分布から
データを観測
このデータを得られる可能性のあるw
赤い(確率が高い)部分は
・w0=-1, w1=1 ・w0=0, w1=0 ・・・
③事後分布を元にデータを生成
確率が高いのは、
・𝑦 𝑥, 𝑤 = −1 + 𝑥 ・𝑦 𝑥, 𝑤 = 1 − 𝑥 ・・・
②事前分布×尤度関数を計算
◼ ベイズ学習と逐次的な更新
𝑦 𝑥, 𝑤 = 𝑤0 + 𝑤1 𝑥 , α=2(
α
2
𝑤 𝑇
𝑤), β=25((
1
0.2
)2
= 25, 標準偏差=0.2)
yは上式にガウスノイズを加えたもの。Xは一様分布から生成。
- 11 -
◼ 新たなデータ 𝑥 に対応する 𝒕 の予測
⚫ 3.3.1では𝑤の分布を求めたが、実際は 𝑡 の予測を行いたい。
予測分布(3.57):p(t|𝑿, 𝑻, 𝑥, α, β) = ‫׬‬ 𝑝 𝑡 𝑥, 𝑤, β 𝑝 𝑤 𝑿, 𝑻, α, β 𝑑𝑤
⇒ 予測分布(3.58):p t 𝑿, 𝑻, 𝑥, α, β = 𝑁 𝑡 𝑚 𝑁
𝑇
φ 𝑥 , σ 𝑁
2
𝑥
ただし、
分散(3.59):σ 𝑁
2
𝑥 =
1
β
+ φ(𝑥)−1 𝑆 𝑁φ(x)
平均(3.53):𝑚 𝑁 = β𝑆 𝑁Φ 𝑇
𝑡
分散共分散(3.54):S 𝑁
−1
= α𝐼 + βΦ 𝑇
Φ
✓ (3.59)式の第1項はデータに含まれるノイズ、第2項は𝑤の不確かさ(分散
が大きい=データが散らばっており、 𝑤の推定値が不確か)を表す。
✓ 新しいデータを観測すると事後分布は必ず狭くなる。
✓ N→∞で分散(第2項) が0に収束するため予測分布の分散はβのみに依存。
3.3.2 予測分布
求めたwの確率と
新しいxでtの確率を算出
教師データ(X,T)及び既知の
α,βでwの確率を算出
- 12 -
◼ 予測分布の例
3.3.2 予測分布
データ点が増えると予測の不確
かさ(分散の第2項)が減少する
ばらつきはβ−1
に大きく依存
- 13 -
◼ カーネル法の導入
⚫ 式の導出
(3.3)式に(3.53)式を代入
予測分布の平均(3.60):𝑦 𝑥, 𝑚 𝑛 = 𝑚 𝑁
𝑇
φ 𝑥 = βφ(𝑥) 𝑇
𝑆 𝑁Φ 𝑇
𝑡
= σ 𝑛=1
𝑁
βφ 𝑥 𝑇
𝑆 𝑁φ(𝑥 𝑛)𝑡 𝑛
ここで、
等価カーネル※(3.62) :𝑘 𝑥, 𝑥′
= βφ 𝑥 𝑇
𝑆 𝑁φ(𝑥′)
とおくと、以下の形になる。
予測分布の平均(3.60):𝑦 𝑥, 𝑚 𝑛 = σ 𝑛=1
𝑁
𝑘 𝑥, 𝑥 𝑛 𝑡 𝑛
ただし、
予測分布(3.3):y(x, w) = σ 𝑗=1
𝑀−1
𝑤𝑗φ 𝑗 𝑥 = 𝑤 𝑇
φ(𝑥)
平均(3.53) :𝑚 𝑁 = β𝑆 𝑁Φ 𝑇
𝑡
分散共分散(3.54):S 𝑁
−1
= α𝐼 + βΦ 𝑇
Φ
3.3.3 等価カーネル
※(1,m)(m,m)(m,1)=(1,1)
※平滑化行列とも呼ぶ
予測したいデータのx 訓練データ
計算結果が(1,1)になれば良い。
𝑆 𝑁Φ 𝑇
𝑡 = (𝑚, 1)なので、
φ(𝑥) 𝑇
= (1, 𝑚)を前に置けば
(1,1)になる。
- 14 -
◼ 等価カーネルの解釈
予測分布の平均(3.60):𝑦 𝑥, 𝑚 𝑛 = σ 𝑛=1
𝑁
𝑘 𝑥, 𝑥 𝑛 𝑡 𝑛
✓ 𝑘 𝑥, 𝑥 𝑛 が 𝑡 𝑛の重みになっている。
✓ パラメータ𝑤を用いずに、訓練データ集合のみから予測値を算出。
⇒ ガウス過程(6.4節)
✓ 予測したい 𝑥 に近い訓練データの 𝑥’ に大きく重みを付けている。
✓ 新しいデータの予測値を算出する度に、全ての訓練データとの内積
を計算するため、訓練データが多いと計算量が膨大に。
3.3.3 等価カーネル
← 訓練データ →
↑
予
測
し
た
い
デ
|
タ
↓
- 15 -
◼ 本節のモチベーション
⚫ モデル選択をベイズ的に行いたい。
⇒ モデルの不確かさを表すために確率を用いる。
教師データは何らかのモデルから生成されているとする。
ただし、どのモデルから生成されたかは分からない。
⇒ 最も教師データを生成したと考えられるモデル
(多項式?ガウス?)を推定する。
◼ ベイズモデル比較
事前分布:𝑝 𝑀𝑖
尤度関数(3.68):𝑝 𝐷 𝑀𝑖 = ‫׬‬ 𝑝 𝐷 𝑤, 𝑀𝑖 𝑝 𝑤 𝑀𝑖 𝑑𝑤
事後分布(3.66): p 𝑀𝑖|𝐷 ∝ 𝑝 𝑀𝑖 𝑝 𝐷 𝑀𝑖
✓ 事前分布は各々のモデルに対する好みを表す(好きなモデルに高い
確率を・・・)。ここでは事前確率は等しいと考える。
✓ 尤度関数をモデルエビデンスと呼び、データから見たモデルの好み
を表す。
3.4 ベイズモデル比較
- 16 -
◼ 予測分布
予測分布(3.67):𝑝 𝑡 𝑥, 𝐷 = σ𝑖=1
𝐿
𝑝 𝑡 𝑥, 𝑀𝑖, 𝐷 𝑝(𝑀𝑖|𝐷)
✓ 混合分布の一種(全てのモデルの総和を取るので、各モデルの予測
値を元に一つの t を算出する)。
◼ モデルエビデンス( 𝑝 𝐷 𝑀𝑖 )
✓ あるモデル𝑀𝑖 から教師データD が生成される確率。
✓ ベイズの定理でパラメータwの事後確率を計算するときの分母に
モデルエビデンスが出現する。
⇒ モデルエビデンスはwを周辺化した尤度関数(周辺尤度)
wの事後分布(3.69): 𝑃 𝑤 𝐷, 𝑀𝑖 =
𝑝(𝐷|𝑤,𝑀 𝑖)𝑝(𝑤|𝑀 𝑖)
𝑝(𝐷|𝑀 𝑖)
✓ ある二つのモデルエビデンスの比はベイズ因子と呼ばれる。
ベイズ因子:
𝑝(𝐷|𝑀𝑖)
𝑝(𝐷|𝑀 𝑗)
3.4 ベイズモデル比較
- 17 -
◼ モデルエビデンスの別の解釈
⚫ 式変形。パラメータwに関する積分を単純近似する。(𝑀𝑖は省略)
✓ 事後分布(𝑝 𝐷 𝑤 )が最頻値𝑤 𝑀𝐴𝑃の近傍で
鋭く尖っている
⇒ 幅をΔ𝑤 𝑝𝑜𝑠𝑡𝑒𝑟𝑖𝑜𝑟とする
✓ 積分で得られる確率を縦×横の面積で近似
⇒ 𝑝 𝐷 𝑤 𝑀𝐴𝑃 × Δ𝑤 𝑝𝑜𝑠𝑡𝑒𝑟𝑖𝑜𝑟
✓ 事前分布が平坦
⇒ 幅をΔ𝑤 𝑝𝑟𝑖𝑜𝑟とする。あるwが
選ばれる確率は等しいので事前確率
𝑝 𝑤 は
1
Δ𝑤 𝑝𝑟𝑖𝑜𝑟
となる。
⇒ (3.70):𝑝 𝐷 = ‫׬‬ 𝑝 𝐷 𝑤 𝑝 𝑤 𝑑𝑤 ≃ 𝑝(𝐷|𝑤 𝑀𝐴𝑃)
Δ𝑤 𝑝𝑜𝑠𝑡𝑒𝑟𝑖𝑜𝑟
Δ𝑤 𝑝𝑟𝑖𝑜𝑟
⇒ 対数を取ると、
(3.71): ln 𝑝 𝐷 ≃ ln 𝑝 𝐷 𝑤 𝑀𝐴𝑃 + ln(
Δ𝑤 𝑝𝑜𝑠𝑡𝑒𝑟𝑖𝑜𝑟
Δ𝑤 𝑝𝑟𝑖𝑜𝑟
)
3.4 ベイズモデル比較
- 18 -
◼ モデルエビデンスの別の解釈(続き)
(3.71): ln 𝑝 𝐷 ≃ ln 𝑝 𝐷 𝑤 𝑀𝐴𝑃 + ln(
Δ𝑤 𝑝𝑜𝑠𝑡𝑒𝑟𝑖𝑜𝑟
Δ𝑤 𝑝𝑟𝑖𝑜𝑟
)
⇒ Δ𝑤 𝑝𝑜𝑠𝑡𝑒𝑟𝑖𝑜𝑟 < Δ𝑤 𝑝𝑟𝑖𝑜𝑟 なので、ペナルティ項は常に負。
Δ𝑤 𝑝𝑟𝑖𝑜𝑟 に対して Δ𝑤 𝑝𝑜𝑠𝑡𝑒𝑟𝑖𝑜𝑟 が小さい(幅が狭く)なると
ペナルティが強くなる(負の値が大きくなる)。
⇒ 幅がせまい=過学習(モデルが複雑)の可能性がある。
⚫ モデルがM個のパラメータを含む場合
(3.72): ln 𝑝 𝐷 ≃ ln 𝑝 𝐷 𝑤 𝑀𝐴𝑃 + 𝑀 ln(
Δ𝑤 𝑝𝑜𝑠𝑡𝑒𝑟𝑖𝑜𝑟
Δ𝑤 𝑝𝑟𝑖𝑜𝑟
)
⇒ パラメータが多いとペナルティ大。
⇒ バランスの良いモデルが選択される。
3.4 ベイズモデル比較
データへのフィッティング度 ペナルティ項
AIC:あるモデルを選択した時に、説明変数の数にペナルティ
BIC:あるモデルを選択した時に、訓練データ数にペナルティ
モデルエビデンス:いくつかのモデルがあった時に、そのモデルの複雑さにペナルティ
- 19 -
◼ モデルエビデンスの別の解釈(続き)
横軸:特定のデータ集合D
縦軸:Dが生成される確率𝑝(𝐷)
モデル:複雑さが単調増加するモデル𝑀1, 𝑀2, 𝑀3
3.4 ベイズモデル比較
この範囲のデータDはモデル
𝑀1から生成された確率が高い
⇒データの複雑度は低い
この範囲のデータDはモデル
𝑀2から生成された確率が高い
⇒データの複雑度は中程度
⇒データの複雑度に応じて、バランス
の良いモデルが選択される
- 20 -
◼ 正しいモデルを選択
⚫ ベイズモデル比較では、考えているモデル集合の中にデータが生成される
真の分布が含まれていることを暗に仮定。
⇒ この仮定が正しければ、ベイズモデル比較によって平均的に
正しいモデルが選択される。(正しいモデルが選択される確率高)
⚫ 2つのモデル(𝑀1, 𝑀2)のうち、𝑀1が正しいモデルだと仮定する。
⚫ ベイズ因子の期待値を計算。
期待ベイズ因子 (3.73):‫׬‬ 𝑝 𝐷 𝑀1 ln
𝑝(𝐷|𝑀1)
𝑝(𝐷|𝑀2)
𝑑𝐷
(𝑀1が選択された時のデータDが生成される確率× 𝑀1に関するベイズ因子
における全データの積分値)
⇒ この式はKLダイバージェンスと同じ
KLダイバージェンス:𝐾𝐿(𝑝| 𝑞 ≔ ‫׬‬ 𝑝 𝑥 ln
𝑝(𝑥)
𝑞(𝑥)
𝑑𝑥
✓ KLダイバージェンスは常に正。
つまり、常に𝑝(𝐷|𝑀1)> 𝑝(𝐷|𝑀2)であることが期待できる。
3.4 ベイズモデル比較
※KLダイバージェンス:Kullback–Leibler divergence

Mais conteúdo relacionado

Mais procurados

PRML復々習レーン#2 2.3.6 - 2.3.7
PRML復々習レーン#2 2.3.6 - 2.3.7PRML復々習レーン#2 2.3.6 - 2.3.7
PRML復々習レーン#2 2.3.6 - 2.3.7sleepy_yoshi
 
[PRML] パターン認識と機械学習(第3章:線形回帰モデル)
[PRML] パターン認識と機械学習(第3章:線形回帰モデル)[PRML] パターン認識と機械学習(第3章:線形回帰モデル)
[PRML] パターン認識と機械学習(第3章:線形回帰モデル)Ryosuke Sasaki
 
PRML 3.5.2, 3.5.3, 3.6
PRML 3.5.2, 3.5.3, 3.6PRML 3.5.2, 3.5.3, 3.6
PRML 3.5.2, 3.5.3, 3.6Kohei Tomita
 
PRML輪読#2
PRML輪読#2PRML輪読#2
PRML輪読#2matsuolab
 
[PRML] パターン認識と機械学習(第2章:確率分布)
[PRML] パターン認識と機械学習(第2章:確率分布)[PRML] パターン認識と機械学習(第2章:確率分布)
[PRML] パターン認識と機械学習(第2章:確率分布)Ryosuke Sasaki
 
2013.12.26 prml勉強会 線形回帰モデル3.2~3.4
2013.12.26 prml勉強会 線形回帰モデル3.2~3.42013.12.26 prml勉強会 線形回帰モデル3.2~3.4
2013.12.26 prml勉強会 線形回帰モデル3.2~3.4Takeshi Sakaki
 
Prml 2_3_5
Prml 2_3_5Prml 2_3_5
Prml 2_3_5brownbro
 
PRML 1.5-1.5.5 決定理論
PRML 1.5-1.5.5 決定理論PRML 1.5-1.5.5 決定理論
PRML 1.5-1.5.5 決定理論Akihiro Nitta
 
[PRML勉強会資料] パターン認識と機械学習 第3章 線形回帰モデル (章頭-3.1.5)(p.135-145)
[PRML勉強会資料] パターン認識と機械学習 第3章 線形回帰モデル (章頭-3.1.5)(p.135-145)[PRML勉強会資料] パターン認識と機械学習 第3章 線形回帰モデル (章頭-3.1.5)(p.135-145)
[PRML勉強会資料] パターン認識と機械学習 第3章 線形回帰モデル (章頭-3.1.5)(p.135-145)Itaru Otomaru
 
PRML 3.3.3-3.4 ベイズ線形回帰とモデル選択 / Baysian Linear Regression and Model Comparison)
PRML 3.3.3-3.4 ベイズ線形回帰とモデル選択 / Baysian Linear Regression and Model Comparison)PRML 3.3.3-3.4 ベイズ線形回帰とモデル選択 / Baysian Linear Regression and Model Comparison)
PRML 3.3.3-3.4 ベイズ線形回帰とモデル選択 / Baysian Linear Regression and Model Comparison)Akihiro Nitta
 
PRML輪読#5
PRML輪読#5PRML輪読#5
PRML輪読#5matsuolab
 
PRML 2.3節 - ガウス分布
PRML 2.3節 - ガウス分布PRML 2.3節 - ガウス分布
PRML 2.3節 - ガウス分布Yuki Soma
 

Mais procurados (20)

PRML復々習レーン#2 2.3.6 - 2.3.7
PRML復々習レーン#2 2.3.6 - 2.3.7PRML復々習レーン#2 2.3.6 - 2.3.7
PRML復々習レーン#2 2.3.6 - 2.3.7
 
[PRML] パターン認識と機械学習(第3章:線形回帰モデル)
[PRML] パターン認識と機械学習(第3章:線形回帰モデル)[PRML] パターン認識と機械学習(第3章:線形回帰モデル)
[PRML] パターン認識と機械学習(第3章:線形回帰モデル)
 
PRML 3.5.2, 3.5.3, 3.6
PRML 3.5.2, 3.5.3, 3.6PRML 3.5.2, 3.5.3, 3.6
PRML 3.5.2, 3.5.3, 3.6
 
PRML輪読#2
PRML輪読#2PRML輪読#2
PRML輪読#2
 
prml4.1.3-4.1.4
prml4.1.3-4.1.4prml4.1.3-4.1.4
prml4.1.3-4.1.4
 
PRML第3章@京大PRML輪講
PRML第3章@京大PRML輪講PRML第3章@京大PRML輪講
PRML第3章@京大PRML輪講
 
[PRML] パターン認識と機械学習(第2章:確率分布)
[PRML] パターン認識と機械学習(第2章:確率分布)[PRML] パターン認識と機械学習(第2章:確率分布)
[PRML] パターン認識と機械学習(第2章:確率分布)
 
2013.12.26 prml勉強会 線形回帰モデル3.2~3.4
2013.12.26 prml勉強会 線形回帰モデル3.2~3.42013.12.26 prml勉強会 線形回帰モデル3.2~3.4
2013.12.26 prml勉強会 線形回帰モデル3.2~3.4
 
Prml 2_3_5
Prml 2_3_5Prml 2_3_5
Prml 2_3_5
 
PRML 1.5-1.5.5 決定理論
PRML 1.5-1.5.5 決定理論PRML 1.5-1.5.5 決定理論
PRML 1.5-1.5.5 決定理論
 
PRML_2.3.1~2.3.3
PRML_2.3.1~2.3.3PRML_2.3.1~2.3.3
PRML_2.3.1~2.3.3
 
Prml 1.3~1.6 ver3
Prml 1.3~1.6 ver3Prml 1.3~1.6 ver3
Prml 1.3~1.6 ver3
 
[PRML勉強会資料] パターン認識と機械学習 第3章 線形回帰モデル (章頭-3.1.5)(p.135-145)
[PRML勉強会資料] パターン認識と機械学習 第3章 線形回帰モデル (章頭-3.1.5)(p.135-145)[PRML勉強会資料] パターン認識と機械学習 第3章 線形回帰モデル (章頭-3.1.5)(p.135-145)
[PRML勉強会資料] パターン認識と機械学習 第3章 線形回帰モデル (章頭-3.1.5)(p.135-145)
 
PRML 3.3.3-3.4 ベイズ線形回帰とモデル選択 / Baysian Linear Regression and Model Comparison)
PRML 3.3.3-3.4 ベイズ線形回帰とモデル選択 / Baysian Linear Regression and Model Comparison)PRML 3.3.3-3.4 ベイズ線形回帰とモデル選択 / Baysian Linear Regression and Model Comparison)
PRML 3.3.3-3.4 ベイズ線形回帰とモデル選択 / Baysian Linear Regression and Model Comparison)
 
PRML Chapter 5
PRML Chapter 5PRML Chapter 5
PRML Chapter 5
 
PRML輪読#5
PRML輪読#5PRML輪読#5
PRML輪読#5
 
Prml2.1 2.2,2.4-2.5
Prml2.1 2.2,2.4-2.5Prml2.1 2.2,2.4-2.5
Prml2.1 2.2,2.4-2.5
 
PRML 2.3節 - ガウス分布
PRML 2.3節 - ガウス分布PRML 2.3節 - ガウス分布
PRML 2.3節 - ガウス分布
 
PRMLrevenge_3.3
PRMLrevenge_3.3PRMLrevenge_3.3
PRMLrevenge_3.3
 
PRML 第14章
PRML 第14章PRML 第14章
PRML 第14章
 

Semelhante a PRML第3章_3.3-3.4

正則化による尤度比推定法を応用した多値分類器の改良
正則化による尤度比推定法を応用した多値分類器の改良正則化による尤度比推定法を応用した多値分類器の改良
正則化による尤度比推定法を応用した多値分類器の改良MasatoKikuchi4
 
不均衡データのクラス分類
不均衡データのクラス分類不均衡データのクラス分類
不均衡データのクラス分類Shintaro Fukushima
 
続・わかりやすいパターン認識 9章
続・わかりやすいパターン認識 9章続・わかりやすいパターン認識 9章
続・わかりやすいパターン認識 9章hakusai
 
Big Data Bootstrap (ICML読み会)
Big Data Bootstrap (ICML読み会)Big Data Bootstrap (ICML読み会)
Big Data Bootstrap (ICML読み会)正志 坪坂
 
混合モデルとEMアルゴリズム(PRML第9章)
混合モデルとEMアルゴリズム(PRML第9章)混合モデルとEMアルゴリズム(PRML第9章)
混合モデルとEMアルゴリズム(PRML第9章)Takao Yamanaka
 
PRML読み会第一章
PRML読み会第一章PRML読み会第一章
PRML読み会第一章Takushi Miki
 
[The Elements of Statistical Learning]Chapter8: Model Inferennce and Averaging
[The Elements of Statistical Learning]Chapter8: Model Inferennce and Averaging[The Elements of Statistical Learning]Chapter8: Model Inferennce and Averaging
[The Elements of Statistical Learning]Chapter8: Model Inferennce and AveragingYu Otsuka
 
ベイズ統計入門
ベイズ統計入門ベイズ統計入門
ベイズ統計入門Miyoshi Yuya
 
[PRML] パターン認識と機械学習(第1章:序論)
[PRML] パターン認識と機械学習(第1章:序論)[PRML] パターン認識と機械学習(第1章:序論)
[PRML] パターン認識と機械学習(第1章:序論)Ryosuke Sasaki
 
20190512 bayes hands-on
20190512 bayes hands-on20190512 bayes hands-on
20190512 bayes hands-onYoichi Tokita
 
【Zansa】第12回勉強会 -PRMLからベイズの世界へ
【Zansa】第12回勉強会 -PRMLからベイズの世界へ【Zansa】第12回勉強会 -PRMLからベイズの世界へ
【Zansa】第12回勉強会 -PRMLからベイズの世界へZansa
 
データ解析のための統計モデリング入門3章後半
データ解析のための統計モデリング入門3章後半データ解析のための統計モデリング入門3章後半
データ解析のための統計モデリング入門3章後半Shinya Akiba
 
PRML復々習レーン#9 6.3-6.3.1
PRML復々習レーン#9 6.3-6.3.1PRML復々習レーン#9 6.3-6.3.1
PRML復々習レーン#9 6.3-6.3.1sleepy_yoshi
 
20200808_PyMCを使えばちょっと複雑な確率モデルも怖くない
20200808_PyMCを使えばちょっと複雑な確率モデルも怖くない20200808_PyMCを使えばちょっと複雑な確率モデルも怖くない
20200808_PyMCを使えばちょっと複雑な確率モデルも怖くないYoichi Tokita
 
あなたの心にBridgeSampling
あなたの心にBridgeSamplingあなたの心にBridgeSampling
あなたの心にBridgeSamplingdaiki hojo
 
[論文解説]A Bayesian Perspective on Generalization and Stochastic Gradient Descent
[論文解説]A Bayesian Perspective on Generalization and Stochastic Gradient Descent[論文解説]A Bayesian Perspective on Generalization and Stochastic Gradient Descent
[論文解説]A Bayesian Perspective on Generalization and Stochastic Gradient DescentRyutaro Yamauchi
 
単純ベイズ法による異常検知 #ml-professional
単純ベイズ法による異常検知  #ml-professional単純ベイズ法による異常検知  #ml-professional
単純ベイズ法による異常検知 #ml-professionalAi Makabi
 

Semelhante a PRML第3章_3.3-3.4 (20)

正則化による尤度比推定法を応用した多値分類器の改良
正則化による尤度比推定法を応用した多値分類器の改良正則化による尤度比推定法を応用した多値分類器の改良
正則化による尤度比推定法を応用した多値分類器の改良
 
不均衡データのクラス分類
不均衡データのクラス分類不均衡データのクラス分類
不均衡データのクラス分類
 
続・わかりやすいパターン認識 9章
続・わかりやすいパターン認識 9章続・わかりやすいパターン認識 9章
続・わかりやすいパターン認識 9章
 
Big Data Bootstrap (ICML読み会)
Big Data Bootstrap (ICML読み会)Big Data Bootstrap (ICML読み会)
Big Data Bootstrap (ICML読み会)
 
混合モデルとEMアルゴリズム(PRML第9章)
混合モデルとEMアルゴリズム(PRML第9章)混合モデルとEMアルゴリズム(PRML第9章)
混合モデルとEMアルゴリズム(PRML第9章)
 
PRML読み会第一章
PRML読み会第一章PRML読み会第一章
PRML読み会第一章
 
[The Elements of Statistical Learning]Chapter8: Model Inferennce and Averaging
[The Elements of Statistical Learning]Chapter8: Model Inferennce and Averaging[The Elements of Statistical Learning]Chapter8: Model Inferennce and Averaging
[The Elements of Statistical Learning]Chapter8: Model Inferennce and Averaging
 
PRML Chapter 14
PRML Chapter 14PRML Chapter 14
PRML Chapter 14
 
ma92007id395
ma92007id395ma92007id395
ma92007id395
 
ベイズ統計入門
ベイズ統計入門ベイズ統計入門
ベイズ統計入門
 
[PRML] パターン認識と機械学習(第1章:序論)
[PRML] パターン認識と機械学習(第1章:序論)[PRML] パターン認識と機械学習(第1章:序論)
[PRML] パターン認識と機械学習(第1章:序論)
 
20190512 bayes hands-on
20190512 bayes hands-on20190512 bayes hands-on
20190512 bayes hands-on
 
【Zansa】第12回勉強会 -PRMLからベイズの世界へ
【Zansa】第12回勉強会 -PRMLからベイズの世界へ【Zansa】第12回勉強会 -PRMLからベイズの世界へ
【Zansa】第12回勉強会 -PRMLからベイズの世界へ
 
データ解析のための統計モデリング入門3章後半
データ解析のための統計モデリング入門3章後半データ解析のための統計モデリング入門3章後半
データ解析のための統計モデリング入門3章後半
 
PRML復々習レーン#9 6.3-6.3.1
PRML復々習レーン#9 6.3-6.3.1PRML復々習レーン#9 6.3-6.3.1
PRML復々習レーン#9 6.3-6.3.1
 
20200808_PyMCを使えばちょっと複雑な確率モデルも怖くない
20200808_PyMCを使えばちょっと複雑な確率モデルも怖くない20200808_PyMCを使えばちょっと複雑な確率モデルも怖くない
20200808_PyMCを使えばちょっと複雑な確率モデルも怖くない
 
Darm3(samplesize)
Darm3(samplesize)Darm3(samplesize)
Darm3(samplesize)
 
あなたの心にBridgeSampling
あなたの心にBridgeSamplingあなたの心にBridgeSampling
あなたの心にBridgeSampling
 
[論文解説]A Bayesian Perspective on Generalization and Stochastic Gradient Descent
[論文解説]A Bayesian Perspective on Generalization and Stochastic Gradient Descent[論文解説]A Bayesian Perspective on Generalization and Stochastic Gradient Descent
[論文解説]A Bayesian Perspective on Generalization and Stochastic Gradient Descent
 
単純ベイズ法による異常検知 #ml-professional
単純ベイズ法による異常検知  #ml-professional単純ベイズ法による異常検知  #ml-professional
単純ベイズ法による異常検知 #ml-professional
 

Último

【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)Hiroki Ichikura
 
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略Ryo Sasaki
 
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A surveyToru Tamaki
 
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...Toru Tamaki
 
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Yuma Ohgami
 
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdfTSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdftaisei2219
 
スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムスマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムsugiuralab
 
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNetToru Tamaki
 
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものですiPride Co., Ltd.
 

Último (9)

【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
 
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
 
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey
 
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
 
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
 
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdfTSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdf
 
スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムスマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システム
 
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet
 
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものです
 

PRML第3章_3.3-3.4

  • 2. - 2 - 第3章 線形回帰モデル ◼ 3.3 ベイズ線形回帰 ⚫ 3.3.1 パラメータの分布 ⚫ 3.3.2 予測分布 ⚫ 3.3.3 等価カーネル ◼ 3.4 ベイズモデル比較 ◼ 3.5 エビデンス近似 ⚫ 3.5.1 エビデンス関数の評価 ⚫ 3.5.2 エビデンス関数の最大化 ⚫ 3.5.3 有効パラメータ数 ◼ 3.6 固定された基底関数の限界 ここまで
  • 3. - 3 - 3.3 ベイズ線形回帰 ◼ 今までの内容で分かったこと(最尤推定の場合) ⚫ 基底関数の数によって決まるモデルの複雑さをデータサイズに応じて 決定する必要性 ⚫ 正則化項(Lasso, Ridge etc)を追加することによって、モデルの複雑さ を調整可能(基底関数の数と形を選ぶことは正則化を付けても重要) ⇒ 解こうとしている問題に合わせてモデルの複雑さを決める必要 ⇒ 尤度最大化では、常に複雑なモデルを選択する危険性(過学習) ◼ 過学習への対処 ⚫ クロスバリデーション 学習、評価、テストの3つに分割するのが一般的。以下手順。 ①[学習, 評価]の組み合わせをkに分割し、 k-1個のデータで学習、1個で評価。入れ替えながらハイパラ探索。 ②ベスパラで[学習, 評価]データ全てを学習し、1つのモデルを作成。 ③テストデータで性能評価。 ⇒ これを複数モデルで実施して、テストデータでの評価結果を比較 (計算量が多い)。手元にある一部のデータを学習に使えない。
  • 4. - 4 - 3.3 ベイズ線形回帰 ◼ 3.3~3.6節のモチベーション ⚫ 教師データ全てを使って、線形回帰モデルをベイズ的に扱うと ともに、モデルの複雑さを自動的に決定したい。 ⚫ P164によると、テスト用の独立なデータは取っておいた方が賢 明とのこと。
  • 5. - 5 - 3.3.1 パラメータの分布 ◼ モデルパラメータwの推定 ⚫ モデルパラメータwの事前分布を導入し、線形回帰モデルを ベイズ的に扱う。 事前分布(3.48):p w = 𝑁 𝑤 𝑚0, 𝑆0 尤度関数(3.10):p(t|X, w, β) = Π 𝑛=0 𝑁 𝑁(𝑡 𝑛|𝑤 𝑇φ 𝑥 𝑛 , β−1) 事後分布(3.49):p w t ∝ p t X, w, β 𝑝 w = 𝑁(𝑤|𝑚 𝑁, 𝑆 𝑁) ※演習3.7 ただし、 平均(3.50):𝑚 𝑁 = 𝑆 𝑁 𝑆 𝑁 −1 𝑚0 + βΦ 𝑇 𝑡 分散共分散(3.51):S 𝑁 −1 = 𝑆0 −1 + βΦ 𝑇 Φ 計画行列(3.16) :Φ = φ0 𝑥1 ⋯ φ 𝑀−1(𝑥1) ⋮ ⋱ ⋮ φ0(𝑥 𝑁) ⋯ φ 𝑀−1(𝑥 𝑁) 基底関数:φ 𝑛 = φ 𝑥 𝑛 = (φ0 𝑥 𝑛 , φ1 𝑥 𝑛 , ‥φ 𝑀−1 𝑥 𝑛 ) 𝑇 ※(m,m)((m,m)(m,1)+(m,n)(n,1))=(m,1) ※(m,m)+(m,n)(n,m)=(m,m) ※(n,m) ※(m,1)
  • 8. - 8 - ◼ モデルパラメータwの推定(続き) 平均(3.50):𝑚 𝑁 = 𝑆 𝑁 𝑆 𝑁 −1 𝑚0 + βΦ 𝑇 𝑡 分散共分散(3.51):S 𝑁 −1 = 𝑆0 −1 + βΦ 𝑇 Φ ⚫ 事前分布を単一の精度パラメータαとし、期待値=0のガウスを考 える(αとβは既知)。 事前分布(3.52):p(w|α) = 𝑁 𝑤 0, α−1 𝐼 事後分布(3.49):p w t ∝ p(t|X, w, β)P w|α = 𝑁(𝑤|𝑚 𝑁, 𝑆 𝑁) ただし、 平均(3.53):𝑚 𝑁 = β𝑆 𝑁Φ 𝑇 𝑡 分散共分散(3.54):S 𝑁 −1 = α𝐼 + βΦ 𝑇Φ ⚫ 事後分布の対数を取ったものをwに関して最大化すればwの推定 が可能 事後分布(3.55):ln p w t = − β 2 σ 𝑛=1 𝑁 {𝑡 𝑛 − 𝑤 𝑇 φ(𝑥 𝑛)}2 − α 2 𝑤 𝑇 𝑤 + 定数 3.3.1 パラメータの分布 二乗和誤差 正則化項
  • 9. - 9 - ◼ ベイズ学習と逐次的な更新 事後分布が次の事前分布に=逐次更新 3.3.1 パラメータの分布
  • 10. - 10 - 3.3.1 パラメータの分布 ①一様分布から データを観測 このデータを得られる可能性のあるw 赤い(確率が高い)部分は ・w0=-1, w1=1 ・w0=0, w1=0 ・・・ ③事後分布を元にデータを生成 確率が高いのは、 ・𝑦 𝑥, 𝑤 = −1 + 𝑥 ・𝑦 𝑥, 𝑤 = 1 − 𝑥 ・・・ ②事前分布×尤度関数を計算 ◼ ベイズ学習と逐次的な更新 𝑦 𝑥, 𝑤 = 𝑤0 + 𝑤1 𝑥 , α=2( α 2 𝑤 𝑇 𝑤), β=25(( 1 0.2 )2 = 25, 標準偏差=0.2) yは上式にガウスノイズを加えたもの。Xは一様分布から生成。
  • 11. - 11 - ◼ 新たなデータ 𝑥 に対応する 𝒕 の予測 ⚫ 3.3.1では𝑤の分布を求めたが、実際は 𝑡 の予測を行いたい。 予測分布(3.57):p(t|𝑿, 𝑻, 𝑥, α, β) = ‫׬‬ 𝑝 𝑡 𝑥, 𝑤, β 𝑝 𝑤 𝑿, 𝑻, α, β 𝑑𝑤 ⇒ 予測分布(3.58):p t 𝑿, 𝑻, 𝑥, α, β = 𝑁 𝑡 𝑚 𝑁 𝑇 φ 𝑥 , σ 𝑁 2 𝑥 ただし、 分散(3.59):σ 𝑁 2 𝑥 = 1 β + φ(𝑥)−1 𝑆 𝑁φ(x) 平均(3.53):𝑚 𝑁 = β𝑆 𝑁Φ 𝑇 𝑡 分散共分散(3.54):S 𝑁 −1 = α𝐼 + βΦ 𝑇 Φ ✓ (3.59)式の第1項はデータに含まれるノイズ、第2項は𝑤の不確かさ(分散 が大きい=データが散らばっており、 𝑤の推定値が不確か)を表す。 ✓ 新しいデータを観測すると事後分布は必ず狭くなる。 ✓ N→∞で分散(第2項) が0に収束するため予測分布の分散はβのみに依存。 3.3.2 予測分布 求めたwの確率と 新しいxでtの確率を算出 教師データ(X,T)及び既知の α,βでwの確率を算出
  • 12. - 12 - ◼ 予測分布の例 3.3.2 予測分布 データ点が増えると予測の不確 かさ(分散の第2項)が減少する ばらつきはβ−1 に大きく依存
  • 13. - 13 - ◼ カーネル法の導入 ⚫ 式の導出 (3.3)式に(3.53)式を代入 予測分布の平均(3.60):𝑦 𝑥, 𝑚 𝑛 = 𝑚 𝑁 𝑇 φ 𝑥 = βφ(𝑥) 𝑇 𝑆 𝑁Φ 𝑇 𝑡 = σ 𝑛=1 𝑁 βφ 𝑥 𝑇 𝑆 𝑁φ(𝑥 𝑛)𝑡 𝑛 ここで、 等価カーネル※(3.62) :𝑘 𝑥, 𝑥′ = βφ 𝑥 𝑇 𝑆 𝑁φ(𝑥′) とおくと、以下の形になる。 予測分布の平均(3.60):𝑦 𝑥, 𝑚 𝑛 = σ 𝑛=1 𝑁 𝑘 𝑥, 𝑥 𝑛 𝑡 𝑛 ただし、 予測分布(3.3):y(x, w) = σ 𝑗=1 𝑀−1 𝑤𝑗φ 𝑗 𝑥 = 𝑤 𝑇 φ(𝑥) 平均(3.53) :𝑚 𝑁 = β𝑆 𝑁Φ 𝑇 𝑡 分散共分散(3.54):S 𝑁 −1 = α𝐼 + βΦ 𝑇 Φ 3.3.3 等価カーネル ※(1,m)(m,m)(m,1)=(1,1) ※平滑化行列とも呼ぶ 予測したいデータのx 訓練データ 計算結果が(1,1)になれば良い。 𝑆 𝑁Φ 𝑇 𝑡 = (𝑚, 1)なので、 φ(𝑥) 𝑇 = (1, 𝑚)を前に置けば (1,1)になる。
  • 14. - 14 - ◼ 等価カーネルの解釈 予測分布の平均(3.60):𝑦 𝑥, 𝑚 𝑛 = σ 𝑛=1 𝑁 𝑘 𝑥, 𝑥 𝑛 𝑡 𝑛 ✓ 𝑘 𝑥, 𝑥 𝑛 が 𝑡 𝑛の重みになっている。 ✓ パラメータ𝑤を用いずに、訓練データ集合のみから予測値を算出。 ⇒ ガウス過程(6.4節) ✓ 予測したい 𝑥 に近い訓練データの 𝑥’ に大きく重みを付けている。 ✓ 新しいデータの予測値を算出する度に、全ての訓練データとの内積 を計算するため、訓練データが多いと計算量が膨大に。 3.3.3 等価カーネル ← 訓練データ → ↑ 予 測 し た い デ | タ ↓
  • 15. - 15 - ◼ 本節のモチベーション ⚫ モデル選択をベイズ的に行いたい。 ⇒ モデルの不確かさを表すために確率を用いる。 教師データは何らかのモデルから生成されているとする。 ただし、どのモデルから生成されたかは分からない。 ⇒ 最も教師データを生成したと考えられるモデル (多項式?ガウス?)を推定する。 ◼ ベイズモデル比較 事前分布:𝑝 𝑀𝑖 尤度関数(3.68):𝑝 𝐷 𝑀𝑖 = ‫׬‬ 𝑝 𝐷 𝑤, 𝑀𝑖 𝑝 𝑤 𝑀𝑖 𝑑𝑤 事後分布(3.66): p 𝑀𝑖|𝐷 ∝ 𝑝 𝑀𝑖 𝑝 𝐷 𝑀𝑖 ✓ 事前分布は各々のモデルに対する好みを表す(好きなモデルに高い 確率を・・・)。ここでは事前確率は等しいと考える。 ✓ 尤度関数をモデルエビデンスと呼び、データから見たモデルの好み を表す。 3.4 ベイズモデル比較
  • 16. - 16 - ◼ 予測分布 予測分布(3.67):𝑝 𝑡 𝑥, 𝐷 = σ𝑖=1 𝐿 𝑝 𝑡 𝑥, 𝑀𝑖, 𝐷 𝑝(𝑀𝑖|𝐷) ✓ 混合分布の一種(全てのモデルの総和を取るので、各モデルの予測 値を元に一つの t を算出する)。 ◼ モデルエビデンス( 𝑝 𝐷 𝑀𝑖 ) ✓ あるモデル𝑀𝑖 から教師データD が生成される確率。 ✓ ベイズの定理でパラメータwの事後確率を計算するときの分母に モデルエビデンスが出現する。 ⇒ モデルエビデンスはwを周辺化した尤度関数(周辺尤度) wの事後分布(3.69): 𝑃 𝑤 𝐷, 𝑀𝑖 = 𝑝(𝐷|𝑤,𝑀 𝑖)𝑝(𝑤|𝑀 𝑖) 𝑝(𝐷|𝑀 𝑖) ✓ ある二つのモデルエビデンスの比はベイズ因子と呼ばれる。 ベイズ因子: 𝑝(𝐷|𝑀𝑖) 𝑝(𝐷|𝑀 𝑗) 3.4 ベイズモデル比較
  • 17. - 17 - ◼ モデルエビデンスの別の解釈 ⚫ 式変形。パラメータwに関する積分を単純近似する。(𝑀𝑖は省略) ✓ 事後分布(𝑝 𝐷 𝑤 )が最頻値𝑤 𝑀𝐴𝑃の近傍で 鋭く尖っている ⇒ 幅をΔ𝑤 𝑝𝑜𝑠𝑡𝑒𝑟𝑖𝑜𝑟とする ✓ 積分で得られる確率を縦×横の面積で近似 ⇒ 𝑝 𝐷 𝑤 𝑀𝐴𝑃 × Δ𝑤 𝑝𝑜𝑠𝑡𝑒𝑟𝑖𝑜𝑟 ✓ 事前分布が平坦 ⇒ 幅をΔ𝑤 𝑝𝑟𝑖𝑜𝑟とする。あるwが 選ばれる確率は等しいので事前確率 𝑝 𝑤 は 1 Δ𝑤 𝑝𝑟𝑖𝑜𝑟 となる。 ⇒ (3.70):𝑝 𝐷 = ‫׬‬ 𝑝 𝐷 𝑤 𝑝 𝑤 𝑑𝑤 ≃ 𝑝(𝐷|𝑤 𝑀𝐴𝑃) Δ𝑤 𝑝𝑜𝑠𝑡𝑒𝑟𝑖𝑜𝑟 Δ𝑤 𝑝𝑟𝑖𝑜𝑟 ⇒ 対数を取ると、 (3.71): ln 𝑝 𝐷 ≃ ln 𝑝 𝐷 𝑤 𝑀𝐴𝑃 + ln( Δ𝑤 𝑝𝑜𝑠𝑡𝑒𝑟𝑖𝑜𝑟 Δ𝑤 𝑝𝑟𝑖𝑜𝑟 ) 3.4 ベイズモデル比較
  • 18. - 18 - ◼ モデルエビデンスの別の解釈(続き) (3.71): ln 𝑝 𝐷 ≃ ln 𝑝 𝐷 𝑤 𝑀𝐴𝑃 + ln( Δ𝑤 𝑝𝑜𝑠𝑡𝑒𝑟𝑖𝑜𝑟 Δ𝑤 𝑝𝑟𝑖𝑜𝑟 ) ⇒ Δ𝑤 𝑝𝑜𝑠𝑡𝑒𝑟𝑖𝑜𝑟 < Δ𝑤 𝑝𝑟𝑖𝑜𝑟 なので、ペナルティ項は常に負。 Δ𝑤 𝑝𝑟𝑖𝑜𝑟 に対して Δ𝑤 𝑝𝑜𝑠𝑡𝑒𝑟𝑖𝑜𝑟 が小さい(幅が狭く)なると ペナルティが強くなる(負の値が大きくなる)。 ⇒ 幅がせまい=過学習(モデルが複雑)の可能性がある。 ⚫ モデルがM個のパラメータを含む場合 (3.72): ln 𝑝 𝐷 ≃ ln 𝑝 𝐷 𝑤 𝑀𝐴𝑃 + 𝑀 ln( Δ𝑤 𝑝𝑜𝑠𝑡𝑒𝑟𝑖𝑜𝑟 Δ𝑤 𝑝𝑟𝑖𝑜𝑟 ) ⇒ パラメータが多いとペナルティ大。 ⇒ バランスの良いモデルが選択される。 3.4 ベイズモデル比較 データへのフィッティング度 ペナルティ項 AIC:あるモデルを選択した時に、説明変数の数にペナルティ BIC:あるモデルを選択した時に、訓練データ数にペナルティ モデルエビデンス:いくつかのモデルがあった時に、そのモデルの複雑さにペナルティ
  • 19. - 19 - ◼ モデルエビデンスの別の解釈(続き) 横軸:特定のデータ集合D 縦軸:Dが生成される確率𝑝(𝐷) モデル:複雑さが単調増加するモデル𝑀1, 𝑀2, 𝑀3 3.4 ベイズモデル比較 この範囲のデータDはモデル 𝑀1から生成された確率が高い ⇒データの複雑度は低い この範囲のデータDはモデル 𝑀2から生成された確率が高い ⇒データの複雑度は中程度 ⇒データの複雑度に応じて、バランス の良いモデルが選択される
  • 20. - 20 - ◼ 正しいモデルを選択 ⚫ ベイズモデル比較では、考えているモデル集合の中にデータが生成される 真の分布が含まれていることを暗に仮定。 ⇒ この仮定が正しければ、ベイズモデル比較によって平均的に 正しいモデルが選択される。(正しいモデルが選択される確率高) ⚫ 2つのモデル(𝑀1, 𝑀2)のうち、𝑀1が正しいモデルだと仮定する。 ⚫ ベイズ因子の期待値を計算。 期待ベイズ因子 (3.73):‫׬‬ 𝑝 𝐷 𝑀1 ln 𝑝(𝐷|𝑀1) 𝑝(𝐷|𝑀2) 𝑑𝐷 (𝑀1が選択された時のデータDが生成される確率× 𝑀1に関するベイズ因子 における全データの積分値) ⇒ この式はKLダイバージェンスと同じ KLダイバージェンス:𝐾𝐿(𝑝| 𝑞 ≔ ‫׬‬ 𝑝 𝑥 ln 𝑝(𝑥) 𝑞(𝑥) 𝑑𝑥 ✓ KLダイバージェンスは常に正。 つまり、常に𝑝(𝐷|𝑀1)> 𝑝(𝐷|𝑀2)であることが期待できる。 3.4 ベイズモデル比較 ※KLダイバージェンス:Kullback–Leibler divergence