Mais conteúdo relacionado
ようやく分かった!最尤推定とベイズ推定
- 8. • 事象 𝐷を「観測データ」事象 𝐻を「データの発生源」とする.
• ラボ畜モデルで言えば, 𝐷が学生, 𝐻が研究室
同時確率は
と表せるため,以下のベイズの公式が求まる
ここで,尤度 𝑃 𝐷 𝐻 とは
「研究室𝐻が与えられたときにデータDが発生する確率」
あるいは
「データDが観測されたとき研究室𝐻 から発生した確率」
例えば,研究室𝑀から選ばれた学生が D = ラボ畜 である
確率 は
3
3
ベイズの公式
𝑃 𝐻 𝐷 =
𝑃 𝐷 𝐻 𝑃(𝐻)
𝑃(𝐷)
=
𝑃 𝐷 𝐻 𝑃(𝐻)
𝑃 𝐷 𝐻 𝑃(𝐻)
𝑃 𝐷, 𝐻 = 𝑃 𝐷 𝐻 𝑃 𝐻 = 𝑃 𝐻 𝐷 𝑃(𝐷)
𝑃 𝐻 𝐷 ∶ 事後確率
𝑃 D H ∶ 尤度
𝑃(𝐻) ∶ 事前確率
- 9. • 事象 𝐷を「観測データ」事象 𝐻を「データの発生源」とする.
• ラボ畜モデルで言えば, 𝐷が学生, 𝐻が研究室
同時確率は
と表せるため,以下のベイズの公式が求まる
「ある学生がラボ畜のとき,研究室M所属である確率」を
𝑃 𝐻 𝐷 から求められる
→ラボ畜はM研によく所属している
(観測データ「ラボ畜」は発生源「M研究室」から生じた)
ベイズの公式
𝑃 𝐻 𝐷 =
𝑃 𝐷 𝐻 𝑃(𝐻)
𝑃(𝐷)
=
𝑃 𝐷 𝐻 𝑃(𝐻)
𝑃 𝐷 𝐻 𝑃(𝐻)
𝑃 𝐷, 𝐻 = 𝑃 𝐷 𝐻 𝑃 𝐻 = 𝑃 𝐻 𝐷 𝑃(𝐷)
𝑃 𝐻 = 𝑀 𝐷1 = 畜 =
3
3
∙
1
2
2
3
=
3
4
𝑃 𝐻 𝐷 ∶ 事後確率
𝑃 D H ∶ 尤度
𝑃(𝐻) ∶ 事前確率
ブヒー
- 11. ベイズ推定
Q: ある研究室から学生を2回選択したら共に「ラボ畜」だった.
その研究室は何研でしょう?
D = [ラボ畜, ラボ畜] とするとまず最初(D1 )の「ラボ畜」学生
だけを考えて
ここで,最初の学生だけでは事前確率 p(H) はランダムに
研究室AかMかを仮定しているため,
𝑃 𝐻 = 𝐴 𝐷1 = 畜 =
𝑃 𝐷1 = 畜 𝐻 = 𝐴 𝑃(𝐻 = 𝐴)
𝑃(𝐷1 = 畜)
=
1
4
𝑃 𝐻 = 𝑀 𝐷1 = 畜 =
𝑃 𝐷1 = 畜 𝐻 = 𝑀 𝑃(𝐻 = 𝑀)
𝑃(𝐷1 = 畜)
=
3
4
𝑝 𝐻 = 𝐴 = 𝑝 𝐻 = 𝑀 =
1
2
- 16. 尤度って分からなくない?
• 研究室AとMにそれぞれどれほどの割合で
P 𝐷 = 畜|𝐻 = 𝐴 =
1
3
, P 𝐷 = 畜|𝐻 = M =
3
3
「ラボ畜」学生が所属していたか分かっている前提だった
→ 現実は甘くない
• 現実問題,例えば男女の違いがどれほどの割合で
加速度データに影響するか分からない
→ 確率分布を仮定する [統計モデリング]
研究室 M研究室 A
- 21. 尤度最大化とは?
D = ラボ畜, ラボ畜, 学生 だとするとどうなるか?
各データは互いに独立であるため,
LD = L
ラボ畜
2
L
学生
=
𝑖
3
2
3 − 𝑖
3
を最大化すればよい.グラフを書けば分かるが,
簡単に解くために対数をかける(対数尤度)
ln LD = 2 ln
𝑖
3
+ ln
3 − 𝑖
3
これを微分し傾きが0になる 𝑖 = 2 で尤度が最大
3人中2人が「ラボ
畜」のような
グレー研究室
「最初がラボ畜だと次のデータもラボ畜になりやすい」のような影響を及ぼさない
時系列データ(例えば自然言語処理)は各データが独立でない
- 22. 尤度最大でいいの?
D = 学生, 学生, 学生 というデータが得られたとする
実際はブラックな研究室からたまたま3回とも通常の学生が
選ばれただけかもしれないのに最大尤度 𝑖 = 0(つまりラボ畜
の学生がいない)で本当にいいのか?
選ばれた学生が全員通常なんで,
「ラボ畜」な学生なんていませんよ~
M教授
実際の分布
・・・
研究室1 研究室2 研究室100
- 24. 尤度最大化と比べてベイズ推定は事後確率 𝑃 𝐻 𝐷 を最大にする
𝑃 𝐻 𝐷 =
𝑃 𝐷 𝐻 𝑃(𝐻)
𝑃(𝐷)
D = ラボ畜 だとすると,パラメータ𝑖の範囲を0 ≤ 𝑖 ≤ 3とし
ていたため,𝑃(𝐻)が一様だと仮定すると 𝑃 𝐻 =
1
3
となる
𝑃 𝐻 𝐷1 = 畜 =
𝑖
3
∙
1
4
𝑃(𝐷1 = 畜)
=
𝑖
12
∙
1
𝑃 𝐷 𝐻 𝑃 𝐻
=
𝑖
12
∙
1
6
12
=
𝑖
6
これが最大になるのは𝑖 = 3のとき
→ 結果は尤度最大化と同じ
(事前確率𝑃(𝐻)が一様だから)
ベイズ推定(再登場)
𝑃(𝐷)は事後確率の総和を1とするための正規化項
𝑃 𝐻 𝐷 ∶ 事後確率
𝑃 D H ∶ 尤度
𝑃(𝐻) ∶ 事前確率
𝑖
𝑃(𝐻|𝐷1)
3
1
2
総和1
- 25. D = ラボ畜, ラボ畜 のとき,事前確率が 𝑃 𝐻 =
2
9
𝑖になるため,
𝑃 𝐻 𝐷2 = 畜 =
𝑃 𝐷2 = 畜 𝐻 𝑃(𝐻)
𝑃(𝐷2 = 畜)
=
𝑖
3
∙
𝑖
6
14
18
=
𝑖2
14
ベイズ推定(再登場)
2乗になって
より𝑖の影響
が強くなった
新しいデータで
ベイズ更新
𝑖
𝑃(𝐻|𝐷2, 𝐷1)
3
新しいデータによって,
より分布が急になった!
この例では簡単のため,「ブラックな研究室もホワイトな研究室も一様に存在する」
分布を用いたが,実際は「グレーな研究室が多くて,ブラックやホワイトは少ない」
かもしれない.
その場合は P 𝐷 = 畜|𝐻 =
3
𝑖
𝑞 𝑖 1 − 𝑞 3−𝑖 のような二項分布を仮定する
𝑖
𝑃(𝐻|𝐷1)
3
1
2
総和1
9
14
総和1
- 26. まとめ
確率・統計の教科書で出てくる問題は尤度 𝑃 𝐷 𝐻 が
与えられていることが多い
→ 現実はそんなに甘くない
パラメータ(例ではラボ畜の数 i)をおいて,
尤度の分布を仮定する = 統計モデリング することで
尤度最大化やベイズ推定で尤もらしい分布を推定できる
(実際は尤度の分布に正規分布など多種多様な分布を用いる)
→現実はそれでもまだ甘くない
例では尤度最大化などを解析的に解けたが,現実には
解けない場合がある(MCMCの出番).
しかも,尤度のパラメータだけでは説明できず
超パラメータを追加する場合も…
- 27. まとめ
確率・統計の教科書で出てくる問題は尤度 𝑃 𝐷 𝐻 が
与えられていることが多い
→ 現実はそんなに甘くない
パラメータ(例ではラボ畜の数 i)をおいて,
尤度の分布を仮定する = 統計モデリング することで
尤度最大化やベイズ推定で尤もらしい分布を推定できる
(実際は尤度の分布に正規分布など多種多様な分布を用いる)
→現実はそれでもまだ甘くない
例では尤度最大化などを解析的に解けたが,現実には
解けない場合がある(MCMCの出番).
しかも,尤度のパラメータだけでは説明できず
超パラメータを追加する場合も…
現実は甘く
ないよ!