SlideShare uma empresa Scribd logo
1 de 38
Baixar para ler offline
あなたの心に Bridge Sampling
私とあなたの Bayes Factor を求めよう
- Bridgeサンプリングを用いたベイズモデルの評価 –
専修大学大学院 文学研究科 M2 北條大樹
2017/10/15
IRT勉強会@専修大学
の資料を修正したものです。
目次
• ベイズファクター
• 様々なBF算出方法
• Bridge Sampling
• WARP-III
• 実際の心理学研究での応用例
• まとめ
2
本スライドの主な文献 ( 上から順に多く引用 )
Gronau• , Q. F., Sarafoglou, A., Matzke, D., Ly, A., Boehm, U.,
Marsman, M., ... & Steingroever, H. (2017). A tutorial on bridge
sampling. arXiv preprint arXiv:1703.05984v2.
Gronau• , Q. F., Wagenmakers, E. J., Heck, D. W., & Matzke, D.
(2017). A Simple Method for Comparing Complex Models: Bayesian
Model Comparison for Hierarchical Multinomial Processing Tree
Models using Warp-III Bridge Sampling.
Wang, L., & Meng, X. L. (• 2016). Warp bridge sampling: the next
generation. arXiv preprint arXiv:1609.07690.
Meng, X. L., & Schilling, S. (• 2002). Warp bridge sampling. Journal
of Computational and Graphical Statistics, 11(3), 552-586.
3
ベイズファクター
• パラメータ推定の文脈で、我々の興味のあるパラメータθの不
確かさを観測データyから求めるとき
𝑝 𝜃 𝑦 =
𝑝 𝑦 𝜃 𝑝(𝜃)
𝑝(𝑦)
と表される。
• モデル比較の文脈では、 m 個の候補モデルがあり、データ y を
所与としたときの i 番目のモデルの相対的な最もらしさを表す
モデル事後確率は、
𝑝(𝑀𝑖|𝑦) =
𝑝 𝑦 𝑀𝑖 𝑝(𝑀𝑖)
Σ𝑗=1
𝑚
𝑝(𝑦|𝑀𝑗)𝑝(𝑀𝑗)
事前分布尤度
事後分布
周辺尤度
Σ 周辺尤度×事前モデル確率
事後モデル確率
事後モデル確率 = 周辺尤度×事前モデル確率 / 候補すべての周辺尤度×事前モデル確率
4
ベイズファクター
• もしここでm=2だったら... (比較したいモデルが2つのみ)
• つまりオッズで表すことが可能
• 次のようにも
5
𝑝(𝑀1|𝑦) =
𝑝 𝑦 𝑀1 𝑝(𝑀1)
Σ𝑗=1
𝑚
𝑝(𝑦|𝑀𝑗)𝑝(𝑀𝑗)
𝑝(𝑀2|𝑦) =
𝑝 𝑦 𝑀2 𝑝(𝑀2)
Σ𝑗=1
𝑚
𝑝(𝑦|𝑀𝑗)𝑝(𝑀𝑗)
同じ
𝑝 𝑀1 𝑦
𝑝 𝑀2 𝑦
=
𝑝 𝑦 𝑀1
𝑝 𝑦 𝑀2
×
𝑝 𝑀1
𝑝(𝑀2)
事後オッズ 事前オッズベイズファクター
𝐵𝐹12 =
𝑝 𝑦 𝑀1
𝑝 𝑦 𝑀2
=
𝑝 𝑀1 𝑦
𝑝 𝑀2 𝑦
𝑝 𝑀1
𝑝(𝑀2)
ベイズファクター
事後オッズ
事前オッズ
ベイズファクターとは、データによって与えられたモデル𝑴 𝟐に比して
モデル𝑴 𝟏を支持する程度(オッズ)の変化を表す
ベイズファクターって何?
ある• 者は、、、
“standard Bayesian solution to the hypothesis testing and model
selection problems” (Lewis & Rftery, 1997, p648)
またある• 者は、、、
“the primary tool used in Bayesian inference for hypothesis testing
and model selection” (Berger, 2006, p.378)
それなのになぜBFを使わないのか?
6
Q. なぜBFを使わないのか?
A. 使わないというよりは、使えない(解析的に周辺尤度を計算で
きない)ケースが多い。✌︎(‘𝜔’✌︎ ) ‫׮‬ ‫׮‬ ‫׮‬ ‫׮‬ ‫׮‬( ✌︎‘𝜔’)✌︎多重積分ワッショイ
どんなケースで使えないのか?
非線形• モデル
パラメータ• 数が多い場合(特に階層モデル)
⇒むしろ、ベイズファクターを使えるモデルを探すほうが、使え
ないモデルを挙げていくより早いかも。。。
7
じゃあ、結局BFは求められないのか?
MCMCによる様々なBF(周辺尤度)への近似法
1. Naive Monte Carlo Estimator
2. Importance Sampling Estimator (重点サンプリング法)
3. Generalized Harmonic Mean Estimator (一般化調和平均法??)
4. Bridge Sampling (ブリッジサンプリング)
5. WARP-III bridge sampling or WARP-U bridge sampling
8
今回は、4. 5. の手法を重点的に紹介
1,2,3の詳しい話については、Gronau et al. (2017)を参照し、その後原著へ
再確認: 求めたいもの
BF• を求めたい、すなわち、周辺尤度を求めれば勝ち
周辺尤度• って?
• 次のようにも…
9
𝐵𝐹12 =
𝑝 𝑦 𝑀1
𝑝 𝑦 𝑀2
𝑝 𝑦 𝑀 = ∫ 𝑝 𝑦 𝜃, 𝑀 𝑝 𝜃 𝑀 𝑑𝜃
周辺尤度 尤度 事前分布
興味のあるモデルで
yが観測される確率
= 事前分布を通した尤度の積分
= θを所与とするときの尤度の重み付き平均
(重みというのは事前分布θの最もらしさのこと)
𝑝 𝑦 𝑀 = 𝔼 𝑝𝑟𝑖𝑜𝑟 𝑝 𝑦 𝜃, 𝑀
𝔼 𝑝𝑟𝑖𝑜𝑟は事前分布の期待値を表す。
速習 Naive Monte Carlo Estimator
• 周辺尤度を求めたい。ただ、ここでどのモデルのとかはない
• これを近似するには、θにおける事前分布からのN個のサンプル
で尤度を評価し、その結果を平均すればよい。
• コインの例で考えた具体例は、Gronau et al. (2017) p8-9 にて
10
𝑝 𝑦 𝑀 = 𝔼 𝑝𝑟𝑖𝑜𝑟 𝑝 𝑦 𝜃, 𝑀 𝑝(𝑦) = 𝔼 𝑝𝑟𝑖𝑜𝑟 𝑝 𝑦 𝜃
𝑝(𝑦) = 𝔼 𝑝𝑟𝑖𝑜𝑟 𝑝 𝑦 𝜃
Ƹ𝑝1 𝑦 =
1
𝑁
Σ𝑖=1
𝑁
𝑝 𝑦 ෨𝜃𝑖
෨𝜃𝑖~𝑝(𝜃)
事前分布からのサンプル尤度の平均
この方法が使えるのは、事前分布と事後分布の形が似ていて、オーバーラップ
していることが条件。
速習 Importance Sampling Estimator
事後分布• と’似ていない’事前分布を使うのではなく、importance
density(重点密度) 𝑔𝐼𝑆(𝜃)を導入。
重点密度• の特徴は、尤度の高いところのθを重点的にサンプリ
ングし、尤度の低いところはあまりサンプリングしない。
以下• のようにして𝑔𝐼𝑆(𝜃)を導入できる。
11
𝑝(𝑦) = ∫ 𝑝 𝑦 𝜃 𝑝 𝜃 𝑑𝜃
= ∫ 𝑝 𝑦 𝜃 𝑝 𝜃
𝑔𝐼𝑆 𝜃
𝑔𝐼𝑆 𝜃
𝑑𝜃
= න
𝑝 𝑦 𝜃 𝑝 𝜃
𝑔𝐼𝑆 𝜃
𝑔𝐼𝑆 𝜃 𝑑𝜃
= 𝔼 𝑔 𝐼𝑆 𝜃
𝑝 𝑦 𝜃 𝑝 𝜃
𝑔𝐼𝑆 𝜃
速習 Importance Sampling Estimator
実際• に推定するときは、、、
適切• な重点密度はどのような特徴をもつべき?
評価• が簡単
事後分布• と同一の定義域をもつ
事後分布• によく似ている
事後分布• よりも厚い裾(fatter tail)を持つこと
12
Ƹ𝑝2 𝑦 =
1
𝑁
Σ𝑖=1
𝑁 𝑝 𝑦 ෨𝜃𝑖 𝑝 ෨𝜃𝑖
𝑔𝐼𝑆( ෨𝜃𝑖)
෨𝜃𝑖~𝑔𝐼𝑆(𝜃)
重点密度からのサンプル調整された尤度の平均
速習 Importance Sampling Estimator
• どのように重点密度を決めるか?
• コインの例では、事後分布はβ分布で表せる。そのため適切な重点密度をβ
分布と一様分布の混合分布で定義しようとしている。
• この際、混合分布におけるベータ分布は、事後分布からのサンプルを使っ
てモーメント推定をして得たモーメントを用いている。
• モーメント:β分布でいえばα、βパラメータを指し、正規分布でいえば平均と標
準偏差パラメータをさす。
• 最後に、ベータ分布と一様分布の混合具合を決めるチューニング(重み)
パラメータを𝑟を用意し、これによってどっちの分布を多めにチューニン
グするかを決めて、重点密度分布からのサンプリングを行う。
13
※ 𝑟の調節が大変。
速習 Generalized Harmonic Mean Estimator
• Importance Samplingとは対照的で、thinner tailになるようにする。
• そして、事後分布からのサンプルを使って計算するように変更。
14
1
𝑝 𝑦
= න
1
𝑝 𝑦
𝑔𝐼𝑆 𝜃 𝑑𝜃
= න
𝑝(𝜃|𝑦)
𝑝 𝑦 𝜃 𝑝 𝜃
𝑔𝐼𝑆 𝜃 𝑑𝜃
= න
𝑔𝐼𝑆 𝜃
𝑝 𝑦 𝜃 𝑝 𝜃
𝑝(𝜃|𝑦)𝑑𝜃
= 𝔼 𝒑𝒐𝒔𝒕
𝑔𝐼𝑆 𝜃
𝑝 𝑦 𝜃 𝑝 𝜃
𝑝 𝑦 = 𝔼 𝒑𝒐𝒔𝒕
𝑔𝐼𝑆 𝜃
𝑝 𝑦 𝜃 𝑝 𝜃
−1
p(y) = 𝔼 𝑔 𝐼𝑆 𝜃
𝑝 𝑦 𝜃 𝑝 𝜃
𝑔𝐼𝑆 𝜃
参考:Importance Sampling
• 逆数になっている
• 事後分布からのサンプルを使う
速習 Generalized Harmonic Mean Estimator
• 実際に推定するときは、、、
• 適切な重点密度はどのような特徴をもつべき?
• 評価が簡単
• 事後分布と同一の定義域をもつ
• 事後分布によく似ている
• 事後分布よりも薄い裾(thinner tail)を持つこと
• コインの例では、事後サンプルが0-1の範囲しか取らないので、
サンプルをまず、プロビット変換して、-∞~∞(正規分布)の範囲
で考えられるようにして、Importance Sampling 同様にモーメン
ト推定を行う。
15
Ƹ𝑝3 𝑦 =
1
𝑁
Σ𝑗=1
𝑁
𝑔𝐼𝑆 𝜃𝑗
∗
𝑝 𝑦 𝜃𝑗
∗
𝑝 𝜃𝑗
∗
−1
𝜃𝑗
∗
~𝑝(𝜃|𝑦)
重点密度
尤度 事前分布
事後分布からの
サンプル
注: 𝜃𝑗
∗
と ෨𝜃𝑖は、違う分布
からサンプリングされ
ていることに注意
速習 Generalized Harmonic Mean Estimator
プロビット• 変換をして考える場合
と表現できる
16
Ƹ𝑝3 𝑦 =
1
𝑁
Σ𝑗=1
𝑁
𝑔𝐼𝑆 𝜃𝑗
∗
𝑝 𝑦 𝜃𝑗
∗
𝑝 𝜃𝑗
∗
−1
𝜃𝑗
∗
~𝑝(𝜃|𝑦)
重点密度
尤度 事前分布
事後分布からの
サンプル
注: 𝜃𝑗
∗
と ෨𝜃𝑖は、違う分布
からサンプリングされ
ていることに注意
Ƹ𝑝3 𝑦 =
1
𝑁
Σ𝑗=1
𝑁
1
ො𝜎
𝜙
𝜉𝑗
∗
− Ƹ𝜇
ො𝜎
𝑝 𝑦 Φ(𝜉𝑗
∗
) 𝜙 𝜉𝑗
∗
−1
重点密度
尤度 事前分布
𝜉𝑗
∗
= Φ−1 𝜃𝑗
∗
𝑎𝑛𝑑 𝜃𝑗
∗
~𝑝(𝜃|𝑦)
事後分布からのサンプル𝜃𝑗
∗
を
プロビット変換したサンプル𝜉𝑗
∗
ここまでまとめ
Importance Sampling• では、重点密度分布からのサンプル ෨𝜃𝑖を利
用して、周辺尤度を求めようとする。
Generalized Harmonic Mean Estimator• では、上記の逆数を考える
ことで事後分布からのサンプル𝜃𝑗
∗
から最適な重点密度分布を
探して周辺尤度を求めようとした。
ただ• 、2つの方法の欠点は、分布の裾に強い仮定(厚いか・薄いか)
を置いており、これが高次元空間では満たすことができない。
どうする• ?
⇒ようやく Bridge Sampler が登場。
17
෨𝜃𝑖 𝜃𝑗
∗
ℎ()
Bridge Sampling Estimator
WARP-I
WARP-II
WARP-III
WARP-U
18
Bridge Sampling
ここで• 適当に比を書いてみる。
なんとなく• 周辺尤度𝑝(𝑦)を両辺に掛けてみる。
19
1 =
∫ 𝑝 𝑦 𝜃 𝑝 𝜃 ℎ 𝜃 𝑔 𝜃 𝑑𝜃
∫ 𝑝 𝑦 𝜃 𝑝 𝜃 ℎ 𝜃 𝑔 𝜃 𝑑𝜃
尤度 事前分布 Bridge関数 提案分布
尤度 事前分布 Bridge関数 提案分布
𝑝 𝑦 =
∫ 𝑝 𝑦 𝜃 𝑝 𝜃 ℎ 𝜃 𝑔 𝜃 𝑑𝜃
∫
𝑝 𝑦 𝜃 𝑝 𝜃
𝑝 𝑦
ℎ 𝜃 𝑔 𝜃 𝑑𝜃
=
∫ 𝑝 𝑦 𝜃 𝑝 𝜃 ℎ 𝜃 𝑔 𝜃 𝑑𝜃
∫ ℎ 𝜃 𝑔 𝜃 𝑝(𝜃|𝑦)𝑑𝜃
提案分布
事後分布
Bridge Sampling
つづき•
実際• の推定では、
20
𝑝 𝑦 =
∫ 𝑝 𝑦 𝜃 𝑝 𝜃 ℎ 𝜃 𝑔 𝜃 𝑑𝜃
∫
𝑝 𝑦 𝜃 𝑝 𝜃
𝑝 𝑦
ℎ 𝜃 𝑔 𝜃 𝑑𝜃
=
∫ 𝑝 𝑦 𝜃 𝑝 𝜃 ℎ 𝜃 𝑔 𝜃 𝑑𝜃
∫ ℎ 𝜃 𝑔 𝜃 𝑝(𝜃|𝑦)𝑑𝜃
=
𝔼 𝑔 𝜃 (𝑝 𝑦 𝜃 𝑝 𝜃 ℎ 𝜃 )
𝔼 𝑝𝑜𝑠𝑡(ℎ 𝜃 𝑔 𝜃 )
提案分布
事後分布
Ƹ𝑝 𝑦 =
1
𝑁2
Σ𝑖=1
𝑁2
𝑝 𝑦 ෨𝜃𝑖 𝑝 ෨𝜃𝑖 ℎ ෨𝜃𝑖
1
𝑁1
Σ𝑖=1
𝑁1
ℎ 𝜃𝑗
∗
𝑔 𝜃𝑗
∗
提案分布
Bridge関数
Bridge関数
𝜃𝑗
∗
~𝑝(𝜃|𝑦)෨𝜃𝑖~𝑔(𝜃)
提案分布から
のサンプル
事後分布から
のサンプル
Bridge Sampling
• つづき
• 実際の推定では、
21
𝑝 𝑦 =
∫ 𝑝 𝑦 𝜃 𝑝 𝜃 ℎ 𝜃 𝑔 𝜃 𝑑𝜃
∫
𝑝 𝑦 𝜃 𝑝 𝜃
𝑝 𝑦
ℎ 𝜃 𝑔 𝜃 𝑑𝜃
=
∫ 𝑝 𝑦 𝜃 𝑝 𝜃 ℎ 𝜃 𝑔 𝜃 𝑑𝜃
∫ ℎ 𝜃 𝑔 𝜃 𝑝(𝜃|𝑦)𝑑𝜃
=
𝔼 𝑔 𝜃 (𝑝 𝑦 𝜃 𝑝 𝜃 ℎ 𝜃 )
𝔼 𝑝𝑜𝑠𝑡(ℎ 𝜃 𝑔 𝜃 )
提案分布
事後分布
Ƹ𝑝 𝑦 =
1
𝑁2
Σ𝑖=1
𝑁2
𝑝 𝑦 ෨𝜃𝑖 𝑝 ෨𝜃𝑖 ℎ ෨𝜃𝑖
1
𝑁1
Σ𝑖=1
𝑁1
ℎ 𝜃𝑗
∗
𝑔 𝜃𝑗
∗
提案分布
Bridge関数
Bridge関数
𝜃𝑗
∗
~𝑝(𝜃|𝑦)෨𝜃𝑖~𝑔(𝜃)
提案分布から
のサンプル
事後分布から
のサンプル
おわかりいただけただろうか?
22
提案分布はImportance Samplingのあれ
• Importance Sampling
• Generalized Harmonic Mean Estimator
• Bridge Sampling
23
これをみたときの俺 24
25
最適なBridge関数𝒉()って
どんな関数なんだろう?
Ƹ𝑝 𝑦 =
1
𝑁2
Σ𝑖=1
𝑁2
𝑝 𝑦 ෨𝜃𝑖 𝑝 ෨𝜃𝑖 ℎ ෨𝜃𝑖
1
𝑁1
Σ𝑖=1
𝑁1
ℎ 𝜃𝑗
∗
𝑔 𝜃𝑗
∗
提案分布
Bridge関数
Bridge関数
最適なBridge関数(Meng & Wong, 1996)
• これが最適。相対的なMSE(平均二乗誤差)を最小にできる
• ここで問題がある。
• 周辺尤度𝑝(𝑦)を評価するためℎ(𝜃)を導入したのに、その最適関数に周辺
尤度𝑝(𝑦)が入っている。
• 周辺尤度を求めたいのに周辺尤度を求めないと周辺尤度がわ
からない。
⇒どうする?
26
ℎ 𝜃 = 𝐶 ∙
1
𝑠1 𝑝 𝑦 𝜃 𝑝 𝜃 + 𝑠2 𝑝 𝑦 𝑔(𝜃)
ここで、𝑠1 =
N1
𝑁2+𝑁1
, 𝑠2 =
N2
𝑁2+𝑁1
, Cは定数
尤度 事前分布 提案分布周辺尤度
何回もこれを計算して収束させたものを使おう
• t回目の最適関数ℎ(𝜃)をt+1回目の周辺尤度𝑝(ො𝑦)の式に代入
そして• 、整理した結果
27
ℎ 𝜃 = 𝐶 ∙
1
𝑠1 𝑝 𝑦 𝜃 𝑝 𝜃 + 𝑠2 Ƹ𝑝 𝑦 𝑡 𝑔(𝜃)
Ƹ𝑝 𝑦 𝑡+1 =
1
𝑁2
Σ𝑖=1
𝑁2
𝑝 𝑦 ෨𝜃𝑖 𝑝 ෨𝜃𝑖
𝑠1 𝑝 𝑦 ෨𝜃𝑖 𝑝 ෨𝜃𝑖 + 𝑠2 Ƹ𝑝 𝑦 𝑡 𝑔( ෨𝜃𝑖)
1
𝑁1
Σ𝑖=1
𝑁1
𝑔 𝜃𝑗
∗
𝑠1 𝑝 𝑦 𝜃𝑗
∗
𝑝 𝜃𝑗
∗
+ 𝑠2 Ƹ𝑝 𝑦 𝑡 𝑔(𝜃𝑗
∗
)
𝜃𝑗
∗
~𝑝(𝜃|𝑦) ෨𝜃𝑖~𝑔(𝜃)
提案分布から
のサンプル
事後分布から
のサンプル
Ƹ𝑝4 𝑦 𝑡+1 =
1
𝑁2
Σ𝑖=1
𝑁2
𝑙2,𝑖
𝑠1 𝑙2,𝑖 + 𝑠2 Ƹ𝑝4 𝑦 𝑡
1
𝑁1
Σ𝑖=1
𝑁1 1
𝑠1 𝑙1,𝑗 + 𝑠2 Ƹ𝑝4 𝑦 𝑡
𝑙2,𝑖 =
𝑝 𝑦 ෨𝜃𝑖 𝑝 ෨𝜃𝑖
𝑔( ෨𝜃𝑖)
𝑙1,𝑗 =
𝑝 𝑦 𝜃𝑗
∗
𝑝 𝜃𝑗
∗
𝑔(𝜃𝑗
∗
)
𝑠1 =
N1
𝑁2 + 𝑁1
, 𝑠2 =
N2
𝑁2 + 𝑁1
計算の手順 Gronau, et al.(2017)より引用 28
手順
1. 推定した事後分布から2×N個のサンプルを抽出してくる。
半分• (奇数番目)を𝑁1、半分(偶数番目)を𝑁1に分けておく。
提案分布2. を選ぶ
ex) (• 多変量)正規分布
3. 𝑁1サンプルを正規分布(提案分布)に合うように(今回は)プロ
ビット変換する
4. 3.で変換した者を利用して正規分布のモーメント(平均・標準
偏差)を推定する。
5. 4.の正規分布から𝑁2サンプルを生成する。
そのサンプルから6. 𝑙2,𝑖を計算する(R等で簡単にできる)。
7. 一番はじめに使っていない方の𝑁1のサンプルを(今回は)プロ
ビット変換する。
事後分布8. を用いて、 𝑙1,𝑗を計算する(6.と同様に)。
ブリッジサンプリングの9. 更新を始める。
29
Bridge Samplingの弱点
1. 推定した事後分布から2×N個のサンプルを抽出してくる。
• 半分(奇数番目)を𝑁1、半分(偶数番目)を𝑁1に分けておく。
2. 提案分布を選ぶ
• ex) (多変量)正規分布
3. 𝑁1サンプルを正規分布(提案分布)に合うように(今回は)プロ
ビット変換する
4. 3.で変換した者を利用して正規分布のモーメント(平均・標準
偏差)を推定する。
5. 4.の正規分布から𝑁2サンプルを生成する。
6. そのサンプルから𝑙2,𝑖を計算する(R等で簡単にできる)。
7. 一番はじめに使っていない方の𝑁1のサンプルを(今回は)プロ
ビット変換する。
8. 事後分布を用いて、 𝑙1,𝑗を計算する(6.と同様に)。
9. ブリッジサンプリングの更新を始める。
30
Bridge Samplingの弱点
• 他の近似方法よりも仮定は緩いが、事後分布と提案分布が似て
いて、オーバーラップしている必要がある。
これがかなり• 大事で、ダメだと推定できなくなってしまう。
どうしようか• ?
WARP• -III Bridge Sampling
⇒mean/scale/skewness(歪度)を調整する方法
WARP• -U Bridge Sampling
⇒混合分布のようなmulti-modal(多峰)な分布でも上記のよう
な調整を行う方法
31
WARP-III Gronau et al. (2017) Fig.2
• ヒストグラムが事後分布。実線が標準正規分布(提案分布)
32
この方法で大事なことは
正規化定数を維持した変
換であること。
WARP-U Wang & Meng (2016) Fig.3-4 33
WARP-U Wang & Meng (2016) Fig.3-4 34
多峰でもやっ
ていることは
大体同じ。
Bridge Samplingを用いた実際の研究
35
BridgeSamplingを用いた心理系論文
IGT• 課題でのモデル比較 Gronau et al.(2017)
Importance Sampling• で算出した対数周辺尤度とBridgeSamplingで算出し
た対数周辺尤度の一致率を示した研究
そして• 、BridgeSamplingを用いて、個人差を考慮した階層モデルにおける
周辺尤度を算出した。
36
今日のまとめ
• BridgeSamplingは昔からある方法だが、WARPという計算方法?
によってオーバーラップ力を挙げて、BFの計算が正確にできる
ようになった。
• StanとJAGSでWARP-III Bridge Samplingを行うパッケー
ジ”BridgeSampling”がこの前公開された(WARP-Uは搭載されて
いない模様)。
• パッケージの開発者曰く、Stanコードが書ける人なら誰でも
OKといっていたので、皆さんならBridge Samplingができないわ
けがない。
• BF出してみたいデータがある。なんかやり方よくわからねぇ...
⇒いつでも共同研究のご相談お待ちしています。
37
あなたの心に Bridge Sampling
私とあなたの Bayes Factor を求めよう
- Bridgeサンプリングを用いたベイズモデルの評価 –
専修大学大学院 文学研究科 M2 北條大樹
2017/10/15
ベイズとIRT勉強会@専修大学

Mais conteúdo relacionado

Mais procurados

階層ベイズと自由エネルギー
階層ベイズと自由エネルギー階層ベイズと自由エネルギー
階層ベイズと自由エネルギーHiroshi Shimizu
 
Cmdstanr入門とreduce_sum()解説
Cmdstanr入門とreduce_sum()解説Cmdstanr入門とreduce_sum()解説
Cmdstanr入門とreduce_sum()解説Hiroshi Shimizu
 
Chapter9 一歩進んだ文法(前半)
Chapter9 一歩進んだ文法(前半)Chapter9 一歩進んだ文法(前半)
Chapter9 一歩進んだ文法(前半)itoyan110
 
変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)Takao Yamanaka
 
負の二項分布について
負の二項分布について負の二項分布について
負の二項分布についてHiroshi Shimizu
 
PRMLの線形回帰モデル(線形基底関数モデル)
PRMLの線形回帰モデル(線形基底関数モデル)PRMLの線形回帰モデル(線形基底関数モデル)
PRMLの線形回帰モデル(線形基底関数モデル)Yasunori Ozaki
 
PRML第9章「混合モデルとEM」
PRML第9章「混合モデルとEM」PRML第9章「混合モデルとEM」
PRML第9章「混合モデルとEM」Keisuke Sugawara
 
PCAの最終形態GPLVMの解説
PCAの最終形態GPLVMの解説PCAの最終形態GPLVMの解説
PCAの最終形態GPLVMの解説弘毅 露崎
 
PRML輪読#3
PRML輪読#3PRML輪読#3
PRML輪読#3matsuolab
 
これからの仮説検証・モデル評価
これからの仮説検証・モデル評価これからの仮説検証・モデル評価
これからの仮説検証・モデル評価daiki hojo
 
PRML輪読#1
PRML輪読#1PRML輪読#1
PRML輪読#1matsuolab
 
変数同士の関連_MIC
変数同士の関連_MIC変数同士の関連_MIC
変数同士の関連_MICShushi Namba
 
基礎からのベイズ統計学 輪読会資料 第4章 メトロポリス・ヘイスティングス法
基礎からのベイズ統計学 輪読会資料 第4章 メトロポリス・ヘイスティングス法基礎からのベイズ統計学 輪読会資料 第4章 メトロポリス・ヘイスティングス法
基礎からのベイズ統計学 輪読会資料 第4章 メトロポリス・ヘイスティングス法Ken'ichi Matsui
 
階層モデルの分散パラメータの事前分布について
階層モデルの分散パラメータの事前分布について階層モデルの分散パラメータの事前分布について
階層モデルの分散パラメータの事前分布についてhoxo_m
 
StanとRでベイズ統計モデリングに関する読書会(Osaka.stan) 第四章
StanとRでベイズ統計モデリングに関する読書会(Osaka.stan) 第四章StanとRでベイズ統計モデリングに関する読書会(Osaka.stan) 第四章
StanとRでベイズ統計モデリングに関する読書会(Osaka.stan) 第四章nocchi_airport
 

Mais procurados (20)

階層ベイズと自由エネルギー
階層ベイズと自由エネルギー階層ベイズと自由エネルギー
階層ベイズと自由エネルギー
 
階層ベイズとWAIC
階層ベイズとWAIC階層ベイズとWAIC
階層ベイズとWAIC
 
Cmdstanr入門とreduce_sum()解説
Cmdstanr入門とreduce_sum()解説Cmdstanr入門とreduce_sum()解説
Cmdstanr入門とreduce_sum()解説
 
Chapter9 一歩進んだ文法(前半)
Chapter9 一歩進んだ文法(前半)Chapter9 一歩進んだ文法(前半)
Chapter9 一歩進んだ文法(前半)
 
変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)
 
負の二項分布について
負の二項分布について負の二項分布について
負の二項分布について
 
PRMLの線形回帰モデル(線形基底関数モデル)
PRMLの線形回帰モデル(線形基底関数モデル)PRMLの線形回帰モデル(線形基底関数モデル)
PRMLの線形回帰モデル(線形基底関数モデル)
 
PRML第9章「混合モデルとEM」
PRML第9章「混合モデルとEM」PRML第9章「混合モデルとEM」
PRML第9章「混合モデルとEM」
 
PCAの最終形態GPLVMの解説
PCAの最終形態GPLVMの解説PCAの最終形態GPLVMの解説
PCAの最終形態GPLVMの解説
 
PRML輪読#3
PRML輪読#3PRML輪読#3
PRML輪読#3
 
これからの仮説検証・モデル評価
これからの仮説検証・モデル評価これからの仮説検証・モデル評価
これからの仮説検証・モデル評価
 
PRML輪読#1
PRML輪読#1PRML輪読#1
PRML輪読#1
 
PRML_2.3.1~2.3.3
PRML_2.3.1~2.3.3PRML_2.3.1~2.3.3
PRML_2.3.1~2.3.3
 
変数同士の関連_MIC
変数同士の関連_MIC変数同士の関連_MIC
変数同士の関連_MIC
 
基礎からのベイズ統計学 輪読会資料 第4章 メトロポリス・ヘイスティングス法
基礎からのベイズ統計学 輪読会資料 第4章 メトロポリス・ヘイスティングス法基礎からのベイズ統計学 輪読会資料 第4章 メトロポリス・ヘイスティングス法
基礎からのベイズ統計学 輪読会資料 第4章 メトロポリス・ヘイスティングス法
 
階層モデルの分散パラメータの事前分布について
階層モデルの分散パラメータの事前分布について階層モデルの分散パラメータの事前分布について
階層モデルの分散パラメータの事前分布について
 
Prml 2.3
Prml 2.3Prml 2.3
Prml 2.3
 
Chapter2.3.6
Chapter2.3.6Chapter2.3.6
Chapter2.3.6
 
StanとRでベイズ統計モデリングに関する読書会(Osaka.stan) 第四章
StanとRでベイズ統計モデリングに関する読書会(Osaka.stan) 第四章StanとRでベイズ統計モデリングに関する読書会(Osaka.stan) 第四章
StanとRでベイズ統計モデリングに関する読書会(Osaka.stan) 第四章
 
PRML 第4章
PRML 第4章PRML 第4章
PRML 第4章
 

Semelhante a あなたの心にBridgeSampling

ベイズ統計学の概論的紹介-old
ベイズ統計学の概論的紹介-oldベイズ統計学の概論的紹介-old
ベイズ統計学の概論的紹介-oldNaoki Hayashi
 
PRML復々習レーン#3 前回までのあらすじ
PRML復々習レーン#3 前回までのあらすじPRML復々習レーン#3 前回までのあらすじ
PRML復々習レーン#3 前回までのあらすじsleepy_yoshi
 
A Brief Survey of Schrödinger Bridge (Part I)
A Brief Survey of Schrödinger Bridge (Part I)A Brief Survey of Schrödinger Bridge (Part I)
A Brief Survey of Schrödinger Bridge (Part I)Morpho, Inc.
 
Hyperoptとその周辺について
Hyperoptとその周辺についてHyperoptとその周辺について
Hyperoptとその周辺についてKeisuke Hosaka
 
Large scale gan training for high fidelity natural
Large scale gan training for high fidelity naturalLarge scale gan training for high fidelity natural
Large scale gan training for high fidelity naturalKCS Keio Computer Society
 
PRML chap.10 latter half
PRML chap.10 latter halfPRML chap.10 latter half
PRML chap.10 latter halfNarihira Takuya
 
ベイズ統計によるデータ解析
ベイズ統計によるデータ解析ベイズ統計によるデータ解析
ベイズ統計によるデータ解析Kunihiro Hisatsune
 
Or学会用20160915.ver2
Or学会用20160915.ver2Or学会用20160915.ver2
Or学会用20160915.ver2Ryoma Nakagawa
 
PRML輪読#6
PRML輪読#6PRML輪読#6
PRML輪読#6matsuolab
 
[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative Models[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative ModelsDeep Learning JP
 
PRML復々習レーン#9 6.3-6.3.1
PRML復々習レーン#9 6.3-6.3.1PRML復々習レーン#9 6.3-6.3.1
PRML復々習レーン#9 6.3-6.3.1sleepy_yoshi
 
Direct Sparse Odometryの解説
Direct Sparse Odometryの解説Direct Sparse Odometryの解説
Direct Sparse Odometryの解説Masaya Kaneko
 
Stanの紹介と応用事例(age heapingの統計モデル)
Stanの紹介と応用事例(age heapingの統計モデル)Stanの紹介と応用事例(age heapingの統計モデル)
Stanの紹介と応用事例(age heapingの統計モデル). .
 
[DL輪読会]SOLAR: Deep Structured Representations for Model-Based Reinforcement L...
[DL輪読会]SOLAR: Deep Structured Representations for Model-Based Reinforcement L...[DL輪読会]SOLAR: Deep Structured Representations for Model-Based Reinforcement L...
[DL輪読会]SOLAR: Deep Structured Representations for Model-Based Reinforcement L...Deep Learning JP
 
[論文解説]A Bayesian Perspective on Generalization and Stochastic Gradient Descent
[論文解説]A Bayesian Perspective on Generalization and Stochastic Gradient Descent[論文解説]A Bayesian Perspective on Generalization and Stochastic Gradient Descent
[論文解説]A Bayesian Perspective on Generalization and Stochastic Gradient DescentRyutaro Yamauchi
 
20090924 姿勢推定と回転行列
20090924 姿勢推定と回転行列20090924 姿勢推定と回転行列
20090924 姿勢推定と回転行列Toru Tamaki
 

Semelhante a あなたの心にBridgeSampling (20)

ベイズ統計学の概論的紹介-old
ベイズ統計学の概論的紹介-oldベイズ統計学の概論的紹介-old
ベイズ統計学の概論的紹介-old
 
PRML復々習レーン#3 前回までのあらすじ
PRML復々習レーン#3 前回までのあらすじPRML復々習レーン#3 前回までのあらすじ
PRML復々習レーン#3 前回までのあらすじ
 
A Brief Survey of Schrödinger Bridge (Part I)
A Brief Survey of Schrödinger Bridge (Part I)A Brief Survey of Schrödinger Bridge (Part I)
A Brief Survey of Schrödinger Bridge (Part I)
 
Car rmodel
Car rmodelCar rmodel
Car rmodel
 
Hyperoptとその周辺について
Hyperoptとその周辺についてHyperoptとその周辺について
Hyperoptとその周辺について
 
Large scale gan training for high fidelity natural
Large scale gan training for high fidelity naturalLarge scale gan training for high fidelity natural
Large scale gan training for high fidelity natural
 
PRML chap.10 latter half
PRML chap.10 latter halfPRML chap.10 latter half
PRML chap.10 latter half
 
ベイズ統計によるデータ解析
ベイズ統計によるデータ解析ベイズ統計によるデータ解析
ベイズ統計によるデータ解析
 
Or学会用20160915.ver2
Or学会用20160915.ver2Or学会用20160915.ver2
Or学会用20160915.ver2
 
PRML輪読#6
PRML輪読#6PRML輪読#6
PRML輪読#6
 
[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative Models[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative Models
 
RでAHP
RでAHPRでAHP
RでAHP
 
Prml 10 1
Prml 10 1Prml 10 1
Prml 10 1
 
PRML復々習レーン#9 6.3-6.3.1
PRML復々習レーン#9 6.3-6.3.1PRML復々習レーン#9 6.3-6.3.1
PRML復々習レーン#9 6.3-6.3.1
 
Direct Sparse Odometryの解説
Direct Sparse Odometryの解説Direct Sparse Odometryの解説
Direct Sparse Odometryの解説
 
Stanの紹介と応用事例(age heapingの統計モデル)
Stanの紹介と応用事例(age heapingの統計モデル)Stanの紹介と応用事例(age heapingの統計モデル)
Stanの紹介と応用事例(age heapingの統計モデル)
 
[DL輪読会]SOLAR: Deep Structured Representations for Model-Based Reinforcement L...
[DL輪読会]SOLAR: Deep Structured Representations for Model-Based Reinforcement L...[DL輪読会]SOLAR: Deep Structured Representations for Model-Based Reinforcement L...
[DL輪読会]SOLAR: Deep Structured Representations for Model-Based Reinforcement L...
 
[論文解説]A Bayesian Perspective on Generalization and Stochastic Gradient Descent
[論文解説]A Bayesian Perspective on Generalization and Stochastic Gradient Descent[論文解説]A Bayesian Perspective on Generalization and Stochastic Gradient Descent
[論文解説]A Bayesian Perspective on Generalization and Stochastic Gradient Descent
 
MIRU MIRU わかる GAN
MIRU MIRU わかる GANMIRU MIRU わかる GAN
MIRU MIRU わかる GAN
 
20090924 姿勢推定と回転行列
20090924 姿勢推定と回転行列20090924 姿勢推定と回転行列
20090924 姿勢推定と回転行列
 

Mais de daiki hojo

Bayesian Sushistical Modeling
Bayesian Sushistical ModelingBayesian Sushistical Modeling
Bayesian Sushistical Modelingdaiki hojo
 
心理学におけるオープンサイエンス入門(OSF&PsyArXiv編)
心理学におけるオープンサイエンス入門(OSF&PsyArXiv編)心理学におけるオープンサイエンス入門(OSF&PsyArXiv編)
心理学におけるオープンサイエンス入門(OSF&PsyArXiv編)daiki hojo
 
心理学者のためのJASP入門(操作編)[説明文をよんでください]
心理学者のためのJASP入門(操作編)[説明文をよんでください]心理学者のためのJASP入門(操作編)[説明文をよんでください]
心理学者のためのJASP入門(操作編)[説明文をよんでください]daiki hojo
 
GoogleCalenderをShinyを実装してみた(序) Tokyo.R #66 LT
GoogleCalenderをShinyを実装してみた(序) Tokyo.R #66 LT GoogleCalenderをShinyを実装してみた(序) Tokyo.R #66 LT
GoogleCalenderをShinyを実装してみた(序) Tokyo.R #66 LT daiki hojo
 
Stan勉強会資料(前編)
Stan勉強会資料(前編) Stan勉強会資料(前編)
Stan勉強会資料(前編) daiki hojo
 
MCMCしすぎて締め切り間近に焦っているあなたに贈る便利なgg可視化パッケージ
MCMCしすぎて締め切り間近に焦っているあなたに贈る便利なgg可視化パッケージMCMCしすぎて締め切り間近に焦っているあなたに贈る便利なgg可視化パッケージ
MCMCしすぎて締め切り間近に焦っているあなたに贈る便利なgg可視化パッケージdaiki hojo
 
Stanの事後処理 LTver
Stanの事後処理 LTverStanの事後処理 LTver
Stanの事後処理 LTverdaiki hojo
 
楽にggplotを描く・整える
楽にggplotを描く・整える楽にggplotを描く・整える
楽にggplotを描く・整えるdaiki hojo
 

Mais de daiki hojo (8)

Bayesian Sushistical Modeling
Bayesian Sushistical ModelingBayesian Sushistical Modeling
Bayesian Sushistical Modeling
 
心理学におけるオープンサイエンス入門(OSF&PsyArXiv編)
心理学におけるオープンサイエンス入門(OSF&PsyArXiv編)心理学におけるオープンサイエンス入門(OSF&PsyArXiv編)
心理学におけるオープンサイエンス入門(OSF&PsyArXiv編)
 
心理学者のためのJASP入門(操作編)[説明文をよんでください]
心理学者のためのJASP入門(操作編)[説明文をよんでください]心理学者のためのJASP入門(操作編)[説明文をよんでください]
心理学者のためのJASP入門(操作編)[説明文をよんでください]
 
GoogleCalenderをShinyを実装してみた(序) Tokyo.R #66 LT
GoogleCalenderをShinyを実装してみた(序) Tokyo.R #66 LT GoogleCalenderをShinyを実装してみた(序) Tokyo.R #66 LT
GoogleCalenderをShinyを実装してみた(序) Tokyo.R #66 LT
 
Stan勉強会資料(前編)
Stan勉強会資料(前編) Stan勉強会資料(前編)
Stan勉強会資料(前編)
 
MCMCしすぎて締め切り間近に焦っているあなたに贈る便利なgg可視化パッケージ
MCMCしすぎて締め切り間近に焦っているあなたに贈る便利なgg可視化パッケージMCMCしすぎて締め切り間近に焦っているあなたに贈る便利なgg可視化パッケージ
MCMCしすぎて締め切り間近に焦っているあなたに贈る便利なgg可視化パッケージ
 
Stanの事後処理 LTver
Stanの事後処理 LTverStanの事後処理 LTver
Stanの事後処理 LTver
 
楽にggplotを描く・整える
楽にggplotを描く・整える楽にggplotを描く・整える
楽にggplotを描く・整える
 

あなたの心にBridgeSampling

  • 1. あなたの心に Bridge Sampling 私とあなたの Bayes Factor を求めよう - Bridgeサンプリングを用いたベイズモデルの評価 – 専修大学大学院 文学研究科 M2 北條大樹 2017/10/15 IRT勉強会@専修大学 の資料を修正したものです。
  • 2. 目次 • ベイズファクター • 様々なBF算出方法 • Bridge Sampling • WARP-III • 実際の心理学研究での応用例 • まとめ 2
  • 3. 本スライドの主な文献 ( 上から順に多く引用 ) Gronau• , Q. F., Sarafoglou, A., Matzke, D., Ly, A., Boehm, U., Marsman, M., ... & Steingroever, H. (2017). A tutorial on bridge sampling. arXiv preprint arXiv:1703.05984v2. Gronau• , Q. F., Wagenmakers, E. J., Heck, D. W., & Matzke, D. (2017). A Simple Method for Comparing Complex Models: Bayesian Model Comparison for Hierarchical Multinomial Processing Tree Models using Warp-III Bridge Sampling. Wang, L., & Meng, X. L. (• 2016). Warp bridge sampling: the next generation. arXiv preprint arXiv:1609.07690. Meng, X. L., & Schilling, S. (• 2002). Warp bridge sampling. Journal of Computational and Graphical Statistics, 11(3), 552-586. 3
  • 4. ベイズファクター • パラメータ推定の文脈で、我々の興味のあるパラメータθの不 確かさを観測データyから求めるとき 𝑝 𝜃 𝑦 = 𝑝 𝑦 𝜃 𝑝(𝜃) 𝑝(𝑦) と表される。 • モデル比較の文脈では、 m 個の候補モデルがあり、データ y を 所与としたときの i 番目のモデルの相対的な最もらしさを表す モデル事後確率は、 𝑝(𝑀𝑖|𝑦) = 𝑝 𝑦 𝑀𝑖 𝑝(𝑀𝑖) Σ𝑗=1 𝑚 𝑝(𝑦|𝑀𝑗)𝑝(𝑀𝑗) 事前分布尤度 事後分布 周辺尤度 Σ 周辺尤度×事前モデル確率 事後モデル確率 事後モデル確率 = 周辺尤度×事前モデル確率 / 候補すべての周辺尤度×事前モデル確率 4
  • 5. ベイズファクター • もしここでm=2だったら... (比較したいモデルが2つのみ) • つまりオッズで表すことが可能 • 次のようにも 5 𝑝(𝑀1|𝑦) = 𝑝 𝑦 𝑀1 𝑝(𝑀1) Σ𝑗=1 𝑚 𝑝(𝑦|𝑀𝑗)𝑝(𝑀𝑗) 𝑝(𝑀2|𝑦) = 𝑝 𝑦 𝑀2 𝑝(𝑀2) Σ𝑗=1 𝑚 𝑝(𝑦|𝑀𝑗)𝑝(𝑀𝑗) 同じ 𝑝 𝑀1 𝑦 𝑝 𝑀2 𝑦 = 𝑝 𝑦 𝑀1 𝑝 𝑦 𝑀2 × 𝑝 𝑀1 𝑝(𝑀2) 事後オッズ 事前オッズベイズファクター 𝐵𝐹12 = 𝑝 𝑦 𝑀1 𝑝 𝑦 𝑀2 = 𝑝 𝑀1 𝑦 𝑝 𝑀2 𝑦 𝑝 𝑀1 𝑝(𝑀2) ベイズファクター 事後オッズ 事前オッズ ベイズファクターとは、データによって与えられたモデル𝑴 𝟐に比して モデル𝑴 𝟏を支持する程度(オッズ)の変化を表す
  • 6. ベイズファクターって何? ある• 者は、、、 “standard Bayesian solution to the hypothesis testing and model selection problems” (Lewis & Rftery, 1997, p648) またある• 者は、、、 “the primary tool used in Bayesian inference for hypothesis testing and model selection” (Berger, 2006, p.378) それなのになぜBFを使わないのか? 6
  • 7. Q. なぜBFを使わないのか? A. 使わないというよりは、使えない(解析的に周辺尤度を計算で きない)ケースが多い。✌︎(‘𝜔’✌︎ ) ‫׮‬ ‫׮‬ ‫׮‬ ‫׮‬ ‫׮‬( ✌︎‘𝜔’)✌︎多重積分ワッショイ どんなケースで使えないのか? 非線形• モデル パラメータ• 数が多い場合(特に階層モデル) ⇒むしろ、ベイズファクターを使えるモデルを探すほうが、使え ないモデルを挙げていくより早いかも。。。 7 じゃあ、結局BFは求められないのか?
  • 8. MCMCによる様々なBF(周辺尤度)への近似法 1. Naive Monte Carlo Estimator 2. Importance Sampling Estimator (重点サンプリング法) 3. Generalized Harmonic Mean Estimator (一般化調和平均法??) 4. Bridge Sampling (ブリッジサンプリング) 5. WARP-III bridge sampling or WARP-U bridge sampling 8 今回は、4. 5. の手法を重点的に紹介 1,2,3の詳しい話については、Gronau et al. (2017)を参照し、その後原著へ
  • 9. 再確認: 求めたいもの BF• を求めたい、すなわち、周辺尤度を求めれば勝ち 周辺尤度• って? • 次のようにも… 9 𝐵𝐹12 = 𝑝 𝑦 𝑀1 𝑝 𝑦 𝑀2 𝑝 𝑦 𝑀 = ∫ 𝑝 𝑦 𝜃, 𝑀 𝑝 𝜃 𝑀 𝑑𝜃 周辺尤度 尤度 事前分布 興味のあるモデルで yが観測される確率 = 事前分布を通した尤度の積分 = θを所与とするときの尤度の重み付き平均 (重みというのは事前分布θの最もらしさのこと) 𝑝 𝑦 𝑀 = 𝔼 𝑝𝑟𝑖𝑜𝑟 𝑝 𝑦 𝜃, 𝑀 𝔼 𝑝𝑟𝑖𝑜𝑟は事前分布の期待値を表す。
  • 10. 速習 Naive Monte Carlo Estimator • 周辺尤度を求めたい。ただ、ここでどのモデルのとかはない • これを近似するには、θにおける事前分布からのN個のサンプル で尤度を評価し、その結果を平均すればよい。 • コインの例で考えた具体例は、Gronau et al. (2017) p8-9 にて 10 𝑝 𝑦 𝑀 = 𝔼 𝑝𝑟𝑖𝑜𝑟 𝑝 𝑦 𝜃, 𝑀 𝑝(𝑦) = 𝔼 𝑝𝑟𝑖𝑜𝑟 𝑝 𝑦 𝜃 𝑝(𝑦) = 𝔼 𝑝𝑟𝑖𝑜𝑟 𝑝 𝑦 𝜃 Ƹ𝑝1 𝑦 = 1 𝑁 Σ𝑖=1 𝑁 𝑝 𝑦 ෨𝜃𝑖 ෨𝜃𝑖~𝑝(𝜃) 事前分布からのサンプル尤度の平均 この方法が使えるのは、事前分布と事後分布の形が似ていて、オーバーラップ していることが条件。
  • 11. 速習 Importance Sampling Estimator 事後分布• と’似ていない’事前分布を使うのではなく、importance density(重点密度) 𝑔𝐼𝑆(𝜃)を導入。 重点密度• の特徴は、尤度の高いところのθを重点的にサンプリ ングし、尤度の低いところはあまりサンプリングしない。 以下• のようにして𝑔𝐼𝑆(𝜃)を導入できる。 11 𝑝(𝑦) = ∫ 𝑝 𝑦 𝜃 𝑝 𝜃 𝑑𝜃 = ∫ 𝑝 𝑦 𝜃 𝑝 𝜃 𝑔𝐼𝑆 𝜃 𝑔𝐼𝑆 𝜃 𝑑𝜃 = න 𝑝 𝑦 𝜃 𝑝 𝜃 𝑔𝐼𝑆 𝜃 𝑔𝐼𝑆 𝜃 𝑑𝜃 = 𝔼 𝑔 𝐼𝑆 𝜃 𝑝 𝑦 𝜃 𝑝 𝜃 𝑔𝐼𝑆 𝜃
  • 12. 速習 Importance Sampling Estimator 実際• に推定するときは、、、 適切• な重点密度はどのような特徴をもつべき? 評価• が簡単 事後分布• と同一の定義域をもつ 事後分布• によく似ている 事後分布• よりも厚い裾(fatter tail)を持つこと 12 Ƹ𝑝2 𝑦 = 1 𝑁 Σ𝑖=1 𝑁 𝑝 𝑦 ෨𝜃𝑖 𝑝 ෨𝜃𝑖 𝑔𝐼𝑆( ෨𝜃𝑖) ෨𝜃𝑖~𝑔𝐼𝑆(𝜃) 重点密度からのサンプル調整された尤度の平均
  • 13. 速習 Importance Sampling Estimator • どのように重点密度を決めるか? • コインの例では、事後分布はβ分布で表せる。そのため適切な重点密度をβ 分布と一様分布の混合分布で定義しようとしている。 • この際、混合分布におけるベータ分布は、事後分布からのサンプルを使っ てモーメント推定をして得たモーメントを用いている。 • モーメント:β分布でいえばα、βパラメータを指し、正規分布でいえば平均と標 準偏差パラメータをさす。 • 最後に、ベータ分布と一様分布の混合具合を決めるチューニング(重み) パラメータを𝑟を用意し、これによってどっちの分布を多めにチューニン グするかを決めて、重点密度分布からのサンプリングを行う。 13 ※ 𝑟の調節が大変。
  • 14. 速習 Generalized Harmonic Mean Estimator • Importance Samplingとは対照的で、thinner tailになるようにする。 • そして、事後分布からのサンプルを使って計算するように変更。 14 1 𝑝 𝑦 = න 1 𝑝 𝑦 𝑔𝐼𝑆 𝜃 𝑑𝜃 = න 𝑝(𝜃|𝑦) 𝑝 𝑦 𝜃 𝑝 𝜃 𝑔𝐼𝑆 𝜃 𝑑𝜃 = න 𝑔𝐼𝑆 𝜃 𝑝 𝑦 𝜃 𝑝 𝜃 𝑝(𝜃|𝑦)𝑑𝜃 = 𝔼 𝒑𝒐𝒔𝒕 𝑔𝐼𝑆 𝜃 𝑝 𝑦 𝜃 𝑝 𝜃 𝑝 𝑦 = 𝔼 𝒑𝒐𝒔𝒕 𝑔𝐼𝑆 𝜃 𝑝 𝑦 𝜃 𝑝 𝜃 −1 p(y) = 𝔼 𝑔 𝐼𝑆 𝜃 𝑝 𝑦 𝜃 𝑝 𝜃 𝑔𝐼𝑆 𝜃 参考:Importance Sampling • 逆数になっている • 事後分布からのサンプルを使う
  • 15. 速習 Generalized Harmonic Mean Estimator • 実際に推定するときは、、、 • 適切な重点密度はどのような特徴をもつべき? • 評価が簡単 • 事後分布と同一の定義域をもつ • 事後分布によく似ている • 事後分布よりも薄い裾(thinner tail)を持つこと • コインの例では、事後サンプルが0-1の範囲しか取らないので、 サンプルをまず、プロビット変換して、-∞~∞(正規分布)の範囲 で考えられるようにして、Importance Sampling 同様にモーメン ト推定を行う。 15 Ƹ𝑝3 𝑦 = 1 𝑁 Σ𝑗=1 𝑁 𝑔𝐼𝑆 𝜃𝑗 ∗ 𝑝 𝑦 𝜃𝑗 ∗ 𝑝 𝜃𝑗 ∗ −1 𝜃𝑗 ∗ ~𝑝(𝜃|𝑦) 重点密度 尤度 事前分布 事後分布からの サンプル 注: 𝜃𝑗 ∗ と ෨𝜃𝑖は、違う分布 からサンプリングされ ていることに注意
  • 16. 速習 Generalized Harmonic Mean Estimator プロビット• 変換をして考える場合 と表現できる 16 Ƹ𝑝3 𝑦 = 1 𝑁 Σ𝑗=1 𝑁 𝑔𝐼𝑆 𝜃𝑗 ∗ 𝑝 𝑦 𝜃𝑗 ∗ 𝑝 𝜃𝑗 ∗ −1 𝜃𝑗 ∗ ~𝑝(𝜃|𝑦) 重点密度 尤度 事前分布 事後分布からの サンプル 注: 𝜃𝑗 ∗ と ෨𝜃𝑖は、違う分布 からサンプリングされ ていることに注意 Ƹ𝑝3 𝑦 = 1 𝑁 Σ𝑗=1 𝑁 1 ො𝜎 𝜙 𝜉𝑗 ∗ − Ƹ𝜇 ො𝜎 𝑝 𝑦 Φ(𝜉𝑗 ∗ ) 𝜙 𝜉𝑗 ∗ −1 重点密度 尤度 事前分布 𝜉𝑗 ∗ = Φ−1 𝜃𝑗 ∗ 𝑎𝑛𝑑 𝜃𝑗 ∗ ~𝑝(𝜃|𝑦) 事後分布からのサンプル𝜃𝑗 ∗ を プロビット変換したサンプル𝜉𝑗 ∗
  • 17. ここまでまとめ Importance Sampling• では、重点密度分布からのサンプル ෨𝜃𝑖を利 用して、周辺尤度を求めようとする。 Generalized Harmonic Mean Estimator• では、上記の逆数を考える ことで事後分布からのサンプル𝜃𝑗 ∗ から最適な重点密度分布を 探して周辺尤度を求めようとした。 ただ• 、2つの方法の欠点は、分布の裾に強い仮定(厚いか・薄いか) を置いており、これが高次元空間では満たすことができない。 どうする• ? ⇒ようやく Bridge Sampler が登場。 17 ෨𝜃𝑖 𝜃𝑗 ∗ ℎ()
  • 19. Bridge Sampling ここで• 適当に比を書いてみる。 なんとなく• 周辺尤度𝑝(𝑦)を両辺に掛けてみる。 19 1 = ∫ 𝑝 𝑦 𝜃 𝑝 𝜃 ℎ 𝜃 𝑔 𝜃 𝑑𝜃 ∫ 𝑝 𝑦 𝜃 𝑝 𝜃 ℎ 𝜃 𝑔 𝜃 𝑑𝜃 尤度 事前分布 Bridge関数 提案分布 尤度 事前分布 Bridge関数 提案分布 𝑝 𝑦 = ∫ 𝑝 𝑦 𝜃 𝑝 𝜃 ℎ 𝜃 𝑔 𝜃 𝑑𝜃 ∫ 𝑝 𝑦 𝜃 𝑝 𝜃 𝑝 𝑦 ℎ 𝜃 𝑔 𝜃 𝑑𝜃 = ∫ 𝑝 𝑦 𝜃 𝑝 𝜃 ℎ 𝜃 𝑔 𝜃 𝑑𝜃 ∫ ℎ 𝜃 𝑔 𝜃 𝑝(𝜃|𝑦)𝑑𝜃 提案分布 事後分布
  • 20. Bridge Sampling つづき• 実際• の推定では、 20 𝑝 𝑦 = ∫ 𝑝 𝑦 𝜃 𝑝 𝜃 ℎ 𝜃 𝑔 𝜃 𝑑𝜃 ∫ 𝑝 𝑦 𝜃 𝑝 𝜃 𝑝 𝑦 ℎ 𝜃 𝑔 𝜃 𝑑𝜃 = ∫ 𝑝 𝑦 𝜃 𝑝 𝜃 ℎ 𝜃 𝑔 𝜃 𝑑𝜃 ∫ ℎ 𝜃 𝑔 𝜃 𝑝(𝜃|𝑦)𝑑𝜃 = 𝔼 𝑔 𝜃 (𝑝 𝑦 𝜃 𝑝 𝜃 ℎ 𝜃 ) 𝔼 𝑝𝑜𝑠𝑡(ℎ 𝜃 𝑔 𝜃 ) 提案分布 事後分布 Ƹ𝑝 𝑦 = 1 𝑁2 Σ𝑖=1 𝑁2 𝑝 𝑦 ෨𝜃𝑖 𝑝 ෨𝜃𝑖 ℎ ෨𝜃𝑖 1 𝑁1 Σ𝑖=1 𝑁1 ℎ 𝜃𝑗 ∗ 𝑔 𝜃𝑗 ∗ 提案分布 Bridge関数 Bridge関数 𝜃𝑗 ∗ ~𝑝(𝜃|𝑦)෨𝜃𝑖~𝑔(𝜃) 提案分布から のサンプル 事後分布から のサンプル
  • 21. Bridge Sampling • つづき • 実際の推定では、 21 𝑝 𝑦 = ∫ 𝑝 𝑦 𝜃 𝑝 𝜃 ℎ 𝜃 𝑔 𝜃 𝑑𝜃 ∫ 𝑝 𝑦 𝜃 𝑝 𝜃 𝑝 𝑦 ℎ 𝜃 𝑔 𝜃 𝑑𝜃 = ∫ 𝑝 𝑦 𝜃 𝑝 𝜃 ℎ 𝜃 𝑔 𝜃 𝑑𝜃 ∫ ℎ 𝜃 𝑔 𝜃 𝑝(𝜃|𝑦)𝑑𝜃 = 𝔼 𝑔 𝜃 (𝑝 𝑦 𝜃 𝑝 𝜃 ℎ 𝜃 ) 𝔼 𝑝𝑜𝑠𝑡(ℎ 𝜃 𝑔 𝜃 ) 提案分布 事後分布 Ƹ𝑝 𝑦 = 1 𝑁2 Σ𝑖=1 𝑁2 𝑝 𝑦 ෨𝜃𝑖 𝑝 ෨𝜃𝑖 ℎ ෨𝜃𝑖 1 𝑁1 Σ𝑖=1 𝑁1 ℎ 𝜃𝑗 ∗ 𝑔 𝜃𝑗 ∗ 提案分布 Bridge関数 Bridge関数 𝜃𝑗 ∗ ~𝑝(𝜃|𝑦)෨𝜃𝑖~𝑔(𝜃) 提案分布から のサンプル 事後分布から のサンプル
  • 23. 提案分布はImportance Samplingのあれ • Importance Sampling • Generalized Harmonic Mean Estimator • Bridge Sampling 23
  • 25. 25 最適なBridge関数𝒉()って どんな関数なんだろう? Ƹ𝑝 𝑦 = 1 𝑁2 Σ𝑖=1 𝑁2 𝑝 𝑦 ෨𝜃𝑖 𝑝 ෨𝜃𝑖 ℎ ෨𝜃𝑖 1 𝑁1 Σ𝑖=1 𝑁1 ℎ 𝜃𝑗 ∗ 𝑔 𝜃𝑗 ∗ 提案分布 Bridge関数 Bridge関数
  • 26. 最適なBridge関数(Meng & Wong, 1996) • これが最適。相対的なMSE(平均二乗誤差)を最小にできる • ここで問題がある。 • 周辺尤度𝑝(𝑦)を評価するためℎ(𝜃)を導入したのに、その最適関数に周辺 尤度𝑝(𝑦)が入っている。 • 周辺尤度を求めたいのに周辺尤度を求めないと周辺尤度がわ からない。 ⇒どうする? 26 ℎ 𝜃 = 𝐶 ∙ 1 𝑠1 𝑝 𝑦 𝜃 𝑝 𝜃 + 𝑠2 𝑝 𝑦 𝑔(𝜃) ここで、𝑠1 = N1 𝑁2+𝑁1 , 𝑠2 = N2 𝑁2+𝑁1 , Cは定数 尤度 事前分布 提案分布周辺尤度
  • 27. 何回もこれを計算して収束させたものを使おう • t回目の最適関数ℎ(𝜃)をt+1回目の周辺尤度𝑝(ො𝑦)の式に代入 そして• 、整理した結果 27 ℎ 𝜃 = 𝐶 ∙ 1 𝑠1 𝑝 𝑦 𝜃 𝑝 𝜃 + 𝑠2 Ƹ𝑝 𝑦 𝑡 𝑔(𝜃) Ƹ𝑝 𝑦 𝑡+1 = 1 𝑁2 Σ𝑖=1 𝑁2 𝑝 𝑦 ෨𝜃𝑖 𝑝 ෨𝜃𝑖 𝑠1 𝑝 𝑦 ෨𝜃𝑖 𝑝 ෨𝜃𝑖 + 𝑠2 Ƹ𝑝 𝑦 𝑡 𝑔( ෨𝜃𝑖) 1 𝑁1 Σ𝑖=1 𝑁1 𝑔 𝜃𝑗 ∗ 𝑠1 𝑝 𝑦 𝜃𝑗 ∗ 𝑝 𝜃𝑗 ∗ + 𝑠2 Ƹ𝑝 𝑦 𝑡 𝑔(𝜃𝑗 ∗ ) 𝜃𝑗 ∗ ~𝑝(𝜃|𝑦) ෨𝜃𝑖~𝑔(𝜃) 提案分布から のサンプル 事後分布から のサンプル Ƹ𝑝4 𝑦 𝑡+1 = 1 𝑁2 Σ𝑖=1 𝑁2 𝑙2,𝑖 𝑠1 𝑙2,𝑖 + 𝑠2 Ƹ𝑝4 𝑦 𝑡 1 𝑁1 Σ𝑖=1 𝑁1 1 𝑠1 𝑙1,𝑗 + 𝑠2 Ƹ𝑝4 𝑦 𝑡 𝑙2,𝑖 = 𝑝 𝑦 ෨𝜃𝑖 𝑝 ෨𝜃𝑖 𝑔( ෨𝜃𝑖) 𝑙1,𝑗 = 𝑝 𝑦 𝜃𝑗 ∗ 𝑝 𝜃𝑗 ∗ 𝑔(𝜃𝑗 ∗ ) 𝑠1 = N1 𝑁2 + 𝑁1 , 𝑠2 = N2 𝑁2 + 𝑁1
  • 28. 計算の手順 Gronau, et al.(2017)より引用 28
  • 29. 手順 1. 推定した事後分布から2×N個のサンプルを抽出してくる。 半分• (奇数番目)を𝑁1、半分(偶数番目)を𝑁1に分けておく。 提案分布2. を選ぶ ex) (• 多変量)正規分布 3. 𝑁1サンプルを正規分布(提案分布)に合うように(今回は)プロ ビット変換する 4. 3.で変換した者を利用して正規分布のモーメント(平均・標準 偏差)を推定する。 5. 4.の正規分布から𝑁2サンプルを生成する。 そのサンプルから6. 𝑙2,𝑖を計算する(R等で簡単にできる)。 7. 一番はじめに使っていない方の𝑁1のサンプルを(今回は)プロ ビット変換する。 事後分布8. を用いて、 𝑙1,𝑗を計算する(6.と同様に)。 ブリッジサンプリングの9. 更新を始める。 29
  • 30. Bridge Samplingの弱点 1. 推定した事後分布から2×N個のサンプルを抽出してくる。 • 半分(奇数番目)を𝑁1、半分(偶数番目)を𝑁1に分けておく。 2. 提案分布を選ぶ • ex) (多変量)正規分布 3. 𝑁1サンプルを正規分布(提案分布)に合うように(今回は)プロ ビット変換する 4. 3.で変換した者を利用して正規分布のモーメント(平均・標準 偏差)を推定する。 5. 4.の正規分布から𝑁2サンプルを生成する。 6. そのサンプルから𝑙2,𝑖を計算する(R等で簡単にできる)。 7. 一番はじめに使っていない方の𝑁1のサンプルを(今回は)プロ ビット変換する。 8. 事後分布を用いて、 𝑙1,𝑗を計算する(6.と同様に)。 9. ブリッジサンプリングの更新を始める。 30
  • 31. Bridge Samplingの弱点 • 他の近似方法よりも仮定は緩いが、事後分布と提案分布が似て いて、オーバーラップしている必要がある。 これがかなり• 大事で、ダメだと推定できなくなってしまう。 どうしようか• ? WARP• -III Bridge Sampling ⇒mean/scale/skewness(歪度)を調整する方法 WARP• -U Bridge Sampling ⇒混合分布のようなmulti-modal(多峰)な分布でも上記のよう な調整を行う方法 31
  • 32. WARP-III Gronau et al. (2017) Fig.2 • ヒストグラムが事後分布。実線が標準正規分布(提案分布) 32 この方法で大事なことは 正規化定数を維持した変 換であること。
  • 33. WARP-U Wang & Meng (2016) Fig.3-4 33
  • 34. WARP-U Wang & Meng (2016) Fig.3-4 34 多峰でもやっ ていることは 大体同じ。
  • 36. BridgeSamplingを用いた心理系論文 IGT• 課題でのモデル比較 Gronau et al.(2017) Importance Sampling• で算出した対数周辺尤度とBridgeSamplingで算出し た対数周辺尤度の一致率を示した研究 そして• 、BridgeSamplingを用いて、個人差を考慮した階層モデルにおける 周辺尤度を算出した。 36
  • 37. 今日のまとめ • BridgeSamplingは昔からある方法だが、WARPという計算方法? によってオーバーラップ力を挙げて、BFの計算が正確にできる ようになった。 • StanとJAGSでWARP-III Bridge Samplingを行うパッケー ジ”BridgeSampling”がこの前公開された(WARP-Uは搭載されて いない模様)。 • パッケージの開発者曰く、Stanコードが書ける人なら誰でも OKといっていたので、皆さんならBridge Samplingができないわ けがない。 • BF出してみたいデータがある。なんかやり方よくわからねぇ... ⇒いつでも共同研究のご相談お待ちしています。 37
  • 38. あなたの心に Bridge Sampling 私とあなたの Bayes Factor を求めよう - Bridgeサンプリングを用いたベイズモデルの評価 – 専修大学大学院 文学研究科 M2 北條大樹 2017/10/15 ベイズとIRT勉強会@専修大学