SlideShare a Scribd company logo
1 of 26
Download to read offline
はじめての統計データ分析勉強会 【#2】
MCMC と正規分布の推測
藤田 元
(合同会社 カノープス/上智大学)
今日取り扱う項目
前回の復習(サラッと)
マルコフ連鎖モンテカルロ法(MCMC)
事後分布(とその代表値)
予測分布
ベイズ的推測と「『信頼区間』と『確信区間』の違い」
生成量(とそこから導き出される各種指標の分布)
ベイズ統計における「仮説検証」
前回の復習(サラッと)
連続型確率変数における期待値と分散
積率系と分位系
ベイズの定理
無情報事前分布:一様分布
ベイズ統計と頻度論的統計学の考え方の違い
連続型確率変数における期待値と分散
連続型確率変数:
各値の確率は定義できず確率密度で表される
確率密度関数で確率分布を表現する
期待値:確率密度関数の期待値
式:
分散:確率密度関数の期待値
式:
確率:確率密度関数の面積で表現される
積率系と分位系の記述統計量
積率系(moment):データの関数の平均
代表値:平均値(mean)
散布度:分散(variance)、標準偏差(SD)
分位系(quantile):順序
代表値:中央値(median)・最頻値(mode)
分位点:四分位点、パーセンタイル点など
積率系は累乗変換に対して不変でない
一次変換には不変
ベイズの定理
ベイズの定理
x=(x1, x2, …, xn) [データ]
θ=(θ1, θ2, …, θm) [パラメタ]とするとき
以下のように定義される
このとき f(x|θ) を尤度、f(θ) を事前分布とよぶ
無情報事前分布
ベイズ統計は、事前分布の選択が恣意的であるという批判が
あった(主観確率)
無情報事前分布:事前分布が事後分布に出来るだけ景況しな
いような確率分布
具体的には:一様分布
事前分布に一様分布を仮定すると、事後分布は尤度のみに影
響をうける
ベイズ統計と頻度論的統計学
頻度論的統計学 ベイズ統計
パラメタ (未知の)固定の値 確率分布
パラメタの推定 最尤推定法(MLE) EAP, MED, MAP
データ 確率分布 所与
事前分布 仮定しない 仮定する(※)
マルコフ連鎖モンテカルロ法
略して、MCMC
MCMCとは:多変量の確率分布からサンプルを抽出(= 乱数を生成す
る)ためのアルゴリズムのことである(岩波データサイエンス 1:17)
事後分布に従う乱数を(大量に)発生させ、事後分布そのものをデー
タとして手にする
同時事後分布に従う乱数を、継続的に発生させ第m期に発生した乱数
を、θ(m)と表記する
幾つかの手法がある
ギブスサンプリング法(GS法)
メトロポリス・ヘイスティング法(MH法)
ハミルトニアンモンテカルロ法(HMC法)
ここではHMC法を利用する(詳しくは豊田(2015)を参照)
マルコフ連鎖モンテカルロ法
乱数の生成に際しては、パラメタの事前分布として一様分布を仮定
( µ 〜 U(0,1000), σ 〜U(0,100) )
バーンイン:生成された乱数のうち初期に生成された乱数 → 同時事後
分布に従わない
事後分布の性質を調べるには、バーンイン以降の有効な乱数を用いる
(m = B+1, B+2, … , M)
チェイン(Chain):乱数列
チェイン数:乱数列の数
図 1-4(p.15)は T=10000 (= [M=(21000-1000)]×5)個の有効な乱数を
用いて描いた散布図
乱数列は、θ(t)(t = 1, 2, …, T) のように表記する
トレースプロット:事後分布から乱数が発生しているか視覚的に評価
マルコフ連鎖モンテカルロ法
乱数列の数値的評価
収束判定指標( ):事後分布から乱数が発生しているかを判
定する指標(チェイン間とチェイン内の散らばりを比較する)
→ チェイン間の散らばりが大きい場合には事後分布から乱数が
発生していないことが疑われる( が望ましい)
有効標本数(neff):生成された乱数が「理想的に無関係である
乱数」の何個分に相当するかの推定値
事後分布とその代表値
事後分布:データが得られた時のパラメタ(母数)の確率分布
データはMCMCによって得る
母数(パラメタ)に関する情報は、すべて事後分布に含まれる
点推定:母数の事後分布を点で代表させる
3つの代表的な点推定量
EAP(θeap):事後分布の平均値
MED(θmed):事後分布の中央値
MAP(θmap):事後分布の最頻値(最大値)
事後分散・事後標準偏差:事後分布の分散と標準偏差 (post.sd)
事後分布の散布度(分散・標準偏差)が小さいと、それだけ点推定の精度が高いと
いうこと
事後標準偏差( , post.sd)は、θ の標準偏差:事後分布がどれだけ
で代表されているか、を表現
事後分布とその代表値
実際に観測できる、EAP( )は、事後分布の平均値であり、推定
値:MCMCをするたびに異なる値になる
一方で真のEAP( )は未知なる固定値
推定量( )の分布を標本分布といい、標本分布の標準偏差を標準
誤差(S.E.)と呼ぶ(推定の精度)
「事後標準偏差」と「標本誤差」の区別
事後標準偏差( )は、事後分布の標準偏差で、標準誤差は標
本分布(複数回 を推定した時の、 の分布の標準偏差)
事後標準偏差も標準誤差も小さいほうが好ましい
事後標準偏差( )が大きい場合 → データ(n)を増やす
標準誤差( )が大きい場合 → 乱数(T)を増やす
事後分布とその代表値
カーネル密度推定によってデータから確率密度関数を推定
予測分布
予測分布:将来観測されるであろうデータ x* の確率分布
2種類の予測分布
事後予測分布:f(x*|x)
→ 事後分布 f(θ|x) による f(x*|θ) の平均
→ パラメタ(θ)が与えられた時の x* の分布
→ 問題はパラメタ(θ)自体が確率的に変動する
→ MCMC をおこなうごとに、パラメタの推定値を計算し、そこから事後予測分布を
求める必要がある(x*(t)
~ f(θ(t)
))
→ 煩雑で取り扱いづらい
条件付き予測分布:
→ パラメタの推定値( )を所与とした時の未来のデータ x* の条件付き確率
→ 点推定値にのみ依存するので、取り扱いやすい
ベイズ的推測
リサーチクエスチョン(RQ)を自覚することが重要
常にRQを自覚し、実質科学的知見を最大限利用すること(cf. 事
前分布・主観確率)
どんなRQがありうるのか?
RQ1:平均値の点推定(µ の点推定)
RQ2:平均値の区間推定(µ の区間推定)
RQ3:平均値の片側区間推定
RQ4:標準偏差の点推定・区間推定(σ の点推定)
RQ5:予測分布の区間推定( x* の区間推定)
→ RQ1-4:母集団のパラメタに関する推測
→ RQ5:将来のデータの分布に関する推測
ベイズ的推測
平均値(µ)に関する推測
EAP:80.6
S.E.:0.01
post.sd:1.9
2.5%:76.8
5%:77.5
50%:80.6
95%:83.7
97.5%:84.4
ベイズ的推測
平均値(µ)に関する推測
点推定(EAP, MED, MAP):
→ EAP = MED = MAP = 80.6(RQ1への答え)
区間推定:µ(t) の平均値である は、µ の事前分布の型状にかかわらず
、正規分布に従う
→ µeap が母平均である母集団からの、µ の無限回の標本抽出と考えるこ
とができる(中心極限定理)
→ 標本分布の2.5%点〜97.5% 点の面積が信頼区間(標準正規分布におい
て信頼区間は -1.96×SD 〜 1.96×SD)
→ SD(標本の標準偏差:S.E.) = 0.01 → 80.6 ± 1.96 × 0.01
→ 信頼区間:[80.58, 80.62](95%信頼区間)(RQ2への答え)
→ 確信区間:[76.8, 84.4](95%確信区間:事後分布の面積が95%)
「信頼区間」と「確信区間」
信頼区間:「Aの信頼区間」というとき、Aは未
知なる固定点(頻度論的)
標本抽出を無限回おこない、同様の区間構成
をしたとき、そのうち95%の回数(サンプリ
ング)は、真値Aを含む
確信区間(信用区間):「Aの確信区間」という
ときA自身が分布する(ベイズ的)
データから確信区間を計算するとき、パラメ
タ自身が95%の確率でその区間に存在する
ベイズ的推測
平均値(σ)に関する推測
EAP:5.6
MED:5.5
MAP:4.7(= MLE)
S.E.:0.01
post. sd:
2.5%:3.6
5%:3.8
50%:5.5
95%:9.0
97.5%:10.1
ベイズ的推測
平均値(σ)に関する推測
EAP:80.6
S.E.:(0.02)
post.sd:6.4
2.5%:68.0
5%:70.4
50%:80.6
95%:90.9
97.5%:93.3
ベイズ的推測
RQへの答え
RQ4:
(1) 標準偏差の点推定
[a] EAP:5.6
[b] MED:5.5
[c] MAP:4.7
(2) 標準偏差の区間推定
[a] 確信区間:[3.6, 10.1]
RQ5:
予想分布の区間推定
[a] 確信区間:[68.0, 93.3]
ベイズ的推測(2):生成量
生成量:MCMC法による標本(データ)θ(t) の関数 g(θ(t))
θ(t) を原料に作られたものが生成量
ここで g は任意の関数
例:g(θ) のEAP推定量は g(θ(t)) から計算可能
生成量を利用すると以下のRQに答えることが可能
RQ6:分散の点推定・区間推定
RQ7:変動係数の点推定・区間推定
RQ8:効果量の点推定
RQ9:効果量の区間推定・片側区間推定の下限・上限
RQ10:%点の点推定・区間推定
RQ11:基準点未満の測定値が観測される確率
RQ12:基準点との比の点推定・区間推定
推定量・区間推定の考え方は前述と同じ、推定結果は p. 47 表2.4 を参照
ベイズ統計における「仮説検証」
研究仮説の真偽を表現する2値変数を利用すると
、研究仮説(U)が正しい確率を調べることがで
きる
頻度論的な仮説検定では、(対立)仮説が正しい
確率を調べることはできなかった
真: :θ(t)
に関して研究仮説が真
偽: :それ以外の場合
ベイズ統計における「仮説検証」
「店舗Bの牛丼の具の重さの平均が85」
研究仮説:Uµ<85
>
> otherwise
ベイズ統計における「仮説検証」
研究仮説:Uµ<85
Uµ<85 が正しい確率は
98.5%
→ 研究仮説が正しいこと
はほぼ検証された

More Related Content

What's hot

グラフィカルモデル入門
グラフィカルモデル入門グラフィカルモデル入門
グラフィカルモデル入門
Kawamoto_Kazuhiko
 
相関と因果について考える:統計的因果推論、その(不)可能性の中心
相関と因果について考える:統計的因果推論、その(不)可能性の中心相関と因果について考える:統計的因果推論、その(不)可能性の中心
相関と因果について考える:統計的因果推論、その(不)可能性の中心
takehikoihayashi
 
比例ハザードモデルはとってもtricky!
比例ハザードモデルはとってもtricky!比例ハザードモデルはとってもtricky!
比例ハザードモデルはとってもtricky!
takehikoihayashi
 
階層ベイズによるワンToワンマーケティング入門
階層ベイズによるワンToワンマーケティング入門階層ベイズによるワンToワンマーケティング入門
階層ベイズによるワンToワンマーケティング入門
shima o
 
ブートストラップ法とその周辺とR
ブートストラップ法とその周辺とRブートストラップ法とその周辺とR
ブートストラップ法とその周辺とR
Daisuke Yoneoka
 

What's hot (20)

グラフィカルモデル入門
グラフィカルモデル入門グラフィカルモデル入門
グラフィカルモデル入門
 
DARM勉強会第3回 (missing data analysis)
DARM勉強会第3回 (missing data analysis)DARM勉強会第3回 (missing data analysis)
DARM勉強会第3回 (missing data analysis)
 
相関と因果について考える:統計的因果推論、その(不)可能性の中心
相関と因果について考える:統計的因果推論、その(不)可能性の中心相関と因果について考える:統計的因果推論、その(不)可能性の中心
相関と因果について考える:統計的因果推論、その(不)可能性の中心
 
あなたの心にBridgeSampling
あなたの心にBridgeSamplingあなたの心にBridgeSampling
あなたの心にBridgeSampling
 
WAICとWBICのご紹介
WAICとWBICのご紹介WAICとWBICのご紹介
WAICとWBICのご紹介
 
ようやく分かった!最尤推定とベイズ推定
ようやく分かった!最尤推定とベイズ推定ようやく分かった!最尤推定とベイズ推定
ようやく分かった!最尤推定とベイズ推定
 
2 3.GLMの基礎
2 3.GLMの基礎2 3.GLMの基礎
2 3.GLMの基礎
 
比例ハザードモデルはとってもtricky!
比例ハザードモデルはとってもtricky!比例ハザードモデルはとってもtricky!
比例ハザードモデルはとってもtricky!
 
ベイズ統計学の概論的紹介-old
ベイズ統計学の概論的紹介-oldベイズ統計学の概論的紹介-old
ベイズ統計学の概論的紹介-old
 
マハラノビス距離とユークリッド距離の違い
マハラノビス距離とユークリッド距離の違いマハラノビス距離とユークリッド距離の違い
マハラノビス距離とユークリッド距離の違い
 
Stanの便利な事後処理関数
Stanの便利な事後処理関数Stanの便利な事後処理関数
Stanの便利な事後処理関数
 
Bayesian Neural Networks : Survey
Bayesian Neural Networks : SurveyBayesian Neural Networks : Survey
Bayesian Neural Networks : Survey
 
機械学習による統計的実験計画(ベイズ最適化を中心に)
機械学習による統計的実験計画(ベイズ最適化を中心に)機械学習による統計的実験計画(ベイズ最適化を中心に)
機械学習による統計的実験計画(ベイズ最適化を中心に)
 
変分ベイズ法の説明
変分ベイズ法の説明変分ベイズ法の説明
変分ベイズ法の説明
 
StanとRでベイズ統計モデリング 11章 離散値をとるパラメータ
StanとRでベイズ統計モデリング 11章 離散値をとるパラメータStanとRでベイズ統計モデリング 11章 離散値をとるパラメータ
StanとRでベイズ統計モデリング 11章 離散値をとるパラメータ
 
統計的因果推論への招待 -因果構造探索を中心に-
統計的因果推論への招待 -因果構造探索を中心に-統計的因果推論への招待 -因果構造探索を中心に-
統計的因果推論への招待 -因果構造探索を中心に-
 
階層ベイズによるワンToワンマーケティング入門
階層ベイズによるワンToワンマーケティング入門階層ベイズによるワンToワンマーケティング入門
階層ベイズによるワンToワンマーケティング入門
 
Stan超初心者入門
Stan超初心者入門Stan超初心者入門
Stan超初心者入門
 
ブートストラップ法とその周辺とR
ブートストラップ法とその周辺とRブートストラップ法とその周辺とR
ブートストラップ法とその周辺とR
 
3分でわかる多項分布とディリクレ分布
3分でわかる多項分布とディリクレ分布3分でわかる多項分布とディリクレ分布
3分でわかる多項分布とディリクレ分布
 

MCMCと正規分布の推測