O slideshow foi denunciado.
Seu SlideShare está sendo baixado. ×

データ解析のための統計モデリング入門10章前半

Anúncio
Anúncio
Anúncio
Anúncio
Anúncio
Anúncio
Anúncio
Anúncio
Anúncio
Anúncio
Anúncio
Anúncio
Próximos SlideShares
みどりぼん9章前半
みどりぼん9章前半
Carregando em…3
×

Confira estes a seguir

1 de 48 Anúncio

Mais Conteúdo rRelacionado

Diapositivos para si (20)

Semelhante a データ解析のための統計モデリング入門10章前半 (20)

Anúncio

Mais recentes (20)

データ解析のための統計モデリング入門10章前半

  1. 1. 「データ解析のための統計モデリング⼊入⾨門」 階層ベイズモデル -‐‑‒ GLMMのベイズモデル化 -‐‑‒ 2014/09/30 Akiba Shinya
  2. 2. Title □ ABOUT ME 秋庭 伸也 早稲⽥田⼤大学 -‐‑‒ 機械科学専攻 M2 ! 研究:画像認識識 @aki_̲n1wa バイト:データ分析
  3. 3. Title □ OUTLINE ○これまでの振り返り ○10.1 例例題:個体差と⽣生存種⼦子数(個体差あり) ○10.2 GLMMの階層ベイズモデル化 ○10.3 階層ベイズモデルの推定・予測 ○10.3.1 階層ベイズモデルのMCMCサンプリング ○10.3.2 階層ベイズモデルの事後分布推定と予測 ○まとめ
  4. 4. Title □ これまでの振り返り ○6章:GLMの応⽤用範囲をひろげる ⽣生存種⼦子数のモデリング ! ○7章:⼀一般化線形混合モデル(GLMM) 個体差のある統計モデル ! ○9章:GLMのベイズモデル化 ベイズ統計モデルの事後分布の推定 パラメータの点推定 パラメータの事後分布 の推定
  5. 5. Title □ これまでの振り返り ○6章:GLMの応⽤用範囲をひろげる ⽣生存種⼦子数のモデリング ! ○7章:⼀一般化線形混合モデル(GLMM) 個体差のある統計モデル ! ○9章:GLMのベイズモデル化 ベイズ統計モデルの事後分布の推定 パラメータの点推定 パラメータの事後分布 の推定 パラメータの点推定と事後分布推定ってどんな違いがあるんだっけ? みどりぼんでは、点推定は最尤推定法、事後分布推定はMCMC。
  6. 6. Title Name Date これまでの振り返り 対数尤度関数 対数尤度 パラメータ 最尤推定法とMCMCのイメージ 最尤推定法では対数尤度度が ⼤大きくなるように、パラメータが更更新される
  7. 7. Title Name Date これまでの振り返り 対数尤度関数 最尤推定法とMCMCのイメージ 対数尤度 パラメータ 最尤推定法では対数尤度度が ⼤大きくなるように、パラメータが更更新される
  8. 8. Title Name Date これまでの振り返り 最尤推定法とMCMCのイメージ 収束!(最大値 or 極小値が求まる) 対数尤度関数 対数尤度 パラメータ 最尤推定法では対数尤度度が ⼤大きくなるように、パラメータが更更新される
  9. 9. Title Name Date これまでの振り返り 最尤推定法とMCMCのイメージ 対数尤度関数 対数尤度 そのときのパラメータが推定されたパラメータ パラメータ 最尤推定法では対数尤度度が ⼤大きくなるように、パラメータが更更新される
  10. 10. Title Name Date これまでの振り返り 最尤推定法とMCMCのイメージ 対数尤度 (メトロポリス法) パラメータをランダムに動かす パラメータ
  11. 11. Title Name Date これまでの振り返り 最尤推定法とMCMCのイメージ 対数尤度 (メトロポリス法) パラメータをランダムに動かす パラメータ 対数尤度度が⼤大きくなったら、その⽅方向にパラメータを更更新する
  12. 12. Title Name Date これまでの振り返り 最尤推定法とMCMCのイメージ 対数尤度 (メトロポリス法) パラメータをランダムに動かす パラメータ 対数尤度度が⼤大きくなったら、その⽅方向にパラメータを更更新する 対数尤度度が⼩小さくなったら、ある確率率率で対数尤度度が⼤大きくなるように更更新する
  13. 13. Title Name Date これまでの振り返り 最尤推定法とMCMCのイメージ 対数尤度 (メトロポリス法) パラメータをランダムに動かす パラメータ 対数尤度度が⼤大きくなったら、その⽅方向にパラメータを更更新する 対数尤度度が⼩小さくなったら、ある確率率率で対数尤度度が⼤大きくなるように更更新する フラフラさせる。対数尤度度が⼤大きいところに移動しやすい
  14. 14. Title Name Date これまでの振り返り 最尤推定法とMCMCのイメージ 対数尤度 (メトロポリス法) パラメータ パラメータごとの滞在回数をカウントする
  15. 15. Title Name Date これまでの振り返り 最尤推定法とMCMCのイメージ 対数尤度 (メトロポリス法) パラメータ パラメータごとの滞在回数をカウントする ヒストグラムを作成する
  16. 16. Title Name Date これまでの振り返り 最尤推定法とMCMCのイメージ 対数尤度 スタート位置 注意点 (メトロポリス法) パラメータ 1ステップごとに相関があるので、ステップ数が⼩小さいと分布に隔たりができる 解決⽅方法 ^ 収束するまで動かす -‐‑‒> Rの推定値をみる スタートからある程度度のステップ数を捨てる -‐‑‒> burn-‐‑‒in
  17. 17. Title Name Date これまでの振り返り 最尤推定法とMCMCのイメージ 最尤推定法は パラメータの点推定 MCMCは パラメータの事後分布推定
  18. 18. Title □ OUTLINE ○これまでの振り返り ○10.1 例例題:個体差と⽣生存種⼦子数(個体差あり) ○10.2 GLMMの階層ベイズモデル化 ○10.3 階層ベイズモデルの推定・予測 ○10.3.1 階層ベイズモデルのMCMCサンプリング ○10.3.2 階層ベイズモデルの事後分布推定と予測 ○まとめ
  19. 19. Title □ ○やりたいこと 10.1 例例題:個体差と⽣生存種⼦子数 種⼦子の⽣生存確率率率のモデリング(個体差あり) ○使⽤用するデータ 架空植物から8個の種⼦子を調べて、その中の⽣生存数をカウントしたデータ ⽣生存種⼦子数 観測された個体数 個体 i 種⼦子数 Ni = 8 ⽣生存数 yi = 3 個体数は全部で100個
  20. 20. Title □ ○やりたいこと 10.1 例例題:個体差と⽣生存種⼦子数 種⼦子の⽣生存確率率率のモデリング(個体差あり) ○使⽤用するデータ 架空植物から8個の種⼦子を調べて、その中の⽣生存数をカウントしたデータ ⽣生存種⼦子数 観測された個体数 ⿊黒丸:観測データ ⽩白丸:⽣生存確率率率0.504の⼆二項分布 ⼆二項分布では観測データのばらつきを うまく説明できない。
  21. 21. Title □ OUTLINE ○これまでの振り返り ○10.1 例例題:個体差と⽣生存種⼦子数(個体差あり) ○10.2 GLMMの階層ベイズモデル化 ○10.3 階層ベイズモデルの推定・予測 ○10.3.1 階層ベイズモデルのMCMCサンプリング ○10.3.2 階層ベイズモデルの事後分布推定と予測 ○まとめ
  22. 22. Title 10.2 GLMMの階層ベイズモデル化 種□⼦子⽣生存確率率率qが全個体で共通していると仮定する統計モデルでは、 p.225の図10.1(B)のようなパターンは説明できない。 個体差だけでなく、場所差なども考慮するGLMMの場合は パラメータの最尤推定が困難になる。 →【ベイズ統計モデルとMCMCサンプリングによる事後分布の推定】 各個体で種⼦子の⽣生存確率率率が 違うかもしれないが、 ⽣生存確率率率を全個体共通と 仮定している。
  23. 23. Title 10.2 GLMMの階層ベイズモデル化 □まずは、個体差だけを考慮したMCMCサンプリング(個体差+場所差は後半)
  24. 24. Title 10.2 GLMMの階層ベイズモデル化 【□事後分布 ∝ 尤度度関数 × 事前分布】 β:切切⽚片 r i:個体差 尤度度関数は全100個体の⼆二項分布の積。 { βは全個体に共通のパラメータ r iは個体差のパラメータ ↑この2つのパラメータの事前分布を指定する。
  25. 25. Title □ … 10.2 GLMMの階層ベイズモデル化 βは全個体に共通のパラメータ 平均0, 標準偏差100の正規分布 (無情報事前分布) β:切切⽚片 r i:個体差 【事後分布 ∝ 尤度度関数 × 事前分布】
  26. 26. Title □ β:切切⽚片 r i:個体差 【事後分布 ∝ 尤度度関数 × 事前分布】 … 10.2 GLMMの階層ベイズモデル化 r iは個体差のパラメータ 平均0, 標準偏差 s の正規分布
  27. 27. Title □ β:切切⽚片 r i:個体差 【事後分布 ∝ 尤度度関数 × 事前分布】 … 10.2 GLMMの階層ベイズモデル化 r iは個体差のパラメータ 平均0, 標準偏差 s の正規分布 標準偏差 s の事後分布を推定する。 p(s) = (0から10^4までの連続⼀一様分布)
  28. 28. Title □ β:切切⽚片 r i:個体差 【事後分布 ∝ 尤度度関数 × 事前分布】 … 10.2 GLMMの階層ベイズモデル化 r iは個体差のパラメータ 平均0, 標準偏差 s の正規分布 標準偏差 s の事後分布を推定する。 p(s) = (0から10^4までの連続⼀一様分布) 事前分布のパラメータに、さらに事前分布が 設定されているベイズ統計モデル → 階層ベイズモデル
  29. 29. Title □ OUTLINE ○これまでの振り返り ○10.1 例例題:個体差と⽣生存種⼦子数(個体差あり) ○10.2 GLMMの階層ベイズモデル化 ○10.3 階層ベイズモデルの推定・予測 ○10.3.1 階層ベイズモデルのMCMCサンプリング ○10.3.2 階層ベイズモデルの事後分布推定と予測 ○まとめ
  30. 30. Title □ 10.3 階層ベイズモデルの推定・予測 ○階層ベイズモデルの事後分布
  31. 31. Title □ 10.3 階層ベイズモデルの推定・予測 ○階層ベイズモデルの事後分布 尤度度関数
  32. 32. Title □ 10.3 階層ベイズモデルの推定・予測 ○階層ベイズモデルの事後分布 尤度度関数のパラメータの事前分布 尤度度関数
  33. 33. Title □ 10.3 階層ベイズモデルの推定・予測 ○階層ベイズモデルの事後分布 p(s) = (0から10^4までの連続⼀一様分布) 事前分布のパラメータsの事前分布 尤度度関数 尤度度関数のパラメータの事前分布
  34. 34. BUGSコード model { for (i in 1:N) { Y[i] ~ dbin(q[i], 8) # 二項分布 logit(q[i]) <- beta + r[i] # 生存確率 } ! beta ~ dnorm(0, 1.0E-4) # 無情報事前分布 for (i in 1:N) { r[i] ~ dnorm(0, tau)  # 階層事前分布 } ! tau <- 1 / (s * s) # tau は分散の逆数 s ~ dunif(0, 1.0E+4) # 無情報事前分布 } 10.3.1 階層ベイズモデルのMCMCサンプリング http://www.politicalbubbles.org/bayes_beach/manual14.pdf
  35. 35. BUGSコード model { for (i in 1:N) { Y[i] ~ dbin(q[i], 8) # 二項分布 logit(q[i]) <- beta + r[i] # 生存確率 } ! beta ~ dnorm(0, 1.0E-4) # 無情報事前分布 for (i in 1:N) { r[i] ~ dnorm(0, tau)  # 階層事前分布 } ! tau <- 1 / (s * s) # tau は分散の逆数 s ~ dunif(0, 1.0E+4) # 無情報事前分布 } 10.3.1 階層ベイズモデルのMCMCサンプリング ○⽣生存数Y[i]は⼆二項分布 -‐‑‒ サイズ8 -‐‑‒ ⽣生存確率率率q[i] ! ○⽣生存確率率率q[i]は ロジットリンク関数と 線形予測⼦子 β + r[i] http://www.politicalbubbles.org/bayes_beach/manual14.pdf
  36. 36. BUGSコード model { for (i in 1:N) { Y[i] ~ dbin(q[i], 8) # 二項分布 logit(q[i]) <- beta + r[i] # 生存確率 } ! beta ~ dnorm(0, 1.0E-4) # 無情報事前分布 for (i in 1:N) { r[i] ~ dnorm(0, tau)  # 階層事前分布 } ! tau <- 1 / (s * s) # tau は分散の逆数 s ~ dunif(0, 1.0E+4) # 無情報事前分布 } 10.3.1 階層ベイズモデルのMCMCサンプリング ○各パラメータの事前分布 -‐‑‒ β はひらべったい正規分布 -‐‑‒ r は標準偏差がsの正規分布 -‐‑‒ sは⼀一様分布 http://www.politicalbubbles.org/bayes_beach/manual14.pdf
  37. 37. Stanコード data { int<lower=0> N; int<lower=0> y[N]; } parameters { real beta; real r[N]; real<lower=0> s; } transformed parameters { real q[N]; for (i in 1:N) { q[i] <- inv_logit(beta + r[i]); } } model { y ~ binomial(8, q); beta ~ normal(0, 100); r ~ normal(0, s); s ~ uniform(0, 1.0E+4); } 10.3.1 階層ベイズモデルのMCMCサンプリング
  38. 38. 10.3.1 階層ベイズモデルのMCMCサンプリング data { … } Stanコード data { int<lower=0> N; int<lower=0> y[N]; } parameters { real beta; real r[N]; real<lower=0> s; } transformed parameters { real q[N]; for (i in 1:N) { q[i] <- inv_logit(beta + r[i]); } } model { y ~ binomial(8, q); beta ~ normal(0, 100); r ~ normal(0, s); s ~ uniform(0, 1.0E+4); } 【⼊入⼒力力データ】 データ数 観測データ
  39. 39. 10.3.1 階層ベイズモデルのMCMCサンプリング parameters { … } Stanコード data { int<lower=0> N; int<lower=0> y[N]; } parameters { real beta; real r[N]; real<lower=0> s; } transformed parameters { real q[N]; for (i in 1:N) { q[i] <- inv_logit(beta + r[i]); } } model { y ~ binomial(8, q); beta ~ normal(0, 100); r ~ normal(0, s); s ~ uniform(0, 1.0E+4); } 【推定するパラメータ】 データ数 観測データ 個体ごとのパラメータrはN個
  40. 40. 10.3.1 階層ベイズモデルのMCMCサンプリング transformed parameters { … } Stanコード data { int<lower=0> N; int<lower=0> y[N]; } parameters { real beta; real r[N]; real<lower=0> s; 個体ごとのパラメータrはN個 } transformed parameters { real q[N]; for (i in 1:N) { q[i] <- inv_logit(beta + r[i]); } } model { y ~ binomial(8, q); beta ~ normal(0, 100); r ~ normal(0, s); s ~ uniform(0, 1.0E+4); } 【他のパラメータから 作るパラメータ】 データ数 観測データ 確率率率qは ロジットリンク関数と 線形予測⼦子(beta+r[i])で 与えられる
  41. 41. 10.3.1 階層ベイズモデルのMCMCサンプリング model { … } Stanコード data { int<lower=0> N; int<lower=0> y[N]; } parameters { real beta; real r[N]; real<lower=0> s; 個体ごとのパラメータrはN個 } transformed parameters { real q[N]; for (i in 1:N) { q[i] <- inv_logit(beta + r[i]); } } model { y ~ binomial(8, q); beta ~ normal(0, 100); r ~ normal(0, s); s ~ uniform(0, 1.0E+4); } 【各パラメータを分布で表現】 データ数 観測データ 確率率率qは ロジットリンク関数と 線形予測⼦子(beta+r[i])で 与えられる normal(平均, 標準偏差);
  42. 42. Title Name Date 10.3.2 階層ベイズモデルの事後分布推定と予測 βの事後分布sの事後分布 β, sは全個体共通のパラメータ。
  43. 43. Title Name Date 10.3.2 階層ベイズモデルの事後分布推定と予測 r[i]の事後分布q[i]の分布 r[1], q[1] r[1]が⼩小さい値をとりやすいと、q[1]の⽣生存確率率率は⼩小さくなる
  44. 44. Title Name Date 10.3.2 階層ベイズモデルの事後分布推定と予測 r[i]の事後分布q[i]の分布 r[2], q[2] r[2]が⼤大きい値をとりやすいと、q[2]の⽣生存確率率率は⼤大きくなる
  45. 45. Title Name Date 10.3.2 階層ベイズモデルの事後分布推定と予測 r[i]の事後分布q[i]の分布 r[3], q[3] r[3]がゼロ付近だと、q[3]は0.5を中⼼心とした分布となる
  46. 46. Title Name Date 10.3.2 階層ベイズモデルの事後分布推定と予測 yのMCMCサンプル ⿊黒丸:観測データ ⽩白丸:β, sのMCMCサンプルで 予測した各yの平均値 ⻘青丸:β, sのMCMCサンプルで 予測した各yの中央値 テキストでは中央値だったけど… ⽣生存数0とかは極端な値をとりやすいので 中央値が⼩小さいものになってしまう… 中央値⽣生存数0のカウントを ソートしたグラフ
  47. 47. Title □ まとめ 個体差や場所差などの考慮が必要なGLMMでは、パラメータの最尤推定が難しい → MCMCを使ってみよう 事前分布のパラメータに、さらに事前分布が設定されているベイズ統計モデル → 階層ベイズモデル
  48. 48. Title □ fin

×