SlideShare uma empresa Scribd logo
1 de 36
Baixar para ler offline
データ解析のための
統計モデリング入門
1
2014. 07. 29.
6章後半 @0kayu
#みどりぼん
japan.R12.6
自己紹介
- @0kayu 岡
- 早稲田大学 M2 機械系
- 研究 機能的脳画像解析
- 来年 アドテク系の会社で働きます
- slide http://www.slideshare.net/
yurieoka37/65-37454378
6章 GLMの応用範囲 後半
3
章 適用例 確率分布 リンク関数 ポイント
前半 生存確率の予測 二項分布 logit
6.5 生存確率の予測 二項分布 logit 交互作用項
6.6 人口密度の予測 ポアソン 対数リンク オフセット
6.7 連続値データ 正規分布 ̶̶
連続値の
最尤推定
6.8
確率変数が

0以上の連続値
ガンマ分布 対数リンク GLMすごい
6.9 ま  と  め
6章 GLMの応用範囲 後半
4
章 適用例 確率分布 リンク関数 ポイント
前半 生存確率の予測 二項分布 logit
6.5 生存確率の予測 二項分布 logit 交互作用項
6.6 人口密度の予測 ポアソン 対数リンク オフセット
6.7 連続値データ 正規分布 ̶̶
連続値の
最尤推定
6.8
確率変数が

0以上の連続値
ガンマ分布 対数リンク GLMすごい
6.9 ま  と  め
これまでの線形予測子
6.5 交互作用項
体サイズ 肥料処理+
交互作用項を追加した線形予測子
!
交互作用項    の考え方
- 植物の体サイズxiと肥料処理の効果fiの「積」の効果
6
6.5 交互作用項
体サイズ 肥料処理+ 交互作用+
肥料処理によって体サイズが変わる
体サイズによって肥料処理の効果が変わる
7
交互作用項を含めたGLM
glm(cbind(y, N-y)~ x * f, family = binomial, data = d)
または
glm(cbind(y,N-y)~x + f + x:f, family=binomial, data=d)
Coefficients:
(Intercept) x fT x:fT
-18.52332 1.85251 -0.06376 0.21634
!
Degrees of Freedom: 99 Total (i.e. Null); 96 Residual
Null Deviance: 499.2
Residual Deviance: 122.4 AIC: 273.6
8
交互作用項のあり・なし
Coefficients:
(Intercept) x fT
-19.536 1.952 2.022
!
Degrees of Freedom: 99 Total (i.e. Null); 97 Residual
Null Deviance: 499.2
Residual Deviance: 123 AIC: 272.2
Coefficients:
(Intercept) x fT x:fT
-18.52332 1.85251 -0.06376 0.21634
!
Degrees of Freedom: 99 Total (i.e. Null); 96 Residual
Null Deviance: 499.2
Residual Deviance: 122.4 AIC: 273.6
あり
なし
9
交互作用項のあり・なし
ありなし
T
C C
T
T logit(qi)=--17.5 + 1.95 x
C logit(qi)=-19.5 + 1.95 x C logit(qi)=-18.5 + 1.85 x
T logit(qi)=-18.6 + 2.07 x
10
交互作用項 β4 の値の比較
β4 (推定値)
T
C C
T
C logit(qi)=-18.5 + 1.85 x
T logit(qi)=-18.6 + 2.28 x
β4 (推定値) 2
C logit(qi)=-18.5 + 1.85 x
T logit(qi)=-18.6 + 2.07 x
交互作用項はむやみにいれない
- 変数増える→交互作用項の数増える→組み合せ爆発!
AIC の値が大きくなったとき
- 交互作用項を多数含んだ統計モデルのAICが最良
- ? 交互作用の効果を過大推定していないか?
- ? 「個体差」「場所差」が大きく影響してないか?
7章以降の個体差・場所差を考慮したGLMを使う
11
交互作用項の使いかた
6章 GLMの応用範囲 後半
12
章 適用例 確率分布 リンク関数 ポイント
前半 生存確率の予測 二項分布 logit
6.5 生存確率の予測 二項分布 logit 交互作用項
6.6 人口密度の予測 ポアソン 対数リンク オフセット
6.7 連続値データ 正規分布 ̶̶
連続値の
最尤推定
6.8
確率変数が

0以上の連続値
ガンマ分布 対数リンク GLMすごい
6.9 ま  と  め
13
観測値に対してやりがちなこと
割り算
変数変換
異なる
観測値の平均
14
観測値に対してやりがちなこと
割り算
変数変換
異なる
観測値の平均
なぜだめなのか
情報が失われる
- 例 野球の打率 3割打者
- 1000打数 300 安打
- 10打数 3安打
変換された値の分布… ?
- 分子/分母にそれぞれ誤差が入った数量どうしを割り算
したとしてその確率分布は… ? ?
15
割り算が使われがちな場面
人口密度を求めたいとき
16
平均個体数 λi
面積 Ai
人口密度
例: 植物の人口密度
データ
!
!
!
目的
- 調査地 i における植物個体数の人口密度 が

明るさ xi にどう影響されているか?
17
面積 A
個体数y
明るさ
x
offset 項
18
×人口密度 =
平均個体数
面積
人口密度 =
平均個体数は、
人口密度が正 → exp
明るさxiに依存 → βxi
人口密度
人口密度は、
offset 項
19
exp でまとめて
オフセット項
×人口密度 =
平均個体数は、
係数βがつかない項
線形予測子は、
人口密度のGLM
対数リンク関数 + ポアソン分布
線形予測子
20
glm(y ~ x, offset = log(A), family = poisson, data = d)
面積 A
個体数y
明るさ
x
結果
21
glm(y ~ x, offset = log(A), family = poisson, data = d)
面積 A
個体数y
明るさ
x
6章 GLMの応用範囲 後半
22
章 適用例 確率分布 リンク関数 ポイント
前半 生存確率の予測 二項分布 logit
6.5 生存確率の予測 二項分布 logit 交互作用項
6.6 人口密度の予測 ポアソン 対数リンク オフセット
6.7 連続値データ 正規分布 ̶̶
連続値の
最尤推定
6.8
確率変数が

0以上の連続値
ガンマ分布 対数リンク GLMすごい
6.9 ま  と  め
正規分布 (ガウス分布)
連続値データのための確率分布
- 平均値 μ ( )
- 標準偏差(データのばらつき)σ を指定可能
正規分布の確率密度関数
23
正規分布 (Rコード)
24
y <- seq(-5, 5, 0.1)
mfrow(c(1,3))
plot(y, dnorm(y, mean = 0, sd = 1), type =“l”)
plot(y, dnorm(y, mean = 0, sd = 3), type =“l”)
plot(y, dnorm(y, mean = 2, sd = 1), type =“l”)
正規分布の確率
25
> pnorm(1.8, 0, 1) - pnorm(1.2, 0, 1)
[1] 0.07914
!
> dnorm(1.5, 0, 1) * 0.6
[1] 0.07771
確率 = 確率密度関数 Δy
最尤推定
yi が,        である確率は、
26
最尤推定
対数尤度は
!
!
連続分布ではσが小さいとき等に、

対数尤度が正の値になったり、AICや逸脱度が負
の値になる場合がある
27
最小二乗法と最尤推定
最小二乗法ではσ=1としているので、第一項が定数
に
28
最小二乗法と一致
6章 GLMの応用範囲 後半
29
章 適用例 確率分布 リンク関数 ポイント
前半 生存確率の予測 二項分布 logit
6.5 生存確率の予測 二項分布 logit 交互作用項
6.6 人口密度の予測 ポアソン 対数リンク オフセット
6.7 連続値データ 正規分布 ̶̶
連続値の
最尤推定
6.8
確率変数が

0以上の連続値
ガンマ分布 対数リンク GLMすごい
6.9 ま  と  め
ガンマ分布
確率変数が0以上の連続確率分布
- 確率密度関数
30
例 花と葉っぱ
花の重量 yi と葉の重量 xi の関係
- 花の重量 yi が平均 μi のガンマ分布に従うとする
平均花重量μi のモデル
- 葉重量x_i の単調増加関数
31
線形予測子
平均花重量
!
右辺で、A=exp(a) として
!
対数をとって
32
ガンマ分布のGLM
対数リンク関数 + ガンマ分布
線形予測子
33
glm(y ~ log(x), family = Gamma(link=“log”),data = d)
Coefficients:
(Intercept) log(x)
-1.0403 0.6833
!
Degrees of Freedom: 49 Total (i.e. Null); 48 Residual
Null Deviance: 35.37
Residual Deviance: 17.25 AIC: -110.9
6章 GLMの応用範囲 後半
34
章 適用例 確率分布 リンク関数 ポイント
前半 生存確率の予測 二項分布 logit
6.5 生存確率の予測 二項分布 logit 交互作用項
6.6 人口密度の予測 ポアソン 対数リンク オフセット
6.7 連続値データ 正規分布 ̶̶
連続値の
最尤推定
6.8
確率変数が

0以上の連続値
ガンマ分布 対数リンク GLMすごい
6.9 ま  と  め
6章 GLMの応用範囲 後半
35
章 適用例 確率分布 リンク関数 ポイント
前半 生存確率の予測 二項分布 logit
6.5 生存確率の予測 二項分布 logit 交互作用項
6.6 人口密度の予測 ポアソン 対数リンク オフセット
6.7 連続値データ 正規分布 ̶̶
連続値の
最尤推定
6.8
確率変数が

0以上の連続値
ガンマ分布 対数リンク GLMすごい
6.9 ↑ この表 ↑
おわり。

Mais conteúdo relacionado

Mais procurados

機械学習モデルのハイパパラメータ最適化
機械学習モデルのハイパパラメータ最適化機械学習モデルのハイパパラメータ最適化
機械学習モデルのハイパパラメータ最適化gree_tech
 
StanとRでベイズ統計モデリング読書会Ch.9
StanとRでベイズ統計モデリング読書会Ch.9StanとRでベイズ統計モデリング読書会Ch.9
StanとRでベイズ統計モデリング読書会Ch.9考司 小杉
 
StanとRでベイズ統計モデリングに関する読書会(Osaka.stan) 第四章
StanとRでベイズ統計モデリングに関する読書会(Osaka.stan) 第四章StanとRでベイズ統計モデリングに関する読書会(Osaka.stan) 第四章
StanとRでベイズ統計モデリングに関する読書会(Osaka.stan) 第四章nocchi_airport
 
ベイズ統計学の概論的紹介
ベイズ統計学の概論的紹介ベイズ統計学の概論的紹介
ベイズ統計学の概論的紹介Naoki Hayashi
 
順序データでもベイズモデリング
順序データでもベイズモデリング順序データでもベイズモデリング
順序データでもベイズモデリング. .
 
ノンパラベイズ入門の入門
ノンパラベイズ入門の入門ノンパラベイズ入門の入門
ノンパラベイズ入門の入門Shuyo Nakatani
 
SEMを用いた縦断データの解析 潜在曲線モデル
SEMを用いた縦断データの解析 潜在曲線モデルSEMを用いた縦断データの解析 潜在曲線モデル
SEMを用いた縦断データの解析 潜在曲線モデルMasaru Tokuoka
 
StanとRでベイズ統計モデリング読書会 導入編(1章~3章)
StanとRでベイズ統計モデリング読書会 導入編(1章~3章)StanとRでベイズ統計モデリング読書会 導入編(1章~3章)
StanとRでベイズ統計モデリング読書会 導入編(1章~3章)Hiroshi Shimizu
 
MCMCでマルチレベルモデル
MCMCでマルチレベルモデルMCMCでマルチレベルモデル
MCMCでマルチレベルモデルHiroshi Shimizu
 
Chapter9 一歩進んだ文法(前半)
Chapter9 一歩進んだ文法(前半)Chapter9 一歩進んだ文法(前半)
Chapter9 一歩進んだ文法(前半)itoyan110
 
自動微分変分ベイズ法の紹介
自動微分変分ベイズ法の紹介自動微分変分ベイズ法の紹介
自動微分変分ベイズ法の紹介Taku Yoshioka
 
「3.1.2最小二乗法の幾何学」PRML勉強会4 @筑波大学 #prml学ぼう
「3.1.2最小二乗法の幾何学」PRML勉強会4 @筑波大学 #prml学ぼう 「3.1.2最小二乗法の幾何学」PRML勉強会4 @筑波大学 #prml学ぼう
「3.1.2最小二乗法の幾何学」PRML勉強会4 @筑波大学 #prml学ぼう Junpei Tsuji
 
ベイズモデリングと仲良くするために
ベイズモデリングと仲良くするためにベイズモデリングと仲良くするために
ベイズモデリングと仲良くするためにShushi Namba
 
変分ベイズ法の説明
変分ベイズ法の説明変分ベイズ法の説明
変分ベイズ法の説明Haruka Ozaki
 
「内積が見えると統計学も見える」第5回 プログラマのための数学勉強会 発表資料
「内積が見えると統計学も見える」第5回 プログラマのための数学勉強会 発表資料 「内積が見えると統計学も見える」第5回 プログラマのための数学勉強会 発表資料
「内積が見えると統計学も見える」第5回 プログラマのための数学勉強会 発表資料 Ken'ichi Matsui
 
3分でわかる多項分布とディリクレ分布
3分でわかる多項分布とディリクレ分布3分でわかる多項分布とディリクレ分布
3分でわかる多項分布とディリクレ分布Junya Saito
 
ベイズ統計入門
ベイズ統計入門ベイズ統計入門
ベイズ統計入門Miyoshi Yuya
 
Stanの便利な事後処理関数
Stanの便利な事後処理関数Stanの便利な事後処理関数
Stanの便利な事後処理関数daiki hojo
 
心理学者のためのGlmm・階層ベイズ
心理学者のためのGlmm・階層ベイズ心理学者のためのGlmm・階層ベイズ
心理学者のためのGlmm・階層ベイズHiroshi Shimizu
 

Mais procurados (20)

機械学習モデルのハイパパラメータ最適化
機械学習モデルのハイパパラメータ最適化機械学習モデルのハイパパラメータ最適化
機械学習モデルのハイパパラメータ最適化
 
StanとRでベイズ統計モデリング読書会Ch.9
StanとRでベイズ統計モデリング読書会Ch.9StanとRでベイズ統計モデリング読書会Ch.9
StanとRでベイズ統計モデリング読書会Ch.9
 
StanとRでベイズ統計モデリングに関する読書会(Osaka.stan) 第四章
StanとRでベイズ統計モデリングに関する読書会(Osaka.stan) 第四章StanとRでベイズ統計モデリングに関する読書会(Osaka.stan) 第四章
StanとRでベイズ統計モデリングに関する読書会(Osaka.stan) 第四章
 
ベイズ統計学の概論的紹介
ベイズ統計学の概論的紹介ベイズ統計学の概論的紹介
ベイズ統計学の概論的紹介
 
順序データでもベイズモデリング
順序データでもベイズモデリング順序データでもベイズモデリング
順序データでもベイズモデリング
 
ノンパラベイズ入門の入門
ノンパラベイズ入門の入門ノンパラベイズ入門の入門
ノンパラベイズ入門の入門
 
SEMを用いた縦断データの解析 潜在曲線モデル
SEMを用いた縦断データの解析 潜在曲線モデルSEMを用いた縦断データの解析 潜在曲線モデル
SEMを用いた縦断データの解析 潜在曲線モデル
 
StanとRでベイズ統計モデリング読書会 導入編(1章~3章)
StanとRでベイズ統計モデリング読書会 導入編(1章~3章)StanとRでベイズ統計モデリング読書会 導入編(1章~3章)
StanとRでベイズ統計モデリング読書会 導入編(1章~3章)
 
MCMCでマルチレベルモデル
MCMCでマルチレベルモデルMCMCでマルチレベルモデル
MCMCでマルチレベルモデル
 
Chapter9 一歩進んだ文法(前半)
Chapter9 一歩進んだ文法(前半)Chapter9 一歩進んだ文法(前半)
Chapter9 一歩進んだ文法(前半)
 
自動微分変分ベイズ法の紹介
自動微分変分ベイズ法の紹介自動微分変分ベイズ法の紹介
自動微分変分ベイズ法の紹介
 
「3.1.2最小二乗法の幾何学」PRML勉強会4 @筑波大学 #prml学ぼう
「3.1.2最小二乗法の幾何学」PRML勉強会4 @筑波大学 #prml学ぼう 「3.1.2最小二乗法の幾何学」PRML勉強会4 @筑波大学 #prml学ぼう
「3.1.2最小二乗法の幾何学」PRML勉強会4 @筑波大学 #prml学ぼう
 
ベイズモデリングと仲良くするために
ベイズモデリングと仲良くするためにベイズモデリングと仲良くするために
ベイズモデリングと仲良くするために
 
変分ベイズ法の説明
変分ベイズ法の説明変分ベイズ法の説明
変分ベイズ法の説明
 
「内積が見えると統計学も見える」第5回 プログラマのための数学勉強会 発表資料
「内積が見えると統計学も見える」第5回 プログラマのための数学勉強会 発表資料 「内積が見えると統計学も見える」第5回 プログラマのための数学勉強会 発表資料
「内積が見えると統計学も見える」第5回 プログラマのための数学勉強会 発表資料
 
社会心理学とGlmm
社会心理学とGlmm社会心理学とGlmm
社会心理学とGlmm
 
3分でわかる多項分布とディリクレ分布
3分でわかる多項分布とディリクレ分布3分でわかる多項分布とディリクレ分布
3分でわかる多項分布とディリクレ分布
 
ベイズ統計入門
ベイズ統計入門ベイズ統計入門
ベイズ統計入門
 
Stanの便利な事後処理関数
Stanの便利な事後処理関数Stanの便利な事後処理関数
Stanの便利な事後処理関数
 
心理学者のためのGlmm・階層ベイズ
心理学者のためのGlmm・階層ベイズ心理学者のためのGlmm・階層ベイズ
心理学者のためのGlmm・階層ベイズ
 

データ解析のための統計モデリング入門 6.5章 後半