SlideShare uma empresa Scribd logo
1 de 32
Baixar para ler offline
また春に会いましょう
ベイズ推定で不合格者を決めたい
2016/04/30 Tokyo.R53
@simizu706
自己紹介
• @simizu706
– 専門:社会心理学
– 所属:関西学院大学
• ※「かんせいがくいん」 と読む
– 趣味:心理統計・ソフトウェア開発
• Web
– ブログ:http://norimune.net
HiroshimaR#3
統計分析ソフトHAD
大学教員の悩み
• 試験で誰を合格・不合格させるか・・・
– テストの点数が60点以下というのは妥当か?
– IRTを使っても何点で区切ればいいか難しい
• ひとつの解決法
– テストデータから,落第させるべきグループを推
定する
– 潜在的な「ダメ」学生を推定したい
潜在ランクモデル
• 潜在的な順序グループを推定する
– ???
• 因子分析と混合分布モデルの中間
– 因子分析のように,潜在的な次元得点を推定
– 混合分布モデルのように,潜在的なグループを
推定
– その中間
HiroshimaR#3
おさらい:因子分析
• 複数の変数から,潜在的な変数を推定
– 因子:変数の共通部分を取り出したもの
– 因子は正規分布で連続量
因子
項目
項目
項目
項目
HiroshimaR#3
おさらい:混合分布モデル
• 複数の変数から,潜在的なグループを推定
– データは複数の正規母集団から抽出された
– 潜在的な母集団をデータから探り当てる
HiroshimaR#3
• 順序性を持った潜在的なグループ
– 因子が一次元上に得点化される
– データは,質の異なるグループから抽出されたと
考える
因子分析と混合分布の間
順序
因子
項目
項目
項目
項目
HiroshimaR#3
潜在ランク理論のサイト
• 提唱者
– 荘島宏二郎さん(大学入試センター)
• Webサイト
– http://www.rd.dnc.ac.jp/~shojima/ntt/jindex
HiroshimaR#3
潜在ランク分析あれこれ
• Shojima (2007)
– ニューラルテスト理論
• 自己組織化マップを用いた,潜在ランク分析
• ノンパラメトリックな項目反応理論として提案
• 入力データは二値か順序
• Shojima (2008)
– 潜在ランク理論
• 潜在的な順序グループを推定する一般モデルの提案
• 推定アルゴリズムをEMアルゴリズムに拡張
• テスト理論として,教育学やテスト学の分野で採用
HiroshimaR#3
【宣伝乙】
• 清水・大坊(2014) 心理学研究 85巻5号
HiroshimaR#3
【宣伝乙】
• 顧客のブランド・コミットメントのランクを推定
– ランクごとにどういう特徴があるのか
– 上のランクに上げるには何が必要か
潜在ランクモデルの使いどころ
• テストや心理尺度は,「1点」の意味が不明
– 実質科学的な違いはほとんどない場合が多い
– しかし,クライエント・生徒は,その違いを過剰に評価してし
まう
• 例:GHQ60(0~60点)の1点の違いはほぼない
• 例:テストが78点から80点に上がった!・・・測定誤差の範囲
• 解像度をあえて減らすメリット
– ランクが違えば,実質科学的にも意味がある
– クライエントや生徒に対するフィードバックも容易
– 各ランクに対して,質的な記述が可能
• 例:ランク1は健康な人,ランク2は社会活動に障害,ランク3では不
安症状が,ランク4ではうつ症が出始めている・・・など
HiroshimaR#3
今回のデータ
• 社会心理学の試験の成績
– 248名が20項目のマークシート式試験を受験
– 合格不合格を,テストデータのみから推定したい
• 前提とゴール
– 20項目がそれぞれベルヌーイ分布に従う
– 受験生は,学力にあわせた潜在的なランクに所
属しており,ランクごとに各項目の正答率が違う
– 「一番下のランク」を不合格としよう
データの分布
潜在ランクモデルの難点
• ハイパーパラメータがある
– 自己組織化マップを応用した方法なので,ハイ
パーパラメータによって結果が変わる
• 恣意的になる可能性もある
• 現状モデルはハイパーパラメータを評価できない
• そうだ,ベイズ推定しよう
– 潜在ランクモデルをベイズ推定したい
– ハイパーパラメータやランク数を自動推定したい
Generative Topographic Mapping
• 自己組織化マップの生成モデル版
– データを低次元空間に写像するのではなく,
– 低次元潜在空間から高次元データが生成すると
考える
• ベイズモデルをGTMで組む
– GTMのほうがベイズの枠組みに乗りやすい
– ハイパーパラメータも一緒に推定したい
1次元GTMとしての潜在ランクモデル
• 1次元潜在空間から高次元データが生成
– 規則正しく並べられたノードからデータが生成
– 高次元空間に非線形写像
潜在ランク
多次元データ
Item Response Function
• 潜在空間から各項目の正答率への写像
正
答
率
潜在ランク
1
0
・単調増加制約
・ガウス過程
モデリング
• 混合分布モデル+正則化項
– パラメータがガウス過程に従うと仮定した混合ベ
ルヌーイ分布モデル
• ロジット変換したものがガウス過程に従う
Kはランク数
pkは正答率
πkは混合率
rはランク
η,λ,σがハイパーパラメータ
←カーネル関数
ランク数も自動的に知りたい
• ディリクレ過程を使えばできるらしい
– 理屈はよくわからん
– beroberoさんのブログのコードを丸パクり
– いらないランクは自動的に混合率が0に縮小する
rstanのADVIで推定
• MCMCでももちろん大丈夫だが・・・
– しかしこの推定をするには,大阪-東京間の新幹線は
短すぎる
– stanコードはsampling()と同じでいい
• vb()を使うときの注意点
– tol_rel_objの設定がデフォルトが甘すぎる(気がす
る)ので,0.001ぐらいに厳しくする
– でもデータサイズが小さいと収束しないのでiterをで
かめにしておいて,そこそこで収束と判断
stanコード
stanコード
stanコード
stanコード
Rコード
• ランク数は多めに10を指定
– 予想では勝手にいい感じのランク数になるはず
• 収束基準を厳しめに,収束回数を大きめに
– 8100回で無事収束
混合率を見てみる
• print(fit.lra,pars=c("pi"))
– 2ランク・・・だと・・?
ランクごとの期待得点
• print(fit.lra,pars=c("score"))
– ランク1:54.33点・・・落第点?
– ランク2:78.66点
実際の得点とランクの関係
• Rank1:136名
– 20点~75点
• Rank2:112名
– 65点~100点
結論
• Rank1の136人が落第
– また春に会いましょう
– ※実際にこれで合否は決めてません
• 推定ランク数が少ない?
– 2値データ20項目という情報の少なさ
– 変数がもっと多ければ,ランク数はもっと多く推定
される
– WAICなどを使って判断することもできるかも
Enjoy!
@simizu706

Mais conteúdo relacionado

Mais procurados

階層ベイズによるワンToワンマーケティング入門
階層ベイズによるワンToワンマーケティング入門階層ベイズによるワンToワンマーケティング入門
階層ベイズによるワンToワンマーケティング入門
shima o
 

Mais procurados (20)

階層ベイズによるワンToワンマーケティング入門
階層ベイズによるワンToワンマーケティング入門階層ベイズによるワンToワンマーケティング入門
階層ベイズによるワンToワンマーケティング入門
 
金融時系列のための深層t過程回帰モデル
金融時系列のための深層t過程回帰モデル金融時系列のための深層t過程回帰モデル
金融時系列のための深層t過程回帰モデル
 
XGBoostからNGBoostまで
XGBoostからNGBoostまでXGBoostからNGBoostまで
XGBoostからNGBoostまで
 
Stanコードの書き方 中級編
Stanコードの書き方 中級編Stanコードの書き方 中級編
Stanコードの書き方 中級編
 
Rで潜在ランク分析
Rで潜在ランク分析Rで潜在ランク分析
Rで潜在ランク分析
 
StanとRでベイズ統計モデリング読書会(Osaka.stan) 第6章
StanとRでベイズ統計モデリング読書会(Osaka.stan) 第6章StanとRでベイズ統計モデリング読書会(Osaka.stan) 第6章
StanとRでベイズ統計モデリング読書会(Osaka.stan) 第6章
 
『バックドア基準の入門』@統数研研究集会
『バックドア基準の入門』@統数研研究集会『バックドア基準の入門』@統数研研究集会
『バックドア基準の入門』@統数研研究集会
 
PRML輪読#13
PRML輪読#13PRML輪読#13
PRML輪読#13
 
変分ベイズ法の説明
変分ベイズ法の説明変分ベイズ法の説明
変分ベイズ法の説明
 
混合モデルを使って反復測定分散分析をする
混合モデルを使って反復測定分散分析をする混合モデルを使って反復測定分散分析をする
混合モデルを使って反復測定分散分析をする
 
ベイズモデリングと仲良くするために
ベイズモデリングと仲良くするためにベイズモデリングと仲良くするために
ベイズモデリングと仲良くするために
 
ベイズ統計モデリングと心理学
ベイズ統計モデリングと心理学ベイズ統計モデリングと心理学
ベイズ統計モデリングと心理学
 
PyMCがあれば,ベイズ推定でもう泣いたりなんかしない
PyMCがあれば,ベイズ推定でもう泣いたりなんかしないPyMCがあれば,ベイズ推定でもう泣いたりなんかしない
PyMCがあれば,ベイズ推定でもう泣いたりなんかしない
 
StanとRでベイズ統計モデリング読書会 導入編(1章~3章)
StanとRでベイズ統計モデリング読書会 導入編(1章~3章)StanとRでベイズ統計モデリング読書会 導入編(1章~3章)
StanとRでベイズ統計モデリング読書会 導入編(1章~3章)
 
階層モデルの分散パラメータの事前分布について
階層モデルの分散パラメータの事前分布について階層モデルの分散パラメータの事前分布について
階層モデルの分散パラメータの事前分布について
 
研究室における研究・実装ノウハウの共有
研究室における研究・実装ノウハウの共有研究室における研究・実装ノウハウの共有
研究室における研究・実装ノウハウの共有
 
強化学習その4
強化学習その4強化学習その4
強化学習その4
 
マルコフ連鎖モンテカルロ法入門-1
マルコフ連鎖モンテカルロ法入門-1マルコフ連鎖モンテカルロ法入門-1
マルコフ連鎖モンテカルロ法入門-1
 
StanとRでベイズ統計モデリング 11章 離散値をとるパラメータ
StanとRでベイズ統計モデリング 11章 離散値をとるパラメータStanとRでベイズ統計モデリング 11章 離散値をとるパラメータ
StanとRでベイズ統計モデリング 11章 離散値をとるパラメータ
 
Mds20190303
Mds20190303Mds20190303
Mds20190303
 

Destaque

Destaque (20)

SapporoR#6 初心者セッションスライド
SapporoR#6 初心者セッションスライドSapporoR#6 初心者セッションスライド
SapporoR#6 初心者セッションスライド
 
心理学者のためのGlmm・階層ベイズ
心理学者のためのGlmm・階層ベイズ心理学者のためのGlmm・階層ベイズ
心理学者のためのGlmm・階層ベイズ
 
エクセルで統計分析 統計プログラムHADについて
エクセルで統計分析 統計プログラムHADについてエクセルで統計分析 統計プログラムHADについて
エクセルで統計分析 統計プログラムHADについて
 
rstanで簡単にGLMMができるglmmstan()を作ってみた
rstanで簡単にGLMMができるglmmstan()を作ってみたrstanで簡単にGLMMができるglmmstan()を作ってみた
rstanで簡単にGLMMができるglmmstan()を作ってみた
 
媒介分析について
媒介分析について媒介分析について
媒介分析について
 
glmmstanパッケージを作ってみた
glmmstanパッケージを作ってみたglmmstanパッケージを作ってみた
glmmstanパッケージを作ってみた
 
社会心理学とGlmm
社会心理学とGlmm社会心理学とGlmm
社会心理学とGlmm
 
Latent rank theory
Latent rank theoryLatent rank theory
Latent rank theory
 
エクセルで統計分析5 マルチレベル分析のやり方
エクセルで統計分析5 マルチレベル分析のやり方エクセルで統計分析5 マルチレベル分析のやり方
エクセルで統計分析5 マルチレベル分析のやり方
 
R stan導入公開版
R stan導入公開版R stan導入公開版
R stan導入公開版
 
Rで因子分析 商用ソフトで実行できない因子分析のあれこれ
Rで因子分析 商用ソフトで実行できない因子分析のあれこれRで因子分析 商用ソフトで実行できない因子分析のあれこれ
Rで因子分析 商用ソフトで実行できない因子分析のあれこれ
 
RStanとShinyStanによるベイズ統計モデリング入門
RStanとShinyStanによるベイズ統計モデリング入門RStanとShinyStanによるベイズ統計モデリング入門
RStanとShinyStanによるベイズ統計モデリング入門
 
マルチレベルモデル講習会 実践編
マルチレベルモデル講習会 実践編マルチレベルモデル講習会 実践編
マルチレベルモデル講習会 実践編
 
エクセルでテキストマイニング TTM2HADの使い方
エクセルでテキストマイニング TTM2HADの使い方エクセルでテキストマイニング TTM2HADの使い方
エクセルでテキストマイニング TTM2HADの使い方
 
RでWAIC
RでWAICRでWAIC
RでWAIC
 
Osaka.Stan #3 Chapter 5-2
Osaka.Stan #3 Chapter 5-2Osaka.Stan #3 Chapter 5-2
Osaka.Stan #3 Chapter 5-2
 
StanとRでベイズ統計モデリングに関する読書会(Osaka.stan) 第四章
StanとRでベイズ統計モデリングに関する読書会(Osaka.stan) 第四章StanとRでベイズ統計モデリングに関する読書会(Osaka.stan) 第四章
StanとRでベイズ統計モデリングに関する読書会(Osaka.stan) 第四章
 
PRML10.6 変分ロジスティック回帰
PRML10.6 変分ロジスティック回帰PRML10.6 変分ロジスティック回帰
PRML10.6 変分ロジスティック回帰
 
ナビゲーションサービスにおける交通規制対策の横浜マラソンへの適用(20160809_第36回交通工学研究会)
ナビゲーションサービスにおける交通規制対策の横浜マラソンへの適用(20160809_第36回交通工学研究会)ナビゲーションサービスにおける交通規制対策の横浜マラソンへの適用(20160809_第36回交通工学研究会)
ナビゲーションサービスにおける交通規制対策の横浜マラソンへの適用(20160809_第36回交通工学研究会)
 
Osaka.stan#2 chap5-1
Osaka.stan#2 chap5-1Osaka.stan#2 chap5-1
Osaka.stan#2 chap5-1
 

Mais de Hiroshi Shimizu

Mais de Hiroshi Shimizu (11)

Cmdstanr入門とreduce_sum()解説
Cmdstanr入門とreduce_sum()解説Cmdstanr入門とreduce_sum()解説
Cmdstanr入門とreduce_sum()解説
 
Stanでガウス過程
Stanでガウス過程Stanでガウス過程
Stanでガウス過程
 
心理学におけるベイズ統計の流行を整理する
心理学におけるベイズ統計の流行を整理する心理学におけるベイズ統計の流行を整理する
心理学におけるベイズ統計の流行を整理する
 
階層ベイズと自由エネルギー
階層ベイズと自由エネルギー階層ベイズと自由エネルギー
階層ベイズと自由エネルギー
 
マルチレベルモデル講習会 理論編
マルチレベルモデル講習会 理論編マルチレベルモデル講習会 理論編
マルチレベルモデル講習会 理論編
 
Excelでも統計分析 HADについて SappoRo.R#3
Excelでも統計分析 HADについて SappoRo.R#3Excelでも統計分析 HADについて SappoRo.R#3
Excelでも統計分析 HADについて SappoRo.R#3
 
エクセルで統計分析2 HADの使い方
エクセルで統計分析2 HADの使い方エクセルで統計分析2 HADの使い方
エクセルで統計分析2 HADの使い方
 
エクセルで統計分析4 因子分析のやり方
エクセルで統計分析4 因子分析のやり方エクセルで統計分析4 因子分析のやり方
エクセルで統計分析4 因子分析のやり方
 
エクセルで統計分析3 回帰分析のやり方
エクセルで統計分析3 回帰分析のやり方エクセルで統計分析3 回帰分析のやり方
エクセルで統計分析3 回帰分析のやり方
 
Mplusの使い方 中級編
Mplusの使い方 中級編Mplusの使い方 中級編
Mplusの使い方 中級編
 
Mplusの使い方 初級編
Mplusの使い方 初級編Mplusの使い方 初級編
Mplusの使い方 初級編
 

Tokyo r53