O slideshow foi denunciado.
Utilizamos seu perfil e dados de atividades no LinkedIn para personalizar e exibir anúncios mais relevantes. Altere suas preferências de anúncios quando desejar.

Tokyo r53

4.178 visualizações

Publicada em

東京R53で発表したスライドです。
潜在ランクモデルをrstanを使ってベイズ推定しました。

Publicada em: Dados e análise
  • Seja o primeiro a comentar

Tokyo r53

  1. 1. また春に会いましょう ベイズ推定で不合格者を決めたい 2016/04/30 Tokyo.R53 @simizu706
  2. 2. 自己紹介 • @simizu706 – 専門:社会心理学 – 所属:関西学院大学 • ※「かんせいがくいん」 と読む – 趣味:心理統計・ソフトウェア開発 • Web – ブログ:http://norimune.net HiroshimaR#3
  3. 3. 統計分析ソフトHAD
  4. 4. 大学教員の悩み • 試験で誰を合格・不合格させるか・・・ – テストの点数が60点以下というのは妥当か? – IRTを使っても何点で区切ればいいか難しい • ひとつの解決法 – テストデータから,落第させるべきグループを推 定する – 潜在的な「ダメ」学生を推定したい
  5. 5. 潜在ランクモデル • 潜在的な順序グループを推定する – ??? • 因子分析と混合分布モデルの中間 – 因子分析のように,潜在的な次元得点を推定 – 混合分布モデルのように,潜在的なグループを 推定 – その中間 HiroshimaR#3
  6. 6. おさらい:因子分析 • 複数の変数から,潜在的な変数を推定 – 因子:変数の共通部分を取り出したもの – 因子は正規分布で連続量 因子 項目 項目 項目 項目 HiroshimaR#3
  7. 7. おさらい:混合分布モデル • 複数の変数から,潜在的なグループを推定 – データは複数の正規母集団から抽出された – 潜在的な母集団をデータから探り当てる HiroshimaR#3
  8. 8. • 順序性を持った潜在的なグループ – 因子が一次元上に得点化される – データは,質の異なるグループから抽出されたと 考える 因子分析と混合分布の間 順序 因子 項目 項目 項目 項目 HiroshimaR#3
  9. 9. 潜在ランク理論のサイト • 提唱者 – 荘島宏二郎さん(大学入試センター) • Webサイト – http://www.rd.dnc.ac.jp/~shojima/ntt/jindex HiroshimaR#3
  10. 10. 潜在ランク分析あれこれ • Shojima (2007) – ニューラルテスト理論 • 自己組織化マップを用いた,潜在ランク分析 • ノンパラメトリックな項目反応理論として提案 • 入力データは二値か順序 • Shojima (2008) – 潜在ランク理論 • 潜在的な順序グループを推定する一般モデルの提案 • 推定アルゴリズムをEMアルゴリズムに拡張 • テスト理論として,教育学やテスト学の分野で採用 HiroshimaR#3
  11. 11. 【宣伝乙】 • 清水・大坊(2014) 心理学研究 85巻5号 HiroshimaR#3
  12. 12. 【宣伝乙】 • 顧客のブランド・コミットメントのランクを推定 – ランクごとにどういう特徴があるのか – 上のランクに上げるには何が必要か
  13. 13. 潜在ランクモデルの使いどころ • テストや心理尺度は,「1点」の意味が不明 – 実質科学的な違いはほとんどない場合が多い – しかし,クライエント・生徒は,その違いを過剰に評価してし まう • 例:GHQ60(0~60点)の1点の違いはほぼない • 例:テストが78点から80点に上がった!・・・測定誤差の範囲 • 解像度をあえて減らすメリット – ランクが違えば,実質科学的にも意味がある – クライエントや生徒に対するフィードバックも容易 – 各ランクに対して,質的な記述が可能 • 例:ランク1は健康な人,ランク2は社会活動に障害,ランク3では不 安症状が,ランク4ではうつ症が出始めている・・・など HiroshimaR#3
  14. 14. 今回のデータ • 社会心理学の試験の成績 – 248名が20項目のマークシート式試験を受験 – 合格不合格を,テストデータのみから推定したい • 前提とゴール – 20項目がそれぞれベルヌーイ分布に従う – 受験生は,学力にあわせた潜在的なランクに所 属しており,ランクごとに各項目の正答率が違う – 「一番下のランク」を不合格としよう
  15. 15. データの分布
  16. 16. 潜在ランクモデルの難点 • ハイパーパラメータがある – 自己組織化マップを応用した方法なので,ハイ パーパラメータによって結果が変わる • 恣意的になる可能性もある • 現状モデルはハイパーパラメータを評価できない • そうだ,ベイズ推定しよう – 潜在ランクモデルをベイズ推定したい – ハイパーパラメータやランク数を自動推定したい
  17. 17. Generative Topographic Mapping • 自己組織化マップの生成モデル版 – データを低次元空間に写像するのではなく, – 低次元潜在空間から高次元データが生成すると 考える • ベイズモデルをGTMで組む – GTMのほうがベイズの枠組みに乗りやすい – ハイパーパラメータも一緒に推定したい
  18. 18. 1次元GTMとしての潜在ランクモデル • 1次元潜在空間から高次元データが生成 – 規則正しく並べられたノードからデータが生成 – 高次元空間に非線形写像 潜在ランク 多次元データ
  19. 19. Item Response Function • 潜在空間から各項目の正答率への写像 正 答 率 潜在ランク 1 0 ・単調増加制約 ・ガウス過程
  20. 20. モデリング • 混合分布モデル+正則化項 – パラメータがガウス過程に従うと仮定した混合ベ ルヌーイ分布モデル • ロジット変換したものがガウス過程に従う Kはランク数 pkは正答率 πkは混合率 rはランク η,λ,σがハイパーパラメータ ←カーネル関数
  21. 21. ランク数も自動的に知りたい • ディリクレ過程を使えばできるらしい – 理屈はよくわからん – beroberoさんのブログのコードを丸パクり – いらないランクは自動的に混合率が0に縮小する
  22. 22. rstanのADVIで推定 • MCMCでももちろん大丈夫だが・・・ – しかしこの推定をするには,大阪-東京間の新幹線は 短すぎる – stanコードはsampling()と同じでいい • vb()を使うときの注意点 – tol_rel_objの設定がデフォルトが甘すぎる(気がす る)ので,0.001ぐらいに厳しくする – でもデータサイズが小さいと収束しないのでiterをで かめにしておいて,そこそこで収束と判断
  23. 23. stanコード
  24. 24. stanコード
  25. 25. stanコード
  26. 26. stanコード
  27. 27. Rコード • ランク数は多めに10を指定 – 予想では勝手にいい感じのランク数になるはず • 収束基準を厳しめに,収束回数を大きめに – 8100回で無事収束
  28. 28. 混合率を見てみる • print(fit.lra,pars=c("pi")) – 2ランク・・・だと・・?
  29. 29. ランクごとの期待得点 • print(fit.lra,pars=c("score")) – ランク1:54.33点・・・落第点? – ランク2:78.66点
  30. 30. 実際の得点とランクの関係 • Rank1:136名 – 20点~75点 • Rank2:112名 – 65点~100点
  31. 31. 結論 • Rank1の136人が落第 – また春に会いましょう – ※実際にこれで合否は決めてません • 推定ランク数が少ない? – 2値データ20項目という情報の少なさ – 変数がもっと多ければ,ランク数はもっと多く推定 される – WAICなどを使って判断することもできるかも
  32. 32. Enjoy! @simizu706

×