SlideShare uma empresa Scribd logo
1 de 23
実験ゲームの統計モデリング
水野景子 (関西学院大学社会学研究科/日本学術振興会)
2021/09/11 Tokyo.R
自己紹介
 水野 景子 (みずの けいこ)
• 関西学院大学社会学研究科D1
• 日本学術振興会特別研究員 (DC1)
• Twitter: @Mizuno_K5
• ウェブサイト: http://keikomizuno.com/
 研究テーマ (専門は社会心理学)
• 社会的ジレンマ状況での意思決定モデルの構築&実証
• サンクション(報酬や罰)の逆効果はなぜ起こるのか
• 社会的価値志向性(SVO)を階層モデルで測定
2021/09/10 アヒル本読書会 2
@Mizuno_K5
お話しする内容
 Stanによるモデル内のパラメータ推定
 階層モデルの推定がしやすいのもベイズ推定法の長所
 自由にモデルを書けるうえ、それらの比較も簡単!
2021/09/11 Tokyo.R
実験ゲームの統計モデリング
水野景子 (関西学院大学社会学研究科/日本学術振興会)
2021/09/11 Tokyo.R
実験ゲームの統計モデリング
水野景子 (関西学院大学社会学研究科/日本学術振興会)
2021/09/11 Tokyo.R
ギャラドス vs リザードン
2021/09/11 Tokyo.R
こうげき
攻撃わざが効く場合と
効かない場合がある
ギャラドス(自分)
リザードン(相手)
ポケモンを何も知らない人
2021/09/11 Tokyo.R
こうげきわざ
・たきのぼり(水)
・パワーウィップ(草)
強化学習
 「たきのぼり」と「パワーウィップ」はそれぞれ
こうげきが効く確率が決まっている
• それぞれ60%と40%とする
 その他 (自分が交代、”育て方”、すばやさ関係など)は一切無視
 何度も繰り返すうちにどちらを選べばよいかわかる
2021/09/11 Tokyo.R
Q学習モデル (1)
𝑄(𝑡+1)
𝑡𝑎𝑘𝑖
= 𝑄𝑡
𝑡𝑎𝑘𝑖
+ 𝜶(𝑅𝑡 − 𝑄𝑡
𝑡𝑎𝑘𝑖
)
𝑄(𝑡+1)
𝑘𝑢𝑠𝑎
= 𝑄𝑡
𝑘𝑢𝑠𝑎
+ 𝜶 (𝑅𝑡 − 𝑄𝑡
𝑘𝑢𝑠𝑎
)
2021/09/11 Tokyo.R
次の時点のQ値 = Q値の累積 + 学習率×報酬予測誤差
たきのぼりとパワーウィップの価値(𝑄)が更新される
次の時点のQ値 = Q値の累積 + 学習率×報酬予測誤差
𝑹𝒕:報酬
攻撃がうまくいくと+100
𝜶: 学習率
1回の経験でどれほど
Q値を更新するか(0~1)
(履歴の参照度合いともいえる)
仮定
初めのQ値はどちらも0で選ばれたほうのわざだけQ値を更新
報酬の大きさや学習率はどちらのわざも同じ
Q学習モデル (2)
2021/09/11 Tokyo.R
Q値によってわざの選択が行われる
たきのぼりが選ばれる確率𝑷(𝒕𝒂𝒌𝒊)は
𝑃 𝑡𝑎𝑘𝑖 =
exp 𝜷 ∗ 𝑄𝑡
𝑡𝑎𝑘𝑖
exp(𝜷 ∗ 𝑄𝑡
𝑡𝑎𝑘𝑖
+ exp(𝜷 ∗ 𝑄𝑡
𝑘𝑢𝑠𝑎
)
𝑃 𝑡𝑎𝑘𝑖 =
1
1 + exp(−𝜷 ∗ 𝑄𝑡
𝑡𝑎𝑘𝑖
− 𝑄𝑡
𝑘𝑢𝑠𝑎
)
分母と分子をexp 𝛽 ∗ 𝑄𝑡
𝑡𝑎𝑘𝑖
で割る
𝜷: 逆温度
Q値の差をどれほど
行動に反映するか
(探索傾向ともいえる)
たくさん選択肢がある場合
二択の場合
学習率𝜶と逆温度𝜷をStanで推定してみよう
2021/09/11 Tokyo.R
学習率: 1回の経験でどれほどQ値を更新するか (履歴の参照度合い)
逆温度: Q値の差をどれほど行動に反映するか (探索傾向)
ポケモンを知らない人を
集めてくる 40回試行錯誤
ベイズ推定の本領発揮!階層モデル
2021/09/11 Tokyo.R
ポケモンを知らない人たち
学習率と逆温度は
ひとりひとり
違うのでは?
全員で共通の値
𝜶 𝜶 𝜶
一人ずつ推定
𝜶𝟏 𝜶𝟐 𝜶𝟑
個人差を扱えない! 推定効率がよくない!
階層モデルで推定
𝜶
𝜶𝟏 𝜶𝟐 𝜶𝟑
個人差も扱えるし推定効率もよい
StanでQ学習モデルを書く(Q値の更新部分)
2021/09/11 Tokyo.R
個人ごとに学習率と逆温度を推定してね!
初回の価値(Q値)は0でよろしく!
選ばれたほうのわざだけ
Q値を更新してね!
StanでQ学習モデルを書く(わざの選択部分)
2021/09/11 Tokyo.R
Q値の差と逆温度によって選択が決まる
推定結果(個人ごと)
2021/09/11 Tokyo.R
学習率: 履歴の参照度合い。大きいほど直前しか見てない(0~1)
逆温度: 探索傾向。0のとき完全にランダムに選択
今回使ったモデル (Q値の更新部分)
𝑄(𝑡+1)
𝑡𝑎𝑘𝑖
= 𝑄𝑡
𝑡𝑎𝑘𝑖
+ 𝜶(𝑅𝑡 − 𝑄𝑡
𝑡𝑎𝑘𝑖
)
𝑄(𝑡+1)
𝑘𝑢𝑠𝑎
= 𝑄𝑡
𝑘𝑢𝑠𝑎
+ 𝜶 (𝑅𝑡 − 𝑄𝑡
𝑘𝑢𝑠𝑎
)
2021/09/11 Tokyo.R
次の時点のQ値 = Q値の累積 + 学習率×報酬予測誤差
たきのぼりとパワーウィップの価値(𝑄)が更新される
次の時点のQ値 = Q値の累積 + 学習率×報酬予測誤差
𝑹𝒕:報酬
攻撃がうまくいくと+100
𝜶: 学習率
1回の経験でどれほど
Q値を更新するか
(履歴の参照度合いともいえる)
仮定
初めのQ値はどちらも0で選ばれたほうのわざだけQ値を更新
報酬の大きさや学習率はどちらのわざも同じ
もっと色々考えられるよね?
2021/09/11 Tokyo.R
攻撃がうまくいくと+100
っていう設定だったけど、
うまくいかなかったら-100に
なるのでは
初めのQ値はどちらも0
っていう設定だったけど、
流石に水が炎に有利くらいは
知ってるだろ
学習率はどちらのわざも同じ
っていう設定だったけど、
「たきのぼり」がうまくいった
ときのほうが覚えやすいのでは
全部Stanで書けます!
2021/09/11 Tokyo.R
攻撃がうまくいくと+100
っていう設定だったけど、
うまくいかなかったら-100に
なるのでは
初めのQ値はどちらも0
っていう設定だったけど、
流石に水が炎に有利くらいは
知ってるだろ
学習率はどちらのわざも同じ
っていう設定だったけど、
「たきのぼり」がうまくいった
ときのほうが覚えやすいのでは
モデルの改良(1)
2021/09/11 Tokyo.R
攻撃がうまくいくと+100
っていう設定だったけど、
うまくいかなかったら-100にな
るのでは
失敗したら報酬が-100になるif文を書く!
モデルの改良(2)
2021/09/11 Tokyo.R
初めのQ値はどちらも0
っていう設定だったけど、
流石に水が炎に有利くらいは
知ってるだろ
初期値も推定するか重みをつける!
モデルの改良(3)
2021/09/11 Tokyo.R
学習率はどちらのわざも同じ
っていう設定だったけど、
「たきのぼり」がうまくいった
ときのほうが覚えやすいのでは
学習率を2種類用意する!
モデル同士の比較も簡単にできる
2021/09/11 Tokyo.R
どのモデルがデータを予測できているか?
情報量規準による比較 事後予測チェック
Enjoy !
 Stanによるパラメータ推定をポケモン×強化学習で説明
 階層モデルの推定がしやすいのもベイズ推定法の長所
 自由にモデルを書けるうえ、それらの比較も簡単!
2021/09/11 Tokyo.R

Mais conteúdo relacionado

Mais procurados

変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)
Takao Yamanaka
 
ベイズ統計入門
ベイズ統計入門ベイズ統計入門
ベイズ統計入門
Miyoshi Yuya
 

Mais procurados (20)

Chokudai search
Chokudai searchChokudai search
Chokudai search
 
Probabilistic Graphical Models 輪読会 #1
Probabilistic Graphical Models 輪読会 #1Probabilistic Graphical Models 輪読会 #1
Probabilistic Graphical Models 輪読会 #1
 
大規模な組合せ最適化問題に対する発見的解法
大規模な組合せ最適化問題に対する発見的解法大規模な組合せ最適化問題に対する発見的解法
大規模な組合せ最適化問題に対する発見的解法
 
最適輸送の解き方
最適輸送の解き方最適輸送の解き方
最適輸送の解き方
 
線形計画法入門
線形計画法入門線形計画法入門
線形計画法入門
 
カスタムSIで使ってみよう ~ OpenAI Gym を使った強化学習
カスタムSIで使ってみよう ~ OpenAI Gym を使った強化学習カスタムSIで使ってみよう ~ OpenAI Gym を使った強化学習
カスタムSIで使ってみよう ~ OpenAI Gym を使った強化学習
 
変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)
 
DeepLearning 輪読会 第1章 はじめに
DeepLearning 輪読会 第1章 はじめにDeepLearning 輪読会 第1章 はじめに
DeepLearning 輪読会 第1章 はじめに
 
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
 
開発者が語る NVIDIA cuQuantum SDK
開発者が語る NVIDIA cuQuantum SDK開発者が語る NVIDIA cuQuantum SDK
開発者が語る NVIDIA cuQuantum SDK
 
深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)
 
グラフィカル Lasso を用いた異常検知
グラフィカル Lasso を用いた異常検知グラフィカル Lasso を用いた異常検知
グラフィカル Lasso を用いた異常検知
 
lsh
lshlsh
lsh
 
semantic segmentation サーベイ
semantic segmentation サーベイsemantic segmentation サーベイ
semantic segmentation サーベイ
 
ベイズ統計入門
ベイズ統計入門ベイズ統計入門
ベイズ統計入門
 
PreadNet
PreadNetPreadNet
PreadNet
 
【論文読み会】Moser Flow: Divergence-based Generative Modeling on Manifolds
【論文読み会】Moser Flow: Divergence-based Generative Modeling on Manifolds【論文読み会】Moser Flow: Divergence-based Generative Modeling on Manifolds
【論文読み会】Moser Flow: Divergence-based Generative Modeling on Manifolds
 
POMDP下での強化学習の基礎と応用
POMDP下での強化学習の基礎と応用POMDP下での強化学習の基礎と応用
POMDP下での強化学習の基礎と応用
 
[DL輪読会]Meta Reinforcement Learning
[DL輪読会]Meta Reinforcement Learning[DL輪読会]Meta Reinforcement Learning
[DL輪読会]Meta Reinforcement Learning
 
PRML 6.1章 カーネル法と双対表現
PRML 6.1章 カーネル法と双対表現PRML 6.1章 カーネル法と双対表現
PRML 6.1章 カーネル法と双対表現
 

Último

1:1原版定制伦敦政治经济学院毕业证(LSE毕业证)成绩单学位证书留信学历认证
1:1原版定制伦敦政治经济学院毕业证(LSE毕业证)成绩单学位证书留信学历认证1:1原版定制伦敦政治经济学院毕业证(LSE毕业证)成绩单学位证书留信学历认证
1:1原版定制伦敦政治经济学院毕业证(LSE毕业证)成绩单学位证书留信学历认证
dq9vz1isj
 
Abortion pills in Riyadh Saudi Arabia (+966572737505 buy cytotec
Abortion pills in Riyadh Saudi Arabia (+966572737505 buy cytotecAbortion pills in Riyadh Saudi Arabia (+966572737505 buy cytotec
Abortion pills in Riyadh Saudi Arabia (+966572737505 buy cytotec
Abortion pills in Riyadh +966572737505 get cytotec
 
Audience Researchndfhcvnfgvgbhujhgfv.pptx
Audience Researchndfhcvnfgvgbhujhgfv.pptxAudience Researchndfhcvnfgvgbhujhgfv.pptx
Audience Researchndfhcvnfgvgbhujhgfv.pptx
Stephen266013
 
一比一原版纽卡斯尔大学毕业证成绩单如何办理
一比一原版纽卡斯尔大学毕业证成绩单如何办理一比一原版纽卡斯尔大学毕业证成绩单如何办理
一比一原版纽卡斯尔大学毕业证成绩单如何办理
cyebo
 
Abortion pills in Dammam Saudi Arabia// +966572737505 // buy cytotec
Abortion pills in Dammam Saudi Arabia// +966572737505 // buy cytotecAbortion pills in Dammam Saudi Arabia// +966572737505 // buy cytotec
Abortion pills in Dammam Saudi Arabia// +966572737505 // buy cytotec
Abortion pills in Riyadh +966572737505 get cytotec
 
如何办理(UPenn毕业证书)宾夕法尼亚大学毕业证成绩单本科硕士学位证留信学历认证
如何办理(UPenn毕业证书)宾夕法尼亚大学毕业证成绩单本科硕士学位证留信学历认证如何办理(UPenn毕业证书)宾夕法尼亚大学毕业证成绩单本科硕士学位证留信学历认证
如何办理(UPenn毕业证书)宾夕法尼亚大学毕业证成绩单本科硕士学位证留信学历认证
acoha1
 
edited gordis ebook sixth edition david d.pdf
edited gordis ebook sixth edition david d.pdfedited gordis ebook sixth edition david d.pdf
edited gordis ebook sixth edition david d.pdf
great91
 
一比一原版(Monash毕业证书)莫纳什大学毕业证成绩单如何办理
一比一原版(Monash毕业证书)莫纳什大学毕业证成绩单如何办理一比一原版(Monash毕业证书)莫纳什大学毕业证成绩单如何办理
一比一原版(Monash毕业证书)莫纳什大学毕业证成绩单如何办理
pyhepag
 

Último (20)

Atlantic Grupa Case Study (Mintec Data AI)
Atlantic Grupa Case Study (Mintec Data AI)Atlantic Grupa Case Study (Mintec Data AI)
Atlantic Grupa Case Study (Mintec Data AI)
 
社内勉強会資料  Mamba - A new era or ephemeral
社内勉強会資料   Mamba - A new era or ephemeral社内勉強会資料   Mamba - A new era or ephemeral
社内勉強会資料  Mamba - A new era or ephemeral
 
1:1原版定制伦敦政治经济学院毕业证(LSE毕业证)成绩单学位证书留信学历认证
1:1原版定制伦敦政治经济学院毕业证(LSE毕业证)成绩单学位证书留信学历认证1:1原版定制伦敦政治经济学院毕业证(LSE毕业证)成绩单学位证书留信学历认证
1:1原版定制伦敦政治经济学院毕业证(LSE毕业证)成绩单学位证书留信学历认证
 
Generative AI for Trailblazers_ Unlock the Future of AI.pdf
Generative AI for Trailblazers_ Unlock the Future of AI.pdfGenerative AI for Trailblazers_ Unlock the Future of AI.pdf
Generative AI for Trailblazers_ Unlock the Future of AI.pdf
 
Data Visualization Exploring and Explaining with Data 1st Edition by Camm sol...
Data Visualization Exploring and Explaining with Data 1st Edition by Camm sol...Data Visualization Exploring and Explaining with Data 1st Edition by Camm sol...
Data Visualization Exploring and Explaining with Data 1st Edition by Camm sol...
 
AI Imagen for data-storytelling Infographics.pdf
AI Imagen for data-storytelling Infographics.pdfAI Imagen for data-storytelling Infographics.pdf
AI Imagen for data-storytelling Infographics.pdf
 
Heaps & its operation -Max Heap, Min Heap
Heaps & its operation -Max Heap, Min  HeapHeaps & its operation -Max Heap, Min  Heap
Heaps & its operation -Max Heap, Min Heap
 
Abortion pills in Riyadh Saudi Arabia (+966572737505 buy cytotec
Abortion pills in Riyadh Saudi Arabia (+966572737505 buy cytotecAbortion pills in Riyadh Saudi Arabia (+966572737505 buy cytotec
Abortion pills in Riyadh Saudi Arabia (+966572737505 buy cytotec
 
Audience Researchndfhcvnfgvgbhujhgfv.pptx
Audience Researchndfhcvnfgvgbhujhgfv.pptxAudience Researchndfhcvnfgvgbhujhgfv.pptx
Audience Researchndfhcvnfgvgbhujhgfv.pptx
 
一比一原版纽卡斯尔大学毕业证成绩单如何办理
一比一原版纽卡斯尔大学毕业证成绩单如何办理一比一原版纽卡斯尔大学毕业证成绩单如何办理
一比一原版纽卡斯尔大学毕业证成绩单如何办理
 
Formulas dax para power bI de microsoft.pdf
Formulas dax para power bI de microsoft.pdfFormulas dax para power bI de microsoft.pdf
Formulas dax para power bI de microsoft.pdf
 
2024 Q1 Tableau User Group Leader Quarterly Call
2024 Q1 Tableau User Group Leader Quarterly Call2024 Q1 Tableau User Group Leader Quarterly Call
2024 Q1 Tableau User Group Leader Quarterly Call
 
Abortion pills in Dammam Saudi Arabia// +966572737505 // buy cytotec
Abortion pills in Dammam Saudi Arabia// +966572737505 // buy cytotecAbortion pills in Dammam Saudi Arabia// +966572737505 // buy cytotec
Abortion pills in Dammam Saudi Arabia// +966572737505 // buy cytotec
 
Aggregations - The Elasticsearch "GROUP BY"
Aggregations - The Elasticsearch "GROUP BY"Aggregations - The Elasticsearch "GROUP BY"
Aggregations - The Elasticsearch "GROUP BY"
 
如何办理(UPenn毕业证书)宾夕法尼亚大学毕业证成绩单本科硕士学位证留信学历认证
如何办理(UPenn毕业证书)宾夕法尼亚大学毕业证成绩单本科硕士学位证留信学历认证如何办理(UPenn毕业证书)宾夕法尼亚大学毕业证成绩单本科硕士学位证留信学历认证
如何办理(UPenn毕业证书)宾夕法尼亚大学毕业证成绩单本科硕士学位证留信学历认证
 
Artificial_General_Intelligence__storm_gen_article.pdf
Artificial_General_Intelligence__storm_gen_article.pdfArtificial_General_Intelligence__storm_gen_article.pdf
Artificial_General_Intelligence__storm_gen_article.pdf
 
edited gordis ebook sixth edition david d.pdf
edited gordis ebook sixth edition david d.pdfedited gordis ebook sixth edition david d.pdf
edited gordis ebook sixth edition david d.pdf
 
How to Transform Clinical Trial Management with Advanced Data Analytics
How to Transform Clinical Trial Management with Advanced Data AnalyticsHow to Transform Clinical Trial Management with Advanced Data Analytics
How to Transform Clinical Trial Management with Advanced Data Analytics
 
What is Insertion Sort. Its basic information
What is Insertion Sort. Its basic informationWhat is Insertion Sort. Its basic information
What is Insertion Sort. Its basic information
 
一比一原版(Monash毕业证书)莫纳什大学毕业证成绩单如何办理
一比一原版(Monash毕业证书)莫纳什大学毕业证成绩单如何办理一比一原版(Monash毕业证书)莫纳什大学毕业证成绩单如何办理
一比一原版(Monash毕业证书)莫纳什大学毕业证成绩单如何办理
 

ゲームのモデリング