ゲームのモデリング

実験ゲームの統計モデリング
水野景子 (関西学院大学社会学研究科/日本学術振興会)
2021/09/11 Tokyo.R

自己紹介
 水野景子 (みずのけいこ)
• 関西学院大学社会学研究科D1
• 日本学術振興会特別研究員 (DC1)
• Twitter: @Mizuno_K5
• ウェブサイト: http://keikomizuno.com/
 研究テーマ (専門は社会心理学)
• 社会的ジレンマ状況での意思決定モデルの構築&実証
• サンクション(報酬や罰)の逆効果はなぜ起こるのか
• 社会的価値志向性(SVO)を階層モデルで測定
2021/09/10 アヒル本読書会 2
@Mizuno_K5

お話しする内容
 Stanによるモデル内のパラメータ推定
 階層モデルの推定がしやすいのもベイズ推定法の長所
 自由にモデルを書けるうえ、それらの比較も簡単！
2021/09/11 Tokyo.R

ギャラドス vs リザードン
2021/09/11 Tokyo.R
こうげき
攻撃わざが効く場合と
効かない場合がある
ギャラドス(自分)
リザードン(相手)

ポケモンを何も知らない人
2021/09/11 Tokyo.R
こうげきわざ
・たきのぼり(水)
・パワーウィップ(草)

強化学習
 「たきのぼり」と「パワーウィップ」はそれぞれ
こうげきが効く確率が決まっている
• それぞれ60%と40%とする
 その他 (自分が交代、”育て方”、すばやさ関係など)は一切無視
 何度も繰り返すうちにどちらを選べばよいかわかる
2021/09/11 Tokyo.R

Q学習モデル (1)
𝑄(𝑡+1)
𝑡𝑎𝑘𝑖
= 𝑄𝑡
𝑡𝑎𝑘𝑖
+ 𝜶(𝑅𝑡 − 𝑄𝑡
𝑡𝑎𝑘𝑖
)
𝑄(𝑡+1)
𝑘𝑢𝑠𝑎
= 𝑄𝑡
𝑘𝑢𝑠𝑎
+ 𝜶 (𝑅𝑡 − 𝑄𝑡
𝑘𝑢𝑠𝑎
)
2021/09/11 Tokyo.R
次の時点のQ値 = Q値の累積 + 学習率×報酬予測誤差
たきのぼりとパワーウィップの価値(𝑄)が更新される
𝑹𝒕:報酬
攻撃がうまくいくと+100
𝜶: 学習率
1回の経験でどれほど
Q値を更新するか(0~1)
(履歴の参照度合いともいえる)
仮定
初めのQ値はどちらも0で選ばれたほうのわざだけQ値を更新
報酬の大きさや学習率はどちらのわざも同じ

Q学習モデル (2)
2021/09/11 Tokyo.R
Q値によってわざの選択が行われる
たきのぼりが選ばれる確率𝑷(𝒕𝒂𝒌𝒊)は
𝑃 𝑡𝑎𝑘𝑖 =
exp 𝜷 ∗ 𝑄𝑡
𝑡𝑎𝑘𝑖
exp(𝜷 ∗ 𝑄𝑡
𝑡𝑎𝑘𝑖
+ exp(𝜷 ∗ 𝑄𝑡
𝑘𝑢𝑠𝑎
)
𝑃 𝑡𝑎𝑘𝑖 =
1
1 + exp(−𝜷 ∗ 𝑄𝑡
𝑡𝑎𝑘𝑖
− 𝑄𝑡
𝑘𝑢𝑠𝑎
)
分母と分子をexp 𝛽 ∗ 𝑄𝑡
𝑡𝑎𝑘𝑖
で割る
𝜷: 逆温度
Q値の差をどれほど
行動に反映するか
(探索傾向ともいえる)
たくさん選択肢がある場合
二択の場合

学習率𝜶と逆温度𝜷をStanで推定してみよう
2021/09/11 Tokyo.R
学習率: 1回の経験でどれほどQ値を更新するか (履歴の参照度合い)
逆温度: Q値の差をどれほど行動に反映するか (探索傾向)
ポケモンを知らない人を
集めてくる 40回試行錯誤

ベイズ推定の本領発揮！階層モデル
2021/09/11 Tokyo.R
ポケモンを知らない人たち
学習率と逆温度は
ひとりひとり
違うのでは？
全員で共通の値
𝜶 𝜶 𝜶
一人ずつ推定
𝜶𝟏 𝜶𝟐 𝜶𝟑
個人差を扱えない！推定効率がよくない！
階層モデルで推定
𝜶
𝜶𝟏 𝜶𝟐 𝜶𝟑
個人差も扱えるし推定効率もよい

StanでQ学習モデルを書く(Q値の更新部分)
2021/09/11 Tokyo.R
個人ごとに学習率と逆温度を推定してね！
初回の価値(Q値)は0でよろしく！
選ばれたほうのわざだけ
Q値を更新してね！

StanでQ学習モデルを書く(わざの選択部分)
2021/09/11 Tokyo.R
Q値の差と逆温度によって選択が決まる

推定結果(個人ごと)
2021/09/11 Tokyo.R
学習率: 履歴の参照度合い。大きいほど直前しか見てない(0~1)
逆温度: 探索傾向。0のとき完全にランダムに選択

今回使ったモデル (Q値の更新部分)
𝑄(𝑡+1)
𝑡𝑎𝑘𝑖
= 𝑄𝑡
𝑡𝑎𝑘𝑖
+ 𝜶(𝑅𝑡 − 𝑄𝑡
𝑡𝑎𝑘𝑖
)
𝑄(𝑡+1)
𝑘𝑢𝑠𝑎
= 𝑄𝑡
𝑘𝑢𝑠𝑎
+ 𝜶 (𝑅𝑡 − 𝑄𝑡
𝑘𝑢𝑠𝑎
)
2021/09/11 Tokyo.R
たきのぼりとパワーウィップの価値(𝑄)が更新される
𝑹𝒕:報酬
𝜶: 学習率
1回の経験でどれほど
Q値を更新するか
(履歴の参照度合いともいえる)
仮定
初めのQ値はどちらも0で選ばれたほうのわざだけQ値を更新
報酬の大きさや学習率はどちらのわざも同じ

もっと色々考えられるよね？
2021/09/11 Tokyo.R
っていう設定だったけど、
うまくいかなかったら-100に
なるのでは
初めのQ値はどちらも0
流石に水が炎に有利くらいは
知ってるだろ
学習率はどちらのわざも同じ
「たきのぼり」がうまくいった
ときのほうが覚えやすいのでは

全部Stanで書けます！
2021/09/11 Tokyo.R
うまくいかなかったら-100に
なるのでは
知ってるだろ

モデルの改良(1)
2021/09/11 Tokyo.R
うまくいかなかったら-100にな
るのでは
失敗したら報酬が-100になるif文を書く！

2021/09/11 Tokyo.R
知ってるだろ
初期値も推定するか重みをつける！

2021/09/11 Tokyo.R
学習率を2種類用意する！

モデル同士の比較も簡単にできる
2021/09/11 Tokyo.R
どのモデルがデータを予測できているか？
情報量規準による比較事後予測チェック

Enjoy !
 Stanによるパラメータ推定をポケモン×強化学習で説明
 階層モデルの推定がしやすいのもベイズ推定法の長所
 自由にモデルを書けるうえ、それらの比較も簡単！
2021/09/11 Tokyo.R

ゲームのモデリング

Recomendados

Recomendados

Mais conteúdo relacionado

Mais procurados

Mais procurados (20)

Último

Último (20)

ゲームのモデリング