Mais conteúdo relacionado
ゲームのモデリング
- 2. 自己紹介
水野 景子 (みずの けいこ)
• 関西学院大学社会学研究科D1
• 日本学術振興会特別研究員 (DC1)
• Twitter: @Mizuno_K5
• ウェブサイト: http://keikomizuno.com/
研究テーマ (専門は社会心理学)
• 社会的ジレンマ状況での意思決定モデルの構築&実証
• サンクション(報酬や罰)の逆効果はなぜ起こるのか
• 社会的価値志向性(SVO)を階層モデルで測定
2021/09/10 アヒル本読書会 2
@Mizuno_K5
- 9. Q学習モデル (1)
𝑄(𝑡+1)
𝑡𝑎𝑘𝑖
= 𝑄𝑡
𝑡𝑎𝑘𝑖
+ 𝜶(𝑅𝑡 − 𝑄𝑡
𝑡𝑎𝑘𝑖
)
𝑄(𝑡+1)
𝑘𝑢𝑠𝑎
= 𝑄𝑡
𝑘𝑢𝑠𝑎
+ 𝜶 (𝑅𝑡 − 𝑄𝑡
𝑘𝑢𝑠𝑎
)
2021/09/11 Tokyo.R
次の時点のQ値 = Q値の累積 + 学習率×報酬予測誤差
たきのぼりとパワーウィップの価値(𝑄)が更新される
次の時点のQ値 = Q値の累積 + 学習率×報酬予測誤差
𝑹𝒕:報酬
攻撃がうまくいくと+100
𝜶: 学習率
1回の経験でどれほど
Q値を更新するか(0~1)
(履歴の参照度合いともいえる)
仮定
初めのQ値はどちらも0で選ばれたほうのわざだけQ値を更新
報酬の大きさや学習率はどちらのわざも同じ
- 16. 今回使ったモデル (Q値の更新部分)
𝑄(𝑡+1)
𝑡𝑎𝑘𝑖
= 𝑄𝑡
𝑡𝑎𝑘𝑖
+ 𝜶(𝑅𝑡 − 𝑄𝑡
𝑡𝑎𝑘𝑖
)
𝑄(𝑡+1)
𝑘𝑢𝑠𝑎
= 𝑄𝑡
𝑘𝑢𝑠𝑎
+ 𝜶 (𝑅𝑡 − 𝑄𝑡
𝑘𝑢𝑠𝑎
)
2021/09/11 Tokyo.R
次の時点のQ値 = Q値の累積 + 学習率×報酬予測誤差
たきのぼりとパワーウィップの価値(𝑄)が更新される
次の時点のQ値 = Q値の累積 + 学習率×報酬予測誤差
𝑹𝒕:報酬
攻撃がうまくいくと+100
𝜶: 学習率
1回の経験でどれほど
Q値を更新するか
(履歴の参照度合いともいえる)
仮定
初めのQ値はどちらも0で選ばれたほうのわざだけQ値を更新
報酬の大きさや学習率はどちらのわざも同じ