Mais conteúdo relacionado
大富豪に対する機械学習の適用 + α
- 8. 線形行動価値関数
状態 s にて、合法行動 𝑎 の評価 𝑉 を
ベクトルの内積で定義
𝑉(𝑠, 𝑎) = 𝜙 𝑠, 𝑎 ∙ 𝜃
𝑠 : 主観的な状態
𝑎 : 合法行動
𝜙 𝑠, 𝑎 : 状態𝑠で行動𝑎を取る
時の特徴ベクトル
𝜃 ∶ 重みベクトル
(学習対象)
- 9. softmax方策
行動選択確率 𝜋 を以下のように定義
𝜋 𝜃 𝑠, 𝑎 ∝ 𝑒
𝑉(𝑠, 𝑎)
𝑇
𝑠 : 主観的な状態
𝐴 : sにおける合法行動全体
の集合
𝑎 : 合法行動 𝑎 ∈ 𝐴
𝑉 𝑠, 𝑎 : 状態𝑠で行動𝑎を取る
時の行動価値関数
𝜃 ∶ 重みベクトル
(学習対象)
𝑇 : 温度(方策のばらつき)
- 10. 学習手法
学習中の方策 𝜋 𝜃 教師の方策 𝜋∗ のとき誤差関数
(カルバック・ライブラー情報量)
𝐿 𝜋∗, 𝜋 𝜃 = 𝑏∈𝐴{ 𝜋∗(𝑠, 𝑏) ln
𝜋∗(𝑠,𝑏)
𝜋 𝜃(𝑠,𝑏)
}
教師の方策が決定的(確率1で 𝑥 ∈ 𝐴 を選択)のとき交差エントロピーに同じ
𝐿 𝜋∗, 𝜋 𝜃 = −ln(𝜋 𝜃 𝑠, 𝑥 )
棋譜からの学習を行うため、教師の方策は決定的と仮定 → 分類問題
- 11. 学習手法
重みパラメータ 𝜃 の更新式
𝜃 ← 𝜃 +
𝛼
𝑇
[𝜙 𝑠, 𝑥 − 𝑏∈𝐴{𝜙 𝑠, 𝑏 𝜋 𝜃(𝑠, 𝑏)}]
𝑠 : 主観的な状態
𝐴 : sにおける合法行動全体
の集合
𝜃 ∶ 重みベクトル(学習対象)
𝑇 : 温度
𝛼 :学習率
- 20. 世界のゲームAI研究ニュース
DQNがMONTEZUNA’S REVENGE をプレイ
Unifying Count-Based Exploration and Intrinsic Motivation. (Mnih et al., 2016)
動画
https://www.youtube.com/watch?v=0yI2wJ6F8r0
論文を紹介した日本語スライド
http://www.slideshare.net/KatsukiOhto/unifying-count-based-exploration-and-intrinsic-
motivation
- 21. DQN with Intrinsic Motivaton
(Mnih et al., 2016)
count based な intrinsic(内面) motivationで探索促進
高次元空間なので厳密な到達回数を計測しても意味がない!
フレーム予測確率𝜌n(𝑥)から擬似到達回数を算出
擬似到達回数が少ない場合に追加で報酬を与える
Notas do Editor
- 同じページに載せると悲しくなるので
- もっと前に
ランダムシミューレーション?
- もっと前に
ランダムシミューレーション?
- 一般の行動表記a prime, ai
比例関係だけでいい
Tの役割
お待ちかね数式の時間
- 一般の行動表記a prime, ai
比例関係だけでいい
Tの役割
- 何を引くべきか
KL情報量
- 論文に誤りがあったが、実装はこちらだったと書く
- パラメータの詳細をどこかに書く
収束している感じのグラフ
棋譜が混ざっているのか同一プレーヤーなのか
15種類できた
誰か4万試合やってくれ
- 方策関数を出す前に、決定的にプレーできる場合もあることの例を示す。
2人の場合には読み切れる(相手の手札を覚えられる)こと
- 自己実験の前に意見として述べる
- 話が変わるスライド, 学習方法
- 実験条件
- 教師<->プレーヤーのグラフに線を入れる
- 一種の強化学習
- 一種の強化学習