4. 案: Q(s, a) を何らかのパラメタライズされた連続モデルでおき、前回
までの手法を適用する。
→ どうモデル化するかはともかく、argmaxaQ の計算が困難。
a が1次元ならともかく、多次元だと計算量が馬鹿にならない。
→ それなら π(a|s) を直接パラメタライズした方がよい。
そもそも行動価値 Q は方策の良し悪しを定義するために導入した指標だが、
最適方策を求める上で Q を更新していくことにこだわる必要はない。
st
π (a|s)= 1 ( a=f (s) )θ θ
0 (otherwise)
f (s)θ
at
環境
rt
st
J (θ | st )
θ を更新
勾配法
この方法で最適方策を推定するイメージは以下(方策勾配)。
パラメタライズした方策
期待収益
→ 期待収益を最大化する方向へ
θ を更新していく(勾配法)。
J (θ | st )
5. 方策勾配による解法
方策 π をパラメタライズされたモデル化し、直接改善する作戦。
…といってもどのようなモデルにすればいいのか → とりあえず状態 s を
代入したら、取るべき行動 a の確率分布を返してくれればよい。
π (a|s)=softmax(θ )θ s a
θ =1手目
「1六歩」の価値
「2六歩」の価値
「3六歩」の価値
「6八飛」の価値
「7八飛」の価値
π (a|s)=softmax(θ Φ(s,a’))θ a
T
① 状態も行動も離散的
② 行動のみ離散的
③ 状態も行動も連続的 π (a|s)=N(Ws ,C)θ ※ d 次元正規分布
例えば、機械学習でおなじみの確率分布:
① のイメージ
赤字が最適化対象パラメータ
a
7. あとは期待収益 J (θ | st ) の θ 勾配方向に θ を更新していけばよい。
θt+1 ← θt + η∇ J (θ | st )
更新時の学習率 η は、一般的な機械学習の手法よろしく頑張って決める。
勾配 ∇ J (θ | st ) の理論式と導出は論文参照。
→ ただし、上の理論式は解析的に求まるとは限らない & 表式に Q が含
まれており、環境のダイナミクスが既知であることを前提とする。
→ 前回のモンテカルロ法や Sarsa / Q学習のように、観測データを利用し
ていくアルゴリズムが望ましい。
θ
R. S. Sutton, D. A. McAllester, S. P. Singh, and Y. Mansour: Policy Gradient
Methods for Reinforcement Learning with Function Approximation, Advances in
Neural Information Processing Systems 12, pp. 1057-1063 (2000).
https://webdocs.cs.ualberta.ca/~sutton/papers/SMSM-NIPS99.pdf
π
θ