Mais conteúdo relacionado
Mais de hiroki yamaoka (8)
強化学習4章
- 4. 4
手順
1. 方策πを用いて終端状態までデータをサンプルする
2. 価値関数の推定
3. エピソード終了毎に価値関数を更新
モンテカルロ法
𝑠
𝑎 𝑎𝑎
𝑠𝑠𝑠
𝑎
𝑠 終端状態𝑡 = 𝑇
𝑡 = 1
𝑡 = 0
・
・
・
モンテカルロ法のバックアップ木
モンテカルロ法の問題点
• エピソード終了まで価値関数を更新できない
ため,オンライン学習に向かない
• 推定値の偏り(バイアス)が小さい反面,推
定値の分散(バリアンス)が大きくなる
Notas do Editor
- 標本近似の妥当性
近似作用素が真の作用素に収束することが言いたい
- エルゴード性:各状態の滞在確率の極限は初期状態に依存しない