Mastering Atari, Go, Chess and Shogi by Planning with a Learned Model (MuZero)

Mastering Atari, Go, Chess
and Shogi by Planning with a
Learned Model
調和系工学研究室 B4 織田智矢
Julian Schrittwieser,1 Ioannis Antonoglou,1;2 Thomas Hubert,1
Karen Simonyan,1 Laurent Sifre,1 Simon Schmitt,1 Arthur Guez,1
Edward Lockhart,1 Demis Hassabis,1 Thore Graepel,1;2 Timothy Lillicrap,1
David Silver1;2
1DeepMind, 6 Pancras Square, London N1C 4AG.
2University College London, Gower Street, London WC1E 6BT.

概要
• 環境の動作と戦略を同時かつEnd-to-Endに学習する手法の提案
• 木ベースのプランニング手法は（モンテカルロ木など）完璧に
シミュレートできる環境で多くの成功を収めている
• 提案手法はプランニングに最も直接関係する量（報酬、行動選
択方策、価値関数）を予測するモデルを学習
• 事前知識を与えることなく囲碁・チェス・将棋でAlphaZero、
AtariでR2D2(SOTA)を上回る

背景
• チェス・囲碁・将棋などのドメインではAlphaZero等のModel-
Basedな手法が有効
• atari2600のような視覚的な入力を行うドメインはModel-Free
な手法が有効
• 両ドメインに強い汎用的な手法はなかった
• 提案手法はAlphaZeroを改良し，シングルエージェントドメイ
ンや，中間タイムステップで報酬を含むドメインなど，より広
範囲な環境に拡張

強化学習おさらい
強化学習の枠組み
• s : 状態 (state)
• a : 行動 (action)
• r : 報酬 (reward)
• エージェントがある行動atを行って，
環境から次の状態st+1と報酬rt+1を受け取る
という枠組みが基本である
出典 : https://qiita.com/Hironsan/items/56f6c0b2f4cfd28dd906

強化学習の大まかな分類
Model-Free RL
• 環境に対する経験から直接価値関数や方策の学習
を行う
• 一般的なQ学習や前ページのスライドはModel-
Free
Model-Based RL
• まず環境に対する経験から環境のモデルを学習
• そのモデルからnステップのサンプルを取得して価
値関数や方策を学習する
（これをプランニングという)
出典 : https://shirakonotempura.hatenablog.com/entry/2019/02/08/162541, Reinforcement
Learning: An Introduction, R Sutton & A Barto, p.162

学習の流れ
探索について（将棋を例に）
• 一般的な木探索では，それぞれのノード
は次の現実の局面を評価する(ある駒を
動かしたら次の局面は…)
• 提案手法(MuZero)では，現実の局面で
はなく，独自の隠れ状態sに変換
• ゲーム木が右図のように作成されるが，
すべてのノードは隠れ状態sである
つまり，ある局面である行動aを取ったと
きの次の局面を生成するモデルが必要な
い！(学習によって自動的に獲得)

モデルの概要
状態・ダイナミクス・予測の3つのコン
ポーネントで構成
モデルの動作
(A) モデルを仕様したプランニングの方法
• 前の隠れ状態𝑠 𝑘−1と候補行動𝑎 𝑘をダイナミクス関
数𝑔に渡し即時報酬𝑟 𝑘
と次の隠れ状態𝑠 𝑘
を取得
• 初期状態である𝑠0は表現関数ℎから取得
(B) 環境とのインタラクション
• 𝑎 𝑡+1は探索方策𝜋 𝑡から決定
• 環境へ 𝑎 𝑡+1
を渡し, 新しい観測𝑜𝑡+1と報酬𝑢 𝑡+1を受
け取る
• エピソード終わりに履歴をReplay Bufferに保存
隠れ状態 : 𝑠
行動 : 𝑎
報酬 : 𝑟
価値関数 : 𝑣
次行動の確率分布 : 𝒑

(A)モデルを使用したプランニング詳しく
• MCTS(Monte Carlo Tree Search)を一般化した手法を使用
MCTSのノードはを保持する
• N:訪れた数, Q:評価値, P:方策(次行動の確率分布), R:報酬, S:状態
MCTSは次の3ステップ
1. Selection
• ルートノード(𝑠0)から葉ノードまで評価値が高いノードを選択(葉ノード到達をlとおく)
2. Expansion
• ダイナミクス関数から 𝑟 𝑙
, 𝑠 𝑙を受け取り， 𝑅 𝑠 𝑙−1
, 𝑎 𝑙
= 𝑟 𝑙
, S 𝑠 𝑙−1
, 𝑎 𝑙
= 𝑠 𝑙
を現在のノードへ
• {𝑁 = 0, 𝑄 = 0, 𝑃 = 𝒑𝒍}で新しい葉ノード作成
3. Backup
• 親ノードのQを計算，N+=1,
𝑣 𝑡, 𝜋 𝑡 = 𝑀𝐶𝑇𝑆 𝑠𝑡
𝑎 𝑡~𝜋 𝑡
探索方策πはルートノードからの各
行動のノードNに比例

具体的な計算式
For k=l…1
lは葉ノード
UCBベースの木探索手法
c1, c2は評価値Qに対する, 前の行動確率分布Pの影響を制御するイパーパラメータ

モデルの概要
(C) モデルの訓練
• 履歴はReplay Bufferからサンプリング
• 表現関数ℎにサンプリングした履歴から過去
の観測𝑜1, ⋯ , 𝑜𝑡を入力
• モデルはKステップにアンロールされる
• 各ステップkでダイナミクス関数𝑔に𝑠 𝑘−1と
実際にとった行動𝑎 𝑡+𝑘
を入力
これらのℎ, 𝑔, 𝑓の関数（表現，ダイナミク
ス，予測）は3つの量を予測するため
BPTTで同時にend-to-endで学習
3つの量: 𝒑 𝑘
≈ 𝜋 𝑡+𝑘, 𝑣 𝑘
≈ 𝑧𝑡+𝑘, 𝑟𝑡+𝑘 ≈ 𝑢 𝑡+𝑘
𝑧𝑡+𝑘とは最終報酬(board game) or n-step
return(Atari)
隠れ状態 : 𝑠
行動 : 𝑎
報酬 : 𝑟
価値関数 : 𝑣
次行動の確率分布 : 𝑝

モデルの学習概要
プランニングに直接関係がある将来の局面のみを予測したい
方策，価値関数，即時報酬を予測のが目的であるため
隠れ状態は現実の状態と対応が無い
つまり，この3つの量に起因する隠れ状態を学習によって獲得
隠れ状態: 𝑠𝑣 𝑘−1
観測
観測を隠れ状態に変換
𝑠0 = ℎ(o)
次の隠れ状態𝑠 𝑘
前の隠れ状態と，仮の次の行動を受
け取る再帰プロセスによって更新
𝑟 𝑘
, 𝑠 𝑘
= g(𝑠 𝑘−1
, 𝑎 𝑘
)
方策 p
価値関数 v
即時報酬 r
再帰プロセスの各ス
テップにおいて，こ
れら3つの値を予測
𝒑 𝑘 ≈ 𝜋 𝑡+𝑘, 𝑣 𝑘
≈ 𝑧𝑡+𝑘, 𝑟𝑡+𝑘 ≈ 𝑣 𝑡+𝑘
𝑧𝑡+𝑘とは最終報酬(board game) or
n-step return(Atari)

MuZeroアルゴリズム
1. MCTSによって履歴を貯める (自己対戦)
2. 履歴からサンプルしモデルをK-stepアンロールして学習
• 予測方策と探索方策（実際にとる行動）の誤差を最小化 𝒑 𝑘 ≈ 𝜋 𝑡+𝑘
• 予測価値と目標価値の誤差を最小化 𝑣 𝑘
≈ 𝑧 𝑡+𝑘
• 予測報酬と環境からの報酬の誤差を最小化 𝑟𝑡+𝑘 ≈ 𝑢 𝑡+𝑘
具体的には以下の誤差関数𝑙 𝑡(𝜃)を最小化（最後の項はL2正則化)

ドメインによる学習方法の違い
ボードゲーム
• 1手打つのに800回のシミュレーション
• ゲーム終了後すぐReplay Bufferに保存
• Replay Bufferは100万ゲーム保持
• 学習時Replay Bufferから取り出すときは完全ランダムに
Atari
• 行動空間が小さいため1つの行動決定に50回のシミュレーション
• ゲーム時間が長いため200手毎にReplay Bufferに保存
• Replay Bufferは12.5万x200を保持
• 取り出す時は優先度を計算して取り出す
その他ハイパラ等様々な違いあり

結果
MuZeroが他の手
法を凌駕している
ボードゲーム
オレンジ:AlphaZero
青：MuZero(提案手法)
Atari
オレンジ: R2D2(SOTA)
青：MuZero(提案手法)
実線：平均値
破線：中央値

その他実験結果
(A)MCTS探索時間とEloレート
• AlphaZero(シミュレータ)と
MuZero(学習済みモデル)の探索
時間とEloレートを比較
• MuZeroは実環境なしにも関わら
ずスケーラビリティが高い
(B) Atari(Ms. Pacman)での1シ
ミュレーションでの行動試行回
数と平均報酬
(C) トレーニングステップと平
均報酬
(D) トレーニングステップ(行動
試行回数別)と平均報酬

まとめ
• MuZeroは事前知識(モデル)を与えることなく，チェス・将棋・
囲碁でAlphaZeroと同等の性能を発揮し，AtariでSOTAを上
回った
• モデルベースな手法にも関わらず，モデルは学習によって自動
的に獲得する
• AlphaZeroとの大きな違いとして，行動aを行った後の状態は環
境からでなく，自身のモデル(ダイナミクス関数)から次の隠れ
状態を生成
• MCTSをゼロサムゲームだけでなく，シングルエージェントド
メインに一般化

Mastering Atari, Go, Chess and Shogi by Planning with a Learned Model (MuZero)

Recomendados

Recomendados

Mais conteúdo relacionado

Mais procurados

Mais procurados (20)

Semelhante a Mastering Atari, Go, Chess and Shogi by Planning with a Learned Model (MuZero)

Semelhante a Mastering Atari, Go, Chess and Shogi by Planning with a Learned Model (MuZero) (12)

Mais de harmonylab

Mais de harmonylab (20)

Último

Último (7)

Mastering Atari, Go, Chess and Shogi by Planning with a Learned Model (MuZero)