Mais conteúdo relacionado
Semelhante a Tensorflowユーザから見た Alpha(Go)Zero, Ponanza (TFUG #7) (14)
Tensorflowユーザから見た Alpha(Go)Zero, Ponanza (TFUG #7)
- 3. 自己紹介
• 大渡 勝己(おおとかつき)
• 経歴
~ 2014.3 大学生 (認知神経科学)
~ 2015.3 無職
~ 2015.8 事務職員
~ 2017.9 大学院生 (ゲームAI)
2017.10 ~
HEROZ株式会社 エンジニア
Machine Learning 15 minutes!発表時
http://ainow.ai/2017/08/07/119456/
- 9. 現在のゲームAIの流れ
• ① DQN (2013) とその後継モデル
ルールを記述することなくニューラルネットで一人ゲームをプレイ
Human-level control through deep reinforcement learning (Mnih et al., 2015)
- 22. 将棋PonanzaにおけるTensorflowの利用
• AlphaZeroとの比較 (将棋ドメイン: 利用部分)
AlphaZero Ponanza with Tensorflow
ネットワーク入力 9 x 9 x 362
(7手前までの履歴)
9 x 9 x 86
(現局面のみ)
ネットワーク構成 ResNet20ブロック(40層)?
256フィルタ
CNN に工夫を加えたもの
(PFNの方発案のアーキテクチャ)
12層 256フィルタ
学習方法 ゼロから探索ありの強化学習 過去のPonanzaの着手・評価・勝敗
1500万試合から教師あり学習
(着手の一致率 56% 弱)
製作使用リソース TPUv1 5000枚(対戦)
v2 15枚(学習)
elmo 超えまで 2h 弱
これまでさくらインターネットさんから
お借りしたCPU等 最大数十台 (対戦)
GPU1枚 (学習) 1ヶ月
- 24. 大人の知能と子どもの知能の融合
• 既存の探索部 (秒間 600万局面) … 理詰めで解決する
「大人の知能」
• ニューラルネット ... 計算局面数が少ないが、鋭い感性を持つ
「子供の知能」
• 大会に向けて、2つの「知能」をどう協調させるかを考えて製作した
• (子どもだけに絞った方がいいのかもしれなかったが…)
- 27. Ponanza with Tensorflow の手法 (概略)
• Policyの確率で探索順序決定
確率の和によって探索打ち切り判定
• 探索深さが増えると打ち切り閾値を大きくする
• Valueの予測勝率と
探索の予測勝率を混ぜる
(ただし元が相対評価なら相対評価として返す)
• 探索深さが深ければそちらの重みを大きくする
95% 2%
3%
95 + 3 = 98% > 閾値
打ち切り!
探索 80 %
NN 60%
→70%
探索 < 80 %
NN 70%
→ < 75 %