将棋ニューラルネットとこれからのゲームAI

将棋ニューラルネット
と
これからのゲームAI
Katsuki Ohto @ YuriCat
Machine Learning 15 minutes! Vol.
14
2017/7/29

About myself
大渡勝己 (Katsuki Ohto)
東京大学大学院修士2年
- ゲームAI 研究
これまで 12種類のゲームAI 大会（国内・海外）に参加
- 大富豪、カーリング、囲碁、将棋、ぷよぷよ
人狼、Trax、5五将棋、サイコロ将棋、
ターン制戦略ゲーム、Block Go 、Dots & Boxes

About myself
大渡勝己 (Katsuki Ohto)
大富豪AIで人間（NEWS手越さん）
と対戦
← 大富豪AIについて話しました
http://nge.jp/2017/04/16/post-139377

近年のゲームAIの進歩
DQNに代表される、1つのドメインに特化しないシステムが進歩
Bellemare et al. (2016)
Unifying Count-Based Exploration
and Intrinsic Motivation

近年のゲームAIの進歩
その一方で、特化型のゲームAIはさらなる高みに上っている
Ponanza
AlphaGo Google Deepmind社が開発した囲碁プログラム。
2016年3月にLee Sedolに4勝1敗、
2017年5月にKe Jieに3勝
山本一成氏、下山晃氏らが開発した将棋プログラム。
2017年に佐藤天彦名人に2勝

将棋プログラムの進歩
2013〜2014年頃に人間のト
ップと並んだと推測されてい
る
現在：コンピュータ
（家庭用デスクトップPC）が
「2秒思考すれば勝てない」
と若手プロが
発言しているという

これまでの将棋プログラム
- コンピュータはノートパソコンでも秒間 300 万局面程度を探索
- 人間は当然そんなには読めないので、
コンピュータは力任せの方法と揶揄されてきた
- しかし、人間の脳の並列計算回路の方が
演算回数はずっと多いのでは？？
- 「賢くない」が「力任せ」の演算こそニューラルネットの得意分野
「読みのゲーム」将棋においてもニューラルネットが使えるのか？

将棋におけるニューラルネットの実力
Ponanza Chainer アピール文章 (2017年5月)より
手の予測を行い、探索のオーダリング（どの手から読むか）に利用

参考囲碁のニューラルネット
AlphaGo論文：全13層の Convolutional Neural Network
（狭い範囲のパターンマッチの積み重ね）
その後、
- Residual Network にして深くしたり
- Spatial Batch Normalization を使う
などの性能向上が多方から報告されている
（最新のAlphaGoの policy net は 40層という噂）
Silver et al. (2016)
Mastering the game of Go with Deep
Neural Networks and Tree Search

将棋ニューラルネットの構成（大渡案）
- 将棋の駒の移動に合わせた畳み込みフィルタの利用
1レイヤーの形状 (2017コンピュータ将棋選手権時点)
※ただし、遅いので、現在では Ponanza Chainer の NN と同じ手法を使用
PFNの人が論文出してくれるはず！！

将棋ニューラルネットの挙動
（ML15ではここで実際にプログラムを動かしてNN同士の試合を行いました）

ニューラルネットの構成（大渡案）
- インプット情報
特化型のゲームAIでは、入力チャネルはRGBではなくマスに対応した特徴量が使われる
- 盤上の駒（14 × 2）
持ち駒 (歩は4枚、香桂銀金は2枚を限度とし、超過は無視) （16 × 2）
各マスに利いている駒の数 (自分と相手で別々、最大3つまで考慮) （3 × 2）

- 盤上の駒（14 × 2）
盤面の位置に対応した特徴
＝＋＋ …

- 盤上の駒（14 × 2）
盤面の位置に対応しない特徴
- 1チャネルを全て1で埋める
- 何チャネル埋めるかにより数を表す

将棋ニューラルネットの学習
Ponanza Chainer では1手1秒自己対戦棋譜 5億局面から教師あり学習
を行ったらしい
大渡個人で製作した結果、1700万局面で 51.8 % の一致
その後、レベルは低いが5億以上の中終盤局面を学習データに追加し
たところ、
棋譜との一致率は落ちたが強さは大分向上
将棋は初期局面が1つなので、序盤の学習は簡単。
強さの向上には、序盤で一致率を稼ぐより中終盤の汎化の方が重要http://ppp-
lab.sakura.ne.jp/ProgrammingPlacePlus/algorithm/data_str
uct/007.html

ニューラルネットの探索への利用の現在
ニューラルネットは
「読まないわりには」そこそこの手を返せてそこそこの評価ができる
これまでの将棋プログラムと全く逆の特徴がある
→アンサンブル効果に期待できる
一部ではニューラルネットのみの遅い探索で、
プロに迫るレベルのプログラムが出てきている
近い将来、人間以下の思考局面数で人間を超えるでしょう！

ゲームAIは人間の上位互換になるか？
まずそんなことはない
20年前に人間を超えたチェスのプログラムであっても、
人間の方が正しい判断をできる局面は沢山ある (fortressと呼ばれる)
レベルが上がると
「人間にとって強く見える」ことと
「勝率が高い」ことが一致しなくなってくる
という問題がある

AIは人間の上位互換になるか？
AI開発者 : 数字を追い求める
AIに対する評価 : AIの尖った箇所を
見て判断されるかも?
どちらが「正しい」のか？
これからのAIに注目

ゲームAIのこれから
DQNなどのend-to-endな手法をベースとして何でもできるようになるのか？
→
ある程度はできるようになるが、特化型はそれ以上の計算効率を出せるはず
（何でもできるのであれば人間と同じ）
しかし、これまで12個のゲームAI大会に参加した人の弁
「全てのゲームで高レベルなAIを作るには
人生が何回あっても足りない」
https://www.youtube.com/watch?v=Q4gTV4r0z

ゲームAIのこれから
特化型AIといえども、人が全て作ることは難しくなってきた
評価パラメータを手で決定
→ 評価要素を手で決定して機械学習
→ 特徴抽出を機械学習に任せる
→ … いつかプログラム自体をプログラムが書けるようになるだ
ろうか?
特化型AIを作るためにも、より高度なAIの存在が求められている

ゲームAIは宇宙の限界への挑戦
人間に特化したビジネスAIとは違い、
数学で記述できるゲームのAIは人類の枠を超えた勝負
一つ一つのゲームでどれだけ成績を伸ばせるか?
この宇宙の最高到達点を押し上げていく戦い
思考の極北を一緒に目指しましょう！
背景
https://ja.wikipedia.org/wiki/%E
5%AE%87%E5%AE%99

将棋ニューラルネットとこれからのゲームAI

Recomendados

Recomendados

Mais conteúdo relacionado

Destaque

Destaque (11)

Semelhante a 将棋ニューラルネットとこれからのゲームAI

Semelhante a 将棋ニューラルネットとこれからのゲームAI (20)

Mais de Katsuki Ohto

Mais de Katsuki Ohto (7)

将棋ニューラルネットとこれからのゲームAI

Notas do Editor