Mais conteúdo relacionado
Semelhante a Tf勉強会(4) (13)
Tf勉強会(4)
- 3. 3
概要
DQN
Deep Q Network (ヤンキーじゃないよ)
DeepLearning とQ Learningを組み合わせたもの
AlphaGoにも使われていたらしいやつ
DoubleDQN
Double Deep Q Network(二人のヤンキーじゃないよ)
DeepMindが2015年12月に発表
同年2月にDQN出したばかりなのに。。。
DQNより精度いいよ(後述)
Gym
OpenAIが提供しているオープンソース
今年のどっかで出した
ゲームや物理エンジン向けのシミュレーション環境
まだβ版?
2016/6/23
C8Lab Copyright 2014 C8Lab Inc. All rights reserved
- 6. 6
簡単な例(迷路)
2016/6/23
C8Lab Copyright 2014 C8Lab Inc. All rights reserved
下の方がゴールに
近そうだけど・・・
▼報酬
・どれだけゴールに近いか
・ゴールしたらもっと沢山
▼報酬(マイナス)
・かかった時間
▼状態
・今どこにいるか
▼行動
・上下左右移動
Try & Errorを繰り返して、「この場所にいた時に」
「こっちに動いた方がいい」ということを学習
- 8. 8
補足
2016/6/23
C8Lab Copyright 2014 C8Lab Inc. All rights reserved
状態sでaを行った報酬
行動したあとの状態s’で最適な行
動を取った時に将来的に得られる
報酬
状態sで最適な行動を取った時に将
来的に得られる報酬
行動価値評価を行うQが正しければこの式は限
りなく同じ値になる!
- 11. 11
DQNのデータセット
とあるの状況(s)
その時撮った行動(a)
それによって得られた報酬(r)
その行動を取ったことによって生じた新しい状況(s’)
2016/6/23
C8Lab Copyright 2014 C8Lab Inc. All rights reserved
状況s 行動a
Qθ側のNNで決定
右に行
く!
報酬r
・ブロック崩してた:+1
・死んでた。。。:−1
新しい状況s’
学習する前に最初にこれらの情報をひたすら収集
- 17. 17
DoubleDQNの実装
2016/6/23
C8Lab Copyright 2014 C8Lab Inc. All rights reserved
取得した行動とQπを使って次以降の行動価値を計算
DQNからDoubleDQNにするのは簡単
だがDQNを作るのが疲れる
ネットワーク二つあるし。。。
シミュレーション環境どうするの。。。
というかシミレーション環境作るのが一番大変!!!
Unity? PyGame? Etc…
- 19. 19
今回作ったもの
Gymにあるブロック崩しを行うAI
TensorFlow 0.9で実装
昨日の夜から回しています。。。。
200万イテレーション程度(実際2000万くらいは必要)
CPUマシンなので学習が全然すすまないww
GPUマシンなら1日で2000万くらい回せるとのこと
2016/6/23
C8Lab Copyright 2014 C8Lab Inc. All rights reserved