Mais conteúdo relacionado
Semelhante a Playing Atari with Six Neurons (20)
Playing Atari with Six Neurons
- 2. 1
1論文情報
• Author: Giuseppe Cuccu, Julian Togelius, Philippe Cudré-Mauroux
• AAMAS2019
• Best Paper Award
• URL
• https://dl.acm.org/citation.cfm?id=3306127.3331796
• 概要
• 表現学習と方策学習を分けることで小さいモデルでも難しいタスクが
実行可能であることを示す
• ソースコード
• https://github.com/giuse/DNE/tree/six_neurons (ruby)
- 5. 4
4Environment
• ALEはAtari2600のエミュレータ上に構築されている
• 観測は[210 × 180 × 3]のRGB画像
• ネットワークからの出力は18の離散的なactionになる
• ジョイスティックからの入力を表現
• フレームスキップは5で固定
• 入力後,4フレームは何も入力せず5フレーム目を学習などに使う
☓はスキップするフレーム https://danieltakeshi.github.io/2016/11/25/frame-skipping-and-preprocessing-for-deep-q-networks-on-atari-2600-games/
Atari2600のジョイスティック
https://ja.wikipedia.org/wiki/Atari_2600
フレームスキップ4の例
OpenAI GymフレームワークのArcade Learning Environment(ALE) で実験
- 7. 6
6Vanilla Vector Quantization
Vector Quantization: dictionaryベースのエンコードテクニック
代表要素とコードで元の情報を表現する
• 代表要素(centroids)
周りの値のreferenceとしてはたらき,k-meansのように周囲の値の代表値となる
• コード
各centroidに対応するベクトル
一般的にcentroidに対応する以外の場所の値は0にする
もとの情報の再構成(reconstruction)はこれらのベクトル積として与えられる
次元削減や圧縮などに利用される
一般にdictionaryはreconstruction errorを最小化するようなcentroidで構成されるように訓練
再構成ともとの情報の差をreconstruction errorと呼ぶ
あつめたものをdictionaryという
今回は元画像が含む情報を全てカバーすることが目標
- 8. 7
7オンライン強化学習におけるVanilla Vector Quantizationの問題点
• 追加の訓練データが後半ステージまで得られない
• 環境とのインタラクションを通じて得られた場合のみアクセス可能
Ex) レベルごとに異なる敵があらわれるAtariのゲーム
レベル2の敵の観測はレベル1を解く能力に依存する
• レベル1を解くにはレベル1の敵を認識するためのcompressorが必要
小さいdictionaryサイズからはじめて,観測が増えるにつれてサイズを大きくしていく
オンライン強化学習への適用を考えるといくつか制約がある
dictionaryの更新と候補の解の更新を交互に行う必要がある
オンライン学習における2つの相反する要求
• centroidは有用で一貫したコードを出すように訓練される必要がある
• 新しい観測に基づく後の段階での訓練には訓練されていない状態のcentroidが必要
- 10. 9
9Direct Residuals Sparse Coding
意思決定のために計算時間を削減した
Sparse Coding
元情報の再構成ではなく,識別しやすい
code作成が目標
• residual imageのcentroidとしての使用
• centroid訓練の必要なし
• バイナリエンコーディング
• 再構成演算を簡略化
• いくつかのcentroidが選ばれたら終了
• 辞書サイズに対して線形の
パフォーマンス
特徴
- 12. 11
11Residual informationの符号
更新されたresidual informationの符号の意味
0: もとのresidual informationのピクセル情報とcentroidの値が完全に一致
+: 前のresidualでは存在していたが,新しいcentroidでは表現されていない
-: 新しいcentroidでは存在しているが,前のresidualにはなかった
大抵の符号化アルゴリズムは未符号化情報と再構成によりうまれた情報を区別しない
再構成した際の誤差を重視しているから
今回は画像情報をすべて表現することだけを目標とするので,負の値の要素は0にする
residual imageは元画像にあってまだ取り入れられていない情報となる
- 15. 14
14Optimizer
Exponential Natural Evolution Strategy(XNES)の変化系を使用
NES Natural Evolution Strategies
パラメータ空間上の分布から個体を生成して最適化をおこなう
分布パラメータ𝜃におけるサンプル𝑧が与えられたときの目的関数値の期待値
を最小化する
自然勾配法により値を更新
XNESでは分布が多変量ガウス分布 𝜃 = (𝜇, ∑)
更新もこれらの値についておこなわれる
自然進化戦略
- 17. 16
16実験設定
• 実行環境:
• Intel Xeon E5-2620 32コア 2.10GHz, 3GB RAM / core
• ゲームの実行時間:
• 200インタラクション(1000フレーム フレームスキップ5)
• XNES: populationサイズ:
• デフォルトの1.5倍,学習率:デフォルトの0.5倍
• dictionary growthを制御するパラメータ𝛿:
• 0.005
• 解像度: [210 × 180 × 3]を[70 × 80]に削減
• 各チャネルを平均化してグレースケールに
• 各個体は5回評価
• 世代数:100 (平均2,3時間)