SlideShare uma empresa Scribd logo
1 de 50
論文紹介
若松 浩平
Playing Atari with Deep Reinforcement Learning
紹介する論文について
強化学習とは
Deep Q-Learning
実験
まとめ
紹介する論文について
Playing Atari with Deep Reinforcement Learning
arXiv:1312.5602v1 [cs.LG] 19 Dec 2013
Volodymyr Mnih, Koray Kavukcuoglu, David Silver,
Alex Graves, Ioannis Antonoglou
Daan Wierstra, Martin Riedmiller
• DNNを利用したQ-Learningの改善
• あらゆる環境に対して単一のネットワークで成果を出すことに成功
概要
背景
• 強化学習による特殊なタスクの解決
• 手動の設定、入力の変換といった問題点
DeepMind Technologies
紹介する論文について
強化学習とは
Deep Q-Learning
実験
まとめ
強化学習とは
“環境”に置かれた“エージェント”が環境との相互作用を通じて
“最適な方策(行動を決定するきまり)”を得る機械学習の手法
エージェント
行動 状態の変化
報酬観測
環境
強化学習の特性
• 教師あり学習のように「答え」は明示されない
• 「行動の選択肢」と「報酬」が提示される
• 「連続した行動の結果」に対して報酬が与えられる
<例> : サッカー
教師あり学習
強化学習
各動作に逐一指示が飛んでくる
全ての動作を監督が評価
ゴールまでの「連続した動作」について
自分自身で評価
ルール : ゴールをする→+1点
ルール : 監督に従う
強化学習の特性
• 教師あり学習のように「答え」は明示されない
• 「行動の選択肢」と「報酬」が提示される
• 「連続した行動の結果」に対して報酬が与えられる
行動評価の難しさをスキップして
最終的に成功する行動を学習することができる
●教師あり学習より上等な手法であるということではない
●「行動に対する評価」は自分自身で獲得しなければならない
●扱う問題は適切に選ぶ必要がある
紹介する論文について
強化学習とは
Deep Q-Learning
実験
まとめ
紹介する論文について
強化学習とは
Deep Q-Learningに至るまで
実験
まとめ
Deep Q-Learningに至るまで
• 実世界のタスクを強化学習で解決できるようモデル化
• モデルをQ-Learningで学習
• Value Iteration
• Policy Iteration
• Q-Learning
• Q-Learningの関数近似部分をDNNに置き換える
Deep Q-Learningに至るまで
• 実世界のタスクを強化学習で解決できるようモデル化
• モデルをQ-Learningで学習
• Value Iteration
• Policy Iteration
• Q-Learning
• Q-Learningの関数近似部分をDNNに置き換える
Markov Decision Process
• 強化学習を用いるためには実世界のタスクを
Markov Decision Process(MDP : マルコフ決定過程)へと置き換える必要がある
●State : S
状況。特定の場面を表す
●Model : T(s, a, s’) (=P(s’|s, a))
TはTransition。状況sの時に行動aをとると状況s'になる
確率的な表現(P(s‘|s, a))になる
●Actions : A(s), A
行動。状況によって取れる行動が変わる場合は、A(s)といった関数になる
●Reward : R(s), R(s, a), R(s, a , s')
状況、またその状況における行動から得られる報酬。
この報酬は、最後の結果以外は自己評価になる(即時報酬)。
● Policy : π(s) -> a
戦略。状況sにおいてどういう行動aを取るべきか、を返す関数。
Markov Decision Process
PAC-MAN ©️BNEI
●State
キャラクタの位置やスコアなど
●Transaction
現在の状況sから可能な行動aをとった際、
次にどのような状態に遷移するかの確率
●Actions
現在入力可能なコマンド
●Reward
行動により得られる報酬
(餌を食べる : +1点, 移動 : 0点, クリア : 10点, ミス : -10点...)
●Policy
プレイヤーの意思。ここでは確率分布に従うとする
MDPからBellman Equationへ
PAC-MAN ©️BNEI
・ステージ内の餌を食べ尽くす
・敵に触れてはならない
パックマン
餌をできるだけ早く食べきる
クリアのための最短の線略
おそらく、敵に当たってしまい
最終的なスコアは減ってしまう
MDPからBellman Equationへ
PAC-MAN ©️BNEI
パックマン
餌をできるだけ早く食べきる
クリアのための最短の線略
おそらく、敵に当たってしまい
最終的なスコアは減ってしまう
①短期的ではなく
長期的な報酬の最大化を目指す
・ステージ内の餌を食べ尽くす
・敵に触れてはならない
MDPからBellman Equationへ
PAC-MAN ©️BNEI
パックマン
リスクを冒さず必ず敵から逃げる
長期的な報酬の最大化のための線略
時間が無限の場合、
ローリスクローリターンな行動を選択する
・ステージ内の餌を食べ尽くす
・敵に触れてはならない
MDPからBellman Equationへ
PAC-MAN ©️BNEI
パックマン
リスクを冒さず必ず敵から逃げる
長期的な報酬の最大化のための線略
時間が無限の場合、
ローリスクローリターンな行動を選択
②時間経過による
報酬の割引を設定する
・ステージ内の餌を食べ尽くす
・敵に触れてはならない
MDPからBellman Equationへ
戦略の最適化のために…
①報酬の総和を最適化するようにする
②時間に対する、報酬の割引を導入する
式で表現すると
「時間割引を考慮した報酬の総和」を最大化する戦略の発見を目指す。
この最適な戦略を𝜋∗とする。
𝑈 𝜋
𝑠 = 𝐸
𝑡
∞
𝛾 𝑡
𝑅 𝑠𝑡 |𝜋, 𝑠 𝑜 = 𝑠
• 報酬の総和 = 𝑈 𝜋
𝑠 : 状態𝑠から戦略𝜋を行う場合(𝜋, 𝑠 𝑜 = 𝑠)の、報酬の総和
• 時間に対する割引 = 𝛾 : 0 ≤ 𝛾 ≤ 1で概ね1に近い値
MDPからBellman Equationへ
最適な戦略においては、基本的には報酬が最大になるように行動する。
数式で以下のように表現する。
𝑠からの遷移先である𝑠′のうち、期待される報酬の総和𝑈 𝑠′ が最大の𝑠′を目指し行動する。
最適な戦略𝜋∗
とは、どんな𝑠でもそこからの報酬の総和が最大になるような行動をとる。
𝜋∗
𝑠 = 𝑎𝑟𝑔𝑚𝑎𝑥 𝑎
𝑠′
𝑇 𝑠, 𝑎, 𝑠′
𝑈(𝑠′
)
MDPからBellman Equationへ
したがって、最初に定義した𝑈 𝜋(𝑠)を以下のように表現できる。
𝑈 𝑠 = 𝑅 𝑠 + 𝛾 𝑚𝑎𝑥
𝑠′
𝑇 𝑠, 𝑎, 𝑠′
𝑈(𝑠′
)
この等式をBellman Equationという。
選択している戦略によらずその報酬を計算することができるようになる。
つまり、ゲーム設定(環境)のみから最適な行動を計算できる。
Deep Q-Learningに至るまで
• 実世界のタスクを強化学習で解決できるようモデル化
• モデルをQ-Learningで学習
• Value Iteration
• Policy Iteration
• Q-Learning
• Q-Learningの関数近似部分をDNNに置き換える
モデルの学習 – Value Iteration
Bellman Equationを利用して環境のみから最適な行動を計算する
報酬マップを計算していく(= Value Iteration)
方法
2. 各状態sについて、実行可能な𝑎により得られる報酬を計算
3. 選択できる中で最大の報酬総和𝑈 𝑠 を計算
1. 確定報酬を設定する
4. 収束する(𝑈 𝑠 の更新幅が小さくなる)まで計算を繰り返す
𝛾 𝑇 𝑠, 𝑎, 𝑠′ 𝑈(𝑠′)
𝑈 𝑠 = 𝑅 𝑠 + 𝛾 𝑚𝑎𝑥
𝑠′
𝑇 𝑠, 𝑎, 𝑠′ 𝑈(𝑠′)
報酬マップが更新されるごとに各遷移で得られる報酬は収束していく
モデルの学習 – Value Iteration
モデルの学習 – Value Iteration
●Value Iterationによって環境のみから報酬マップを推定できる
報酬マップが更新されるごとに各遷移で得られる報酬は収束していく
●実際の計算では全ての状態における全ての行動を計算する : 非効率的
モデルの学習 – Policy Iteration
効率化のため、適当(ランダム)な戦略𝜋0を決めて報酬の探索を行う
戦略によって得られた報酬を基に戦略を改善していく(Policy Iteration)
方法
2. 戦略を基に𝑈 𝜋 𝑡 𝑠 を計算する
3. 戦略π 𝑡を更新し、𝜋 𝑡+1とする(𝜋 𝑡+1 = 𝑎𝑟𝑔𝑚𝑎𝑥 𝑎 𝑇 𝑠, 𝑎, 𝑠′
𝑈 𝜋 𝑡(𝑠′
))
1. 適当な戦略(𝜋0)を決める
4. 収束するまで計算を繰り返す
この方法により、最適戦略が求められる
Value Iteration & Policy Iteration
Value Iteration, Policy Iterationによって
報酬マップ、最適戦略の導出が可能
しかし、前提条件として𝑇(𝑠, 𝑎, 𝑠′)が既知である必要性がある
→各状態においてある行動をとった際の遷移先が決定されている必要性
これを解決するのが…
Q-learning
環境(モデル)の情報が不足していても学習可能 : Model-freeな学習
・𝑇(𝑠, 𝑎, 𝑠′
)が不明のとき、Q-Learningではまず試してみる
試行を繰り返すことで戦略、報酬の学習を行う
・事前の設定が不要であるが、試行を繰り返すために時間を要する
Q-learning
・「試す」ことを式で表現する(行動価値関数の計算)
𝑄 𝑠, 𝑎 ≈ 𝑅 𝑠, 𝑎 + 𝛾 max
𝑎′
𝐸 𝑄(𝑠′, 𝑎′)
●𝑇(𝑠, 𝑎, 𝑠′)の代わりに期待値𝐸 𝑄(𝑠′, 𝑎′) を使用
・試行を繰り返すことで期待値は精緻化されていく
●最終的には等式となる
・見込みの値𝑄(𝑠, 𝑎)と、報酬の期待値𝑅 𝑠, 𝑎 + 𝛾 max
𝑎′
𝐸 𝑄(𝑠′, 𝑎′) が等しい
→報酬の正確な見込みができている
Q-learning
・学習の過程を式で表現する
𝑄 𝑠, 𝑎 ≈ 𝑄 𝑠, 𝑎 + 𝛼 𝑅 𝑠, 𝑎 + 𝛾 max
𝑎′
𝐸 𝑄 𝑠′, 𝑎′ − 𝑄(𝑠, 𝑎)
●𝛼 : 学習率
●期待値
●見込み
これらの差分から学習していく
この差分をTD(Temporal Difference)誤差といい、
TD誤差を利用する学習をTD学習という
どの状態で、どの行動をしたら、どういう報酬が得られるかを
明らかにすることができる
Q-Learning
・報酬の見込みの表をQ-tableという
・どの状態で、どの行動をしたら、どういう報酬が得られるかが格納
・𝑄(𝑠, 𝑎)の行動𝑎はどのようにして決めるか
・𝑄(𝑠, 𝑎)が最大のものを選んでいけば良い…わけではない
→「分かっている中の最大を取ること」は
未知の報酬の可能性を潰してしまうため
・お宝のある未知の道か、報酬の安定した道をとるか…
・exploration and exploitation dilemma(探索/活用のジレンマ)
・基本的な解決手段として𝜀 − 𝑔𝑟𝑒𝑒𝑑𝑦法
・確率𝜀で冒険し、 1 − 𝜀 でgreedy(貪欲)にいく
Q-Learningの問題点
・Q-tableを一意に求めることは計算上のコストが凄まじい
従来研究としてQ-tableを関数で近似する試みが行われてきた
・当初は線形関数での近似が行われていた
・非線形関数の近似ではQ関数が収束しないという問題があった
・最近Deepなネットワークが流行ってきた
・組み合わせたらQ関数に対して非線形なとんでもない近似ができるのでは?
ここからやっと論文の話です…
Q-Learningの問題点
ここからやっと論文の話です…
・Q-tableを一意に求めることは計算上のコストが凄まじい
従来研究としてQ-tableを関数で近似する試みが行われてきた
・当初は線形関数との近似が行われていた
・非線形関数の近似ではQ関数が収束しないという問題があった
・最近Deepなネットワークが流行ってきた
・組み合わせたらQ関数に対して非線形なとんでもない近似ができるのでは?
強化学習界に革命が起きる…
Deep Q-Learningに至るまで
• 実世界のタスクを強化学習で解決できるようモデル化
• モデルをQ-Learningで学習
• Value Iteration
• Policy Iteration
• Q-Learning
• Q-Learningの関数近似部分をDNNに置き換える
紹介する論文について
強化学習とは
Deep Q-Learning
実験
まとめ
Deep Q-Learning
𝑄(𝑠, 𝑎)に近似した関数をニューラルネットワークの誤差逆伝播により求める
この場合の正解とは?
・TD誤差について考える
𝑄 𝑠, 𝑎 ≈ 𝑄 𝑠, 𝑎 + 𝛼 𝑅 𝑠, 𝑎 + 𝛾 max
𝑎′
𝐸 𝑄 𝑠′, 𝑎′ − 𝑄(𝑠, 𝑎)
報酬の期待値と見込みの差分を誤差の基礎とする
Deep Q-Learning
・𝑄 𝑠, 𝑎 をニューラルネットワークとし、その重みを𝑄 𝜃(𝑠, 𝑎)とすると、
TD誤差は以下のように表せる
𝐿 𝜃 = 𝐸
1
2
𝑅 𝑠, 𝑎 + 𝛾 max
𝑎′
𝑄 𝜃−1 𝑠′, 𝑎′ − 𝑄 𝜃 𝑠, 𝑎
2
・式を微分して
𝛻𝜃 𝐿 𝜃 = 𝐸 𝑅 𝑠, 𝑎 + 𝛾 max
𝑎′
𝑄 𝜃−1 𝑠′, 𝑎′ − 𝑄 𝜃 𝑠, 𝑎 𝛻𝜃 𝑄 𝜃 𝑖
(𝑠, 𝑎)
●期待値側は𝑄 𝜃−1 𝑠′, 𝑎′ となっていることに注意
Deep Q-Learning
・𝑄 𝑠, 𝑎 をニューラルネットワークとし、その重みを𝑄 𝜃(𝑠, 𝑎)とすると、
TD誤差は以下のように表せる
𝐿 𝜃 = 𝐸
1
2
𝑅 𝑠, 𝑎 + 𝛾 max
𝑎′
𝑄 𝜃−1 𝑠′, 𝑎′ − 𝑄 𝜃 𝑠, 𝑎
2
・式を微分して
𝛻𝜃 𝐿 𝜃 = 𝐸 𝑅 𝑠, 𝑎 + 𝛾 max
𝑎′
𝑄 𝜃−1 𝑠′, 𝑎′ − 𝑄 𝜃 𝑠, 𝑎 𝛻𝜃 𝑄 𝜃 𝑖
(𝑠, 𝑎)
●期待値側は𝑄 𝜃−1 𝑠′, 𝑎′ となっていることに注意
実際にこれらを実装して学習しても実はうまくいかない
Deep Q-Learning – Experience Replay
強化学習において与えられるデータは時系列的に連続したシーケンスデータ
データ間の相関が大きくなってしまう
・経験した状態/行動/報酬/遷移先を
メモリに蓄積
・学習の際はそこから
ランダムサンプリングして利用する
データ間の相関を削除
Deep Q-Learning – Fixed Target Q-Network
学習に使用する期待値を算出する重み𝑄 𝜃をバッチの学習ごとに固定する
𝛻𝜃 𝐿 𝜃 = 𝐸 𝑅 𝑠, 𝑎 + 𝛾 max
𝑎′
𝑄 𝜃−1 𝑠′, 𝑎′ − 𝑄 𝜃 𝑠, 𝑎 𝛻𝜃 𝑄 𝜃 𝑖
(𝑠, 𝑎)
個別の学習ごとに重みを更新してしまうとバッチ内の学習でルールが変わってしまうため
Deep Q-Learning – Reward Clipping
与える報酬を固定化することで学習の速度を向上させる
<例> : ゲームのスコアを高める行動 : +1, ゲームのスコアを低くする行動 : -1
Deep Q-Learning
Deep Q-Learning
Q-tableを表現する関数の近似にDNNを用いた強化学習モデル
●Experience Replay
うまく運用するための工夫
●Fixed Target Q-Network
●Reward Clipping
・データ間の相関を削除 ・あらゆる状況で最適な行動を可能に
・学習の安定化
・学習の高速化 ・ハイパーパラメータの削減
・入力にベクトルを使用可能
→生の知覚データをそのまま学習させることができる
他にも
紹介する論文について
強化学習とは
Deep Q-Learning
実験
まとめ
実験
• 7つのAtariゲームに対し同一のネットワークでテスト
• 全てで同じネットワークアークテクチャ、学習アルゴリズム、
ハイパーパラメータを用いる
• 全ての肯定的な報酬を1に否定的な報酬を-1、それ以外は0
• 同じ学習データを使用しやすくなるため
• サイズ32のミニバッチでRMSPropアルゴリズムを適用
• 学習が進むにつれ𝜀 − 𝑔𝑟𝑒𝑒𝑑𝑦法の𝜀を1.0から0.1に、最終的には0.1で固定
• 合計1000万フレームで訓練し、100万フレームをモデルによって操作する
• フレームスキップ法の利用
• 全てのフレームでアクションは選択せず、kフレームごとに繰り返す行動を選択
• k倍の速度でゲームを行える
• 6つのゲームでk=4、スペースインベーダーのみk=3
• 敵のレーザーがk=4だと見えなかったらしいです、かわいい。
実験 ネットワーク構造
• Atari : 128色 x 210 x 160の描画領域
• グレースケール, 110 x 84の画像にダウンサンプリング
• GPUへの入力の都合上、描画領域を大まかに捉える84 x 84ピクセルを入力とする
• 入力層 : 84 x 84 x 4
• 隠れ層1 : ストライド4、16個の8 x 8フィルタによる畳み込み
• 隠れ層2 : ストライド2、32個の4 x 4フィルタによる畳み込み
• 全結合層 : 256ユニット
• 出力層 : 行動可能なアクションごとに出力を持つ
• ゲームによって4〜18で変化
実験結果 トレーニングの安定性
Epochごとの平均の報酬(左)と行動価値関数Qの遷移
●教師あり学習では学習の進み具合をテストセットを用いることで測れる
●強化学習は学習の進捗を測るのが困難
●平均の報酬は激しく上下しており学習の進捗が不明瞭
●行動価値関数Qの結果から学習の進行と、発散していないことがわかる
実験結果 価値関数の可視化
価値関数の予測の遷移
A B C
実験結果 報酬の比較
従来手法、人間のプレイとの報酬の比較
・単一のネットワークで従来手法に対し7個中6個で平均、最大報酬で良い結果
・人間に対しても3つのゲームで勝利
実験結果 報酬の比較
従来手法、人間のプレイとの報酬の比較
・単一のネットワークで従来手法に対し7個中6個で平均、最大報酬で良い結果
・人間に対しても3つのゲームで勝利
ハイパーパラメータを変更せずに
同一のネットワークで
生のピクセルを入力として
圧倒的戦果
紹介する論文について
強化学習とは
Deep Q-Learning
実験
まとめ
まとめ
Deep Q-Learningとは
Q-tableを表現する関数の近似にDNNを用いた強化学習モデル
ここがすごいぞ
・非線形関数による行動価値関数Qの近似
・生の知覚データの入力(end-to-end)
・単一のネットワークですごい

Mais conteúdo relacionado

Mais procurados

NIPS KANSAI Reading Group #7: 逆強化学習の行動解析への応用
NIPS KANSAI Reading Group #7: 逆強化学習の行動解析への応用NIPS KANSAI Reading Group #7: 逆強化学習の行動解析への応用
NIPS KANSAI Reading Group #7: 逆強化学習の行動解析への応用Eiji Uchibe
 
【DL輪読会】Transformers are Sample Efficient World Models
【DL輪読会】Transformers are Sample Efficient World Models【DL輪読会】Transformers are Sample Efficient World Models
【DL輪読会】Transformers are Sample Efficient World ModelsDeep Learning JP
 
[Dl輪読会]introduction of reinforcement learning
[Dl輪読会]introduction of reinforcement learning[Dl輪読会]introduction of reinforcement learning
[Dl輪読会]introduction of reinforcement learningDeep Learning JP
 
【DL輪読会】Emergence of maps in the memories of blind navigation agents
【DL輪読会】Emergence of maps in the memories of blind navigation agents【DL輪読会】Emergence of maps in the memories of blind navigation agents
【DL輪読会】Emergence of maps in the memories of blind navigation agentsDeep Learning JP
 
[DL輪読会]Large-Scale Study of Curiosity-Driven Learning
[DL輪読会]Large-Scale Study of Curiosity-Driven Learning[DL輪読会]Large-Scale Study of Curiosity-Driven Learning
[DL輪読会]Large-Scale Study of Curiosity-Driven LearningDeep Learning JP
 
ノンパラメトリックベイズを用いた逆強化学習
ノンパラメトリックベイズを用いた逆強化学習ノンパラメトリックベイズを用いた逆強化学習
ノンパラメトリックベイズを用いた逆強化学習Shota Ishikawa
 
[DL輪読会]Learning Latent Dynamics for Planning from Pixels
[DL輪読会]Learning Latent Dynamics for Planning from Pixels[DL輪読会]Learning Latent Dynamics for Planning from Pixels
[DL輪読会]Learning Latent Dynamics for Planning from PixelsDeep Learning JP
 
HTML5によるニューラルネットワークの可視化
HTML5によるニューラルネットワークの可視化HTML5によるニューラルネットワークの可視化
HTML5によるニューラルネットワークの可視化z_kro
 
【論文紹介】Deep Mimic: Example-Guided Deep Reinforcement Learning of Physics-Based...
【論文紹介】Deep Mimic: Example-Guided Deep Reinforcement Learning of Physics-Based...【論文紹介】Deep Mimic: Example-Guided Deep Reinforcement Learning of Physics-Based...
【論文紹介】Deep Mimic: Example-Guided Deep Reinforcement Learning of Physics-Based...Tomoyuki Hioki
 
方策勾配型強化学習の基礎と応用
方策勾配型強化学習の基礎と応用方策勾配型強化学習の基礎と応用
方策勾配型強化学習の基礎と応用Ryo Iwaki
 
TensorFlowで逆強化学習
TensorFlowで逆強化学習TensorFlowで逆強化学習
TensorFlowで逆強化学習Mitsuhisa Ohta
 
バンディット問題について
バンディット問題についてバンディット問題について
バンディット問題についてjkomiyama
 
[DL輪読会]One Model To Learn Them All
[DL輪読会]One Model To Learn Them All[DL輪読会]One Model To Learn Them All
[DL輪読会]One Model To Learn Them AllDeep Learning JP
 
Generative Adversarial Imitation Learningの紹介(RLアーキテクチャ勉強会)
Generative Adversarial Imitation Learningの紹介(RLアーキテクチャ勉強会)Generative Adversarial Imitation Learningの紹介(RLアーキテクチャ勉強会)
Generative Adversarial Imitation Learningの紹介(RLアーキテクチャ勉強会)Yusuke Nakata
 
[DL輪読会]Making Sense of Vision and Touch: Self-Supervised Learning of Multimod...
[DL輪読会]Making Sense of Vision and Touch: Self-Supervised Learning of Multimod...[DL輪読会]Making Sense of Vision and Touch: Self-Supervised Learning of Multimod...
[DL輪読会]Making Sense of Vision and Touch: Self-Supervised Learning of Multimod...Deep Learning JP
 
[DL輪読会]Reward Augmented Maximum Likelihood for Neural Structured Prediction
[DL輪読会]Reward Augmented Maximum Likelihood for Neural Structured Prediction[DL輪読会]Reward Augmented Maximum Likelihood for Neural Structured Prediction
[DL輪読会]Reward Augmented Maximum Likelihood for Neural Structured PredictionDeep Learning JP
 
自然方策勾配法の基礎と応用
自然方策勾配法の基礎と応用自然方策勾配法の基礎と応用
自然方策勾配法の基礎と応用Ryo Iwaki
 
海鳥の経路予測のための逆強化学習
海鳥の経路予測のための逆強化学習海鳥の経路予測のための逆強化学習
海鳥の経路予測のための逆強化学習Tsubasa Hirakawa
 

Mais procurados (20)

NIPS KANSAI Reading Group #7: 逆強化学習の行動解析への応用
NIPS KANSAI Reading Group #7: 逆強化学習の行動解析への応用NIPS KANSAI Reading Group #7: 逆強化学習の行動解析への応用
NIPS KANSAI Reading Group #7: 逆強化学習の行動解析への応用
 
【DL輪読会】Transformers are Sample Efficient World Models
【DL輪読会】Transformers are Sample Efficient World Models【DL輪読会】Transformers are Sample Efficient World Models
【DL輪読会】Transformers are Sample Efficient World Models
 
[Dl輪読会]introduction of reinforcement learning
[Dl輪読会]introduction of reinforcement learning[Dl輪読会]introduction of reinforcement learning
[Dl輪読会]introduction of reinforcement learning
 
A3C解説
A3C解説A3C解説
A3C解説
 
【DL輪読会】Emergence of maps in the memories of blind navigation agents
【DL輪読会】Emergence of maps in the memories of blind navigation agents【DL輪読会】Emergence of maps in the memories of blind navigation agents
【DL輪読会】Emergence of maps in the memories of blind navigation agents
 
[DL輪読会]Large-Scale Study of Curiosity-Driven Learning
[DL輪読会]Large-Scale Study of Curiosity-Driven Learning[DL輪読会]Large-Scale Study of Curiosity-Driven Learning
[DL輪読会]Large-Scale Study of Curiosity-Driven Learning
 
ノンパラメトリックベイズを用いた逆強化学習
ノンパラメトリックベイズを用いた逆強化学習ノンパラメトリックベイズを用いた逆強化学習
ノンパラメトリックベイズを用いた逆強化学習
 
[DL輪読会]Learning Latent Dynamics for Planning from Pixels
[DL輪読会]Learning Latent Dynamics for Planning from Pixels[DL輪読会]Learning Latent Dynamics for Planning from Pixels
[DL輪読会]Learning Latent Dynamics for Planning from Pixels
 
HTML5によるニューラルネットワークの可視化
HTML5によるニューラルネットワークの可視化HTML5によるニューラルネットワークの可視化
HTML5によるニューラルネットワークの可視化
 
【論文紹介】Deep Mimic: Example-Guided Deep Reinforcement Learning of Physics-Based...
【論文紹介】Deep Mimic: Example-Guided Deep Reinforcement Learning of Physics-Based...【論文紹介】Deep Mimic: Example-Guided Deep Reinforcement Learning of Physics-Based...
【論文紹介】Deep Mimic: Example-Guided Deep Reinforcement Learning of Physics-Based...
 
方策勾配型強化学習の基礎と応用
方策勾配型強化学習の基礎と応用方策勾配型強化学習の基礎と応用
方策勾配型強化学習の基礎と応用
 
TensorFlowで逆強化学習
TensorFlowで逆強化学習TensorFlowで逆強化学習
TensorFlowで逆強化学習
 
バンディット問題について
バンディット問題についてバンディット問題について
バンディット問題について
 
[DL輪読会]One Model To Learn Them All
[DL輪読会]One Model To Learn Them All[DL輪読会]One Model To Learn Them All
[DL輪読会]One Model To Learn Them All
 
Generative Adversarial Imitation Learningの紹介(RLアーキテクチャ勉強会)
Generative Adversarial Imitation Learningの紹介(RLアーキテクチャ勉強会)Generative Adversarial Imitation Learningの紹介(RLアーキテクチャ勉強会)
Generative Adversarial Imitation Learningの紹介(RLアーキテクチャ勉強会)
 
[DL輪読会]Making Sense of Vision and Touch: Self-Supervised Learning of Multimod...
[DL輪読会]Making Sense of Vision and Touch: Self-Supervised Learning of Multimod...[DL輪読会]Making Sense of Vision and Touch: Self-Supervised Learning of Multimod...
[DL輪読会]Making Sense of Vision and Touch: Self-Supervised Learning of Multimod...
 
強化学習1章
強化学習1章強化学習1章
強化学習1章
 
[DL輪読会]Reward Augmented Maximum Likelihood for Neural Structured Prediction
[DL輪読会]Reward Augmented Maximum Likelihood for Neural Structured Prediction[DL輪読会]Reward Augmented Maximum Likelihood for Neural Structured Prediction
[DL輪読会]Reward Augmented Maximum Likelihood for Neural Structured Prediction
 
自然方策勾配法の基礎と応用
自然方策勾配法の基礎と応用自然方策勾配法の基礎と応用
自然方策勾配法の基礎と応用
 
海鳥の経路予測のための逆強化学習
海鳥の経路予測のための逆強化学習海鳥の経路予測のための逆強化学習
海鳥の経路予測のための逆強化学習
 

Semelhante a 1017 論文紹介第四回

Rainbow: Combining Improvements in Deep Reinforcement Learning (AAAI2018 unde...
Rainbow: Combining Improvements in Deep Reinforcement Learning (AAAI2018 unde...Rainbow: Combining Improvements in Deep Reinforcement Learning (AAAI2018 unde...
Rainbow: Combining Improvements in Deep Reinforcement Learning (AAAI2018 unde...Toru Fujino
 
Computational Motor Control: Reinforcement Learning (JAIST summer course)
Computational Motor Control: Reinforcement Learning (JAIST summer course) Computational Motor Control: Reinforcement Learning (JAIST summer course)
Computational Motor Control: Reinforcement Learning (JAIST summer course) hirokazutanaka
 
機械学習 論文輪読会 Hybrid Reward Architecture for Reinforcement Learning
機械学習 論文輪読会 Hybrid Reward Architecture for Reinforcement Learning 機械学習 論文輪読会 Hybrid Reward Architecture for Reinforcement Learning
機械学習 論文輪読会 Hybrid Reward Architecture for Reinforcement Learning Yuko Ishizaki
 
LCCC2010:Learning on Cores, Clusters and Cloudsの解説
LCCC2010:Learning on Cores,  Clusters and Cloudsの解説LCCC2010:Learning on Cores,  Clusters and Cloudsの解説
LCCC2010:Learning on Cores, Clusters and Cloudsの解説Preferred Networks
 
【DL輪読会】Is Conditional Generative Modeling All You Need For Decision-Making?
【DL輪読会】Is Conditional Generative Modeling All You Need For Decision-Making?【DL輪読会】Is Conditional Generative Modeling All You Need For Decision-Making?
【DL輪読会】Is Conditional Generative Modeling All You Need For Decision-Making?Deep Learning JP
 
NIPS KANSAI Reading Group #7: Temporal Difference Models: Model-Free Deep RL ...
NIPS KANSAI Reading Group #7: Temporal Difference Models: Model-Free Deep RL ...NIPS KANSAI Reading Group #7: Temporal Difference Models: Model-Free Deep RL ...
NIPS KANSAI Reading Group #7: Temporal Difference Models: Model-Free Deep RL ...Eiji Uchibe
 
分散型強化学習手法の最近の動向と分散計算フレームワークRayによる実装の試み
分散型強化学習手法の最近の動向と分散計算フレームワークRayによる実装の試み分散型強化学習手法の最近の動向と分散計算フレームワークRayによる実装の試み
分散型強化学習手法の最近の動向と分散計算フレームワークRayによる実装の試みSusumuOTA
 
「これからの強化学習」勉強会#1
「これからの強化学習」勉強会#1「これからの強化学習」勉強会#1
「これからの強化学習」勉強会#1Chihiro Kusunoki
 
論文紹介: Value Prediction Network
論文紹介: Value Prediction Network論文紹介: Value Prediction Network
論文紹介: Value Prediction NetworkKatsuki Ohto
 
強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習Eiji Uchibe
 
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜SSII
 
[DL輪読会]Learning to Act by Predicting the Future
[DL輪読会]Learning to Act by Predicting the Future[DL輪読会]Learning to Act by Predicting the Future
[DL輪読会]Learning to Act by Predicting the FutureDeep Learning JP
 
人工知能2018 強化学習の応用
人工知能2018 強化学習の応用人工知能2018 強化学習の応用
人工知能2018 強化学習の応用Hirotaka Hachiya
 
GPU上でのNLP向け深層学習の実装について
GPU上でのNLP向け深層学習の実装についてGPU上でのNLP向け深層学習の実装について
GPU上でのNLP向け深層学習の実装についてYuya Unno
 
SSII2018TS: 大規模深層学習
SSII2018TS: 大規模深層学習SSII2018TS: 大規模深層学習
SSII2018TS: 大規模深層学習SSII
 
Decision Transformer: Reinforcement Learning via Sequence Modeling
Decision Transformer: Reinforcement Learning via Sequence ModelingDecision Transformer: Reinforcement Learning via Sequence Modeling
Decision Transformer: Reinforcement Learning via Sequence ModelingYasunori Ozaki
 
Deep learning実装の基礎と実践
Deep learning実装の基礎と実践Deep learning実装の基礎と実践
Deep learning実装の基礎と実践Seiya Tokui
 
北大調和系 DLゼミ A3C
北大調和系 DLゼミ A3C北大調和系 DLゼミ A3C
北大調和系 DLゼミ A3CTomoya Oda
 
強化学習とは (MIJS 分科会資料 2016/10/11)
強化学習とは (MIJS 分科会資料 2016/10/11)強化学習とは (MIJS 分科会資料 2016/10/11)
強化学習とは (MIJS 分科会資料 2016/10/11)Akihiro HATANAKA
 

Semelhante a 1017 論文紹介第四回 (20)

Rainbow: Combining Improvements in Deep Reinforcement Learning (AAAI2018 unde...
Rainbow: Combining Improvements in Deep Reinforcement Learning (AAAI2018 unde...Rainbow: Combining Improvements in Deep Reinforcement Learning (AAAI2018 unde...
Rainbow: Combining Improvements in Deep Reinforcement Learning (AAAI2018 unde...
 
Computational Motor Control: Reinforcement Learning (JAIST summer course)
Computational Motor Control: Reinforcement Learning (JAIST summer course) Computational Motor Control: Reinforcement Learning (JAIST summer course)
Computational Motor Control: Reinforcement Learning (JAIST summer course)
 
機械学習 論文輪読会 Hybrid Reward Architecture for Reinforcement Learning
機械学習 論文輪読会 Hybrid Reward Architecture for Reinforcement Learning 機械学習 論文輪読会 Hybrid Reward Architecture for Reinforcement Learning
機械学習 論文輪読会 Hybrid Reward Architecture for Reinforcement Learning
 
LCCC2010:Learning on Cores, Clusters and Cloudsの解説
LCCC2010:Learning on Cores,  Clusters and Cloudsの解説LCCC2010:Learning on Cores,  Clusters and Cloudsの解説
LCCC2010:Learning on Cores, Clusters and Cloudsの解説
 
【DL輪読会】Is Conditional Generative Modeling All You Need For Decision-Making?
【DL輪読会】Is Conditional Generative Modeling All You Need For Decision-Making?【DL輪読会】Is Conditional Generative Modeling All You Need For Decision-Making?
【DL輪読会】Is Conditional Generative Modeling All You Need For Decision-Making?
 
NIPS KANSAI Reading Group #7: Temporal Difference Models: Model-Free Deep RL ...
NIPS KANSAI Reading Group #7: Temporal Difference Models: Model-Free Deep RL ...NIPS KANSAI Reading Group #7: Temporal Difference Models: Model-Free Deep RL ...
NIPS KANSAI Reading Group #7: Temporal Difference Models: Model-Free Deep RL ...
 
分散型強化学習手法の最近の動向と分散計算フレームワークRayによる実装の試み
分散型強化学習手法の最近の動向と分散計算フレームワークRayによる実装の試み分散型強化学習手法の最近の動向と分散計算フレームワークRayによる実装の試み
分散型強化学習手法の最近の動向と分散計算フレームワークRayによる実装の試み
 
「これからの強化学習」勉強会#1
「これからの強化学習」勉強会#1「これからの強化学習」勉強会#1
「これからの強化学習」勉強会#1
 
論文紹介: Value Prediction Network
論文紹介: Value Prediction Network論文紹介: Value Prediction Network
論文紹介: Value Prediction Network
 
強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習
 
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
 
[DL輪読会]Learning to Act by Predicting the Future
[DL輪読会]Learning to Act by Predicting the Future[DL輪読会]Learning to Act by Predicting the Future
[DL輪読会]Learning to Act by Predicting the Future
 
Deep learning入門
Deep learning入門Deep learning入門
Deep learning入門
 
人工知能2018 強化学習の応用
人工知能2018 強化学習の応用人工知能2018 強化学習の応用
人工知能2018 強化学習の応用
 
GPU上でのNLP向け深層学習の実装について
GPU上でのNLP向け深層学習の実装についてGPU上でのNLP向け深層学習の実装について
GPU上でのNLP向け深層学習の実装について
 
SSII2018TS: 大規模深層学習
SSII2018TS: 大規模深層学習SSII2018TS: 大規模深層学習
SSII2018TS: 大規模深層学習
 
Decision Transformer: Reinforcement Learning via Sequence Modeling
Decision Transformer: Reinforcement Learning via Sequence ModelingDecision Transformer: Reinforcement Learning via Sequence Modeling
Decision Transformer: Reinforcement Learning via Sequence Modeling
 
Deep learning実装の基礎と実践
Deep learning実装の基礎と実践Deep learning実装の基礎と実践
Deep learning実装の基礎と実践
 
北大調和系 DLゼミ A3C
北大調和系 DLゼミ A3C北大調和系 DLゼミ A3C
北大調和系 DLゼミ A3C
 
強化学習とは (MIJS 分科会資料 2016/10/11)
強化学習とは (MIJS 分科会資料 2016/10/11)強化学習とは (MIJS 分科会資料 2016/10/11)
強化学習とは (MIJS 分科会資料 2016/10/11)
 

1017 論文紹介第四回

Notas do Editor

  1. なんで一個前か わいらの解釈 現在の重みではQ値による期待ができないから
  2. A : 敵が左から到来 B : 魚雷を発射 C : 爆破、平常時に