Mais conteúdo relacionado Semelhante a [CV勉強会]Active Object Localization with Deep Reinfocement Learning (20) Mais de Takuya Minagawa (10) [CV勉強会]Active Object Localization with Deep Reinfocement Learning3. 紹介論文
Active Object Localization with Deep Reinforcement
Learning
Juan C. Caicedo, and Svetlana Lazebnik
物体検出のタスクにDeep Q-Networkを使用した
4. Deep Q-Network (DQN)
Q Learningという強化学習のアルゴリズムに
Convolutional Neural Networkを適用
以下の論文で、機械にコンピュータゲームのやり方を学
習させ、3/7で人間以上のスコア
Mnih, V., et al., “Playing Atari with Deep Reinforcement
Learning”, NIPS Deep Learning Workshop, 2013
Mnih, V., et al., “Human-level control through deep
reinforcement learning”, Nature, 518 (7540), 529–533. 2015
11. Q Learning
𝑄∗
(𝑠, 𝑎)
𝜋∗
(𝑠) = argmax
𝑎
𝔼 𝑅𝑡|𝑠𝑡 = 𝑠, 𝑎 𝑡 = 𝑎
状態s、行動aの組み合わせの良し悪し
をスコアで教えてくれる関数
状態sの時、報酬の和が最大となりそうな行動aを選ぶ
状態sで行動aをとったとき、その後最適な行動
をとり続けた時に得られる報酬の和の期待値
𝜋の代わりに関数Qを学習する
12. Q Learning
𝜋∗
(𝑠) = argmax
𝑎
𝑄∗
(𝑠, 𝑎)
𝜋の代わりに関数Qを学習する
関数𝑄のパラメータ𝜃を
学習により求める
𝑄(𝑠, 𝑎; 𝜃∗
)
𝜃𝑖+1 = 𝜃𝑖 − 𝛼𝛻𝜃 𝑖
𝐿(𝜃𝑖)
学習率
確率的勾配降下法(SGD)
損失関数
14. Q Learning
𝑅𝑡 = 𝑟𝑡 + 𝛾𝑟𝑡+1 + 𝛾2
𝑟𝑡+2 + ⋯ + 𝛾 𝑇−𝑡
𝑟 𝑇
𝑅𝑡 = 𝑟𝑡 + 𝛾𝑅𝑡+1
𝑄∗
(𝑠, 𝑎) = 𝔼 𝑅𝑡|𝑠𝑡 = 𝑠, 𝑎 𝑡 = 𝑎
𝑄∗
(𝑠, 𝑎) = 𝑟𝑡 + 𝛾 max
𝑎′
𝑄∗
(𝑠′, 𝑎′)
報酬の和
𝑎によって遷
移した状態
16. Q Learning
損失関数
=
1
2
𝑟𝑡 + 𝛾 max
𝑎′
𝑄∗
(𝑠′, 𝑎′) − 𝑄(𝑠, 𝑎; 𝜃𝑖)
2
≈
1
2
𝑟𝑡 + 𝛾 max
𝑎′
𝑄(𝑠′
, 𝑎′
; 𝜃𝑖−1) − 𝑄(𝑠, 𝑎; 𝜃𝑖)
2
今のパラメータを
使って近似
𝐿(𝜃𝑖) =
1
2
𝑄∗
(𝑠, 𝑎) − 𝑄(𝑠, 𝑎; 𝜃𝑖) 2
17. Q Learning
損失関数の勾配
𝛻𝜃 𝑖
𝐿 𝜃𝑖
= − 𝑟𝑡 + 𝛾 max
𝑎′
𝑄(𝑠′, 𝑎′; 𝜃𝑖−1) − 𝑄(𝑠, 𝑎; 𝜃𝑖) 𝛻𝜃 𝑖
𝑄(𝑠, 𝑎; 𝜃𝑖)
𝐿 𝜃𝑖 =
1
2
𝑟 𝑡 + 𝛾 max
𝑎′
𝑄(𝑠′, 𝑎′; 𝜃𝑖−1) − 𝑄(𝑠, 𝑎; 𝜃𝑖)
2
18. Deep Q-Network
関数 𝑄(𝑠, 𝑎; 𝜃𝑖)を畳み込みニューラルネットワークで表
す
入力が状態s, 出力が各行動ごとのQの値
Deep CNN
𝑄(𝑠, 𝑎1)
𝑄(𝑠, 𝑎 𝐿)
𝑄(𝑠, 𝑎2)
𝜃𝑖
・・・・・
s
19. Deep Q-Networkの学習
1. 状態 𝑆𝑡を入力し、 𝑄(𝑠𝑡, 𝑎; 𝜃𝑖)が最大となる行動𝑎 𝑡を
選択
ただし確率 𝜀でランダムに選択
Deep CNN
𝑄(𝑠𝑡, 𝑎1)
𝑄(𝑠𝑡, 𝑎 𝐿)
𝑄(𝑠𝑡, 𝑎2)
𝜃𝑖
・・・・・
𝑠𝑡
21. Deep Q-Networkの学習
3. 状態 𝑆𝑡+1を入力し、 max 𝑎 𝑄(𝑠𝑡+1, 𝑎; 𝜃𝑖) を求める
Deep CNN
𝑄(𝑠𝑡+1, 𝑎1)
𝑄(𝑠𝑡+1, 𝑎 𝐿)
𝑄(𝑠𝑡+1, 𝑎2)
𝜃𝑖
・・・・・
𝑠𝑡+1
26. DQNで物体検出
状態
Bounding Box内の画像から画像特徴ベクトルを取得
畳み込みニューラルネットワークで取得した4096次元ベ
クトル
過去の行動履歴
直近10回の行動まで
それぞれの行動は、9次元バイナリベクトル(とった行動
を1、他0)
10 x 9 = 90次元ベクトル
4096+90 = 4186次元ベクトルをDQNへの入力とする
27. DQNで物体検出
報酬
b
g 𝐼𝑜𝑈 𝑏, 𝑔 =
𝑎𝑟𝑒𝑎(𝑏 ∩ 𝑔)
𝑎𝑟𝑒𝑎(𝑏 ∪ 𝑔)
𝑅 𝑎 𝑠, 𝑠′ = 𝑠𝑖𝑔𝑛 𝐼𝑜𝑈 𝑏′, 𝑔 − 𝐼𝑜𝑈 𝑏, 𝑔
エージェント
Ground Truth
正解データとのオーバーラップ
Trigger(終了)以外の行動に対する報酬
オーバーラップが大きくなったら1、小さくなったら-1
28. DQNで物体検出
報酬
b
g 𝐼𝑜𝑈 𝑏, 𝑔 =
𝑎𝑟𝑒𝑎(𝑏 ∩ 𝑔)
𝑎𝑟𝑒𝑎(𝑏 ∪ 𝑔)
エージェント
Ground Truth
正解データとのオーバーラップ
Trigger(終了)に対する報酬
オーバーラップが閾値以上なら+𝜂、それ未満なら−𝜂
𝑅 𝑤 𝑠, 𝑠′
=
+𝜂 𝑖𝑓 𝐼𝑜𝑈 𝑏, 𝑔 ≥ 𝜏
−𝜂 𝑜𝑡ℎ𝑒𝑟𝑤𝑖𝑠𝑒