SlideShare uma empresa Scribd logo
1 de 14
Baixar para ler offline
sarsa( )法
強化学習 汎用化
知的 試
2016/06/26
mabonki0725
趣旨
• 強化学習Sarsa( )法
– 問題 応 特徴量 設定
– 局面毎 報酬 設定
• 局面 位置 適切 報酬 決 困難
– Alpha碁 採用 手法 但 Sarsa 深層学習
下記 設定 問題 汎用的 解
行動 設定
特徴量 設定
行動後 特徴量 変化
初期条件
終了条件
3
強化学習
現在s 行動a 価値Q(s,a) 将来将来 報酬 期待値
報酬 途中 得点 野球
報酬 途中 得点 碁 将棋 迷路 最後 報酬
Rt:報酬(t時点)
St:状態(t時点)
:割引率 将来価値 割引)
行動関数Q 算出方法
• 末端 展開 末端 BackUp 算出
• :減少率 無限 展開 良
• 価値関数 算出 方法
– 動的計画法 (遷移 定常 繰返 )
– 法 ( 経路 辿 出現確率 計算
– TD( )法 (V関数 SDG 計算)
– Sarsa( )法 (Q関数 SDG 計算)
– 法 (Q関数 汎用化)
– DQN DeepLearning 特徴量 抽出 計算
脳 強化学習 類似
大脳
認識
画像
小脳
行動伝達
大脳基底核
強化学習
報酬
目
大脳基底核 脳波
強化学習 価値関数
変動 同形 示
銅谷賢治
価値関数Q 特徴量 重 近似
繰返 計算 重 最適化
SGD
過去 微分値 蓄積( 重 )
wi:重 xi 特徴量 s:状態 a:行動)
学習 繰返 毎
最大化 行動A 学習
重 w 最適化
二乗誤差 微分
特徴量 価値関数近似
非常 簡単 Sarsa( )
実験
• 強化学習Sarsa( )法 実験
– 問題毎 応 特徴量 設定
– 報酬 設定
• 下記 設定 問題 汎用的 解
行動 設定
特徴量 設定
行動後 特徴量 変化
初期条件
終了条件
(例 )馬力不足 車 登 学習
馬力不足 車 坂 登 後退 前進 繰返
下降時 加速度 利用 坂登 学習
汎用 設定 値
① 行動 前進 後進 自由降下
② 特徴量 位置P 速度V
③ 行動後 特徴量 前進 P=P+V 後進 P=P-V 速度 V=C1-sin(P*C2)
④ 初期条件 出発点
⑤ 終了条件 終点 達
(例 )馬力不足 車 登 学習
最初 4000回 達 最後 回 操作 登
(例2)壁 障害 避 学習
汎用 設定 値
① 行動
② 特徴量 横座標X 縦座標Y
③ 行動後 特徴量 x +=1 x -=1 y +=1 y -=1 但 壁 通
④ 初期条件 左下隅
⑤ 終了条件 右上隅 到着
(例2)壁 障害 避 学習
最初 7000回 最後 60回 出口 達
• 強化学習sarsa( ) 特徴量近似
全 別 問題 特徴量 指定
汎用的 解 示
• 逆 適切 特徴量 指定 大事
– DQN=DeepLearning(特徴量抽出) 強化学習
• 報酬 設定 必要 示
– 局面毎 適切 報酬 設定 方 学習 早
一般的 困難( 得点 報酬
– 専門家 行動記録 報酬 逆算 逆強化学
習
参考文献
• Mastering the Game of Go with Deep Neural Network and Tree
Seach DeepMind
• Playing Atari with Deep Reinforcement Learning DeepMind
• Reinforcement Learning Sutton
• 心 分子機構 計算理論的 銅谷 賢治
• Probablistic Robtics Thurn
• Maximum Entropy Deep Inverse Reinforcement Learning
ICPR2014
• Inverse Reinforcement Learning with Locally Consistent Reward
Functions NIPS2015

Mais conteúdo relacionado

Mais de Masato Nakai

Factor analysis for ml by padoc 6 r
Factor analysis for ml by padoc 6 rFactor analysis for ml by padoc 6 r
Factor analysis for ml by padoc 6 rMasato Nakai
 
報酬が殆ど得られない場合の強化学習
報酬が殆ど得られない場合の強化学習報酬が殆ど得られない場合の強化学習
報酬が殆ど得られない場合の強化学習Masato Nakai
 
Padocview anonimous2
Padocview anonimous2Padocview anonimous2
Padocview anonimous2Masato Nakai
 
presentation for padoc
presentation for padocpresentation for padoc
presentation for padocMasato Nakai
 
Ai neuro science_pdf
Ai neuro science_pdfAi neuro science_pdf
Ai neuro science_pdfMasato Nakai
 
Deep IRL by C language
Deep IRL by C languageDeep IRL by C language
Deep IRL by C languageMasato Nakai
 
Open pose時系列解析7
Open pose時系列解析7Open pose時系列解析7
Open pose時系列解析7Masato Nakai
 
Deep genenergyprobdoc
Deep genenergyprobdocDeep genenergyprobdoc
Deep genenergyprobdocMasato Nakai
 
機械学習の全般について 4
機械学習の全般について 4機械学習の全般について 4
機械学習の全般について 4Masato Nakai
 
Word2vecの理論背景
Word2vecの理論背景Word2vecの理論背景
Word2vecの理論背景Masato Nakai
 
粒子フィルターによる自動運転
粒子フィルターによる自動運転粒子フィルターによる自動運転
粒子フィルターによる自動運転Masato Nakai
 
Icpによる原画像推定
Icpによる原画像推定Icpによる原画像推定
Icpによる原画像推定Masato Nakai
 

Mais de Masato Nakai (20)

Factor analysis for ml by padoc 6 r
Factor analysis for ml by padoc 6 rFactor analysis for ml by padoc 6 r
Factor analysis for ml by padoc 6 r
 
報酬が殆ど得られない場合の強化学習
報酬が殆ど得られない場合の強化学習報酬が殆ど得られない場合の強化学習
報酬が殆ど得られない場合の強化学習
 
Padocview anonimous2
Padocview anonimous2Padocview anonimous2
Padocview anonimous2
 
presentation for padoc
presentation for padocpresentation for padoc
presentation for padoc
 
Ai neuro science_pdf
Ai neuro science_pdfAi neuro science_pdf
Ai neuro science_pdf
 
Deep IRL by C language
Deep IRL by C languageDeep IRL by C language
Deep IRL by C language
 
Open pose時系列解析7
Open pose時系列解析7Open pose時系列解析7
Open pose時系列解析7
 
Team ai 3
Team ai 3Team ai 3
Team ai 3
 
Semi vae memo (2)
Semi vae memo (2)Semi vae memo (2)
Semi vae memo (2)
 
Open posedoc
Open posedocOpen posedoc
Open posedoc
 
Dr.raios papers
Dr.raios papersDr.raios papers
Dr.raios papers
 
Deep genenergyprobdoc
Deep genenergyprobdocDeep genenergyprobdoc
Deep genenergyprobdoc
 
Irs gan doc
Irs gan docIrs gan doc
Irs gan doc
 
Semi vae memo (1)
Semi vae memo (1)Semi vae memo (1)
Semi vae memo (1)
 
Ai論文サイト
Ai論文サイトAi論文サイト
Ai論文サイト
 
Vae gan nlp
Vae gan nlpVae gan nlp
Vae gan nlp
 
機械学習の全般について 4
機械学習の全般について 4機械学習の全般について 4
機械学習の全般について 4
 
Word2vecの理論背景
Word2vecの理論背景Word2vecの理論背景
Word2vecの理論背景
 
粒子フィルターによる自動運転
粒子フィルターによる自動運転粒子フィルターによる自動運転
粒子フィルターによる自動運転
 
Icpによる原画像推定
Icpによる原画像推定Icpによる原画像推定
Icpによる原画像推定
 

強化学習の汎用化Ros

  • 1. sarsa( )法 強化学習 汎用化 知的 試 2016/06/26 mabonki0725
  • 2. 趣旨 • 強化学習Sarsa( )法 – 問題 応 特徴量 設定 – 局面毎 報酬 設定 • 局面 位置 適切 報酬 決 困難 – Alpha碁 採用 手法 但 Sarsa 深層学習 下記 設定 問題 汎用的 解 行動 設定 特徴量 設定 行動後 特徴量 変化 初期条件 終了条件
  • 3. 3 強化学習 現在s 行動a 価値Q(s,a) 将来将来 報酬 期待値 報酬 途中 得点 野球 報酬 途中 得点 碁 将棋 迷路 最後 報酬 Rt:報酬(t時点) St:状態(t時点) :割引率 将来価値 割引)
  • 4. 行動関数Q 算出方法 • 末端 展開 末端 BackUp 算出 • :減少率 無限 展開 良 • 価値関数 算出 方法 – 動的計画法 (遷移 定常 繰返 ) – 法 ( 経路 辿 出現確率 計算 – TD( )法 (V関数 SDG 計算) – Sarsa( )法 (Q関数 SDG 計算) – 法 (Q関数 汎用化) – DQN DeepLearning 特徴量 抽出 計算
  • 6. 価値関数Q 特徴量 重 近似 繰返 計算 重 最適化 SGD 過去 微分値 蓄積( 重 ) wi:重 xi 特徴量 s:状態 a:行動) 学習 繰返 毎 最大化 行動A 学習 重 w 最適化 二乗誤差 微分
  • 8. 実験 • 強化学習Sarsa( )法 実験 – 問題毎 応 特徴量 設定 – 報酬 設定 • 下記 設定 問題 汎用的 解 行動 設定 特徴量 設定 行動後 特徴量 変化 初期条件 終了条件
  • 9. (例 )馬力不足 車 登 学習 馬力不足 車 坂 登 後退 前進 繰返 下降時 加速度 利用 坂登 学習 汎用 設定 値 ① 行動 前進 後進 自由降下 ② 特徴量 位置P 速度V ③ 行動後 特徴量 前進 P=P+V 後進 P=P-V 速度 V=C1-sin(P*C2) ④ 初期条件 出発点 ⑤ 終了条件 終点 達
  • 10. (例 )馬力不足 車 登 学習 最初 4000回 達 最後 回 操作 登
  • 11. (例2)壁 障害 避 学習 汎用 設定 値 ① 行動 ② 特徴量 横座標X 縦座標Y ③ 行動後 特徴量 x +=1 x -=1 y +=1 y -=1 但 壁 通 ④ 初期条件 左下隅 ⑤ 終了条件 右上隅 到着
  • 12. (例2)壁 障害 避 学習 最初 7000回 最後 60回 出口 達
  • 13. • 強化学習sarsa( ) 特徴量近似 全 別 問題 特徴量 指定 汎用的 解 示 • 逆 適切 特徴量 指定 大事 – DQN=DeepLearning(特徴量抽出) 強化学習 • 報酬 設定 必要 示 – 局面毎 適切 報酬 設定 方 学習 早 一般的 困難( 得点 報酬 – 専門家 行動記録 報酬 逆算 逆強化学 習
  • 14. 参考文献 • Mastering the Game of Go with Deep Neural Network and Tree Seach DeepMind • Playing Atari with Deep Reinforcement Learning DeepMind • Reinforcement Learning Sutton • 心 分子機構 計算理論的 銅谷 賢治 • Probablistic Robtics Thurn • Maximum Entropy Deep Inverse Reinforcement Learning ICPR2014 • Inverse Reinforcement Learning with Locally Consistent Reward Functions NIPS2015