Mais conteúdo relacionado
Semelhante a 海鳥の経路予測のための逆強化学習 (20)
海鳥の経路予測のための逆強化学習
- 3. 3
逆強化学習に基づくアプローチ (1)
• 強化学習 … エージェントの行動規範を獲得
⎻ 行動の良さを報酬で評価
⎻ 報酬が高くなるような方策(行動規範)を試行錯誤しながら獲得
⎻ 獲得した方策を用いてエージェントの行動を決定
エージェント
方策
状態に基づき行動を決定
学習器
方策の改善
状態観測器
エージェントの状態の推定
環境
行動
報酬
状態遷移
迷路
例) ゴールに到達: +10
ゴールに未到達: -10
- 4. 4
逆強化学習に基づくアプローチ (1)
• 強化学習 … エージェントの行動規範を獲得
⎻ 行動の良さを報酬で評価
⎻ 報酬が高くなるような方策(行動規範)を試行錯誤しながら獲得
⎻ 獲得した方策を用いてエージェントの行動を決定
経路予測
エージェント
方策
状態に基づき行動を決定
学習器
方策の改善
状態観測器
エージェントの状態の推定
環境
行動
報酬
状態遷移
報酬を決定するのが困難
- 5. 5
逆強化学習に基づくアプローチ (2)
• 逆強化学習 … 「報酬」を求める
⎻ 教師データ(再現したい行動のデータ)から報酬(+方策)を学習
⎻ 求めた方策を用いて,エージェントの動き(行動)を決定
経路予測
エージェント
方策
状態に基づき行動を決定
学習器
方策の改善
状態観測器
エージェントの状態の推定
環境
行動
状態遷移
報酬
再現したい行動データ
- 6. 6
Activity Forecasting
• Markov Decision Process (MDP)
⎻ 現在の状態 と 行動 から状態が遷移
⎻ 現在地 と 移動方向 から現在地が遷移
⎻ 行動選択で移動経路が決まる
• Activity Forecasting [Kitani et al., 2012]
⎻ 対象の行動を予測する問題設定
⎻ 行動により変化した状態(座標)の系列が経路予測結果
※ Path prediction: 各時刻の座標を直接推定・出力
状態
行動
報酬
- 7. 7
Activity Forecasting [Kitani, et al., 2012]
• 人間の移動経路は周囲の環境に大きく影響
⎻ 車道・歩道・建物
• 逆強化学習を用いて行動規範を獲得
⎻ Maximum Entropy Inverse Reinforcement Learning
(MaxEnt IRL)
Physical attribute Forecast distribution
- 8. 8
生物の移動経路 ~共通点~
• 人間
⎻ 歩道を好んで移動
⎻ 花壇や建物は移動しない
⎻ 歩行者の移動データから規範を学習
逆強化学習
• オオミズナギドリ
⎻ 海上を飛行
⎻ 陸地は飛行しない
⎻ GPSで計測した飛行データを使用可能
逆強化学習で予測できるのでは?
- 11. 11
定義 1
状態: 𝑠 … 対象の位置
行動: 𝑎 … 対象の移動方向
軌跡: 𝜉 = 𝑠0, 𝑎0 , 𝑠1, 𝑎1 , …
特徴ベクトル(マップ): 𝒇(𝑠𝑡)
- 13. 13
定義 2
• 逆強化学習における報酬
⎻ 重みベクトルと特徴ベクトルの線形結合で表現
ある状態𝑠𝑡で得られる報酬
ある軌跡𝜉で得られる報酬
𝑟 𝑠𝑡; 𝜽 = 𝜽T 𝒇(𝑠𝑡)
𝑅 𝜉; 𝜽 =
𝑡
𝑟(𝑠𝑡; 𝜽) =
𝑡
𝜽 𝑇 𝒇(𝑠𝑡)
↑
与えられている
(自分で準備する)
↑
これを求めたい!
学習データの行動を再現するような報酬を求める
→ 重みベクトルを求める
逆強化学習
- 14. 14
逆強化学習のアプローチ
• 線型計画法 [Ng, et al., 2000]
⎻ もっとも古典的なアプローチ
• Apprenticeship learning
[Abbeel, et al., 2004]
⎻ Max margin法・Projection法を使って𝜽を求める
• Maximum entropy IRL [Ziebart, et al., 2008]
⎻ 確率的な手法に拡張
• Maximum Entropy Deep IRL [Wulfmeir, et al., 2015]
⎻ 深層学習を使う形に拡張
- 17. 17
学習方法
• 最尤推定(maximum likelihood estimation; MLE)
⎻ 学習データの軌跡 𝜉の尤度を最大化する 𝜽を求める
⎻ Exponentiated gradient descentで𝜽更新
1. 勾配を計算
2. 重みベクトル𝜽を更新
𝜽 = 𝑎𝑟𝑔𝑚𝑎𝑥 𝜽 𝐿 𝜽 = 𝑎𝑟𝑔𝑚𝑎𝑥 𝜽 log 𝑝( 𝜉|𝜽)
∇𝐿 𝜽 =
𝑡
𝒇( 𝑠𝑡) − 𝐸 𝑝 𝜉 𝜽
𝑡
𝒇(𝑠𝑡)
𝜽 ← 𝜽 exp{ 𝜆∇𝐿(𝜽)}
- 19. 19
評価実験
• 2種類の設定で実験
実験1: 経路予測 [Hirakawa, et al., 2017]
⎻ スタートからゴールまでの経路を
確率分布で出力
実験2: 欠損した軌跡の補間
⎻ 軌跡の一部分を欠損させ,経路予測
⎻ 各状態での最大の確率の行動を選択し,
軌跡(座標列)を出力
事情によりお見せできません
Notas do Editor
- 文字通り,強化学習の枠組みに基づいて経路予測が行われます.
まず,強化学習にはエージェントと呼ばれる何らかの行動を行う対象とそのエージェントが行動を行う環境が存在します.
ここではロボットがある迷路内で,スタートからゴールまでたどり着くような学習を例にとって考えてみます.
この場合のエージェントはロボットで,環境は迷路となります.
強化学習ではゴールへたどり着くための学習を試行錯誤しながら行なっていきます.
はじめのうちはゴールへたどり着けいない場合もありますが,試行錯誤を繰り返すうちに最適な行動が選択できるようになります.
この時,行動の良し悪しを図る指標として報酬が与えられ,この報酬が大きくなるように方策を改善することで学習が進んでいきます.
- この迷路の問題を実際の経路予測に置き換えてみます.
エージェントは歩行者などの予測対象となり,環境は動画像などのシーンとなります.
この環境下で試行錯誤を行えば良さそうですが,この問題では現実世界のデータを扱うため,試行錯誤が困難であり,そもそも,報酬を決めることが難しいという問題があります.
- そこで,その報酬を再現したい行動データから求めようというのが逆強化学習です.
逆強化学習では教師データの動きをうまく再現できるような報酬を学習し求めます.
学習が終わると,スタートとゴールを設定し,求めた報酬及び方策を用いてエージェントを動かすことで経路予測を実現します.
- この強化学習の枠組みは一般的にマルコフ決定過程MDPで定式化されます.
MDPには状態と行動と呼ばれる変数が各時刻に存在しており,いまの状態から行動を決定し,その行動によって状態が変化するというモデルになっています.
これを経路予測として言い換えると,現在地から移動方向を決定し,移動することで現在地が遷移するということになります.
つまり,強化学習の枠組みでは行動の選択が重要となるわけです.
これを踏まえた上で,逆強化学習による経路予測は主にActivity Forecastingと呼ばれています.これはKitaniらによって提案された比較的新しい問題設定です.
Activity forecastingでは各時刻での対象のとる行動を予測する問題となっており,行動によって変化した状態の系列が経路予測の結果となります.