[DL輪読会]Counterfactual Vision-and-Language Navigation: Unravelling the Unseen

DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
Counterfactual Vision-and-Language
Navigation: Unravelling the Unseen
Presenter: Kei Akuzawa

書誌情報
• タイトル: Counterfactual Vision-and-Language Navigation:
Unravelling the Unseen
• 著者: Amin Parvaneh, Ehsan Abbasnejad, Damien Teney, Javen Qinfeng Shi,
Anton van den Hengel
• University of Adelaide, Australia
• 会議: NeurIPS2020
• 一言でいうと: navigationタスクのための，反事実的推論（Counterfactual
Reasoning）を利用したデータ拡張手法の提案

タスクの説明:
Vision-and Language Navigation (VLN)
• POMDP課題の一種
• エージェントは言語指示と画像観測 t を受け取る
• エージェントはアクション at を各時刻ごとに実行し，言語指示に示されたナビゲーション課
題を達成すると報酬がもらえる（注: 本論文ではsparse rewardではない）

背景: VLNの難しさ
• VLNは通常，強化学習と模倣学習の組み合わせによって解かれる
• 強化学習（RL）: 試行錯誤による学習
• 模倣学習（IL）: 予め用意した正解軌道 τ0:T = {o1:T, a1:T, c}を用いた学習
• VLNエージェントを，未知の環境・言語指示に汎化させたい
• エージェントが訓練時に使った軌道を丸暗記する危険がある
• VLNのようなマルチモーダル・系列課題では特に，入力空間が広すぎるた
めに，汎化が難しい

提案と貢献
• 提案: 反事実的推論（Counterfactual Reasoning）を利用して，汎化能力を向上させる
• 反事実的軌道の生成: タスクに関係のないspuriousな画像特徴に介入
• エージェントの訓練: 反事実的軌道を利用することで，spuriousな特徴にロバスト化
• 貢献
• VLNにおいて，反事実的推論によるデータ拡張という新しい方針を提案．
• データ拡張を行う具体的な手法の提案
• ベンチマーク環境 Room-to-Room と Embodied Question Answering の性能改善

手法: 前置き
• この論文が考える方策:
• 普通のRNN方策（数式で表されているだけ）
1. 観測 t からCNNで特徴量 zt を抽出
2. zt をRNNに入れて隠れ状態 st を抽出
3. st を元に，アクション at を出力

手法: 前置き
• 介入による，反事実的な軌道:
• 二つの軌道， τ, c), (τ′, c′) の内挿によって軌道を作成
• CNNで抽出した特徴量 zt の空間上で内挿する
• 内挿の係数 u ∈ [0,1]d の選び方は後述

手法: やること，そのメリット
• やりたいこと: 反事実的に生成された軌道に対する報酬を最大化
• 報酬:
• p(u|τ, c) :介入のルールを定める分布
• :反事実的に生成された軌道
• 上のメリット:
• 介入に対して，平均的に良い性能を発揮することができる
• 理由: 介入に対して周辺化している（𝔼u∼p(u|τ,c) に注意）
• （因果推論の文脈では，条件付き平均処置効果の最小化と呼ばれる）
• 次の疑問: 介入をどう定義すれば，上のメリットが活かせる？？？

手法: 意味のある介入とは
• どんな介入を考えるべきか？ => 方策をどんな特徴に対してロバストにしたいのか？
• => タスクに関係のない画像特徴の変更に対してロバストにしたい
• “whatif the agent observed a table, instead of a chair?”
• 介入に対する具体的な制約
① 介入前と介入後で同じ言語指示に従うべきというヒュリスティクスを導入
• 介入前と後で，タスクの大枠（エージェントが通るべきルート）は変わって欲しくない
② エージェントの行動を大きく変える介入を考える
• 本来，介入後も行動は変わって欲しくない（①）．すなわちここでは，なるべく敵対的な介入を考えている
• エージェントの行動を変えない介入 => 元々方策に無視されている => これ以上ロバストにする必要がない
③ なるべく小さい介入を考える
• eﬃciency and simplicity （厳密に著者の言いたいことはわかってないが，まあ小さい方がよさそう）

手法: 介入の具体的な計算方法
• 第一項が③，第二項が①，第三項が②
• つまり，現在の方策を騙すようにを選ぶ（敵対学習っぽい）

実験
• Room-to-Room:
• training data: 14025 pairs of τ, c) path in 61 environments
• test data:
• (1) seen: 環境は既知，言語指示は未知
• (2) unseen: 環境も言語指示も未知
• Embodied Question Answering（本発表では省略）
• Room-to-Roomより大規模な環境

実験
を後付け
• 指標
• NE: ゴールとの距離
• SR: 成功率
• SPL: Success weighted by Path Length
• ablation methods
• +Prior: 介入をpriorからサンプル．
• 単なるMixUp [Zhang+2018]
• +Aug: ある軌道にふさわしい言語指示
• [Anderson+2018]の手法
• +Counterfactuals: 提案手法
•

まとめと感想
• まとめ
• VLNにおける未知環境・言語指示への汎化を促進するために，反事実
的推論を利用したデータ拡張手法を提案した
• 感想
• アイデアが面白かった
• “介入”の定義については，タスクに応じて他の帰納バイアスもありそう

参考文献
• Zhang et.al. mixup: Beyond empirical risk minimization. ICLR, 2018.
• Anderson et.al. Vision-and-language navigation: Interpreting
visually-grounded navigation instructions in real environments. CVPR,
2018.

[DL輪読会]Counterfactual Vision-and-Language Navigation: Unravelling the Unseen

Recomendados

Recomendados

Mais conteúdo relacionado

Mais de Deep Learning JP

Mais de Deep Learning JP (20)

Último

Último (9)

[DL輪読会]Counterfactual Vision-and-Language Navigation: Unravelling the Unseen