SlideShare uma empresa Scribd logo
1 de 15
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
Counterfactual Vision-and-Language
Navigation: Unravelling the Unseen
Presenter: Kei Akuzawa
書誌情報
• タイトル: Counterfactual Vision-and-Language Navigation:
Unravelling the Unseen
• 著者: Amin Parvaneh, Ehsan Abbasnejad, Damien Teney, Javen Qinfeng Shi,
Anton van den Hengel
• University of Adelaide, Australia
• 会議: NeurIPS2020
• 一言でいうと: navigationタスクのための,反事実的推論(Counterfactual
Reasoning)を利用したデータ拡張手法の提案
タスクの説明:
Vision-and Language Navigation (VLN)
• POMDP課題の一種
• エージェントは言語指示 と画像観測 t を受け取る
• エージェントはアクション at を各時刻 ごとに実行し,言語指示に示されたナビゲーション課
題 を達成すると報酬がもらえる(注: 本論文ではsparse rewardではない)
背景: VLNの難しさ
• VLNは通常,強化学習と模倣学習の組み合わせによって解かれる
• 強化学習(RL): 試行錯誤による学習
• 模倣学習(IL): 予め用意した正解軌道 τ0:T = {o1:T, a1:T, c}を用いた学習
• VLNエージェントを,未知の環境・言語指示に汎化させたい
• エージェントが訓練時に使った軌道を丸暗記する危険がある
• VLNのようなマルチモーダル・系列課題では特に,入力空間が広すぎるた
め に,汎化が難しい
提案と貢献
• 提案: 反事実的推論(Counterfactual Reasoning)を利用して,汎化能力を向上させる
• 反事実的軌道の生成: タスクに関係のないspuriousな画像特徴に介入
• エージェントの訓練: 反事実的軌道を利用することで,spuriousな特徴にロバスト化
• 貢献
• VLNにおいて,反事実的推論によるデータ拡張という新しい方針を提案.
• データ拡張を行う具体的な手法の提案
• ベンチマーク環境 Room-to-Room と Embodied Question Answering の性能改善
手法: 前置き
• この論文が考える方策:
• 普通のRNN方策(数式で表されているだけ)
1. 観測 t からCNNで特徴量 zt を抽出
2. zt をRNNに入れて隠れ状態 st を抽出
3. st を元に,アクション at を出力
手法: 前置き
• 介入による,反事実的な軌道:
• 二つの軌道, τ, c), (τ′, c′) の内挿によって軌道を作成
• CNNで抽出した特徴量 zt の空間上で内挿する
• 内挿の係数 u ∈ [0,1]d の選び方は後述
手法: やること,そのメリット
• やりたいこと: 反事実的に生成された軌道に対する報酬を最大化
• 報酬:
• p(u|τ, c) :介入のルールを定める分布
• :反事実的に生成された軌道
• 上のメリット:
• 介入に対して,平均的に良い性能を発揮することができる
• 理由: 介入に対して周辺化している(𝔼u∼p(u|τ,c) に注意)
• (因果推論の文脈では,条件付き平均処置効果の最小化と呼ばれる)
• 次の疑問: 介入をどう定義すれば,上のメリットが活かせる???
手法: 意味のある介入とは
• どんな介入を考えるべきか? => 方策をどんな特徴に対してロバストにしたいのか?
• => タスクに関係のない画像特徴の変更に対してロバストにしたい
• “whatif the agent observed a table, instead of a chair?”
• 介入に対する具体的な制約
① 介入前と介入後で同じ言語指示に従うべきというヒュリスティクスを導入
• 介入前と後で,タスクの大枠(エージェントが通るべきルート)は変わって欲しくない
② エージェントの行動を大きく変える介入を考える
• 本来,介入後も行動は変わって欲しくない(①).すなわちここでは,なるべく敵対的な介入を考えている
• エージェントの行動を変えない介入 => 元々方策に無視されている => これ以上ロバストにする必要がない
③ なるべく小さい介入を考える
• efficiency and simplicity (厳密に著者の言いたいことはわかってないが,まあ小さい方がよさそう)
手法: 介入の具体的な計算方法
• 第一項が③,第二項が①,第三項が②
• つまり,現在の方策を騙すように を選ぶ(敵対学習っぽい)
手法: アルゴリズム
実験
• Room-to-Room:
• training data: 14025 pairs of τ, c) path in 61 environments
• test data:
• (1) seen: 環境は既知,言語指示は未知
• (2) unseen: 環境も言語指示も未知
• Embodied Question Answering(本発表では省略)
• Room-to-Roomより大規模な環境
実験
を後付け
• 指標
• NE: ゴールとの距離
• SR: 成功率
• SPL: Success weighted by Path Length
• ablation methods
• +Prior: 介入 をpriorからサンプル.
• 単なるMixUp [Zhang+2018]
• +Aug: ある軌道 にふさわしい言語指示
• [Anderson+2018]の手法
• +Counterfactuals: 提案手法
•
まとめと感想
• まとめ
• VLNにおける未知環境・言語指示への汎化を促進するために,反事実
的 推論を利用したデータ拡張手法を提案した
• 感想
• アイデアが面白かった
• “介入”の定義については,タスクに応じて他の帰納バイアスもありそう
参考文献
• Zhang et.al. mixup: Beyond empirical risk minimization. ICLR, 2018.
• Anderson et.al. Vision-and-language navigation: Interpreting
visually-grounded navigation instructions in real environments. CVPR,
2018.

Mais conteúdo relacionado

Mais de Deep Learning JP

【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?Deep Learning JP
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究についてDeep Learning JP
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )Deep Learning JP
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...Deep Learning JP
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"Deep Learning JP
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "Deep Learning JP
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat ModelsDeep Learning JP
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"Deep Learning JP
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...Deep Learning JP
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...Deep Learning JP
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...Deep Learning JP
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...Deep Learning JP
 
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...Deep Learning JP
 
【DL輪読会】Deep Transformers without Shortcuts: Modifying Self-attention for Fait...
【DL輪読会】Deep Transformers without Shortcuts: Modifying Self-attention for Fait...【DL輪読会】Deep Transformers without Shortcuts: Modifying Self-attention for Fait...
【DL輪読会】Deep Transformers without Shortcuts: Modifying Self-attention for Fait...Deep Learning JP
 
【DL輪読会】マルチモーダル 基盤モデル
【DL輪読会】マルチモーダル 基盤モデル【DL輪読会】マルチモーダル 基盤モデル
【DL輪読会】マルチモーダル 基盤モデルDeep Learning JP
 
【DL輪読会】TrOCR: Transformer-based Optical Character Recognition with Pre-traine...
【DL輪読会】TrOCR: Transformer-based Optical Character Recognition with Pre-traine...【DL輪読会】TrOCR: Transformer-based Optical Character Recognition with Pre-traine...
【DL輪読会】TrOCR: Transformer-based Optical Character Recognition with Pre-traine...Deep Learning JP
 
【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...
【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...
【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...Deep Learning JP
 
【DL輪読会】大量API・ツールの扱いに特化したLLM
【DL輪読会】大量API・ツールの扱いに特化したLLM【DL輪読会】大量API・ツールの扱いに特化したLLM
【DL輪読会】大量API・ツールの扱いに特化したLLMDeep Learning JP
 
【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
【DL輪読会】DINOv2: Learning Robust Visual Features without SupervisionDeep Learning JP
 
【DL輪読会】Poisoning Language Models During Instruction Tuning Instruction Tuning...
【DL輪読会】Poisoning Language Models During Instruction Tuning Instruction Tuning...【DL輪読会】Poisoning Language Models During Instruction Tuning Instruction Tuning...
【DL輪読会】Poisoning Language Models During Instruction Tuning Instruction Tuning...Deep Learning JP
 

Mais de Deep Learning JP (20)

【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
 
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
 
【DL輪読会】Deep Transformers without Shortcuts: Modifying Self-attention for Fait...
【DL輪読会】Deep Transformers without Shortcuts: Modifying Self-attention for Fait...【DL輪読会】Deep Transformers without Shortcuts: Modifying Self-attention for Fait...
【DL輪読会】Deep Transformers without Shortcuts: Modifying Self-attention for Fait...
 
【DL輪読会】マルチモーダル 基盤モデル
【DL輪読会】マルチモーダル 基盤モデル【DL輪読会】マルチモーダル 基盤モデル
【DL輪読会】マルチモーダル 基盤モデル
 
【DL輪読会】TrOCR: Transformer-based Optical Character Recognition with Pre-traine...
【DL輪読会】TrOCR: Transformer-based Optical Character Recognition with Pre-traine...【DL輪読会】TrOCR: Transformer-based Optical Character Recognition with Pre-traine...
【DL輪読会】TrOCR: Transformer-based Optical Character Recognition with Pre-traine...
 
【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...
【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...
【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...
 
【DL輪読会】大量API・ツールの扱いに特化したLLM
【DL輪読会】大量API・ツールの扱いに特化したLLM【DL輪読会】大量API・ツールの扱いに特化したLLM
【DL輪読会】大量API・ツールの扱いに特化したLLM
 
【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
 
【DL輪読会】Poisoning Language Models During Instruction Tuning Instruction Tuning...
【DL輪読会】Poisoning Language Models During Instruction Tuning Instruction Tuning...【DL輪読会】Poisoning Language Models During Instruction Tuning Instruction Tuning...
【DL輪読会】Poisoning Language Models During Instruction Tuning Instruction Tuning...
 

Último

SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものですiPride Co., Ltd.
 
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdfTSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdftaisei2219
 
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A surveyToru Tamaki
 
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...Toru Tamaki
 
スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムスマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムsugiuralab
 
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Yuma Ohgami
 
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略Ryo Sasaki
 
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNetToru Tamaki
 
Postman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By DanielPostman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By Danieldanielhu54
 

Último (9)

SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものです
 
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdfTSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdf
 
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey
 
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
 
スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムスマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システム
 
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
 
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
 
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet
 
Postman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By DanielPostman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By Daniel
 

[DL輪読会]Counterfactual Vision-and-Language Navigation: Unravelling the Unseen

  • 1. DEEP LEARNING JP [DL Papers] http://deeplearning.jp/ Counterfactual Vision-and-Language Navigation: Unravelling the Unseen Presenter: Kei Akuzawa
  • 2. 書誌情報 • タイトル: Counterfactual Vision-and-Language Navigation: Unravelling the Unseen • 著者: Amin Parvaneh, Ehsan Abbasnejad, Damien Teney, Javen Qinfeng Shi, Anton van den Hengel • University of Adelaide, Australia • 会議: NeurIPS2020 • 一言でいうと: navigationタスクのための,反事実的推論(Counterfactual Reasoning)を利用したデータ拡張手法の提案
  • 3. タスクの説明: Vision-and Language Navigation (VLN) • POMDP課題の一種 • エージェントは言語指示 と画像観測 t を受け取る • エージェントはアクション at を各時刻 ごとに実行し,言語指示に示されたナビゲーション課 題 を達成すると報酬がもらえる(注: 本論文ではsparse rewardではない)
  • 4. 背景: VLNの難しさ • VLNは通常,強化学習と模倣学習の組み合わせによって解かれる • 強化学習(RL): 試行錯誤による学習 • 模倣学習(IL): 予め用意した正解軌道 τ0:T = {o1:T, a1:T, c}を用いた学習 • VLNエージェントを,未知の環境・言語指示に汎化させたい • エージェントが訓練時に使った軌道を丸暗記する危険がある • VLNのようなマルチモーダル・系列課題では特に,入力空間が広すぎるた め に,汎化が難しい
  • 5. 提案と貢献 • 提案: 反事実的推論(Counterfactual Reasoning)を利用して,汎化能力を向上させる • 反事実的軌道の生成: タスクに関係のないspuriousな画像特徴に介入 • エージェントの訓練: 反事実的軌道を利用することで,spuriousな特徴にロバスト化 • 貢献 • VLNにおいて,反事実的推論によるデータ拡張という新しい方針を提案. • データ拡張を行う具体的な手法の提案 • ベンチマーク環境 Room-to-Room と Embodied Question Answering の性能改善
  • 6. 手法: 前置き • この論文が考える方策: • 普通のRNN方策(数式で表されているだけ) 1. 観測 t からCNNで特徴量 zt を抽出 2. zt をRNNに入れて隠れ状態 st を抽出 3. st を元に,アクション at を出力
  • 7. 手法: 前置き • 介入による,反事実的な軌道: • 二つの軌道, τ, c), (τ′, c′) の内挿によって軌道を作成 • CNNで抽出した特徴量 zt の空間上で内挿する • 内挿の係数 u ∈ [0,1]d の選び方は後述
  • 8. 手法: やること,そのメリット • やりたいこと: 反事実的に生成された軌道に対する報酬を最大化 • 報酬: • p(u|τ, c) :介入のルールを定める分布 • :反事実的に生成された軌道 • 上のメリット: • 介入に対して,平均的に良い性能を発揮することができる • 理由: 介入に対して周辺化している(𝔼u∼p(u|τ,c) に注意) • (因果推論の文脈では,条件付き平均処置効果の最小化と呼ばれる) • 次の疑問: 介入をどう定義すれば,上のメリットが活かせる???
  • 9. 手法: 意味のある介入とは • どんな介入を考えるべきか? => 方策をどんな特徴に対してロバストにしたいのか? • => タスクに関係のない画像特徴の変更に対してロバストにしたい • “whatif the agent observed a table, instead of a chair?” • 介入に対する具体的な制約 ① 介入前と介入後で同じ言語指示に従うべきというヒュリスティクスを導入 • 介入前と後で,タスクの大枠(エージェントが通るべきルート)は変わって欲しくない ② エージェントの行動を大きく変える介入を考える • 本来,介入後も行動は変わって欲しくない(①).すなわちここでは,なるべく敵対的な介入を考えている • エージェントの行動を変えない介入 => 元々方策に無視されている => これ以上ロバストにする必要がない ③ なるべく小さい介入を考える • efficiency and simplicity (厳密に著者の言いたいことはわかってないが,まあ小さい方がよさそう)
  • 10. 手法: 介入の具体的な計算方法 • 第一項が③,第二項が①,第三項が② • つまり,現在の方策を騙すように を選ぶ(敵対学習っぽい)
  • 12. 実験 • Room-to-Room: • training data: 14025 pairs of τ, c) path in 61 environments • test data: • (1) seen: 環境は既知,言語指示は未知 • (2) unseen: 環境も言語指示も未知 • Embodied Question Answering(本発表では省略) • Room-to-Roomより大規模な環境
  • 13. 実験 を後付け • 指標 • NE: ゴールとの距離 • SR: 成功率 • SPL: Success weighted by Path Length • ablation methods • +Prior: 介入 をpriorからサンプル. • 単なるMixUp [Zhang+2018] • +Aug: ある軌道 にふさわしい言語指示 • [Anderson+2018]の手法 • +Counterfactuals: 提案手法 •
  • 14. まとめと感想 • まとめ • VLNにおける未知環境・言語指示への汎化を促進するために,反事実 的 推論を利用したデータ拡張手法を提案した • 感想 • アイデアが面白かった • “介入”の定義については,タスクに応じて他の帰納バイアスもありそう
  • 15. 参考文献 • Zhang et.al. mixup: Beyond empirical risk minimization. ICLR, 2018. • Anderson et.al. Vision-and-language navigation: Interpreting visually-grounded navigation instructions in real environments. CVPR, 2018.