文献紹介：Multi-Task Learning for Dense Prediction Tasks: A Survey

Multi-Task Learning for
Dense Prediction Tasks:
A Survey
Simon Vandenhende, Stamatios Georgoulis, Wouter Van Gansbeke,
Marc Proesmans, Dengxin Dai and Luc Van Gool
木全潤（名工大）
2022/10/14

概要
nMulti-Task Learnigに関するサーベイ論文
• 密な画像タスクが対象

Deep Multi-Task Architectures
nEncoder-focused model
• エンコード段階でのみ情報を共有
nDecoder-focused model
• デコード段階でも情報を共有

Encoder-focused Architectures
nCross-Stitch Networks [Misra+, CVPR2016]
• 2つのタスクをある層で線型結合
nNeural Discriminative Dimensionality
Reduction (NDDR-CNNs) [Gao+, CVPR2016]
• 結合の方法を次元削減メカニズムに変更
n欠点
• タスクに比例してサイズが増加
• 局所情報しか融合できない

Encoder-focused Architectures
nMulti-Task Attention Networks
(MTAN) [Liu+, CVPR2019]
• 共有のバックボーン
• タスク固有のアテンション
• 先の2手法の欠点の内サイズの問題を改善
nBranched Multi-Task Learning
• 共有部分から始まり深くなるほど分岐
• Fully-Adaptive Feature Sharing (FAFS) [Lu+, CVPR2017]
• Branched Multi-Task Architecture Search (BMTAS) [Bruggemann+,
arXiv:2008.10292]
• Learning To Branch (LTB) [Guo+, ICML2020]

Decoder-Focused Architectures
nPAD-Net [Xu+, CVPR2018]
• マルチモーダル蒸留
• 空間的なアテンションの使用
• ヘッドの情報を共有することで
タスク間の情報を結合

nPattern-Affinitive Propagation Networks (PAP-Net) [Zhang+,
CVPR2019]
• 画素の親和性を用いたマルチモーダル蒸留
• 非局所的な関係もモデル化

nJoint Task-Recursive Learning (JTRL) [Zhang+, ECCV2018]
• 2つのタスクを再帰的に予測
• 2つ以上のタスクへの適用は難しい

nMulti-Scale Task Interaction Networks (MTI-Net) [Vandenhende+,
ECCV2020]
• 複数スケールでタスクを行い
相互作用を考慮

Others
nAttentive Single-Tasking of Multiple Tasks (ASTMT) [Maninis+,
CVPR2019]
• 各タスクに別々のフォワードパスを通す
• 全タスク共有の反応とタスクに特化した反応の活性化
• 利点
• 共有情報と固有情報の分離
• 欠点
• 推論速度の著しい低下

Optimization Strategy
nTask Balancing Approaches
• タスクごとに固有の重みを設定
• 勾配の大きさのバランスをとる

Task Balancing Approaches
nUncertainty Weighting [Kendall+, CVPR2018]
• アノテーションが不確実なタスクの重みを小さくする
• ノイズの多いアノテーションを扱うときに有利
nGradient Normalization [Chen+, ICML2018]
• タスクごとの勾配の大きさでバランスをとる
• タスクの学習速度でバランスをとる

nDynamic Weight Averaging (DWA) [Liu+, CVPR2019]
• 損失の減少速度でバランスをとる
• 初期の損失でバランスを取っておく必要がある
nDynamic Task Prioritization [Guo+, ECCV2018]
• タスクの難しいものの重みを大きくする

nMTL as Multi-Objective Optimization
• 多段階勾配降下法(MGDA)が提案
• 他タスクの損失が増加せずにタスクの損失を減らす方向を探す
nまとめ
• ケースごとに適切な方法が変わる
• 初期のハイパーパラメータ調整が難しい手法が多い

Experiments
nデータセット
• NYUD-v2 [Silverman+, ECCV2012]
• PASCAL [Everingham+, IJCV2010]
nタスク
• セグメンテーション
• 深度推定
• 人体パーツ推定
• Surface normals prediction
• Saliency detection
n評価指標
• 各タスクでの評価
• Iou
• rmse
• mErr
• MTLとしての性能

Architecture
nNYUD-v2
• エンコーダ特化ではMTANが性能が最も良さそう
• デコーダ特化は計算量を考慮してMTI-Netがいい？

Architecture
nPASCAL
• 全てにおいて優れるようなエンコーダ特化手法はない
• デコーダ特化は計算量も考慮してMTI-Netは良さそう

Optimization
n基本的に悪い結果のものが多かった
n場合によって使える手法もある

まとめ
nマルチタスク学習に対するサーベイ
n２種の観点から考察
• アーキテクチャ
• 最適化手法
n結果
• 結果はタスクの種類やラベルの違いで大きく変化
• エンコーダ重視は利点が小さい
• デコーダ重視は有用かも
• 最適化手法は問題点が残る

文献紹介：Multi-Task Learning for Dense Prediction Tasks: A Survey

Recommended

Recommended

More Related Content

Similar to 文献紹介：Multi-Task Learning for Dense Prediction Tasks: A Survey

Similar to 文献紹介：Multi-Task Learning for Dense Prediction Tasks: A Survey (10)

More from Toru Tamaki

More from Toru Tamaki (20)

文献紹介：Multi-Task Learning for Dense Prediction Tasks: A Survey