Long-Tailed Classificationの最新動向について

2020.08.20
洪嘉源
株式会社 Mobility Technologies
Long-Tailed Classification
の最新動向について

2
▪ 最近のconferenceでhotになりつつのlong-tailed classificationにつ
いて紹介したいと思います。
▪ 今回の資料は主に2019年以来のcomputer vision領域でのlong-
tailed分布のタスクについてです。早期の研究および自然言語領域の
内容は対象外となります
▪ supervised learningに関する研究をメインにします。
（unsupervised/self-supervisedはそんなにラベルに頼らないのでこ
の分野では研究がほとんどありません。）
▪ Titleはlong-tailed classificationですが、最後にlong-tailed分布の
detection/segmentation taskも少し言及します。
この資料について

3
Agenda
01｜Long-Tailed Classification概要
02｜主流手法紹介
03｜最新論文紹介

4
01 Long-Tailed Classification概要

5
▪ 理想的な分類タスク：
▪ 独立同一分布
▪ クラス間のデータ数は均衡
▪ 学習データとテストデータの分布が一致
▪ データの分布がずっと固定
▪ …
▪ 実際のタスクでは上記条件は必ず満足されるとは限らない
▪ long-tailed問題はデータ不均衡問題
Long-Tailed Classification概要

6
▪ targetとされるクラス数が増えることによって、人為的に均衡的なデ
ータを収集するコストが高くなる
→ 自然的に収集するデータはlong-tailed分布 (Zipf's Law)
cat
vulpes lagopus

7
▪ インスタンス数によって二つに分ける
▪ head classes: 少数のクラス、データ数が多い、学習しやすい
▪ tail classes: 多数のクラス、データ数が少ない、学習しずらい
（＊many/medium/few三段階に分けるのもある）
▪ 目的: tail classesを有効に利用し、均衡＆高性能のモデルを訓練する
head classes tail classes
cat
vulpes lagopus

9
▪ 二つのbasic approach：
▪ re-sampling: 学習データをdata balancedにサンプリングする
▪ re-weighting: ロスに重みをかけてdata balancedにする
▪ 両者とも既知の学習データセットの分布を利用し、データ分布を
hackingしてtail classesの学習を強化する
主流手法

10
▪ 早期の研究では主に
▪ head classesを少なめにサンプリングする（under-sampling）
▪ tail classesを少なめにサンプリングする（over-sampling）
▪ 本質はclass-balanced sampling
（通常分類タスクのinstance-balanced samplingと区別する）
▪ サンプリング戦略の数式：
▪ 𝐶はクラス数、 𝑛𝑖はクラス𝑖のサンプル数、𝑝𝑗は𝑗番目のクラスから画像をサンプリ
ングする確率
▪ re-samplingでは、𝑞 ∈ 0, 1 → tail classesのサンプリング確率をあげる
▪ 𝑞 = 0:class-balanced sampling, 𝑞 = 1:instance-balanced sampling(no re-sampling)
Re-Sampling
𝑝𝑗 =
𝑛𝑗
𝑞
𝑖=1
𝐶
𝑛𝑖
𝑞

11
▪ データ分布を基づいて逆に重み付け
▪ re-weighted cross-entropy loss:
▪ 𝑧𝑖はlogit出力、 𝜔はre-weightの重み（＊この重みは常数ではない）
▪ 一般的なフォーマット：𝜔 = 𝑔 𝑖=1
𝐶
𝑓 𝑛 𝑖
𝑓 𝑛 𝑗
, 𝑔 ∙ , 𝑓(∙)は任意の単調増加関数
▪ 分類confidenceを基づいて重み付け（Hard Example Mining）
▪ focal loss[1]（二値分類の場合）:
▪ 𝑝はラベルが𝑦の確率、 𝛾はfocusing parameter、 𝛾 ≥ 0
Re-Weighting
𝐶𝐸𝐿 = −𝜔 ∙
exp(𝑧𝑗)
𝑖=1
𝐶
exp(𝑧𝑖)
𝐹𝐿 = −(1 − 𝑝𝑡) 𝛾
log 𝑝𝑡 , 𝑝𝑡 =
𝑝, 𝑖𝑓 𝑦 = 1
1 − 𝑝, 𝑜𝑡ℎ𝑒𝑟𝑤𝑖𝑠𝑒

12
▪ 両者を比較して
▪ re-samplingはハイパーパラメータの調整が少ない
▪ re-weightingは複雑のタスクでもフレキシブルに応用できる
▪ 上記re-samplingとre-weightingはlong-tailed問題に対して非常にシ
ンプルかつ有効の解決手法。そのため、最新の研究は主にそれらをベース
とする
サマリ

14
項目
3.1｜Re-Sampling
3.2｜Re-Weighting
3.3｜Transfer Learning(*)
3.4｜Detection/Segmentation(*)

15
Decoupling Representation and Classifier for Long-
Tailed Recognition, ICLR 2020 [2]
▪ 現在long-tailed classificationでSOTA（state of art）の一つ
▪ 分類パーフォマンス = 表現クオリティー + 分類器クオリティー
▪ long-tailed分布のデータを通常の学習なら分類器クオリティーが低い
▪ 直接rebalancingの手法を全モデルに適用すると表現クオリティーが下がる
3.1.1

16
▪ 一般的には、CNNによる分類の形式は：
▪ 特徴抽出: 𝑓 𝑥; 𝜃 = 𝑧
▪ 分類器: 𝑔𝑖 𝑧 = 𝑊𝑖
𝑇
𝑧 + 𝑏
▪ 最終的の予測: 𝑦 = 𝑎𝑟𝑔𝑚𝑎𝑥 𝑔𝑖 𝑧
▪ 通常分類器のクオリティについて分析
▪ 分類器のweight norm 𝑤𝑗 は当該
クラスのインスタンス数が相関（青）
▪ tail classesのweight scaleが小さい
→confidence scoreが小さい
→性能が悪い
3.1.1 long-tailed の分類性能の分析
通常の学習(青)

17
▪ Classifier Retraining (cRT)
▪ 特徴抽出部を固定し分類器だけをre-sampling(class-balanced) で再学習
▪ 𝜏-Norm
▪ 直接にweightを修正する: 𝑤𝑖 =
1
𝑤 𝑖
𝜏 ∗ 𝑤𝑖
▪ 𝜏 ∈ (0, 1)はcross validationで決める
▪ Learnable Weight Scaling (LWS)
▪ 学習でweightのscaleを調整: 𝑤𝑖 = 𝑓𝑖 ∗ 𝑤𝑖
▪ 特徴抽出部と分類器を固定して
𝑓𝑖はre-sampling (class-balanced)で学習
▪ Nearest Class Mean classifier (NCM)
▪ 各クラスの平均特徴を計算し、最近傍探索で分類
3.1.1 分類器性能を向上する手法

18
▪ sampling割合の数式: 𝑝𝑗 =
𝑛 𝑗
𝑞
𝑖=1
𝐶
𝑛 𝑖
𝑞
▪ instance-balanced: 𝑞 = 1
▪ class-balanced: 𝑞 = 0
▪ square-root: 𝑞 = 0.5
▪ progressively-balanced: 𝑝𝑗
𝑃𝐵
𝑡 = 1 −
𝑡
𝑇
∗ 𝑝𝑗
𝐼𝐵
+
𝑡
𝑇
∗ 𝑝𝑗
𝐶𝐵
, 𝑡は何epoch目
3.1.1 re-sampling戦略

19
▪ 特徴抽出部が各sampling手法で学習した場合の結果
▪ 分類器がre-balancingしない場合、progressively-balancedの性能が一番いい
▪ 特徴抽出部がre-samplingしない、分類器がre-balancingする場合、
Medium/Few クラスの性能が飛躍に上がって、全体的に最高の性能を得る
3.1.1 組合せと比較

20
3.1.1 Results
ImageNet-LT
iNaturalist 2018
Places-LT

21
Bilateral-Branch Network with Cumulative Learning
for Long-Tailed Visual Recognition，CVPR 2020 [3]
▪ 現在long-tailed classificationでもう一つのSOTA
▪ 別の角度でre-balancingを分析し、前の論文と似ている結論を導いた
▪ パーフォマンス一番いい組合せ：
元データとcross-entropy lossで学習の特徴抽出部＋re-samplingで学習の分類器
3.1.2

22
▪ one-stage two-branchのモデルを構築
▪ no re-balancingとre-balancingの学習を二つのブランチを分けて同時に学習する
▪ 両ブランチの前半部分の重みをshareする
▪ 両ブランチの出力featureを動的に重み付けて合併する
（学習に連れてno re-balancingからre-balancingへの重心転移）
3.1.2 Framework

24
Class-Balanced Loss Based on Effective Number of
Samples，CVPR 2019 [4]
▪ あるクラスに対して、データサンプル数の増加に連れ
て、新しいサンプルがモデルへの貢献が少なくなる
▪ 有効サンプル数の概念を提案した
▪ 過去のre-weighting手法では各クラスのサンプル数を
参照して重み付けに対して、有効サンプル数で重みを
デザインする
3.2.1

25
▪ 一つのsampleが点ではなく一定の大きさがあるregionとみなす
▪ 二つのサンプルがoverlappedとoverlappedしないパターンがある
▪ あるクラスのすべてのpossible samplesが構成したfeature space 𝑆の
大きさを𝑁とする
▪ 有効サンプル数は𝑛個サンプルが構成したvolumeの大きさ
3.2.1 定義

26
▪ 𝑛個サンプルの有効サンプル数: 𝐸 𝑛 =
1−𝛽 𝑛
1−𝛽
, 𝑤ℎ𝑒𝑟𝑒 𝛽 =
𝑁−1
𝑁
▪ 𝑁 = 1, 𝐸 𝑛 = 1; 𝑁 → ∞, 𝐸 𝑛 = 𝑛
▪ 𝛽はハイパーパラメータとして使う(0.9, 0.99, …)
▪ class-balanced loss:
𝐶𝐵 𝑝, 𝑦 =
1
𝐸 𝑛
ℒ 𝑝, 𝑦 =
1−𝛽
1−𝛽 𝑛 𝑦 ℒ 𝑝, 𝑦
▪ 1−𝛽
1−𝛽 𝑛 𝑦はclass-balanced term
▪ ℒ ∙ はsoftmax cross-entropy loss/sigmoid cross-entropy loss/
focal lossなど
3.2.1 有効サンプル数とLoss Functionの設計

28
Learning Imbalanced Datasets with Label-
Distribution-Aware Margin Loss，NIPS 2019 [5]
▪ head classesとtail classesのboundaryのtrade-offを考慮して、
サンプル数を参照したLDAM Lossを設計した
▪ 3.1.1, 3.1.2で紹介した論文と似て、モデルの表現クオリティー
を重視して、軽いre-weighting→重いre-weightingの学習
スケジュールを提案した
3.2.2

29
▪ label-distribution-aware margin loss:
ℒ 𝐿𝐷𝐴𝑀 𝑥, 𝑦 ; 𝑓 = −𝑙𝑜𝑔
𝑒 𝑧 𝑦−∆ 𝑦
𝑒 𝑧 𝑦−∆ 𝑦+ 𝑗≠𝑦 𝑒
𝑧 𝑗
,
𝑤ℎ𝑒𝑟𝑒 ∆ 𝑦 =
𝐶
𝑛𝑗
1 4
𝑓𝑜𝑟 𝑗 ∈ {1, … , 𝑘}
▪ 𝐶は常数、 𝑛𝑗はクラス𝑗のサンプル数
3.2.2 Loss Function

30
▪ 二段階の学習スケージュール：
▪ 初期はLDAM lossで学習
▪ 後期は伝統なre-weightingの重み𝑛 𝑦
−1
もつける
3.2.2 Training Scheduler

32
Rethinking Class-Balanced Methods for Long-Tailed
Visual Recognition from a Domain Adaptation
Perspective, CVPR 2020 [6]
▪ domain adaptionの観点から、データ充分のhead classesの
条件分布についての仮定𝑃𝑆 𝑥 𝑦 = 𝑃 𝑇 𝑥 𝑦 が合理的だが、
tail classesでは 𝑃𝑆 𝑥 𝑦 ≠ 𝑃 𝑇 𝑥 𝑦
3.2.3

33
▪ loss functionに対して二種類の重みを付けて：
𝑒𝑟𝑟𝑜𝑟 =
1
𝑛 𝑖=1
𝑛
𝑤 𝑦 𝑖
+ 𝜖𝑖 𝐿(𝑓 𝑥𝑖; 𝜃 , 𝑦𝑖)
▪ 𝑤 𝑦 𝑖
は3.2.1の論文の有効サンプル数ベースの
class-balanced term
1−𝛽
1−𝛽 𝑛 𝑦
▪ 𝜖𝑖は条件重み、学習データからclass-balanced
subset Dを作ってmeta learningで学習
3.2.3 Loss Function

35
Remix: Rebalanced Mixup, Arxiv Preprint 2020 [7]
▪ 分類タスクで有効なmixup[8]手法をlong-tailed task用に改良する手法
3.2.4

36
▪ mixupの原始バージョン:
𝑥 𝑀𝑈 = 𝜆𝑥𝑖 + 1 − 𝜆 𝑥𝑗, 𝑦 = 𝜆𝑦𝑖 + 1 − 𝜆 𝑦𝑗
▪ remix:
𝑥 𝑅𝑀 = 𝜆𝑥𝑖 + 1 − 𝜆 𝑥𝑗, 𝑦 = 𝜆 𝑦 𝑦𝑖 + 1 − 𝜆 𝑦 𝑦𝑗
▪ 𝜆 𝑦 =
0, 𝑛𝑖 𝑛𝑗 ≥ 𝐾 𝑎𝑛𝑑 𝜆 < 𝑟
1, 𝑛𝑖 𝑛𝑗 ≤ 1 𝐾 𝑎𝑛𝑑 1 − 𝜆 < 𝑟
𝜆, 𝑜𝑡ℎ𝑒𝑟𝑤𝑖𝑠𝑒
▪ 𝐾 > 1, 𝑟 ∈ (0,1)はハイパーパラメータ
▪ 合成の両者のクラスiとjのサンプル数の差が大きい（ 𝐾 倍）場合、出力を全部少数
クラスにする。少数クラスの割合を𝑟で制限する。
3.2.4 Remix

38
▪ 近年、transfer learningでlong-tailed classificationを解く研究も流
行り始める
▪ head classesで学習した知識をtail classesに転移する
▪ 複雑なモジュールが必要
▪ 論文リスト:
▪ Large-Scale Long-Tailed Recognition in an Open World，CVPR 2019 [9]
▪ Deep Representation Learning on Long-tailed Data: A Learnable Embedding
Augmentation Perspective，CVPR 2020 [10]
▪ Learning From Multiple Experts: Self-paced Knowledge Distillation for Long-
tailed Classification，ECCV 2020 [11]
3.3 Transfer Learning

39
▪ 2019年Large Vocabulary Instance Segmentation (LVIS)[12] データ
セットの発表
▪ long-tailed detectionとsegmentationに関する研究が進展
3.4 Long-Tailed Detection/Segmentation

40
Equalization Loss for Long-Tailed Object Recognition,
CVPR 2020 [13]
▪ LVIS Challenge 2019の一位
▪ あるクラスのpositive sampleが他のクラスのnegative sampleで、
head classesがtail classesのgradientを抑制している。
▪ tail classesへの抑制を解除するための
EQL(Equalization) Lossを提案
▪ 本質はre-weighting
3.4.1

41
▪ EQL loss:
𝐿 𝐸𝑄𝐿 = − 𝑗=1
𝐶
𝜔𝑗 𝑙𝑜𝑔 𝑝𝑗
𝜔𝑗 = 1 − 𝐸 𝑟 𝑇𝜆 𝑓𝑗 1 − 𝑦𝑗
▪ 𝐸 𝑟 はexclude function、proposal rが背景だと0を、前景だと1を出力する
▪ 𝑓𝑗はjクラスの頻度で、
𝑇𝜆 𝑓𝑗 はthreshold function、 𝑓𝑗<𝜆の場合1を、その他は0を出力する
3.4.1 Loss Function

43
Overcoming Classifier Imbalance for Long-tail Object
Detection with Balanced Group Softmax, CVPR 2020
[14]
▪ 3.1.1と3.1.2と似た結論を導いた：
分類器の重みのnormは不均衡は性能が悪い
の原因の一つだとわかった
▪ balanced group softmaxを提案し、
segmentationのタスクでSOTA
3.4.2

44
▪ classを学習データのインスタンス数によってNグループに分割し（背
景classは単独グループに）、各グループの中にothers classを追加する。
▪ 各グループごとにsoftmax cross entropy lossを計算する
▪ 推論時、背景class以外のclassを元のclass IDに戻し、背景グループの
others classのprobabilityと乗算でrescaleして、背景classの
probabilityと合わせて最後の結果とする
3.4.2 Method

45
▪ 一般の検出器および他のlong-tailedデータセット対策の
resampling/re-weight手法と比べてSOTAの性能を示す
3.4.2 Results

46
Large-Scale Object Detection in the Wild from
Imbalanced Multi-Labels, CVPR 2020 [15]
▪ マルチラベルの問題に注目する。
▪ 3.4.1と似て、通常softmaxは他のクラスを抑制することがわかる。
tail classがhead classの子クラスもしくは関連する場合、その抑制を
減らすようにする
▪ クラス間の並行率(concurrent rate)を利用してconcurrent softmax
を提案する
3.4.3

47
▪ concurrent loss:
𝐿 𝑐𝑙𝑠
∗
𝑏 = −
𝑖=1
𝐶
𝑦𝑖 𝑙𝑜𝑔𝜎𝑖
∗
,
𝑤𝑖𝑡ℎ 𝜎𝑖
∗
=
𝑒 𝑧𝑖
𝑗=1
𝐶
1 − 𝑦𝑗 1 − 𝑟𝑖𝑗 𝑒 𝑧 𝑗 + 𝑒 𝑧𝑖
▪ 𝑟𝑖𝑗はクラスiとjのconcurrent rate:クラスiをクラスjにラベル付けの確率
iがjの子クラスの場合𝑟𝑖𝑗 = 1
3.4.3 Loss Function

48
▪ LVISではなくOpen Imagesでテスト
3.4.3 Results

49
[1] Tsung-Yi Lin, Priya Goyal, Ross Girshick, Kaiming He, Piotr Dollár. Focal Loss for
Dense Object Detection. In ICCV, 2017.
[2] Bingyi Kang, Saining Xie, Marcus Rohrbach, Zhicheng Yan, Albert Gordo, Jiashi
Feng, Yannis Kalantidis. Decoupling Representation and Classifier for Long-Tailed
Recognition. In ICLR, 2020.
[3] Boyan Zhou, Quan Cui, Xiu-Shen Wei, Zhao-Min Chen. Bilateral-Branch Network
with Cumulative Learning for Long-Tailed Visual Recognition. In CVPR, 2020.
[4] Yin Cui, Menglin Jia, Tsung-Yi Lin, Yang Song, Serge Belongie. Class-Balanced Loss
Based on Effective Number of Samples. In CVPR, 2019.
[5] Kaidi Cao, Colin Wei, Adrien Gaidon, Nikos Arechiga, Tengyu Ma. Learning
Imbalanced Datasets with Label-Distribution-Aware Margin Loss. In NIPS, 2019.
[6] Muhammad Abdullah Jamal, Matthew Brown, Ming-Hsuan Yang, Liqiang Wang,
Boqing Gong. Rethinking Class-Balanced Methods for Long-Tailed Visual Recognition
from a Domain Adaptation Perspective. In CVPR, 2020.
Reference

50
[7] Hsin-Ping Chou, Shih-Chieh Chang, Jia-Yu Pan, Wei Wei, Da-Cheng Juan. Remix:
Rebalanced Mixup. In arxiv, 2020.
[8] Hongyi Zhang, Moustapha Cisse, Yann N. Dauphin, David Lopez-Paz. mixup:
Beyond empirical risk minimization. In ICLR, 2018.
[9] Ziwei Liu, Zhongqi Miao, Xiaohang Zhan, Jiayun Wang, Boqing Gong, Stella X. Yu.
Large-Scale Long-Tailed Recognition in an Open World. In CVPR, 2019.
[10] Jialun Liu, Yifan Sun, Chuchu Han, Zhaopeng Dou, Wenhui Li. Deep
Representation Learning on Long-tailed Data: A Learnable Embedding Augmentation
Perspective. In CVPR, 2020.
[11] Liuyu Xiang, Guiguang Ding, Jungong Han. Learning From Multiple Experts: Self-
paced Knowledge Distillation for Long-tailed Classification. In ECCV, 2020.
[12] Agrim Gupta, Piotr Dollár, Ross Girshick. LVIS: A Dataset for Large Vocabulary
Instance Segmentation. In ICCV, 2019
Reference

51
[13] Jingru Tan, Changbao Wang, Buyu Li, Quanquan Li, Wanli Ouyang, Changqing Yin,
Junjie Yan. Equalization Loss for Long-Tailed Object Recognition. In CVPR, 2020.
[14] Yu Li, Tao Wang, Bingyi Kang, Sheng Tang, Chunfeng Wang, Jintao Li, Jiashi Feng.
Overcoming Classifier Imbalance for Long-tail Object Detection with Balanced Group
Softmax. In CVPR, 2020.
[15] Junran Peng, Xingyuan Bu, Ming Sun, Zhaoxiang Zhang, Tieniu Tan, Junjie Yan.
Large-Scale Object Detection in the Wild from Imbalanced Multi-Labels. In CVPR,
2020.
Reference

Long-Tailed Classificationの最新動向について

Recomendados

Recomendados

Mais conteúdo relacionado

Mais procurados

Mais procurados (20)

Semelhante a Long-Tailed Classificationの最新動向について

Semelhante a Long-Tailed Classificationの最新動向について (20)

Mais de Plot Hong

Mais de Plot Hong (7)

Último

Último (7)

Long-Tailed Classificationの最新動向について