3. 概要
2022/5/5 3
p 自己教師あり学習の手法
Masked Siamese Networks(MSN)を提案
p 新規性
ランダムにマスクされたパッチの表現と
マスクされていない元画像の表現を一致させるように学習
p 画像でのLow-shot learningタスクで
自己教師あり学習のSOTAを達成
4. 背景: Mask-denoising + Joint-embedding
2022/5/5 4
p Mask-denoising p Joint-embedding
[1] [2]
5. 背景: Mask-denoising + Joint-embedding
2022/5/5 5
p Mask-denoising
p Visionで優れた性能
p Pixel or Tokenレベルでの再構成が必要
p Joint-embedding
p 再構成不要
再構成不要で自己教師あり学習をする手法を提案
6. 提案手法:Masked Siamese Network (MSN)
2022/5/5 6
p Masked prediction + Joint-embedding
p 先行研究との相違点:Maskなしデータの表現に近づけるように学習
提案手法の概念図: MSN
9. 実験概要
2022/5/5 9
p Label-efficient learning
p Linear Evaluation & Fine-tuning
p Transfer Learning
p Ablations
獲得した表現が優れていることを示す
= 少数ラベル条件,線形分類器の学習,再学習,転移学習の性能
10. 実験概要
2022/5/5 10
p Label-efficient learning
n Extreme Low-shot
n ImageNet-1K
p Linear Evaluation & Fine-tuning
p Transfer Learning
p Ablations
12. 実験:1% ImageNet-1Kでの結果
2022/5/5 12
p データセット:ImageNet-1K
p 各クラス1%(= 10枚)のラベル付き
データを使用
p MSN(提案手法),DINO,iBOTは
Fine-Tuningなしの結果
p パラメータ数の多いSimCLRv2を上回る
p Fine-Tuningなしで同程度の大きさのモデルを大きく上回る
13. 実験概要
2022/5/5 13
p Label-efficient learning
p Linear Evaluation & Fine-tuning
n Linear Evaluation
n Fine-Tuning
p Transfer Learning
p Ablations
15. 実験概要
2022/5/5 15
p Label-efficient learning
p Linear Evaluation & Fine-tuning
p Transfer Learning
n Fine-Tuning Transfer Learning
n Linear Evaluation Transfer Learning
p Ablations
17. 結論・まとめ
2022/5/5 17
p 自己教師あり学習手法Masked Siamese Networks(MSN)を提案
p ランダムにマスクされたパッチの表現と
マスクされていない元画像の表現を一致させるように学習
p 少数ラベルでの分類,獲得した特徴量の線形分類,Fine-Tuning,
転移学習の実験において,既存手法を上回るまたは同程度の性能
を示した
21. 実験概要
2022/5/5 21
Ablations
n Combining Random and Focal Masking
n Random Masking ratio
n Augmentation Invariance and Low-shot Learning
n Random Masking Compute and Memory