自己教師学習（Self-Supervised Learning）

自己教師学習
片岡裕雄，松本晨人，山縣英介，山田亮佑，高橋遼，升山義紀，
鏡川悠介，伊藤千紘，神林優太，河﨑凌，笠井誠斗，鈴木智之
1
Self-Supervised Learning
http://xpaperchallenge.org/

2
■ cvpaper.challenge メタサーベイの一環
➤ 2020/02/28〜2020/04/30に実施した自己教師学習の調査
➤ 論文調査はもちろん，分野の背景知識も含めピックアップ
➤ 研究を始めるためには？強い研究機関がなぜ強いか？
■ 参考資料
➤ “鈴木智之, Self-supervised Learningによる特徴表現学習,
2018/09.” をベースに，2018〜2020年の研究を追加
➤ Link: http://hirokatsukataoka.net/temp/cvpaper.challenge/SSL_0929_ﬁnal.pdf
本資料について

3
■ 教師なし特徴表現学習とは？
➤ 定義
➤ 評価方法
➤ アプローチの大別
■ 論文紹介
➤ 画像認識
➤ 動画認識
➤ マルチモーダル（画像+音声）
■ メタサーベイ
➤ トレンドについて
➤ 注目研究者・研究機関とその体制
➤ など
■ まとめ
目次
1論文1ページでリストします

4
■ 今回の特徴表現の良さ＝discriminative
- あらゆる解きたいタスク (target task) に有効なデータの特徴表現
- (擬似的なタスク (pretext task) を事前に解くことで獲得)
- disentangleなど，他の良さについては問わない
■ Self-Supervised Learning (SSL; 自己教師学習)
- 自動で生成できる教師信号を用いてpretext taskを定義
- 画像，動画，音声，マルチモーダル（本資料のメインフォーカス）
■ SSL以外 (Unsupervised)
- データ分布を表現するモデルを学習する (教師はない)
自己教師学習とは？
教師がないデータに対し自ら教師を作成，
その問題において良好な特徴表現を獲得する
CNNと画像・動画・音声やそれらの統合を自己教師として用いる

5
■ 主に2ステップ：特徴表現獲得 / 転移学習
■ 評価方法① : 特徴表現獲得（教師作成・識別）
➤ Pretext taskで学習したモデルを重み固定の特徴抽出器として用い，
特徴量のTarget task での性能を測る
➤ 同じデータセット内で評価することが多い
- Pretext : ラベルなしImageNet => Target : ラベルありImageNet
➤ AlexNetで評価するのがスタンダード (になってしまっている)
どうやって学習・評価する？
モデル
Pretext task
ex. ImageNet
w/o labels
ex. AlexNet
モデル
Target task
識
別
器
固定学習学習
(ex. ImageNet classiﬁcation)
+
画像
データラベル
画像
データ

6
■ 主に2ステップ：特徴表現獲得 / 転移学習
■ 評価方法② : 転移学習（Fine-tuning）
➤ Pretext taskで学習したパラメータを初期値として用い，Target taskで
Fine-tuningした時の性能を測る
➤ 異なるデータセット間で評価を行うことが多い
- Pretext : ラベルなしImageNet => Target : ラベルありPascal VOC
➤ AlexNetで評価するのがスタンダードなのは評価方法①と同様
どうやって学習・評価する？
モデル
Pretext task
ex. ImageNet
w/o labels
ex. AlexNet
Target task
学習
+
画像
データラベル
モデル
学習画像
データ
ラベルなしImageNet => Pascal VOC*を基準にするが，
より広範に調査を実施
(ex. Pascal VOC segmentation)
* classiﬁcation : %mAP, detection : %mAP, segmentation : %mIoU

■ 分野の深化・多様化により評価方法も多少見直す動き
➤ AlexNetで評価するのがスタンダート
- より大規模なモデル（e.g. ResNet-50）を使用する動きもある
➤ 頻出のPretext task: ImageNet => Fine-tuning: Pascal VOC
- Pretext taskはより大規模なデータ（e.g. YFCC100M）を使用
- Fine-tuningはより多様なタスク（e.g. Navigation）に適用
最近のアップデート
手法の深化・多様化により
SSLの設定を見直そう！！！@ICCV2019
AlexNet -> ResNet-50も使用
Fine-tuningに識別・検出・領域分割 -> ナビ・法線推定・少量教師学習も考慮
PretextにImageNet-1k -> ImageNet-22k・YFCC100も使用
7

8
Pretext task@2018の分類
Context pred.
識別系再構成系生成モデル系その他
Spot Artifact
Colorization
Split-brain
VAE系
GAN系
Instance
Discrimination
Jigsaw
Jigsaw++
Rotation
Counting
■ 2018前半までの研究を分類 ([Noroozi+, ICCV17]参照)
■ 便宜上の分類であることに注意
➤ アイデアベースの手法が多いこともあり，分類が非常に困難
Autoencoder系
Context Encoder
Noise as target
Exemplar CNN
http://hirokatsukataoka.net/temp/cvpaper.challenge/SSL_0929_final.pdf より引用

9
Pretext task@2020の分類
識別系再構成系生成モデル系
その他
相互情報量系マルチモーダル系
対比系
(contrastive)
推定系メトリック系評価系
■ 2020年時点での研究分類
■ 識別によりカテ
ゴリ番号を出力
■ e.g. Jigsaw,
Rotation
■ 入力画像から別
の画像チャンネ
ルを復元
■ e.g.
Colorization,
RGB2Depth
■ GAN/VAE/AEな
どを使用した画
像生成/変換タス
クを実施
■ e.g. (Big)BiGAN
■ 相互情報量の最
大化によりタスク
を実施
■ e.g. CPC
■ 画像+αのモダリ
ティを使用（本資料
では主に画像+音声）
■ e.g. Objects
that Sound
■ Contrastive
Lossを使用・拡
張
■ e.g. MOCO,
SimCLR
■ 回帰により数値
を出力
■ e.g.
Transformation,
■ 特徴空間をベー
スにして直接推
定・距離評価
■ e.g. track &
space
■ 自己教師学習の
取り組み自体を
見直し・包括的
に実験
■ e.g. Scaling &
Benchmark
■ 他の分類に属さ
ない特殊な手法
を利用
■ 今後分岐する可
能性あり

10
■ Jigsaw Puzzle
代表的なPretext task
■ Colorization
■ Rotation ■ Shuﬄe & Learn
■ 3行3列の画像パッチ整列を解く
■ パッチ間境界など局所特徴を捉える
■ Jigsaw++など改良版多数提案
■ 回転を当てる4カテゴリ識別問題
■ 入力画像を0°, 90°, 180°, 270°に回転
■ 画像の大域的特徴を獲得
■ グレースケール画像をカラー画像化
■ 文脈を把握して色情報を推定
■ 教師を作りやすい
■ 入れ替えた時系列画像の順序を揃える
■ 時間の生合成を把握する
■ 動画認識向けの自己教師

11
2020年現在の自己教師学習
■ 人間の教師に近接する精度を実現！
➤ ImageNet教師あり学習に「自己教師+数%の教師」で到達！
➤ SimCLR: Simple Framework for Contrastive Learning of Visual Representations
- 下図は論文中より引用
- https://arxiv.org/abs/2002.05709
SimCLRはパラメータ数が多い
（Supervised 約25M vs. SimCLR 約400M）が，
自己教師学習により教師あり学習と同
等の精度まで到達

論文紹介 
以下，画像認識・動画認識・マルチモーダル 
について論文サマリを紹介

13
■ 1ページ1論文で紹介，ほぼ年代順に並んでいます
■ 誤りを含む可能性がございます，予めご了承ください
■ Pretext taskの大別の系列をタイトルに表示
■ Pretext/Fine-tuning taskに応じて３セクションに分類
➤ 画像認識（Fine-tuning先がVOC/ImageNetなど画像認識）
➤ 動画認識（Fine-tuning先がUCF/HMDBなど動画認識）
➤ Audio-Visual（Pretextがマルチモーダル）
論文サマリについて
# 論文選定にはGitHubの”Awesome Self-supervised Learning”を参考にさせて頂きました！
# 特に、メンバーの得意分野である “Computer Vision - Image/Video Representation Learning, Audio” を参照
https://github.com/jason718/awesome-self-supervised-learning

15
Pretext task@画像認識
Context pred.
その他
Spot Artifact
Colorization系
Cross-Domain
VAE系
GAN系
Instance
Discrimination
Jigsaw系
Rotation系
Counting系
Autoencoder系
Context Enc.
Noise as target
Exemplar CNN
対比系
(contrastive)
推定系メトリック系
評価系
Track & Space
Cluster系
Steady Feature
Ambient Sound
Graph系
TextTopicNetOptical Flow系
Local Pix. Stats.
L^3-Net
Sequence系
ShapeCodes
CPC系
Deep Informax
AET vs AED
Neighboring
Discovery
Contrastive
Multiview
Coding
Augmented
Multiscale DIM
WPC系
Scaling & Benchmarking
MIMaximization
Momentum
Contrast
SimCLR
PIRL
Downstream tasks
SSL + NAS
Transformation
SelﬁeAuto. Shortcut
Removal
Few-Shot系
MAXL
ClusterFit

16
■ Exemplar CNN
➤ Pretext task : (幾何学・色)変換に頑健なインスタンスレベルの画像識別
➤ (クラス数＝学習画像インスタンス数)であり，普通にSoftmaxで識別していくので使
用できるデータセットの規模がスケールしにくい
➤ 実はInstance Discrimination(後述)と近いこと(2014年時点で)をしている
➤ Geometric matchingなどのtaskでSIFTよりも良い結果
その他
Dosovitskiy et al., “Discriminative Unsupervised Feature Learning with Exemplar Convolutional Neural Networks”, NIPS 2014.
https://arxiv.org/abs/1406.6909
様々な変換後の，ある画像インスタンス．
これを一つのクラスと定義．
クラス数(= 画像インスタンス数)
が8000あたりで限界となる

17
■ Context Prediction (CP)
➤ Pretext task : 画像を3×3に分割し，二つのパッチの相対位置の8クラス分類
- 重みを共有した枝構造を持つSiameseNetに2つのパッチを入力
- 枝のCNNを学習済みモデルとして使用
➤ Fine-tuningの結果はランダム初期化より少し良い程度
SiameseNet
Cls. Det. Seg.
random 53.3 43.4 19.8
CP 55.3 46.6 —
Fine-tuning on Pascal VOC
識別系
Doersch et al., “Unsupervised visual representation learning by context prediction”, ICCV 2015.

18
メトリック系
Wang, Xiaolong et al., “Unsupervised Learning of Visual Representations using Videos.”, ICCV, 2015.
http://www.cs.cmu.edu/~xiaolonw/papers/unsupervised_video.pdf
■ 動画使った学習
➤ 数フレームにわたってtrackしたpatchは同じ物体を映しているはず→特徴空間上
の距離も近いはず
- Pretext task：近いはずの２patch間の距離を小さく，randomなpatchとの距離
を大きくするランク学習
➤ 評価の結果（ﬁnetune）
- scratchに対し+4.7%
- ImageNet-pretrainedと
2.5%差

19
推定系
Agrawal, Pulkit et al., “Learning to See by Moving.”, ICCV, 2015.
https://arxiv.org/pdf/1505.01596.pdf
■ 2画像間のTransformationを推定
➤ Pretext task : 画像間の視点の移動を推定（自己位置認識）
- Mnistに関してはdigitを移動・回転させて画像のペアを作成
- 自然画像に関してはKITTIとSFデータセットを使用
- Mnistにおいて多くの従来手法を上回る精度
- ILSVRC-12 validation setでﬁnetuneした場合，少ないinstance数でより大きい
上昇幅
- Scene recognitionやvisual odometryタスクでも良い結果

20
識別系
Jayaraman, Dinesh et al., “Learning image representations tied to ego-motion.”, ICCV, 2015.
http://vision.cs.utexas.edu/projects/egoequiv/ijcv_bestpaper_specialissue_egoequiv.pdf
■ 特徴表現と自己運動を紐付ける
➤ 観測者の移動と観測する景色の関係を学習
- 従来法：視点を変えて同一の物体の画像撮ったとき，視点変更の前後の画像
は特徴空間上近い
- 提案手法：視点移動の情報から特徴空間上の位置も予測できる
➤ 評価した結果（ﬁnetune）
- KITTI, SUN, NORBで学習
- 複数のデータセットで従来法を上回る結果

21
識別系
Jianwei Yang et al., “Joint Unsupervised Learning of Deep Representations and Image Clusters.”, CVPR, 2016.
■ Joint Unsupervised LEarning (JULE)
➤ Contribution
- ラベル無しデータセットから特徴表現とクラスタを同時に学習するend-to-endな
新手法の提案
- 凝集型クラスタリングとCNNの特徴表現獲得に関して一つの損失関数で計算
- 従来法を上回る性能
➤ 複数のタスクに転用可能
- （LFW）顔識別，CIFAR-10

22
■ DCGAN
➤ Pretext task : 画像生成モデルの学習
- 質の高い生成を可能とするテクニックを主にアーキテクチャの観点
から提案
- データ分布を高い性能でモデル化 => 良い特徴を捉えている
➤ Discriminatorの中間出力を表現に利用
➤ ImageNet => Pascal VOCでの実験はなし
➤ CIFAR-10においてExemplar CNNと比較
生成モデル系
on CIFAR-10
acc. (%) Num of feature
Ex CNN 84.3 1024
DCGAN 82.8 512
Radford et al., “UNSUPERVISED REPRESENTATION LEARNING WITH DEEP CONVOLUTIONAL GENERATIVE
ADVERSARIAL NETWORKS”, ICLR 2016.
アーキテクチャや表現学習に
使用しているデータセットが
異なるため対等な評価とは言えない

23
識別系
Junyuan Xie et al., “Unsupervised Deep Embedding for Clustering Analysis.”, ICML 2016.
http://www.cs.cmu.edu/~xiaolonw/papers/unsupervised_video.pdf
■ Deep Embedding Clustering（DEC）
➤ Contribution
- 特徴表現とクラスタ割り当てを同時に学習する新手法
- ソフトクラスタリングによる反復的なreﬁnement
- クラスタリング速度と精度でSOTA（2016）
➤ 評価の結果
- 通常データでSOTA意外に，
imbalanceなデータでも高い精度
クラスタリングの結果：各行一つのクラスタ

24
メトリック系
Jayaraman, Dinesh et al., “Slow and steady feature analysis: higher order temporal coherence in video”, CVPR 2016.
http://vision.cs.utexas.edu/projects/slowsteady/cvpr16.pdf
■ Steady Feature Analysis
➤ フレーム間の変化の仕方も学習したい
- 従来は「隣接するフレーム間では微小な変化しか起こらない＝特徴空間上でも
隣接してる」という考え
- ただ隣接させるだけでなく，特徴空間上で滑らかな予測可能な軌道を描くように
学習する手法を提案
- 複数のタスクでSOTA（2016）

25
■ Context Encoder (CE)
➤ Pretext task : 欠損画像の補完
- Adversarial Loss + L2 Lossを提案しているが，表現学習の実験は
L2 Lossのみ
- つまりただの回帰
➤ ネットワークは表現学習の段階で欠損画像しか見ていない
- しかしTarget taskでは欠損していない画像を入力する
再構成系
Cls. Det. Seg.
random 53.3 43.4 19.8
CE 56.5 44.5 29.7
JP 67.7 53.2 —
Pathak et al., “Context encoders: Feature learning by inpainting”, CVPR 2016.

26
■ Jigsaw Puzzle (JP)
➤ Pretext task : パッチをランダムな順に入力し，正しい順列をクラス識別
- SiameseNetに9つのパッチを同時に入力
- 順列は膨大な数になるのでハミング距離が大きくなるように選んだ
1000クラスで学習
➤ CPはパッチによってはかなりあいまい性がある(下図)
➤ ネットワークが見れるパッチが多い方があいまい性が減る
➤ CPと比較するとかなり精度が改善している
識別系
Cls. Det. Seg.
random 53.3 43.4 19.8
CP 55.3 46.6 —
JP 67.7 53.2 —
①や②の⑤を基準とした
相対位置を推定するのはかなり難しい
① ➁
⑤
Noroozi et al., “Unsupervised learning of visual representations by solving jigsaw puzzles”, ECCV 2016.

■ 画像から音声を予測
➤ 画像からの音声予測がオブジェクトとシーンに関する情報を学習していることに着
目して、学習した特徴量を画像認識に適用させる。
➤ (a)画像から(c)音声特徴量を予測
➤ Fast R-CNNの事前学習に適用したけど、ImageNetとは差がある。
➤ 論文紹介:Ambient Sound Provides Supervision for Visual Learning(CV勉強会ECCV…
マルチモーダル系
➁
⑤
Andrew Owens et al, “Ambient Sound Provides Supervision for Visual Learning”, ECCV 2016.
27

28
■ グレースケール画像を自動的にカラー化
➤ 各ピクセルを取り、その周囲を見て、もっともらしい色の分布(ヒストグラム)
を予測
➤ CNNを用いて意味解析とローカリゼーションを
カラー化システムに組み込む。
➤ 基本ネットワークにはVGG16を用いている。
- 事前学習はImageNetなど。
再構成系
Larsson, Gustav et al, “Learning Representations for Automatic Colorization”, ECCV 2016.
Fig. 2: System overview. We process a grayscale image through a deep convolutional
architecture (VGG) [37] and take spatially localized multilayer slices (hypercolumns) [15, 26, 28],
as per-pixel descriptors. We train our system end-to-end for the task of predicting hue and
chroma distributions for each pixel p given its hypercolumn descriptor. These predicted
distributions determine color assignment at test time.

29
■ 大規模な画像データに対してグラフベースの分析を活用
➤ グラフ分析により画像間の根本的な意味の類似性を発見できるはず
➤ 各画像をノードとして、各最近傍マッチングペアをエッジとして表すことによ
り、k-最近傍（k -NN）グラフを作成
➤ 教師なし特徴学習と半教師あり学習の設定で、提案する教師なし制約マイニ
ング手法の有効性を示している。
その他
D. Li et al., “Unsupervised Visual Representation Learning by Graph-Based Consistent Constraints.” ECCV 2016.
https://faculty.ucmerced.edu/mhyang/papers/eccv16_feature_learning.pdf
Pascal Voc 2007での比較

■ Bidirectional Generative Adversarial Networks (BiGANs)
➤ 標準のGANアーキテクチャにエンコーダーを追加
➤ 逆マッピングを学習する手段として提案
➤ BiGANで使用されているDCGANアーキテクチャが高品質の画像をモデリングでき
ない?
➤ BigBiGANに繋がっていくみたい。
➤ 参考スライド
生成モデル系
➁
⑤
Li Dong et al, “Adversarial Feature Learning”, ICLR 2017. https://arxiv.org/pdf/1605.09782.pdf
30

31
■
生成モデル系
Cls. Det. Seg.
random 53.3 43.4 19.8
BiGAN 60.3 46.9 35.2
JP 67.7 53.2 —
Donahue et al., “ADVERSARIAL FEATURE LEARNING”, ICLR 2017.

32
■ TextTopicNet
➤ マルチモーダル（テキスト&イメージ）ドキュメントの大規模コーパスをマイニ
ングすることにより、視覚的特徴の自己教師学習を実行することを提案
➤ テキストコーパスに対して、よく知られたトピックモデリング手法(LDA) に
よって発見された非表示の意味構造を活用
- （1）相関するテキストと画像のペアで構成されるデータセットのテキス
トコーパスに関するトピックモデルを学習
- （2）深いCNNモデルをトレーニングして、画像のピクセルから直接テキ
スト表現（トピック確率）を予測
L.Gomez et al., “Self-supervised learning of visual features through embedding images into text topic spaces”, CVPR2017.
Figure 1: Our CNN learns to predict the semantic context in which images appear as illustration. Given an illustrated article we project its
textual information into the topic-probability space provided by a topic modeling framework. Then we use this semantic level
representation as the supervisory signal for CNN training
Table 3 compares our results for image classification and object detection
on PASCAL with different self-supervised learning algorithms.

33
■ Colorful Image Colorization (CC)
➤ Pretext task : グレースケール画像の色付け {L => ab}
➤ 単純な回帰ではなく，量子化したab空間の識別問題を解く
➤ グレースケール画像入力を前提として表現学習するため，カラー画像を扱う
場合は，Lab入力とし，abチャネルはランダムに初期化
■ Split-Brain (SB)
➤ ネットワークをチャネル方向に2分割し，
{L => ab, ab => L} のアンサンブル
➤ 回帰ではなく量子化して識別問題に
する方が良い特徴表現が得られた
再構成系
Cls. Det. Seg.
random 53.3 43.4 19.8
CC 65.9 46.9 35.6
SB 67.1 46.7 36.0
JP 67.7 53.2 —
Zhang et al., “Colorful Image Colorization”, ECCV 2016.
R. Zhang et al., “Split-brain autoencoders: Unsupervised learning by cross-channel prediction”, CVPR 2017.

34
■ Split-Brain Autoencoders
➤ ネットワークをチャネル方向に半分に分割して、2つの互いに素なサブネット
ワークを作成。各サブネットワークは、別のサブセットからのデータの1つの
サブセットに対して予測を実行するようにトレーニングされる。 
➤ Fast R-CNNを使用し、セグメンテーションは、20の対象オブジェクトの1つ
または背景のいずれかであるオブジェクトクラスのピクセル単位のラベリン
グされているものでの評価もしている。
➤ Lab画像だけでなく、RGB-Dデータに対してもSplit-Brain Autoencodersが
有効だと示す。
再構成系
R. Zhang et al., "Split-Brain Autoencoders: Unsupervised Learning by Cross-Channel Prediction", CVPR2017.
(Left) Images Half of the network predicts color channels from grayscale, and the other half predicts grayscale from color.
(Right) RGB-D Images Half of the network predicts depth from images

■ モーションベースのセグメンテーションを使用してオブジェクト検
出に応用している。
➤ Pretext task : 動画のモーションを利用して付られたセグメントラベルを使用したセ
グメンテーション
➤ 計算やデータの制約による分析をして、約27Mの相関フレームを使用すると
ImageNetで訓練したのと同等の結果を示す。
https://people.eecs.berkeley.edu/~pathak/unsupervised_video/
再構成系
➁
⑤
D. Pathak et al., "Learning Features by Watching Objects Move," CVPR2017.
https://people.eecs.berkeley.edu/~pathak/papers/cvpr17.pdf 35

36
■ Pretext taskとして自動カラー化の可能性
➤ 打倒 ImageNet pretrainを目指し，自動カラー化の可能性を模索
➤ 損失、ネットワークアーキテクチャ、
およびトレーニングの詳細の重要性を調査している。
➤ カラーとグレースケールの差や、アーキテクチャ別にランダムな
初期値を設けた場合と、カラー画像のpre-trainの比較をしている。
再構成系
➁
⑤
Larsson Gustav et al., “Colorization as a Proxy Task for Visual Understanding”, CVPR 2017.

37
識別系
Cruz et al., “DeepPermNet: Visual Permutation Learning”, CVPR 2017. https://arxiv.org/pdf/1704.02729.pdf
■ DeepPermNet
➤ 自然画像や順序づけられた画像列に内在する構造概念を学習するための一般的
な定式化として、視覚順序づけ学習というPretext taskを提案
➤ 畳み込みニューラルネットワークを用いて視覚順列問題を解くためのEnd-to-End
学習であるDeepPermNetモデル
➤ 標準的なCNNの予測値をシンクホーン反復を用いて二重ストキャスティック行列に
変換するシンクホーン層を導入

38
その他
Bojanowski et al., “Unsupervised Learning by Predicting Noise”, ICML 2017.
■ Noise As Targets (NAT)
➤ ターゲット表現のセットを固定し、それに整列するように特徴量を制約
- これにより，ImageNetやPASCAL VOCの最新の教師なし学習法と同等の性能
を持つ表現が生成可能
ImageNet
VOC 2007

39
■ Noise as target (NAT)
➤ Pretext task : 一様にサンプリングされたtarget vectorsに各画像からの出力を1
対1に対応させ，近づける
- Targetは全体サンプルの誤差の和が最小になるように割り当てたい
- 全走査は厳しいのでバッチごとにハンガリアン法で近似的に割り当て
➤ 一見意味不明だが，画像の特徴ベクトルを特徴空間上に一様に分散させることに
意味があるらしい (Appendix参照)
その他
Cls. Det. Seg.
random 53.3 43.4 19.8
NAT 65.3 49.4 36.6
JP 67.7 53.2 —
Bojanowski et al., “Unsupervised Learning by Predicting Noise”, ICML 2017.
データ数分，一様分布から
サンプリング(固定)
Nearest Neighbor

40
その他（複数のタスク統合）
Doersch et al., “Multi-task Self-Supervised Visual Learning”, ICCV2017.
■ ResNet-101で4つの異なる自己教師付きタスクの比較
➤ 明らかになったこと
- 深いネットワークでは浅いネットワークよりも自己教師性能が向上
- Pretext taskを組み合わせることでタスク単体よりも性能が向上
- Context Pred., Colorization, Motion Segment, Exemplar CNN
➤ 評価
- ImageNetの分類、PASCALのVOC検出、NYUの深さ予測
- より深いネットワークの方がうまく機能

41
その他
Noroozi et al., “Representation Learning by Learning to Count”, ICCV 2017. https://arxiv.org/pdf/1708.06734.pdf
■ 新たなpretext taskとして視覚的情報のカウントを提案
➤ 分類に有用な識別特徴を必要とし、検出を介して定式化
➤ 写真を四分割したときに，各パッチの特徴量と写真全体の特徴量が一致するよう
に距離学習を実施
➤ 異なる写真に対しては離れる
ようにtriplet lossを追加
全体 4パッチの和

42
識別系
Wang et al., “Transitive Invariance for Self-supervised Visual Representation Learning”, ICCV 2017.
■ 複数のバリエーションを持つデータを整理して推論
➤ pretext task: 以下二つに注目したクラスタリング
1. インスタンス間変動（同じクラスに属する2つの物体が似たような特徴を持つこ
と）
2. インスタンス内変動（視点、ポーズ、変形、照明など）
➤ 物体検知で高い精度の事前学習ができた

43
Reija et al., “Look, Listen and Learn”, ICCV 2017. https://arxiv.org/pdf/1705.08168.pdf
■ L^3-Net(Look, Listen and Learn)
➤ 大量のビデオデータから視覚情報と聴覚情報を同時に学習
- pretext task : 動画と音が一致しているかの判定
➤ 評価
- 視覚・聴覚ともに識別性能が高い

44
■ Learning to Count (LC)
➤ Pretext task : 以下の制約を満たす特徴量を学習
➤ 制約：各分割画像と元画像をそれぞれ同じCNNに入力し，元画像の出力
　　　特徴が全分割画像の出力特徴の和と一致する
=> 出力特徴の各次元が画像内の「ある高次なprimitive」の量を表す場合に
上記の制約を満たすことができる
➤ 個人的にかなり面白いアイデア
その他
Cls. Det. Seg.
random 53.3 43.4 19.8
LC 67.7 51.4 36.6
JP 67.7 53.2 —
特徴量がprimitiveのヒストグラムのようなものになる
Noroozi et al., “Representation Learning by Learning to Count”, ICCV 2017.
同じ人

45
識別系
Hsin-Ying et al., “Unsupervised Representation Learning by Sorting Sequences”,ICCV 2017.
■ セマンティックラベルのない動画を用いた教師なし学習
➤ pretext task: シャッフルされた動画を正しい時系列に並び替える
➤ 評価: UCF-101とHMDB-51において最先端の手法と比較して性能が向上
➤ Jigsaw Puzzle（空間位置の並べ替え）の時系列版

46
■ Instance Discrimination (ID)
➤ Pretext task : 各画像インスタンスを1つのクラスとした識別問題
- 実際はクラス数が膨大のため，NCEを用いる
- Logitを前iterationの各画像特徴と入力画像特徴の内積とした時の
cross entropyを最小化
➤ 最適な状態としては各画像の特徴ベクトルが超球上にまばらに散るような
埋め込みになるはず (Appendix参照)
=> NATとかなり近いことをしていることになるはず (引用はなし)
識別系
Cls. Det. Seg.
random 53.3 43.4 19.8
ID — 48.1 —
JP 67.7 53.2 —
Wu et al., “Unsupervised Feature Learning via Non-Parametric Instance Discrimination”, CVPR 2018.
前iterの
各画像特徴

47
識別系
Zhirong et al., “Unsupervised Feature Learning via Non-Parametric Instance Discrimination”, CVPR 2018. https://arxiv.org/pdf/1805.01978.pdf
■ インスタンス間の区別を最大化による特徴表現の獲得
➤ 新しいノンパラメトリックソフトマックス定式化を用いてインスタンス間の区別を最大
化することで、教師なし特徴学習
➤ 軽量: 画像ごとに128個の特徴量を持つ我々の手法は、100万枚の画像に対して
600MBのストレージしか必要としない

48
■ Jigsaw Puzzle++
➤ Pretext task : 1~3パッチを他の画像のパッチに置き換えたJigsaw Puzzle
- 見れるパッチが少ない・他画像からのパッチを識別する必要がある
- 上記からpretext taskの難度が上がる
- 複数のクラスに属することがないようハミング距離を考慮して順列を選択
識別系
Cls. Det. Seg.
random 53.3 43.4 19.8
LC 67.7 51.4 36.6
JP++ 69.8 55.5 38.1
JP 67.7 53.2 —
Noroozi et al., “Boosting Self-Supervised Learning via Knowledge
Transfer”, CVPR 2018.
同じ人

49
■ Spot Artifact (SA)
➤ Pretext task : 特徴マップ上で欠損させた画像の補完
- 欠損を補完するrepair layersとdiscriminator間で敵対的学習
- 事前にAuto encoderとして学習したモデルの
特徴マップを用いる
- discriminatorが良い特徴表現を得ることを期待
➤ 特徴マップを欠損はより高次な情報を欠損させる
ことを期待 (実際の欠損画像を見てもあまりわからない )
再構成系
Cls. Det. Seg.
random 53.3 43.4 19.8
SA 69.8 52.5 38.1
JP 67.7 53.2 —
Wu et al., “Self-Supervised Feature Learning by Learning to Spot Artifacts”, CVPR 2018.
http://openaccess.thecvf.com/content_cvpr_2018/papers/Jenni_Self-Supervised_Feature_Learning_CVPR_2018_paper.pdf
赤：corrupt，緑：real

50
識別系
Terrell Mundhenk et al., “Improvements to context based self-supervised learning”, CVPR 2018.
■ Completing Damaged Jigsaw Puzzles（CDJP）
➤ 従来のPretxt Task (Jigsaw)をより困難なタスクに設定
- 入力画像を3×3のパッチに分割し、正しい順列を予測
- RGBをLabに変換し、正しいRGB情報を予測
- 9つのパッチのうち1ピースを除去し、復元させる
➤ 色情報や欠落部分の予測を加えて、タスクの難易度をあげることで、従来の手法よ
りもdiscrimitiveな特徴表現を獲得

51
■ Classify Rotation (CR)
➤ Pretext task : 画像の回転推定
- 0°，90°，180°，270°の4クラス分類
- それ以上の細かい分類は回転後に補間が必要
=> artifactが生まれ，trivial solutionの原因となる
➤ objectの回転角を推定するためにはobjectの高次な情報が必要
➤ ここまでの最高精度(Cls., Det. ) & 実装が最も簡単
識別系
Cls. Det. Seg.
random 53.3 43.4 19.8
CR 73.0 54.4 39.1
JP++ 69.8 55.5 38.1
Gidaris et al., “Unsupervised Representation Learning by predicting Image Rotation”, ICLR 2018.

52
■ Classify Rotation (CR)
➤ データ構造への依存
➤ 画像ドメインによっては低次な特徴で回転の推定が可能では？
- 実際にPlacesのシーン識別タスクでは奮わない
➤ 回転が定義できないような画像もあるはず
- 航空写真など
識別系
Places
例えば，空の位置のみで
回転推定できる

53
識別系
O. Kilinc et al., “Learning Latent Representations in Neural Networks for Clustering Through Pseudo Supervision and
Graph-based Activity Regularization”, ICLR 2018. https://openreview.net/pdf?id=HkMvEOlAb
■ Graph-based Activity Regularization（GAR）
➤ 教師なしクラスタリングにより擬似ラベルを設定
- クラスタリングの手法はAuto-clustering Output Layer（ACOL）使用
- 潜在情報を自己教師として学習
➤ データ拡張・回転有無の教示・クラスタリング
- データ拡張を施し、回転の有無を推定
- その後，クラスタリングにより数字を回答

54
再構成系
Terrell Mundhenk, Daniel Ho and Barry Chen, “Improvements to context based self-supervised learning”, CVPR 2018.
■ Improvements to context based self-supervised
learning
➤ 各チャンネルの色収差を低減することでよりパッチの相対位置の推定が困難
- Lab空間に変換後、aとbに対してブラー処理を施す
- パッチ数やスケール比が異なる3種類の組み合わせを作成
- 各パッチに回転や拡大・縮小などの処理を施す
➤ PASCAL VOC以外にもCUB birdsやCompCarsにもﬁnetuneすることで提案手法
が一般的に使用できることを明言

55
■ Deep Cluster (DC)
➤ 以下の操作を繰り返し行う
1. CNNの中間特徴を元にk-meansクラスタリング
2. 割り当てられたクラスタをPseudo labelとして識別問題を学習
➤ 最初のiterationではランダム初期化されたCNNの出力を元にクラスタリング
- その出力を用いてMLPを学習しても12%出る
=> 入力情報はある程度保持されてる
➤ ImageNetでの実験ではk = 10000 (> 1000)が最も良い
➤ 単純かつ非常に強力な手法
識別系
Caron et al., “Deep Clustering for Unsupervised Learning of Visual Features”, ECCV 2018. https://arxiv.org/abs/1807.05520
Cls. Det. Seg.
random 53.3 43.4 19.8
CR 73.0 54.4 39.1
JP++ 69.8 55.5 38.1
DC 73.7 55.4 45.1
ImageNet labelとクラスタの
相互情報量が増加していく
epoch間の相互情報量が増加
=> クラスタ割り当てが安定

56
生成モデル系
Dinesh Jayaraman, Ruohan Gao, Kristen Grauman, “ShapeCodes: Self-Supervised Feature Learning by Lifting Views to
Viewgrids”, ECCV 2018. https://arxiv.org/pdf/1709.00505.pdf
■ ShapeCodes: Self-Supervised Feature Learning by
Lifting Views to Viewgrids
➤ 三次元物体を特定の方向から投影した画像を用いて、未知の方向からの三次元
物体の形状を予測するタスク
➤ このPretext Taskを解くことにより、三次元物体認識に必要な三次元形状の視覚的
特徴を獲得

57
再構成系
Zhongzheng Ren and Yong Jae Lee, “Cross-domain Self-supervised Multi-task Feature Learning Using Synthetic Imagery”, CVPR
2018. https://arxiv.org/pdf/1711.09082.pdf
■ Cross-Domain Self-supervised Multi-task Feature
Learning using Synthetic Imagery
➤ 合成画像からエッジ・法線・深度を推定するマルチタスク
- 合成画像では実画像を収集するよりもコストが安価
- 2018年時点では、マルチタスクのSSLは少数
➤ 実画像に対して適応可能にするため、実画像の特徴に合成画像の特徴をマッピン
グ

58

相互情報量系
Devon Hajelm et al., “Learning deep representations by mutual information estimation and maximization”, arXiv
pre-print:1808.06670, 2018. https://arxiv.org/abs/1808.06670
Tiny ImageNetにおいて教師ありに近い精度

59
識別系
Ali Diba, Vivek Sharma, Luc Van Gool, Rainer Stiefelhagen, “DynamoNet: Dynamic Action and Motion Network”, ICCV 2019.
■ DynamoNet: Dynamic Action and Motion Network
➤ 現在までのフレームにおける人物の行動から次のフレームにおける行動を予測す
ることで特定の行動特有の学習し、高次な特徴表現を獲得
➤ 動画識別と次フレーム予測をマルチタスク学習

■ オプティカルフロー推定による特徴表現学習
➤ 画像からピクセル毎のオプティカルフローを推定
- pretext task : 動画の一フレームから
オプティカルフローを推定するタスク
- 課題 :動きを画像から推定しなければならない
という曖昧性
➤ ポイント
- ピクセル群を確率的に推定
- ×の部分と同じ物体に属している
確率をヒートマップで表示
60
再構成系
A. Mahendran et al., “Cross Pixel Optical Flow Similarity for Self-Supervised Learning” , ACCV2018.
http://www.robots.ox.ac.uk/~vgg/publications/2018/Mahendran18/mahendran18.pdf
VOC2007での比較

61
相互情報量系
A. Oord et al., “Representation learning with contrastive predictive coding”, arXiv pre-print:1807.03748v2, 2018.
■ コンテキストと先の系列情報の相互情報量最大化
➤ 系列情報をエンコードして潜在表現　を獲得し更に自己回帰モデルを適用しコンテ
キスト情報　を獲得
➤ Contrastive Predictive Coding (CPC)
- 系列情報の　個のサンプル　の中からコンテキスト　のステップ先のサンプ
ルを識別できるように学習（相互情報量の下限の最大化に対応）
➤ 評価の結果わかったこと
- 他のSSLタスク（e.g., Jigsaw, Colorization）と比べ画像認識性能が改善
- 複数のドメイン（speech・NLP・RL）で有効性を確認
-

■ ヒントつきのオプティカルフロー推定による特徴表現学習
➤ オプティカルフロー推定において，部分的に動きの情報を与えて学習させるように
した
- 従来のオプティカルフローによるSSL:曖昧性が高いという問題
- 学習の際に，ピクセル単位で動きの情報を追加してオプティカルフロー推定をさ
せた
➤ セグメンテーションにおいて自己教師ありのSOTAを達成
62
再構成系
X.Zhan et al., “Self-supervised learning via conditional motion propagation”, CVPR2019, https://arxiv.org/pdf/1903.11412.pdf

■ 回転量推定による特徴表現学習における回転普遍性の考慮
➤回転普遍な画像とそうでない画像に対し同様に
　回転量推定を行うのは妥当なのか？という疑問
- 右図のように回転しても見た目が変わらない
画像もある
➤ 回転推定タスク・クラス分類タスクに加えて，
回転普遍性項を追加
- 特徴量が回転に依存しないように，回転した時の
特徴量の分散を最小化するロスを追加
➤ VOCにおいてDC, BiGAN等を上回る精度を実現
63
識別系
Z Feng et al., “Self-Supervised Representation Learning by Rotation Feature Decoupling”, CVPR 2019.
http://openaccess.thecvf.com/content_CVPR_2019/papers/Feng_Self-Supervised_Representation_Learning_by_Rotation_Featu
re_Decoupling_CVPR_2019_paper.pdf

■ 自己教師学習におけるCNN構造の見直し
➤自己教師学習における最適なモデル構造に関するablation study
- アーキテクチャ毎に最適なPretext task
が違う
- モデルを変えるだけで元論文よりいい
精度が得られる場合もあり
➤ 自己教師学習とCNN構造に関する様々な
知見
- 特徴量の評価には重み固定の線形モデルを使った方が良い
- pretext taskで最良だったモデルが実際のタスクでも有効とは限らない
- skip connectionにより，より後ろの方の層の特徴表現学習が改善できる
- モデルを深く・大きくするほど精度が高くなる
...などなど
64
調査系
A Kolesnikov et al., “Revisiting Self-Supervised Visual Representation Learning”, CVPR 2019.

65
生成モデル系
L.Zhang et al., “AET vs. AED: Unsupervised Representation Learning by Auto-Encoding Transformations rather than Data”, CVPR
2019.http://openaccess.thecvf.com/content_CVPR_2019/papers/Zhang_AET_vs._AED_Unsupervised_Representation_Learning_by
_Auto-Encoding_Transformations_Rather_CVPR_2019_paper.pdf
■ 画像変換を学習することによる特徴表現学習
➤Encoder-Decoderによる表現学習で，Decoderが画像変換t(x)を推定する
- ある変換t(・)を考え，Encoderに元画像xと変換画像t(x)を与え，それぞれの画像特徴
のペアから画像変換t(・)が推定できるなら，Encoderは有意な表現学習ができている
はず
- 正解の変換t(・)と推定された変換t ̂(・)の損失関数を最小化するよう学習
➤ 画像(data)ではなく，変換(transformation)をdecodeするという発想
- data × transformationの様々な組み合わせによる表現学習が可能に
- 「変換の損失関数」の定義がやや強引？(変換関数のパラメータの差分を取るなど)

■ 特徴量クラスタリングにおいて近傍点に注目
➤近傍点同士を少しづつ近づけていくことによる
　適切な距離学習
- 従来の距離学習：イテレーションごとに
複数の点を動かすため，不適切なクラスタに
- 提案手法：基準点とその近傍点に着目し，
ラウンドごとにその2点のみを近づける
- 1ラウンド毎に近傍点ペアを選定し，両者を近づけるように更新を行う
➤ クラス分類タスクの転移学習において，deepclusterを上回る精度を実現
66
メトリック系
J Huang et al., “Unsupervised deep learning by neighborhood discovery”, ICML 2019.
http://proceedings.mlr.press/v97/huang19b/huang19b.pdf
❌　　　　　❌　　　　⭕

67
対比系
Y Tian et al., “Contrastive Multiview Coding”, arXiv pre-print:1906.05849, 2019.
■ SSLにおいて，multi-viewを活用
➤ 特徴表現学習におけるmulti-viewの重要性
- 人間は複数のモダリティから物体を認識する
- 特徴表現学習においても，複数の情報チャネル
(RGB, Depth, 未来のフレーム情報等)を使いたい
➤ 複数の情報チャネルからの特徴量のロスをとり，contrastive learning
- 3つ以上の情報を掛け合わせるcontrastive learningの枠組みを提案
- 視点の情報が増えるほど特徴表現学習の精度が上がることが確認できた

68
生成モデル系
J Donahue et al., “Large Scale Adversarial Representation Learning”, NIPS 2019. https://arxiv.org/pdf/1907.02544.pdf
■ BiGAN x BigGAN = BigBiGAN
➤ BiGANの基本構造をDCGANからBigGANに変更
- Discriminatorはx, zだけでなくxとzを組み合わせた特徴量もみている
- モデル構造を含めた詳細なablation studyを実施
➤ ImageNetの分類タスクにおいて，BiGANを上回る高い精度を実現

69
相互情報量系
P. Bachman et al., “Learning Representations by Maximizing Mutual Information Across Views”, arXiv pre-print:1906.00910v2,
2019. https://arxiv.org/pdf/1906.00910
■ Augmented Multiscale DIM（AMDIM）
➤ Deep InfoMax（DIM）を拡張
- 独立して拡張されたコピーから抽出した特徴間の相互情報最大化
- 複数の特徴スケール間の相互情報を同時に最大化
➤ 評価の結果
- ほかのタスクと比べ画像認識性能の向上
- 複数のドメイン（e.g., video, audio, text）への拡張

70
識別系
Trieu H. Trinh et al., “Selfie:Self-supervised Pretraining for Image Embedding”, arXiv pre-print:1906.02940v3, 2019.
■ Selfie Self-supervised Image Embedding
➤ Selfieの詳細
- Contrastive Predictive Coding lossを利用して連続データへ一般化
- Selfieの事前学習構造にはパッチの処理や、マスク化されていないパッチの内
容を要約するネットワークを含む
➤ 評価の結果
- 3つの基準でSelfieを評価
(CIFAR-10,ImageNet 32 x 32,ImageNet 224 x 224)
- ResNet-50に対し全ての基準で精度が向上

71
相互情報量系
O. J. Hénaﬀ et al., “Data-Eﬃcient Image Recognition with Contrastive Predictive Coding”, arXiv pre-print:1905.09272v2,
2019. https://arxiv.org/abs/1905.09272
■ CPCを改良し教師あり学習を上回る性能を実現
➤ Model capacity (MC) の増加に伴う改良点
- Layer norm. (LN) を利用
- 垂直（BU）水平（HP）の四方から推定するようにタスクを増加
- 画像のパッチごとにrandom color-dropping (RC) を適用
- ImageNetで10%のラベリングのみでtop5精度91.2%を達成
- 100%ラベリングした場合でも事前学習で性能改善

72
識別系
D. Hendrycks et al., “Using Self-Supervised Learning Can Improve Model Robustness and Uncertainty”, NeurIPS 2019.
■ SSLを用いた際の頑健性、不確実性
➤ intro
- Cifar-10とImageNetを併用することで、クリーンな精度が得られずとも頑健性と
不確実性推定の性能を向上させる正則化を提供
➤ 評価の結果
- 自己教師付き学習をauxiliary rotation lossで補完することで全てのタイプの頑
健性が向上
- SSLは分布外検出の性能を劇的に改善し、CIFAR-10とImageNetを併用した
実験では自己教師あり学習の方が完全教師あり学習よりも改善

73
その他
Gidaris et al., “Boosting Few-Shot Visual Learning with Self-Supervision”, ICCV 2019.
http://openaccess.thecvf.com/content_ICCV_2019/papers/Gidaris_Boosting_Few-Shot_Visual_Learning_With_Self-Supervisi
on_ICCV_2019_paper.pdf
■ Few-shot learningと自己教師あり学習
➤ Few-shot Learningと自己教師あり学習で相補させることで、僅かな訓練データを
用いて認識能力を高める
- 自己教師性を追加することで、Few-shotの分類性能が格段に向上
- さらにself-supervised lossのannotation-freeの性質により、ラベル付けされて
いない多様なデータを利用することができ、性能を向上させた
➤ Few-shot recognitionフレームワーク
- 上記のフレームワークを半教師ありと教師無しのセットアップに拡張し、
Few-shotの物体認識に基づいた自己教師あり又は教師なしの手法を評価す
るためにも利用できる

74
その他
Shikun Liu et al., “Self-Supervised Generalisation with Meta Auxiliary Learning”, arXiv pre-print:1901.08933, 2019.
■ Meta AuXiliary Learning (MAXL)
➤ 2つのニューラル・ネットワークにより疑似ラベルを自動的に設定
- 補助ラベルを予測するネットワークと、教師ラベルと補助ラベルを予測するネッ
トワークを相互に関係を持たせ学習
- 補助ラベルが教師ラベルの一般化(犬→ラブラドール)
➤ 画像6タスク（右下表）において性能向上の評価
- 全てのタスクで識別性能が向上
➤ 補助ラベルの予測タスクの評価（右上）
- 複数のベースラインを上回る
- 人間が定義したラベルと同等

75
相互情報量系
S. Ozair et al., “Wasserstein Dependency Measure for Representation Learning”, NeurIPS 2019.
■ 新しい表現学習目標の提案
➤ Wasserstein Dependency Measure（WDM）
- KL情報量の代わりにWasserstein距離を使用
➤ Wasserstein Predictive Coding（WPC）
- WDMの下界として提案
- 相互情報量の増加により精度は低下するが、CPCより常に優れている

76
評価系
P. Goyal et al., “Scaling and Benchmarking Self-supervised Visual Representation Learning”, ICCV 2019.
■ 自己教師学習の統合的な評価を実施
➤ Pretext task/dataset
1. Pretext task: Colorization/Jigsaw
2. Dataset: ImageNet-1k/22k, YFCC-1M/10M/50M/100M
➤ Target task
- 画像識別, Low-shot画像識別, ナビゲーション, 物体検出, 法線推定, ファイ
ンチューニング, ImageNet線形識別
➤ 評価の結果
- データ数/モデルサイズのスケールにより自己教師学習は強化される
- ナビゲーション，法線推定においてはImageNet事前学習を超えた

77
その他
Yuki M. Asano et al., “A Critical Analysis of Self-supervision, or What We Can Learn From a Single Image”, ICLR 2020.
https://openreview.net/forum?id=B1esx6EYvr
■ Single Image Self-supervision
➤ {BiGAN, RotNet, DeepCluster} + データ拡張による一枚絵からの表現学習
- Pretext taskには{1, 10, 100}枚の画像を使用，他はデータ拡張用
- データ拡張は{Cropping, Scaling, Rotation, Cont. Changes, Noise}
➤ 結論
- CNNの初期層（Conv 1, 2）は1枚の自然画像から十分学習可能
- 枚数を増やして優位に学習できるのはConv 3以降 (e.g. 33.4 vs. 39.4)
- 教師あり学習と同等のLow-levelな特徴は自己教師学習でも学習可能

78
相互情報量系
M. Tschannen et al., “On Mutual Information Maximization for Representation Learning”, ICLR 2020.
■ 相互情報量最大化は本当によいのか？
➤ 異なる2視点（diﬀerent views）の相互情報量（MI）を一致
- 上記のタスクを通して，相互情報量の最大化を評価
- オリジナルの入力xよりも低次元な空間を推定可能
- モデルの柔軟性を取れる; DeepInfoMax/CMC/CPCよりも利点がある
➤ 下記を明らかにした
- 必ずしもMI最大化がよくなるわけではない
- エンコーディングの構造は重要なことを明らかにした

79
相互情報量系
J. Song et al., “Understanding the Limitations of Variational Mutual Infromation Estimators”, ICLR 2020.
■ Self-consistencyによりトレードオフを解消
➤ 相互情報量のトレードオフ（bias-variance）の改善を行う
➤ Self-consistency（自己一貫性）により条件付けしてMI推定を改良
➤ 従来のMI最大化の問題点（bias-variance tradeoﬀs）を、Self-consistencyにより
改善

80
再構成系
J. Song et al., “Understanding the Limitations of Variational Mutual Infromation Estimators”, ICLR 2020.
■ Automatic Shortcut Removal
➤ 色収差の埋め込みと除去により特徴表現を学習
- “Lens”の収差を埋め込むネットワークを学習・適用
- 入力 / 埋め込み画像の誤差を推定
➤ ASRを補助タスクとして適用
- ImageNet / YouTube-8Mにより学習，ImageNet / Places 205により評価
- 各Pretext task（e.g. Rot., Exemplar）に追加したら精度向上（表より）

81
対比系
K. He et al., “Momentum Contrast for Unsupervised Visual Representation Learning”, CVPR 2020.
■ Momentum Contrast（MoCo）
➤ Contrastive Learningを自己教師学習に適用
- サンプリング画像/パッチ x^keyのエンコード特徴 k0, k1,...とクエリx^queryの
エンコード特徴 q を比較，Contrastive Loss計算（左図）
➤ 2種のPretext task，7種類のTargetタスク
- Pretext: ImageNet-1M, Instagram-1B
- Target: Pascal VOC, ImageNet, COCO-keypoint/pose, LVIS,
CityScapes-instance seg./semantic seg.
- いずれも良好な精度（右図はImageNet）

82
対比系
T. Chen et al., “A Simple Framework for Contrastive Learning of Visual Representations”, arXiv pre-print:2002.05709 2020.
■ SimCLR: Simple Framework for Contrastive Learning of Visual Representations
➤ Contrastive Learningについての各種検討
- データ拡張：Crop, Cutout, Jitter, Sobel, Gaussian noise/blur, Rotation
- バッチ数：256, 512, 1024, 2048, 4096, 8192
- 学習時間：100, 200, 300, 400, … 1000 epochs
- ほか：誤差関数，Linear eval.，

83
その他
X. Yan et al., “ClusterFit: Improving Generalization of Visual
Representations”, CVPR 2020. https://arxiv.org/abs/1912.03330
■ ClusterFit
➤ 事前学習タスクで過学習しがちな特徴表現の汎化性向上
- Pre-trainとFine-tuningの間にClusterFitステップを挿入（左図）
- 位置付け的には弱教師事前学習（IG-3.5B的） + 自己教師学習
（DeepCluster）
➤ 画像/動画の11タスク（右下表）において評価
- 例えばImageNet-1k@Jigsawでは約10%向上！
- 大規模画像/動画タスクにおいて汎用的に使用可能

84
対比系
Misra et al., “Self-Supervised Learning of Pretext-Invariant Representations”, CVPR 2020.
■ Pretext-Invariant Representation（PIRL）
➤ 画像変換に頑健な特徴表現学習
- 元画像Iと変換画像I^tを異なるネットワークでエンコード
- 両者の特徴が同様になるように誤差を計算して学習
➤ 実験ではPretext taskと比較

85
評価系
Xiaohua Zhai et al., “A Large-scale Study of Representation Learning with the Visual Task Adaptation Benchmark”, arXiv
pre-print:1910.04867v2, 2020. https://arxiv.org/pdf/1910.04867.pdf
■ 多様なDownstream tasksによる評価ベンチマークを構築
➤ The Visual Task Adaptation Benchmark
- ImageNetで表現学習済みのモデルを19の多様なドメインの分類問題に
Fine-tuningした時のTop1 acc.の平均を評価値とする
- 学習データとして全データ/1kサンプル使用する2つの設定を定義
- 構造理解が必要な分類問題では特にSelf-sup.が強い
- Discriminatorの中間特徴を用いる生成モデル系はスコアが総じて低い
- Encoderも同時に学習する生成モデル系（BigBiGANなど）は強い
- Human sup.にさらにSelf-sup.を加えて学習しても精度向上可能

86
評価系
C Liu et al., “Are Labels Necessary for Neural Architecture Search?”, arXiv pre-print:2003.12056, 2020.
■ NASにおける教師あり/自己教師ありの検討
➤ ラベルの有無で探索したアーキテクチャのランキングに高い相関あり（左上図）
➤ 教師と自己教師により探索したモデルは類似する場合もある（左下図）
➤ 教師と自己教師でほぼ同等，自己教師は一部精度の面で超える（右表）
NASの文脈において教師は自己教師に置き換えられるかもしれない？
ImageNetの探索, 人間教師(a)と回転(b)自己教師が類似 
教師/自己教師による精度は相関が高い

87
識別/再構成系
Simon Jenniet et al., “Steering Self-Supervised Feature Learning Beyond Local Pixel Statistics”, CVPR 2020.
■ 大域的な特徴表現獲得のための変換識別タスクの提案
➤ ImageNet学習済みモデルは局所的な特徴しか捉えていない（左上図）
➤ “大域的情報を考慮しない画像補完”の識別による大域的特徴の学習（下図）
➤ Rotation、Warpingなども含めた変換の多クラス識別によって
各後段タスクでSoTA、ImageNet -> Placesのlinear evaluationでは
教師あり学習を超える（右上表）
上：オリジナル画像
下：大域的な整合性を排除した画像
ImageNet教師あり学習済みモデルは上下の識別が苦手

89
Pretext task@動画認識
その他
Jigsaw
対比系
(contrastive)
推定系メトリック系評価系
AutoEncode
with LSTMCV
Shuﬄe and Learn
FCN + LSTM
Odd-One-Out
Learning Long-Term
Motion Dynamics
Geometry
Guided CNN
SSL by DRL
FAb-Net
Space-Time
Cubic Puzzles
Spatio-temporal
Representaion Cycle-consistency
of Time
Joint-task Temporal
Cycle-Consistency
LearningDense Predictive
Coding

90
再構成 | 生成モデル系
S Nitish et. al., “Unsupervised Learning of Video Representations using LSTMs”, ICML 2015.
■ Autoencode with LSTM
➤ Pretext task: 動画シーケンスの再構成・未来予測
- autoencoder(L2), future predictor(ce loss), compositeを比較
- 入力はAlexNetから得られる各フレーム特徴量
- Sports-1M -> UCF-101, HMDB-51
➤ 結果
- compositeが教師ありに近い精度(約5ポイント減)
- 長いシーケンス・異なるドメインの学習でも高い精度

91
識別系
I. Misra et. al., “Shuffle and Learn: Unsupervised Learning using Temporal Order Verification”, ECCV 2016.
■ Shuffle and Learn
➤ Pretext task: 入力シーケンスが時間的に正しく並んでいるか判定
- optical flowの変化が大きい区間のフレームを3つサンプリング
- フレームごとにAlexNetに入力 & concat
- cross entropy loss
➤ 行動認識の事前学習として実験
- モーション差が大きい・負例が多いほど精度が高い
- ImageNetはsemantic情報に注目しているのに対し
提案手法は人間のポーズに注目している

92
再構成系
■ FCN+LSTMによる齧歯動物の姿勢・行動推定
➤ ラットの前足の姿勢・行動の特徴表現を獲得したい
➤ Pretext task: 前足detection+フレーム並べ替え
- FCNが検出したbboxのフレーム順をシャッフルして、
LSTMで正しい順番を予測
- optical ﬂowで前足bboxを作成
➤ 結果(ラットと人間のポーズデータセットで検証)
- queryに近いフレームの検出・Expertに近い性能を達成
- detectionでoptical ﬂowより高い高い性能を発揮(+18p)
- bootstrap的に学習するとさらに精度向上(+18p+23p)
B Brattol et al., “LSTM Self-Supervision for Detailed Behavior Analysis”, CVPR 2017.
,http://openaccess.thecvf.com/content_cvpr_2017/papers/Brattoli_LSTM_Self-Supervision_for_CVPR_2017_paper.pdf

93
■ Odd-One-Out Learning
➤ Pretext task: 複数の入力シーケンスのうちフレーム順がおかしいものがどれかを
推定
- シーケンスをencodeしてからAlexNetに流す
- 出力をconcatしてFCでOddを推定
➤ 行動認識の事前学習で実験
- 以下の設定で転移学習の精度が向上
- sampling法: random、frame数: 6-10、encode:stack-of-diﬀ
- 当時のsslのSOTA手法を超えた
- UCF101で+10p
- HMDB51で+12.7p
識別系
B Fernando et. al, “Self-Supervised Video Representation Learning With Odd-One-Out Networks”, CVPR 2017.

94
再構成系
■ Long-Term Motion Dynamics
➤ Pretext task: 入力フレームに対して未来の3Dフローを予測
- RGB-Dモダリティで3Dフローを作成
- ﬂow spaceの分布でcross entropy lossを計算
➤ 面白い点:ﬂowのみを学習にもかかわらずDepthの再構成がきれい
➤ Depth、RGBによるどちらの行動認識でも高精度
- 3Dフロー予測で空間・時間の関係を見られるようになった？
L Zelun et. al., “Unsupervised Learning of Long-Term Motion Dynamics for Videos”, CVPR 2017.

95
再構成系
■ Geometry Guided CNN
➤ 2ステップで学習
- 1st Pretext task: sythetic imageでoptical ﬂowを学習
- 使いやすDBでﬂowを学習できる
- 2nd Pretext task: 3D moviesでdisparity map(depth)を学習
- real domainに寄せる
- 2ndを学習するときに1stを忘れないように蒸留とLwFを活用
➤ SceneRecogで従来手法よりも高い性能を発揮
- 1stと2ndをどちらもやることで精度が向上
- ImageNetとのensembleで精度向上(異なる部分を見てる)
C Gan et. al, “Geometry Guided Convolutional Neural Networks for Self-Supervised Video Representation
Learning”, CVPR 2018. http://ai.ucsd.edu/~haosu/papers/cvpr18_geometry_predictive_learning.pdf

96
識別系
■ 訓練用データのシャッフルを強化学習で最適化
➤ JigsawやShuﬄe&Learnでは
シャッフルしたパッチやフレームを入力し、正しい順序を識別
- これまではシャッフルの仕方は固定
- 本研究ではRLで訓練中のCNNの状態に合ったシャッフルを行う
➤ 空間・時間領域ごとにDRLを学習
- DRLはシャッフルした後の順序を出力
- 報酬はval error、状態はsoftmaxをgather staticsticsしたもの
➤ DRL: 2 FC layers, CNN: CaﬀeNet
B Brattoli et. al., “Improving Spatiotemporal Self-Supervision by Deep Reinforcement Learning”, ECCV 2018.

97
再構成系
■ Facial Attributes-Net (FAb-Net)
➤ Pretext task: sourceフレームとtargetフレームを入力して
targetフレームを生成する
- encoderは顔のアトリビュートをembeddingする
- decoderはsourceとtargetのembeddingのcaoncatから
sourceからtargetへの変化を推定し、
bilinear samplingでtargetを生成する
- Curriculum Leaningを使用(バッチの損失でランクを設定)
➤ ランドマーク・ポーズ推定等で教師ありに近い性能を発揮
Wiles O. et. al., “Self-supervised learning of a facial attribute embedding from video”, BMVC 2018.
http://www.robots.ox.ac.uk/~vgg/publications/2018/Wiles18a/wiles18a.pdf

98
識別系
■ Space-Time Cubic Puzzles
➤ Pretext task: 時間方向と空間方向のタスクを同時学習（左図参照）
- 時間方向（フレーム並べ替え）: 59.3@UCF101
- 空間方向（Jigsaw Puzzle）: 58.5@UCF101
➤ 3D CNNを高度に学習（右表参照）
- C3Dにて60.6@UCF101, 28.3@HMDB51
- 3D ResNet-18にて65.8@UCF101, 33.7@HMDB51
D. Kim et al., “Self-Supervised Video Representation Learning with Space-Time Cubic Puzzles,” AAAI 2019.
Pretext taskのイメージ図．空間（Jigsaw Puzzle）と時間（フ
レーム並べ替え）を同時に実行する．動画像の特性をうまく
利用した学習体系となっている． 
Pretext taskにSpace-Time Cubic Puzzles（3D ST-puzzle）を用いた結果
を表示．従来ではUCF101にて50%代であったが，精度を大幅に向上する
ことに成功した．

99
識別系
■ 人間の認知システムに倣った動き推定タスク
➤ pretext task : 動画の1フレームをパッチに分割し，動きが最大のパッチ・
動きの多様性が最大のパッチ・動きが最小のパッチを推定
- 人間は動きが最も大きい部分(物体)と動きが最も小さい部分(背景)を
分けて近くすることに着目
- 様々なパッチ分割(格子状・
放射状など)で検証
- 行動認識，シーン理解などの
タスクにおいてSSLのSOTAを更新
J.Wang et al, “Self-supervised Spatio-temporal Representation Learning for VIdeos by predicting motion and appearance
statistics”, CVPR2019. https://arxiv.org/pdf/1904.03597.pdf

100
再構成系
X Wang et al., “Learning Correspondence from the Cycle-consistency of Time”, CVPR 2019.
■ Cycle-consistency of Time
➤ 動画内のパッチを逆再生である時点までトラッキングし，開始時点まで再びトラッキ
ング
→　開始時と終了時のパッチの空間座標のユークリッド距離を最小化する
cycle-consistency loss（左図）
➤ mask, pose等複数のpropagationタスクで自己教師の中でSOTA
DAVIS-2017でのmask propagationの評価

101
推定系
■ 関連性の高い2つのタスクを1つ類似度行列で同時に学習
➤ task1とtask2を交互に学習し相乗効果を得る
- Pretext task1: Object-level matching (物体追跡)
- フレームとクロップされたパッチの類似度行列を計算
- Pretext task2: Fine-grained matching (ピクセルカラーマッチング)
- パッチとtask1から得られるクロップの類似度行列を計算
- カラーパッチを参考にtask1のクロップをカラー化
- 2つのタスクの類似度行列を1つの行列で表現する
➤ 物体、部位、キーポイント検出でImageNet-ResNet-18に
近い性能を発揮
Xueting L. et al., “Joint-task Self-supervised Learning for Temporal Correspondence”, NIPS 2019.

102
メトリック系
■ 二動画間で起きているアクションの埋め込みを時間的に整列す
る表現学習
➤ 同一アクションの起きている動画からアクションの中のシーケンスを
Cycle-consistency を使用して時間的に整列する
- Cycle-back Classiﬁcation
- Embedding 空間で微分可能な最近傍点を取得、行って戻ってきた点が
一致するかどうかの損失
- Cycle-back Regression
- 戻ってきた最近傍点がずれているオフセットと分散を小さくする損失
➤ フレーム単位の類似度検索・異常検知に有効
D. Dwibedi et al., “Temporal Cycle-Consistency Learning”, CVPR 2019.
http://openaccess.thecvf.com/content_CVPR_2019/papers/Dwibedi_Temporal_Cycle-Consistency_Learning_CVPR_2
019_paper.pdf

103
推定系
■ 数秒先までの動画特徴量を予測し、空間特徴を保持した Dense
Predictive Coding による表現学習
➤ 特徴量の予測誤差には Noise Contrastive Estimation を特徴マップに
対して Dense に行う
- 予測した特徴マップに対して時間・空間的負例よりも正解に近いかど
うかを判定
- 実験では約2.5秒クリップからその先約1.5秒を予測
➤ 遠い未来予測を行えば事前学習精度は下がるが、Downstream task に
おいて性能は向上
T. Han et al., “Video Representation Learning by Dense Predictive Coding”, ICCV 2019 Workshop,
http://openaccess.thecvf.com/content_ICCVW_2019/papers/HVU/Han_Video_Representation_Learning_by_Dense_Predictive_
Coding_ICCVW_2019_paper.pdf

マルチモーダル 
（Audio-Visual）

105
マルチモーダル系（Audio-visual）
■ ラベルのない動画から音と画像の特徴を学習
➤ Audio-visual correspondence (AVC)
- 動画では視覚情報と聴覚情報のアラインメントが取れていることを利用
- 同じ動画の同時刻のペア (正例) と違うビデオから取ってきたペア (負例)を識
別できるように各モダリティの特徴抽出器を学習
➤ Audio-visual embedding network
- 各モダリティの特徴量のユークリッド距離を利用
➤ Audio-visual object localization network
- 画像特徴量のどこが音響特徴量に反応しているか
を特定し音源定位
R. Arandjelović et al., “Objects that Sound”, ECCV 2018. https://arxiv.org/pdf/1804.03641.pdf

106
■ 動画内の時系列のアライメントに着目
➤ Early fusion
- 音と関係する動きをモデリングするために視覚情報と聴覚情報それぞれが時
系列の情報を持つ比較的浅い層の段階で情報を統合し3D conv.
➤ Action recognitionの事前学習として有効性を確認
- 別の動画のデータを負例として使うより，同動画内の別時刻のデータを負例と
して使うことで性能改善(動きに関する特徴量を獲得)
A. Owens et al, “Audio-Visual Scene Analysis with Self-Supervised Multisensory Features”, ECCV 2018.

107
■ 顔と声の埋め込みによるクロスモーダルの検索
➤ 埋め込みの学習
- 同じ動画のペア (正例) と違うビデオから取ってきたペア (負例)を用いて
Contrastive lossで学習
➤ カリキュラムラーニング
- Contrastive lossによる学習では識別困難な負例を活用すると性能が改善
- 学習途中の埋め込み同士の距離を利用して識別困難か判断
A. Nagran et al., “Learnable PINs: Cross-Modal Embeddings for Person Identity”, ECCV 2018.

108
■ アライメントに着目したカリキュラム学習の解析
➤ Audio-Visual Temporal Synchronization
- 同じ系列の同じ時刻のペアかどうかにもとづいてContrastive lossで学習
➤ 様々な負例を利用したカリキュラムラーニング
- Easy negative: 別の動画の音
- Hard negative: 同じ動画の離れた区間の音
➤ 評価の結果
- カリキュラムラーニングで正例/負例の識別性能改善(評価はEasyのみ)
- ダウンストリームタスクの性能も同様の傾向
B. Korbar et al., “Cooperative learning of audio and video models from self-supervised synchronization”, NeurIPS 2018.

109
■ 360°動画とモノラル音源からの音場合成
➤ 4段階の音場合成
(a) モノラル音源と360°動画からの特徴抽出
(b) 音源分離を行う時間周波数マスクの推定(動画の特徴量も利用)
(c) 分離した音源ごとの位置に関する重みを動画からDNNで計算
(d) 観測音場の基底にかかる係数を分離音の重み付き和で推定
➤ 自己教師あり学習としてのメリット
- 音源位置に関する教師情報を用いずに画像内の音源位置を推定可能
➤ Youtubeから音場のデータを持った動画を集めたデータセットを構築
P. Morgado et al., “Self-Supervised Generation of Spatial Audio for 360° Video”, NeurIPS 2018.

110
■ クラスタリングに基づく自己教師あり学習
➤ Audio-visual correspondenceにもとづいた学習の課題
- 単一の音源物体が画像の中で支配的であることを暗に仮定
- 楽器のソロ演奏動画においては妥当な仮定だが一般の画像には非現実的
➤ クラスタリングによる学習
- 各モダリティで得られらた特徴量をクラスタリング
- 同じ音源物体に関する音と画像の特徴量が集まることを期待
- K-means法の目的関数を微分可能に近似し最適化する手法を提案
D. Hu et al., “Deep Multimodal Clustering for Unsupervised Audiovisual Learning”, CVPR 2019.
http://papers.nips.cc/paper/8002-cooperative-learning-of-audio-and-video-models-from-self-supervised-synchronization.pdf

111
■ 音声から話者の顔画像の埋め込みベクトルを推定
➤ 目的: 音声から話者の顔を推定
- Face Recognition: ラベル付きの顔画像を用いた顔認識で事前学習
- Decoder: 顔認識で事前学習したDNNの中間特徴量から顔画像を推定
- Encoder: 動画内の顔画像の特徴量(話者idは未知)を音から推定
　(Encoderの学習が人手のラベリングを用いない自己教師ありの知識蒸留)
➤ 評価の結果
- 顔画像の推定では概形をとらえられたが，男性の子供→女性等も
- 話している言語も顔画像の推定結果に影響することを確認
TH. Oh et al., “Speech2Face: Learning the Face Behind a Voice”, CVPR 2019.
http://papers.nips.cc/paper/7319-self-supervised-generation-of-spatial-audio-for-360-video.pdf

112
■ 音による画像内の音源物体検出
➤ 目的: 音からの移動している車両の定位
- 2chの音源から物体検出するDNNを学習済みのYOLOv2の中間特徴量と出力
をまねるように学習
➤ Auditory Vehicle Tracking dataset
- 2chの録音と動画のデータセットを構築(評価用の正解ラベルもあり)
➤ 評価の結果
- 音による定位は照明条件に頑健なので物体追跡の性能改善が期待できる
C. Gan et al., “Self-supervised Moving Vehicle Tracking with Stereo Sound”, ICCV 2019.
http://www.justinsalamon.com/uploads/4/3/9/4/4394963/cartwright_tricycle_waspaa2019.pdf

113
■ Cross-Modal Deep Clustering (XDC)
➤ 教師なしの表現学習手法Deep clusteringのマルチモーダル拡張
- 音/動画から得られた特徴量をクラスタリングしたものを動画/音の教師　ラベル
に使用(相補的に教師ラベルを作成)
➤ 行動認識での評価
- 自己教師あり学習のデータセットの規模を上げることで性能改善
- 小規模データセットにおいて教師あり学習を上回ることを確認
- MDC/CDCと比べてXDCのほうが複数のタスクで有効なことを確認
H. Alwassel et al., “Self-Supervised Learning by Cross-Modal Audio-Video Clustering”, arXiv pre-print:1911.12667, 2019.

114
■ ドメイン間のデータの変換に注目
➤ データ拡張・モダリティに不変な特徴量の学習
- データ拡張に不変な特徴量の学習は自己教師あり学習で高性能(例: MoCo)
- 異なるドメインのデータに関しても同様にとらえ，対応したデータを近づけるよう
にContrastiveロスで学習
➤ 行動認識での評価
- 理論的に大きな改善は見られないが性能的にはSOTAを達成
- IG65Mを使えば更なる性能改善の可能性もあり
M. Patrick et al., “Multi-modal Self-Supervision from Generalized Data Transformations”, arXiv pre-print:2003.04298, 2020.
http://openaccess.thecvf.com/content_CVPR_2019/papers/Oh_Speech2Face_Learning_the_Face_Behind_a_Voice_CVPR_2
019_paper.pdf

メタサーベイ？？
● 論文の背景にある知識等に着目
● 代表的な評価法と精度の変遷
● SSLのトレンド
● 注目研究者
● いかに研究体制（メンバーや環境）を整えるか？
という部分にフォーカス
116

検証用データベースの変遷
■ Pretext task
➤ ImageNet-1k→ImageNet-22K, YFCC100M
- 多くの大規模データベースが提案され，大量のデータでPretext taskを解く
ことで精度が上がるかを調査
■ Fine-tuning task
➤ Pascal VOC→ImageNet (1%/10% label)
- 従来手法との比較でPascal VOCも使われるが，Classiﬁcationでの評価
が主流!?
- より汎用的な特徴量獲得を評価するためにVideoにも適用する流れ
- 実用的なシステムを考えた際にFine-tuning先で少数のラベルであっても
適用可能かを調査
今回は，
ImageNet-{1k,22K}→PASCAL VOC07
ImageNet→ImageNet(ALL, 10% Label)においての精度比較を調査
117

Method Conference Network Parameters
(Millon)
Classiﬁcation
Top-1
(%mAP)
Rotatioinc CVPR16 ResNet50(w4×) 86 55.4
Colorize ECCV16 ResNet101 28 39.6
Jigsaw ECCV16 ResNet50(w2×) 94 44.6
DeepCluster ECCV18 VGG 15 48.4
AMDIM arXiv Custom-ResNet 626 68.1
LA ICCV19 ResNet50 24 60.2
BigBiGAN NeurlPS19 ResNet50(w4×) 86 61.3
CPCv2 arXiv ResNet50 24 63.8
CMC ICLR20 ResNet50(w2×) 188 68.4
PILR CVPR20 ResNet50 25.6 63.6
MoCo CVPR20 ResNet50(w4×) 375 68.6
SimCLR arXiv ResNet50(w4×) 375 76.5
Supervised — ResNet50 24 76.3
Supervised — ResNet50(w4×) 375 76.8
比較
{Self, Un}-supervised learning on ImageNet => linear classiﬁers on ImageNet
118

Method Conference Network Classiﬁcation
Top-5
(%mAP)
Random init — ResNet50 59.0
Rotatioin CVPR16 ResNet50(w2×) 86.4
Colorize ECCV16 ResNet152 62.0
Jigsaw ECCV16 ResNet50 79.3
NPID++ CVPR18 ResNet50 81.5
AMDIM arXiv Custom-103 85.8
BigBiGAN NeurlPS19 ResNet50(w4×) 78.8
CPCv2 arXiv ResNet161 91.2
PILR CVPR20 ResNet50 83.8
SimCLR arXiv ResNet50(w4×) 92.6
Supervised — ResNet50 93.2
比較
{Self, Un}-supervised learning on ImageNet => Fine-tuing on ImageNet (Label 10%)
119

Method Conference Classiﬁcation
(%mAP)
Detection
(%mAP)
Segmentation
(%mIoU)
Random init. — 53.3 43.4 19.8
Colorize ECCV16 65.9 46.9 35.6
Jigsaw ECCV16 67.7 53.2 ー
BiGAN ICLR17 60.1 46.9 34.9
Rotation ICLR18 73.0 54.4 39.1
Jigsaw++ CVPR18 69.8 55.5 38.1
DeepCluster ECCV18 73.7 55.4 45.1
Supervised — 79.9 59.1 48.0
比較
{Self, Un}-supervised learning on ImageNet-1K => Fine-tuing on Pascal VOC2007
{Self, Un}-supervised learning on ImageNet-22K => Fine-tuing on Pascal VOC2007
Method Conference Classiﬁcation
(%mAP)
Detection
(%AP50)
Segmentation
(%mIoU)
PILR CVPR20 81.1 73.4 —
MoCo CVPR20 — 74.9 —
Supervised — 87.5 74.5 — 120

121

相互情報量の最大化（1/7）

122

(結果として)
この目的関数を最適化している手法がいくつかある

123


124


125

論文中ではInfoMax principleとの詳細な関係はほとんど触れられていないが
発想のベースにはあったのではと考えられる

126
■ Deep INFORMAX (DIM)
➤ 明示的に入力と特徴量間の相互情報量を最大化
➤ 実験では画像の部分パッチと画像全体の特徴量について最大化する
と最も良かった
■ Contrastive Predictive Coding (CPC)
➤ 現在までの系列情報と先の系列情報の相互情報量を最大化

127
■ Deep INFORMAX (DIM)
➤ 実験では画像の部分パッチと画像全体の特徴量について最大化する
と最も良かった
■ Contrastive Predictive Coding (CPC)
➤ 現在までの系列情報と先の系列情報の相互情報量を最大化
・従来のNATやIDと異なり，いずれも欠損情報と全体（もしくは欠損してる部分）
の情報間で相互情報量の最大化を行うことが効果を発揮している
・DIM、CPCの損失関数はConrastive Lossに繋がっており、MoCoや
simCLRも相互情報量最大化の要素を含んでいると考えられる

128
■ あらゆるtaskやdomainに効果的な特徴量の獲得が目的
■ 実際は(cls., det., seg.)のみの評価がほとんど
➤ 最初に決めたから？現状，あまり問題意識はない
分野全体が過学習？（1/5）
モデル
Pretext task
ex. ImageNet
w/o labels
ex. AlexNet
Target task
学習
+
画像
データラベル
モデル
学習画像
データ

129
■ Pretext taskの定義の仕方が上記のTarget taskに過学習
していないか？
モデル
Pretext task
ex. ImageNet
w/o labels
ex. AlexNet
Target task
学習
+
画像
データラベル
モデル
学習画像
データ

130
■ Pretext taskの定義の仕方が上記のTarget taskに過学習
していないか？
➤ 実は他のtask・domainでは異なる結果になるのでは？(ex. Rotation)
➤ 高次なtarget taskでの評価ため，情報量保存的アプローチは不利
A. R. Zamir +, “Taskonomy: Disentangling Task Transfer Learning”, CVPR 2018

131
■ 案1: あらゆるtarget taskで評価
⭕ 数によってはある程度の納得感
❌ 大変
■ 案2: 入力と特徴量間の相互情報量で評価
❌ 厳密な計算が不可
(NNを用いた推定ベースならDIMなどでは採用)
■ 案3: Target taskを(ある程度)限定
(task or domain speciﬁcな表現学習)
⭕ 問題は解消される
❌ (汎用性という意味での)ありがたみが薄れる，
ほぼ半教師あり学習

132
■ 案1: あらゆるtarget taskで評価
⭕ 数によってはある程度の納得感
❌ 大変
■ 案2: 入力と特徴量間の相互情報量で評価
❌ 厳密な計算が不可
(NNを用いた推定ベースならDIMなどでは採用)
■ 案3: Target taskを(ある程度)限定
(task or domain speciﬁcな表現学習)
⭕ 問題は解消される
❌ (汎用性という意味での)ありがたみが薄れる，
ほぼ半教師あり学習
表現の良さの評価は非常に難しい…

133
■ Context Pred. (CP) vs. Jigsaw Puzzle (JP)
➤ CP: 高次な情報を必要としない
- しかし，実際に捉えてほしいのは高次(semantic)な情報
- パッチ境界の低レベルな情報のみで
相対位置の推定が可能？
- パッチ間にgapをつける
- パッチ位置をjittering
➤ JP: 局所特徴を捉えて順列
- CPの曖昧性を解消したことが精度向上？
- JP 67.7 vs. CP 55.3 @VOC’07 Cls.
- 境界など詳細な特徴も捉えて識別
Pretext taskの分析（1/5）
例えば…
境界やその外挿で判断できなくする
① ➁
⑤
Context Pred.
①②⑤を基準とした相対位置推定は困難
Jigsaw Puzzle高次な情報を捉えることに成功か？

134
■ 回転によるPretext task
- 4方向を推定するタスク
- 論文中では2方向，8方向など実施
- シンプルながら非常に効果が大きい
- 91.16@CIFAR-10 (vs. 92.80 w/ Supervised)
- 72.97@VOC’07 (vs. 79.9 w/ Supervised)
回転による自己教師
画像の大域的な特徴を（ある程度）捉えやすい？

135
■ Shuﬄe & Learn
- フレーム並べ替え
- 58.5% @ UCF-101
■ Shuﬄe & Learn + Jigsaw Puzzle
- 上記に +Jigsaw Puzzle（空間情報把握）
- 65.8% @ UCF-101
フレームの時系列順列（時間）+空間的順列（空間）を同時学習
動画認識では時間 + 空間の3次元的な表現の同時学習が重要
D. Kim et al., “Self-Supervised Video Representation Learning with Space-Time Cubic Puzzles,” AAAI 2019.

136
■ タスクのちょうど良い難易度が精度に関係？
➤ 簡単/曖昧すぎる情報を推定しても表現が足りない
- e.g. Context Prediction
➤ 難しすぎても表現できない
- e.g. VAE/GAN (少ない補助情報で画像を完全に再現)
■ 大域的特徴 vs. 局所的特徴 vs. 動き特徴
➤ 大域的
- e.g. Rotation
➤ 局所的
- e.g. Jigsaw Puzzle
➤ 動き
- e.g. Object Segmentation, Shuﬄe & Learn

137
■ 組み合わせでもちょうど良い難易度を保つ
➤ 組み合わせによる精度向上例
- Joint Unsupervised LEarning (JULE)
- 特徴表現 + 擬似カテゴリ
- Multi-task SSL
- CP + Color + Motion Segment + Exemplar
- Jigsaw Puzzle++
- 2枚の画像でシャッフル
- Shuﬄe & Learn + Jigsaw Puzzle
- 時系列フレーム入れ替え + 空間シャッフル

138
■ 2016年発表のJigsaw論文が引用回数391回（2020年現在）
➤ ベルン大学でPh.D
➤ 博士論文は自己教師Visual Representation
➤ 現在はBosch Center for A.I.でResearch Scientist
➤ CVPR, ICCV等トップ国際会議に論文を複数通している
➤ 代表的な論文
Mehdi Noroozi（1/7）
- Unsupervised Learning of Visual
Representations by Solving Jigsaw
Puzzles (ECCV 2016)
- Representation Learning by Learning
to Count (ICCV 2017)
- Boosting Self-Supervised Learning via
Knowledge Transfer (CVPR 2019)
https://scholar.google.ch/citations?user=NbW68EAAAAAJ&hl=en

139
■ 毎年Firstでトップ国際会議
➤ カーネギーメロン大学でPh.D
➤ 博士論文はVisual Learning with Minimal Human
Supervision
➤ 現在はFAIRのResearch Scientist
➤ CVPRにfirstで5本，Second含めると7本
➤ CVPR2020に3本Accept
Ishan Misra（2/7）
- Cross-stitch Networks for Multi-task
learning (CVPR 2016)
- Shuffle and Learn: Unsupervised Learning
using Temporal Order Verification (ECCV
2016) https://imisra.github.io/

140
■ 総引用数1649回（2020年現在）
➤ MIT CSAILでPh.D
➤ 博士論文は Learning Visual Models from Paired
Audio-Visual Examples
➤ 現在はミシガン大学EECS学科の助教
➤ ほぼ毎年Firstでトップ国際会議
➤ Multi-modalなSelf-supervisionのスペシャリスト
Andrew Owens（3/7）
- Visually Indicated Sounds (CVPR 2016)
- Ambient Sound Provides Supervision for
Visual Learning (ECCV 2016)
- Audio-visual scene analysis with
self-supervised multisensory features
(ECCV 2018)
http://andrewowens.com/

141
■ Audio-Visual統合の研究を先導
➤ MIT CSAILでPh.D
➤ 現在はテキサス大学オースティン校の教授とFAIRの
Research Scientistを兼任
➤ IROS 2019やSANE 2019(音響信号処理のWS)で講演
➤ CVPR2020共著6件 (うち4件oral)
Kristen Grauman（4/7）
- Learning to separate object sounds by
watching unlabeled video (ECCV 2018)
- 2.5D visual sound (CVPR 2019)
- Co-Separating sounds of visual objects
(ICCV 2019)
- Listen to look: action recognition by
previewing audio (CVPR 2020)
http://www.cs.utexas.edu/users/grauman/

142
■ Contrastive Predictive Codingの第１著者
➤ ゲント大学でPh.D
➤ 現在はDeepMindのResearcher
➤ 生成モデルの研究でも非常に有名(PixelRNN, WaveNet,
VQ-VAEのﬁsrt)
Aäron van den Oord（5/7）
- Pixel Recurrent Neural Networks (ICML
2016)
- Neural Discrete Representation Learning
(NIPS 2017)
- Representation learning with contrastive
predictive coding (2018)
- Data-eﬃcient image recognition with
contrastive predictive coding (2019) https://avdnoord.github.io/homepage/

143
■ Cross-modal SSLを先導
➤ MIT CSAILでPh.D，現在は同Reserach Scientist
➤ Speech/spoken languageとvisualのcross-modalに早くか
ら着手 (ASRU2015)
➤ ECCVとACLにﬁrst1本ずつ(ICASSP, Interspeech等多数)
David Harwath（6/7）
- Deep Multimodal Semantic Embeddings for
Speech and Images (ASRU 2015)
- Unsupervised Learning of Spoken Language
with Visual Context (NIPS 2016)
- Jointly discovering visual objects and spoken
words from raw sensory input (ECCV 2018)
- Learning Hierarchical Discrete Linguistic Units
from Visually-Grounded Speech (ICLR 2019)
https://people.csail.mit.edu/
dharwath/

144
■ CV・マルチビュー幾何学の第一人者
➤ Univ. of Oxford, VGGの教授
➤ DeepMindにも所属・提携している
➤ Mulitple View Geometry in Computer Vision著者
- R. Hartley氏との共著でCV分野において不朽の名作
- 数学の説明が素晴らしい！
➤ VGGNetの著者でもある（CVなら大体なんでもすごい！）
➤ 動画系のSSLも空間特徴・数学の観点から攻めている印象
- Very Deep Convolutional Networks for Large-Scale Image Recognition
(ICLR 2015)
- Multiple view geometry in computer vision
(Cambridge University Press 2000)
- The pascal visual object classes (VOC) challenge
(International Journal of Computer Vision 2010)
- Temporal Cycle Consistency Learning (CVPR 2019)
- Two-stream convolutional networks for action recognition in videos
(NeurIPS 2014)
Andrew Zisserman（7/7）
https://www.robots.ox.ac.uk/~az/

FAIR（Facebook AI Research; 1/11）
145
■ 世界の物体検知自己教師学習研究を牽引するFAIR
➤ 激強研究機関
- 強い研究者が集合，議論してさらに強くなる
➤ 画像認識におけるトレンド創出
- Mask R-CNN/RetinaNetなど
➤ 強い基盤を保有
- PyTorch/Caﬀe2などに代表
- Detectronは誰もが使用できる物体認識オープンソース
スライド再利用「物体検知 @メタサーベイ2019」
https://www.slideshare.net/cvpaperchallenge/meta-study-group

FAIR (2/11)
146
■ 激強研究機関
➤ 所長はYann LeCun（左; CNNの考案者の一人）
➤ トップの国際会議に毎回数本〜数十本論文通す
➤ トップ研究者を常時採用（+厳しい面接を突破）
- InternですらNIPS/ICML/CVPR等の主著成果が推奨されている
https://research.fb.com/category/facebook-ai-research/ 1ページ10本リストされているページが66！（全体
で660弱くらいの論文が採択？） 
https://research.fb.com/publications/page/9/
2019年2月時66pからの104p！ 
（1年で存在感がさらに増した！） 
https://research.fb.com/publications/page/9/
【2019年2月時】  【2020年4月時】

FAIR (3/11)
147
■ 物体検知分野の著名研究者（覚えておくと得します）
➤ Kaiming He
- ResNet, Mask R-CNN, Faster R-CNN, Focal Loss等
- http://kaiminghe.com/
➤ Ross Girshick
- DPM, R-CNN, Fast/Faster/Mask R-CNN, YOLO, Focal Loss
等
- http://www.rossgirshick.info/
➤ Piotr Dollar
- Caltech Pedstrian DB, MSCOCO, ICF, Mask R-CNN等
- https://pdollar.github.io/
- 他多数。。。

FAIR (4/11)
148
■ 自己教師学習分野の著名研究者（覚えておくと得します）
➤ Kaiming He
- ResNet, Mask R-CNN, Faster R-CNN, Focal Loss, MOCO,
MOCOv2, SSL+NAS等
- http://kaiminghe.com/
➤ Ross Girshick
- DPM, R-CNN, Fast/Faster/Mask R-CNN, YOLO, Focal Loss,
MOCO, MOCOv2, SSL+NAS等
- http://www.rossgirshick.info/
➤ 物体検出のみならず，自己教師学習においても存在感

FAIR (5/11)
149
■ 自己教師学習分野の著名研究者（覚えておくと得します）
➤ Ishan Misra（注目研究者でも紹介）
- Shuﬄe and Learn等
- https://imisra.github.io/
➤ Kristen Grauman（注目研究者でも紹介）
- 2.5D Visual Sound, Listen to Look等
- 音声以外にも動画, 一人称ビジョン, ファッション等多数
- http://www.cs.utexas.edu/users/grauman/
➤ Priya Goyal
- ImageNet in 1 Hour, Focal Loss, Scaling & Benchmarking等
- Engineerとしての能力も高い
- https://scholar.google.co.in/citations?user=-9yiQMsAAAAJ&hl=en

FAIR (6/11)
150
■ 自己教師学習のトレンドを創出
➤ MoCo（CVPR 2020 Oral） -> MoCo v2
- 短期間（v1; 2019/11, v2; 2020/03）にアップデート
- 詳細は論文サマリ参照
- SimCLR等にも影響
➤ Scaling and Benchmarking
- 長らく見直されていないルールを改正（しようと提案）
- AlexNetのみの評価をResNet-50などを使用
- Pretext taskの使用データセットのサイズについて評価
- 画像識別以外のタスクについても転移学習

FAIR (7/11)
151
■ 自己教師学習でトレンドを創出するには？
1. シンプルアイディア
2. 劇的な精度向上
3. コードを公開
の３拍子は(物体検知, 自己教師学習に限らず)CV界で非常に大きく評価される
MoCoシリーズ，Shuffle & Learn, Scaling & Benchmarkingも３拍子揃えている 
MoCo: https://github.com/facebookresearch/moco
Shuffle & Learn: https://github.com/imisra/shuffle-tuple
Scaling & Benchmarking: https://github.com/facebookresearch/fair_self_supervision_benchmark

FAIR (8/11)
152
■ 研究はインターンも重要な戦力？
➤ 有名研究室エース学生がインターンすること多し
➤ やはり有名研究者と数ヶ月に渡り研究を実施
Fellowshipプログラムも充実（$42,000/year, トラベルサポート込） 
https://research.fb.com/programs/fellowship 

FAIR (9/11)
153
■ FAIRのデータ基盤
➤ Facebook/Instagramを使用
➤ SNSを用いた弱教師によるPre-trainの実行（下図）
- Hashtagでラベル付/スケール増加
- 35億枚の画像により特徴表現学習（Instagram-3.5B; IG-3.5B）
- 2019年は動画版を作成（Instagram-65M; IG-65M）
[Mahajan+, ECCV18]
FBはSNSのHashtagでラベル付けなし，弱教師付き
の3.5B枚画像DB構築 
IG-65MはCross-Modal
Deep Clustering (XDC)
にも使用 

FAIR (10/11)
154
■ メタな部分を常に考えている？
➤ 手法とともにデータの分析も行う
➤ Scaling & Benchmarking (ICCV 2019)
- データ量やモデルサイズにスケールする？ -> やはりする
- AlexNet -> ResNet-50/ImageNet -> YFCCにより精度向上
- 画像識別 -> 多様なタスク（場合によっては教師あり学習よりも精度高）
画像枚数の増加に伴い， 
性能は高くなる傾向 
Pretext task（Jigsaw, Colorization）と画像枚数の関係性 

FAIR (11/11)
155
■ メタな分析
➤ トレンドを創れる研究者が議論してさらに強いベースライ
ンを作り続ける
➤ 膨大なデータ量，豊富な計算リソース
➤ メタな部分を研究者(や運営)が常に考え続ける
- メタサーベイについても大きく先を行っている！

156
VGG（Visual Geometry Group; 1/5）
トレンドを創り続ける研究室
■ 激強大学研究室
➤ 主宰はAndrew Zisserman & Andrea Vedaldi
➤ トップの国際会議に毎回数本〜数十本論文通す
➤ トップ研究者を多数輩出
- 関係者にはCordelia Schmid氏（INRIA/Google），Karen Simonyan
氏（DeepMind），Andrew Fitzgibbon氏（MSR）など
http://www.robots.ox.ac.uk/~vedaldi/http://www.robots.ox.ac.uk/~az/

157
■ VGGの代表研究
➤ Multiple View Geometry in Computer Vision
- 研究ではないが，不朽の名作にしてMulti-view Geometryの入門書
- CVのカメラ幾何について詳細に解説
- R. Hartley, A. Zisserman, “Multiple View Geometry in Computer Vision”, Cambridge University Press.
➤ VGGNet
- GoogLeNetと並びDeeper Networkの走り（その後ResNetへ継承）
- StyleTransferやAdversarial Examplesでは現在も使用され研究が進め
られている
- K. Simonyan, A. Zisserman, “Very Deep Convolutional Networks for Large-scale Image Recognition”, in NIPS 2014.
➤ Pascal VOC
- 物体検出において最初のデファクトスタンダード
- 物体検出の研究が劇的に進捗する礎となった
- M. Everingham, L. V. Gool, C. Williams, J. Winn, A. Zisserman, “The Pascal Visual Object Classes (VOC) Challenge”, in IJCV 2010.
VGG（2/5）

自己教師学習（Self-Supervised Learning）

自己教師学習（Self-Supervised Learning）

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to 自己教師学習（Self-Supervised Learning）

Similar to 自己教師学習（Self-Supervised Learning） (20)

Recently uploaded

Recently uploaded (8)

自己教師学習（Self-Supervised Learning）