■ 画像から音声を予測
➤ 画像からの音声予測がオブジェクトとシーンに関する情報を学習していることに着
目して、学習した特徴量を画像認識に適用させる。
➤ (a)画像から(c)音声特徴量を予測
➤ Fast R-CNNの事前学習に適用したけど、ImageNetとは差がある。
➤ 論文紹介:Ambient Sound Provides Supervision for Visual Learning(CV勉強会ECCV…
マルチモーダル系
➁
⑤
Andrew Owens et al, “Ambient Sound Provides Supervision for Visual Learning”, ECCV 2016.
https://arxiv.org/pdf/1608.07017.pdf
27
28
■ グレースケール画像を自動的にカラー化
➤ 各ピクセルを取り、その周囲を見て、もっともらしい色の分布(ヒストグラム)
を予測
➤ CNNを用いて意味解析とローカリゼーションを
カラー化システムに組み込む。
➤ 基本ネットワークにはVGG16を用いている。
- 事前学習はImageNetなど。
再構成系
Larsson, Gustav et al, “Learning Representations for Automatic Colorization”, ECCV 2016.
https://arxiv.org/pdf/1603.06668.pdf
Fig. 2: System overview. We process a grayscale image through a deep convolutional
architecture (VGG) [37] and take spatially localized multilayer slices (hypercolumns) [15, 26, 28],
as per-pixel descriptors. We train our system end-to-end for the task of predicting hue and
chroma distributions for each pixel p given its hypercolumn descriptor. These predicted
distributions determine color assignment at test time.
29
■ 大規模な画像データに対してグラフベースの分析を活用
➤ グラフ分析により画像間の根本的な意味の類似性を発見できるはず
➤ 各画像をノードとして、各最近傍マッチングペアをエッジとして表すことによ
り、k-最近傍(k -NN)グラフを作成
➤ 教師なし特徴学習と半教師あり学習の設定で、提案する教師なし制約マイニ
ング手法の有効性を示している。
その他
D. Li et al., “Unsupervised Visual Representation Learning by Graph-Based Consistent Constraints.” ECCV 2016.
https://faculty.ucmerced.edu/mhyang/papers/eccv16_feature_learning.pdf
Pascal Voc 2007での比較
32
■ TextTopicNet
➤ マルチモーダル(テキスト&イメージ)ドキュメントの大規模コーパスをマイニ
ングすることにより、視覚的特徴の自己教師学習を実行することを提案
➤ テキストコーパスに対して、よく知られたトピックモデリング手法(LDA) に
よって発見された非表示の意味構造を活用
- (1)相関するテキストと画像のペアで構成されるデータセットのテキス
トコーパスに関するトピックモデルを学習
- (2)深いCNNモデルをトレーニングして、画像のピクセルから直接テキ
スト表現(トピック確率)を予測
マルチモーダル系
L.Gomez et al., “Self-supervised learning of visual features through embedding images into text topic spaces”, CVPR2017.
https://arxiv.org/pdf/1705.08631.pdf
Figure 1: Our CNN learns to predict the semantic context in which images appear as illustration. Given an illustrated article we project its
textual information into the topic-probability space provided by a topic modeling framework. Then we use this semantic level
representation as the supervisory signal for CNN training
Table 3 compares our results for image classification and object detection
on PASCAL with different self-supervised learning algorithms.
34
■ Split-Brain Autoencoders
➤ ネットワークをチャネル方向に半分に分割して、2つの互いに素なサブネット
ワークを作成。各サブネットワークは、別のサブセットからのデータの1つの
サブセットに対して予測を実行するようにトレーニングされる。
➤ Fast R-CNNを使用し、セグメンテーションは、20の対象オブジェクトの1つ
または背景のいずれかであるオブジェクトクラスのピクセル単位のラベリン
グされているものでの評価もしている。
➤ Lab画像だけでなく、RGB-Dデータに対してもSplit-Brain Autoencodersが
有効だと示す。
再構成系
R. Zhang et al., "Split-Brain Autoencoders: Unsupervised Learning by Cross-Channel Prediction", CVPR2017.
https://arxiv.org/abs/1611.09842
(Left) Images Half of the network predicts color channels from grayscale, and the other half predicts grayscale from color.
(Right) RGB-D Images Half of the network predicts depth from images
■ モーションベースのセグメンテーションを使用してオブジェクト検
出に応用している。
➤ Pretext task : 動画のモーションを利用して付られたセグメントラベルを使用したセ
グメンテーション
➤ 計算やデータの制約による分析をして、約27Mの相関フレームを使用すると
ImageNetで訓練したのと同等の結果を示す。
https://people.eecs.berkeley.edu/~pathak/unsupervised_video/
再構成系
➁
⑤
D. Pathak et al., "Learning Features by Watching Objects Move," CVPR2017.
https://people.eecs.berkeley.edu/~pathak/papers/cvpr17.pdf 35
36
■ Pretext taskとして自動カラー化の可能性
➤ 打倒 ImageNet pretrainを目指し,自動カラー化の可能性を模索
➤ 損失、ネットワークアーキテクチャ、
およびトレーニングの詳細の重要性を調査している。
➤ カラーとグレースケールの差や、アーキテクチャ別にランダムな
初期値を設けた場合と、カラー画像のpre-trainの比較をしている。
再構成系
➁
⑤
Larsson Gustav et al., “Colorization as a Proxy Task for Visual Understanding”, CVPR 2017.
https://arxiv.org/pdf/1703.04044.pdf
53
識別系
O. Kilinc et al., “Learning Latent Representations in Neural Networks for Clustering Through Pseudo Supervision and
Graph-based Activity Regularization”, ICLR 2018. https://openreview.net/pdf?id=HkMvEOlAb
■ Graph-based Activity Regularization(GAR)
➤ 教師なしクラスタリングにより擬似ラベルを設定
- クラスタリングの手法はAuto-clustering Output Layer(ACOL)使用
- 潜在情報を自己教師として学習
➤ データ拡張・回転有無の教示・クラスタリング
- データ拡張を施し、回転の有無を推定
- その後,クラスタリングにより数字を回答
54
再構成系
Terrell Mundhenk, Daniel Ho and Barry Chen, “Improvements to context based self-supervised learning”, CVPR 2018.
https://arxiv.org/pdf/1711.06379.pdf
■ Improvements to context based self-supervised
learning
➤ 各チャンネルの色収差を低減することでよりパッチの相対位置の推定が困難
- Lab空間に変換後、aとbに対してブラー処理を施す
- パッチ数やスケール比が異なる3種類の組み合わせを作成
- 各パッチに回転や拡大・縮小などの処理を施す
➤ PASCAL VOC以外にもCUB birdsやCompCarsにもfinetuneすることで提案手法
が一般的に使用できることを明言
58
相互情報量系
Devon Hajelm et al., “Learning deep representations by mutual information estimation and maximization”, arXiv
pre-print:1808.06670, 2018. https://arxiv.org/abs/1808.06670
Tiny ImageNetにおいて教師ありに近い精度
59
識別系
Ali Diba, Vivek Sharma, Luc Van Gool, Rainer Stiefelhagen, “DynamoNet: Dynamic Action and Motion Network”, ICCV 2019.
https://arxiv.org/pdf/1904.11407.pdf
■ DynamoNet: Dynamic Action and Motion Network
➤ 現在までのフレームにおける人物の行動から次のフレームにおける行動を予測す
ることで特定の行動特有の学習し、高次な特徴表現を獲得
➤ 動画識別と次フレーム予測をマルチタスク学習
95
再構成系
■ Geometry Guided CNN
➤ 2ステップで学習
- 1st Pretext task: sythetic imageでoptical flowを学習
- 使いやすDBでflowを学習できる
- 2nd Pretext task: 3D moviesでdisparity map(depth)を学習
- real domainに寄せる
- 2ndを学習するときに1stを忘れないように蒸留とLwFを活用
➤ SceneRecogで従来手法よりも高い性能を発揮
- 1stと2ndをどちらもやることで精度が向上
- ImageNetとのensembleで精度向上(異なる部分を見てる)
C Gan et. al, “Geometry Guided Convolutional Neural Networks for Self-Supervised Video Representation
Learning”, CVPR 2018. http://ai.ucsd.edu/~haosu/papers/cvpr18_geometry_predictive_learning.pdf
96
識別系
■ 訓練用データのシャッフルを強化学習で最適化
➤ JigsawやShuffle&Learnでは
シャッフルしたパッチやフレームを入力し、正しい順序を識別
- これまではシャッフルの仕方は固定
- 本研究ではRLで訓練中のCNNの状態に合ったシャッフルを行う
➤ 空間・時間領域ごとにDRLを学習
- DRLはシャッフルした後の順序を出力
- 報酬はval error、状態はsoftmaxをgather staticsticsしたもの
➤ DRL: 2 FC layers, CNN: CaffeNet
B Brattoli et. al., “Improving Spatiotemporal Self-Supervision by Deep Reinforcement Learning”, ECCV 2018.
https://arxiv.org/abs/1807.11293
97
再構成系
■ Facial Attributes-Net (FAb-Net)
➤ Pretext task: sourceフレームとtargetフレームを入力して
targetフレームを生成する
- encoderは顔のアトリビュートをembeddingする
- decoderはsourceとtargetのembeddingのcaoncatから
sourceからtargetへの変化を推定し、
bilinear samplingでtargetを生成する
- Curriculum Leaningを使用(バッチの損失でランクを設定)
➤ ランドマーク・ポーズ推定等で教師ありに近い性能を発揮
Wiles O. et. al., “Self-supervised learning of a facial attribute embedding from video”, BMVC 2018.
http://www.robots.ox.ac.uk/~vgg/publications/2018/Wiles18a/wiles18a.pdf
98
識別系
■ Space-Time Cubic Puzzles
➤ Pretext task: 時間方向と空間方向のタスクを同時学習(左図参照)
- 時間方向(フレーム並べ替え): 59.3@UCF101
- 空間方向(Jigsaw Puzzle): 58.5@UCF101
➤ 3D CNNを高度に学習(右表参照)
- C3Dにて60.6@UCF101, 28.3@HMDB51
- 3D ResNet-18にて65.8@UCF101, 33.7@HMDB51
D. Kim et al., “Self-Supervised Video Representation Learning with Space-Time Cubic Puzzles,” AAAI 2019.
https://arxiv.org/pdf/1811.09795.pdf
Pretext taskのイメージ図.空間(Jigsaw Puzzle)と時間(フ
レーム並べ替え)を同時に実行する.動画像の特性をうまく
利用した学習体系となっている.
Pretext taskにSpace-Time Cubic Puzzles(3D ST-puzzle)を用いた結果
を表示.従来ではUCF101にて50%代であったが,精度を大幅に向上する
ことに成功した.
99
識別系
■ 人間の認知システムに倣った動き推定タスク
➤ pretext task : 動画の1フレームをパッチに分割し,動きが最大のパッチ・
動きの多様性が最大のパッチ・動きが最小のパッチを推定
- 人間は動きが最も大きい部分(物体)と動きが最も小さい部分(背景)を
分けて近くすることに着目
- 様々なパッチ分割(格子状・
放射状など)で検証
- 行動認識,シーン理解などの
タスクにおいてSSLのSOTAを更新
J.Wang et al, “Self-supervised Spatio-temporal Representation Learning for VIdeos by predicting motion and appearance
statistics”, CVPR2019. https://arxiv.org/pdf/1904.03597.pdf
100
再構成系
X Wang et al., “Learning Correspondence from the Cycle-consistency of Time”, CVPR 2019.
https://arxiv.org/pdf/1904.11407.pdf
■ Cycle-consistency of Time
➤ 動画内のパッチを逆再生である時点までトラッキングし,開始時点まで再びトラッキ
ング
→ 開始時と終了時のパッチの空間座標のユークリッド距離を最小化する
cycle-consistency loss(左図)
➤ mask, pose等複数のpropagationタスクで自己教師の中でSOTA
DAVIS-2017でのmask propagationの評価
143
■ Cross-modal SSLを先導
➤ MIT CSAILでPh.D,現在は同Reserach Scientist
➤ Speech/spoken languageとvisualのcross-modalに早くか
ら着手 (ASRU2015)
➤ ECCVとACLにfirst1本ずつ(ICASSP, Interspeech等多数)
➤ 代表的な論文
David Harwath(6/7)
- Deep Multimodal Semantic Embeddings for
Speech and Images (ASRU 2015)
- Unsupervised Learning of Spoken Language
with Visual Context (NIPS 2016)
- Jointly discovering visual objects and spoken
words from raw sensory input (ECCV 2018)
- Learning Hierarchical Discrete Linguistic Units
from Visually-Grounded Speech (ICLR 2019)
https://people.csail.mit.edu/
dharwath/
144
■ CV・マルチビュー幾何学の第一人者
➤ Univ. of Oxford, VGGの教授
➤ DeepMindにも所属・提携している
➤ Mulitple View Geometry in Computer Vision著者
- R. Hartley氏との共著でCV分野において不朽の名作
- 数学の説明が素晴らしい!
➤ VGGNetの著者でもある(CVなら大体なんでもすごい!)
➤ 動画系のSSLも空間特徴・数学の観点から攻めている印象
➤ 代表的な論文
- Very Deep Convolutional Networks for Large-Scale Image Recognition
(ICLR 2015)
- Multiple view geometry in computer vision
(Cambridge University Press 2000)
- The pascal visual object classes (VOC) challenge
(International Journal of Computer Vision 2010)
- Temporal Cycle Consistency Learning (CVPR 2019)
- Two-stream convolutional networks for action recognition in videos
(NeurIPS 2014)
Andrew Zisserman(7/7)
https://www.robots.ox.ac.uk/~az/
157
■ VGGの代表研究
➤ Multiple View Geometry in Computer Vision
- 研究ではないが,不朽の名作にしてMulti-view Geometryの入門書
- CVのカメラ幾何について詳細に解説
- R. Hartley, A. Zisserman, “Multiple View Geometry in Computer Vision”, Cambridge University Press.
➤ VGGNet
- GoogLeNetと並びDeeper Networkの走り(その後ResNetへ継承)
- StyleTransferやAdversarial Examplesでは現在も使用され研究が進め
られている
- K. Simonyan, A. Zisserman, “Very Deep Convolutional Networks for Large-scale Image Recognition”, in NIPS 2014.
➤ Pascal VOC
- 物体検出において最初のデファクトスタンダード
- 物体検出の研究が劇的に進捗する礎となった
- M. Everingham, L. V. Gool, C. Williams, J. Winn, A. Zisserman, “The Pascal Visual Object Classes (VOC) Challenge”, in IJCV 2010.
VGG(2/5)