【DL輪読会】ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders

http://deeplearning.jp/
ConvNeXt V2: Co-designing and Scaling ConvNets with
Masked Autoencoders
小林範久 Present Square Co.,Ltd.
DEEP LEARNING JP
[DL Papers]
1

Copyright (C) Present Square Co., Ltd. All Rights Reserved.
書誌情報
ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders
https://arxiv.org/abs/2301.00808
タイトル：
著者： Sanghyun Woo, Shoubhik Debnath, Ronghang Hu, Xinlei Chen, Zhuang Liu, In So
Kweon, Saining Xie
• ConvNeXtの改良モデルConvNeXt V2を提案。ConvNeXtに、自己教師あり学習である Masked
Autoencoders(MAE)を結合。
• ConvNeXtとMAEはアーキテクチャが大きく異なるため、feature collapseが発生してしまう。その解決として
Global Response Normalization（GRN）layerを加え、チャネル間の競合関係を強調することを提案。
• ImageNet classification、COCO detection、 ADE20K segmentationなどのベンチマークを更新。
概要：
2

アジェンダ
1. イントロダクション
2. 関連研究
3. Fully Convolutional Masked Autoencoder
4. Global Response Normalization
5. ImageNet 実験
6. 転移学習実験
7. 結論
3

１. イントロダクション
イントロダクション
4
• 事前学習された大規模な画像認識モデルは、特徴学習や様々な視覚アプリケーションを実現するための重要なツールとなっ
ている。そして、そのシステムの性能は、ニューラルネットワークアーキテクチャの選択、ネットワークの学習方法、訓練データ
の3つの主要因に大きく影響される。
• ConvNetsは、様々な画像認識タスクに汎用的な特徴学習法を利用できるようになったことで、コンピュータビジョン研
究に大きな影響を与えた。Transformer も、モデルやデータセットサイズに対する強力なスケーリング挙動により人気を
博している。さらに最近では、ConvNeXt アーキテクチャが従来の ConvNets を近代化し、畳み込みモデルもスケーラ
ブルなアーキテクチャになり得ることを実証している。
• しかし、ニューラルネットワークアーキテクチャの設計空間を探索する最も一般的な方法は、依然としてImageNet上で
の教師あり学習によるものである。
ニューラルネットワークアーキテクチャの選択

１. イントロダクション
5
• 画像認識の学習の焦点は、教師あり学習から、自己教師あり事前学習へと移行している。特に、Masked
Autoencoders (MAE) は、急速に画像認識学習のための一般的なアプローチになった。
• しかし、自己教師あり学習では、教師あり学習用に設計されたアーキテクチャを用い、デサインが固定されている。例えば、
MAEはVision Transformerを用いて開発されている。
• アーキテクチャと自己教師あり学習フレームワークの設計要素を組み合わせることは可能であるが、ConvNeXtとMAEを
併用する場合、困難な場合がある。
① MAEがTransformerのシーケンス処理能力に最適化された特定のエンコーダ・デコーダ設計を持っていることで、計算
負荷の高いエンコーダが可視パッチに集中できるようになり、事前学習コストが削減される。この設計は、高密度のスラ
イディングウィンドウを使用する標準的な ConvNets とは相容れない。
② アーキテクチャと学習目的の関係を考慮しないと、最適な性能が得られるかどうかが不明確になる。
ConvNeXtモデルに対してマスクベースの自己教師あり学習を有効にし、
ネットワークアーキテクチャとMAEを同一のフレームワークで設計することを検討。
イントロダクション

２. 関連研究
ConvNets
6
• 1980年代に初めて導入され、バックプロパゲーションを用いて学習されたConvNetsの設計は、長年にわたり、最適化、
精度、効率の面で多くの改善を受けてきた。
• これらの技術革新は、主にImageNetデータセットに対する教師あり学習を用いて発見された。
ConvNeXt
• ConvNet の設計空間を再検討したもの。
• Vision Transformer と同等の拡張性を持ちうることを示した。
• 特に低複雑度を必要とするシナリオで優れている。
出典：https://arxiv.org/pdf/2201.03545.pdf

２. 関連研究
MAE（マスクドオートエンコーダ）
7
• 最新の自己教師あり学習戦略の1つ。事前学習フレームワークとし
て、画像認識において幅広い影響を及ぼしている。
• しかし、オリジナルのMAEは、その非対称なエンコーダ・デコーダの設
計により、ConvNetsに直接適用することができない。MCMAE は
いくつかの畳み込みブロックを入力トークン化器として使用する。
• バッチに分割された入力画像の一部にランダムマスク処理を行い、マスクされていないパッチのみ入力。
エンコーダ
• エンコードされたパッチトークンとマスクトークンを入力。
• このマスクトークンは、学習可能なパラメータであり、全マスクトークンで共有されている。
• マスクトークンは画像内の位置に関する情報を持たせるためにデコーダにおいても各トークンに位置埋め込みを行う。
デコーダ
出典：https://arxiv.org/pdf/2111.06377.pdf

２. 関連研究
8
• MAEは、シーケンシャルなデータを処理するTransformer との組み合わせに最適に設計されているので、
ConvNets と併用するには計算コストがかかり過ぎる。
• スライディングウィンドウの仕組みから ConvNets と相性の悪い設計になっている可能性がある。
従来のMAEの課題
• マスクベースの自己教師あり学習を有効にし、Transformer を用いた場合と同様の結果を得ることを目的として、
ネットワークアーキテクチャとマスクドオートエンコーダを同一のフレームワークで設計することを提案。
ConvNeXt V2
• ConvNeXt の様々な訓練構成について、特徴空間分析を行った。
• その結果、マスクされた入力に対して、直接 ConvNeXt を訓練した場合、特徴量の崩壊の可能性があること
がわかった。
⇒ グローバル応答正規化層（Grobal Response Normalization）
チャネル間特徴量の競合関係を強調。

３. Fully Convolutional Masked Autoencoder
9
Fully Convolutional Masked Autoencoder（FCMAE）
• FCMAEは sparse convolution に基づく ConvNeXt
エンコーダと軽量の ConvNeXt ブロックデコーダから構成さ
れる。
• このオートエンコーダのアーキテクチャは非対称である。
• エンコーダは可視画素のみを処理し、デコーダは符号化され
た画素とマスクトークンを用いて画像を再構成する。損失は
マスクされた領域に対してのみ計算される。
マスキング
• 32×32のパッチのうち、60%をランダムにマスキングする。
• 畳み込みモデルは階層的に設計。異なるステージで特徴がダウンサンプリングされ、マスクは最終ステージで生成。
• 最も細かな解像度まで再帰的にアップサンプリングする。
• パッチを入力画像から抽出する。データ拡張は、最小限でランダムリサイズクロッピングのみ。

10
エンコーダの設計
• ConvNeXt モデルをエンコーダとして使用。
• マスク画像のモデリングの課題は、モデルがマスクされた領域から情報をコピー＆ペーストできるようなショートカットを学
習しないようにすること。Transformer ベースのモデルでは、エンコーダへの入力として可視パッチを残すことができる
ため、比較的容易に実現できる。
• しかし、ConvNets では、2次元の画像構造を保持する必要があるため、困難である。
• 入力側に学習可能なマスクトークンを導入する方法は、事前学習の効率を下げ、テスト時にはマスクトークンが存在
しないため、学習時とテスト時の矛盾が発生する。これは、特にマスキング率が高い場合に問題となる。
• この問題に対して、3Dの sparse point clouds の「sparse data perspective」における学習からヒントを得た。
• マスクされた画像はピクセルの2次元空間における sparse 配列として表現できる。この洞察に基づき、sparse
conv layer を取り入れる。
• 実際には、事前学習中に、エンコーダの標準的な畳み込み層を、submanifold sparse convolutionに変換する
ことを提案。これにより、モデルは可視データ点のみに対して動作することができる。

11
デコーダの設計
• デコーダには軽量でプレーンな ConvNeXt ブロックを使用。
• エンコーダがデコーダより重く、階層を持つため、全体として非対称なアーキテクチャを形成している。
• 階層型デコーダやTransformerなどのより複雑なデコーダも検討したが、より単純な単一 ConvNeXt ブロックデコーダ
はFine-turningの精度の面で良好で、事前学習時間を大幅に短縮した。デコーダの次元は512に設定。
※grayでハイライトされている条件を採用
表１ MAE decoder ablation experiments

12
FCMAE
• 上記を組み合わせることで、Fully Convolutional Masked Autoencoder（FCMAE）を提案。
• ImageNet-1Kデータセットを用いて、それぞれ800エポックと100エポックの事前学習とFine-turningを行い、単一
の224×224センタークロップに対するImageNet-1K検証のトップ1の精度を検証。
• FCMAEのフレームワークでsparse conv layerを有無のパターンで比較し、 sparse conv layer の効果を実証。
再構成対象
• 再構成された画像とターゲット画像の間の平均二乗誤差（MSE）を計算する。
• MAEと同様に、ターゲットは元の入力のパッチ単位で正規化した画像であり、損失はマスクされたパッチにのみ適用される。

13
• 次に、教師あり学習と自己教師あり学習を比較。
• 教師あり100エポックベースラインと、ConvNeXt のオリジナル論文で提供された300エポック教師あり学習ベースライン
の2つのベースライン実験結果を得た。
• その結果、FCMAEの事前学習はランダムなベースラインよりも良い初期化（すなわち、82.7 → 83.7）を提供するが、
オリジナルの教師あり設定で得られた最高の性能には劣ることがわかった。

４. Global Response Normalization
14
Global Response Normalization
• ConvNeXtアーキテクチャと組み合わせてFCMAE事前学習をより効果的に行うための新しい技術 Global Response
Normalization（GRN）を提案。
特徴崩壊（Feature collapse）
• 学習挙動をより深く理解するために、特徴空間における定性的な解析を行った。
• FCMAEで事前学習したConvNeXt-Baseモデルの活性度を可視化したところ、消失したり、飽和した特徴マップが多く、
活性度がチャネル間で冗長になっていた。この挙動は、主にConvNeXtブロックの次元拡張MLP層で観察された。
図３ Feature activation visualization
• 暗いpatchは特徴量が消失しており、
黄色のpatchは特徴量が飽和してい
ることを示す。ConvNeXtV1-Base
のモデルは、特徴量の多くが消滅もしく
は飽和してしている。

15
Feature cosine distance の解析
• 活性化テンソル 𝑋 ∈ 𝑅𝐻 ×𝑊 × 𝐶
が与えられたとき、𝑋𝑖 ∈ 𝑅𝐻×𝑊
は 𝑖 番目のチャネルの特徴マップである。これを 𝐻𝑊
次元ベクトルとして再形成し、チャンネル間の平均対コサイン距離を以下で計算する。
• ConvNeXt V1 FCMAEの事前学習済みモデルは、特徴崩壊の挙動を示していることがわかる。
• 教師ありモデルでは、特徴の多様性が減少しているが、最終層のみである。これは、クロスエントロピー損失を用いることで、
クラス識別に有効な特徴量に着目し、それ以外の特徴量を抑制しているためと考えられる。
図４ Feature cosine distance analysis
• 距離の値が大きいほど、特徴の多様性が高いことを示し、小
さいほど特徴の冗長性を示す。
• ImageNet-1K検証セットを用いて、FCMAE モデル、
ConvNeXt 教師ありモデル、MAE事前学習済みViTモデ
ルなどを比較。
• 異なるモデルの各層から高次元特徴を抽出する。そして、各
画像の層ごとの距離を計算し、全画像の値を平均化する。

16
• 脳には、ニューロンの多様性を促進するメカニズムが数多く存在する。例えば、横方向の抑制は、活性化したニューロン
の反応を鮮明にし、刺激に対する個々のニューロンのコントラストと選択性を高めると同時に、ニューロンの集団全体の
反応の多様性を高めるのに役立つ。
• 深層学習では、このような横方向の抑制は、Response Normalization によって実装することができる。
• 本研究では、チャネルのコントラストと選択性を高めることを目的としたGlobal Response Normalization（GRN）
と呼ばれる新しいレイヤーを導入する。
• 入力特徴量 X ∈ 𝑅𝐻×𝑊×𝐶
が与えられると、提案するGRNユニットは3つのステップから構成される。
GRNのアプローチ
1) Global Feature Aggregation
2) Feature Normalization
3) Feature Calibration

17
• まず、空間特徴マップ𝑋𝑖をグローバル関数 𝐺(・) でベクトル 𝑔𝑥 に集約する。
• これは単純なプーリング層と見なすことができる。
• 特徴集約に広く用いられているGlobal average poolingは、うまく機能しなかった。
• 代わりに、ノルムベースの特徴集約、具体的には L2 ノルムを用いると、より良い性能になることが分かった。
１）Global Feature Aggregation
G(X) = gx = { 𝑋1 , 𝑋2 , … , 𝑋𝐶 } ∈ 𝑅𝐶
• これにより、集約された値の集合 𝐺 𝑋 = 𝑔𝑥 が得られる。
• G(𝑋)𝑖 = 𝑋𝑖 は 𝑖 番目のチャネルの統計量を集約したスカラー。

２） Feature Normalization
18
• 次に、集計した値に対して、response normalization 関数N()を適用する。
• 𝑋𝑖 は、𝑖 番目のチャネルの L2ノルムである。
• 他の正規化関数と比較し、単純な divisive normalization が最も効果的であることがわかったが、
標準化 ( 𝑋𝑖 − 𝜇)/𝜎 を適用しても同様の結果が得られることが確認された。

19
• 最後に、１）、２）で計算された特徴正規化スコアを用いて、元の入力応答をキャリブレーションする。
３）Feature Calibration
• GRNユニットのコアは、たった3行のコードで実装でき、学習可能なパラメータを持たないため、非常に簡単である。
• 最適化を容易にするために、2つの学習可能なパラメータ 𝛾、および 𝛽 を追加し、それらをゼロに初期化する。
• また、GRN 層の入力と出力の間に残差接続を追加する。（残差ありの方が精度が高い。）
• 最終的なGRNブロックは 𝑋𝑖 = 𝑋𝑖 ∗ 𝑁(𝐺(𝑋)𝑖) + 𝛽 + 𝑋𝑖 となる。

20
ConvNeXt V2 Block
• ConvNeXtのオリジナルブロックにGRN層を組み込む。
• GRNを適用すると LayerScale が不要になり、削除。
• この新しいブロック設計を用いて、ConvNeXt V2モデルフ
ァミリーを作成。軽量（例：Atto) から計算量の多いもの
（例：Huge）まで多岐にわたる。
図5.ConvNeXt Blockデザイン

21
GRNの効果
• FCMAEフレームワークを用いてConvNeXt V2を事前学習させ、GRNの効果を評価。
• 可視化とFeature cosine distanceから、コサイン距離の値は一貫して高く、層を超えて特徴の多様性が維持されて
おり、ConvNeXt V2は特徴量崩壊の問題を効果的に軽減していることがわかる。
• GRN をローカル応答正規化（LRN）、バッチ正規化（BN）、レイヤー
正規化（LN）と比較。
• GRNのみが教師ありベースラインを上回ることができた。LRNは近傍のチャ
ンネルを対比させるだけなので、グローバルなコンテキストを欠いている。
• BNはバッチ軸に沿って空間的に正規化するが、これはマスクされた入力に
は適さない。LNはグローバルな平均と分散の標準化を通じて暗黙のうちに
特徴の競合を促すが、GRNほどには機能しない。
Fine-turning性能の評価
• GRNを搭載したFCMAE事前学習モデルは、300エポックの教師ありモデルを超えることができる。

５. ImageNet 実験
22
共同設計の重要性
• ConvNeXtでは、アーキテクチャと学習フレームワークを共同
設計することで、マスク画像の事前学習が効果的に行われる。
• 800エポックFCMAE事前学習したモデルのファインチューニン
グ性能が右表。
• モデルサイズが大きくなるほど、相対的な改善度は大きくなる。
• 自己教師あり学習フレームワーク（FCMAE）とモデルアーキテクチャの改良（GRN層）の両者の学習動作を検証。
• モデルアーキテクチャを変更せずにFCMAEフレームワークを用いても、性能への影響は限定的であった。
• 同様に、新しいGRN層は教師ありの設定において、性能への影響がかなり小さい。しかし、この2つを組み合わせることで、
Fine-turningの性能が大幅に向上した。
⇒特に自己教師あり学習に関しては、モデルと学習フレームワークの両方を一緒に考えるべき。
ImageNet 実験
• ImageNet-1Kデータセット、ImageNet-22Kデータセットを用いて検証。

23
モデルのスケーリング
• 低容量の3.7M Attoモデルから高容量の650M Hugeモデ
ルまで、サイズの異なる 8 種類のモデルを評価。
• これらのモデルに対して、FCMAEフレームワークを用いて事前
学習を行い、教師ありのモデルと比較して、Fine-turningの
結果を比較した。
• その結果、すべてのモデルサイズにおいて、教師ありベースライン
よりも一貫して性能が向上し、強力なモデルスケーリング動作
が実証された。

24
既存モデルとの比較
• 既存モデル（すべてTransformerベースモデル）と比較。
• 事前学習データはImageNet-1K学習セットである。すべての
自己教師あり手法は、画像サイズ224でのエンドツーエンドの
Fine turning性能によってベンチマークされている。
• SimMIMで事前学習したSwin Transformerを、全てのモ
デルサイズにおいて上回った。MAEで事前学習したViTと比較
すると、より少ないパラメータ（198M対307M）にも関わらず、
Large model領域まで同様の性能を発揮することができる。
• しかし、巨大なモデル領域では、わずかに劣った。これは、巨大
なViTモデルが自己教師あり事前学習からより多くの益を得る
ことができるためと思われる。
表4. 過去のマスク画像モデリングアプローチとの比較

25
ImageNet-22K intermediate fine-tuning
以下の学習を実施。
1) FCMAEによるpre-training
2) ImageNet-22Kによるfine-tuning
3) ImageNet-1Kによるfine-tuning
• Pre-trainingとfine-tuningには、3842枚の解像度画像
を用いる。この結果を、畳み込みベース、トランスフォーマベー
ス、ハイブリッドデザインなど、最先端のアーキテクチャ設計と比
較。これらの結果は全てImageNet22Kの教師ありラベルで
学習させたものである。
表 5. IN-21Kラベルを用いたImageNet-1K fine-tuning
• FCMAE事前学習を搭載したConvNeXt V2 Hugeモデルは、他のアーキテクチャを凌駕し、公開データのみを用いた
手法の中で88.9%という最新の精度を達成。

６. 転移学習実験
26
COCO物体検出とインスタンスセグメンテーションの結果
• ConNeXt V2 + FCMAEの転移学習の性能を検証。
• SwinTransformer-Baseのモデルと比べて性能が向上
していることがわかる。
• COCOの fine-tuning 実験は全て ImageNet-1K の
事前学習済みモデルに依存する。
UPerNetを用いたADE20Kのセマンティックセグメンテーションの結果
• ADE20K datasetにおけるSemantic segmentationの
実行結果。
• SwinTransformerの結果と比較。
• Object Detection taskと同様、精度が向上。

7. 結論
まとめ
27
• ConvNeXtの改良モデルConvNeXt V2を提案。ConvNeXt V2は、自己教師あり学習に適したモデルとして
設計されており、そのアーキテクチャは最小限の変更に留まっている。
• ConvNeXtとMAEはアーキテクチャが大きく異なるため、feature collapseが発生してしまう。その解決として
Global Response Normalization（GRN）layerを加え、チャネル間の競合関係を強調することを提案。
• ImageNet classification、 COCO detection、 ADE20K segmentationなどのベンチマークを更新。

Appendix
参考文献
• Zhuang Liu, Hanzi Mao, Chao-Yuan Wu, Christoph Feichtenhofer,Trevor Darrell, and Saining Xie. A convnet for the
2020s. In CVPR, 2022.
• Christopher Choy, JunYoung Gwak, and Silvio Savarese. 4d spatio-temporal convnets: Minkowski convolutional neural
networks. In CVPR, 2019.
• Y. Jiang, L. Zhang, Z. Miao, X. Zhu, J. Gao, W. Hu, and Y.-G. Jiang, “Polarformer: Multi-camera 3d object detection with
polar transformer,” ArXiv, p. abs/2206.15398, 2022.
• Ross Girshick, Jeff Donahue, Trevor Darrell, and Jitendra Malik. Rich feature hierarchies for accurate object detection and
semantic segmentation. In CVPR, 2014.
• Kaiming He, Georgia Gkioxari, Piotr Doll´ar, and Ross Girshick. Mask R-CNN. In ICCV, 2017.
• Qilong Wang, Banggu Wu, Pengfei Zhu, Peihua Li, Wangmeng Zuo, and Qinghua Hu. Eca-net: Efficient channel attention
for deep convolutional neural networks. In CVPR, 2020.
• Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa
Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, Jakob Uszkoreit, and Neil Houlsby. An image is worth 16x16
words: Transformers for image recognition at scale. In ICLR, 2021.
28

【DL輪読会】ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to 【DL輪読会】ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders

Similar to 【DL輪読会】ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders (20)

More from Deep Learning JP

More from Deep Learning JP (20)

Recently uploaded

Recently uploaded (7)

【DL輪読会】ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders