SlideShare a Scribd company logo
1 of 28
Download to read offline
http://deeplearning.jp/
ConvNeXt V2: Co-designing and Scaling ConvNets with
Masked Autoencoders
小林 範久 Present Square Co.,Ltd.
DEEP LEARNING JP
[DL Papers]
1
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
書誌情報
ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders
https://arxiv.org/abs/2301.00808
タイトル:
著者: Sanghyun Woo, Shoubhik Debnath, Ronghang Hu, Xinlei Chen, Zhuang Liu, In So
Kweon, Saining Xie
• ConvNeXtの改良モデルConvNeXt V2を提案。ConvNeXtに、自己教師あり学習である Masked
Autoencoders(MAE)を結合。
• ConvNeXtとMAEはアーキテクチャが大きく異なるため、feature collapseが発生してしまう。その解決として
Global Response Normalization(GRN)layerを加え、チャネル間の競合関係を強調することを提案。
• ImageNet classification、COCO detection、 ADE20K segmentationなどのベンチマークを更新。
概要:
2
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
アジェンダ
1. イントロダクション
2. 関連研究
3. Fully Convolutional Masked Autoencoder
4. Global Response Normalization
5. ImageNet 実験
6. 転移学習 実験
7. 結論
3
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
1. イントロダクション
イントロダクション
4
• 事前学習された大規模な画像認識モデルは、特徴学習や様々な視覚アプリケーションを実現するための重要なツールとなっ
ている。そして、そのシステムの性能は、ニューラルネットワークアーキテクチャの選択、ネットワークの学習方法、訓練データ
の3つの主要因に大きく影響される。
• ConvNetsは、様々な画像認識タスクに汎用的な特徴学習法を利用できるようになったことで、コンピュータビジョン研
究に大きな影響を与えた。Transformer も、モデルやデータセットサイズに対する強力なスケーリング挙動により人気を
博している。さらに最近では、ConvNeXt アーキテクチャが従来の ConvNets を近代化し、畳み込みモデルもスケーラ
ブルなアーキテクチャになり得ることを実証している。
• しかし、ニューラルネットワークアーキテクチャの設計空間を探索する最も一般的な方法は、依然としてImageNet上で
の教師あり学習によるものである。
ニューラルネットワークアーキテクチャの選択
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
1. イントロダクション
5
• 画像認識の学習の焦点は、教師あり学習から、自己教師あり事前学習へと移行している。特に、Masked
Autoencoders (MAE) は、急速に画像認識学習のための一般的なアプローチになった。
• しかし、自己教師あり学習では、教師あり学習用に設計されたアーキテクチャを用い、デサインが固定されている。例えば、
MAEはVision Transformerを用いて開発されている。
• アーキテクチャと自己教師あり学習フレームワークの設計要素を組み合わせることは可能であるが、ConvNeXtとMAEを
併用する場合、困難な場合がある。
① MAEがTransformerのシーケンス処理能力に最適化された特定のエンコーダ・デコーダ設計を持っていることで、計算
負荷の高いエンコーダが可視パッチに集中できるようになり、事前学習コストが削減される。この設計は、高密度のスラ
イディングウィンドウを使用する標準的な ConvNets とは相容れない。
② アーキテクチャと学習目的の関係を考慮しないと、最適な性能が得られるかどうかが不明確になる。
ConvNeXtモデルに対してマスクベースの自己教師あり学習を有効にし、
ネットワークアーキテクチャとMAEを同一のフレームワークで設計することを検討。
イントロダクション
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
2. 関連研究
ConvNets
6
• 1980年代に初めて導入され、バックプロパゲーションを用いて学習されたConvNetsの設計は、長年にわたり、最適化、
精度、効率の面で多くの改善を受けてきた。
• これらの技術革新は、主にImageNetデータセットに対する教師あり学習を用いて発見された。
ConvNeXt
• ConvNet の設計空間を再検討したもの。
• Vision Transformer と同等の拡張性を持ちうることを示した。
• 特に低複雑度を必要とするシナリオで優れている。
出典:https://arxiv.org/pdf/2201.03545.pdf
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
2. 関連研究
MAE(マスクドオートエンコーダ)
7
• 最新の自己教師あり学習戦略の1つ。事前学習フレームワークとし
て、画像認識において幅広い影響を及ぼしている。
• しかし、オリジナルのMAEは、その非対称なエンコーダ・デコーダの設
計により、ConvNetsに直接適用することができない。MCMAE は
いくつかの畳み込みブロックを入力トークン化器として使用する。
• バッチに分割された入力画像の一部にランダムマスク処理を行い、マスクされていないパッチのみ入力。
エンコーダ
• エンコードされたパッチトークンとマスクトークンを入力。
• このマスクトークンは、学習可能なパラメータであり、全マスクトークンで共有されている。
• マスクトークンは画像内の位置に関する情報を持たせるためにデコーダにおいても各トークンに位置埋め込みを行う。
デコーダ
出典:https://arxiv.org/pdf/2111.06377.pdf
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
2. 関連研究
8
• MAEは、シーケンシャルなデータを処理するTransformer との組み合わせに最適に設計されているので、
ConvNets と併用するには計算コストがかかり過ぎる。
• スライディングウィンドウの仕組みから ConvNets と相性の悪い設計になっている可能性がある。
従来のMAEの課題
• マスクベースの自己教師あり学習を有効にし、Transformer を用いた場合と同様の結果を得ることを目的として、
ネットワークアーキテクチャ と マスクドオートエンコーダを同一のフレームワークで設計することを提案。
ConvNeXt V2
• ConvNeXt の様々な訓練構成について、特徴空間分析を行った。
• その結果、マスクされた入力に対して、直接 ConvNeXt を訓練した場合、特徴量の崩壊の可能性があること
がわかった。
⇒ グローバル応答正規化層(Grobal Response Normalization)
チャネル間特徴量の競合関係を強調。
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
3. Fully Convolutional Masked Autoencoder
9
Fully Convolutional Masked Autoencoder(FCMAE)
• FCMAEは sparse convolution に基づく ConvNeXt
エンコーダと軽量の ConvNeXt ブロックデコーダから構成さ
れる。
• このオートエンコーダのアーキテクチャは非対称である。
• エンコーダは可視画素のみを処理し、デコーダは符号化され
た画素とマスクトークンを用いて画像を再構成する。損失は
マスクされた領域に対してのみ計算される。
マスキング
• 32×32のパッチのうち、60%をランダムにマスキングする。
• 畳み込みモデルは階層的に設計。異なるステージで特徴がダウンサンプリングされ、マスクは最終ステージで生成。
• 最も細かな解像度まで再帰的にアップサンプリングする。
• パッチを入力画像から抽出する。データ拡張は、最小限でランダムリサイズクロッピングのみ。
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
3. Fully Convolutional Masked Autoencoder
10
Fully Convolutional Masked Autoencoder(FCMAE)
エンコーダの設計
• ConvNeXt モデルをエンコーダとして使用。
• マスク画像のモデリングの課題は、モデルがマスクされた領域から情報をコピー&ペーストできるようなショートカットを学
習しないようにすること。Transformer ベースのモデルでは、エンコーダへの入力として可視パッチを残すことができる
ため、比較的容易に実現できる。
• しかし、ConvNets では、2次元の画像構造を保持する必要があるため、困難である。
• 入力側に学習可能なマスクトークンを導入する方法は、事前学習の効率を下げ、テスト時にはマスクトークンが存在
しないため、学習時とテスト時の矛盾が発生する。これは、特にマスキング率が高い場合に問題となる。
• この問題に対して、3Dの sparse point clouds の 「sparse data perspective」における学習からヒントを得た。
• マスクされた画像はピクセルの2次元空間における sparse 配列として表現できる。この洞察に基づき、sparse
conv layer を取り入れる。
• 実際には、事前学習中に、エンコーダの標準的な畳み込み層を、submanifold sparse convolutionに変換する
ことを提案。これにより、モデルは可視データ点のみに対して動作することができる。
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
3. Fully Convolutional Masked Autoencoder
11
Fully Convolutional Masked Autoencoder(FCMAE)
デコーダの設計
• デコーダには軽量でプレーンな ConvNeXt ブロックを使用。
• エンコーダがデコーダより重く、階層を持つため、全体として非対称なアーキテクチャを形成している。
• 階層型デコーダやTransformerなどのより複雑なデコーダも検討したが、より単純な単一 ConvNeXt ブロックデコーダ
はFine-turningの精度の面で良好で、事前学習時間を大幅に短縮した。デコーダの次元は512に設定。
※grayでハイライトされている条件を採用
表1 MAE decoder ablation experiments
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
3. Fully Convolutional Masked Autoencoder
12
Fully Convolutional Masked Autoencoder(FCMAE)
FCMAE
• 上記を組み合わせることで、Fully Convolutional Masked Autoencoder(FCMAE)を提案。
• ImageNet-1Kデータセットを用いて、それぞれ800エポックと100エポックの事前学習とFine-turningを行い、単一
の224×224センタークロップに対するImageNet-1K検証のトップ1の精度を検証。
• FCMAEのフレームワークでsparse conv layerを有無のパターンで比較し、 sparse conv layer の効果を実証。
再構成対象
• 再構成された画像とターゲット画像の間の平均二乗誤差(MSE)を計算する。
• MAEと同様に、ターゲットは元の入力のパッチ単位で正規化した画像であり、損失はマスクされたパッチにのみ適用される。
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
3. Fully Convolutional Masked Autoencoder
13
Fully Convolutional Masked Autoencoder(FCMAE)
• 次に、教師あり学習と自己教師あり学習を比較。
• 教師あり100エポックベースラインと、ConvNeXt のオリジナル論文で提供された300エポック教師あり学習ベースライン
の2つのベースライン実験結果を得た。
• その結果、FCMAEの事前学習はランダムなベースラインよりも良い初期化(すなわち、82.7 → 83.7)を提供するが、
オリジナルの教師あり設定で得られた最高の性能には劣ることがわかった。
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
4. Global Response Normalization
14
Global Response Normalization
• ConvNeXtアーキテクチャと組み合わせてFCMAE事前学習をより効果的に行うための新しい技術 Global Response
Normalization(GRN)を提案。
特徴崩壊(Feature collapse)
• 学習挙動をより深く理解するために、特徴空間における定性的な解析を行った。
• FCMAEで事前学習したConvNeXt-Baseモデルの活性度を可視化したところ、消失したり、飽和した特徴マップが多く、
活性度がチャネル間で冗長になっていた。この挙動は、主にConvNeXtブロックの次元拡張MLP層で観察された。
図3 Feature activation visualization
• 暗いpatchは特徴量が消失しており、
黄色のpatchは特徴量が飽和してい
ることを示す。ConvNeXtV1-Base
のモデルは、特徴量の多くが消滅もしく
は飽和してしている。
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
4. Global Response Normalization
15
Feature cosine distance の解析
• 活性化テンソル 𝑋 ∈ 𝑅𝐻 ×𝑊 × 𝐶
が与えられたとき、𝑋𝑖 ∈ 𝑅𝐻×𝑊
は 𝑖 番目のチャネルの特徴マップである。これを 𝐻𝑊
次元ベクトルとして再形成し、チャンネル間の平均対コサイン距離を 以下で計算する。
• ConvNeXt V1 FCMAEの事前学習済みモデルは、特徴崩壊の挙動を示していることがわかる。
• 教師ありモデルでは、特徴の多様性が減少しているが、最終層のみである。これは、クロスエントロピー損失を用いることで、
クラス識別に有効な特徴量に着目し、それ以外の特徴量を抑制しているためと考えられる。
図4 Feature cosine distance analysis
• 距離の値が大きいほど、特徴の多様性が高いことを示し、小
さいほど特徴の冗長性を示す。
• ImageNet-1K検証セットを用いて、FCMAE モデル、
ConvNeXt 教師ありモデル、MAE事前学習済みViTモデ
ルなどを比較。
• 異なるモデルの各層から高次元特徴を抽出する。そして、各
画像の層ごとの距離を計算し、全画像の値を平均化する。
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
4. Global Response Normalization
16
• 脳には、ニューロンの多様性を促進するメカニズムが数多く存在する。例えば、横方向の抑制は、活性化したニューロン
の反応を鮮明にし、刺激に対する個々のニューロンのコントラストと選択性を高めると同時に、ニューロンの集団全体の
反応の多様性を高めるのに役立つ。
• 深層学習では、このような横方向の抑制は、Response Normalization によって実装することができる。
• 本研究では、チャネルのコントラストと選択性を高めることを目的としたGlobal Response Normalization(GRN)
と呼ばれる新しいレイヤーを導入する。
• 入力特徴量 X ∈ 𝑅𝐻×𝑊×𝐶
が与えられると、提案するGRNユニットは3つのステップから構成される。
GRNのアプローチ
1) Global Feature Aggregation
2) Feature Normalization
3) Feature Calibration
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
4. Global Response Normalization
17
• まず、空間特徴マップ𝑋𝑖をグローバル関数 𝐺(・) でベクトル 𝑔𝑥 に集約する。
• これは単純なプーリング層と見なすことができる。
• 特徴集約に広く用いられているGlobal average poolingは、うまく機能しなかった。
• 代わりに、ノルムベースの特徴集約、具体的には L2 ノルムを用いると、より良い性能になることが分かった。
GRNのアプローチ
1)Global Feature Aggregation
G(X) = gx = { 𝑋1 , 𝑋2 , … , 𝑋𝐶 } ∈ 𝑅𝐶
• これにより、集約された値の集合 𝐺 𝑋 = 𝑔𝑥 が得られる。
• G(𝑋)𝑖 = 𝑋𝑖 は 𝑖 番目のチャネルの統計量を集約したスカラー。
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
2) Feature Normalization
4. Global Response Normalization
18
GRNのアプローチ
• 次に、集計した値に対して、response normalization 関数N()を適用する。
• 𝑋𝑖 は、𝑖 番目のチャネルの L2ノルムである。
• 他の正規化関数と比較し、単純な divisive normalization が最も効果的であることがわかったが、
標準化 ( 𝑋𝑖 − 𝜇)/𝜎 を適用しても同様の結果が得られることが確認された。
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
4. Global Response Normalization
19
GRNのアプローチ
• 最後に、1)、2)で計算された特徴正規化スコアを用いて、元の入力応答をキャリブレーションする。
3)Feature Calibration
• GRNユニットのコアは、たった3行のコードで実装でき、学習可能なパラメータを持たないため、非常に簡単である。
• 最適化を容易にするために、2つの学習可能なパラメータ 𝛾、および 𝛽 を追加し、それらをゼロに初期化する。
• また、GRN 層の入力と出力の間に残差接続を追加する。(残差ありの方が精度が高い。)
• 最終的なGRNブロックは 𝑋𝑖 = 𝑋𝑖 ∗ 𝑁(𝐺(𝑋)𝑖) + 𝛽 + 𝑋𝑖 となる。
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
4. Global Response Normalization
20
ConvNeXt V2 Block
• ConvNeXtのオリジナルブロックにGRN層を組み込む。
• GRNを適用すると LayerScale が不要になり、削除。
• この新しいブロック設計を用いて、ConvNeXt V2モデルフ
ァミリーを作成。軽量(例:Atto) から計算量の多いもの
(例:Huge)まで多岐にわたる。
図5.ConvNeXt Blockデザイン
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
4. Global Response Normalization
21
GRNの効果
• FCMAEフレームワークを用いてConvNeXt V2を事前学習させ、GRNの効果を評価。
• 可視化とFeature cosine distanceから、コサイン距離の値は一貫して高く、層を超えて特徴の多様性が維持されて
おり、ConvNeXt V2は特徴量崩壊の問題を効果的に軽減していることがわかる。
• GRN を ローカル応答正規化(LRN)、バッチ正規化(BN)、レイヤー
正規化(LN)と比較。
• GRNのみが教師ありベースラインを上回ることができた。LRNは近傍のチャ
ンネルを対比させるだけなので、グローバルなコンテキストを欠いている。
• BNはバッチ軸に沿って空間的に正規化するが、これはマスクされた入力に
は適さない。LNはグローバルな平均と分散の標準化を通じて暗黙のうちに
特徴の競合を促すが、GRNほどには機能しない。
Fine-turning性能の評価
• GRNを搭載したFCMAE事前学習モデルは、300エポックの教師ありモデルを超えることができる。
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
5. ImageNet 実験
22
共同設計の重要性
• ConvNeXtでは、アーキテクチャと学習フレームワークを共同
設計することで、マスク画像の事前学習が効果的に行われる。
• 800エポックFCMAE事前学習したモデルのファインチューニン
グ性能が右表。
• モデルサイズが大きくなるほど、相対的な改善度は大きくなる。
• 自己教師あり学習フレームワーク(FCMAE)とモデルアーキテクチャの改良(GRN層)の両者の学習動作を検証。
• モデルアーキテクチャを変更せずにFCMAEフレームワークを用いても、性能への影響は限定的であった。
• 同様に、新しいGRN層は教師ありの設定において、性能への影響がかなり小さい。しかし、この2つを組み合わせることで、
Fine-turningの性能が大幅に向上した。
⇒特に自己教師あり学習に関しては、モデルと学習フレームワークの両方を一緒に考えるべき。
ImageNet 実験
• ImageNet-1Kデータセット、ImageNet-22Kデータセットを用いて検証。
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
5. ImageNet 実験
23
モデルのスケーリング
• 低容量の3.7M Attoモデルから高容量の650M Hugeモデ
ルまで、サイズの異なる 8 種類のモデルを評価。
• これらのモデルに対して、FCMAEフレームワークを用いて事前
学習を行い、教師ありのモデルと比較して、Fine-turningの
結果を比較した。
• その結果、すべてのモデルサイズにおいて、教師ありベースライン
よりも一貫して性能が向上し、強力なモデルスケーリング動作
が実証された。
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
5. ImageNet 実験
24
既存モデルとの比較
• 既存モデル(すべてTransformerベースモデル)と比較。
• 事前学習データはImageNet-1K学習セットである。すべての
自己教師あり手法は、画像サイズ224でのエンドツーエンドの
Fine turning性能によってベンチマークされている。
• SimMIMで事前学習したSwin Transformerを、全てのモ
デルサイズにおいて上回った。MAEで事前学習したViTと比較
すると、より少ないパラメータ(198M対307M)にも関わらず、
Large model領域まで同様の性能を発揮することができる。
• しかし、巨大なモデル領域では、わずかに劣った。これは、巨大
なViTモデルが自己教師あり事前学習からより多くの益を得る
ことができるためと思われる。
表4. 過去のマスク画像モデリングアプローチとの比較
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
5. ImageNet 実験
25
ImageNet-22K intermediate fine-tuning
以下の学習を実施。
1) FCMAEによるpre-training
2) ImageNet-22Kによるfine-tuning
3) ImageNet-1Kによるfine-tuning
• Pre-trainingとfine-tuningには、3842枚の解像度画像
を用いる。この結果を、畳み込みベース、トランスフォーマベー
ス、ハイブリッドデザインなど、最先端のアーキテクチャ設計と比
較。これらの結果は全てImageNet22Kの教師ありラベルで
学習させたものである。
表 5. IN-21Kラベルを用いたImageNet-1K fine-tuning
• FCMAE事前学習を搭載したConvNeXt V2 Hugeモデルは、他のアーキテクチャを凌駕し、公開データのみを用いた
手法の中で88.9%という最新の精度を達成。
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
6. 転移学習実験
26
COCO物体検出とインスタンスセグメンテーションの結果
• ConNeXt V2 + FCMAEの転移学習の性能を検証。
• SwinTransformer-Baseのモデルと比べて性能が向上
していることがわかる。
• COCOの fine-tuning 実験は全て ImageNet-1K の
事前学習済みモデルに依存する。
UPerNetを用いたADE20Kのセマンティックセグメンテーションの結果
• ADE20K datasetにおけるSemantic segmentationの
実行結果。
• SwinTransformerの結果と比較。
• Object Detection taskと同様、精度が向上。
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
7. 結論
まとめ
27
• ConvNeXtの改良モデルConvNeXt V2を提案。ConvNeXt V2は、自己教師あり学習に適したモデルとして
設計されており、そのアーキテクチャは最小限の変更に留まっている。
• ConvNeXtとMAEはアーキテクチャが大きく異なるため、feature collapseが発生してしまう。その解決として
Global Response Normalization(GRN)layerを加え、チャネル間の競合関係を強調することを提案。
• ImageNet classification、 COCO detection、 ADE20K segmentationなどのベンチマークを更新。
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
Appendix
参考文献
• Zhuang Liu, Hanzi Mao, Chao-Yuan Wu, Christoph Feichtenhofer,Trevor Darrell, and Saining Xie. A convnet for the
2020s. In CVPR, 2022.
• Christopher Choy, JunYoung Gwak, and Silvio Savarese. 4d spatio-temporal convnets: Minkowski convolutional neural
networks. In CVPR, 2019.
• Y. Jiang, L. Zhang, Z. Miao, X. Zhu, J. Gao, W. Hu, and Y.-G. Jiang, “Polarformer: Multi-camera 3d object detection with
polar transformer,” ArXiv, p. abs/2206.15398, 2022.
• Ross Girshick, Jeff Donahue, Trevor Darrell, and Jitendra Malik. Rich feature hierarchies for accurate object detection and
semantic segmentation. In CVPR, 2014.
• Kaiming He, Georgia Gkioxari, Piotr Doll´ar, and Ross Girshick. Mask R-CNN. In ICCV, 2017.
• Qilong Wang, Banggu Wu, Pengfei Zhu, Peihua Li, Wangmeng Zuo, and Qinghua Hu. Eca-net: Efficient channel attention
for deep convolutional neural networks. In CVPR, 2020.
• Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa
Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, Jakob Uszkoreit, and Neil Houlsby. An image is worth 16x16
words: Transformers for image recognition at scale. In ICLR, 2021.
28

More Related Content

What's hot

【DL輪読会】"Instant Neural Graphics Primitives with a Multiresolution Hash Encoding"
【DL輪読会】"Instant Neural Graphics Primitives with a Multiresolution Hash Encoding"【DL輪読会】"Instant Neural Graphics Primitives with a Multiresolution Hash Encoding"
【DL輪読会】"Instant Neural Graphics Primitives with a Multiresolution Hash Encoding"Deep Learning JP
 
自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)cvpaper. challenge
 
[DL輪読会]SlowFast Networks for Video Recognition
[DL輪読会]SlowFast Networks for Video Recognition[DL輪読会]SlowFast Networks for Video Recognition
[DL輪読会]SlowFast Networks for Video RecognitionDeep Learning JP
 
PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門tmtm otm
 
畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化Yusuke Uchida
 
[DL輪読会]MetaFormer is Actually What You Need for Vision
[DL輪読会]MetaFormer is Actually What You Need for Vision[DL輪読会]MetaFormer is Actually What You Need for Vision
[DL輪読会]MetaFormer is Actually What You Need for VisionDeep Learning JP
 
【DL輪読会】Flow Matching for Generative Modeling
【DL輪読会】Flow Matching for Generative Modeling【DL輪読会】Flow Matching for Generative Modeling
【DL輪読会】Flow Matching for Generative ModelingDeep Learning JP
 
【メタサーベイ】Neural Fields
【メタサーベイ】Neural Fields【メタサーベイ】Neural Fields
【メタサーベイ】Neural Fieldscvpaper. challenge
 
Generative Models(メタサーベイ )
Generative Models(メタサーベイ )Generative Models(メタサーベイ )
Generative Models(メタサーベイ )cvpaper. challenge
 
モデル高速化百選
モデル高速化百選モデル高速化百選
モデル高速化百選Yusuke Uchida
 
[DL輪読会]Transframer: Arbitrary Frame Prediction with Generative Models
[DL輪読会]Transframer: Arbitrary Frame Prediction with Generative Models[DL輪読会]Transframer: Arbitrary Frame Prediction with Generative Models
[DL輪読会]Transframer: Arbitrary Frame Prediction with Generative ModelsDeep Learning JP
 
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State SpacesDeep Learning JP
 
[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative Models[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative ModelsDeep Learning JP
 
【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習cvpaper. challenge
 
猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoderSho Tatsuno
 
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion  for Generation and Editing[DL輪読会]GLIDE: Guided Language to Image Diffusion  for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and EditingDeep Learning JP
 
これからの Vision & Language ~ Acadexit した4つの理由
これからの Vision & Language ~ Acadexit した4つの理由これからの Vision & Language ~ Acadexit した4つの理由
これからの Vision & Language ~ Acadexit した4つの理由Yoshitaka Ushiku
 
【DL輪読会】The Forward-Forward Algorithm: Some Preliminary
【DL輪読会】The Forward-Forward Algorithm: Some Preliminary【DL輪読会】The Forward-Forward Algorithm: Some Preliminary
【DL輪読会】The Forward-Forward Algorithm: Some PreliminaryDeep Learning JP
 
[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習Deep Learning JP
 
[DL輪読会]Progressive Growing of GANs for Improved Quality, Stability, and Varia...
[DL輪読会]Progressive Growing of GANs for Improved Quality, Stability, and Varia...[DL輪読会]Progressive Growing of GANs for Improved Quality, Stability, and Varia...
[DL輪読会]Progressive Growing of GANs for Improved Quality, Stability, and Varia...Deep Learning JP
 

What's hot (20)

【DL輪読会】"Instant Neural Graphics Primitives with a Multiresolution Hash Encoding"
【DL輪読会】"Instant Neural Graphics Primitives with a Multiresolution Hash Encoding"【DL輪読会】"Instant Neural Graphics Primitives with a Multiresolution Hash Encoding"
【DL輪読会】"Instant Neural Graphics Primitives with a Multiresolution Hash Encoding"
 
自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)
 
[DL輪読会]SlowFast Networks for Video Recognition
[DL輪読会]SlowFast Networks for Video Recognition[DL輪読会]SlowFast Networks for Video Recognition
[DL輪読会]SlowFast Networks for Video Recognition
 
PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門
 
畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化
 
[DL輪読会]MetaFormer is Actually What You Need for Vision
[DL輪読会]MetaFormer is Actually What You Need for Vision[DL輪読会]MetaFormer is Actually What You Need for Vision
[DL輪読会]MetaFormer is Actually What You Need for Vision
 
【DL輪読会】Flow Matching for Generative Modeling
【DL輪読会】Flow Matching for Generative Modeling【DL輪読会】Flow Matching for Generative Modeling
【DL輪読会】Flow Matching for Generative Modeling
 
【メタサーベイ】Neural Fields
【メタサーベイ】Neural Fields【メタサーベイ】Neural Fields
【メタサーベイ】Neural Fields
 
Generative Models(メタサーベイ )
Generative Models(メタサーベイ )Generative Models(メタサーベイ )
Generative Models(メタサーベイ )
 
モデル高速化百選
モデル高速化百選モデル高速化百選
モデル高速化百選
 
[DL輪読会]Transframer: Arbitrary Frame Prediction with Generative Models
[DL輪読会]Transframer: Arbitrary Frame Prediction with Generative Models[DL輪読会]Transframer: Arbitrary Frame Prediction with Generative Models
[DL輪読会]Transframer: Arbitrary Frame Prediction with Generative Models
 
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
 
[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative Models[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative Models
 
【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習
 
猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder
 
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion  for Generation and Editing[DL輪読会]GLIDE: Guided Language to Image Diffusion  for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
 
これからの Vision & Language ~ Acadexit した4つの理由
これからの Vision & Language ~ Acadexit した4つの理由これからの Vision & Language ~ Acadexit した4つの理由
これからの Vision & Language ~ Acadexit した4つの理由
 
【DL輪読会】The Forward-Forward Algorithm: Some Preliminary
【DL輪読会】The Forward-Forward Algorithm: Some Preliminary【DL輪読会】The Forward-Forward Algorithm: Some Preliminary
【DL輪読会】The Forward-Forward Algorithm: Some Preliminary
 
[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習
 
[DL輪読会]Progressive Growing of GANs for Improved Quality, Stability, and Varia...
[DL輪読会]Progressive Growing of GANs for Improved Quality, Stability, and Varia...[DL輪読会]Progressive Growing of GANs for Improved Quality, Stability, and Varia...
[DL輪読会]Progressive Growing of GANs for Improved Quality, Stability, and Varia...
 

Similar to 【DL輪読会】ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders

畳み込みニューラルネットワークの研究動向
畳み込みニューラルネットワークの研究動向畳み込みニューラルネットワークの研究動向
畳み込みニューラルネットワークの研究動向Yusuke Uchida
 
attention_is_all_you_need_nips17_論文紹介
attention_is_all_you_need_nips17_論文紹介attention_is_all_you_need_nips17_論文紹介
attention_is_all_you_need_nips17_論文紹介Masayoshi Kondo
 
Image net classification with deep convolutional neural network
Image net classification with deep convolutional neural networkImage net classification with deep convolutional neural network
Image net classification with deep convolutional neural networkga sin
 
CVPR2016読み会 "Inside-Outside Net: Detecting Objects in Context with Skip Pooli...
CVPR2016読み会 "Inside-Outside Net: Detecting Objects in Context with Skip Pooli...CVPR2016読み会 "Inside-Outside Net: Detecting Objects in Context with Skip Pooli...
CVPR2016読み会 "Inside-Outside Net: Detecting Objects in Context with Skip Pooli...The University of Tokyo
 
【2017.02】cvpaper.challenge2017
【2017.02】cvpaper.challenge2017【2017.02】cvpaper.challenge2017
【2017.02】cvpaper.challenge2017cvpaper. challenge
 
人工知能13 deep learning
人工知能13 deep learning人工知能13 deep learning
人工知能13 deep learningHirotaka Hachiya
 
20190123_Journal Club16_Xception
20190123_Journal Club16_Xception20190123_Journal Club16_Xception
20190123_Journal Club16_XceptionTomohisa Seki
 
[DL輪読会]One Model To Learn Them All
[DL輪読会]One Model To Learn Them All[DL輪読会]One Model To Learn Them All
[DL輪読会]One Model To Learn Them AllDeep Learning JP
 
Image net classification with Deep Convolutional Neural Networks
Image net classification with Deep Convolutional Neural NetworksImage net classification with Deep Convolutional Neural Networks
Image net classification with Deep Convolutional Neural NetworksShingo Horiuchi
 
ICCV 2019 論文紹介 (26 papers)
ICCV 2019 論文紹介 (26 papers)ICCV 2019 論文紹介 (26 papers)
ICCV 2019 論文紹介 (26 papers)Hideki Okada
 
Learning Deep Architectures for AI (第 3 回 Deep Learning 勉強会資料; 松尾)
Learning Deep Architectures for AI (第 3 回 Deep Learning 勉強会資料; 松尾)Learning Deep Architectures for AI (第 3 回 Deep Learning 勉強会資料; 松尾)
Learning Deep Architectures for AI (第 3 回 Deep Learning 勉強会資料; 松尾)Ohsawa Goodfellow
 
PyTorch, PixyzによるGenerative Query Networkの実装
PyTorch, PixyzによるGenerative Query Networkの実装PyTorch, PixyzによるGenerative Query Networkの実装
PyTorch, PixyzによるGenerative Query Networkの実装Shohei Taniguchi
 
2値ディープニューラルネットワークと組込み機器への応用: 開発中のツール紹介
2値ディープニューラルネットワークと組込み機器への応用: 開発中のツール紹介2値ディープニューラルネットワークと組込み機器への応用: 開発中のツール紹介
2値ディープニューラルネットワークと組込み機器への応用: 開発中のツール紹介Hiroki Nakahara
 
Nested RNSを用いたディープニューラルネットワークのFPGA実装
Nested RNSを用いたディープニューラルネットワークのFPGA実装Nested RNSを用いたディープニューラルネットワークのFPGA実装
Nested RNSを用いたディープニューラルネットワークのFPGA実装Hiroki Nakahara
 
論文紹介 Pixel Recurrent Neural Networks
論文紹介 Pixel Recurrent Neural Networks論文紹介 Pixel Recurrent Neural Networks
論文紹介 Pixel Recurrent Neural NetworksSeiya Tokui
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...Deep Learning JP
 
[DL輪読会]BANMo: Building Animatable 3D Neural Models from Many Casual Videos
[DL輪読会]BANMo: Building Animatable 3D Neural Models from Many Casual Videos[DL輪読会]BANMo: Building Animatable 3D Neural Models from Many Casual Videos
[DL輪読会]BANMo: Building Animatable 3D Neural Models from Many Casual VideosDeep Learning JP
 
Deep Learningと画像認識   ~歴史・理論・実践~
Deep Learningと画像認識 ~歴史・理論・実践~Deep Learningと画像認識 ~歴史・理論・実践~
Deep Learningと画像認識   ~歴史・理論・実践~nlab_utokyo
 

Similar to 【DL輪読会】ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders (20)

畳み込みニューラルネットワークの研究動向
畳み込みニューラルネットワークの研究動向畳み込みニューラルネットワークの研究動向
畳み込みニューラルネットワークの研究動向
 
attention_is_all_you_need_nips17_論文紹介
attention_is_all_you_need_nips17_論文紹介attention_is_all_you_need_nips17_論文紹介
attention_is_all_you_need_nips17_論文紹介
 
Image net classification with deep convolutional neural network
Image net classification with deep convolutional neural networkImage net classification with deep convolutional neural network
Image net classification with deep convolutional neural network
 
CVPR2016読み会 "Inside-Outside Net: Detecting Objects in Context with Skip Pooli...
CVPR2016読み会 "Inside-Outside Net: Detecting Objects in Context with Skip Pooli...CVPR2016読み会 "Inside-Outside Net: Detecting Objects in Context with Skip Pooli...
CVPR2016読み会 "Inside-Outside Net: Detecting Objects in Context with Skip Pooli...
 
【2017.02】cvpaper.challenge2017
【2017.02】cvpaper.challenge2017【2017.02】cvpaper.challenge2017
【2017.02】cvpaper.challenge2017
 
人工知能13 deep learning
人工知能13 deep learning人工知能13 deep learning
人工知能13 deep learning
 
20190123_Journal Club16_Xception
20190123_Journal Club16_Xception20190123_Journal Club16_Xception
20190123_Journal Club16_Xception
 
[DL輪読会]One Model To Learn Them All
[DL輪読会]One Model To Learn Them All[DL輪読会]One Model To Learn Them All
[DL輪読会]One Model To Learn Them All
 
Image net classification with Deep Convolutional Neural Networks
Image net classification with Deep Convolutional Neural NetworksImage net classification with Deep Convolutional Neural Networks
Image net classification with Deep Convolutional Neural Networks
 
ICCV 2019 論文紹介 (26 papers)
ICCV 2019 論文紹介 (26 papers)ICCV 2019 論文紹介 (26 papers)
ICCV 2019 論文紹介 (26 papers)
 
Learning Deep Architectures for AI (第 3 回 Deep Learning 勉強会資料; 松尾)
Learning Deep Architectures for AI (第 3 回 Deep Learning 勉強会資料; 松尾)Learning Deep Architectures for AI (第 3 回 Deep Learning 勉強会資料; 松尾)
Learning Deep Architectures for AI (第 3 回 Deep Learning 勉強会資料; 松尾)
 
PyTorch, PixyzによるGenerative Query Networkの実装
PyTorch, PixyzによるGenerative Query Networkの実装PyTorch, PixyzによるGenerative Query Networkの実装
PyTorch, PixyzによるGenerative Query Networkの実装
 
2値ディープニューラルネットワークと組込み機器への応用: 開発中のツール紹介
2値ディープニューラルネットワークと組込み機器への応用: 開発中のツール紹介2値ディープニューラルネットワークと組込み機器への応用: 開発中のツール紹介
2値ディープニューラルネットワークと組込み機器への応用: 開発中のツール紹介
 
Nested RNSを用いたディープニューラルネットワークのFPGA実装
Nested RNSを用いたディープニューラルネットワークのFPGA実装Nested RNSを用いたディープニューラルネットワークのFPGA実装
Nested RNSを用いたディープニューラルネットワークのFPGA実装
 
論文紹介 Pixel Recurrent Neural Networks
論文紹介 Pixel Recurrent Neural Networks論文紹介 Pixel Recurrent Neural Networks
論文紹介 Pixel Recurrent Neural Networks
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
 
[DL輪読会]BANMo: Building Animatable 3D Neural Models from Many Casual Videos
[DL輪読会]BANMo: Building Animatable 3D Neural Models from Many Casual Videos[DL輪読会]BANMo: Building Animatable 3D Neural Models from Many Casual Videos
[DL輪読会]BANMo: Building Animatable 3D Neural Models from Many Casual Videos
 
Extract and edit
Extract and editExtract and edit
Extract and edit
 
Deep Learningと画像認識   ~歴史・理論・実践~
Deep Learningと画像認識 ~歴史・理論・実践~Deep Learningと画像認識 ~歴史・理論・実践~
Deep Learningと画像認識   ~歴史・理論・実践~
 
ADVENTURE_Magneticの概要
ADVENTURE_Magneticの概要ADVENTURE_Magneticの概要
ADVENTURE_Magneticの概要
 

More from Deep Learning JP

【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving PlannersDeep Learning JP
 
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについてDeep Learning JP
 
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...Deep Learning JP
 
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-ResolutionDeep Learning JP
 
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxivDeep Learning JP
 
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLMDeep Learning JP
 
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo... 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...Deep Learning JP
 
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place RecognitionDeep Learning JP
 
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?Deep Learning JP
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究についてDeep Learning JP
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )Deep Learning JP
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...Deep Learning JP
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"Deep Learning JP
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "Deep Learning JP
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat ModelsDeep Learning JP
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"Deep Learning JP
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...Deep Learning JP
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...Deep Learning JP
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...Deep Learning JP
 
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...Deep Learning JP
 

More from Deep Learning JP (20)

【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
 
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて
 
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
 
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
 
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
 
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM
 
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo... 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
 
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
 
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
 

Recently uploaded

LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイスCRI Japan, Inc.
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NTT DATA Technology & Innovation
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。iPride Co., Ltd.
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。iPride Co., Ltd.
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)Hiroshi Tomioka
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。iPride Co., Ltd.
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルCRI Japan, Inc.
 

Recently uploaded (7)

LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
 

【DL輪読会】ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders

  • 1. http://deeplearning.jp/ ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders 小林 範久 Present Square Co.,Ltd. DEEP LEARNING JP [DL Papers] 1
  • 2. Copyright (C) Present Square Co., Ltd. All Rights Reserved. 書誌情報 ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders https://arxiv.org/abs/2301.00808 タイトル: 著者: Sanghyun Woo, Shoubhik Debnath, Ronghang Hu, Xinlei Chen, Zhuang Liu, In So Kweon, Saining Xie • ConvNeXtの改良モデルConvNeXt V2を提案。ConvNeXtに、自己教師あり学習である Masked Autoencoders(MAE)を結合。 • ConvNeXtとMAEはアーキテクチャが大きく異なるため、feature collapseが発生してしまう。その解決として Global Response Normalization(GRN)layerを加え、チャネル間の競合関係を強調することを提案。 • ImageNet classification、COCO detection、 ADE20K segmentationなどのベンチマークを更新。 概要: 2
  • 3. Copyright (C) Present Square Co., Ltd. All Rights Reserved. アジェンダ 1. イントロダクション 2. 関連研究 3. Fully Convolutional Masked Autoencoder 4. Global Response Normalization 5. ImageNet 実験 6. 転移学習 実験 7. 結論 3
  • 4. Copyright (C) Present Square Co., Ltd. All Rights Reserved. 1. イントロダクション イントロダクション 4 • 事前学習された大規模な画像認識モデルは、特徴学習や様々な視覚アプリケーションを実現するための重要なツールとなっ ている。そして、そのシステムの性能は、ニューラルネットワークアーキテクチャの選択、ネットワークの学習方法、訓練データ の3つの主要因に大きく影響される。 • ConvNetsは、様々な画像認識タスクに汎用的な特徴学習法を利用できるようになったことで、コンピュータビジョン研 究に大きな影響を与えた。Transformer も、モデルやデータセットサイズに対する強力なスケーリング挙動により人気を 博している。さらに最近では、ConvNeXt アーキテクチャが従来の ConvNets を近代化し、畳み込みモデルもスケーラ ブルなアーキテクチャになり得ることを実証している。 • しかし、ニューラルネットワークアーキテクチャの設計空間を探索する最も一般的な方法は、依然としてImageNet上で の教師あり学習によるものである。 ニューラルネットワークアーキテクチャの選択
  • 5. Copyright (C) Present Square Co., Ltd. All Rights Reserved. 1. イントロダクション 5 • 画像認識の学習の焦点は、教師あり学習から、自己教師あり事前学習へと移行している。特に、Masked Autoencoders (MAE) は、急速に画像認識学習のための一般的なアプローチになった。 • しかし、自己教師あり学習では、教師あり学習用に設計されたアーキテクチャを用い、デサインが固定されている。例えば、 MAEはVision Transformerを用いて開発されている。 • アーキテクチャと自己教師あり学習フレームワークの設計要素を組み合わせることは可能であるが、ConvNeXtとMAEを 併用する場合、困難な場合がある。 ① MAEがTransformerのシーケンス処理能力に最適化された特定のエンコーダ・デコーダ設計を持っていることで、計算 負荷の高いエンコーダが可視パッチに集中できるようになり、事前学習コストが削減される。この設計は、高密度のスラ イディングウィンドウを使用する標準的な ConvNets とは相容れない。 ② アーキテクチャと学習目的の関係を考慮しないと、最適な性能が得られるかどうかが不明確になる。 ConvNeXtモデルに対してマスクベースの自己教師あり学習を有効にし、 ネットワークアーキテクチャとMAEを同一のフレームワークで設計することを検討。 イントロダクション
  • 6. Copyright (C) Present Square Co., Ltd. All Rights Reserved. 2. 関連研究 ConvNets 6 • 1980年代に初めて導入され、バックプロパゲーションを用いて学習されたConvNetsの設計は、長年にわたり、最適化、 精度、効率の面で多くの改善を受けてきた。 • これらの技術革新は、主にImageNetデータセットに対する教師あり学習を用いて発見された。 ConvNeXt • ConvNet の設計空間を再検討したもの。 • Vision Transformer と同等の拡張性を持ちうることを示した。 • 特に低複雑度を必要とするシナリオで優れている。 出典:https://arxiv.org/pdf/2201.03545.pdf
  • 7. Copyright (C) Present Square Co., Ltd. All Rights Reserved. 2. 関連研究 MAE(マスクドオートエンコーダ) 7 • 最新の自己教師あり学習戦略の1つ。事前学習フレームワークとし て、画像認識において幅広い影響を及ぼしている。 • しかし、オリジナルのMAEは、その非対称なエンコーダ・デコーダの設 計により、ConvNetsに直接適用することができない。MCMAE は いくつかの畳み込みブロックを入力トークン化器として使用する。 • バッチに分割された入力画像の一部にランダムマスク処理を行い、マスクされていないパッチのみ入力。 エンコーダ • エンコードされたパッチトークンとマスクトークンを入力。 • このマスクトークンは、学習可能なパラメータであり、全マスクトークンで共有されている。 • マスクトークンは画像内の位置に関する情報を持たせるためにデコーダにおいても各トークンに位置埋め込みを行う。 デコーダ 出典:https://arxiv.org/pdf/2111.06377.pdf
  • 8. Copyright (C) Present Square Co., Ltd. All Rights Reserved. 2. 関連研究 8 • MAEは、シーケンシャルなデータを処理するTransformer との組み合わせに最適に設計されているので、 ConvNets と併用するには計算コストがかかり過ぎる。 • スライディングウィンドウの仕組みから ConvNets と相性の悪い設計になっている可能性がある。 従来のMAEの課題 • マスクベースの自己教師あり学習を有効にし、Transformer を用いた場合と同様の結果を得ることを目的として、 ネットワークアーキテクチャ と マスクドオートエンコーダを同一のフレームワークで設計することを提案。 ConvNeXt V2 • ConvNeXt の様々な訓練構成について、特徴空間分析を行った。 • その結果、マスクされた入力に対して、直接 ConvNeXt を訓練した場合、特徴量の崩壊の可能性があること がわかった。 ⇒ グローバル応答正規化層(Grobal Response Normalization) チャネル間特徴量の競合関係を強調。
  • 9. Copyright (C) Present Square Co., Ltd. All Rights Reserved. 3. Fully Convolutional Masked Autoencoder 9 Fully Convolutional Masked Autoencoder(FCMAE) • FCMAEは sparse convolution に基づく ConvNeXt エンコーダと軽量の ConvNeXt ブロックデコーダから構成さ れる。 • このオートエンコーダのアーキテクチャは非対称である。 • エンコーダは可視画素のみを処理し、デコーダは符号化され た画素とマスクトークンを用いて画像を再構成する。損失は マスクされた領域に対してのみ計算される。 マスキング • 32×32のパッチのうち、60%をランダムにマスキングする。 • 畳み込みモデルは階層的に設計。異なるステージで特徴がダウンサンプリングされ、マスクは最終ステージで生成。 • 最も細かな解像度まで再帰的にアップサンプリングする。 • パッチを入力画像から抽出する。データ拡張は、最小限でランダムリサイズクロッピングのみ。
  • 10. Copyright (C) Present Square Co., Ltd. All Rights Reserved. 3. Fully Convolutional Masked Autoencoder 10 Fully Convolutional Masked Autoencoder(FCMAE) エンコーダの設計 • ConvNeXt モデルをエンコーダとして使用。 • マスク画像のモデリングの課題は、モデルがマスクされた領域から情報をコピー&ペーストできるようなショートカットを学 習しないようにすること。Transformer ベースのモデルでは、エンコーダへの入力として可視パッチを残すことができる ため、比較的容易に実現できる。 • しかし、ConvNets では、2次元の画像構造を保持する必要があるため、困難である。 • 入力側に学習可能なマスクトークンを導入する方法は、事前学習の効率を下げ、テスト時にはマスクトークンが存在 しないため、学習時とテスト時の矛盾が発生する。これは、特にマスキング率が高い場合に問題となる。 • この問題に対して、3Dの sparse point clouds の 「sparse data perspective」における学習からヒントを得た。 • マスクされた画像はピクセルの2次元空間における sparse 配列として表現できる。この洞察に基づき、sparse conv layer を取り入れる。 • 実際には、事前学習中に、エンコーダの標準的な畳み込み層を、submanifold sparse convolutionに変換する ことを提案。これにより、モデルは可視データ点のみに対して動作することができる。
  • 11. Copyright (C) Present Square Co., Ltd. All Rights Reserved. 3. Fully Convolutional Masked Autoencoder 11 Fully Convolutional Masked Autoencoder(FCMAE) デコーダの設計 • デコーダには軽量でプレーンな ConvNeXt ブロックを使用。 • エンコーダがデコーダより重く、階層を持つため、全体として非対称なアーキテクチャを形成している。 • 階層型デコーダやTransformerなどのより複雑なデコーダも検討したが、より単純な単一 ConvNeXt ブロックデコーダ はFine-turningの精度の面で良好で、事前学習時間を大幅に短縮した。デコーダの次元は512に設定。 ※grayでハイライトされている条件を採用 表1 MAE decoder ablation experiments
  • 12. Copyright (C) Present Square Co., Ltd. All Rights Reserved. 3. Fully Convolutional Masked Autoencoder 12 Fully Convolutional Masked Autoencoder(FCMAE) FCMAE • 上記を組み合わせることで、Fully Convolutional Masked Autoencoder(FCMAE)を提案。 • ImageNet-1Kデータセットを用いて、それぞれ800エポックと100エポックの事前学習とFine-turningを行い、単一 の224×224センタークロップに対するImageNet-1K検証のトップ1の精度を検証。 • FCMAEのフレームワークでsparse conv layerを有無のパターンで比較し、 sparse conv layer の効果を実証。 再構成対象 • 再構成された画像とターゲット画像の間の平均二乗誤差(MSE)を計算する。 • MAEと同様に、ターゲットは元の入力のパッチ単位で正規化した画像であり、損失はマスクされたパッチにのみ適用される。
  • 13. Copyright (C) Present Square Co., Ltd. All Rights Reserved. 3. Fully Convolutional Masked Autoencoder 13 Fully Convolutional Masked Autoencoder(FCMAE) • 次に、教師あり学習と自己教師あり学習を比較。 • 教師あり100エポックベースラインと、ConvNeXt のオリジナル論文で提供された300エポック教師あり学習ベースライン の2つのベースライン実験結果を得た。 • その結果、FCMAEの事前学習はランダムなベースラインよりも良い初期化(すなわち、82.7 → 83.7)を提供するが、 オリジナルの教師あり設定で得られた最高の性能には劣ることがわかった。
  • 14. Copyright (C) Present Square Co., Ltd. All Rights Reserved. 4. Global Response Normalization 14 Global Response Normalization • ConvNeXtアーキテクチャと組み合わせてFCMAE事前学習をより効果的に行うための新しい技術 Global Response Normalization(GRN)を提案。 特徴崩壊(Feature collapse) • 学習挙動をより深く理解するために、特徴空間における定性的な解析を行った。 • FCMAEで事前学習したConvNeXt-Baseモデルの活性度を可視化したところ、消失したり、飽和した特徴マップが多く、 活性度がチャネル間で冗長になっていた。この挙動は、主にConvNeXtブロックの次元拡張MLP層で観察された。 図3 Feature activation visualization • 暗いpatchは特徴量が消失しており、 黄色のpatchは特徴量が飽和してい ることを示す。ConvNeXtV1-Base のモデルは、特徴量の多くが消滅もしく は飽和してしている。
  • 15. Copyright (C) Present Square Co., Ltd. All Rights Reserved. 4. Global Response Normalization 15 Feature cosine distance の解析 • 活性化テンソル 𝑋 ∈ 𝑅𝐻 ×𝑊 × 𝐶 が与えられたとき、𝑋𝑖 ∈ 𝑅𝐻×𝑊 は 𝑖 番目のチャネルの特徴マップである。これを 𝐻𝑊 次元ベクトルとして再形成し、チャンネル間の平均対コサイン距離を 以下で計算する。 • ConvNeXt V1 FCMAEの事前学習済みモデルは、特徴崩壊の挙動を示していることがわかる。 • 教師ありモデルでは、特徴の多様性が減少しているが、最終層のみである。これは、クロスエントロピー損失を用いることで、 クラス識別に有効な特徴量に着目し、それ以外の特徴量を抑制しているためと考えられる。 図4 Feature cosine distance analysis • 距離の値が大きいほど、特徴の多様性が高いことを示し、小 さいほど特徴の冗長性を示す。 • ImageNet-1K検証セットを用いて、FCMAE モデル、 ConvNeXt 教師ありモデル、MAE事前学習済みViTモデ ルなどを比較。 • 異なるモデルの各層から高次元特徴を抽出する。そして、各 画像の層ごとの距離を計算し、全画像の値を平均化する。
  • 16. Copyright (C) Present Square Co., Ltd. All Rights Reserved. 4. Global Response Normalization 16 • 脳には、ニューロンの多様性を促進するメカニズムが数多く存在する。例えば、横方向の抑制は、活性化したニューロン の反応を鮮明にし、刺激に対する個々のニューロンのコントラストと選択性を高めると同時に、ニューロンの集団全体の 反応の多様性を高めるのに役立つ。 • 深層学習では、このような横方向の抑制は、Response Normalization によって実装することができる。 • 本研究では、チャネルのコントラストと選択性を高めることを目的としたGlobal Response Normalization(GRN) と呼ばれる新しいレイヤーを導入する。 • 入力特徴量 X ∈ 𝑅𝐻×𝑊×𝐶 が与えられると、提案するGRNユニットは3つのステップから構成される。 GRNのアプローチ 1) Global Feature Aggregation 2) Feature Normalization 3) Feature Calibration
  • 17. Copyright (C) Present Square Co., Ltd. All Rights Reserved. 4. Global Response Normalization 17 • まず、空間特徴マップ𝑋𝑖をグローバル関数 𝐺(・) でベクトル 𝑔𝑥 に集約する。 • これは単純なプーリング層と見なすことができる。 • 特徴集約に広く用いられているGlobal average poolingは、うまく機能しなかった。 • 代わりに、ノルムベースの特徴集約、具体的には L2 ノルムを用いると、より良い性能になることが分かった。 GRNのアプローチ 1)Global Feature Aggregation G(X) = gx = { 𝑋1 , 𝑋2 , … , 𝑋𝐶 } ∈ 𝑅𝐶 • これにより、集約された値の集合 𝐺 𝑋 = 𝑔𝑥 が得られる。 • G(𝑋)𝑖 = 𝑋𝑖 は 𝑖 番目のチャネルの統計量を集約したスカラー。
  • 18. Copyright (C) Present Square Co., Ltd. All Rights Reserved. 2) Feature Normalization 4. Global Response Normalization 18 GRNのアプローチ • 次に、集計した値に対して、response normalization 関数N()を適用する。 • 𝑋𝑖 は、𝑖 番目のチャネルの L2ノルムである。 • 他の正規化関数と比較し、単純な divisive normalization が最も効果的であることがわかったが、 標準化 ( 𝑋𝑖 − 𝜇)/𝜎 を適用しても同様の結果が得られることが確認された。
  • 19. Copyright (C) Present Square Co., Ltd. All Rights Reserved. 4. Global Response Normalization 19 GRNのアプローチ • 最後に、1)、2)で計算された特徴正規化スコアを用いて、元の入力応答をキャリブレーションする。 3)Feature Calibration • GRNユニットのコアは、たった3行のコードで実装でき、学習可能なパラメータを持たないため、非常に簡単である。 • 最適化を容易にするために、2つの学習可能なパラメータ 𝛾、および 𝛽 を追加し、それらをゼロに初期化する。 • また、GRN 層の入力と出力の間に残差接続を追加する。(残差ありの方が精度が高い。) • 最終的なGRNブロックは 𝑋𝑖 = 𝑋𝑖 ∗ 𝑁(𝐺(𝑋)𝑖) + 𝛽 + 𝑋𝑖 となる。
  • 20. Copyright (C) Present Square Co., Ltd. All Rights Reserved. 4. Global Response Normalization 20 ConvNeXt V2 Block • ConvNeXtのオリジナルブロックにGRN層を組み込む。 • GRNを適用すると LayerScale が不要になり、削除。 • この新しいブロック設計を用いて、ConvNeXt V2モデルフ ァミリーを作成。軽量(例:Atto) から計算量の多いもの (例:Huge)まで多岐にわたる。 図5.ConvNeXt Blockデザイン
  • 21. Copyright (C) Present Square Co., Ltd. All Rights Reserved. 4. Global Response Normalization 21 GRNの効果 • FCMAEフレームワークを用いてConvNeXt V2を事前学習させ、GRNの効果を評価。 • 可視化とFeature cosine distanceから、コサイン距離の値は一貫して高く、層を超えて特徴の多様性が維持されて おり、ConvNeXt V2は特徴量崩壊の問題を効果的に軽減していることがわかる。 • GRN を ローカル応答正規化(LRN)、バッチ正規化(BN)、レイヤー 正規化(LN)と比較。 • GRNのみが教師ありベースラインを上回ることができた。LRNは近傍のチャ ンネルを対比させるだけなので、グローバルなコンテキストを欠いている。 • BNはバッチ軸に沿って空間的に正規化するが、これはマスクされた入力に は適さない。LNはグローバルな平均と分散の標準化を通じて暗黙のうちに 特徴の競合を促すが、GRNほどには機能しない。 Fine-turning性能の評価 • GRNを搭載したFCMAE事前学習モデルは、300エポックの教師ありモデルを超えることができる。
  • 22. Copyright (C) Present Square Co., Ltd. All Rights Reserved. 5. ImageNet 実験 22 共同設計の重要性 • ConvNeXtでは、アーキテクチャと学習フレームワークを共同 設計することで、マスク画像の事前学習が効果的に行われる。 • 800エポックFCMAE事前学習したモデルのファインチューニン グ性能が右表。 • モデルサイズが大きくなるほど、相対的な改善度は大きくなる。 • 自己教師あり学習フレームワーク(FCMAE)とモデルアーキテクチャの改良(GRN層)の両者の学習動作を検証。 • モデルアーキテクチャを変更せずにFCMAEフレームワークを用いても、性能への影響は限定的であった。 • 同様に、新しいGRN層は教師ありの設定において、性能への影響がかなり小さい。しかし、この2つを組み合わせることで、 Fine-turningの性能が大幅に向上した。 ⇒特に自己教師あり学習に関しては、モデルと学習フレームワークの両方を一緒に考えるべき。 ImageNet 実験 • ImageNet-1Kデータセット、ImageNet-22Kデータセットを用いて検証。
  • 23. Copyright (C) Present Square Co., Ltd. All Rights Reserved. 5. ImageNet 実験 23 モデルのスケーリング • 低容量の3.7M Attoモデルから高容量の650M Hugeモデ ルまで、サイズの異なる 8 種類のモデルを評価。 • これらのモデルに対して、FCMAEフレームワークを用いて事前 学習を行い、教師ありのモデルと比較して、Fine-turningの 結果を比較した。 • その結果、すべてのモデルサイズにおいて、教師ありベースライン よりも一貫して性能が向上し、強力なモデルスケーリング動作 が実証された。
  • 24. Copyright (C) Present Square Co., Ltd. All Rights Reserved. 5. ImageNet 実験 24 既存モデルとの比較 • 既存モデル(すべてTransformerベースモデル)と比較。 • 事前学習データはImageNet-1K学習セットである。すべての 自己教師あり手法は、画像サイズ224でのエンドツーエンドの Fine turning性能によってベンチマークされている。 • SimMIMで事前学習したSwin Transformerを、全てのモ デルサイズにおいて上回った。MAEで事前学習したViTと比較 すると、より少ないパラメータ(198M対307M)にも関わらず、 Large model領域まで同様の性能を発揮することができる。 • しかし、巨大なモデル領域では、わずかに劣った。これは、巨大 なViTモデルが自己教師あり事前学習からより多くの益を得る ことができるためと思われる。 表4. 過去のマスク画像モデリングアプローチとの比較
  • 25. Copyright (C) Present Square Co., Ltd. All Rights Reserved. 5. ImageNet 実験 25 ImageNet-22K intermediate fine-tuning 以下の学習を実施。 1) FCMAEによるpre-training 2) ImageNet-22Kによるfine-tuning 3) ImageNet-1Kによるfine-tuning • Pre-trainingとfine-tuningには、3842枚の解像度画像 を用いる。この結果を、畳み込みベース、トランスフォーマベー ス、ハイブリッドデザインなど、最先端のアーキテクチャ設計と比 較。これらの結果は全てImageNet22Kの教師ありラベルで 学習させたものである。 表 5. IN-21Kラベルを用いたImageNet-1K fine-tuning • FCMAE事前学習を搭載したConvNeXt V2 Hugeモデルは、他のアーキテクチャを凌駕し、公開データのみを用いた 手法の中で88.9%という最新の精度を達成。
  • 26. Copyright (C) Present Square Co., Ltd. All Rights Reserved. 6. 転移学習実験 26 COCO物体検出とインスタンスセグメンテーションの結果 • ConNeXt V2 + FCMAEの転移学習の性能を検証。 • SwinTransformer-Baseのモデルと比べて性能が向上 していることがわかる。 • COCOの fine-tuning 実験は全て ImageNet-1K の 事前学習済みモデルに依存する。 UPerNetを用いたADE20Kのセマンティックセグメンテーションの結果 • ADE20K datasetにおけるSemantic segmentationの 実行結果。 • SwinTransformerの結果と比較。 • Object Detection taskと同様、精度が向上。
  • 27. Copyright (C) Present Square Co., Ltd. All Rights Reserved. 7. 結論 まとめ 27 • ConvNeXtの改良モデルConvNeXt V2を提案。ConvNeXt V2は、自己教師あり学習に適したモデルとして 設計されており、そのアーキテクチャは最小限の変更に留まっている。 • ConvNeXtとMAEはアーキテクチャが大きく異なるため、feature collapseが発生してしまう。その解決として Global Response Normalization(GRN)layerを加え、チャネル間の競合関係を強調することを提案。 • ImageNet classification、 COCO detection、 ADE20K segmentationなどのベンチマークを更新。
  • 28. Copyright (C) Present Square Co., Ltd. All Rights Reserved. Appendix 参考文献 • Zhuang Liu, Hanzi Mao, Chao-Yuan Wu, Christoph Feichtenhofer,Trevor Darrell, and Saining Xie. A convnet for the 2020s. In CVPR, 2022. • Christopher Choy, JunYoung Gwak, and Silvio Savarese. 4d spatio-temporal convnets: Minkowski convolutional neural networks. In CVPR, 2019. • Y. Jiang, L. Zhang, Z. Miao, X. Zhu, J. Gao, W. Hu, and Y.-G. Jiang, “Polarformer: Multi-camera 3d object detection with polar transformer,” ArXiv, p. abs/2206.15398, 2022. • Ross Girshick, Jeff Donahue, Trevor Darrell, and Jitendra Malik. Rich feature hierarchies for accurate object detection and semantic segmentation. In CVPR, 2014. • Kaiming He, Georgia Gkioxari, Piotr Doll´ar, and Ross Girshick. Mask R-CNN. In ICCV, 2017. • Qilong Wang, Banggu Wu, Pengfei Zhu, Peihua Li, Wangmeng Zuo, and Qinghua Hu. Eca-net: Efficient channel attention for deep convolutional neural networks. In CVPR, 2020. • Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, Jakob Uszkoreit, and Neil Houlsby. An image is worth 16x16 words: Transformers for image recognition at scale. In ICLR, 2021. 28