SlideShare uma empresa Scribd logo
1 de 26
http://deeplearning.jp/
Vision Transformer with Deformable Attention
(Deformable Attention Transformer:DAT)
小林 範久 Present Square Co.,Ltd.
DEEP LEARNING JP
[DL Papers]
1
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
書誌情報
Vision Transformer with Deformable Attention
(Deformable Attention Transformer:DAT)
https://arxiv.org/abs/2201.00520
タイトル:
著者: Zhuofan Xia, Xuran Pan, Shiji Song, Li Erran Li, Gao Huang
• Deformable Attention Transformer は derformable(変形可能)な self-attention を画像認識
分野に導入したモデル。
• Deformable self-attention を利用することでより影響関係がある箇所に対して Attention を行うことが
可能となり、効率的かつより優位性のある処理が可能となった。
• ImageNetやCOCO、ADE20Kを利用したベンチマークテストでは、既存のPVTやSwinTransformerなど
のSOTAとされるモデルよりも高い精度を記録した。
概要:
2
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
アジェンダ
1. 導入
2. 先行研究
3. 手法
4. 実験
5. まとめ
3
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
1. 導入
背景
4
• Vision Transformer(ViT)が発表されて以降、画像処理でも Transformer ベースのモデル開発が進んでいる。
• Transformer を画像処理に利用した際のメリットは、受容野の広さにある。CNNなどよりも広範の領域を抑えることで、
より良い特徴量を取得することが可能となる。
• 一方で、ViT のような通常のTransformer のみを利用した場合、以下のデメリットがある。
• 必要とするメモリが大きい
• 高い計算コスト
• 学習の収束の遅延
• 過学習の危険性
• これらの問題に対応するため、Transofmer に対して様々な工夫が行われてきたが、その中でも有力な手法として、
Pyramid Vision Transformer (PVT)や Swin Transformer などがある。
ViTのデメリット
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
1. 導入
背景
5
• PVT や SwinTransformer は、画像内の領域をある程度絞り
込んだ箇所に対して Attention を行うことでメモリ効率や計算効
率を向上。
• 一方で、画像内の領域を絞り込むため、本来の領域から取得で
きた広範な関係性の情報を失っている可能性がある。
• 領域を絞り込む際に、より影響関係がある領域を選択できるよう
な Deformable self-attention を利用するDeformable
Attention Transformer(DAT) を提案。
• 従来の画像処理モデルよりも効率や性能を向上させることに成功。
Copyright (C) Present Square Co., Ltd. All Rights Reserved. 6
Vision Transformer(ViT, Dosovitskiy et al. 2020)
• 画像処理で一般的なCNNなどを利用せずに純粋に
Transformerのみを利用しているモデル。
• 画像を「画像パッチが連なったシーケンスデータ」として
扱うことで画像処理にTransformerを適用すること
に成功。
• Transformerの「計算効率の良さ」と「スケーラビリ
ティ」を画像処理タスクにもたらすことを成功。
画像パッチ(9つのパッチ)として入力
出典:https://arxiv.org/pdf/2010.11929.pdf
2. 先行研究
Copyright (C) Present Square Co., Ltd. All Rights Reserved. 7
Pyramid Vision Transformer (PVT)
• 計算コストを抑えるためにダウンサンプリングする
出典:https://arxiv.org/pdf/2102.12122.pdf
2. 先行研究
Swin Transformer
• これらのモデルは、それぞれの目的をうまく果たし、ViTから性能を向上させることに成功した。
• ただし、Swin Transformer のような人力で構築された Attention 範囲は、効率の面から最適化されていない可
能性がある。また、重要なKey/Value 関係を落とした一方で、不要なものを利用している可能性がある。
• 理想は、各入力画像ごとに Attention 範囲を自由に変形しながら、重要な領域のみを利用できるようになること。
• ローカルウィンドウを利用することで Attention 範囲を
制限する
https://arxiv.org/pdf/2103.14030.pdf
Copyright (C) Present Square Co., Ltd. All Rights Reserved. 8
Deformable Convolution Networks(DCN)
• このDCNで行われていることを Transformer に単純に応用しようとすると、高いメモリと計算コストが必要となり、
実用的ではなくなるという問題があった。
出典:https://openaccess.thecvf.com/content_ICCV_2017/papers/Dai_Deformable_Convolutional_Networks_ICCV_2017_paper.pdf
2. 先行研究
• 受容野を画像にあわせて柔軟に変形するモデル。
Copyright (C) Present Square Co., Ltd. All Rights Reserved. 9
Deformable DETR
• 情報ロスがあるためバックボーンネットワークとしては劣ってしまうという問題がある。
出典:https://arxiv.org/pdf/2010.04159.pdf
2. 先行研究
• Transformer とCNN を組み合わせたことで高精度
を達成した DETR に Deformable モジュールを組み
込んだモデル。
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
3. 手法
Deformable Attention Transformer(DAT)
10
• 画像分類や物体検出、セグメンテーションなどのバックボーンネットワークとして利用できるモデル。
• 画像認識領域に対して初めて「deformable self-attention backborn」を提案し、柔軟性と効率性を可能にした。
Deformable Attention(DA)
• Deformable Attention が、DAT の軸となるモジュール。特徴量マップ内の重要な領域に対して Attention を
行うことで、効率よくトークン間の関係性をモデリングすることが可能。
• オフセットネットワークによるクエリから学習された変形可能なサンプリングポイントを利用することで対象となる
Attention 領域を決定する。
Copyright (C) Present Square Co., Ltd. All Rights Reserved. 11
3. 手法
DCNとの違い
• DCNでは、特徴量マップの中の異なるピクセルに対して、異なる領域を学習するようになっている。
• DATでは、query-agnosticな領域グループを学習するように作成されている。領域グループで問題ないのは、近年
の研究から、グローバルアテンションの結果が、異なるクエリに対してほぼ同じアテンションパターンになるということが知ら
れているため。
• このことで、Key/Values を重要な領域に焦点を合わせることが可能となる。各クエリに対して共有されシフトされた
キーとバリューから似たような解を得ることで、より効率的なトレードオフが可能となっている。
3×3のDC(画像が𝐻 × 𝑊 × 𝐶)
→ 9 × 𝐻 × 𝑊 × 𝐶
Deformable Attention Transformer(DAT)
Transformerに適用した場合
→𝑁𝑞 × 𝑁𝑘 × 𝐶( 𝑁𝑞 = 𝑁𝑘 = 𝐻 × 𝑊)
※計算コストが高すぎて、実用的でない。
計算コスト
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
3. 手法
Deformable Attentionの流れ
12
① 入力として特徴量マップ 𝑥 ( 𝐻 × 𝑊 × 𝐶 ) を受け取る。
② 一様格子のピクセル 𝑝 (𝐻𝐺 × 𝑊𝐺 × 2 (𝐻𝐺 = 𝐻/𝑟, 𝑊𝐺 = 𝑊/𝑟 でダウンサンプリングする)内の点)が参照点
(Reference Points)として生成される。
③ 参照点は二次元座標{(0,0), …., (𝐻𝐺 − 1, 𝑊𝐺 − 1)}上に線形射影され、[-1, +1]の間に正規化される。
(Top-left=(-1,-1))
④ 各参照点からオフセットを獲得するために、特徴量マップを線形射影し、クエリトークン 𝑞 = 𝑥𝑊𝑞 を取得する。
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
3. 手法
Deformable Attentionの流れ
13
⑤ クエリトークン 𝑞 は、サブネットワークθ𝑜𝑓𝑓𝑠𝑒𝑡に投入され、オフセット を生成する。
※学習過程を安定させるために、事前定義した値 𝑠 を用いて∆𝑝 が大きすぎるサブセットになるのを制限する。
(∆𝑝 ← 𝑠 tanh(∆𝑝))
⑥ 参照点とオフセットの情報を足して、変形した参照点(Deformed Points)を得る。
⑦ 変形した参照点に対してバイリニア補完を行い、特徴量 𝑥 をサンプルする。
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
3. 手法
Deformable Attentionの流れ
14
⑧ ⑦の出力に対して、線形射影を行い、キートークン 𝑘 = 𝑥𝑊𝑘 と バリュートークン 𝑣= 𝑥 𝑊
𝑣 を得る。
⑨ ポジションエンベディングに相当する情報を組み込んだ形で、Attention を行い最終的な値を出力する。
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
3. 手法
オフセット生成
15
Deformable Attention
• Deformable Attention では、オフセット生成のために、サブネットワークを利用し
ている。
• このサブネットワークでは、クエリを利用して参照点ごとにオフセット値を算出する。
• 各参照点が 𝑆 × 𝑆 の領域をカバーしていると考えると、サブネットワークは妥当なオ
フセットを学習するためにローカル特徴量の知覚を必要とすると考えられる。
• そのため、非線形活性化関数を用いた2つの畳み込みモジュールをもつサブネット
ワークを実装している。
サブネットワークの流れ
① k × k (論文では5×5)のデプスワイズ畳み込みによりローカル特徴量を獲得する。
② GELU活性化関数に通す。
③1×1の畳み込みを行い、オフセット値を獲得する。
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
3. 手法
16
Deformable Attention
オフセットグループ
• Deformed Points の多様性を促進するために、特徴量チャネルをG個のグループに分割する。(これは、
Multi-Head Self-Attention (MHSA)の手法と同様の考え方に基づくもの。)
• 各グループに基づく特徴量は、妥当に対応しているオフセットを生成するために共有されたサブネットワークを利用
している。
• 実践的には、Multi Head Attention の個数 M は、オフセットグループの数であるG倍であるようにすることで、
確実に変形されたキーとバリューのトークンのグループの一つに対して、多重の Attention Head がアサインされ
るような作りとなっている。
Deformable relative position bias
• 相対位置バイアスは、クエリとキーのすべてのペア間の相対位置
をエンコードする。これにより、空間情報で通常の Attention
が強化されることになる。
• DATでは、正規化の値、ポジションエンベディングとして、可能な
すべてのオフセット値をカバーするための連続的な相対変位が行
われている。
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
3. 手法
17
計算コストについて
• Deformable multi-head atten-tion (DMHA)は、PVT や Swin Transformer など
似たような計算コストになる。異なる点は、オフセットネットワークの計算量。
• 𝑁𝑠 = 𝐻𝐺 × 𝑊𝐺 = 𝐻 × 𝑊/𝑟2
• Swin-T(H=W = 14, Ns= 49, C= 384)との比較
• Swin-T が 79.63M FLOPsのとき、サブネットワークの追加によって生じる計算コストは、およそ 5.08M Flops 程
度となる。なお、ダウンサンプリングファクターである r の値を大きくすることで、より計算コストを削減することができる。
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
3. 手法
18
モデルアーキテクチャ
• DAT では、画像タスクではマルチスケール特徴量マップを必要とするため、これまでの PVT などと同じような階層的
特徴量ピラミッドを形成する。
• Stage1及びStage2では、よりローカルな特徴を学習することを目的とするため、DAはあまり役にたたない。また空間も
広いため、計算コストのオーバーヘッドになるため、採用していない。代わりに、Swin Transformer で利用されるウィンド
ウベースのローカルアテンション(Shift-Window Attention)でローカル部分の情報を統合している。
• Stage3及びStage4で Deformable Attention を利用している。このことで、ローカルから拡張されたトーク間のより
広域の関係性をモデリングすることが可能となる。
Copyright (C) Present Square Co., Ltd. All Rights Reserved. 19
3. 手法
モデルアーキテクチャ
• 分類タスクでは、最初に最終段階から出力された特徴マップを正規
化し、次にロジットを予測するためにプールされた特徴を持つ線形
分類器を採用している。
• 物体検出、セグメンテーションタスクでは、DATはモデルのバックボー
ンの役割を果たし、マルチスケールの特徴を抽出している。
• 物体検出、セマンティックセグメンテーションのデコーダーなどでは、
FPN のように次のモジュールにフィードする前に、各ステージの機能
に正規化レイヤーを追加している。
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
ImageNet1K を用いた実験
20
4. 実験
画像枚数:学習用1.28M 検証用50K
オプティマイザ:AdamW
エポック:300
初期学習率:1 × 10−3
(ウオームアップ 1 × 10−6→1 × 10−3)
(cosine learning rate decay)
データ拡張:RandAugment 、 Mixup、CutMix
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
COCO Object Detection を用いた実験
21
4. 実験
• RetinaNet、Mask R-CNN、Cascade Mask R-CNNのバックボーンネットワークとして利用し、比較。
• Swin Transformer モデルなどと比べよい成果を出している。
• 特により大きな物体の検出が得意であることがわかった。
画像枚数:学習用118K 検証用5K
実験設定
事前学習:ImageNet-1K(300エポック)
パラメータ:SwinTransformerと同じ
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
ADE20K
22
4. 実験
画像枚数:学習用20K 検証用2K
• SemanticFPN と UperNet のバックボーンネットワークとして利用して、比較。
• mIOU スコアで比較され、全体としてよりよい精度を出した。
• 特にPVT の Tiny モデルと比較すると、大きな改善がみられる。
SemanticFPN と UperNet のバックボーンネットワークとして利用
事前学習:ImageNet-1K
学習:SemanticFPN 40ステップ、UperNet 160K
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
アブレーションスタディ
23
4. 実験
• オフセットとポジションエンベディングの必要性の確認
• Deformable Attention の有効なステージの確認
P:SRA attention
S:Shift Window attention
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
可視化実験
24
4. 実験
• より重要な領域に対して参照点が変形されていることを確認。
(各点が格子上の状態をベースとして、対象物体に対して寄っていることが確認できる。)
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
5. まとめ
結論
• Deformable Attention Transformer は derformable(変形可能)な self-attention を画像認識分野に
導入したモデル。
• Deformable self-attention を利用することでより影響関係がある箇所に対して Attention を行うことが可能と
なり、効率的かつより優位性のある処理が可能となった。
• ImageNetやCOCO、ADE20Kを利用したベンチマークテストでは、既存のPVTやSwinTransformerなどの
SOTAとされるモデルよりも高い精度を記録した。
25
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
Appendix
参考文献
• Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Łukasz Kaiser, and Illia
Polosukhin. Attention is all you need. In NeurIPS, pages 5998–6008, 2017.
• Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa
Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, et al. An image is worth 16x16 words: Transformers for image
recognition at scale. arXiv preprint arXiv:2010.11929, 2020.
• Ze Liu, Yutong Lin, Yue Cao, Han Hu, Yixuan Wei, Zheng Zhang, Stephen Lin, and Baining Guo. Swin transformer:
Hierarchical vision transformer using shifted windows. ICCV, 2021.
• Jifeng Dai, Haozhi Qi, Yuwen Xiong, Yi Li, Guodong Zhang, Han Hu, and Yichen Wei. Deformable convolutional networks.
In ICCV, pages 764–773, 2017.
• Wenhai Wang, Enze Xie, Xiang Li, Deng-Ping Fan, Kaitao Song, Ding Liang, Tong Lu, Ping Luo, and Ling Shao. Pyramid
vision transformer: A versatile backbone for dense prediction without convolutions. In ICCV, 2021
• Xizhou Zhu, Weijie Su, Lewei Lu, Bin Li, Xiaogang Wang, and Jifeng Dai. Deformable detr: Deformable transformers for
end-to-end object detection. arXiv preprint arXiv:2010.04159, 2020.
26

Mais conteúdo relacionado

Mais procurados

[DL輪読会]MetaFormer is Actually What You Need for Vision
[DL輪読会]MetaFormer is Actually What You Need for Vision[DL輪読会]MetaFormer is Actually What You Need for Vision
[DL輪読会]MetaFormer is Actually What You Need for VisionDeep Learning JP
 
【メタサーベイ】Neural Fields
【メタサーベイ】Neural Fields【メタサーベイ】Neural Fields
【メタサーベイ】Neural Fieldscvpaper. challenge
 
【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習cvpaper. challenge
 
Transformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法についてTransformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法についてSho Takase
 
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話Yusuke Uchida
 
【DL輪読会】マルチモーダル 基盤モデル
【DL輪読会】マルチモーダル 基盤モデル【DL輪読会】マルチモーダル 基盤モデル
【DL輪読会】マルチモーダル 基盤モデルDeep Learning JP
 
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted WindowsDeep Learning JP
 
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜SSII
 
自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)cvpaper. challenge
 
Transformer 動向調査 in 画像認識(修正版)
Transformer 動向調査 in 画像認識(修正版)Transformer 動向調査 in 画像認識(修正版)
Transformer 動向調査 in 画像認識(修正版)Kazuki Maeno
 
[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View SynthesisKento Doi
 
ドメイン適応の原理と応用
ドメイン適応の原理と応用ドメイン適応の原理と応用
ドメイン適応の原理と応用Yoshitaka Ushiku
 
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向SSII
 
Triplet Loss 徹底解説
Triplet Loss 徹底解説Triplet Loss 徹底解説
Triplet Loss 徹底解説tancoro
 
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...SSII
 
How Much Position Information Do Convolutional Neural Networks Encode?
How Much Position Information Do Convolutional Neural Networks Encode?How Much Position Information Do Convolutional Neural Networks Encode?
How Much Position Information Do Convolutional Neural Networks Encode?Kazuyuki Miyazawa
 
【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Modelscvpaper. challenge
 
Semi supervised, weakly-supervised, unsupervised, and active learning
Semi supervised, weakly-supervised, unsupervised, and active learningSemi supervised, weakly-supervised, unsupervised, and active learning
Semi supervised, weakly-supervised, unsupervised, and active learningYusuke Uchida
 
DQNからRainbowまで 〜深層強化学習の最新動向〜
DQNからRainbowまで 〜深層強化学習の最新動向〜DQNからRainbowまで 〜深層強化学習の最新動向〜
DQNからRainbowまで 〜深層強化学習の最新動向〜Jun Okumura
 
【DL輪読会】Perceiver io a general architecture for structured inputs & outputs
【DL輪読会】Perceiver io  a general architecture for structured inputs & outputs 【DL輪読会】Perceiver io  a general architecture for structured inputs & outputs
【DL輪読会】Perceiver io a general architecture for structured inputs & outputs Deep Learning JP
 

Mais procurados (20)

[DL輪読会]MetaFormer is Actually What You Need for Vision
[DL輪読会]MetaFormer is Actually What You Need for Vision[DL輪読会]MetaFormer is Actually What You Need for Vision
[DL輪読会]MetaFormer is Actually What You Need for Vision
 
【メタサーベイ】Neural Fields
【メタサーベイ】Neural Fields【メタサーベイ】Neural Fields
【メタサーベイ】Neural Fields
 
【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習
 
Transformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法についてTransformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法について
 
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
 
【DL輪読会】マルチモーダル 基盤モデル
【DL輪読会】マルチモーダル 基盤モデル【DL輪読会】マルチモーダル 基盤モデル
【DL輪読会】マルチモーダル 基盤モデル
 
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
 
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
 
自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)
 
Transformer 動向調査 in 画像認識(修正版)
Transformer 動向調査 in 画像認識(修正版)Transformer 動向調査 in 画像認識(修正版)
Transformer 動向調査 in 画像認識(修正版)
 
[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
 
ドメイン適応の原理と応用
ドメイン適応の原理と応用ドメイン適応の原理と応用
ドメイン適応の原理と応用
 
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
 
Triplet Loss 徹底解説
Triplet Loss 徹底解説Triplet Loss 徹底解説
Triplet Loss 徹底解説
 
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
 
How Much Position Information Do Convolutional Neural Networks Encode?
How Much Position Information Do Convolutional Neural Networks Encode?How Much Position Information Do Convolutional Neural Networks Encode?
How Much Position Information Do Convolutional Neural Networks Encode?
 
【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models
 
Semi supervised, weakly-supervised, unsupervised, and active learning
Semi supervised, weakly-supervised, unsupervised, and active learningSemi supervised, weakly-supervised, unsupervised, and active learning
Semi supervised, weakly-supervised, unsupervised, and active learning
 
DQNからRainbowまで 〜深層強化学習の最新動向〜
DQNからRainbowまで 〜深層強化学習の最新動向〜DQNからRainbowまで 〜深層強化学習の最新動向〜
DQNからRainbowまで 〜深層強化学習の最新動向〜
 
【DL輪読会】Perceiver io a general architecture for structured inputs & outputs
【DL輪読会】Perceiver io  a general architecture for structured inputs & outputs 【DL輪読会】Perceiver io  a general architecture for structured inputs & outputs
【DL輪読会】Perceiver io a general architecture for structured inputs & outputs
 

Semelhante a [DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Transformer:DAT)

アジャイルにモデリングは必要か
アジャイルにモデリングは必要かアジャイルにモデリングは必要か
アジャイルにモデリングは必要かHiromasa Oka
 
論文紹介 : Vision Transformer with Deformable Attention
論文紹介 : Vision Transformer with Deformable Attention論文紹介 : Vision Transformer with Deformable Attention
論文紹介 : Vision Transformer with Deformable AttentionKazunariHemmi
 
DRIVE CHARTを支えるAI技術
DRIVE CHARTを支えるAI技術DRIVE CHARTを支えるAI技術
DRIVE CHARTを支えるAI技術Yusuke Uchida
 
ICCV 2019 論文紹介 (26 papers)
ICCV 2019 論文紹介 (26 papers)ICCV 2019 論文紹介 (26 papers)
ICCV 2019 論文紹介 (26 papers)Hideki Okada
 
RIAアーキテクチャー研究会 第3回 セッション4 Mvpvm pattern
RIAアーキテクチャー研究会 第3回 セッション4 Mvpvm patternRIAアーキテクチャー研究会 第3回 セッション4 Mvpvm pattern
RIAアーキテクチャー研究会 第3回 セッション4 Mvpvm patternMami Shiino
 
市場動向並びに弊社製品の今後の展望について
市場動向並びに弊社製品の今後の展望について市場動向並びに弊社製品の今後の展望について
市場動向並びに弊社製品の今後の展望についてKen Azuma
 
SAS Viya Deep Dive: 予測モデリング
SAS Viya Deep Dive: 予測モデリングSAS Viya Deep Dive: 予測モデリング
SAS Viya Deep Dive: 予測モデリングSAS Institute Japan
 
jQueryの先に行こう!最先端のWeb開発トレンドを学ぶ
jQueryの先に行こう!最先端のWeb開発トレンドを学ぶjQueryの先に行こう!最先端のWeb開発トレンドを学ぶ
jQueryの先に行こう!最先端のWeb開発トレンドを学ぶShumpei Shiraishi
 
増加するコアを使い切れ!!
増加するコアを使い切れ!!増加するコアを使い切れ!!
増加するコアを使い切れ!!guestc06e54
 
エンプラに Kubernetes を 導入してみて分かった 4つの Lessons Learned
エンプラに Kubernetes を 導入してみて分かった 4つの Lessons Learnedエンプラに Kubernetes を 導入してみて分かった 4つの Lessons Learned
エンプラに Kubernetes を 導入してみて分かった 4つの Lessons LearnedDaiki Kawanuma
 
アテンションモデルの注意深い調査
アテンションモデルの注意深い調査アテンションモデルの注意深い調査
アテンションモデルの注意深い調査MichihiroSHONAI
 
オブジェクトストレージのユースケース (Cloudweek2014 講演資料)
オブジェクトストレージのユースケース (Cloudweek2014 講演資料)オブジェクトストレージのユースケース (Cloudweek2014 講演資料)
オブジェクトストレージのユースケース (Cloudweek2014 講演資料)CLOUDIAN KK
 
[DL輪読会]Deep Face Recognition: A Survey
[DL輪読会]Deep Face Recognition: A Survey[DL輪読会]Deep Face Recognition: A Survey
[DL輪読会]Deep Face Recognition: A SurveyDeep Learning JP
 
20180729 Preferred Networksの機械学習クラスタを支える技術
20180729 Preferred Networksの機械学習クラスタを支える技術20180729 Preferred Networksの機械学習クラスタを支える技術
20180729 Preferred Networksの機械学習クラスタを支える技術Preferred Networks
 
Monadic Programmingのススメ - Functional Reactive Programmingへのアプローチ
Monadic Programmingのススメ - Functional Reactive ProgrammingへのアプローチMonadic Programmingのススメ - Functional Reactive Programmingへのアプローチ
Monadic Programmingのススメ - Functional Reactive ProgrammingへのアプローチTomoharu ASAMI
 
実装(1) 【クラウドアプリケーションのためのオブジェクト指向分析設計講座 第30回】
実装(1) 【クラウドアプリケーションのためのオブジェクト指向分析設計講座 第30回】実装(1) 【クラウドアプリケーションのためのオブジェクト指向分析設計講座 第30回】
実装(1) 【クラウドアプリケーションのためのオブジェクト指向分析設計講座 第30回】Tomoharu ASAMI
 
OpenStackプロジェクトの全体像~詳細編~
OpenStackプロジェクトの全体像~詳細編~OpenStackプロジェクトの全体像~詳細編~
OpenStackプロジェクトの全体像~詳細編~Masanori Itoh
 
ユーザー企業における標準化のあり方 : QCon Tokyo 2010
ユーザー企業における標準化のあり方 : QCon Tokyo 2010ユーザー企業における標準化のあり方 : QCon Tokyo 2010
ユーザー企業における標準化のあり方 : QCon Tokyo 2010Yusuke Suzuki
 
成長できるエンタープライズシステムを目指して-OSGiによるモジュール型アーキテクチャの実現-
成長できるエンタープライズシステムを目指して-OSGiによるモジュール型アーキテクチャの実現-成長できるエンタープライズシステムを目指して-OSGiによるモジュール型アーキテクチャの実現-
成長できるエンタープライズシステムを目指して-OSGiによるモジュール型アーキテクチャの実現-Hiroki Kondo
 

Semelhante a [DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Transformer:DAT) (20)

アジャイルにモデリングは必要か
アジャイルにモデリングは必要かアジャイルにモデリングは必要か
アジャイルにモデリングは必要か
 
論文紹介 : Vision Transformer with Deformable Attention
論文紹介 : Vision Transformer with Deformable Attention論文紹介 : Vision Transformer with Deformable Attention
論文紹介 : Vision Transformer with Deformable Attention
 
Mvpvm pattern
Mvpvm patternMvpvm pattern
Mvpvm pattern
 
DRIVE CHARTを支えるAI技術
DRIVE CHARTを支えるAI技術DRIVE CHARTを支えるAI技術
DRIVE CHARTを支えるAI技術
 
ICCV 2019 論文紹介 (26 papers)
ICCV 2019 論文紹介 (26 papers)ICCV 2019 論文紹介 (26 papers)
ICCV 2019 論文紹介 (26 papers)
 
RIAアーキテクチャー研究会 第3回 セッション4 Mvpvm pattern
RIAアーキテクチャー研究会 第3回 セッション4 Mvpvm patternRIAアーキテクチャー研究会 第3回 セッション4 Mvpvm pattern
RIAアーキテクチャー研究会 第3回 セッション4 Mvpvm pattern
 
市場動向並びに弊社製品の今後の展望について
市場動向並びに弊社製品の今後の展望について市場動向並びに弊社製品の今後の展望について
市場動向並びに弊社製品の今後の展望について
 
SAS Viya Deep Dive: 予測モデリング
SAS Viya Deep Dive: 予測モデリングSAS Viya Deep Dive: 予測モデリング
SAS Viya Deep Dive: 予測モデリング
 
jQueryの先に行こう!最先端のWeb開発トレンドを学ぶ
jQueryの先に行こう!最先端のWeb開発トレンドを学ぶjQueryの先に行こう!最先端のWeb開発トレンドを学ぶ
jQueryの先に行こう!最先端のWeb開発トレンドを学ぶ
 
増加するコアを使い切れ!!
増加するコアを使い切れ!!増加するコアを使い切れ!!
増加するコアを使い切れ!!
 
エンプラに Kubernetes を 導入してみて分かった 4つの Lessons Learned
エンプラに Kubernetes を 導入してみて分かった 4つの Lessons Learnedエンプラに Kubernetes を 導入してみて分かった 4つの Lessons Learned
エンプラに Kubernetes を 導入してみて分かった 4つの Lessons Learned
 
アテンションモデルの注意深い調査
アテンションモデルの注意深い調査アテンションモデルの注意深い調査
アテンションモデルの注意深い調査
 
オブジェクトストレージのユースケース (Cloudweek2014 講演資料)
オブジェクトストレージのユースケース (Cloudweek2014 講演資料)オブジェクトストレージのユースケース (Cloudweek2014 講演資料)
オブジェクトストレージのユースケース (Cloudweek2014 講演資料)
 
[DL輪読会]Deep Face Recognition: A Survey
[DL輪読会]Deep Face Recognition: A Survey[DL輪読会]Deep Face Recognition: A Survey
[DL輪読会]Deep Face Recognition: A Survey
 
20180729 Preferred Networksの機械学習クラスタを支える技術
20180729 Preferred Networksの機械学習クラスタを支える技術20180729 Preferred Networksの機械学習クラスタを支える技術
20180729 Preferred Networksの機械学習クラスタを支える技術
 
Monadic Programmingのススメ - Functional Reactive Programmingへのアプローチ
Monadic Programmingのススメ - Functional Reactive ProgrammingへのアプローチMonadic Programmingのススメ - Functional Reactive Programmingへのアプローチ
Monadic Programmingのススメ - Functional Reactive Programmingへのアプローチ
 
実装(1) 【クラウドアプリケーションのためのオブジェクト指向分析設計講座 第30回】
実装(1) 【クラウドアプリケーションのためのオブジェクト指向分析設計講座 第30回】実装(1) 【クラウドアプリケーションのためのオブジェクト指向分析設計講座 第30回】
実装(1) 【クラウドアプリケーションのためのオブジェクト指向分析設計講座 第30回】
 
OpenStackプロジェクトの全体像~詳細編~
OpenStackプロジェクトの全体像~詳細編~OpenStackプロジェクトの全体像~詳細編~
OpenStackプロジェクトの全体像~詳細編~
 
ユーザー企業における標準化のあり方 : QCon Tokyo 2010
ユーザー企業における標準化のあり方 : QCon Tokyo 2010ユーザー企業における標準化のあり方 : QCon Tokyo 2010
ユーザー企業における標準化のあり方 : QCon Tokyo 2010
 
成長できるエンタープライズシステムを目指して-OSGiによるモジュール型アーキテクチャの実現-
成長できるエンタープライズシステムを目指して-OSGiによるモジュール型アーキテクチャの実現-成長できるエンタープライズシステムを目指して-OSGiによるモジュール型アーキテクチャの実現-
成長できるエンタープライズシステムを目指して-OSGiによるモジュール型アーキテクチャの実現-
 

Mais de Deep Learning JP

【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving PlannersDeep Learning JP
 
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについてDeep Learning JP
 
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...Deep Learning JP
 
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-ResolutionDeep Learning JP
 
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxivDeep Learning JP
 
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLMDeep Learning JP
 
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo... 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...Deep Learning JP
 
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place RecognitionDeep Learning JP
 
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?Deep Learning JP
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究についてDeep Learning JP
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )Deep Learning JP
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...Deep Learning JP
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"Deep Learning JP
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "Deep Learning JP
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat ModelsDeep Learning JP
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"Deep Learning JP
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...Deep Learning JP
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...Deep Learning JP
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...Deep Learning JP
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...Deep Learning JP
 

Mais de Deep Learning JP (20)

【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
 
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて
 
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
 
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
 
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
 
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM
 
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo... 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
 
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
 

[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Transformer:DAT)

  • 1. http://deeplearning.jp/ Vision Transformer with Deformable Attention (Deformable Attention Transformer:DAT) 小林 範久 Present Square Co.,Ltd. DEEP LEARNING JP [DL Papers] 1
  • 2. Copyright (C) Present Square Co., Ltd. All Rights Reserved. 書誌情報 Vision Transformer with Deformable Attention (Deformable Attention Transformer:DAT) https://arxiv.org/abs/2201.00520 タイトル: 著者: Zhuofan Xia, Xuran Pan, Shiji Song, Li Erran Li, Gao Huang • Deformable Attention Transformer は derformable(変形可能)な self-attention を画像認識 分野に導入したモデル。 • Deformable self-attention を利用することでより影響関係がある箇所に対して Attention を行うことが 可能となり、効率的かつより優位性のある処理が可能となった。 • ImageNetやCOCO、ADE20Kを利用したベンチマークテストでは、既存のPVTやSwinTransformerなど のSOTAとされるモデルよりも高い精度を記録した。 概要: 2
  • 3. Copyright (C) Present Square Co., Ltd. All Rights Reserved. アジェンダ 1. 導入 2. 先行研究 3. 手法 4. 実験 5. まとめ 3
  • 4. Copyright (C) Present Square Co., Ltd. All Rights Reserved. 1. 導入 背景 4 • Vision Transformer(ViT)が発表されて以降、画像処理でも Transformer ベースのモデル開発が進んでいる。 • Transformer を画像処理に利用した際のメリットは、受容野の広さにある。CNNなどよりも広範の領域を抑えることで、 より良い特徴量を取得することが可能となる。 • 一方で、ViT のような通常のTransformer のみを利用した場合、以下のデメリットがある。 • 必要とするメモリが大きい • 高い計算コスト • 学習の収束の遅延 • 過学習の危険性 • これらの問題に対応するため、Transofmer に対して様々な工夫が行われてきたが、その中でも有力な手法として、 Pyramid Vision Transformer (PVT)や Swin Transformer などがある。 ViTのデメリット
  • 5. Copyright (C) Present Square Co., Ltd. All Rights Reserved. 1. 導入 背景 5 • PVT や SwinTransformer は、画像内の領域をある程度絞り 込んだ箇所に対して Attention を行うことでメモリ効率や計算効 率を向上。 • 一方で、画像内の領域を絞り込むため、本来の領域から取得で きた広範な関係性の情報を失っている可能性がある。 • 領域を絞り込む際に、より影響関係がある領域を選択できるよう な Deformable self-attention を利用するDeformable Attention Transformer(DAT) を提案。 • 従来の画像処理モデルよりも効率や性能を向上させることに成功。
  • 6. Copyright (C) Present Square Co., Ltd. All Rights Reserved. 6 Vision Transformer(ViT, Dosovitskiy et al. 2020) • 画像処理で一般的なCNNなどを利用せずに純粋に Transformerのみを利用しているモデル。 • 画像を「画像パッチが連なったシーケンスデータ」として 扱うことで画像処理にTransformerを適用すること に成功。 • Transformerの「計算効率の良さ」と「スケーラビリ ティ」を画像処理タスクにもたらすことを成功。 画像パッチ(9つのパッチ)として入力 出典:https://arxiv.org/pdf/2010.11929.pdf 2. 先行研究
  • 7. Copyright (C) Present Square Co., Ltd. All Rights Reserved. 7 Pyramid Vision Transformer (PVT) • 計算コストを抑えるためにダウンサンプリングする 出典:https://arxiv.org/pdf/2102.12122.pdf 2. 先行研究 Swin Transformer • これらのモデルは、それぞれの目的をうまく果たし、ViTから性能を向上させることに成功した。 • ただし、Swin Transformer のような人力で構築された Attention 範囲は、効率の面から最適化されていない可 能性がある。また、重要なKey/Value 関係を落とした一方で、不要なものを利用している可能性がある。 • 理想は、各入力画像ごとに Attention 範囲を自由に変形しながら、重要な領域のみを利用できるようになること。 • ローカルウィンドウを利用することで Attention 範囲を 制限する https://arxiv.org/pdf/2103.14030.pdf
  • 8. Copyright (C) Present Square Co., Ltd. All Rights Reserved. 8 Deformable Convolution Networks(DCN) • このDCNで行われていることを Transformer に単純に応用しようとすると、高いメモリと計算コストが必要となり、 実用的ではなくなるという問題があった。 出典:https://openaccess.thecvf.com/content_ICCV_2017/papers/Dai_Deformable_Convolutional_Networks_ICCV_2017_paper.pdf 2. 先行研究 • 受容野を画像にあわせて柔軟に変形するモデル。
  • 9. Copyright (C) Present Square Co., Ltd. All Rights Reserved. 9 Deformable DETR • 情報ロスがあるためバックボーンネットワークとしては劣ってしまうという問題がある。 出典:https://arxiv.org/pdf/2010.04159.pdf 2. 先行研究 • Transformer とCNN を組み合わせたことで高精度 を達成した DETR に Deformable モジュールを組み 込んだモデル。
  • 10. Copyright (C) Present Square Co., Ltd. All Rights Reserved. 3. 手法 Deformable Attention Transformer(DAT) 10 • 画像分類や物体検出、セグメンテーションなどのバックボーンネットワークとして利用できるモデル。 • 画像認識領域に対して初めて「deformable self-attention backborn」を提案し、柔軟性と効率性を可能にした。 Deformable Attention(DA) • Deformable Attention が、DAT の軸となるモジュール。特徴量マップ内の重要な領域に対して Attention を 行うことで、効率よくトークン間の関係性をモデリングすることが可能。 • オフセットネットワークによるクエリから学習された変形可能なサンプリングポイントを利用することで対象となる Attention 領域を決定する。
  • 11. Copyright (C) Present Square Co., Ltd. All Rights Reserved. 11 3. 手法 DCNとの違い • DCNでは、特徴量マップの中の異なるピクセルに対して、異なる領域を学習するようになっている。 • DATでは、query-agnosticな領域グループを学習するように作成されている。領域グループで問題ないのは、近年 の研究から、グローバルアテンションの結果が、異なるクエリに対してほぼ同じアテンションパターンになるということが知ら れているため。 • このことで、Key/Values を重要な領域に焦点を合わせることが可能となる。各クエリに対して共有されシフトされた キーとバリューから似たような解を得ることで、より効率的なトレードオフが可能となっている。 3×3のDC(画像が𝐻 × 𝑊 × 𝐶) → 9 × 𝐻 × 𝑊 × 𝐶 Deformable Attention Transformer(DAT) Transformerに適用した場合 →𝑁𝑞 × 𝑁𝑘 × 𝐶( 𝑁𝑞 = 𝑁𝑘 = 𝐻 × 𝑊) ※計算コストが高すぎて、実用的でない。 計算コスト
  • 12. Copyright (C) Present Square Co., Ltd. All Rights Reserved. 3. 手法 Deformable Attentionの流れ 12 ① 入力として特徴量マップ 𝑥 ( 𝐻 × 𝑊 × 𝐶 ) を受け取る。 ② 一様格子のピクセル 𝑝 (𝐻𝐺 × 𝑊𝐺 × 2 (𝐻𝐺 = 𝐻/𝑟, 𝑊𝐺 = 𝑊/𝑟 でダウンサンプリングする)内の点)が参照点 (Reference Points)として生成される。 ③ 参照点は二次元座標{(0,0), …., (𝐻𝐺 − 1, 𝑊𝐺 − 1)}上に線形射影され、[-1, +1]の間に正規化される。 (Top-left=(-1,-1)) ④ 各参照点からオフセットを獲得するために、特徴量マップを線形射影し、クエリトークン 𝑞 = 𝑥𝑊𝑞 を取得する。
  • 13. Copyright (C) Present Square Co., Ltd. All Rights Reserved. 3. 手法 Deformable Attentionの流れ 13 ⑤ クエリトークン 𝑞 は、サブネットワークθ𝑜𝑓𝑓𝑠𝑒𝑡に投入され、オフセット を生成する。 ※学習過程を安定させるために、事前定義した値 𝑠 を用いて∆𝑝 が大きすぎるサブセットになるのを制限する。 (∆𝑝 ← 𝑠 tanh(∆𝑝)) ⑥ 参照点とオフセットの情報を足して、変形した参照点(Deformed Points)を得る。 ⑦ 変形した参照点に対してバイリニア補完を行い、特徴量 𝑥 をサンプルする。
  • 14. Copyright (C) Present Square Co., Ltd. All Rights Reserved. 3. 手法 Deformable Attentionの流れ 14 ⑧ ⑦の出力に対して、線形射影を行い、キートークン 𝑘 = 𝑥𝑊𝑘 と バリュートークン 𝑣= 𝑥 𝑊 𝑣 を得る。 ⑨ ポジションエンベディングに相当する情報を組み込んだ形で、Attention を行い最終的な値を出力する。
  • 15. Copyright (C) Present Square Co., Ltd. All Rights Reserved. 3. 手法 オフセット生成 15 Deformable Attention • Deformable Attention では、オフセット生成のために、サブネットワークを利用し ている。 • このサブネットワークでは、クエリを利用して参照点ごとにオフセット値を算出する。 • 各参照点が 𝑆 × 𝑆 の領域をカバーしていると考えると、サブネットワークは妥当なオ フセットを学習するためにローカル特徴量の知覚を必要とすると考えられる。 • そのため、非線形活性化関数を用いた2つの畳み込みモジュールをもつサブネット ワークを実装している。 サブネットワークの流れ ① k × k (論文では5×5)のデプスワイズ畳み込みによりローカル特徴量を獲得する。 ② GELU活性化関数に通す。 ③1×1の畳み込みを行い、オフセット値を獲得する。
  • 16. Copyright (C) Present Square Co., Ltd. All Rights Reserved. 3. 手法 16 Deformable Attention オフセットグループ • Deformed Points の多様性を促進するために、特徴量チャネルをG個のグループに分割する。(これは、 Multi-Head Self-Attention (MHSA)の手法と同様の考え方に基づくもの。) • 各グループに基づく特徴量は、妥当に対応しているオフセットを生成するために共有されたサブネットワークを利用 している。 • 実践的には、Multi Head Attention の個数 M は、オフセットグループの数であるG倍であるようにすることで、 確実に変形されたキーとバリューのトークンのグループの一つに対して、多重の Attention Head がアサインされ るような作りとなっている。 Deformable relative position bias • 相対位置バイアスは、クエリとキーのすべてのペア間の相対位置 をエンコードする。これにより、空間情報で通常の Attention が強化されることになる。 • DATでは、正規化の値、ポジションエンベディングとして、可能な すべてのオフセット値をカバーするための連続的な相対変位が行 われている。
  • 17. Copyright (C) Present Square Co., Ltd. All Rights Reserved. 3. 手法 17 計算コストについて • Deformable multi-head atten-tion (DMHA)は、PVT や Swin Transformer など 似たような計算コストになる。異なる点は、オフセットネットワークの計算量。 • 𝑁𝑠 = 𝐻𝐺 × 𝑊𝐺 = 𝐻 × 𝑊/𝑟2 • Swin-T(H=W = 14, Ns= 49, C= 384)との比較 • Swin-T が 79.63M FLOPsのとき、サブネットワークの追加によって生じる計算コストは、およそ 5.08M Flops 程 度となる。なお、ダウンサンプリングファクターである r の値を大きくすることで、より計算コストを削減することができる。
  • 18. Copyright (C) Present Square Co., Ltd. All Rights Reserved. 3. 手法 18 モデルアーキテクチャ • DAT では、画像タスクではマルチスケール特徴量マップを必要とするため、これまでの PVT などと同じような階層的 特徴量ピラミッドを形成する。 • Stage1及びStage2では、よりローカルな特徴を学習することを目的とするため、DAはあまり役にたたない。また空間も 広いため、計算コストのオーバーヘッドになるため、採用していない。代わりに、Swin Transformer で利用されるウィンド ウベースのローカルアテンション(Shift-Window Attention)でローカル部分の情報を統合している。 • Stage3及びStage4で Deformable Attention を利用している。このことで、ローカルから拡張されたトーク間のより 広域の関係性をモデリングすることが可能となる。
  • 19. Copyright (C) Present Square Co., Ltd. All Rights Reserved. 19 3. 手法 モデルアーキテクチャ • 分類タスクでは、最初に最終段階から出力された特徴マップを正規 化し、次にロジットを予測するためにプールされた特徴を持つ線形 分類器を採用している。 • 物体検出、セグメンテーションタスクでは、DATはモデルのバックボー ンの役割を果たし、マルチスケールの特徴を抽出している。 • 物体検出、セマンティックセグメンテーションのデコーダーなどでは、 FPN のように次のモジュールにフィードする前に、各ステージの機能 に正規化レイヤーを追加している。
  • 20. Copyright (C) Present Square Co., Ltd. All Rights Reserved. ImageNet1K を用いた実験 20 4. 実験 画像枚数:学習用1.28M 検証用50K オプティマイザ:AdamW エポック:300 初期学習率:1 × 10−3 (ウオームアップ 1 × 10−6→1 × 10−3) (cosine learning rate decay) データ拡張:RandAugment 、 Mixup、CutMix
  • 21. Copyright (C) Present Square Co., Ltd. All Rights Reserved. COCO Object Detection を用いた実験 21 4. 実験 • RetinaNet、Mask R-CNN、Cascade Mask R-CNNのバックボーンネットワークとして利用し、比較。 • Swin Transformer モデルなどと比べよい成果を出している。 • 特により大きな物体の検出が得意であることがわかった。 画像枚数:学習用118K 検証用5K 実験設定 事前学習:ImageNet-1K(300エポック) パラメータ:SwinTransformerと同じ
  • 22. Copyright (C) Present Square Co., Ltd. All Rights Reserved. ADE20K 22 4. 実験 画像枚数:学習用20K 検証用2K • SemanticFPN と UperNet のバックボーンネットワークとして利用して、比較。 • mIOU スコアで比較され、全体としてよりよい精度を出した。 • 特にPVT の Tiny モデルと比較すると、大きな改善がみられる。 SemanticFPN と UperNet のバックボーンネットワークとして利用 事前学習:ImageNet-1K 学習:SemanticFPN 40ステップ、UperNet 160K
  • 23. Copyright (C) Present Square Co., Ltd. All Rights Reserved. アブレーションスタディ 23 4. 実験 • オフセットとポジションエンベディングの必要性の確認 • Deformable Attention の有効なステージの確認 P:SRA attention S:Shift Window attention
  • 24. Copyright (C) Present Square Co., Ltd. All Rights Reserved. 可視化実験 24 4. 実験 • より重要な領域に対して参照点が変形されていることを確認。 (各点が格子上の状態をベースとして、対象物体に対して寄っていることが確認できる。)
  • 25. Copyright (C) Present Square Co., Ltd. All Rights Reserved. 5. まとめ 結論 • Deformable Attention Transformer は derformable(変形可能)な self-attention を画像認識分野に 導入したモデル。 • Deformable self-attention を利用することでより影響関係がある箇所に対して Attention を行うことが可能と なり、効率的かつより優位性のある処理が可能となった。 • ImageNetやCOCO、ADE20Kを利用したベンチマークテストでは、既存のPVTやSwinTransformerなどの SOTAとされるモデルよりも高い精度を記録した。 25
  • 26. Copyright (C) Present Square Co., Ltd. All Rights Reserved. Appendix 参考文献 • Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Łukasz Kaiser, and Illia Polosukhin. Attention is all you need. In NeurIPS, pages 5998–6008, 2017. • Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, et al. An image is worth 16x16 words: Transformers for image recognition at scale. arXiv preprint arXiv:2010.11929, 2020. • Ze Liu, Yutong Lin, Yue Cao, Han Hu, Yixuan Wei, Zheng Zhang, Stephen Lin, and Baining Guo. Swin transformer: Hierarchical vision transformer using shifted windows. ICCV, 2021. • Jifeng Dai, Haozhi Qi, Yuwen Xiong, Yi Li, Guodong Zhang, Han Hu, and Yichen Wei. Deformable convolutional networks. In ICCV, pages 764–773, 2017. • Wenhai Wang, Enze Xie, Xiang Li, Deng-Ping Fan, Kaitao Song, Ding Liang, Tong Lu, Ping Luo, and Ling Shao. Pyramid vision transformer: A versatile backbone for dense prediction without convolutions. In ICCV, 2021 • Xizhou Zhu, Weijie Su, Lewei Lu, Bin Li, Xiaogang Wang, and Jifeng Dai. Deformable detr: Deformable transformers for end-to-end object detection. arXiv preprint arXiv:2010.04159, 2020. 26