SlideShare uma empresa Scribd logo
1 de 31
DEEP LEARNING JP
[DL Seminar]
End-to-End Object Detection with Transformers
Hiromi Nakagawa ACES, Inc.
https://deeplearning.jp
• 著者:Nicolas Carion, Francisco Massa, Gabriel Synnaeve, Nicolas Usunier, Alexander Kirillov, Sergey Zagoruyko
– Facebook AI
• Published:arXiv @ 2020/05/26
– (Submitted to ECCV2020?)
• 概要
– 物体検出を直接集合予測タスクと見なしてTransformerを導入するDETRを提案
• DETR:DEtection TRansformer
– NMS等の複雑な後処理パイプラインなしに従来手法に匹敵する精度/速度を実現
– 物体検出(Object Detection)以外にPanoptic Segmentationのタスクでも同様に精度を確認
– ソースコード:https://github.com/facebookresearch/detr
2
Overview
• さまざまな物体検出のアプローチが存在するが、いずれも物体のbboxとクラスの集合の予測
タスクを直接は解けておらず、以下を回帰・分類する代理タスクを間接的に解いている
– Proposals: Faster RCNN, etc
– Anchors: Focal Loss, etc
– Window centers: CenterNet, etc
• これらの手法は、NMS(Non Maximum Suppression)のような、
重複した検出結果を除去する後処理によって精度が大きく影響される
• Transformerを用いて最終的な集合を直接予測する
End-to-Endなアプローチを提案、パイプラインを単純化し精度を改善
3
Introduction:従来の物体検出手法とその課題
Source | https://towardsdatascience.com/non-maximum-suppression-nms-93ce178e177c
4
Introduction:従来の物体検出手法とその課題
Source | https://ai.facebook.com/blog/end-to-end-object-detection-with-transformers
Proposed Method
6
参考:Transformer & DETR Transformer
7
DETR
8
DETR
① backboneで(C, H, W)の特徴マップを抽出
1x1Convで(d, H, W)にResize→(d, HW)にReshape
9
DETR
① backboneで(C, H, W)の特徴マップを抽出
1x1Convで(d, H, W)にResize→(d, HW)にReshape
② positional encodingで
要素の空間的な位置情報を埋め込む
10
DETR
① backboneで(C, H, W)の特徴マップを抽出
1x1Convで(d, H, W)にResize→(d, HW)にReshape
② positional encodingで
要素の空間的な位置情報を埋め込む
③ Encoderで特徴抽出
11
DETR
① backboneで(C, H, W)の特徴マップを抽出
1x1Convで(d, H, W)にResize→(d, HW)にReshape
② positional encodingで
要素の空間的な位置情報を埋め込む
③ Encoderで特徴抽出
④ DecoderでN個のobject queries (learned positional encoding)と
Encoderの出力から、N個の特徴を出力(並列処理、not自己回帰)。
中間層の出力もAuxiliary Lossとして最適化して学習安定化
12
DETR
① backboneで(C, H, W)の特徴マップを抽出
1x1Convで(d, H, W)にResize→(d, HW)にReshape
② positional encodingで
要素の空間的な位置情報を埋め込む
③ Encoderで特徴抽出
⑤ FFN(3層のMLP)でN個独立にクラスとbbox情報を出力
Nは事前に決めるハイパラ、N >> (1画像あたりの物体数)
“no object”クラスもあり
④ DecoderでN個のobject queries (learned positional encoding)と
Encoderの出力から、N個の特徴を出力(並列処理、not自己回帰)。
中間層の出力もAuxiliary Lossとして最適化して学習安定化
13
DETR
→Self- / Encoder-Decoder Attentionにより、画像内の全物体についてpair-wiseの関係を考慮&
画像全体のコンテキストを考慮した上でグローバルに推論可能
① backboneで(C, H, W)の特徴マップを抽出
1x1Convで(d, H, W)にResize→(d, HW)にReshape
② positional encodingで
要素の空間的な位置情報を埋め込む
③ Encoderで特徴抽出
⑤ FFN(3層のMLP)でN個独立にクラスとbbox情報を出力
Nは事前に決めるハイパラ、N >> (1画像あたりの物体数)
“no object”クラスもあり
④ DecoderでN個のobject queries (learned positional encoding)と
Encoderの出力から、N個の特徴を出力(並列処理、not自己回帰)。
中間層の出力もAuxiliary Lossとして最適化して学習安定化
1. N個の予測/正解についてBipartite Matching:
最小コストとなるN要素の順列σをハンガリアンアルゴリズムで探索、重複のない対応を見つける
2. マッチングした{予測,正解}の全ペアのロスを計算
14
物体検出をどのように直接集合予測のタスクとして解くか?
y: objectの正解集合
y^:N個の予測集合
正解iと予測σ(i)のpair-wise matching cost
クラスc_iの予測確率 bboxの予測
クラスc_iの予測確率の負の対数尤度
(no objectクラスは0.1倍して不均衡対策)
bbox lossはL1ロスとIoUロスの線形和
(L1のみだと物体のスケールの影響を受けるため)
Experiments
• Object Detectionの検証
– Dataset:COCO 2017
– Benchmark:Faster RCNN
• Faster RCNN*+:オリジナルのFaster RCNNにはない最適化テクニックやロスなどを追加したもの
– Backbone:ResNet50 or ResNet101
– Dilated Convolutionにより特徴マップの解像度を大きくしたversionも実験
(小さい物体の検出精度が上がる代わりに、パラメータ数・推論速度が増加する)
– スケールやクロップのDataAugmentationなども利用
– ベースとなるモデルは300エポックの学習にV100 x 16台 @ 3日間(バッチサイズ = 4 x 16 = 64)
• Panoptic Segmentationの検証
– Object Detectionだけでなく、ヘッドを付け加えるだけでSegmentationのタスクにも拡張できることを示す
16
実験設定
• 同程度のサイズのネットワークで、Faster RCNNを上回るAPを達成した
• AP_L(大きい物体に対するAP)は高い一方、AP_S(小さい物体に対するAP)は低い
– Dilated Convolutionを入れる(DC5)ことで多少改善するが、それでも不十分
– AP_Lの精度が高い理由は、Self-Attentionによってグローバルな情報を考慮しやすいためではないかと考察
(AP_Sの精度が低い理由については名言なし)
17
Object Detection:Faster RCNNとの精度比較
• Encoderがなくても動くが、精度は低い
• Encoderは増やすほど精度向上
18
Object Detection:Ablations
• EncoderのAttentionを可視化
• Encoderの時点で既にある程度インスタンスが分割されている
→これによりDecoderによる詳細な位置検出が単純化され、精度改善に寄与していると考えられる
19
Object Detection:Ablations
• 複数層あるDecoderの各レイヤーがどのような役割を果たしているか
– Auxiliary Lossを導入しているため、途中の層の出力も最適化されており、比較できる
• 層を経るごとに、AP/AP50いずれも精度が大きく改善している
• また、序盤の層ではNMSの効果があるが、層を経るに連れ効果がなくなる
– 最初の単一層だけでは、自身の出力同士の相互関係がわからず、重複した出力を出してしまう
→NMSの恩恵が存在する
– 二層目以降では、Self-Attentionにより自動で重複を削除可能
– 最終層では、NMSを入れるとむしろ精度が悪化する
• 直接集合予測により、
NMSのような後処理なしに重複のない予測を実現
20
Object Detection:Ablations
• Encoder同様に、DecoderのAttentionを可視化
• インスタンスを分離していたEncoderと異なり、足や頭などのより局所的な、物体の境界を注視している
– Encoderでインスタンスを分離することで、Decoderは境界のみを注視すれば良い用に役割分担できていると推察
21
Object Detection:Ablations
• Positional Encodingの種類や有無にもいろいろ
• 入れなかったり、各Attention層に都度入れずに最初の入力時だけ入れるような仕様だと、精度が下がる
22
Object Detection:Ablations
• ロスは、bboxについてL1ロスのみだと精度が低下
– L1ロス→bboxのスケールによる影響を受けやすく、小さい物体のロスが軽視されやすい
• スケール不変なGeneralized IoUロスを入れると、精度が改善
– 小さい物体に対するAP_Sが特に改善する
23
Object Detection:Ablations
• DecoderのN個の各スロットが、どのようなbboxを出力しているかを分析
– N=100のうち、20個を可視化
– 位置:画像全体に対する、 bboxの中心の相対的なxy座標
– 色:緑=小さいbbox、赤=大きい横長のbbox、青=大きい縦長のbbox
• スロットごとに、異なるエリア、異なるサイズの頻度分布を有する
• どのスロットも赤=大きい横長のbboxの出力が多いのは、COCOのデータ分布を反映していると考えられる
24
Object Detection:Analysis
• 未知のインスタンス数(Out of distribution)への対応
– 学習データに含まれない数のインスタンスが写っていても、正しく検知できるか?
• 学習データでは最大13匹しか写っていないキリンが24枚写っていても、正しく検知できた(左図)
– クラス特化の特徴を学習していないことを確認
• ただし、1画像内のインスタンス数が増えると精度が大きく低下することも確認している(右図)
25
Object Detection:Analysis
• DETRの性能をPanoptic Segmentationのタスクでも検証
• Faster RCNN→Mask RCNNのように、DETRもヘッドをいじることで同タスクに拡張可能
26
Panoptic Segmentation
• PanopticFPN等のベースラインよりも高精度を達成
• 特にThings(ex. car, person)よりもStuffs(ex: sky, road)の精度に優位性
– よりグローバルな情報が重要になるからだと考えられる
27
Panoptic Segmentation
• 定性的結果
28
Panoptic Segmentation
Conclusion
• 物体検出を直接集合予測タスクと見なしてTransformerを導入するDETRを提案
– Self- / Encoder-Decoder Attentionにより、画像内の全物体についてpair-wiseの関係を考慮
&画像全体のコンテキストを考慮した上でグローバルに推論可能
• NMS等の複雑な後処理パイプラインなしに従来手法に匹敵する精度/速度を実現
– Encoderはインスタンスレベルの分離を、Decoderは物体の境界を注視していることを確認
– Decoderを積み重ねてSelf-Attentionを効かせることで、重複を自動で除去できるようになっている
• 物体検出(Object Detection)以外にPanoptic Segmentationのタスクでも効果を確認
• 初期的な検証のため課題も存在するが、物体検出の新たなアプローチを切り開いた
– グローバルな情報を集約できることから、大きい物体には強いが、小さい物体ではベースラインに劣る
30
まとめ
• Transformerというと自然言語のイメージが強いが、物体検出のタスクを直接集合予測のタスクとして
定式化して、既存の重複予測等の課題を解決したのは鮮やか
• 小物体の精度などは、局所的な注意やマルチスケールなど、既存の技術を拡張して普通に克服されそう
• 一方、クラス数が増えても精度を保てるか、学習効率への影響などは気になる(例:Bipartite matching)
• Proposal、Anchor、Center-based等に続く
新たなトレンドとなるか
– 先日出たYOLOv4の図で言うと左上らへんにあたる
(同じV100なので比較可能と推察)
– Transformerが深いせいか、
現状速度的な優位性はあまりなさそう。今後に期待
31
感想
Source |YOLOv4: Optimal Speed and Accuracy of Object Detection

Mais conteúdo relacionado

Mais procurados

Transformer メタサーベイ
Transformer メタサーベイTransformer メタサーベイ
Transformer メタサーベイcvpaper. challenge
 
[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech,...
[DL輪読会]data2vec: A General Framework for  Self-supervised Learning in Speech,...[DL輪読会]data2vec: A General Framework for  Self-supervised Learning in Speech,...
[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech,...Deep Learning JP
 
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜SSII
 
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...Deep Learning JP
 
[DL輪読会]Objects as Points
[DL輪読会]Objects as Points[DL輪読会]Objects as Points
[DL輪読会]Objects as PointsDeep Learning JP
 
近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer近年のHierarchical Vision Transformer
近年のHierarchical Vision TransformerYusuke Uchida
 
GAN(と強化学習との関係)
GAN(と強化学習との関係)GAN(と強化学習との関係)
GAN(と強化学習との関係)Masahiro Suzuki
 
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話Yusuke Uchida
 
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜SSII
 
【DL輪読会】Scaling Laws for Neural Language Models
【DL輪読会】Scaling Laws for Neural Language Models【DL輪読会】Scaling Laws for Neural Language Models
【DL輪読会】Scaling Laws for Neural Language ModelsDeep Learning JP
 
【DL輪読会】"Masked Siamese Networks for Label-Efficient Learning"
【DL輪読会】"Masked Siamese Networks for Label-Efficient Learning"【DL輪読会】"Masked Siamese Networks for Label-Efficient Learning"
【DL輪読会】"Masked Siamese Networks for Label-Efficient Learning"Deep Learning JP
 
[DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Und...
[DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Und...[DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Und...
[DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Und...Deep Learning JP
 
【DL輪読会】時系列予測 Transfomers の精度向上手法
【DL輪読会】時系列予測 Transfomers の精度向上手法【DL輪読会】時系列予測 Transfomers の精度向上手法
【DL輪読会】時系列予測 Transfomers の精度向上手法Deep Learning JP
 
【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習cvpaper. challenge
 
【メタサーベイ】Video Transformer
 【メタサーベイ】Video Transformer 【メタサーベイ】Video Transformer
【メタサーベイ】Video Transformercvpaper. challenge
 
【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...
【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...
【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...Deep Learning JP
 
Attentionの基礎からTransformerの入門まで
Attentionの基礎からTransformerの入門までAttentionの基礎からTransformerの入門まで
Attentionの基礎からTransformerの入門までAGIRobots
 
【チュートリアル】コンピュータビジョンによる動画認識
【チュートリアル】コンピュータビジョンによる動画認識【チュートリアル】コンピュータビジョンによる動画認識
【チュートリアル】コンピュータビジョンによる動画認識Hirokatsu Kataoka
 
[DL輪読会]医用画像解析におけるセグメンテーション
[DL輪読会]医用画像解析におけるセグメンテーション[DL輪読会]医用画像解析におけるセグメンテーション
[DL輪読会]医用画像解析におけるセグメンテーションDeep Learning JP
 

Mais procurados (20)

Transformer メタサーベイ
Transformer メタサーベイTransformer メタサーベイ
Transformer メタサーベイ
 
[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech,...
[DL輪読会]data2vec: A General Framework for  Self-supervised Learning in Speech,...[DL輪読会]data2vec: A General Framework for  Self-supervised Learning in Speech,...
[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech,...
 
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
 
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
 
[DL輪読会]Objects as Points
[DL輪読会]Objects as Points[DL輪読会]Objects as Points
[DL輪読会]Objects as Points
 
近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer
 
GAN(と強化学習との関係)
GAN(と強化学習との関係)GAN(と強化学習との関係)
GAN(と強化学習との関係)
 
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
 
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
 
【DL輪読会】Scaling Laws for Neural Language Models
【DL輪読会】Scaling Laws for Neural Language Models【DL輪読会】Scaling Laws for Neural Language Models
【DL輪読会】Scaling Laws for Neural Language Models
 
【DL輪読会】"Masked Siamese Networks for Label-Efficient Learning"
【DL輪読会】"Masked Siamese Networks for Label-Efficient Learning"【DL輪読会】"Masked Siamese Networks for Label-Efficient Learning"
【DL輪読会】"Masked Siamese Networks for Label-Efficient Learning"
 
[DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Und...
[DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Und...[DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Und...
[DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Und...
 
【DL輪読会】時系列予測 Transfomers の精度向上手法
【DL輪読会】時系列予測 Transfomers の精度向上手法【DL輪読会】時系列予測 Transfomers の精度向上手法
【DL輪読会】時系列予測 Transfomers の精度向上手法
 
【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習
 
【メタサーベイ】Video Transformer
 【メタサーベイ】Video Transformer 【メタサーベイ】Video Transformer
【メタサーベイ】Video Transformer
 
【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...
【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...
【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...
 
Semantic segmentation
Semantic segmentationSemantic segmentation
Semantic segmentation
 
Attentionの基礎からTransformerの入門まで
Attentionの基礎からTransformerの入門までAttentionの基礎からTransformerの入門まで
Attentionの基礎からTransformerの入門まで
 
【チュートリアル】コンピュータビジョンによる動画認識
【チュートリアル】コンピュータビジョンによる動画認識【チュートリアル】コンピュータビジョンによる動画認識
【チュートリアル】コンピュータビジョンによる動画認識
 
[DL輪読会]医用画像解析におけるセグメンテーション
[DL輪読会]医用画像解析におけるセグメンテーション[DL輪読会]医用画像解析におけるセグメンテーション
[DL輪読会]医用画像解析におけるセグメンテーション
 

Semelhante a [DL輪読会]End-to-End Object Detection with Transformers

物体検知(Meta Study Group 発表資料)
物体検知(Meta Study Group 発表資料)物体検知(Meta Study Group 発表資料)
物体検知(Meta Study Group 発表資料)cvpaper. challenge
 
関西CVPRML 2011.8.27
関西CVPRML 2011.8.27関西CVPRML 2011.8.27
関西CVPRML 2011.8.27Akisato Kimura
 
オブジェクト指向入門6
オブジェクト指向入門6オブジェクト指向入門6
オブジェクト指向入門6Kenta Hattori
 
2020 08 05_dl_DETR
2020 08 05_dl_DETR2020 08 05_dl_DETR
2020 08 05_dl_DETRharmonylab
 
Objectnessとその周辺技術
Objectnessとその周辺技術Objectnessとその周辺技術
Objectnessとその周辺技術Takao Yamanaka
 
Learning Convolutional Neural Networks for Graphs
Learning Convolutional Neural Networks for GraphsLearning Convolutional Neural Networks for Graphs
Learning Convolutional Neural Networks for GraphsTakuya Akiba
 
Learning Convolutional Neural Networks for Graphs
Learning Convolutional Neural Networks for GraphsLearning Convolutional Neural Networks for Graphs
Learning Convolutional Neural Networks for GraphsTakuya Akiba
 
Knowledge_graph_alignment_with_entity-pair_embedding
Knowledge_graph_alignment_with_entity-pair_embeddingKnowledge_graph_alignment_with_entity-pair_embedding
Knowledge_graph_alignment_with_entity-pair_embeddingAce12358
 
Learning Deep Architectures for AI (第 3 回 Deep Learning 勉強会資料; 松尾)
Learning Deep Architectures for AI (第 3 回 Deep Learning 勉強会資料; 松尾)Learning Deep Architectures for AI (第 3 回 Deep Learning 勉強会資料; 松尾)
Learning Deep Architectures for AI (第 3 回 Deep Learning 勉強会資料; 松尾)Ohsawa Goodfellow
 
ArtTrack: Articulated Multi-Person Tracking in the Wild : CV勉強会関東
ArtTrack: Articulated Multi-Person Tracking in the Wild : CV勉強会関東ArtTrack: Articulated Multi-Person Tracking in the Wild : CV勉強会関東
ArtTrack: Articulated Multi-Person Tracking in the Wild : CV勉強会関東Yukiyoshi Sasao
 
Deep Learningの基礎と応用
Deep Learningの基礎と応用Deep Learningの基礎と応用
Deep Learningの基礎と応用Seiya Tokui
 
Depth from Videos in the Wild: Unsupervised Monocular Depth Learning from Unk...
Depth from Videos in the Wild: Unsupervised Monocular Depth Learning from Unk...Depth from Videos in the Wild: Unsupervised Monocular Depth Learning from Unk...
Depth from Videos in the Wild: Unsupervised Monocular Depth Learning from Unk...Kazuyuki Miyazawa
 
Oocon2020 presentation slide @kozukorio
Oocon2020 presentation slide @kozukorioOocon2020 presentation slide @kozukorio
Oocon2020 presentation slide @kozukorioHirokazu Kobayashi
 
ICML2018読み会: Overview of NLP / Adversarial Attacks
ICML2018読み会: Overview of NLP / Adversarial AttacksICML2018読み会: Overview of NLP / Adversarial Attacks
ICML2018読み会: Overview of NLP / Adversarial AttacksMotoki Sato
 
オブジェクト指向入門5
オブジェクト指向入門5オブジェクト指向入門5
オブジェクト指向入門5Kenta Hattori
 
第13回関西CVPRML勉強会発表資料
第13回関西CVPRML勉強会発表資料第13回関西CVPRML勉強会発表資料
第13回関西CVPRML勉強会発表資料Yutaka Yamada
 
CVPR2016読み会 "Inside-Outside Net: Detecting Objects in Context with Skip Pooli...
CVPR2016読み会 "Inside-Outside Net: Detecting Objects in Context with Skip Pooli...CVPR2016読み会 "Inside-Outside Net: Detecting Objects in Context with Skip Pooli...
CVPR2016読み会 "Inside-Outside Net: Detecting Objects in Context with Skip Pooli...The University of Tokyo
 
データサイエンス概論第一=2-1 データ間の距離と類似度
データサイエンス概論第一=2-1 データ間の距離と類似度データサイエンス概論第一=2-1 データ間の距離と類似度
データサイエンス概論第一=2-1 データ間の距離と類似度Seiichi Uchida
 

Semelhante a [DL輪読会]End-to-End Object Detection with Transformers (20)

物体検知(Meta Study Group 発表資料)
物体検知(Meta Study Group 発表資料)物体検知(Meta Study Group 発表資料)
物体検知(Meta Study Group 発表資料)
 
関西CVPRML 2011.8.27
関西CVPRML 2011.8.27関西CVPRML 2011.8.27
関西CVPRML 2011.8.27
 
オブジェクト指向入門6
オブジェクト指向入門6オブジェクト指向入門6
オブジェクト指向入門6
 
20141008物体検出器
20141008物体検出器20141008物体検出器
20141008物体検出器
 
2020 08 05_dl_DETR
2020 08 05_dl_DETR2020 08 05_dl_DETR
2020 08 05_dl_DETR
 
Objectnessとその周辺技術
Objectnessとその周辺技術Objectnessとその周辺技術
Objectnessとその周辺技術
 
Learning Convolutional Neural Networks for Graphs
Learning Convolutional Neural Networks for GraphsLearning Convolutional Neural Networks for Graphs
Learning Convolutional Neural Networks for Graphs
 
Learning Convolutional Neural Networks for Graphs
Learning Convolutional Neural Networks for GraphsLearning Convolutional Neural Networks for Graphs
Learning Convolutional Neural Networks for Graphs
 
Knowledge_graph_alignment_with_entity-pair_embedding
Knowledge_graph_alignment_with_entity-pair_embeddingKnowledge_graph_alignment_with_entity-pair_embedding
Knowledge_graph_alignment_with_entity-pair_embedding
 
Learning Deep Architectures for AI (第 3 回 Deep Learning 勉強会資料; 松尾)
Learning Deep Architectures for AI (第 3 回 Deep Learning 勉強会資料; 松尾)Learning Deep Architectures for AI (第 3 回 Deep Learning 勉強会資料; 松尾)
Learning Deep Architectures for AI (第 3 回 Deep Learning 勉強会資料; 松尾)
 
ArtTrack: Articulated Multi-Person Tracking in the Wild : CV勉強会関東
ArtTrack: Articulated Multi-Person Tracking in the Wild : CV勉強会関東ArtTrack: Articulated Multi-Person Tracking in the Wild : CV勉強会関東
ArtTrack: Articulated Multi-Person Tracking in the Wild : CV勉強会関東
 
Deep Learningの基礎と応用
Deep Learningの基礎と応用Deep Learningの基礎と応用
Deep Learningの基礎と応用
 
Depth from Videos in the Wild: Unsupervised Monocular Depth Learning from Unk...
Depth from Videos in the Wild: Unsupervised Monocular Depth Learning from Unk...Depth from Videos in the Wild: Unsupervised Monocular Depth Learning from Unk...
Depth from Videos in the Wild: Unsupervised Monocular Depth Learning from Unk...
 
Oocon2020 presentation slide @kozukorio
Oocon2020 presentation slide @kozukorioOocon2020 presentation slide @kozukorio
Oocon2020 presentation slide @kozukorio
 
深層学習による自然言語処理の研究動向
深層学習による自然言語処理の研究動向深層学習による自然言語処理の研究動向
深層学習による自然言語処理の研究動向
 
ICML2018読み会: Overview of NLP / Adversarial Attacks
ICML2018読み会: Overview of NLP / Adversarial AttacksICML2018読み会: Overview of NLP / Adversarial Attacks
ICML2018読み会: Overview of NLP / Adversarial Attacks
 
オブジェクト指向入門5
オブジェクト指向入門5オブジェクト指向入門5
オブジェクト指向入門5
 
第13回関西CVPRML勉強会発表資料
第13回関西CVPRML勉強会発表資料第13回関西CVPRML勉強会発表資料
第13回関西CVPRML勉強会発表資料
 
CVPR2016読み会 "Inside-Outside Net: Detecting Objects in Context with Skip Pooli...
CVPR2016読み会 "Inside-Outside Net: Detecting Objects in Context with Skip Pooli...CVPR2016読み会 "Inside-Outside Net: Detecting Objects in Context with Skip Pooli...
CVPR2016読み会 "Inside-Outside Net: Detecting Objects in Context with Skip Pooli...
 
データサイエンス概論第一=2-1 データ間の距離と類似度
データサイエンス概論第一=2-1 データ間の距離と類似度データサイエンス概論第一=2-1 データ間の距離と類似度
データサイエンス概論第一=2-1 データ間の距離と類似度
 

Mais de Deep Learning JP

【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving PlannersDeep Learning JP
 
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについてDeep Learning JP
 
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...Deep Learning JP
 
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-ResolutionDeep Learning JP
 
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxivDeep Learning JP
 
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLMDeep Learning JP
 
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo... 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...Deep Learning JP
 
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place RecognitionDeep Learning JP
 
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?Deep Learning JP
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究についてDeep Learning JP
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )Deep Learning JP
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...Deep Learning JP
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"Deep Learning JP
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "Deep Learning JP
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat ModelsDeep Learning JP
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"Deep Learning JP
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...Deep Learning JP
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...Deep Learning JP
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...Deep Learning JP
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...Deep Learning JP
 

Mais de Deep Learning JP (20)

【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
 
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて
 
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
 
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
 
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
 
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM
 
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo... 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
 
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
 

[DL輪読会]End-to-End Object Detection with Transformers