EfficientDet: Scalable and Efficient Object Detection

1
調和系工学研究室修士二年久保田
2020年5月13日
DLゼミ論文紹介
「EfficientDet:Scalable and
Efficient Object Detection」

論文情報
• タイトル
EfficientDet: Scalable and Efficient Object Detection
• 著者
Mingxing Tan,Ruoming Pang,Quoc V.Le
Google Research Brain Team
• 学会
CVPR2020
• まとめ
幅広いリソースに対応でき、
従来研究より高精度で効率的な
物体検出器であるEfficientDetを開発
(バックボーンにEfficientNet)
• 実装(公式)
https://github.com/google/automl/tree/master/efficientdet
2

背景
近年多くの研究によって正確になってきた物体検出
SOTAの検出器はモデルサイズと計算量が大きい
 ロボットや自動運転等の実世界での開発を妨げる
効率性重視のモデルも多く開発されてきた
 通常は精度が犠牲になる
 特定の、または限られたリソースのみを考慮
幅広いリソースの制約に応じた、高い精度と効率の両方を兼ね備えた検出
アーキテクチャの構築は可能か？
• この疑問に対して２つのチャレンジ
1. efficient multi-scale feature fusion
2. model scaling
3
疑問

Challenge1
efficient multi-scale feature fusion
• 物体検出で広く使われているFPN(feature pyramid network)
• 複数スケール特徴量を統合する
• cross-scaleのPANetやNAS-FPNなどの開発されてきた(下図bc)
• ほとんどの従来研究では異なる特徴量を単に足し合わせる
しかし…
異なる入力特徴量は異なる解像度を持つので出力に不均等に寄与するので
異なる入力特徴量の重要性を学習する重みを導入した双方向の
bi-directional feature pyramid network(BiFPN)を提案
4

Challenge2
model scaling
•従来は大きなバックボーンネットワークや入力画像サイズに依存
しかし…
精度と効率の両立には特徴量ネットワークとbox/class予測ネットワーク
のスケールアップも重要である
EfficientNetで優れた結果を残したcompound scalingを導入
• バックボーンネットワーク、特徴量ネットワーク、box/class予測ネ
ットワークに共通の係数を使用し一律にスケールアップする
5

BiFPN (challenge1:efficient multi-scale feature fusion)
FPNは様々な特徴量を効果的に集約し変換できるf()をみつけるのが目的
例として従来型のtop-down式のFPN(下図の一番左(a))の入出力
6
入力特徴量のリスト出力特徴量のリスト

BiFPN (challenge1 :efficient multi-scale feature fusion)
bottom-upを加えたcross-connections
• NAS-FPN
• 探索に時間がかかり、解釈・修正が困難
• PANet
• FPN,NAS-FPNより高精度だがパラメータ数・計算量多い
BiFPNではPANetからモデルの効率化のために3つの最適化を提案
7
改善

PANetからBiFPNへ3つ最適化
1. 入力エッジが一つしかないのノードを削除
• 特徴量の統合がなく、ネットワークにあまり寄与しないという直感
2. 同レベルの入出力間をつなぐエッジを追加
• 大きなコストをかけずに特徴を統合
3. 一つのレイヤとして扱い複数回繰り返す
• より高度に特徴を統合したい
8
改善

weighted Feature Fusion
それぞれの入力特徴量は異なる解像度のため出力に不均等に寄与
従来研究では区別せず扱っている
重みを加え各入力の重要性を学習させたい
３つの重み付けアプローチを提案
• Unbounded fusion
• unboundedがゆえに不安定
• Softmax-based fusion
• ソフトマックスで正規化したが
GPUハードウェアでslow down
• Fast normalized fusion
• 重みをReluを適用し0以上にし
値の不安定さ回避のため𝜀 = 0.0001
• softmaxに似た振る舞いでGPUで30％高速
• 最終的にこれを採用
9

• Fast normalized fusion
• 重みをReluを適用し0以上にし
値の不安定さ回避のため𝜀 = 0.0001
• softmaxに似た動きでGPUで30％高速
• 最終的にこれを採用
例えばレベル6の中間と出力はこのような計算になる
10

EfficientDet (challenge2:model scaling)
EfficientDet
• バックボーンにImageNetで事前訓練したEfficientNet
特徴量はP1,P2,…P7と解像度が2分の1になる
• 特徴量ネットワークBiFPNはP3~P7を受け取りを繰り返す
• 統合された特徴がclass/box networkに渡されて物体検出する
(class/box networkは過去研究(Retina Net等)と似たものの様子)
11

EfficientDet (challenge2 :model scaling)
• 精度と効率の最適化のために幅広いリソース制約を満たすモデル郡の開
発をしたい
 EfficientDetのスケールアップを試みる
• そこでネットワークの幅・深さ、入力画像を同時に変更し画像分類で顕
著なパフォーマンスを示したEfficientNetに習い、物体検出用に新しい
compound scalingを提案
 共通の係数φを導入し、BiFPNネットワーク、class/boxネットワー
ク、入力画像解像度を同時に変更
 物体検出のパラメータの多さからグリッドサーチは高コストなので、
ヒューリスティックなアプローチを使う
12

compound scaling
• Backbone network
 EfficientNetB0 to B6を再利用
• BiFPN network
 層数
 特徴量チャネル数
• box/class prediction network
 層数は
 特徴量チャネル数
• Input image resolution
 特徴量はP7まで1/2されるので、2の7乗=128で割り切れるように
する
13

compound scaling
EfficientDet-D0からEfficientDet-D7を開発
14

Experiments (object detection)
• COCOdatasets,300epochs,batch total size 128で訓練(on TPUv3 cores)
• EfficientDet-D0からD7に渡って4x-9x小さいParams,13x-42x少ないFLOPS
• D7においてはSOTAの精度
15

Experiments (object detection)
実際の推論時間を測定
•バッチサイズ1で10回モデルを回し平均と標準偏差をとった
•Titan-V GPU、Xeon CPU(single-thread)
•他手法に比べ最高でGPUで4.1x速く、CPUで10.8倍速く
実世界のハードウェアでも効率的であることを示した
16
横軸が推論時間、縦軸が精度横軸がモデル、縦軸が精度

Experiments (semantic segmentation)
semantic segmentationにも使えるとのこと
• EfficientDet-D4を使用
• DeepLabV3に比べ1.7%高精度で9.8x小さなFLOPS
17

Ablation Study (Disentagling backbone and BiFPN)
backboneであるEfficientNetとBiFPNがどれほど寄与しているか
• backboneのRetinaNet detector with ResNet50とFPNから始める
• backboneをEfficientNet-B3に置き換え
•より少ないparametersとFLOPSで約3APの増加
• FPNとBiFPNに置き換え
•より少ないparametersとFLOPSで約4APの増加
18

Ablation Study (BiFPN Cross-scale Connections)
BiFPN以外のCross-scale Connectionsの特徴ネットワークとの比較
•他手法で少ないParamsとFLOPsで高い精度
19

Ablation Study (Softmax vs Fast Normalized Fusion)
BiFPNの特徴量の重み付け手法の比較
•似た挙動だが採用したFast Fusionが近い精度で約1.3倍高速
•入力が２つのノードで比較。学習と共に急速に重みが変化している
如何に異なる解像度の入力が不均等に寄与しているかを示す
20

Ablation Study (Compound Scaling)
compound scalingとそれぞれ一つずつのみのscalingとの比較
• 他のscaling methodよりも高い精度と効率を示した
21

Conclusion
物体検出のためのネットワーク構造、重み付けのBiFPN、物体検出用の
compoundscalingについて体系的に研究しEfficientDetを開発
 幅広いリソースに対して一貫して従来研究より高精度で効率的
 より少ないパラメータとFLOPSで物体検出とセマンティッグセグメ
ーションにおいてSOTA
22

EfficientDet: Scalable and Efficient Object Detection

Recomendados

Recomendados

Mais conteúdo relacionado

Mais procurados

Mais procurados (20)

Semelhante a EfficientDet: Scalable and Efficient Object Detection

Semelhante a EfficientDet: Scalable and Efficient Object Detection (20)

Mais de harmonylab

Mais de harmonylab (20)

EfficientDet: Scalable and Efficient Object Detection