Crowd Counting & Detection論文紹介

Copyright © DeNA Co.,Ltd. All Rights Reserved.Copyright (C) 2018 DeNA Co.,Ltd. All Rights Reserved.
Crowd Counting & Detection
論文紹介
Plot Hong
AI Research and Development Gr.3
AI System Dept.
DeNA Co., Ltd.
1

Copyright © DeNA Co.,Ltd. All Rights Reserved.
Keyword: Crowd
混雑シーンでのコンピュータビジョン課題を解決するための研究テーマ
→ 公共の場所での人の情報を理解するため（人数、人の流れ、人の行動 etc.）
混雑したCVPR2019会場

Keyword: Crowd
主な課題点：
1. 教師学習のアノテーションコストが高い
2. 対象物体のサイズが小さい
3. 物体と物体のoverlapが多くて、個々の結果は干渉されやすい
etc.

主流手法
detection based method:
物体（人）検出で全ての対象を検出する
+ 各個人の詳細情報を得られる（各人の位置・姿勢・行動など）
+ モデル汎化性能が良い
- 密集度が高い人の群れに対して検出効果が弱い
- （教師ありの場合）訓練データのアノテーションコストが高い
[1]

主流手法
map based method:
画像の特徴を抽出し、その特徴をregressionで全体の人数情報などを得る
+密集度が高い人の群れやocclusionなどに対して効果が強い
- 訓練データの人の分布にoverfitしやすい
[1]

map based methodの基本フレームワーク
1. Feature Extraction
CNNでfeatureを抽出する
例えば、論文[2]で下記構造のmulti-column convolutional neural networkを使っている。
マルチサイズのカーネルを採用理由は、異なる密集度のfeatureを獲得するため。

map based methodの基本フレームワーク
2. Density Map Generation
基本のdensity functionはこのようです：
Ii ：画像上すべてのピクセル点の集合
：Ground truth点のピクセル位置
：Ground truth点の集合
：2D ガウシアンカーネル
3. Loss Function
画像上各ピクセル点のLp Metric（e.g. L2 square error）を計算するや、
density map上全ての点の和でLp Metricを計算する、などの方法がある

● Adaptive NMS: Refining Pedestrian Detection in a Crowd → 検出
● Point in, Box out:Beyond Counting Persons in Crowds → カウンティング＋検出
● CrowdPose: Efficient Crowded Scenes Pose Estimation and A New Benchmark → 姿勢推
定
紹介論文リスト

Adaptive NMS:
Refining Pedestrian Detection in a Crowd
link:

Summary
混雑シーンでの人物検出の精度を向上するために、bboxの重なり具合を量的に予
測し、それに基づいてNMS(Non-maximum suppression)の閾値を調整する手法を提案
(青：検出漏れ；赤：False
Positive)

Related Work
Greedy-NMS(通常のNMS) とSoft-NMS
Greedy-NMS：
Soft-NMS： or
どちらも、混雑状況ではMと重なっているbboxは
大きく抑制されて、false positiveと判定されやす
い
M: detection scoreが最大のbbox
bi: i番目のbbox
si: i番目のbboxのdetection score
Nt: 固定のNMS閾値

Method
bboxのdensityを定義
ground truthセットの中に、対象bboxと他のbboxとの最大のIOU
Adaptive NMS
混雑した領域 → high density → 高い閾値
まばらな領域 → low density → 低い閾値
全てのGT Gの中で、対象bbox i以外の全てのbbox

Method
訓練時、densityを回帰で学習する
通常のdetector networkの後ろにdensity prediction subnetを追加する。
feature map と bbox predictions とobjectness predictionsを入力とし、Smooth-L1 Lossを
損失関数とする（緑枠）

Method
two-stageでもone-stageでも使用できる
● two-stageの場合、RPNのtopに追加（青枠）
● one-stageの場合、networkの最後に追加（赤枠）

Results
CityPersons Dataset *1での結果
（MR-2は log-average Miss Rateで、低いほど精度がいい。）
*1. Shanshan Zhang, Rodrigo Benenson, and Bernt Schiele. Citypersons: A diverse dataset for pedestrian detection. In CVPR, 2017.

Results
CityHuman Dataset *1での結果
（MR-2は log-average Miss Rateで、低いほど精度がいい。）
*1. Shuai Shao, Zijian Zhao, Boxun Li, Tete Xiao, Gang Yu, Xiangyu Zhang, and Jian Sun. Crowdhuman: A benchmark for detecting human in a crowd. arXiv preprint
arXiv:1805.00123, 2018.

Results
bbox densityを基に混雑レベルが異なる5グループに分けたときの、各グループの
MR-2点数

Results
greedy-NMS, soft-NMS, adaptive NMSの可視化
(青：検出漏れ；赤：False Positive)

link:
Point in, Box out:
Beyond Counting Persons in Crowds

Summary
低コストの点アノテーションデータセットで学習するだけで，
同時に混雑人数カウンティングと頭の位置とサイズを検出する手法を提案する

Method
● 擬似ground truth初期化
混雑シーンで、nearest neighborとの距離が頭のサイズ情報を反映するため、
初期 bbox g の擬似ground truth は、各アノテーション点と nearest neighbor との距
離 d(g, NNg) の正方形にする

Method
● オンラインGround truth更新
サイズは d(g, NNg) より小さく、尚且つg とのIOUが0.7以上のanchor boxをpositive
anchorsとする。
1 epoch 学習後，positive anchorsの中で一番高いdetection scoreだったanchor boxで
g を置き換える

Method
● Locally-constrained regression loss
擬似 Ground truth は正確ではないが，同じ水平線上にある頭のサイズは大体同
じと仮定
1. bbox 中心 gx, gy のロスはアノテーション点とL2 Lossで計算
2. bboxのgw, ghのロスは，row i-1 : i+1, column 1 : W 範囲（bbox 中心がいる行と上
下二行）内のすべての擬似 ground truth の平均と標準偏差で計算する
小
大
サイズが3σ範囲以外のbboxをペナルティを課す

Method
● カリキュラム学習の方針を採用
問題点：
人が混雑し過ぎている場合，頭の初期 Box が小さくて検出しづらい．
一方、人がまばらだと擬似GTの初期サイズは実際のサイズより遥かに大きい．
上記のようなサンプルは非常に学習しにくい
解決策：
1. 学習難易度によってデータセットを Split し，頭の初期 bbox size が中くらいで
難易度が低いセットから学習する
2. だんだん難易度が高いセットを追加して学習する

Method
ネットワーク構造
1. ResNet-101 backbone の Anchor based detection framework を元に構築する
2. 頭の neareast neighbor 距離で Clustering して，Anchor のアスペクト比を決める
3. ResNet block 3 & 4 の出力をそれぞれ Detection layers（それぞれ異なる Scaleの
Anchor を持つ）に入力し、2つの出力を加算して Final pred を出力する

Results
混雑人数カウンティング結果

Results
WiderFace での検出結果

Results
各データセットでのアノテーション（上）と検出結果（下）
緑：良い検出結果黄：精度悪い検出結果

CrowdPose:
Efficient Crowded Scenes Pose Estimation
and A New Benchmark
link:

Summary
人物が重なりあった混雑シーンに対応できるポーズ推定手法と
多様な混雑度レベルの画像を含む CrowdPose データセットの提案

Method
ポーズ推定手法（1/4）
Top-down のフレームワーク
人領域（Bounding box）の検出器として YOLOv3 を用い，それぞれの Box 内の
ポーズ推定は Single-person pose estimator（SPPE，単一人物姿勢推定）で行い，
高性能な従来手法である AlphaPose を修正して使用

Method
本来，AlphaPoseでは，人検出器で画像の中に各人物の領域（ROI）を検出した後，
その人に属する関節点のみを正解関節点としてロスを計算する．
本論文では，各人物の領域（ROI）に対して，その人物に属するかどうかを問わず
ROI 内に存在する全ての関節点を正解関節点としてJoint-candidate loss を計算する．
対象人物の関節点干渉関節点
赤：対象人物関節点緑：干渉関節点
head
right knee

Method
全 ROI の関節点を入力画像にマッピングし，距離が近い同種類の関節点をグルーピ
ングし関節点ノードとする．
これによって，2で重複して検出された関節点を一つのノードとしてまとめる．

Method
全ての関節点ノードを Global Association ステップで各人物のノードに割り当て，
統合する．これにより，画像全体の視点から各人の関節点をより正確に割り当てる
ことができる．

Results
Crowd Index に対する各デファクト手法の精度を見ると（左），Crowd Index の大小
で mAP が 20ポイントも変化することがわかる．
一方，各データセットにおけるCrowdIndex の分布（中央・右）によると，新たに作
成した CrowdPose は様々な混雑度の画像をまんべんなく含んでいる．
図A2：Crowd Indexとランドマーク精度の関係（左）
MSCOCO と CrowdPose データセットにおける Crowd Index の分布（中央，右）

Results
CrowdPose データセットを用いた，提案モデルのベンチマーク結果は図 A3 のよう
になった．OpenPose, Mask R-CNN, AlphaPose, Xiao らの手法を上回っている．

Results
MSCOCO データセットを用いたベンチマークにおいても高い精度となった．
やはり Mask R-CNN, AlphaPose, Xiao らの手法を上回っている．

参考文献
[1] Lu Zhang, Miaojing Shi, Qiaobo Chen. Crowd Counting via Scale-Adaptive Convolutional Neural Network. WACV
2018 - IEEE Winter Conference on Applications of Computer Vision, Mar 2018, Lake Tahoe, United States. pp.1-9,
ff10.1109/WACV.2018.00127ff. ffhal-01830946

Crowd Counting & Detection論文紹介

Recomendados

Recomendados

Mais conteúdo relacionado

Mais procurados

Mais procurados (20)

Semelhante a Crowd Counting & Detection論文紹介

Semelhante a Crowd Counting & Detection論文紹介 (20)

Mais de Plot Hong

Mais de Plot Hong (7)

Crowd Counting & Detection論文紹介