6. Mobility Technologies Co., Ltd.
応⽤タスク
6
https://arxiv.org/pdf/1905.12365.pdf
3次元物体検出 Pose
DNN
n 画像から直接的に姿勢 (4DoF) を推定
l 2次元位置
l デプス
l 向き
n ⻑所:シンプルなend-to-end学習が可能
n 短所:解釈性が低い、過学習しやすい
7. Mobility Technologies Co., Ltd.
応⽤タスク
7
http://proceedings.mlr.press/v87/tremblay18a/tremblay18a.pdf
6DoF姿勢推定
R, t
n 対象の3次元モデルは既知
n 3次元点とその2次元投影点の対応関係を求め、
最適化問題として姿勢を推定
→ PnP (Perspective-n-Points) 問題
8. Mobility Technologies Co., Ltd.
PnP問題
8
y = {R, t}
xi
2D
xi
3D
PnP問題では、3次元点 xi
3D の画像への投影点と、
対応する2次元点 xi
2D との距離(再投影誤差)を
最⼩化することで物体の姿勢 y を求める
n 対象の3次元モデルは既知
n 3次元点とその2次元投影点の対応関係を求め、
最適化問題として姿勢を推定
→ PnP (Perspective-n-Points) 問題
3次元から2次元への投影
各対応点への重み
(wi
2D)
X = {xi
3D, xi
2D, wi
2D | i = 1, …, N}
9. Mobility Technologies Co., Ltd.
【参考】OpenCV: Perspective-n-Point (PnP) pose computation
9
https://docs.opencv.org/4.6.0/d5/d1f/calib3d_solvePnP.html
⼀番有名なソルバはEPnP (?)
Vincent Lepetit et al., “Accurate Non-Iterative O(n) Solution to the
PnP Problem,” IJCV2009.
10. Mobility Technologies Co., Ltd.
Deep Learning + PnP
10
Pose y
DNN X = {xi
2D, xi
3D, wi
2D | i = 1, …, N} PnP Solver
n ⼀般的にPnP問題それ⾃体においては2D-3D対応(及び重み)X は既知とされる
n しかし当然ながら実際には X は未知であり、Deep Learningにより推定する⼿法が主流
11. Mobility Technologies Co., Ltd.
PVNet
11
Pose y
DNN X = {xi
2D, xi
3D, wi
2D | i = 1, …, N} PnP Solver
n 中間表現である2D-3D対応に対してロスをか
けるtwo-stage⼿法
n 2Dキーポイントを指し⽰すベクトルを各画
素で推定し、その投票により2Dキーポイン
トを求めて2D-3D対応からPnPを解く
n 安定的ではあるものの、中間表現に対して
ロスをかけているためsub-optimalである
Loss
Sida Peng et al., “PVNet: Pixel-wise Voting Network for 6DoF Pose Estimation,” CVPR2019.
12. Mobility Technologies Co., Ltd.
BPnP
12
Pose y
DNN X = {xi
2D, xi
3D, wi
2D | i = 1, …, N} PnP Solver
n 最終的に求めたい姿勢に対してロスをかけ
るend-to-end⼿法
n PnP Solverは微分不可能だが、陰関数定理を
利⽤してbackpropを可能に
n end-to-endでの学習が可能だが、 xi
2D のみが
学習対象であり、他は既知としている
Loss
Bo Chen et al., “End-to-End Learnable Geometric Vision by Backpropagating PnP Optimization,” CVPR2020.
PVNetとの⽐較(⾚い箇所がPVNetよりも⾼精度)
13. Mobility Technologies Co., Ltd.
従来⼿法における問題点
13
Pose y
DNN X = {xi
2D, xi
3D, wi
2D | i = 1, …, N} PnP Solver
Question
なぜ X の全てをend-to-endで学習できないのか
Answer
PnPの解には曖昧性があり本質的に微分不可能な
ため学習が困難であり、収束性に問題がある
Loss
Fabian Manhardt et al., “Explaining the Ambiguity of Object Detection and 6D Pose From Visual Data,” ICCV2019.
14. Mobility Technologies Co., Ltd.
本論⽂の貢献
14
n 物体姿勢を決定論的に求めるのではなく確率分
布として求めることでPnPの曖昧性を考慮
l End-to-end probabilistic PnP (EPro-PnP) を提案
l 2D-3D対応およびその重みを全てスクラッチ
で学習
n 既存の6DoF姿勢推定アルゴリズムにEPro-PnPを
組み込むことで性能が改善することを確認
n EPro-PnPに基づく新たな3次元物体検出アルゴリ
ズムを提案
15. Mobility Technologies Co., Ltd.
EPro-PnP
15
PnPの出⼒を姿勢の分布であるとみなし、以下の
尤度関数を導⼊
ベイズの定理より
uninformative prior
X = {xi
3D, xi
2D, wi
2D | i = 1, …, N}
y = {R, t}
xi
2D
xi
3D
(wi
2D)
16. Mobility Technologies Co., Ltd.
EPro-PnP
16
PnPの出⼒を姿勢の分布であるとみなし、以下の
尤度関数を導⼊
ベイズの定理より
uninformative prior
categorical Softmax
離散 連続
X = {xi
3D, xi
2D, wi
2D | i = 1, …, N}
a
a
y = {R, t}
xi
2D
xi
3D
(wi
2D)
17. Mobility Technologies Co., Ltd.
KL Loss Function
17
真値となる姿勢の確率密度 t(y) と p(y|X) とのKLダイバージェンスをロスとして学習
t(y) は真値 ygt を中⼼とするデルタ関数
⼊⼒空間 推定分布 真値分布 損失関数
categorical Softmax 離散 one-hot cross entropy
EPro-PnP 連続 Dirac's delta KL divergence
a
a
Softmaxとの対⽐ Deep Learning JP DL輪読会資料を基に編集
18. Mobility Technologies Co., Ltd.
KL Loss Function
18
真値となる姿勢の確率密度 t(y) と p(y|X) とのKLダイバージェンスをロスとして学習
t(y) は真値 ygt を中⼼とするデルタ関数
真値姿勢による再投影誤差を最⼩化 誤った推定姿勢による再投影誤差を最⼤化
19. Mobility Technologies Co., Ltd.
重点サンプリングによるモンテカルロ積分
19
n LKL 第2項の積分はそのままでは計算できないため、モンテカルロ積分により K 回のランダムサ
ンプリングの期待値として近似
n サンプリング対象の確率密度関数 q(y) (提案分布) を適切に選ぶことで効率を上げる重点サンプ
リングを利⽤
l 3次元位置:t分布
l 1次元yaw :von Mises分布+⼀様分布
l 3次元⾓度:angular central Gaussian分布
n 繰り返しにより提案分布を更新するAMIS (Adaptive Multiple Importance Sampling) アルゴリズムを利⽤
21. Mobility Technologies Co., Ltd.
6DoF姿勢推定への応⽤
21
n 密な2D-3D対応を求めて6DoF姿勢を推定するCDPNにEPro-PnPを組み込み
n CDPNは物体BBOXからtranslation headで並進ベクトルを推定し、rotation headで回転⾏列を推定
n CDPNのrotation headはPnPベースだがtranslation headは回帰ベースのため、translation headを削
除してrotation headをEPro-PnPで置き換え
Zhigang Li et al., “CDPN: Coordinates-Based Disentangled Pose Network for Real-Time RGB-Based 6-DoF Object Pose Estimation,” ICCV2019.
22. Mobility Technologies Co., Ltd.
性能評価実験
22
n LineMOD Dataset
l 6DoF姿勢推定の標準的なベンチマーク
l 約1200枚の画像からなる13シーケンス
l 各画像において⼀つの物体の6DoF姿勢が
アノテーションされている
n 評価尺度
l n°, n cm:回転と並進の誤差がn°, n cm
以下となる場合を姿勢推定に成功したと
みなした場合の成功率(n = 2, 5)
l ADD:推定した姿勢に変換した物体の各3
次元点のうち、真値との距離が閾値以下
となる点の割合(閾値は物体の直径をd
として、0.02d、0.05d、0.1d)
25. Mobility Technologies Co., Ltd.
3次元物体検出への応⽤
25
n FCOS3DをベースにDeformable DETRを組み合わせ、2D-3D対応と重みを学習するdeformable
correspondence networkを提案
n multi-level headの出⼒から物体のクエリを⽣成し、Deformable DETRから取り⼊れたdeformable
sampling layerに⼊⼒
n まず x2D を推定し、対応する特徴マップの座標からpoint-wise featureをサンプリングして
Transformerにより x3D と w2D を推定
n 他ブランチでconfidence scoreや3D BBOXのサイズを推定
26. Mobility Technologies Co., Ltd.
性能評価実験
26
n nuScenes Dataset
l ⾞載カメラ画像データセット
l 40キーフレームからなる1000シーケンス
l 各キーフレームは6つのカメラ画像を含む
l 10カテゴリ、合計140万の3D BBOX
n 評価尺度
l mAP:地⾯上での2次元座標をベースに計算
したaverage precisionのカテゴリ平均
l ATE:Average Translation Error
l ASE:Average Scale Error
l AOE:Average Orientation Error
l AVE:Average Velocity Error
l AAE:Average Attribute Error
l NDS:nuScenes detection score (全尺度の重み付き平均)
test-time flip augmentation (TTA) model ensemble
※ LiDARのスパースな3次元点を使い、座標を回帰するロスを追加
※
28. Mobility Technologies Co., Ltd.
まとめ
28
n 3次元物体検出におけるend-to-endモデルと、6DoF姿勢推定における幾何ベースモデルの⻑所を
組み合わせたモデルの実現ためにbackprop可能なPnPレイヤとしてEPro-PnPを提案
n 従来⼿法のように決定論的に姿勢を推定するのではなく、姿勢の確率密度を推定することでPnP
における本質的な学習の難しさを解決
n 離散空間のクラス分類で広く⽤いられているSoftmaxによるone-hot argmaxの平滑化近似の連続
空間におけるカウンターパートとして理論を展開
n 6DoF姿勢推定、3次元物体検出の双⽅において実験により効果を確認
n (ただし、SoTA性能を出すためにはauxiliary loss必須?)
29. Mobility Technologies Co., Ltd.
Weʼre Hiring!
29
n エンジニアは⽇本のどこから働いてもOKな
オフィスフリー制度開始!
n 夏季インターン募集開始!
https://www.wantedly.com/projects/1079701
https://hrmos.co/pages/mo-t/jobs?category=1342449154655301632