EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monocular Object Pose Estimation

Mobility Technologies Co., Ltd.
2022年8⽉7⽇第11回全⽇本コンピュータビジョン勉強会 -CVPR2022読み会(前編)-
EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points
for Monocular Object Pose Estimation
株式会社Mobility Technologies
宮澤⼀之

⾃⼰紹介
2
宮澤一之
株式会社Mobility Technologies
AI技術開発部 AI研究開発第二グループ
グループリーダー
経歴
April 2019 - March 2020
AI研究開発エンジニア@DeNA
April 2010 - March 2019
研究員@三菱電機
March 2010
博士@東北大学
@kzykmyzw

論⽂情報
3
EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points
for Monocular Object Pose Estimation
In CVPR 2022 (Oral, Best Student Paper). [paper][video][GitHub]
Hansheng Chen1,2, Pichao Wang2, Fan Wang2, Wei Tian1, Lu Xiong1, Hao Li2
1Tongji University, 2Alibaba Group

単眼画像からの物体姿勢推定
4
カメラ座標系
物体座標系
R, t
カメラに写った物体の姿勢を画像から
推定する（物体座標系からカメラ座標
系への剛体変換を求める）
Wikipedia, Six degrees of freedom

応⽤タスク
5
https://arxiv.org/pdf/1905.12365.pdf http://proceedings.mlr.press/v87/tremblay18a/tremblay18a.pdf
3次元物体検出 6DoF姿勢推定

応⽤タスク
6
https://arxiv.org/pdf/1905.12365.pdf
3次元物体検出 Pose
DNN
n 画像から直接的に姿勢 (4DoF) を推定
l 2次元位置
l デプス
l 向き
n ⻑所：シンプルなend-to-end学習が可能
n 短所：解釈性が低い、過学習しやすい

応⽤タスク
7
http://proceedings.mlr.press/v87/tremblay18a/tremblay18a.pdf
6DoF姿勢推定
R, t
n 対象の3次元モデルは既知
n 3次元点とその2次元投影点の対応関係を求め、
最適化問題として姿勢を推定
→ PnP (Perspective-n-Points) 問題

PnP問題
8
y = {R, t}
xi
2D
xi
3D
PnP問題では、3次元点 xi
3D の画像への投影点と、
対応する2次元点 xi
2D との距離（再投影誤差）を
最⼩化することで物体の姿勢 y を求める
n 対象の3次元モデルは既知
n 3次元点とその2次元投影点の対応関係を求め、
最適化問題として姿勢を推定
→ PnP (Perspective-n-Points) 問題
3次元から2次元への投影
各対応点への重み
(wi
2D)
X = {xi
3D, xi
2D, wi
2D | i = 1, …, N}

【参考】OpenCV: Perspective-n-Point (PnP) pose computation
9
https://docs.opencv.org/4.6.0/d5/d1f/calib3d_solvePnP.html
⼀番有名なソルバはEPnP (?)
Vincent Lepetit et al., “Accurate Non-Iterative O(n) Solution to the
PnP Problem,” IJCV2009.

Deep Learning + PnP
10
Pose y
DNN X = {xi
2D, xi
3D, wi
2D | i = 1, …, N} PnP Solver
n ⼀般的にPnP問題それ⾃体においては2D-3D対応（及び重み）X は既知とされる
n しかし当然ながら実際には X は未知であり、Deep Learningにより推定する⼿法が主流

PVNet
11
Pose y
DNN X = {xi
2D, xi
3D, wi
n 中間表現である2D-3D対応に対してロスをか
けるtwo-stage⼿法
n 2Dキーポイントを指し⽰すベクトルを各画
素で推定し、その投票により2Dキーポイン
トを求めて2D-3D対応からPnPを解く
n 安定的ではあるものの、中間表現に対して
ロスをかけているためsub-optimalである
Loss
Sida Peng et al., “PVNet: Pixel-wise Voting Network for 6DoF Pose Estimation,” CVPR2019.

BPnP
12
Pose y
DNN X = {xi
2D, xi
3D, wi
n 最終的に求めたい姿勢に対してロスをかけ
るend-to-end⼿法
n PnP Solverは微分不可能だが、陰関数定理を
利⽤してbackpropを可能に
n end-to-endでの学習が可能だが、 xi
2D のみが
学習対象であり、他は既知としている
Loss
Bo Chen et al., “End-to-End Learnable Geometric Vision by Backpropagating PnP Optimization,” CVPR2020.
PVNetとの⽐較（⾚い箇所がPVNetよりも⾼精度）

従来⼿法における問題点
13
Pose y
DNN X = {xi
2D, xi
3D, wi
Question
なぜ X の全てをend-to-endで学習できないのか
Answer
PnPの解には曖昧性があり本質的に微分不可能な
ため学習が困難であり、収束性に問題がある
Loss
Fabian Manhardt et al., “Explaining the Ambiguity of Object Detection and 6D Pose From Visual Data,” ICCV2019.

本論⽂の貢献
14
n 物体姿勢を決定論的に求めるのではなく確率分
布として求めることでPnPの曖昧性を考慮
l End-to-end probabilistic PnP (EPro-PnP) を提案
l 2D-3D対応およびその重みを全てスクラッチ
で学習
n 既存の6DoF姿勢推定アルゴリズムにEPro-PnPを
組み込むことで性能が改善することを確認
n EPro-PnPに基づく新たな3次元物体検出アルゴリ
ズムを提案

EPro-PnP
15
PnPの出⼒を姿勢の分布であるとみなし、以下の
尤度関数を導⼊
ベイズの定理より
uninformative prior
X = {xi
3D, xi
2D, wi
2D | i = 1, …, N}
y = {R, t}
xi
2D
xi
3D
(wi
2D)

EPro-PnP
16
PnPの出⼒を姿勢の分布であるとみなし、以下の
尤度関数を導⼊
ベイズの定理より
uninformative prior
categorical Softmax
離散連続
X = {xi
3D, xi
2D, wi
2D | i = 1, …, N}
a
a
y = {R, t}
xi
2D
xi
3D
(wi
2D)

KL Loss Function
17
真値となる姿勢の確率密度 t(y) と p(y|X) とのKLダイバージェンスをロスとして学習
t(y) は真値 ygt を中⼼とするデルタ関数
⼊⼒空間推定分布真値分布損失関数
categorical Softmax 離散 one-hot cross entropy
EPro-PnP 連続 Dirac's delta KL divergence
a
a
Softmaxとの対⽐ Deep Learning JP DL輪読会資料を基に編集

KL Loss Function
18
真値となる姿勢の確率密度 t(y) と p(y|X) とのKLダイバージェンスをロスとして学習
t(y) は真値 ygt を中⼼とするデルタ関数
真値姿勢による再投影誤差を最⼩化誤った推定姿勢による再投影誤差を最⼤化

重点サンプリングによるモンテカルロ積分
19
n LKL 第2項の積分はそのままでは計算できないため、モンテカルロ積分により K 回のランダムサ
ンプリングの期待値として近似
n サンプリング対象の確率密度関数 q(y) (提案分布) を適切に選ぶことで効率を上げる重点サンプ
リングを利⽤
l 3次元位置：t分布
l 1次元yaw ：von Mises分布＋⼀様分布
l 3次元⾓度：angular central Gaussian分布
n 繰り返しにより提案分布を更新するAMIS (Adaptive Multiple Importance Sampling) アルゴリズムを利⽤

ロス関数
偏微分
2D-3D対応の重みwi
2Dの勾配
不確実性と識別性のバランス
20
真値姿勢による再投影誤差が⼤きい (不確
実性が⾼い) 箇所は重みを⼩さくするよう
に働く
推定姿勢による再投影誤差の分散に関係し
ており、姿勢変化に敏感な (識別性が⾼い)
箇所は重みを⼤きくするように働く
wi
2Dの可視化

6DoF姿勢推定への応⽤
21
n 密な2D-3D対応を求めて6DoF姿勢を推定するCDPNにEPro-PnPを組み込み
n CDPNは物体BBOXからtranslation headで並進ベクトルを推定し、rotation headで回転⾏列を推定
n CDPNのrotation headはPnPベースだがtranslation headは回帰ベースのため、translation headを削
除してrotation headをEPro-PnPで置き換え
Zhigang Li et al., “CDPN: Coordinates-Based Disentangled Pose Network for Real-Time RGB-Based 6-DoF Object Pose Estimation,” ICCV2019.

性能評価実験
22
n LineMOD Dataset
l 6DoF姿勢推定の標準的なベンチマーク
l 約1200枚の画像からなる13シーケンス
l 各画像において⼀つの物体の6DoF姿勢が
アノテーションされている
n 評価尺度
l n°, n cm：回転と並進の誤差がn°, n cm
以下となる場合を姿勢推定に成功したと
みなした場合の成功率（n = 2, 5）
l ADD：推定した姿勢に変換した物体の各3
次元点のうち、真値との距離が閾値以下
となる点の割合（閾値は物体の直径をd
として、0.02d、0.05d、0.1d）

定性評価
23

定性評価
24
姿勢の識別性が⾼いキーポイントにおいて
⼤きい重みが獲得されている

3次元物体検出への応⽤
25
n FCOS3DをベースにDeformable DETRを組み合わせ、2D-3D対応と重みを学習するdeformable
correspondence networkを提案
n multi-level headの出⼒から物体のクエリを⽣成し、Deformable DETRから取り⼊れたdeformable
sampling layerに⼊⼒
n まず x2D を推定し、対応する特徴マップの座標からpoint-wise featureをサンプリングして
Transformerにより x3D と w2D を推定
n 他ブランチでconfidence scoreや3D BBOXのサイズを推定

性能評価実験
26
n nuScenes Dataset
l ⾞載カメラ画像データセット
l 40キーフレームからなる1000シーケンス
l 各キーフレームは6つのカメラ画像を含む
l 10カテゴリ、合計140万の3D BBOX
n 評価尺度
l mAP：地⾯上での2次元座標をベースに計算
したaverage precisionのカテゴリ平均
l ATE：Average Translation Error
l ASE：Average Scale Error
l AOE：Average Orientation Error
l AVE：Average Velocity Error
l AAE：Average Attribute Error
l NDS：nuScenes detection score (全尺度の重み付き平均）
test-time flip augmentation (TTA) model ensemble
※ LiDARのスパースな3次元点を使い、座標を回帰するロスを追加
※

定性評価
27
姿勢の曖昧性を分布として
表現できている
https://github.com/tjiiv-cprg/EPro-PnP/blob/main/EPro-PnP-Det/resources/viz.gif

まとめ
28
n 3次元物体検出におけるend-to-endモデルと、6DoF姿勢推定における幾何ベースモデルの⻑所を
組み合わせたモデルの実現ためにbackprop可能なPnPレイヤとしてEPro-PnPを提案
n 従来⼿法のように決定論的に姿勢を推定するのではなく、姿勢の確率密度を推定することでPnP
における本質的な学習の難しさを解決
n 離散空間のクラス分類で広く⽤いられているSoftmaxによるone-hot argmaxの平滑化近似の連続
空間におけるカウンターパートとして理論を展開
n 6DoF姿勢推定、3次元物体検出の双⽅において実験により効果を確認
n (ただし、SoTA性能を出すためにはauxiliary loss必須？)

Weʼre Hiring!
29
n エンジニアは⽇本のどこから働いてもOKな
オフィスフリー制度開始！
n 夏季インターン募集開始！
https://www.wantedly.com/projects/1079701
https://hrmos.co/pages/mo-t/jobs?category=1342449154655301632

⽂章·画像等の内容の無断転載及び複製等の⾏為はご遠慮ください。
30

EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monocular Object Pose Estimation

Recomendados

Recomendados

Mais conteúdo relacionado

Mais procurados

Mais procurados (20)

Semelhante a EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monocular Object Pose Estimation

Semelhante a EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monocular Object Pose Estimation (20)

Mais de Kazuyuki Miyazawa

Mais de Kazuyuki Miyazawa (13)

EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monocular Object Pose Estimation