SlideShare uma empresa Scribd logo
1 de 30
Baixar para ler offline
Mobility Technologies Co., Ltd.
2022年8⽉7⽇ 第11回 全⽇本コンピュータビジョン勉強会 -CVPR2022読み会(前編)-
EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points
for Monocular Object Pose Estimation
株式会社Mobility Technologies
宮澤 ⼀之
Mobility Technologies Co., Ltd.
⾃⼰紹介
2
宮澤 一之
株式会社Mobility Technologies
AI技術開発部 AI研究開発第二グループ
グループリーダー
経歴
April 2019 - March 2020
AI研究開発エンジニア@DeNA
April 2010 - March 2019
研究員@三菱電機
March 2010
博士@東北大学
@kzykmyzw
Mobility Technologies Co., Ltd.
論⽂情報
3
EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points
for Monocular Object Pose Estimation
In CVPR 2022 (Oral, Best Student Paper). [paper][video][GitHub]
Hansheng Chen1,2, Pichao Wang2, Fan Wang2, Wei Tian1, Lu Xiong1, Hao Li2
1Tongji University, 2Alibaba Group
Mobility Technologies Co., Ltd.
単眼画像からの物体姿勢推定
4
カメラ座標系
物体座標系
R, t
カメラに写った物体の姿勢を画像から
推定する(物体座標系からカメラ座標
系への剛体変換を求める)
Wikipedia, Six degrees of freedom
Mobility Technologies Co., Ltd.
応⽤タスク
5
https://arxiv.org/pdf/1905.12365.pdf http://proceedings.mlr.press/v87/tremblay18a/tremblay18a.pdf
3次元物体検出 6DoF姿勢推定
Mobility Technologies Co., Ltd.
応⽤タスク
6
https://arxiv.org/pdf/1905.12365.pdf
3次元物体検出 Pose
DNN
n 画像から直接的に姿勢 (4DoF) を推定
l 2次元位置
l デプス
l 向き
n ⻑所:シンプルなend-to-end学習が可能
n 短所:解釈性が低い、過学習しやすい
Mobility Technologies Co., Ltd.
応⽤タスク
7
http://proceedings.mlr.press/v87/tremblay18a/tremblay18a.pdf
6DoF姿勢推定
R, t
n 対象の3次元モデルは既知
n 3次元点とその2次元投影点の対応関係を求め、
最適化問題として姿勢を推定
→ PnP (Perspective-n-Points) 問題
Mobility Technologies Co., Ltd.
PnP問題
8
y = {R, t}
xi
2D
xi
3D
PnP問題では、3次元点 xi
3D の画像への投影点と、
対応する2次元点 xi
2D との距離(再投影誤差)を
最⼩化することで物体の姿勢 y を求める
n 対象の3次元モデルは既知
n 3次元点とその2次元投影点の対応関係を求め、
最適化問題として姿勢を推定
→ PnP (Perspective-n-Points) 問題
3次元から2次元への投影
各対応点への重み
(wi
2D)
X = {xi
3D, xi
2D, wi
2D | i = 1, …, N}
Mobility Technologies Co., Ltd.
【参考】OpenCV: Perspective-n-Point (PnP) pose computation
9
https://docs.opencv.org/4.6.0/d5/d1f/calib3d_solvePnP.html
⼀番有名なソルバはEPnP (?)
Vincent Lepetit et al., “Accurate Non-Iterative O(n) Solution to the
PnP Problem,” IJCV2009.
Mobility Technologies Co., Ltd.
Deep Learning + PnP
10
Pose y
DNN X = {xi
2D, xi
3D, wi
2D | i = 1, …, N} PnP Solver
n ⼀般的にPnP問題それ⾃体においては2D-3D対応(及び重み)X は既知とされる
n しかし当然ながら実際には X は未知であり、Deep Learningにより推定する⼿法が主流
Mobility Technologies Co., Ltd.
PVNet
11
Pose y
DNN X = {xi
2D, xi
3D, wi
2D | i = 1, …, N} PnP Solver
n 中間表現である2D-3D対応に対してロスをか
けるtwo-stage⼿法
n 2Dキーポイントを指し⽰すベクトルを各画
素で推定し、その投票により2Dキーポイン
トを求めて2D-3D対応からPnPを解く
n 安定的ではあるものの、中間表現に対して
ロスをかけているためsub-optimalである
Loss
Sida Peng et al., “PVNet: Pixel-wise Voting Network for 6DoF Pose Estimation,” CVPR2019.
Mobility Technologies Co., Ltd.
BPnP
12
Pose y
DNN X = {xi
2D, xi
3D, wi
2D | i = 1, …, N} PnP Solver
n 最終的に求めたい姿勢に対してロスをかけ
るend-to-end⼿法
n PnP Solverは微分不可能だが、陰関数定理を
利⽤してbackpropを可能に
n end-to-endでの学習が可能だが、 xi
2D のみが
学習対象であり、他は既知としている
Loss
Bo Chen et al., “End-to-End Learnable Geometric Vision by Backpropagating PnP Optimization,” CVPR2020.
PVNetとの⽐較(⾚い箇所がPVNetよりも⾼精度)
Mobility Technologies Co., Ltd.
従来⼿法における問題点
13
Pose y
DNN X = {xi
2D, xi
3D, wi
2D | i = 1, …, N} PnP Solver
Question
なぜ X の全てをend-to-endで学習できないのか
Answer
PnPの解には曖昧性があり本質的に微分不可能な
ため学習が困難であり、収束性に問題がある
Loss
Fabian Manhardt et al., “Explaining the Ambiguity of Object Detection and 6D Pose From Visual Data,” ICCV2019.
Mobility Technologies Co., Ltd.
本論⽂の貢献
14
n 物体姿勢を決定論的に求めるのではなく確率分
布として求めることでPnPの曖昧性を考慮
l End-to-end probabilistic PnP (EPro-PnP) を提案
l 2D-3D対応およびその重みを全てスクラッチ
で学習
n 既存の6DoF姿勢推定アルゴリズムにEPro-PnPを
組み込むことで性能が改善することを確認
n EPro-PnPに基づく新たな3次元物体検出アルゴリ
ズムを提案
Mobility Technologies Co., Ltd.
EPro-PnP
15
PnPの出⼒を姿勢の分布であるとみなし、以下の
尤度関数を導⼊
ベイズの定理より
uninformative prior
X = {xi
3D, xi
2D, wi
2D | i = 1, …, N}
y = {R, t}
xi
2D
xi
3D
(wi
2D)
Mobility Technologies Co., Ltd.
EPro-PnP
16
PnPの出⼒を姿勢の分布であるとみなし、以下の
尤度関数を導⼊
ベイズの定理より
uninformative prior
categorical Softmax
離散 連続
X = {xi
3D, xi
2D, wi
2D | i = 1, …, N}
a
a
y = {R, t}
xi
2D
xi
3D
(wi
2D)
Mobility Technologies Co., Ltd.
KL Loss Function
17
真値となる姿勢の確率密度 t(y) と p(y|X) とのKLダイバージェンスをロスとして学習
t(y) は真値 ygt を中⼼とするデルタ関数
⼊⼒空間 推定分布 真値分布 損失関数
categorical Softmax 離散 one-hot cross entropy
EPro-PnP 連続 Dirac's delta KL divergence
a
a
Softmaxとの対⽐ Deep Learning JP DL輪読会資料を基に編集
Mobility Technologies Co., Ltd.
KL Loss Function
18
真値となる姿勢の確率密度 t(y) と p(y|X) とのKLダイバージェンスをロスとして学習
t(y) は真値 ygt を中⼼とするデルタ関数
真値姿勢による再投影誤差を最⼩化 誤った推定姿勢による再投影誤差を最⼤化
Mobility Technologies Co., Ltd.
重点サンプリングによるモンテカルロ積分
19
n LKL 第2項の積分はそのままでは計算できないため、モンテカルロ積分により K 回のランダムサ
ンプリングの期待値として近似
n サンプリング対象の確率密度関数 q(y) (提案分布) を適切に選ぶことで効率を上げる重点サンプ
リングを利⽤
l 3次元位置:t分布
l 1次元yaw :von Mises分布+⼀様分布
l 3次元⾓度:angular central Gaussian分布
n 繰り返しにより提案分布を更新するAMIS (Adaptive Multiple Importance Sampling) アルゴリズムを利⽤
Mobility Technologies Co., Ltd.
ロス関数
偏微分
2D-3D対応の重みwi
2Dの勾配
不確実性と識別性のバランス
20
真値姿勢による再投影誤差が⼤きい (不確
実性が⾼い) 箇所は重みを⼩さくするよう
に働く
推定姿勢による再投影誤差の分散に関係し
ており、姿勢変化に敏感な (識別性が⾼い)
箇所は重みを⼤きくするように働く
wi
2Dの可視化
Mobility Technologies Co., Ltd.
6DoF姿勢推定への応⽤
21
n 密な2D-3D対応を求めて6DoF姿勢を推定するCDPNにEPro-PnPを組み込み
n CDPNは物体BBOXからtranslation headで並進ベクトルを推定し、rotation headで回転⾏列を推定
n CDPNのrotation headはPnPベースだがtranslation headは回帰ベースのため、translation headを削
除してrotation headをEPro-PnPで置き換え
Zhigang Li et al., “CDPN: Coordinates-Based Disentangled Pose Network for Real-Time RGB-Based 6-DoF Object Pose Estimation,” ICCV2019.
Mobility Technologies Co., Ltd.
性能評価実験
22
n LineMOD Dataset
l 6DoF姿勢推定の標準的なベンチマーク
l 約1200枚の画像からなる13シーケンス
l 各画像において⼀つの物体の6DoF姿勢が
アノテーションされている
n 評価尺度
l n°, n cm:回転と並進の誤差がn°, n cm
以下となる場合を姿勢推定に成功したと
みなした場合の成功率(n = 2, 5)
l ADD:推定した姿勢に変換した物体の各3
次元点のうち、真値との距離が閾値以下
となる点の割合(閾値は物体の直径をd
として、0.02d、0.05d、0.1d)
Mobility Technologies Co., Ltd.
定性評価
23
Mobility Technologies Co., Ltd.
定性評価
24
姿勢の識別性が⾼いキーポイントにおいて
⼤きい重みが獲得されている
Mobility Technologies Co., Ltd.
3次元物体検出への応⽤
25
n FCOS3DをベースにDeformable DETRを組み合わせ、2D-3D対応と重みを学習するdeformable
correspondence networkを提案
n multi-level headの出⼒から物体のクエリを⽣成し、Deformable DETRから取り⼊れたdeformable
sampling layerに⼊⼒
n まず x2D を推定し、対応する特徴マップの座標からpoint-wise featureをサンプリングして
Transformerにより x3D と w2D を推定
n 他ブランチでconfidence scoreや3D BBOXのサイズを推定
Mobility Technologies Co., Ltd.
性能評価実験
26
n nuScenes Dataset
l ⾞載カメラ画像データセット
l 40キーフレームからなる1000シーケンス
l 各キーフレームは6つのカメラ画像を含む
l 10カテゴリ、合計140万の3D BBOX
n 評価尺度
l mAP:地⾯上での2次元座標をベースに計算
したaverage precisionのカテゴリ平均
l ATE:Average Translation Error
l ASE:Average Scale Error
l AOE:Average Orientation Error
l AVE:Average Velocity Error
l AAE:Average Attribute Error
l NDS:nuScenes detection score (全尺度の重み付き平均)
test-time flip augmentation (TTA) model ensemble
※ LiDARのスパースな3次元点を使い、座標を回帰するロスを追加
※
Mobility Technologies Co., Ltd.
定性評価
27
姿勢の曖昧性を分布として
表現できている
https://github.com/tjiiv-cprg/EPro-PnP/blob/main/EPro-PnP-Det/resources/viz.gif
Mobility Technologies Co., Ltd.
まとめ
28
n 3次元物体検出におけるend-to-endモデルと、6DoF姿勢推定における幾何ベースモデルの⻑所を
組み合わせたモデルの実現ためにbackprop可能なPnPレイヤとしてEPro-PnPを提案
n 従来⼿法のように決定論的に姿勢を推定するのではなく、姿勢の確率密度を推定することでPnP
における本質的な学習の難しさを解決
n 離散空間のクラス分類で広く⽤いられているSoftmaxによるone-hot argmaxの平滑化近似の連続
空間におけるカウンターパートとして理論を展開
n 6DoF姿勢推定、3次元物体検出の双⽅において実験により効果を確認
n (ただし、SoTA性能を出すためにはauxiliary loss必須?)
Mobility Technologies Co., Ltd.
Weʼre Hiring!
29
n エンジニアは⽇本のどこから働いてもOKな
オフィスフリー制度開始!
n 夏季インターン募集開始!
https://www.wantedly.com/projects/1079701
https://hrmos.co/pages/mo-t/jobs?category=1342449154655301632
⽂章·画像等の内容の無断転載及び複製等の⾏為はご遠慮ください。
Mobility Technologies Co., Ltd.
30

Mais conteúdo relacionado

Mais procurados

backbone としての timm 入門
backbone としての timm 入門backbone としての timm 入門
backbone としての timm 入門Takuji Tahara
 
ドメイン適応の原理と応用
ドメイン適応の原理と応用ドメイン適応の原理と応用
ドメイン適応の原理と応用Yoshitaka Ushiku
 
【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised LearningまとめDeep Learning JP
 
Triplet Loss 徹底解説
Triplet Loss 徹底解説Triplet Loss 徹底解説
Triplet Loss 徹底解説tancoro
 
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​SSII
 
動作認識の最前線:手法,タスク,データセット
動作認識の最前線:手法,タスク,データセット動作認識の最前線:手法,タスク,データセット
動作認識の最前線:手法,タスク,データセットToru Tamaki
 
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Yusuke Uchida
 
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
[DL輪読会]ドメイン転移と不変表現に関するサーベイ[DL輪読会]ドメイン転移と不変表現に関するサーベイ
[DL輪読会]ドメイン転移と不変表現に関するサーベイDeep Learning JP
 
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)Deep Learning JP
 
Transformer メタサーベイ
Transformer メタサーベイTransformer メタサーベイ
Transformer メタサーベイcvpaper. challenge
 
画像生成・生成モデル メタサーベイ
画像生成・生成モデル メタサーベイ画像生成・生成モデル メタサーベイ
画像生成・生成モデル メタサーベイcvpaper. challenge
 
[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech,...
[DL輪読会]data2vec: A General Framework for  Self-supervised Learning in Speech,...[DL輪読会]data2vec: A General Framework for  Self-supervised Learning in Speech,...
[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech,...Deep Learning JP
 
[DL輪読会]Dense Captioning分野のまとめ
[DL輪読会]Dense Captioning分野のまとめ[DL輪読会]Dense Captioning分野のまとめ
[DL輪読会]Dense Captioning分野のまとめDeep Learning JP
 
【DL輪読会】Visual Classification via Description from Large Language Models (ICLR...
【DL輪読会】Visual Classification via Description from Large Language Models (ICLR...【DL輪読会】Visual Classification via Description from Large Language Models (ICLR...
【DL輪読会】Visual Classification via Description from Large Language Models (ICLR...Deep Learning JP
 
SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習
SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習
SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習SSII
 
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose EstimationDeep Learning JP
 
【DL輪読会】Bridge-Prompt: Toward Ordinal Action Understanding in Instructional Vi...
【DL輪読会】Bridge-Prompt: Toward Ordinal Action Understanding in Instructional Vi...【DL輪読会】Bridge-Prompt: Toward Ordinal Action Understanding in Instructional Vi...
【DL輪読会】Bridge-Prompt: Toward Ordinal Action Understanding in Instructional Vi...Deep Learning JP
 
PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門tmtm otm
 
[DL輪読会]A Higher-Dimensional Representation for Topologically Varying Neural R...
[DL輪読会]A Higher-Dimensional Representation for Topologically Varying Neural R...[DL輪読会]A Higher-Dimensional Representation for Topologically Varying Neural R...
[DL輪読会]A Higher-Dimensional Representation for Topologically Varying Neural R...Deep Learning JP
 

Mais procurados (20)

backbone としての timm 入門
backbone としての timm 入門backbone としての timm 入門
backbone としての timm 入門
 
ドメイン適応の原理と応用
ドメイン適応の原理と応用ドメイン適応の原理と応用
ドメイン適応の原理と応用
 
【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ
 
Triplet Loss 徹底解説
Triplet Loss 徹底解説Triplet Loss 徹底解説
Triplet Loss 徹底解説
 
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
 
動作認識の最前線:手法,タスク,データセット
動作認識の最前線:手法,タスク,データセット動作認識の最前線:手法,タスク,データセット
動作認識の最前線:手法,タスク,データセット
 
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
 
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
[DL輪読会]ドメイン転移と不変表現に関するサーベイ[DL輪読会]ドメイン転移と不変表現に関するサーベイ
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
 
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
 
Transformer メタサーベイ
Transformer メタサーベイTransformer メタサーベイ
Transformer メタサーベイ
 
画像生成・生成モデル メタサーベイ
画像生成・生成モデル メタサーベイ画像生成・生成モデル メタサーベイ
画像生成・生成モデル メタサーベイ
 
[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech,...
[DL輪読会]data2vec: A General Framework for  Self-supervised Learning in Speech,...[DL輪読会]data2vec: A General Framework for  Self-supervised Learning in Speech,...
[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech,...
 
[DL輪読会]Dense Captioning分野のまとめ
[DL輪読会]Dense Captioning分野のまとめ[DL輪読会]Dense Captioning分野のまとめ
[DL輪読会]Dense Captioning分野のまとめ
 
【DL輪読会】Visual Classification via Description from Large Language Models (ICLR...
【DL輪読会】Visual Classification via Description from Large Language Models (ICLR...【DL輪読会】Visual Classification via Description from Large Language Models (ICLR...
【DL輪読会】Visual Classification via Description from Large Language Models (ICLR...
 
SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習
SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習
SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習
 
continual learning survey
continual learning surveycontinual learning survey
continual learning survey
 
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
 
【DL輪読会】Bridge-Prompt: Toward Ordinal Action Understanding in Instructional Vi...
【DL輪読会】Bridge-Prompt: Toward Ordinal Action Understanding in Instructional Vi...【DL輪読会】Bridge-Prompt: Toward Ordinal Action Understanding in Instructional Vi...
【DL輪読会】Bridge-Prompt: Toward Ordinal Action Understanding in Instructional Vi...
 
PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門
 
[DL輪読会]A Higher-Dimensional Representation for Topologically Varying Neural R...
[DL輪読会]A Higher-Dimensional Representation for Topologically Varying Neural R...[DL輪読会]A Higher-Dimensional Representation for Topologically Varying Neural R...
[DL輪読会]A Higher-Dimensional Representation for Topologically Varying Neural R...
 

Semelhante a EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monocular Object Pose Estimation

論文紹介「PointNetLK: Robust & Efficient Point Cloud Registration Using PointNet」
論文紹介「PointNetLK: Robust & Efficient Point Cloud Registration Using PointNet」論文紹介「PointNetLK: Robust & Efficient Point Cloud Registration Using PointNet」
論文紹介「PointNetLK: Robust & Efficient Point Cloud Registration Using PointNet」Naoya Chiba
 
ArtTrack: Articulated Multi-Person Tracking in the Wild : CV勉強会関東
ArtTrack: Articulated Multi-Person Tracking in the Wild : CV勉強会関東ArtTrack: Articulated Multi-Person Tracking in the Wild : CV勉強会関東
ArtTrack: Articulated Multi-Person Tracking in the Wild : CV勉強会関東Yukiyoshi Sasao
 
Deep Learningの基礎と応用
Deep Learningの基礎と応用Deep Learningの基礎と応用
Deep Learningの基礎と応用Seiya Tokui
 
Priorに基づく画像/テンソルの復元
Priorに基づく画像/テンソルの復元Priorに基づく画像/テンソルの復元
Priorに基づく画像/テンソルの復元Tatsuya Yokota
 
[CVPR2020読み会@CV勉強会] 3D Packing for Self-Supervised Monocular Depth Estimation
[CVPR2020読み会@CV勉強会] 3D Packing for Self-Supervised Monocular Depth Estimation[CVPR2020読み会@CV勉強会] 3D Packing for Self-Supervised Monocular Depth Estimation
[CVPR2020読み会@CV勉強会] 3D Packing for Self-Supervised Monocular Depth EstimationKazuyuki Miyazawa
 
Taking a Deeper Look at the Inverse Compositional Algorithm
Taking a Deeper Look at the Inverse Compositional AlgorithmTaking a Deeper Look at the Inverse Compositional Algorithm
Taking a Deeper Look at the Inverse Compositional AlgorithmMai Nishimura
 
ADVENTUREの他のモジュール・関連プロジェクトの紹介
ADVENTUREの他のモジュール・関連プロジェクトの紹介ADVENTUREの他のモジュール・関連プロジェクトの紹介
ADVENTUREの他のモジュール・関連プロジェクトの紹介ADVENTURE Project
 
CVPR2019 survey Domain Adaptation on Semantic Segmentation
CVPR2019 survey Domain Adaptation on Semantic SegmentationCVPR2019 survey Domain Adaptation on Semantic Segmentation
CVPR2019 survey Domain Adaptation on Semantic SegmentationYamato OKAMOTO
 
2020/07/04 BSP-Net (CVPR2020)
2020/07/04 BSP-Net (CVPR2020)2020/07/04 BSP-Net (CVPR2020)
2020/07/04 BSP-Net (CVPR2020)Takuya Minagawa
 
Light weightbinocular sigasia2012_face
Light weightbinocular sigasia2012_faceLight weightbinocular sigasia2012_face
Light weightbinocular sigasia2012_faceishii yasunori
 
2022年度秋学期 画像情報処理 第9回 離散フーリエ変換と離散コサイン変換 (2022. 11. 25)
2022年度秋学期 画像情報処理 第9回 離散フーリエ変換と離散コサイン変換 (2022. 11. 25) 2022年度秋学期 画像情報処理 第9回 離散フーリエ変換と離散コサイン変換 (2022. 11. 25)
2022年度秋学期 画像情報処理 第9回 離散フーリエ変換と離散コサイン変換 (2022. 11. 25) Akira Asano
 
画像処理分野における研究事例紹介
画像処理分野における研究事例紹介画像処理分野における研究事例紹介
画像処理分野における研究事例紹介nlab_utokyo
 
(文献紹介)深層学習による動被写体ロバストなカメラの動き推定
(文献紹介)深層学習による動被写体ロバストなカメラの動き推定(文献紹介)深層学習による動被写体ロバストなカメラの動き推定
(文献紹介)深層学習による動被写体ロバストなカメラの動き推定Morpho, Inc.
 
点群深層学習 Meta-study
点群深層学習 Meta-study点群深層学習 Meta-study
点群深層学習 Meta-studyNaoya Chiba
 
TPNet: Trajectory Proposal Network for Motion Prediction
TPNet: Trajectory Proposal Network for Motion Prediction TPNet: Trajectory Proposal Network for Motion Prediction
TPNet: Trajectory Proposal Network for Motion Prediction Yuma Shinohara
 
[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...
[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...
[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...Deep Learning JP
 
object detection with lidar-camera fusion: survey
object detection with lidar-camera fusion: surveyobject detection with lidar-camera fusion: survey
object detection with lidar-camera fusion: surveyTakuya Minagawa
 
object detection with lidar-camera fusion: survey (updated)
object detection with lidar-camera fusion: survey (updated)object detection with lidar-camera fusion: survey (updated)
object detection with lidar-camera fusion: survey (updated)Takuya Minagawa
 

Semelhante a EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monocular Object Pose Estimation (20)

論文紹介「PointNetLK: Robust & Efficient Point Cloud Registration Using PointNet」
論文紹介「PointNetLK: Robust & Efficient Point Cloud Registration Using PointNet」論文紹介「PointNetLK: Robust & Efficient Point Cloud Registration Using PointNet」
論文紹介「PointNetLK: Robust & Efficient Point Cloud Registration Using PointNet」
 
ArtTrack: Articulated Multi-Person Tracking in the Wild : CV勉強会関東
ArtTrack: Articulated Multi-Person Tracking in the Wild : CV勉強会関東ArtTrack: Articulated Multi-Person Tracking in the Wild : CV勉強会関東
ArtTrack: Articulated Multi-Person Tracking in the Wild : CV勉強会関東
 
Deep Learningの基礎と応用
Deep Learningの基礎と応用Deep Learningの基礎と応用
Deep Learningの基礎と応用
 
Priorに基づく画像/テンソルの復元
Priorに基づく画像/テンソルの復元Priorに基づく画像/テンソルの復元
Priorに基づく画像/テンソルの復元
 
[CVPR2020読み会@CV勉強会] 3D Packing for Self-Supervised Monocular Depth Estimation
[CVPR2020読み会@CV勉強会] 3D Packing for Self-Supervised Monocular Depth Estimation[CVPR2020読み会@CV勉強会] 3D Packing for Self-Supervised Monocular Depth Estimation
[CVPR2020読み会@CV勉強会] 3D Packing for Self-Supervised Monocular Depth Estimation
 
Taking a Deeper Look at the Inverse Compositional Algorithm
Taking a Deeper Look at the Inverse Compositional AlgorithmTaking a Deeper Look at the Inverse Compositional Algorithm
Taking a Deeper Look at the Inverse Compositional Algorithm
 
ADVENTUREの他のモジュール・関連プロジェクトの紹介
ADVENTUREの他のモジュール・関連プロジェクトの紹介ADVENTUREの他のモジュール・関連プロジェクトの紹介
ADVENTUREの他のモジュール・関連プロジェクトの紹介
 
CVPR2019 survey Domain Adaptation on Semantic Segmentation
CVPR2019 survey Domain Adaptation on Semantic SegmentationCVPR2019 survey Domain Adaptation on Semantic Segmentation
CVPR2019 survey Domain Adaptation on Semantic Segmentation
 
20200704 bsp net
20200704 bsp net20200704 bsp net
20200704 bsp net
 
2020/07/04 BSP-Net (CVPR2020)
2020/07/04 BSP-Net (CVPR2020)2020/07/04 BSP-Net (CVPR2020)
2020/07/04 BSP-Net (CVPR2020)
 
Light weightbinocular sigasia2012_face
Light weightbinocular sigasia2012_faceLight weightbinocular sigasia2012_face
Light weightbinocular sigasia2012_face
 
2022年度秋学期 画像情報処理 第9回 離散フーリエ変換と離散コサイン変換 (2022. 11. 25)
2022年度秋学期 画像情報処理 第9回 離散フーリエ変換と離散コサイン変換 (2022. 11. 25) 2022年度秋学期 画像情報処理 第9回 離散フーリエ変換と離散コサイン変換 (2022. 11. 25)
2022年度秋学期 画像情報処理 第9回 離散フーリエ変換と離散コサイン変換 (2022. 11. 25)
 
画像処理分野における研究事例紹介
画像処理分野における研究事例紹介画像処理分野における研究事例紹介
画像処理分野における研究事例紹介
 
(文献紹介)深層学習による動被写体ロバストなカメラの動き推定
(文献紹介)深層学習による動被写体ロバストなカメラの動き推定(文献紹介)深層学習による動被写体ロバストなカメラの動き推定
(文献紹介)深層学習による動被写体ロバストなカメラの動き推定
 
点群深層学習 Meta-study
点群深層学習 Meta-study点群深層学習 Meta-study
点群深層学習 Meta-study
 
TPNet: Trajectory Proposal Network for Motion Prediction
TPNet: Trajectory Proposal Network for Motion Prediction TPNet: Trajectory Proposal Network for Motion Prediction
TPNet: Trajectory Proposal Network for Motion Prediction
 
MobileNeRF
MobileNeRFMobileNeRF
MobileNeRF
 
[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...
[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...
[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...
 
object detection with lidar-camera fusion: survey
object detection with lidar-camera fusion: surveyobject detection with lidar-camera fusion: survey
object detection with lidar-camera fusion: survey
 
object detection with lidar-camera fusion: survey (updated)
object detection with lidar-camera fusion: survey (updated)object detection with lidar-camera fusion: survey (updated)
object detection with lidar-camera fusion: survey (updated)
 

Mais de Kazuyuki Miyazawa

VoxFormer: Sparse Voxel Transformer for Camera-based 3D Semantic Scene Comple...
VoxFormer: Sparse Voxel Transformer for Camera-based 3D Semantic Scene Comple...VoxFormer: Sparse Voxel Transformer for Camera-based 3D Semantic Scene Comple...
VoxFormer: Sparse Voxel Transformer for Camera-based 3D Semantic Scene Comple...Kazuyuki Miyazawa
 
Teslaにおけるコンピュータビジョン技術の調査 (2)
Teslaにおけるコンピュータビジョン技術の調査 (2)Teslaにおけるコンピュータビジョン技術の調査 (2)
Teslaにおけるコンピュータビジョン技術の調査 (2)Kazuyuki Miyazawa
 
Teslaにおけるコンピュータビジョン技術の調査
Teslaにおけるコンピュータビジョン技術の調査Teslaにおけるコンピュータビジョン技術の調査
Teslaにおけるコンピュータビジョン技術の調査Kazuyuki Miyazawa
 
ドラレコ + CV = 地図@Mobility Technologies
ドラレコ + CV = 地図@Mobility Technologiesドラレコ + CV = 地図@Mobility Technologies
ドラレコ + CV = 地図@Mobility TechnologiesKazuyuki Miyazawa
 
MLP-Mixer: An all-MLP Architecture for Vision
MLP-Mixer: An all-MLP Architecture for VisionMLP-Mixer: An all-MLP Architecture for Vision
MLP-Mixer: An all-MLP Architecture for VisionKazuyuki Miyazawa
 
CV分野での最近の脱○○系3選
CV分野での最近の脱○○系3選CV分野での最近の脱○○系3選
CV分野での最近の脱○○系3選Kazuyuki Miyazawa
 
kaggle NFL 1st and Future - Impact Detection
kaggle NFL 1st and Future - Impact Detectionkaggle NFL 1st and Future - Impact Detection
kaggle NFL 1st and Future - Impact DetectionKazuyuki Miyazawa
 
3D Perception for Autonomous Driving - Datasets and Algorithms -
3D Perception for Autonomous Driving - Datasets and Algorithms -3D Perception for Autonomous Driving - Datasets and Algorithms -
3D Perception for Autonomous Driving - Datasets and Algorithms -Kazuyuki Miyazawa
 
How Much Position Information Do Convolutional Neural Networks Encode?
How Much Position Information Do Convolutional Neural Networks Encode?How Much Position Information Do Convolutional Neural Networks Encode?
How Much Position Information Do Convolutional Neural Networks Encode?Kazuyuki Miyazawa
 
Depth from Videos in the Wild: Unsupervised Monocular Depth Learning from Unk...
Depth from Videos in the Wild: Unsupervised Monocular Depth Learning from Unk...Depth from Videos in the Wild: Unsupervised Monocular Depth Learning from Unk...
Depth from Videos in the Wild: Unsupervised Monocular Depth Learning from Unk...Kazuyuki Miyazawa
 
Devil is in the Edges: Learning Semantic Boundaries from Noisy Annotations
Devil is in the Edges: Learning Semantic Boundaries from Noisy AnnotationsDevil is in the Edges: Learning Semantic Boundaries from Noisy Annotations
Devil is in the Edges: Learning Semantic Boundaries from Noisy AnnotationsKazuyuki Miyazawa
 

Mais de Kazuyuki Miyazawa (13)

VoxFormer: Sparse Voxel Transformer for Camera-based 3D Semantic Scene Comple...
VoxFormer: Sparse Voxel Transformer for Camera-based 3D Semantic Scene Comple...VoxFormer: Sparse Voxel Transformer for Camera-based 3D Semantic Scene Comple...
VoxFormer: Sparse Voxel Transformer for Camera-based 3D Semantic Scene Comple...
 
Teslaにおけるコンピュータビジョン技術の調査 (2)
Teslaにおけるコンピュータビジョン技術の調査 (2)Teslaにおけるコンピュータビジョン技術の調査 (2)
Teslaにおけるコンピュータビジョン技術の調査 (2)
 
Data-Centric AIの紹介
Data-Centric AIの紹介Data-Centric AIの紹介
Data-Centric AIの紹介
 
Teslaにおけるコンピュータビジョン技術の調査
Teslaにおけるコンピュータビジョン技術の調査Teslaにおけるコンピュータビジョン技術の調査
Teslaにおけるコンピュータビジョン技術の調査
 
ドラレコ + CV = 地図@Mobility Technologies
ドラレコ + CV = 地図@Mobility Technologiesドラレコ + CV = 地図@Mobility Technologies
ドラレコ + CV = 地図@Mobility Technologies
 
MLP-Mixer: An all-MLP Architecture for Vision
MLP-Mixer: An all-MLP Architecture for VisionMLP-Mixer: An all-MLP Architecture for Vision
MLP-Mixer: An all-MLP Architecture for Vision
 
CV分野での最近の脱○○系3選
CV分野での最近の脱○○系3選CV分野での最近の脱○○系3選
CV分野での最近の脱○○系3選
 
kaggle NFL 1st and Future - Impact Detection
kaggle NFL 1st and Future - Impact Detectionkaggle NFL 1st and Future - Impact Detection
kaggle NFL 1st and Future - Impact Detection
 
3D Perception for Autonomous Driving - Datasets and Algorithms -
3D Perception for Autonomous Driving - Datasets and Algorithms -3D Perception for Autonomous Driving - Datasets and Algorithms -
3D Perception for Autonomous Driving - Datasets and Algorithms -
 
How Much Position Information Do Convolutional Neural Networks Encode?
How Much Position Information Do Convolutional Neural Networks Encode?How Much Position Information Do Convolutional Neural Networks Encode?
How Much Position Information Do Convolutional Neural Networks Encode?
 
Depth from Videos in the Wild: Unsupervised Monocular Depth Learning from Unk...
Depth from Videos in the Wild: Unsupervised Monocular Depth Learning from Unk...Depth from Videos in the Wild: Unsupervised Monocular Depth Learning from Unk...
Depth from Videos in the Wild: Unsupervised Monocular Depth Learning from Unk...
 
SIGGRAPH 2019 Report
SIGGRAPH 2019 ReportSIGGRAPH 2019 Report
SIGGRAPH 2019 Report
 
Devil is in the Edges: Learning Semantic Boundaries from Noisy Annotations
Devil is in the Edges: Learning Semantic Boundaries from Noisy AnnotationsDevil is in the Edges: Learning Semantic Boundaries from Noisy Annotations
Devil is in the Edges: Learning Semantic Boundaries from Noisy Annotations
 

EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monocular Object Pose Estimation

  • 1. Mobility Technologies Co., Ltd. 2022年8⽉7⽇ 第11回 全⽇本コンピュータビジョン勉強会 -CVPR2022読み会(前編)- EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monocular Object Pose Estimation 株式会社Mobility Technologies 宮澤 ⼀之
  • 2. Mobility Technologies Co., Ltd. ⾃⼰紹介 2 宮澤 一之 株式会社Mobility Technologies AI技術開発部 AI研究開発第二グループ グループリーダー 経歴 April 2019 - March 2020 AI研究開発エンジニア@DeNA April 2010 - March 2019 研究員@三菱電機 March 2010 博士@東北大学 @kzykmyzw
  • 3. Mobility Technologies Co., Ltd. 論⽂情報 3 EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monocular Object Pose Estimation In CVPR 2022 (Oral, Best Student Paper). [paper][video][GitHub] Hansheng Chen1,2, Pichao Wang2, Fan Wang2, Wei Tian1, Lu Xiong1, Hao Li2 1Tongji University, 2Alibaba Group
  • 4. Mobility Technologies Co., Ltd. 単眼画像からの物体姿勢推定 4 カメラ座標系 物体座標系 R, t カメラに写った物体の姿勢を画像から 推定する(物体座標系からカメラ座標 系への剛体変換を求める) Wikipedia, Six degrees of freedom
  • 5. Mobility Technologies Co., Ltd. 応⽤タスク 5 https://arxiv.org/pdf/1905.12365.pdf http://proceedings.mlr.press/v87/tremblay18a/tremblay18a.pdf 3次元物体検出 6DoF姿勢推定
  • 6. Mobility Technologies Co., Ltd. 応⽤タスク 6 https://arxiv.org/pdf/1905.12365.pdf 3次元物体検出 Pose DNN n 画像から直接的に姿勢 (4DoF) を推定 l 2次元位置 l デプス l 向き n ⻑所:シンプルなend-to-end学習が可能 n 短所:解釈性が低い、過学習しやすい
  • 7. Mobility Technologies Co., Ltd. 応⽤タスク 7 http://proceedings.mlr.press/v87/tremblay18a/tremblay18a.pdf 6DoF姿勢推定 R, t n 対象の3次元モデルは既知 n 3次元点とその2次元投影点の対応関係を求め、 最適化問題として姿勢を推定 → PnP (Perspective-n-Points) 問題
  • 8. Mobility Technologies Co., Ltd. PnP問題 8 y = {R, t} xi 2D xi 3D PnP問題では、3次元点 xi 3D の画像への投影点と、 対応する2次元点 xi 2D との距離(再投影誤差)を 最⼩化することで物体の姿勢 y を求める n 対象の3次元モデルは既知 n 3次元点とその2次元投影点の対応関係を求め、 最適化問題として姿勢を推定 → PnP (Perspective-n-Points) 問題 3次元から2次元への投影 各対応点への重み (wi 2D) X = {xi 3D, xi 2D, wi 2D | i = 1, …, N}
  • 9. Mobility Technologies Co., Ltd. 【参考】OpenCV: Perspective-n-Point (PnP) pose computation 9 https://docs.opencv.org/4.6.0/d5/d1f/calib3d_solvePnP.html ⼀番有名なソルバはEPnP (?) Vincent Lepetit et al., “Accurate Non-Iterative O(n) Solution to the PnP Problem,” IJCV2009.
  • 10. Mobility Technologies Co., Ltd. Deep Learning + PnP 10 Pose y DNN X = {xi 2D, xi 3D, wi 2D | i = 1, …, N} PnP Solver n ⼀般的にPnP問題それ⾃体においては2D-3D対応(及び重み)X は既知とされる n しかし当然ながら実際には X は未知であり、Deep Learningにより推定する⼿法が主流
  • 11. Mobility Technologies Co., Ltd. PVNet 11 Pose y DNN X = {xi 2D, xi 3D, wi 2D | i = 1, …, N} PnP Solver n 中間表現である2D-3D対応に対してロスをか けるtwo-stage⼿法 n 2Dキーポイントを指し⽰すベクトルを各画 素で推定し、その投票により2Dキーポイン トを求めて2D-3D対応からPnPを解く n 安定的ではあるものの、中間表現に対して ロスをかけているためsub-optimalである Loss Sida Peng et al., “PVNet: Pixel-wise Voting Network for 6DoF Pose Estimation,” CVPR2019.
  • 12. Mobility Technologies Co., Ltd. BPnP 12 Pose y DNN X = {xi 2D, xi 3D, wi 2D | i = 1, …, N} PnP Solver n 最終的に求めたい姿勢に対してロスをかけ るend-to-end⼿法 n PnP Solverは微分不可能だが、陰関数定理を 利⽤してbackpropを可能に n end-to-endでの学習が可能だが、 xi 2D のみが 学習対象であり、他は既知としている Loss Bo Chen et al., “End-to-End Learnable Geometric Vision by Backpropagating PnP Optimization,” CVPR2020. PVNetとの⽐較(⾚い箇所がPVNetよりも⾼精度)
  • 13. Mobility Technologies Co., Ltd. 従来⼿法における問題点 13 Pose y DNN X = {xi 2D, xi 3D, wi 2D | i = 1, …, N} PnP Solver Question なぜ X の全てをend-to-endで学習できないのか Answer PnPの解には曖昧性があり本質的に微分不可能な ため学習が困難であり、収束性に問題がある Loss Fabian Manhardt et al., “Explaining the Ambiguity of Object Detection and 6D Pose From Visual Data,” ICCV2019.
  • 14. Mobility Technologies Co., Ltd. 本論⽂の貢献 14 n 物体姿勢を決定論的に求めるのではなく確率分 布として求めることでPnPの曖昧性を考慮 l End-to-end probabilistic PnP (EPro-PnP) を提案 l 2D-3D対応およびその重みを全てスクラッチ で学習 n 既存の6DoF姿勢推定アルゴリズムにEPro-PnPを 組み込むことで性能が改善することを確認 n EPro-PnPに基づく新たな3次元物体検出アルゴリ ズムを提案
  • 15. Mobility Technologies Co., Ltd. EPro-PnP 15 PnPの出⼒を姿勢の分布であるとみなし、以下の 尤度関数を導⼊ ベイズの定理より uninformative prior X = {xi 3D, xi 2D, wi 2D | i = 1, …, N} y = {R, t} xi 2D xi 3D (wi 2D)
  • 16. Mobility Technologies Co., Ltd. EPro-PnP 16 PnPの出⼒を姿勢の分布であるとみなし、以下の 尤度関数を導⼊ ベイズの定理より uninformative prior categorical Softmax 離散 連続 X = {xi 3D, xi 2D, wi 2D | i = 1, …, N} a a y = {R, t} xi 2D xi 3D (wi 2D)
  • 17. Mobility Technologies Co., Ltd. KL Loss Function 17 真値となる姿勢の確率密度 t(y) と p(y|X) とのKLダイバージェンスをロスとして学習 t(y) は真値 ygt を中⼼とするデルタ関数 ⼊⼒空間 推定分布 真値分布 損失関数 categorical Softmax 離散 one-hot cross entropy EPro-PnP 連続 Dirac's delta KL divergence a a Softmaxとの対⽐ Deep Learning JP DL輪読会資料を基に編集
  • 18. Mobility Technologies Co., Ltd. KL Loss Function 18 真値となる姿勢の確率密度 t(y) と p(y|X) とのKLダイバージェンスをロスとして学習 t(y) は真値 ygt を中⼼とするデルタ関数 真値姿勢による再投影誤差を最⼩化 誤った推定姿勢による再投影誤差を最⼤化
  • 19. Mobility Technologies Co., Ltd. 重点サンプリングによるモンテカルロ積分 19 n LKL 第2項の積分はそのままでは計算できないため、モンテカルロ積分により K 回のランダムサ ンプリングの期待値として近似 n サンプリング対象の確率密度関数 q(y) (提案分布) を適切に選ぶことで効率を上げる重点サンプ リングを利⽤ l 3次元位置:t分布 l 1次元yaw :von Mises分布+⼀様分布 l 3次元⾓度:angular central Gaussian分布 n 繰り返しにより提案分布を更新するAMIS (Adaptive Multiple Importance Sampling) アルゴリズムを利⽤
  • 20. Mobility Technologies Co., Ltd. ロス関数 偏微分 2D-3D対応の重みwi 2Dの勾配 不確実性と識別性のバランス 20 真値姿勢による再投影誤差が⼤きい (不確 実性が⾼い) 箇所は重みを⼩さくするよう に働く 推定姿勢による再投影誤差の分散に関係し ており、姿勢変化に敏感な (識別性が⾼い) 箇所は重みを⼤きくするように働く wi 2Dの可視化
  • 21. Mobility Technologies Co., Ltd. 6DoF姿勢推定への応⽤ 21 n 密な2D-3D対応を求めて6DoF姿勢を推定するCDPNにEPro-PnPを組み込み n CDPNは物体BBOXからtranslation headで並進ベクトルを推定し、rotation headで回転⾏列を推定 n CDPNのrotation headはPnPベースだがtranslation headは回帰ベースのため、translation headを削 除してrotation headをEPro-PnPで置き換え Zhigang Li et al., “CDPN: Coordinates-Based Disentangled Pose Network for Real-Time RGB-Based 6-DoF Object Pose Estimation,” ICCV2019.
  • 22. Mobility Technologies Co., Ltd. 性能評価実験 22 n LineMOD Dataset l 6DoF姿勢推定の標準的なベンチマーク l 約1200枚の画像からなる13シーケンス l 各画像において⼀つの物体の6DoF姿勢が アノテーションされている n 評価尺度 l n°, n cm:回転と並進の誤差がn°, n cm 以下となる場合を姿勢推定に成功したと みなした場合の成功率(n = 2, 5) l ADD:推定した姿勢に変換した物体の各3 次元点のうち、真値との距離が閾値以下 となる点の割合(閾値は物体の直径をd として、0.02d、0.05d、0.1d)
  • 23. Mobility Technologies Co., Ltd. 定性評価 23
  • 24. Mobility Technologies Co., Ltd. 定性評価 24 姿勢の識別性が⾼いキーポイントにおいて ⼤きい重みが獲得されている
  • 25. Mobility Technologies Co., Ltd. 3次元物体検出への応⽤ 25 n FCOS3DをベースにDeformable DETRを組み合わせ、2D-3D対応と重みを学習するdeformable correspondence networkを提案 n multi-level headの出⼒から物体のクエリを⽣成し、Deformable DETRから取り⼊れたdeformable sampling layerに⼊⼒ n まず x2D を推定し、対応する特徴マップの座標からpoint-wise featureをサンプリングして Transformerにより x3D と w2D を推定 n 他ブランチでconfidence scoreや3D BBOXのサイズを推定
  • 26. Mobility Technologies Co., Ltd. 性能評価実験 26 n nuScenes Dataset l ⾞載カメラ画像データセット l 40キーフレームからなる1000シーケンス l 各キーフレームは6つのカメラ画像を含む l 10カテゴリ、合計140万の3D BBOX n 評価尺度 l mAP:地⾯上での2次元座標をベースに計算 したaverage precisionのカテゴリ平均 l ATE:Average Translation Error l ASE:Average Scale Error l AOE:Average Orientation Error l AVE:Average Velocity Error l AAE:Average Attribute Error l NDS:nuScenes detection score (全尺度の重み付き平均) test-time flip augmentation (TTA) model ensemble ※ LiDARのスパースな3次元点を使い、座標を回帰するロスを追加 ※
  • 27. Mobility Technologies Co., Ltd. 定性評価 27 姿勢の曖昧性を分布として 表現できている https://github.com/tjiiv-cprg/EPro-PnP/blob/main/EPro-PnP-Det/resources/viz.gif
  • 28. Mobility Technologies Co., Ltd. まとめ 28 n 3次元物体検出におけるend-to-endモデルと、6DoF姿勢推定における幾何ベースモデルの⻑所を 組み合わせたモデルの実現ためにbackprop可能なPnPレイヤとしてEPro-PnPを提案 n 従来⼿法のように決定論的に姿勢を推定するのではなく、姿勢の確率密度を推定することでPnP における本質的な学習の難しさを解決 n 離散空間のクラス分類で広く⽤いられているSoftmaxによるone-hot argmaxの平滑化近似の連続 空間におけるカウンターパートとして理論を展開 n 6DoF姿勢推定、3次元物体検出の双⽅において実験により効果を確認 n (ただし、SoTA性能を出すためにはauxiliary loss必須?)
  • 29. Mobility Technologies Co., Ltd. Weʼre Hiring! 29 n エンジニアは⽇本のどこから働いてもOKな オフィスフリー制度開始! n 夏季インターン募集開始! https://www.wantedly.com/projects/1079701 https://hrmos.co/pages/mo-t/jobs?category=1342449154655301632