SlideShare a Scribd company logo
Enviar pesquisa
Carregar
Entrar
Cadastre-se
【DL輪読会】EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Pointsfor Monocular Object Pose Estimation
Denunciar
Deep Learning JP
Seguir
Deep Learning JP
25 de Jul de 2022
•
0 gostou
•
643 visualizações
1
de
15
【DL輪読会】EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Pointsfor Monocular Object Pose Estimation
25 de Jul de 2022
•
0 gostou
•
643 visualizações
Baixar agora
Baixar para ler offline
Denunciar
Tecnologia
2022/7/22 Deep Learning JP http://deeplearning.jp/seminar-2/
Deep Learning JP
Seguir
Deep Learning JP
Recomendados
EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monoc...
Kazuyuki Miyazawa
609 visualizações
•
30 slides
【DL輪読会】ViT + Self Supervised Learningまとめ
Deep Learning JP
3.7K visualizações
•
52 slides
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜
SSII
3K visualizações
•
39 slides
三次元表現まとめ(深層学習を中心に)
Tomohiro Motoda
1.3K visualizações
•
38 slides
ドメイン適応の原理と応用
Yoshitaka Ushiku
5.2K visualizações
•
50 slides
近年のHierarchical Vision Transformer
Yusuke Uchida
13.3K visualizações
•
46 slides
Mais conteúdo relacionado
Mais procurados
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Yusuke Uchida
15.3K visualizações
•
38 slides
動作認識の最前線:手法,タスク,データセット
Toru Tamaki
2.4K visualizações
•
128 slides
実装レベルで学ぶVQVAE
ぱんいち すみもと
12.4K visualizações
•
23 slides
【メタサーベイ】数式ドリブン教師あり学習
cvpaper. challenge
5.3K visualizações
•
33 slides
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
Deep Learning JP
1.3K visualizações
•
39 slides
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
Yusuke Uchida
9.3K visualizações
•
56 slides
Mais procurados
(20)
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Yusuke Uchida
•
15.3K visualizações
動作認識の最前線:手法,タスク,データセット
Toru Tamaki
•
2.4K visualizações
実装レベルで学ぶVQVAE
ぱんいち すみもと
•
12.4K visualizações
【メタサーベイ】数式ドリブン教師あり学習
cvpaper. challenge
•
5.3K visualizações
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
Deep Learning JP
•
1.3K visualizações
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
Yusuke Uchida
•
9.3K visualizações
【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...
Deep Learning JP
•
895 visualizações
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
Deep Learning JP
•
991 visualizações
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
Deep Learning JP
•
3.6K visualizações
Transformer 動向調査 in 画像認識
Kazuki Maeno
•
794 visualizações
【チュートリアル】コンピュータビジョンによる動画認識
Hirokatsu Kataoka
•
12.5K visualizações
[DL輪読会]MetaFormer is Actually What You Need for Vision
Deep Learning JP
•
1.3K visualizações
SfM Learner系単眼深度推定手法について
Ryutaro Yamauchi
•
10.4K visualizações
【DL輪読会】Patches Are All You Need? (ConvMixer)
Deep Learning JP
•
2K visualizações
SLAM勉強会(3) LSD-SLAM
Iwami Kazuya
•
11.5K visualizações
[DL輪読会]Transframer: Arbitrary Frame Prediction with Generative Models
Deep Learning JP
•
1.1K visualizações
SSII2021 [TS1] Visual SLAM ~カメラ幾何の基礎から最近の技術動向まで~
SSII
•
4.1K visualizações
最近のDeep Learning (NLP) 界隈におけるAttention事情
Yuta Kikuchi
•
72.1K visualizações
【DL輪読会】Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
Deep Learning JP
•
600 visualizações
【メタサーベイ】Vision and Language のトップ研究室/研究者
cvpaper. challenge
•
1.7K visualizações
Mais de Deep Learning JP
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
Deep Learning JP
135 visualizações
•
28 slides
【DL輪読会】事前学習用データセットについて
Deep Learning JP
189 visualizações
•
20 slides
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
Deep Learning JP
144 visualizações
•
26 slides
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
Deep Learning JP
187 visualizações
•
30 slides
【DL輪読会】Can Neural Network Memorization Be Localized?
Deep Learning JP
446 visualizações
•
15 slides
【DL輪読会】Hopfield network 関連研究について
Deep Learning JP
869 visualizações
•
29 slides
Mais de Deep Learning JP
(20)
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
Deep Learning JP
•
135 visualizações
【DL輪読会】事前学習用データセットについて
Deep Learning JP
•
189 visualizações
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
Deep Learning JP
•
144 visualizações
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
Deep Learning JP
•
187 visualizações
【DL輪読会】Can Neural Network Memorization Be Localized?
Deep Learning JP
•
446 visualizações
【DL輪読会】Hopfield network 関連研究について
Deep Learning JP
•
869 visualizações
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
Deep Learning JP
•
246 visualizações
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
Deep Learning JP
•
186 visualizações
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
Deep Learning JP
•
555 visualizações
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
Deep Learning JP
•
400 visualizações
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
Deep Learning JP
•
1K visualizações
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
Deep Learning JP
•
368 visualizações
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
Deep Learning JP
•
338 visualizações
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
Deep Learning JP
•
585 visualizações
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
Deep Learning JP
•
684 visualizações
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
Deep Learning JP
•
292 visualizações
【DL輪読会】Deep Transformers without Shortcuts: Modifying Self-attention for Fait...
Deep Learning JP
•
280 visualizações
【DL輪読会】マルチモーダル 基盤モデル
Deep Learning JP
•
811 visualizações
【DL輪読会】TrOCR: Transformer-based Optical Character Recognition with Pre-traine...
Deep Learning JP
•
428 visualizações
【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...
Deep Learning JP
•
209 visualizações
Último
20230921_IoTLT_vol103_kitazaki_v1.pdf
Ayachika Kitazaki
164 visualizações
•
16 slides
CCoE実践者コミュニティ#1_CCoEが進めるセキュリティカイゼンの旅.pptx
Tomoaki Tada
57 visualizações
•
20 slides
CatBoost on GPU のひみつ
Takuji Tahara
548 visualizações
•
30 slides
遠征ドルヲタのための便利サイトを作ってみた
Kenta Fujimoto
11 visualizações
•
24 slides
磁石内臓イヤリングによる磁力変化を利用したジェスチャ識別
sugiuralab
7 visualizações
•
1 slide
2023情報処理学会関西支部大会-G12.pdf
KoseiShimoda1
7 visualizações
•
11 slides
Último
(13)
20230921_IoTLT_vol103_kitazaki_v1.pdf
Ayachika Kitazaki
•
164 visualizações
CCoE実践者コミュニティ#1_CCoEが進めるセキュリティカイゼンの旅.pptx
Tomoaki Tada
•
57 visualizações
CatBoost on GPU のひみつ
Takuji Tahara
•
548 visualizações
遠征ドルヲタのための便利サイトを作ってみた
Kenta Fujimoto
•
11 visualizações
磁石内臓イヤリングによる磁力変化を利用したジェスチャ識別
sugiuralab
•
7 visualizações
2023情報処理学会関西支部大会-G12.pdf
KoseiShimoda1
•
7 visualizações
拡散する画像生成.pdf
NTTDOCOMO-ServiceInnovation
•
44 visualizações
ヒアラブルデバイスにおける音漏れ信号を用いた空中ジェスチャ認識
sugiuralab
•
5 visualizações
GraphQLはどんな時に使うか
Yutaka Tachibana
•
14 visualizações
インフラチームとCCoEの関係.pptx
ssuser5c7ee4
•
20 visualizações
遠隔お酌IoTLT2309.pptx
Yoshiaki Ito
•
145 visualizações
画像生成AIの問題点
iPride Co., Ltd.
•
10 visualizações
MLOps Course Slides_JP(配布用).pdf
Yuya Yamamoto
•
118 visualizações
【DL輪読会】EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Pointsfor Monocular Object Pose Estimation
1.
DEEP LEARNING JP [DL
Papers] “EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monocular Object Pose Estimation” Presenter: Takahiro Maeda D1 (Toyota Technological Institute) http://deeplearning.jp/
2.
目次 1. 書誌情報 2. 概要 3.
研究背景 4. 提案手法 5. 実験結果 6. 考察・所感 2
3.
1. 書誌情報 紹介論文 タイトル: EPro-PnP:
Generalized End-to-End Probabilistic Perspective-n-Points for Monocular Object Pose Estimation 出典: CVPR2022 Best Student Paper 著者: Hansheng Chen, …, Hao Li. 所属: 同済大学(中国),Alibaba 選書理由 CVPR2022のBest Student Paperに興味がある ※引用は最後にまとめてあります.特に明示が無い場合は,紹介論文,動画から引用 3
4.
2. 概要 • argminの学習不安定性を緩和する手法を提案 ①
物体姿勢推定は Perspective-n-Point (PnP) が比較的高精度 ② しかし,PnPはargmin処理により,微分不可・学習不安定 ③ 提案手法(EPro-PnP)では,argmin出力を確率分布とする ことで微分可能にし,End-to-End学習を可能にした. 4 Perspective-n-Point (PnP)問題 [1]
5.
3. 研究背景: Direct
Pose Prediction 5 2D画像 姿勢 𝑅, 𝒕 6次元姿勢推定[2] 3次元位置 3次元回転 3次元物体検出(車載系)[3] 平面上2次元位置 鉛直方向1次元回転 姿勢の例 良い点 • 単純 • 物体形状を必要としない 悪い点 • (PnPと比べ)解釈性が低い • 過学習,汎化性能悪い(見た目の変化に過敏) 損失関数
6.
3. 研究背景: Perspective-n-Point
(PnP) 6 物体形状が既知の場合... 3点以上の対応付けから 姿勢推定が可能 (PnP) 𝒙𝑖 3D ∈ ℝ3 : 物体表面上の3次元点 𝒙𝑖 2D ∈ ℝ2 : 画像上の2次元点 𝒘𝑖 2D ∈ ℝ+ 2 : 各2次元点の重要度 𝑅, 𝒕 = argmin𝑅,𝒕 𝑖 𝒘𝑖 2D ∘ 𝜋 𝑅𝒙𝑖 3D + 𝒕 − 𝒙𝑖 2D 𝟐 推定姿勢 投影した3次元 点 良い点 • 高精度 • 計算式が明示的で解釈性が高い 悪い点 • 物体形状が必要 End-to-End学習で 物体形状もimplicitに 学習可能...? 2次元点
7.
3. 研究背景: End-to-EndなPnPの課題 7 良い点 •
PnPにより(学習可能ならば)高 精度 • 物体形状を必要としない 悪い点 • argminに対して勾配を通すため,学習が不 2D画像 損失関数 𝒙𝑖 3D ∈ ℝ3 : 3次元 点 𝒙𝑖 2D ∈ ℝ2 : 2次元 点 𝒘𝑖 2D ∈ ℝ+ 2 : 重要度 姿勢 𝑅, 𝒕 PnP solver argmin𝑅,𝒕 𝑖 𝐞𝐫𝐫 𝟐 不連続 勾配更新前後の損失の急激な変化 提案手法
8.
4. 提案手法: argminから確率分布への緩和 8 2D画像
損失関数 MSE 𝒙𝑖 3D ∈ ℝ3 𝒙𝑖 2D ∈ ℝ2 𝒘𝑖 2D ∈ ℝ+ 2 姿勢 𝑅, 𝒕 PnP solver argmin𝑅,𝒕 𝑖 𝐞𝐫𝐫 𝟐 不連続 従来法 提案手法 2D画像 EPro-PnP 連続 確率分布 𝒙𝑖 3D ∈ ℝ3 𝒙𝑖 2D ∈ ℝ2 𝒘𝑖 2D ∈ ℝ+ 2 GT分布[4] 損失関数 KL divergence Pose Softmax
9.
4. 提案手法: categorical
softmaxとの対比 9 Categorical Softmax EPro-PnP 入力空間 推定分布 GT分布 損失関数 離散 ( クラス数 ) 連続値 ( 姿勢空間 ) exp(𝑥𝑖) 𝑖 exp(𝑥𝑖) exp(− 1 2 𝒆𝒓𝒓(𝒚, 𝑿) 2) exp − 1 2 𝒆𝒓𝒓 𝒚, 𝑿 2 𝑑𝒚 𝒙𝑖 3D ∈ ℝ3 𝒙𝑖 2D ∈ ℝ2 𝒘𝑖 2D ∈ ℝ+ 2 姿勢 𝑅, 𝒕 𝑿 𝒚 onehot デルタ 関数 Cross Entropy KL Divergence
10.
4. 提案手法: 損失関数 10 確率分布 GT分布[4] 損失関数 KL
divergence Pose 𝐿 = 𝐷KL 𝛿gt 𝒚 𝑝 𝒚 𝑿 = 𝛿gt 𝒚 log 𝛿gt 𝒚 𝑝 𝒚 𝑿 𝑑𝒚 = − 𝛿gt 𝒚 log 𝑝 𝒚 𝑿 𝑑𝒚 + const = −log 𝑝 𝒚gt 𝑿 + const = 1 2 𝒆𝒓𝒓 𝒚gt, 𝑿 2 + log exp − 1 2 𝒆𝒓𝒓 𝒚, 𝑿 2 𝑑𝒚 𝛿gt(𝒚) 𝑝(𝒚|𝑿) 確率密度関数におけるKLDの定義 𝑿に関わらない項を定数に デルタ関数の積分の定義 𝑝(𝒚|𝑿)の定義,const省略 GT姿勢の確率を最大化 他の姿勢の確率を最小化 確率分布
11.
4. 提案手法: 重点サンプリングによる積分値の近似 11 log
exp − 1 2 𝒆𝒓𝒓 𝒚, 𝑿 2 𝑑𝒚 = log 𝑓 𝒚 𝑑𝒚 = log 𝑓 𝒚 𝑞 𝒚 𝑞 𝒚 𝑑𝒚 = log 𝔼𝑞 𝑓 𝒚 𝑞 𝒚 ≈ log 𝑖 𝑓 𝒚 𝑞 𝒚 𝑓(𝒚)と置く 𝑞 𝒚 𝑞(𝒚) = 1を掛け合わせる. ただし,𝑞(𝒚)はサンプリング可な確率分 布 積分を期待値とする 𝑞(𝒚)からのサンプルによる期待値の近似 (重点サンプリング) 重点サンプリングの近似精度は𝑞(𝒚)の選択に依存 推定空間に合わせた分布を選択する必要がある. 姿勢推定: 3次元位置 t分布 1次元角度 von Mises distribution と一様分布の混 合 3次元角度 Angular Central Gaussian Distribution
12.
5. 実験結果: 6次元姿勢推定 12 6次元姿勢推定[2] CDPN:
PnPベースの6次元姿勢推定従来法
13.
5. 実験結果: 3次元物体検出 13 3次元物体検出(車載系)[3] 平面上2次元位置 鉛直方向1次元回転
14.
6. 所感・考察 • softmaxの連続空間verを提案 –
身近な場所にbest paperの種が落ちている • argminは古典的アルゴリズムで頻出するため,応用範囲が広い • 解法がシンプル • 性能も向上 • 流石best paper 14
15.
引用 [1] Perspective-n-Point問題 http://www.sanko-shoko.net/note.php?id=y15w [2]
EfficientPose https://github.com/ybkscht/EfficientPose [3] KITTI http://www.cvlibs.net/datasets/kitti/ [4] Dirac delta https://jp.mathworks.com/help/symbolic/sym.dirac.html 15
Notas do Editor
という論文を紹介します.
まず,書誌情報です. この論文はCVPR2022でBest Student Paperを受賞しており,Best Paperに興味があったため選びました.
この論文は,機械学習モデル内のargmin処理が学習不安定であることを解決しました. 大まかな流れとして,この3段階に分けられます. 物体姿勢推定は右図に示すPerspective-n-Point PnPが高精度です. これは,古典的なCVアルゴリズムで,3次元空間の点と2次元画像上の点を対応付けることで,物体姿勢を求めます. しかし,このPnPはargmin処理のために機械学習モデル内で用いると学習が困難です. これに対して,提案手法ではargmin処理の出力を確率分布とすることで微分可能にし,End-to-End学習を可能にしました.
研究背景について説明します. 深層学習が流行りだした後には,このように物体が写った画像から直接姿勢をregressionする手法が多く取られています. 姿勢の例としては,3次元位置と3次元回転や車載系では道路平面上の2次元位置と鉛直方向の回転などです. 良い点として,単純であり物体形状を必要としません. しかし,物体全体の情報から姿勢を推定するため,過学習しがちで汎化性能が悪いです.
物体形状が既知の場合,右図のように物体表面上の点と画像平面上の点を3点以上対応付けることで, 物体姿勢を求めることが可能です. これがPerspective-n-Pointアルゴリズムです. 具体的には,画像上に投影した3次元点と2次元点の距離が最小になるようにargmin処理で姿勢を求めます. 良い点として,局所的な見た目によって姿勢推定を求めるため,見た目の変化にロバストで高精度です. また推定失敗した場合は,対応付けミスを調べることで解釈を行えます. しかし,大きな問題としてこのアルゴリズムは物体形状が必要です. 深層学習の時代では,End-to-Endで物体形状もimplicitに学習できないかと考えます.
単純にPnPを深層学習器と組み合わせたものがこちらです. 画像情報から深層学習器によってPnPの入力となる3つを出力します. その後,PnP内でargminを行うことで姿勢を推定し,損失を計算します. このようにEnd-to-End学習することで物体形状も学習できることを期待します. しかし,argmin処理は不連続で微分不可なために,勾配更新前後で損失が急激に変化し学習が不安定です. よって,提案手法が必要です.
End-to-End Probabilistic PnP (EPro-PnP)が提案されました. これは,argmin処理の出力をsoftmaxを用いて確率分布とすることで,連続で微分可能にし学習を安定化させています. 損失はGT分布とのKL divergenceです. 俯瞰してみるとかなり単純な手法だとわかっていただけると思います.
このEpro-PnPは,classificationのSoftmaxとよく対比されます. softmaxは離散クラスにおいて用いられ,Epro-PnPは連続空間において用いられます. EPro-PnPの確率値は,よくご存じのsoftmaxを連続空間に拡張したものとなっています. softmaxのGT分布はonehotベクトルですが,Epro-PnPではディラックのデルタ関数が用いられます. このデルタ関数は,ある一点において確率密度が無限大となる関数で,onehotと酷似しています. 用いられる損失は,cross entropyとKL divergenceでほぼ同じものです. このようにEpro-PnPはsoftmaxを連続空間へ拡張している単純なものです.
これから,KL損失を計算します. 式変形を重ねていくと,最終的にGT姿勢の確率を最大化する項と他の姿勢の確率を最小化する項にたどり着きます. これは,categorical softmaxを微分した場合にも類似した項が得られます. しかし,大きな問題点として連続空間全体に対する積分が計算できず,最適化できません.
提案手法では,この積分値を重点サンプリングにより近似します. 重点サンプリングは,あるサンプリング可能な分布による期待値で積分値を近似します. この近似精度は分布qがどれだけ真の分布との類似性に依存します. よって提案手法では,3次元位置空間や角度空間での分布qも提案しています. 結局はすべてGaussian likeな分布です.
このEPro-PnPを物体6次元姿勢推定に適用した例がこちらです. 既存ネットワークから,3次元位置と重要度を予測するブランチを生やして学習したところ, 精度が向上されています.
また,車載系の3次元物体検出にも適用されていました. ここでも精度向上が確認されています.
まとめです. 提案手法では,categorical softmaxの連続空間版を提案し,argmax処理の不連続性を解消しています. argmin処理は古典的なアルゴリズムで頻出するため,かなり応用範囲が広いのではないかと感じます. また,解法もシンプルで性能も向上しており,流石best paperだと思います.