【DL輪読会】EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Pointsfor Monocular Object Pose Estimation

Deep Learning JP
25 de Jul de 2022
【DL輪読会】EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Pointsfor Monocular Object Pose Estimation
【DL輪読会】EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Pointsfor Monocular Object Pose Estimation
【DL輪読会】EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Pointsfor Monocular Object Pose Estimation
【DL輪読会】EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Pointsfor Monocular Object Pose Estimation
【DL輪読会】EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Pointsfor Monocular Object Pose Estimation
【DL輪読会】EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Pointsfor Monocular Object Pose Estimation
【DL輪読会】EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Pointsfor Monocular Object Pose Estimation
【DL輪読会】EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Pointsfor Monocular Object Pose Estimation
【DL輪読会】EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Pointsfor Monocular Object Pose Estimation
【DL輪読会】EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Pointsfor Monocular Object Pose Estimation
【DL輪読会】EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Pointsfor Monocular Object Pose Estimation
【DL輪読会】EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Pointsfor Monocular Object Pose Estimation
【DL輪読会】EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Pointsfor Monocular Object Pose Estimation
【DL輪読会】EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Pointsfor Monocular Object Pose Estimation
【DL輪読会】EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Pointsfor Monocular Object Pose Estimation
1 de 15

Mais conteúdo relacionado

Mais procurados

Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Yusuke Uchida
動作認識の最前線:手法,タスク,データセット動作認識の最前線:手法,タスク,データセット
動作認識の最前線:手法,タスク,データセットToru Tamaki
実装レベルで学ぶVQVAE実装レベルで学ぶVQVAE
実装レベルで学ぶVQVAEぱんいち すみもと
【メタサーベイ】数式ドリブン教師あり学習【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習cvpaper. challenge
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose EstimationDeep Learning JP
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話Yusuke Uchida

Mais procurados(20)

Mais de Deep Learning JP

【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving PlannersDeep Learning JP
【DL輪読会】事前学習用データセットについて【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについてDeep Learning JP
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...Deep Learning JP
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place RecognitionDeep Learning JP
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?Deep Learning JP
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究についてDeep Learning JP

Mais de Deep Learning JP(20)

Último

20230921_IoTLT_vol103_kitazaki_v1.pdf20230921_IoTLT_vol103_kitazaki_v1.pdf
20230921_IoTLT_vol103_kitazaki_v1.pdfAyachika Kitazaki
CCoE実践者コミュニティ#1_CCoEが進めるセキュリティカイゼンの旅.pptxCCoE実践者コミュニティ#1_CCoEが進めるセキュリティカイゼンの旅.pptx
CCoE実践者コミュニティ#1_CCoEが進めるセキュリティカイゼンの旅.pptxTomoaki Tada
CatBoost on GPU のひみつCatBoost on GPU のひみつ
CatBoost on GPU のひみつTakuji Tahara
遠征ドルヲタのための便利サイトを作ってみた遠征ドルヲタのための便利サイトを作ってみた
遠征ドルヲタのための便利サイトを作ってみたKenta Fujimoto
磁石内臓イヤリングによる磁力変化を利用したジェスチャ識別磁石内臓イヤリングによる磁力変化を利用したジェスチャ識別
磁石内臓イヤリングによる磁力変化を利用したジェスチャ識別sugiuralab
2023情報処理学会関西支部大会-G12.pdf2023情報処理学会関西支部大会-G12.pdf
2023情報処理学会関西支部大会-G12.pdfKoseiShimoda1

【DL輪読会】EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Pointsfor Monocular Object Pose Estimation

Notas do Editor

  1. という論文を紹介します.
  2. まず,書誌情報です. この論文はCVPR2022でBest Student Paperを受賞しており,Best Paperに興味があったため選びました.
  3. この論文は,機械学習モデル内のargmin処理が学習不安定であることを解決しました. 大まかな流れとして,この3段階に分けられます. 物体姿勢推定は右図に示すPerspective-n-Point PnPが高精度です. これは,古典的なCVアルゴリズムで,3次元空間の点と2次元画像上の点を対応付けることで,物体姿勢を求めます. しかし,このPnPはargmin処理のために機械学習モデル内で用いると学習が困難です. これに対して,提案手法ではargmin処理の出力を確率分布とすることで微分可能にし,End-to-End学習を可能にしました.
  4. 研究背景について説明します. 深層学習が流行りだした後には,このように物体が写った画像から直接姿勢をregressionする手法が多く取られています. 姿勢の例としては,3次元位置と3次元回転や車載系では道路平面上の2次元位置と鉛直方向の回転などです. 良い点として,単純であり物体形状を必要としません. しかし,物体全体の情報から姿勢を推定するため,過学習しがちで汎化性能が悪いです.
  5. 物体形状が既知の場合,右図のように物体表面上の点と画像平面上の点を3点以上対応付けることで, 物体姿勢を求めることが可能です. これがPerspective-n-Pointアルゴリズムです. 具体的には,画像上に投影した3次元点と2次元点の距離が最小になるようにargmin処理で姿勢を求めます. 良い点として,局所的な見た目によって姿勢推定を求めるため,見た目の変化にロバストで高精度です. また推定失敗した場合は,対応付けミスを調べることで解釈を行えます. しかし,大きな問題としてこのアルゴリズムは物体形状が必要です. 深層学習の時代では,End-to-Endで物体形状もimplicitに学習できないかと考えます.
  6. 単純にPnPを深層学習器と組み合わせたものがこちらです. 画像情報から深層学習器によってPnPの入力となる3つを出力します. その後,PnP内でargminを行うことで姿勢を推定し,損失を計算します. このようにEnd-to-End学習することで物体形状も学習できることを期待します. しかし,argmin処理は不連続で微分不可なために,勾配更新前後で損失が急激に変化し学習が不安定です. よって,提案手法が必要です.
  7. End-to-End Probabilistic PnP (EPro-PnP)が提案されました. これは,argmin処理の出力をsoftmaxを用いて確率分布とすることで,連続で微分可能にし学習を安定化させています. 損失はGT分布とのKL divergenceです. 俯瞰してみるとかなり単純な手法だとわかっていただけると思います.
  8. このEpro-PnPは,classificationのSoftmaxとよく対比されます. softmaxは離散クラスにおいて用いられ,Epro-PnPは連続空間において用いられます. EPro-PnPの確率値は,よくご存じのsoftmaxを連続空間に拡張したものとなっています. softmaxのGT分布はonehotベクトルですが,Epro-PnPではディラックのデルタ関数が用いられます. このデルタ関数は,ある一点において確率密度が無限大となる関数で,onehotと酷似しています. 用いられる損失は,cross entropyとKL divergenceでほぼ同じものです. このようにEpro-PnPはsoftmaxを連続空間へ拡張している単純なものです.
  9. これから,KL損失を計算します. 式変形を重ねていくと,最終的にGT姿勢の確率を最大化する項と他の姿勢の確率を最小化する項にたどり着きます. これは,categorical softmaxを微分した場合にも類似した項が得られます. しかし,大きな問題点として連続空間全体に対する積分が計算できず,最適化できません.
  10. 提案手法では,この積分値を重点サンプリングにより近似します. 重点サンプリングは,あるサンプリング可能な分布による期待値で積分値を近似します. この近似精度は分布qがどれだけ真の分布との類似性に依存します. よって提案手法では,3次元位置空間や角度空間での分布qも提案しています. 結局はすべてGaussian likeな分布です.
  11. このEPro-PnPを物体6次元姿勢推定に適用した例がこちらです. 既存ネットワークから,3次元位置と重要度を予測するブランチを生やして学習したところ, 精度が向上されています.
  12. また,車載系の3次元物体検出にも適用されていました. ここでも精度向上が確認されています.
  13. まとめです. 提案手法では,categorical softmaxの連続空間版を提案し,argmax処理の不連続性を解消しています. argmin処理は古典的なアルゴリズムで頻出するため,かなり応用範囲が広いのではないかと感じます. また,解法もシンプルで性能も向上しており,流石best paperだと思います.