O slideshow foi denunciado.
Utilizamos seu perfil e dados de atividades no LinkedIn para personalizar e exibir anúncios mais relevantes. Altere suas preferências de anúncios quando desejar.

CVPR2019 読み会「Understanding the Limitations of CNN-based Absolute Camera Pose Regression」

980 visualizações

Publicada em

2019.07.06のCVPR2019読み会で発表したスライド
「Understanding the Limitations of CNN-based Absolute Camera Pose Regression」

Publicada em: Ciências
  • Login to see the comments

CVPR2019 読み会「Understanding the Limitations of CNN-based Absolute Camera Pose Regression」

  1. 1. Understanding the Limitations of CNN-based Absolute Camera Pose Regression 2019.07.06 kagami
  2. 2. 紹介する論⽂について • Visual localizationにおいて、End-to-endでカメラポーズを出 ⼒するCNNベース⼿法の問題点を指摘 2 • Visual localizationの第⼀⼈者 • 元 Marc Pollefeys の研究室 • CVPR 2019に5本投稿 Ø BAD-SLAM, D2-Net, … • ETH Zurich 教授 + Microsoft • MicrosoftからもVisual localization に関する論⽂を出している
  3. 3. • RGB画像のシーンに対するカメラの位置・姿勢を推定する • アプリケーション Ø⾃動運転、ロボット、AR/VR/MR Visual Localizationとは? 3 参考: Kendall, Alex, Matthew Grimes, and Roberto Cipolla. "Posenet: A convolutional network for real-time 6-dof camera relocalization." CVPR. 2015. RGB画像 出⼒: カメラポーズ シーン
  4. 4. ⼀般的なVisual Localization 4 画像 特徴量検出 ・記述 2D-3D(2D) マッチング カメラポーズ 推定(PnP) カメラポーズ • Structure-based method Ø画像と復元されている三次元点群との特徴点対応を⽤いてカメラ ポーズを推定 (画像検索)
  5. 5. • Visual localizationの各タスクをCNNに置き換えた⼿法が 近年出てきた Visual Localization x CNN 5 特徴量検出 ・記述 2D-3D(2D) マッチング カメラポーズ 推定(PnP) カメラポーズ LIFT, SuperPoint, LF-Net, D2-Net, … 2D-3D MatchNet, [Moo et al. 2018] [Dang et al. 2018] DSAC++, [Weinzaepfel et al. 2019], … 画像 (画像検索) NetVLAD → どの組み合わせが⼀番いいのか?
  6. 6. Visual localization benchmark • CVPR 2019 workshop ØLong-term visual localization under changing condition ØTorsten Satter, Mark Pollefeyらが主催 Ø複数のデータセットにおいて⼿法のベンチマークを⾏なっている Indoor/Outdoor, day/night, season, … 6https://www.visuallocalization.net/benchmark/
  7. 7. Visual Localization x CNN 7 • Pose regression method ØEnd-to-endで画像を⼊⼒したら、カメラポーズが出⼒される⼿法 Absolute Pose Regression(APR) Ø 絶対カメラポーズによる回帰 Ø PoseNet(+𝛼), MapNet, VLocNet++ Relative Pose Regression(RPR) Ø 相対カメラポーズによる回帰 Ø RelocNet, AnchorNet, … 絶対カメラポーズ 画像
  8. 8. Visual Localization x CNN 8 • Pose regression method ØEnd-to-endで画像を⼊⼒したら、カメラポーズが出⼒される⼿法 Absolute Pose Regression(APR) Ø 絶対カメラポーズによる回帰 Ø PoseNet(+𝛼), MapNet, VLocNet++ Relative Pose Regression(RPR) Ø 相対カメラポーズによる回帰 Ø RelocNet, AnchorNet, … 絶対カメラポーズ 画像
  9. 9. Contribution • APRのモデルを理論的な解析と実験を通して、APRの問題点を 指摘 Ø学習データ量に⼤きく依存 • APRは3D geometryを利⽤するStructure-basedの⼿法よりも 画像検索に近いことを⽰した • データセットの公開 Øhttps://github.com/tsattler/understanding_apr 9
  10. 10. Absolute Pose Regression • APRは3つのステップに分けることができる 1. 画像から特徴量 𝐹(𝐼) を抽出(VGG, ResNetなど) 10 画像 カメラポーズ Network Feature extraction Embedding Projection Convolution layer Fully connected layer
  11. 11. Absolute Pose Regression • APRは3つのステップに分けることができる 1. 画像から特徴量 𝐹(𝐼) を抽出(VGG, ResNetなど) 2. 特徴量をベクトルに変換 11 画像 カメラポーズ Network Feature extraction Embedding Projection Convolution layer Fully connected layer =
  12. 12. Absolute Pose Regression • APRは3つのステップに分けることができる 1. 画像から特徴量 𝐹(𝐼) を抽出(VGG, ResNetなど) 2. 特徴量をベクトルに変換 3. 2.のベクトルからカメラポーズへの射影 12 画像 カメラポーズ Network Feature extraction Embedding Projection Convolution layer Fully connected layer bias projection
  13. 13. Absolute Pose Regression • APRの抽象モデル表現 13 translation rotation Fully connected layer Projection ✖ Embedding = ➕ 𝛼( ➕ 𝛼) ➕ 𝛼*… bias
  14. 14. Absolute Pose Regression • APRの抽象モデル表現 14 translation rotation Fully connected layer Projection ✖ Embedding = ➕ 𝛼( ➕ 𝛼) ➕ 𝛼*… bias • ネットワークの出⼒は、𝑛個の基底ポーズの線形和 (ReLUなどの活性化関数により厳密には線形ではない) • APRは基底ポーズを学習し、その基底により推定ポーズが決定 → 表現⼒は学習データに⼤きく依存してしまう
  15. 15. Absolute Pose Regression • それぞれの⼿法の推定結果と基底の表⽰ ØPoseNet, MapNet, Active Search 15 APR Structure-based train, test
  16. 16. Absolute Pose Regression • それぞれの⼿法の推定結果と基底の表⽰ ØPoseNet, MapNet, Active Search 16 APR Structure-based 似てる?
  17. 17. • APRの学習データへの依存度を評価 ⽐較⼿法について 17 PoseNet (ICCV 2015) MapNet (CVPR 2018) Active Search (ECCV 2012) APR Structure based 画像 GoogLeNet ポーズ
  18. 18. 実験結果 1. 直線上に学習データを撮影したシーン Ø基底ポーズは直線上に存在するため、APRによる推定結果も学習 データと同じ直線上に存在 ØMapNet: ほぼ直線上に基底ポーズが分布 ØPoseNet: 基底ポーズが直線上以外にも分布しているが、結果は学 習データと同じ直線上 → ⼿ブレによるもの? 18 PoseNet, MapNet, Active Search, train, test
  19. 19. 実験結果 2. より⼀般的なカメラ軌跡で撮影したシーン ØActive Searchで推定が成功したテスト画像についてAPRの推 定結果を表⽰ 19https://www.youtube.com/watch?v=7Efueln55P4
  20. 20. 実験結果 3. 学習データが密にあるシーン ØCambridge datasetのShop Facade シーンに対して、Multi-View Stereoにより、仮想視点画像を⽣成し、学習データを増やした ØAPRはデータを増やすと結果がよくなる ØAPR ≈ DenseVLAD << Actuve Search 20 サンプル画像 画像検索(IR)
  21. 21. APR vs. Structure-based まとめ • 学習データが少ない場合や視点変化が⼤きい場合は、 APRの精度は低い • 学習データが多くてもStructure-basedの⽅が精度が ⾼い • 視点変化に対処するには、3D geometryを考慮すべき 21
  22. 22. APR vs. IR(Image Retrieval) • 学習データが少ない場合、APRにより推定されたポー ズが学習データのポーズ付近に分布 →これって画像検索と同じじゃない? • オフセット: 画像検索のトップ𝑘個のポーズのアフィン結合 Ø画像検索に使⽤した特徴量 𝑑 𝐼 を⽤いて係数推定 22 APR IR 同じシーンを観測している学習データオフセット 𝐼: テストデータのポーズ 𝐽: 学習データのポーズ
  23. 23. 実験結果: APR vs. IR • Cambridge と 7Scenes データセット Ø学習データとテストデータとの視点変化が⼤きい ØAPRのほとんどがIRよりも精度悪い ØStructure-basedの圧勝 23
  24. 24. 実験結果: APR vs. IR • TUM LSI indoor dataset Øテクスチャレス、繰り返しパターンの多いデータセット → IR(DenseVLAD)やActive Searchが苦⼿なシーン ØAPR < IR 24 TUM LSI データセットのサンプル画像
  25. 25. 実験結果: APR vs. IR • RobotCar dataset Ø⾞載カメラによる⻑いシーケンス → ⾞載のためテストデータと学習データの視点変化が⼩さい ØFULL: IR > APR → MapNetのドリフトの影響? 25 RobotCar LOOP (1.1km) RobotCar FULL (9.6km)
  26. 26. まとめ • APRは画像検索に構造が似ており、学習データに⼤きく依 存してしまうことを理論的かつ実験を通して⽰した • Pose regression ⼿法は、画像検索、structure-basedに劣 るため、実⽤化するためにはブレイクスルーが必要 • 画像ベースだけでなく、3D geometryを考慮すべき 26

×