O slideshow foi denunciado.
Utilizamos seu perfil e dados de atividades no LinkedIn para personalizar e exibir anúncios mais relevantes. Altere suas preferências de anúncios quando desejar.

DeepVIO: Self-supervised Deep Learning of Monocular Visual Inertial Odometry using 3D Geometric Constraints

939 visualizações

Publicada em

Liming Han, Yimin Lin, Guoguang Du, Shiguo Lian : DeepVIO: Self-supervised Deep Learning of Monocular Visual Inertial Odometry using 3D Geometric Constraints, arXiv preprint arXiv:1906.11435 (2019), https://arxiv.org/abs/1906.11435

公開URL: https://arxiv.org/abs/1906.11435

概要: 6-DoF運動の推定はロボット工学において重要な課題の一つです。教師あり学習のVisual Inertial Odometry(VIO)は存在しますが、学習のための大量のGround Truthデータが必要となります。この問題を解決するために、低コストのステレオカメラを用いた自己教師ありVIOシステムが提案されています。2次元のオプティカルフロー特徴量とIMUのデータをマージすることによって、絶対位置の軌跡を推定します。

Publicada em: Tecnologia
  • Seja o primeiro a comentar

  • Seja a primeira pessoa a gostar disto

DeepVIO: Self-supervised Deep Learning of Monocular Visual Inertial Odometry using 3D Geometric Constraints

  1. 1. 論文紹介ゼミ DeepVIO: Self-supervised Deep Learning of Monocular Visual Inertial Odometry using 3D Geometric Constraints 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 調和系工学研究室学研究室 修士課程1年 森雄斗 2020年 11月 04日
  2. 2. 論文情報 • タイトル – DeepVIO: Self-supervised Deep Learning of Monocular Visual Inertial Odometry using 3D Geometric Constraints • 著者 – Liming Han1, Yimin Lin1, Guoguang Du1, Shiguo Lian1 • 1. the AI Department, CloudMinds Technologies Inc. • 学会 – IROS2019 • 論文URL – https://arxiv.org/pdf/1906.11435.pdf • スライドのビデオ – https://youtu.be/fMeqCcpBCdM 2
  3. 3. 概要 単眼カメラとIMUを用いた自己位置推定のための自己教師あり学習 3
  4. 4. Introduction • 6-DoF運動の推定はロボット工学において重要な課題の一つ • カメラベースのVisual OdometryとVisual Simultaneous Localization and Mapping (VSLAM)が注目されている – IMUからの計測値とカメラを組み合わせたVisual Inertial Odometry (VIO)が多数提案[1][2][3] 4 [1] Ke Sun, Kartik Mohta, Bernd Pfrommer, Michael Watterson, Sikang Liu, Yash Mulgaonkar, Camillo J Taylor, and Vijay Kumar. Robust stereo visual inertial odometry for fast autonomous flight. IEEE Robotics and Automation Letters, 3(2):965–972, 2018. [2] Raul Mur-Artal and Juan Domingo Tardos. Visual-inertial monocular slam with map reuse. IEEE Robotics and Automation Letters, 2(2):796–803, 2016. [3] Qin Tong, Peiliang Li, and Shaojie Shen. Vins-mono: A robust and versatile monocular visual-inertial state estimator. IEEE Transactions on Robotics, PP(99):1–17, 2017.
  5. 5. 関連研究 • 教師あり学習ベースのVisual Inertial Odometry[1] – LSTM[2]やLSTM+ IMU[3]が登場 • 教師なし学習ベース – 単眼映像から深度画像とエゴモーションを推定[4] 5 学習のための大量の ground truth dataが必要 RGB-D (深度カメラ) や、LiDARが必要 低コストのステレオカメラを用いた自己教師ありVIOシステムを提案 [1] Ruihao Li, Sen Wang, and Dongbing Gu. Ongoing evolution of visual slam from geometry to deep learning: Challenges and opportunities. Cognitive Computation, 10(6):875–889, 2018. [2] Jason R Rambach, Aditya Tewari, Alain Pagani, and Didier Stricker. Learning to fuse: A deep learning approach to visual-inertial camera pose estimation. In 2016 IEEE International Symposium on Mixed and Augmented Reality (ISMAR), pages 71–76. IEEE, 2016. [3] Ronald Clark, Sen Wang, Hongkai Wen, Andrew Markham, and Niki Trigoni. Vinet: Visual-inertial odometry as a sequence-to-sequence learning problem. In Thirty-First AAAI Conference on Artificial Intelligence, 2017. [4] Tinghui Zhou, Matthew Brown, Noah Snavely, and David G Lowe. Unsupervised learning of depth and ego-motion from video. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 1851–1858, 2017.
  6. 6. 主な提案手法 6
  7. 7. 主な提案手法 7 1. 学習のための教師信号をステレオカメラ映像から求める
  8. 8. 主な提案手法 8 2. 教師信号を用いて3つのモジュールを学習する
  9. 9. 主な提案手法 9 3. 単眼カメラ映像からの自己位置とその軌跡を推定
  10. 10. Stereo Network as Supervision PSMNet[1]を用いて深度情報とPoint Cloudを出力 10 𝐼𝐿(𝑅),𝑡 : 時刻𝑡の左(右)カメラの画像 [1] Jia-Ren Chang and Yong-Sheng Chen. Pyramid stereo matching network. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 5410–5418, 2018. [2] Zhao Cheng, Sun Li, Pulak Purkait, Tom Duckett, and Rustam Stolkin. Learning monocular visual odometry with dense 3d mapping from dense 3d flow. 2018. 視差マップ 𝑞 𝐿 = (𝑥 𝐿, 𝑦 𝐿, 𝑥 𝐿 − 𝑥 𝑅) 3D point cloud 𝑐 = 𝐾−1 𝑑 𝐿[𝑥 𝐿, 𝑦 𝐿, 1] 𝑇 深度画像からpoint cloud の変換パラメータ[2] 深度画像
  11. 11. Stereo Network as Supervision ICPを使用してStereo-se3と2D Optical Flowを求める 11 𝐼𝐿(𝑅),𝑡 : 時刻𝑡の左(右)カメラの画像 ICP: 2つの点群から位置姿勢を調整し、6次元ベクトルを求める (c) 3D optical flowから求めた 2D optical flow (d) FlownetCから求めた 2D optical flow 3D Optical Flow : 𝒗3𝐷 = 𝑣 𝑋, 𝑣 𝑌, 𝑣 𝑍 = ∆𝐼 𝑐𝑡−1, 𝑐𝑡 = 𝑐𝑡−1 − 𝑐𝑡 2D Optical Flow: 𝑣 𝑥, 𝑣 𝑦, 1 𝐿 = 𝑲 𝒗3𝐷 𝑑 𝐿(𝑥,𝑦) projection
  12. 12. CNN-Flow Network 12 2フレームの画像から2Dオプティカルフローを求める 𝐼𝐿,𝑡 : 時刻𝑡の左カメラの画像 𝐼𝑀𝑈𝑡−1,𝑡 : フレーム間のIMUデータ 𝐵𝑎 : 加速度のバイアス 𝐵𝑔 : 角速度のバイアス 従来の2Dオプティカルフローアルゴリズムでは、正しい動きを決定できない 曖昧さを減らすために3Dオプティカルフローを教師データとして使用する 実際の画像 Ground truth DeepVIO 従来手法
  13. 13. LSTM-IMU Network 13 LSTMを用いてIMUシーケンスから姿勢情報を求める 𝐼𝐿,𝑡 : 時刻𝑡の左カメラの画像 𝐼𝑀𝑈𝑡−1,𝑡 : フレーム間のIMUデータ 𝐵𝑎 : 加速度のバイアス 𝐵𝑔 : 角速度のバイアス IMUの状態を考慮した新たな学習手法 1) Preintegrated Network 2層のLSTMネットワークでそれぞれが6つの隠れ層を持つ 入力: N × 12 (N: 画像の2フレーム間のIMUデータのシーケンス) 出力: IMU-se3 = 6次元ベクトル (3つの並進と3つの回転)
  14. 14. LSTM-IMU Network 14 LSTMを用いてIMUシーケンスから姿勢情報を求める 𝐼𝐿,𝑡 : 時刻𝑡の左カメラの画像 𝐼𝑀𝑈𝑡−1,𝑡 : フレーム間のIMUデータ 𝐵𝑎 : 加速度のバイアス 𝐵𝑔 : 角速度のバイアス IMUの状態を考慮した新たな学習手法 2) 状態更新モジュール ሚ𝑆𝑡−1 = argmin ሚ𝑆 𝑡−1 (𝑉𝐼𝑂 − 𝑠𝑒3, 𝐼𝑀𝑈 − 𝑠𝑒3) = argmin ሚ𝑆 𝑡−1 (𝜌([𝑒 𝑅 𝑇 𝑒 𝑝 𝑇 ] σ𝐼[𝑒 𝑅 𝑇 𝑒 𝑝 𝑇 ] 𝑇 )) 𝑒 𝑅 = 𝐿𝑜𝑔 ∆𝑅 𝐿𝑆𝑇𝑀 ሚ𝑆𝑡−1 𝑇 ∆𝑅 𝑉𝐼𝑂 𝑒 𝑝 = ∆𝑝 𝑉𝐼𝑂 − ∆𝑝 𝐿𝑆𝑇𝑀( ሚ𝑆𝑡−1) IMU-se3とVIO-se3の 間の回転と並進の誤差 𝑡 − 1のIMU状態の 最良推定値
  15. 15. FC-Fusion Network 15 2Dオプティカルフローの特徴量(OFF)と6自由度データでVIO-se3を 求める 𝐼𝐿,𝑡 : 時刻𝑡の左カメラの画像 𝐼𝑀𝑈𝑡−1,𝑡 : フレーム間のIMUデータ 𝐵𝑎 : 加速度のバイアス 𝐵𝑔 : 角速度のバイアス 5つの全結合層を持つFC Fusionネットワークで学習 入力は、OFFとIMU-se3 出力は、次元数6のVIO-se3 (速度情報) VIO-se3を積分することで一定時間の軌跡が計算可能
  16. 16. 実験結果 • データセット – KITTI dataset • 屋外のデータセット • 22組のデータ • 389個のステレオ画像とオプティカルフローマップ – EuRoc dataset • 屋内のデータセット • 超小型無人飛行機 (MAV)で記録した11のステレオ動画とIMU測定値 • 実験では、200組のデータを使用 16
  17. 17. 学習ネットワーク • 画像サイズ – KITTI: 640×192 – EuRoC: 640×480 • 最適化アルゴリズム – Adam • ハイパーパラメータ – バッチサイズ: 32 – エポック: 200 • GPU – Nvidia GeForce GTX 1080 Ti (12G) 17
  18. 18. 軌跡の比較 • VINS, ORB-SLAM-Mとの比較 • 1フレームあたりの平均推論時間 – KITTIは、約7.81ms – EuRoCは、約3.9ms 18 (a) KITTI 9 の軌跡 (b) EuRoC MH04 の軌跡
  19. 19. 軌跡の比較 19 𝑡 𝑟𝑒𝑙 : 長さ100 – 800mの並進運動の平均誤差の割合 (%) 𝑟𝑟𝑒𝑙 : 長さ100 – 800mの回転誤差(°) VINSよりも、推定誤差が小さい →従来手法は厳密な同期をとらないIMUデータに弱い 一部のケースを除いてVIOlearnerより優れている →IMUのローデータを使用しているため Seq9,10は、映像が見えづらいが一般化できている
  20. 20. 軌跡の比較 20 𝑡 𝑟𝑒𝑙 : 長さ100 – 800mの並進運動の平均誤差の割合 (%) 𝑟𝑟𝑒𝑙 : 長さ100 – 800mの回転誤差(°) IMUを使用していないDeepVOより精度向上 → 軌跡の補正としてIMUデータが有効 VINSよりも若干劣る →IMUのデータの質 (高周波数など) 推進運動の誤差がORB-SLAM-Mよりも劣る → 提案手法が局所的バンドル調整モジュールが ないから
  21. 21. 2Dオプティカルフローの誤差 21 実際の画像 Ground truth DeepVIO 従来手法 2Dオプティカルフローの平均誤差が 従来手法よりも少ない 特に動的ターゲットの場合に顕著
  22. 22. 実際に推論した映像 22 url: https://youtu.be/fMeqCcpBCdM
  23. 23. まとめ 単眼カメラとIMUを用いた自己位置推定のための自己教師あり学習 23

×