Mais conteúdo relacionado Semelhante a 第41回関東CV勉強会 CNN-SLAM (10) 第41回関東CV勉強会 CNN-SLAM2. 読んだ論文
CNN-SLAM: Real-time dense monocular SLAM with
learned depth prediction
著者:K. Tateno(TUM / Canon), F. Tombari, I. Laina(TUM)
N. Navab(TUM / Johns Hopkins University)
選んだ理由
研究室で話題になっていた
日経Roboticsで取り上げられていた
SLAMにもCNNの波が来てしまった
3. 概要
CNNを使った単眼SLAM
SLAM: Simultaneous Localization and Mapping
Visual SLAM:画像を利用したSLAM
既存研究
LSD-SLAM[1]
Kinect Fusion[2]
ベースはCNNによるデプス推定[3]+LSD-SLAM
[1] J.Engel, T. Schps, and D. Cremers, “LSD-SLAM: Large-Scale Direct Monocular SLAM.”, ECCV 2014
[2] R. A. Newcombe, et. al.,“KinectFusion: Real-time dense surface mapping and tracking.”, ISMAR 2011
[3] I. Laina, et. al., “ Deeper depth prediction with fully convolutional residual networks. “, 3DV 2016
長所 短所
CNNデプス推定
・絶対スケールがわかる
・回転にも強い
・密な距離画像が取れる
・エッジ部分などがなまる
LSD-SLAM
・エッジ部分の推定が得意 ・絶対スケールがわからない
・回転に弱い
・とにかく疎
7. カメラ姿勢推定
𝑻 𝑡 𝑘
:カメラ姿勢を求める
⇒ 直近キーフレームと現フレームの輝度誤差が最小に
なるような変換行列𝑻 𝑡
𝑘 𝑖
を算出する
𝐸 𝑻 𝑡
𝑘 𝑖
=
𝑢∈Ω
𝜌
𝑟 𝑢, 𝑻 𝑡
𝑘 𝑖
𝜎 𝑟 𝑢, 𝑻 𝑡
𝑘 𝑖
𝑟 𝑢, 𝑻 𝑡
𝑘 𝑖
= ℐ 𝑘 𝑖
𝑢 - ℐ𝑡 𝜋 𝑲𝑻 𝑡
𝑘 𝑖
𝒱𝑘 𝑖
𝑢
キーフレームの輝度値 現フレームの輝度値
求めた𝑻 𝑡
𝑘 𝑖
を使って、各フレームのカメラ位置姿勢を算出
8. デプス推定
𝐷𝑡 𝑘
: デプスマップを求める
⇒ Deeper Depth Prediction with Fully Convolutional
Residual Networks [3]
・・・ResNet-50のFC層をアップコンバート層に置き換えた
ネットワークを使って,RGB画像から距離を推定
[3] I. Laina, et. al., “ Deeper depth prediction with fully convolutional residual networks. “, 3DV 2016
10. キーフレーム追加時のデプス推定改善
直近キーフレーム𝑘𝑗と現キーフレーム𝑘𝑖のデプスマップ𝒟 𝑘 、
デプスの不確かさマップ𝒰 𝑘 を融合する
𝒟 𝑘 𝑖
𝒖 =
𝒰 𝑘 𝑗
𝒗 ∙ 𝒟 𝑘 𝑖
𝒖 + 𝒰 𝑘 𝑖
(𝒖) ∙ 𝒟 𝑘 𝑗
𝒗
𝒰 𝑘 𝑖
𝒖 + 𝒰 𝑘 𝑗
𝒗
𝒰 𝑘 𝑖
𝒖 =
𝒰 𝑘 𝑗
𝒗 ∙ 𝒰 𝑘 𝑖
(𝒖)
𝒰 𝑘 𝑖
𝒖 + 𝒰 𝑘 𝑗
𝒗
キーフレームの情報が
伝播されていく
𝒰 𝑘 𝑗
𝒗 =
𝒟 𝑘 𝑗
𝒗
𝒟 𝑘 𝑖
𝒖
𝒰 𝑘 𝑗
𝒗 + 𝜎 𝑝
2
不確かさマップの定義:𝒰 𝑘 𝑖
(𝒖) = (𝒟 𝑘 𝑖
𝒖 − 𝒟 𝑘 𝑗
𝒗 )2 𝒖 : 𝑘𝑖の2次元座標
𝒗 : 射影された𝑘𝑗での2次元座標
下式で伝播マップ 𝒰 𝑘 𝑗
を作成、融合する
𝜎 𝑝
2 : ホワイトノイズ(の分散)
11. デプスの継続的な補正
前ページと同じ要領で、直近キーフレームと現フレームの
デプスマップ𝒟 𝑘 、デプスの不確かさマップ𝒰 𝑘 を融合して、
キーフレームのデプスマップを補正
𝒟 𝑘 𝑖
𝒖 =
𝒰 𝑡 𝒖 ∙ 𝒟 𝑘 𝑖
𝒖 + 𝒰 𝑘 𝑖
(𝒖) ∙ 𝒟𝑡 𝒗
𝒰 𝑘 𝑖
𝒖 + 𝒰 𝑡 𝒖
𝒰 𝑘 𝑖
𝒖 =
𝒰 𝑡 𝒖 ∙ 𝒰 𝑘 𝑖
(𝒖)
𝒰 𝑘 𝑖
𝒖 + 𝒰 𝑡 𝒖
輝度勾配が高い領域ほど不確かさが小さくなる = 補正されやすい
⇒ CNNでのデプス推定の弱点を補える
キーフレーム以外のデプスは[4]で求める
[4] J. Engel, J. Sturm, and D. Cremers, “Semi-dense visual odometry for a monocular camera.”, ICCV 2013
13. 評価実験
3つの実験を実施
SLAMの精度評価
カメラが回転した際の3次元復元
復元結果を利用した領域分割
実施環境
CPU:Xeon 2.4GHz
GPU:Quadro K5200 (メモリ8GB)
メモリ:16GB
CNNはGPU、残りの処理はCPUで実行(リアルタイム)
14. 精度
ICL-NUIM dataset[5] とTUM RGB-D SLAM dataset[6]を使用
[5] A. Handa, T. Whelan, J. McDonald, and A. Davison, “A benchmark for RGB-D visual odometry, 3D reconstruction and SLAM.”, ICRA 2014
[6] J. Sturm, N. Engelhard, F. Endres, W. Burgard, and D. Cremers. “A benchmark for the evaluation of RGB-D SLAMsystems.”, IROS 2012