SlideShare uma empresa Scribd logo
1 de 17
Baixar para ler offline
CNN-SLAM: Real-time
dense monocular SLAM with
learned depth prediction
2017/8/6
第41回 コンピュータビジョン勉強会@関東
CVPR2017読み会(前編)
@hasegawa_k35
読んだ論文
 CNN-SLAM: Real-time dense monocular SLAM with
learned depth prediction
 著者:K. Tateno(TUM / Canon), F. Tombari, I. Laina(TUM)
N. Navab(TUM / Johns Hopkins University)
 選んだ理由
 研究室で話題になっていた
 日経Roboticsで取り上げられていた
 SLAMにもCNNの波が来てしまった
概要
 CNNを使った単眼SLAM
 SLAM: Simultaneous Localization and Mapping
 Visual SLAM:画像を利用したSLAM
 既存研究
 LSD-SLAM[1]
 Kinect Fusion[2]
 ベースはCNNによるデプス推定[3]+LSD-SLAM
[1] J.Engel, T. Schps, and D. Cremers, “LSD-SLAM: Large-Scale Direct Monocular SLAM.”, ECCV 2014
[2] R. A. Newcombe, et. al.,“KinectFusion: Real-time dense surface mapping and tracking.”, ISMAR 2011
[3] I. Laina, et. al., “ Deeper depth prediction with fully convolutional residual networks. “, 3DV 2016
長所 短所
CNNデプス推定
・絶対スケールがわかる
・回転にも強い
・密な距離画像が取れる
・エッジ部分などがなまる
LSD-SLAM
・エッジ部分の推定が得意 ・絶対スケールがわからない
・回転に弱い
・とにかく疎
コントリビューション
 絶対スケールの推定が可能
 カメラが回転しても対応できる
 デプスの推定精度が向上
 デプス情報を密に取れる
全体像
深度の推定
⇒ CNNを利用
カメラ姿勢推定と最適化
⇒ LSD-SLAMのフレームワークを応用
ポイント:キーフレームの構成要素推定
キーフレーム: 𝑡𝑖 = 𝑻 𝑡 𝑘
, 𝐷𝑡 𝑘
, 𝒰 𝑡 𝑘
𝑻 𝑡 𝑘
:カメラ姿勢
𝐷𝑡 𝑘
: デプスマップ
𝒰 𝑡 𝑘
:デプスの不確かさマップ
これらをどう求め、最適化/改善するか
⇒ この研究で行いたいこと
LSD-SLAM[1]
 キーフレームで準深度マップを取得することにより、単眼での
SLAMを実現する
[1] J.Engel, T. Schps, and D. Cremers, “LSD-SLAM: Large-Scale Direct Monocular SLAM.”, ECCV 2014
カメラ姿勢推定
𝑻 𝑡 𝑘
:カメラ姿勢を求める
⇒ 直近キーフレームと現フレームの輝度誤差が最小に
なるような変換行列𝑻 𝑡
𝑘 𝑖
を算出する
𝐸 𝑻 𝑡
𝑘 𝑖
=
𝑢∈Ω
𝜌
𝑟 𝑢, 𝑻 𝑡
𝑘 𝑖
𝜎 𝑟 𝑢, 𝑻 𝑡
𝑘 𝑖
𝑟 𝑢, 𝑻 𝑡
𝑘 𝑖
= ℐ 𝑘 𝑖
𝑢 - ℐ𝑡 𝜋 𝑲𝑻 𝑡
𝑘 𝑖
𝒱𝑘 𝑖
𝑢
キーフレームの輝度値 現フレームの輝度値
求めた𝑻 𝑡
𝑘 𝑖
を使って、各フレームのカメラ位置姿勢を算出
デプス推定
𝐷𝑡 𝑘
: デプスマップを求める
⇒ Deeper Depth Prediction with Fully Convolutional
Residual Networks [3]
・・・ResNet-50のFC層をアップコンバート層に置き換えた
ネットワークを使って,RGB画像から距離を推定
[3] I. Laina, et. al., “ Deeper depth prediction with fully convolutional residual networks. “, 3DV 2016
スケールの補正
学習時と推定時のカメラ(の内部パラメータ)が違うと
スケールがずれてしまう。
⇒ それぞれの焦点距離を利用して補正
𝒟 𝑘 𝑖
𝒖 =
𝑓𝑐𝑢𝑟
𝑓𝑡𝑟
𝒟
~
𝑘 𝑖
𝒖
𝒟
~
𝑘 𝑖
: CNNで推定された深度マップ
𝑓𝑐 𝑢𝑟 : 推定時のカメラの焦点距離
𝑓𝑡𝑟 : 学習時のカメラの焦点距離
𝒖 : 2次元座標
キーフレーム追加時のデプス推定改善
 直近キーフレーム𝑘𝑗と現キーフレーム𝑘𝑖のデプスマップ𝒟 𝑘 、
デプスの不確かさマップ𝒰 𝑘 を融合する
𝒟 𝑘 𝑖
𝒖 =
𝒰 𝑘 𝑗
𝒗 ∙ 𝒟 𝑘 𝑖
𝒖 + 𝒰 𝑘 𝑖
(𝒖) ∙ 𝒟 𝑘 𝑗
𝒗
𝒰 𝑘 𝑖
𝒖 + 𝒰 𝑘 𝑗
𝒗
𝒰 𝑘 𝑖
𝒖 =
𝒰 𝑘 𝑗
𝒗 ∙ 𝒰 𝑘 𝑖
(𝒖)
𝒰 𝑘 𝑖
𝒖 + 𝒰 𝑘 𝑗
𝒗
キーフレームの情報が
伝播されていく
𝒰 𝑘 𝑗
𝒗 =
𝒟 𝑘 𝑗
𝒗
𝒟 𝑘 𝑖
𝒖
𝒰 𝑘 𝑗
𝒗 + 𝜎 𝑝
2
不確かさマップの定義:𝒰 𝑘 𝑖
(𝒖) = (𝒟 𝑘 𝑖
𝒖 − 𝒟 𝑘 𝑗
𝒗 )2 𝒖 : 𝑘𝑖の2次元座標
𝒗 : 射影された𝑘𝑗での2次元座標
下式で伝播マップ 𝒰 𝑘 𝑗
を作成、融合する
𝜎 𝑝
2 : ホワイトノイズ(の分散)
デプスの継続的な補正
 前ページと同じ要領で、直近キーフレームと現フレームの
デプスマップ𝒟 𝑘 、デプスの不確かさマップ𝒰 𝑘 を融合して、
キーフレームのデプスマップを補正
𝒟 𝑘 𝑖
𝒖 =
𝒰 𝑡 𝒖 ∙ 𝒟 𝑘 𝑖
𝒖 + 𝒰 𝑘 𝑖
(𝒖) ∙ 𝒟𝑡 𝒗
𝒰 𝑘 𝑖
𝒖 + 𝒰 𝑡 𝒖
𝒰 𝑘 𝑖
𝒖 =
𝒰 𝑡 𝒖 ∙ 𝒰 𝑘 𝑖
(𝒖)
𝒰 𝑘 𝑖
𝒖 + 𝒰 𝑡 𝒖
輝度勾配が高い領域ほど不確かさが小さくなる = 補正されやすい
⇒ CNNでのデプス推定の弱点を補える
キーフレーム以外のデプスは[4]で求める
[4] J. Engel, J. Sturm, and D. Cremers, “Semi-dense visual odometry for a monocular camera.”, ICCV 2013
補正結果
評価実験
 3つの実験を実施
 SLAMの精度評価
 カメラが回転した際の3次元復元
 復元結果を利用した領域分割
 実施環境
 CPU:Xeon 2.4GHz
 GPU:Quadro K5200 (メモリ8GB)
 メモリ:16GB
 CNNはGPU、残りの処理はCPUで実行(リアルタイム)
精度
 ICL-NUIM dataset[5] とTUM RGB-D SLAM dataset[6]を使用
[5] A. Handa, T. Whelan, J. McDonald, and A. Davison, “A benchmark for RGB-D visual odometry, 3D reconstruction and SLAM.”, ICRA 2014
[6] J. Sturm, N. Engelhard, F. Endres, W. Burgard, and D. Cremers. “A benchmark for the evaluation of RGB-D SLAMsystems.”, IROS 2012
耐回転
領域分割
領域ラベルを予測するためのネットワーク[7]を追加
[7] K. Tateno, F. Tombari, and N. Navab, “Real-time and scalable incremental segmentation on dense slam. ”, IROS 2015
まとめ
 CNNを用いて、従来の単眼SLAMの課題であった
絶対スケールの推定、テクスチャレス領域のデプス推定、
回転への対応を解決した。
 3次元モデルでの領域分割にも活用できることを確認

Mais conteúdo relacionado

Mais procurados

Mais procurados (20)

2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentation
2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentation2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentation
2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentation
 
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
 
ORB-SLAMを動かしてみた
ORB-SLAMを動かしてみたORB-SLAMを動かしてみた
ORB-SLAMを動かしてみた
 
SfM Learner系単眼深度推定手法について
SfM Learner系単眼深度推定手法についてSfM Learner系単眼深度推定手法について
SfM Learner系単眼深度推定手法について
 
【DL輪読会】"Instant Neural Graphics Primitives with a Multiresolution Hash Encoding"
【DL輪読会】"Instant Neural Graphics Primitives with a Multiresolution Hash Encoding"【DL輪読会】"Instant Neural Graphics Primitives with a Multiresolution Hash Encoding"
【DL輪読会】"Instant Neural Graphics Primitives with a Multiresolution Hash Encoding"
 
論文読み会2018 (CodeSLAM)
論文読み会2018 (CodeSLAM)論文読み会2018 (CodeSLAM)
論文読み会2018 (CodeSLAM)
 
Unsupervised Collaborative Learning of Keyframe Detection and Visual Odometry...
Unsupervised Collaborative Learning of Keyframe Detection and Visual Odometry...Unsupervised Collaborative Learning of Keyframe Detection and Visual Odometry...
Unsupervised Collaborative Learning of Keyframe Detection and Visual Odometry...
 
SuperGlue; Learning Feature Matching with Graph Neural Networks (CVPR'20)
SuperGlue;Learning Feature Matching with Graph Neural Networks (CVPR'20)SuperGlue;Learning Feature Matching with Graph Neural Networks (CVPR'20)
SuperGlue; Learning Feature Matching with Graph Neural Networks (CVPR'20)
 
論文紹介 LexToMap: lexical-based topological mapping
論文紹介 LexToMap: lexical-based topological mapping論文紹介 LexToMap: lexical-based topological mapping
論文紹介 LexToMap: lexical-based topological mapping
 
Neural scene representation and rendering の解説(第3回3D勉強会@関東)
Neural scene representation and rendering の解説(第3回3D勉強会@関東)Neural scene representation and rendering の解説(第3回3D勉強会@関東)
Neural scene representation and rendering の解説(第3回3D勉強会@関東)
 
Image Retrieval Overview (from Traditional Local Features to Recent Deep Lear...
Image Retrieval Overview (from Traditional Local Features to Recent Deep Lear...Image Retrieval Overview (from Traditional Local Features to Recent Deep Lear...
Image Retrieval Overview (from Traditional Local Features to Recent Deep Lear...
 
BA-Net: Dense Bundle Adjustment Network (3D勉強会@関東)
BA-Net: Dense Bundle Adjustment Network (3D勉強会@関東) BA-Net: Dense Bundle Adjustment Network (3D勉強会@関東)
BA-Net: Dense Bundle Adjustment Network (3D勉強会@関東)
 
SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~
SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~
SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~
 
【ECCV 2022】NeDDF: Reciprocally Constrained Field for Distance and Density
【ECCV 2022】NeDDF: Reciprocally Constrained Field for Distance and Density【ECCV 2022】NeDDF: Reciprocally Constrained Field for Distance and Density
【ECCV 2022】NeDDF: Reciprocally Constrained Field for Distance and Density
 
SSII2021 [TS1] Visual SLAM ~カメラ幾何の基礎から最近の技術動向まで~
SSII2021 [TS1] Visual SLAM ~カメラ幾何の基礎から最近の技術動向まで~SSII2021 [TS1] Visual SLAM ~カメラ幾何の基礎から最近の技術動向まで~
SSII2021 [TS1] Visual SLAM ~カメラ幾何の基礎から最近の技術動向まで~
 
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
 
Direct Sparse Odometryの解説
Direct Sparse Odometryの解説Direct Sparse Odometryの解説
Direct Sparse Odometryの解説
 
SSII2019企画: 画像および LiDAR を用いた自動走行に関する動向
SSII2019企画: 画像および LiDAR を用いた自動走行に関する動向SSII2019企画: 画像および LiDAR を用いた自動走行に関する動向
SSII2019企画: 画像および LiDAR を用いた自動走行に関する動向
 
【DL輪読会】NeRF-VAE: A Geometry Aware 3D Scene Generative Model
【DL輪読会】NeRF-VAE: A Geometry Aware 3D Scene Generative Model【DL輪読会】NeRF-VAE: A Geometry Aware 3D Scene Generative Model
【DL輪読会】NeRF-VAE: A Geometry Aware 3D Scene Generative Model
 
LSD-SLAM:Large Scale Direct Monocular SLAM
LSD-SLAM:Large Scale Direct Monocular SLAMLSD-SLAM:Large Scale Direct Monocular SLAM
LSD-SLAM:Large Scale Direct Monocular SLAM
 

Semelhante a 第41回関東CV勉強会 CNN-SLAM

Semelhante a 第41回関東CV勉強会 CNN-SLAM (10)

GN-Net: The Gauss-Newton Loss for Deep Direct SLAMの解説
GN-Net: The Gauss-Newton Loss for Deep Direct SLAMの解説GN-Net: The Gauss-Newton Loss for Deep Direct SLAMの解説
GN-Net: The Gauss-Newton Loss for Deep Direct SLAMの解説
 
Robust Vehicle Localization in Urban Environments Using Probabilistic Maps
Robust Vehicle Localization in Urban Environments Using Probabilistic MapsRobust Vehicle Localization in Urban Environments Using Probabilistic Maps
Robust Vehicle Localization in Urban Environments Using Probabilistic Maps
 
方向統計DNNに基づく振幅スペクトログラムからの位相復元
方向統計DNNに基づく振幅スペクトログラムからの位相復元方向統計DNNに基づく振幅スペクトログラムからの位相復元
方向統計DNNに基づく振幅スペクトログラムからの位相復元
 
RBMを応用した事前学習とDNN学習
RBMを応用した事前学習とDNN学習RBMを応用した事前学習とDNN学習
RBMを応用した事前学習とDNN学習
 
20161203 cv 3_d_recon_tracking_eventcamera
20161203 cv 3_d_recon_tracking_eventcamera20161203 cv 3_d_recon_tracking_eventcamera
20161203 cv 3_d_recon_tracking_eventcamera
 
Domain Adaptive Faster R-CNN for Object Detection in the Wild 論文紹介
Domain Adaptive Faster R-CNN for Object Detection in the Wild 論文紹介Domain Adaptive Faster R-CNN for Object Detection in the Wild 論文紹介
Domain Adaptive Faster R-CNN for Object Detection in the Wild 論文紹介
 
R-CNNの原理とここ数年の流れ
R-CNNの原理とここ数年の流れR-CNNの原理とここ数年の流れ
R-CNNの原理とここ数年の流れ
 
NN, CNN, and Image Analysis
NN, CNN, and Image AnalysisNN, CNN, and Image Analysis
NN, CNN, and Image Analysis
 
東京都市大学 データ解析入門 10 ニューラルネットワークと深層学習 1
東京都市大学 データ解析入門 10 ニューラルネットワークと深層学習 1東京都市大学 データ解析入門 10 ニューラルネットワークと深層学習 1
東京都市大学 データ解析入門 10 ニューラルネットワークと深層学習 1
 
コンピュータビジョンの研究開発状況
コンピュータビジョンの研究開発状況コンピュータビジョンの研究開発状況
コンピュータビジョンの研究開発状況
 

Último

Último (10)

Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsUtilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native Integrations
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
 
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
 

第41回関東CV勉強会 CNN-SLAM