SlideShare uma empresa Scribd logo
1 de 23
Baixar para ler offline
DLゼミ

FastDepth: Fast Monocular Depth Estimation on
Embedded Systems

1
北海道大学大学院情報科学院

調和系工学研究室

修士1年 森 雄斗

論文情報
 2
● タイトル

– FastDepth: Fast Monocular Depth Estimation on Embedded Systems
● 学会

– ICRA (IEEE International Conference on Robotics and Automation)2019
● 著者

– Diana Wofk*,
Fangchang Ma*
, Tien-Ju Yang, Sertac Karaman, Vivienne Sze
• The Massachusetts Institute of Techonology

● Github

– https://github.com/dwofk/fast-depth(PyTorch)
● Webサイト

– http://fastdepth.mit.edu/

概要

● 従来の単眼深度推定アルゴリズムは高性能のGPUを要し、

リアルタイム推論に時間がかかる

● 軽量なエンコーダ/デコーダネットワークアーキテクチャで構築し、

計算の複雑さと遅延を低減するためのネットワークプルージングを適用

● エッジデバイスにおいて、最も低いレイテンシと最も高いスループット

3
GT
Image
 Fast Depth

組み込みシステムのための単眼深度推定
背景

● 既存の深度センサはかさばり、消費電力が高いため、単眼カメラを用いた深度
推定が望まれる

● 従来の単眼深度推定は、精度向上のみに焦点が当てられ、結果的に計算リ
ソースが大きいアルゴリズムを採用している

● これからの課題は、アルゴリズムの精度と計算及び実行時間のコストのバラ
ンスをとること

4
深度センサ 単眼カメラ
単眼深度推定

アルゴリズム
小型・低コストのために

が大きな計算リソースを必要としている
から
 へ
しかし、
ex: LiDAR, 構造光3Dスキャナー
ex: ReDWeb, struct2depth

背景

● 既存の深度センサはかさばり、消費電力が高いため、単眼カメラを用いた深度
推定が望まれる

● 従来の単眼深度推定は、精度向上のみに焦点が当てられ、結果的に計算リ
ソースが大きいアルゴリズムを採用している

● これからの課題は、アルゴリズムの精度と計算及び実行時間のコストのバラ
ンスをとること

5
深度センサ 単眼カメラ
単眼深度推定

アルゴリズム
小型・低コストのために

が大きな計算リソースを必要としている
から
 へ
しかし、
ex: LiDAR, 構造光3Dスキャナー
ex: ReDWeb, struct2depth

バランスが

重要

関連研究 | 単眼深度推定
Monocular Relative Depth Perception with Web
Stereo Data Supervision [1]

6
Deeper Depth Prediction with Fully
Convolutional Residual Networks[2]

関連研究 | 単眼深度推定 (Monocular Depth Estimation)

どちらも高精度なモデルを作成するアプローチ

[1] Xian, Ke, et al. "Monocular relative depth perception with web stereo data supervision." Proceedings of the IEEE Conference on Computer Vision and Pattern
Recognition. 2018.
[2] Laina, Iro, et al. "Deeper depth prediction with fully convolutional residual networks." 2016 Fourth international conference on 3D vision (3DV). IEEE, 2016.
関連研究 | その他

● Efficient Neural Networks

○ 画像分類 | VGG → MobileNet

○ 物体検出 | SSD → FasterRCNN









● Network Pruning

○ 冗長なパラメータや計算と特定して除去

○ ex: NetAdapt



7
ラベルに縮小するエンコーダーネットワークに焦点が当てられている

デコーダーネットワークを持つピクセルベースの効率性についてはあまり検討されていない

図1 | https://missinglink.ai/guides/tensorflow/tensorflow-conv2d-layers-practical-guide/ より引用

図1: 一般的なCNN

一般的にエンコーダーネットワークに適用されている

エンコーダーとデコーダーの両方の効率性がプルーニングによって向上するかを実証する

提案手法

● ネットワーク構成















● ネットワークコンパイル



8
● Network Pruning

提案手法 | ネットワーク構成
 9
Fully convolutional encoder-decoder

入力サイズと同じ出力サイズを出力するには、”Fully Convolutional”が効果的[3]

全結合層を1×1の畳み込みで置き換える

[3] Long, Jonathan, Evan Shelhamer, and Trevor Darrell. "Fully convolutional networks for semantic
segmentation." Proceedings of the IEEE conference on computer vision and pattern recognition. 2015.
提案手法 | ネットワーク構成
 10
● 低レイテンシを目標とし、MobileNet_v1[4]を採用

[4] A. G. Howard, M. Zhu, B. Chen, D. Kalenichenko, W. Wang, T. Weyand, M. Andreetto, and H. Adam, “MobileNets: Efficient
convolutional neural networks for mobile vision applications,” arXiv preprint arXiv:1704.04861, 2017.
(a) 通常の畳み込み演算

(b) 下がMobileNetの畳み込み演算

空間方向とチャネル方向の畳み込みを同時に行わず、 

Depthwise(空間方向)とPointwise(チャネル方向)を順に行う 

m×m×nの標準的な畳込みレイヤの場合

MAC(積和演算)の回数がm 倍少ない

2

提案手法 | ネットワーク構成
 11
● Decoder

○ 5×5のアップサンプリングレイヤーを使用

○ 中間特徴マップのサイズを倍にし、チャネル数を半分にする

○ 本研究ではNNconv5と定義



● Skip Connection (U-Net, DeeperLabにも使用されている)

○ エンコーダによって失われた画像情報を追加する

○ エンコーダの中間の3層をアップサンプリングレイヤーに加算





提案手法 | ネットワーク構成
 12
● Decoder

○ 5×5のアップサンプリングレイヤーを使用

○ 中間特徴マップのサイズを倍にし、チャネル数を半分にする

○ 本研究ではNNconv5と定義



● Skip Connection (U-Net, DeeperLabにも使用されている)

○ エンコーダによって失われた画像情報を追加する

○ エンコーダの中間の3層をアップサンプリングレイヤーに加算





提案手法 | ネットワークコンパイル

● TVMコンパイラスタック[5]を使用

○ ハードウェア上でのランタイム削減のために最適化









13
[5] T. Chen, T. Moreau, Z. Jiang, L. Zheng, E. Yan, H. Shen, M. Cowan, L. Wang, Y. Hu, L. Ceze et al., “TVM: An
Automated End-to-End Optimizing Compiler for Deep Learning,” in 13th USENIX Symposium on Operating Systems
Design and Implementation (OSDI 18), 2018, pp. 578–594.
web: https://tvm.apache.org/2017/10/06/nnvm-compiler-announcement
提案手法 | Network Pruning

● NetAdapt[6]を使用

○ 使用率の低いアクティベーションチャネルを減少させる

○ 精度と複雑さのトレードオフで最も良いネットワーク提案



14
[6] T.-J. Yang, A. Howard, B. Chen, X. Zhang, A. Go, M. Sadler, V. Sze, and H. Adam, “NetAdapt: PlatformAware Neural Network
Adaptation for Mobile Applications,” in European Conference on Computer Vision (ECCV), 2018. 

・github | https://github.com/denru01/netadapt/

実験 | 設定

● データセット

○ NYU Depth Dataset v2 [7]

■ Microsoft Kinectで撮影した室内の画像(1449個)

■ ダウンロードurl: https://cs.nyu.edu/~silberman/datasets/nyu_depth_v2.html



● エンコーダー

○ ImageNetで事前学習

● プラットフォーム

○ Jetson TX2



● 実験概要

○ 先行研究との比較

○ エンコーダーの検証

○ デコーダーの検証

○ Network Pruningの効果

15
[7] N. Silberman, D. Hoiem, P. Kohli, and R. Fergus, “Indoor segmentation and support inference from RGBD images,” in
European Conference on Computer Vision (ECCV), 2012, pp. 746–760. 

サンプル画像

推論の時間と精度を確認

実験 | 先行研究との比較

● 推論時はデコーダー部分で時間がかかる

● ベースラインと比較して、同程度の精度かつ総ランタイムを約65倍に短
縮

16
先行研究との比較 

MACs: 積和演算 

RMSE: 平均平方二乗誤差 

δ : 相対誤差が25%以内の   
予測ピクセルの割合 

実験 | エンコーダーの検証

● エンコーダー部分のみを変更して推論

○ 精度は落ちるが、ランタイム時間を大幅に減少

17
実験 | エンコーダーの検証

● エンコーダー部分のみを変更して推論

○ 精度は落ちるが、ランタイム時間を大幅に減少

18
深層学習フレームワークが今回の実装において最
適化されていないことに起因 ..?
深層学習コンパイラの必要性あり
実験 | デコーダーの検証 | アップサンプリング処理

● 4つのアップサンプリング処理を比較

○ 高い精度と低いランタイム時間を持つNNConv5を採用

19
2×2の

Unpooling

サイズを2倍にする 

最近傍補間

実験 | デコーダーの検証 | depthwise and skip connection

● 標準的なデコーダーとdepthwise デコーダーの比較

○ depthwise: 畳み込みの深さ方向に分解する (MobileNetの構造に近い)

● additive skip connectionsとconcatenative skip connectionsの比較

○ concatの場合、チャネル数が増え、複雑度が増える

      → 精度は向上する一方、ランタイム時間も増加

● skip connectionを持つと深度画像の鮮明さが向上 (定性評価)



20
GT

skip

connectio

なし

skip

connectio

あり

結果から depthwise decoder + skip-add を採用

実験 | Network Pruningの効果

● NetAdaptを使用

○ 各レイヤーのチャネル数を効率良く減らし、複雑度を減少













○ ほぼ同じ精度でGPUでの実行時間を1.5倍に削減

21
網掛け部分が

pruning前のチャネル数

デモ映像 @ ICRA 2019
 22
FastDepth: Fast Monocular
Depth Estimation on Embedded Systems @
ICRA 2019
url : https://youtu.be/gRqrYJWyXyI?t=38
Demo of FastDepth on iPhone @ ICRA 2019
url: https://youtu.be/gtXfRTPnz6Y
まとめ

● 従来の単眼深度推定アルゴリズムは高性能のGPUを要し、

リアルタイム推論に時間がかかる

● 軽量なエンコーダ/デコーダネットワークアーキテクチャで構築し、

計算の複雑さと遅延を低減するためのネットワークプルージングを適用

● エッジデバイスにおいて、最も低いレイテンシと最も高いスループット

23
GT
Image
 Fast Depth

組み込みシステムのための単眼深度推定

Mais conteúdo relacionado

Mais procurados

Mais procurados (20)

Point net
Point netPoint net
Point net
 
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
 
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
 
【DL輪読会】NeRF in the Palm of Your Hand: Corrective Augmentation for Robotics vi...
【DL輪読会】NeRF in the Palm of Your Hand: Corrective Augmentation for Robotics vi...【DL輪読会】NeRF in the Palm of Your Hand: Corrective Augmentation for Robotics vi...
【DL輪読会】NeRF in the Palm of Your Hand: Corrective Augmentation for Robotics vi...
 
20190706cvpr2019_3d_shape_representation
20190706cvpr2019_3d_shape_representation20190706cvpr2019_3d_shape_representation
20190706cvpr2019_3d_shape_representation
 
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
 
[DL輪読会]Encoder-Decoder with Atrous Separable Convolution for Semantic Image S...
[DL輪読会]Encoder-Decoder with Atrous Separable Convolution for Semantic Image S...[DL輪読会]Encoder-Decoder with Atrous Separable Convolution for Semantic Image S...
[DL輪読会]Encoder-Decoder with Atrous Separable Convolution for Semantic Image S...
 
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
 
【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ
 
【DL輪読会】Patches Are All You Need? (ConvMixer)
【DL輪読会】Patches Are All You Need? (ConvMixer)【DL輪読会】Patches Are All You Need? (ConvMixer)
【DL輪読会】Patches Are All You Need? (ConvMixer)
 
猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder
 
近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer
 
Visual SLAM: Why Bundle Adjust?の解説(第4回3D勉強会@関東)
Visual SLAM: Why Bundle Adjust?の解説(第4回3D勉強会@関東)Visual SLAM: Why Bundle Adjust?の解説(第4回3D勉強会@関東)
Visual SLAM: Why Bundle Adjust?の解説(第4回3D勉強会@関東)
 
ドメイン適応の原理と応用
ドメイン適応の原理と応用ドメイン適応の原理と応用
ドメイン適応の原理と応用
 
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
 
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
 
畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化
 
【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...
【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...
【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...
 
ORB-SLAMの手法解説
ORB-SLAMの手法解説ORB-SLAMの手法解説
ORB-SLAMの手法解説
 
SuperGlue; Learning Feature Matching with Graph Neural Networks (CVPR'20)
SuperGlue;Learning Feature Matching with Graph Neural Networks (CVPR'20)SuperGlue;Learning Feature Matching with Graph Neural Networks (CVPR'20)
SuperGlue; Learning Feature Matching with Graph Neural Networks (CVPR'20)
 

Semelhante a FastDepth: Fast Monocular Depth Estimation on Embedded Systems

ネットワークコマンド入力に対応したツール事例
ネットワークコマンド入力に対応したツール事例ネットワークコマンド入力に対応したツール事例
ネットワークコマンド入力に対応したツール事例
fumoto kazuhiro
 
C14 Greenplum Database Technology - Large Scale-out and Next generation Analy...
C14 Greenplum Database Technology - Large Scale-out and Next generation Analy...C14 Greenplum Database Technology - Large Scale-out and Next generation Analy...
C14 Greenplum Database Technology - Large Scale-out and Next generation Analy...
Insight Technology, Inc.
 

Semelhante a FastDepth: Fast Monocular Depth Estimation on Embedded Systems (20)

電子動力学アプリケーションの最適化2
電子動力学アプリケーションの最適化2電子動力学アプリケーションの最適化2
電子動力学アプリケーションの最適化2
 
20180729 Preferred Networksの機械学習クラスタを支える技術
20180729 Preferred Networksの機械学習クラスタを支える技術20180729 Preferred Networksの機械学習クラスタを支える技術
20180729 Preferred Networksの機械学習クラスタを支える技術
 
ネットワークコマンド入力に対応したツール事例
ネットワークコマンド入力に対応したツール事例ネットワークコマンド入力に対応したツール事例
ネットワークコマンド入力に対応したツール事例
 
[DL輪読会]CNN - based Density Estimation and CrowdCounting A Survey
[DL輪読会]CNN - based Density Estimation and CrowdCounting A Survey[DL輪読会]CNN - based Density Estimation and CrowdCounting A Survey
[DL輪読会]CNN - based Density Estimation and CrowdCounting A Survey
 
研究を加速するChainerファミリー
研究を加速するChainerファミリー研究を加速するChainerファミリー
研究を加速するChainerファミリー
 
キャリア網の完全なソフトウェア制御化への取り組み (沖縄オープンデイズ 2017) / Telecommunication Infrastructure ...
キャリア網の完全なソフトウェア制御化への取り組み (沖縄オープンデイズ 2017) / Telecommunication Infrastructure ...キャリア網の完全なソフトウェア制御化への取り組み (沖縄オープンデイズ 2017) / Telecommunication Infrastructure ...
キャリア網の完全なソフトウェア制御化への取り組み (沖縄オープンデイズ 2017) / Telecommunication Infrastructure ...
 
200702material hirokawa
200702material hirokawa200702material hirokawa
200702material hirokawa
 
An Introduction of DNN Compression Technology and Hardware Acceleration on FPGA
An Introduction of DNN Compression Technology and Hardware Acceleration on FPGAAn Introduction of DNN Compression Technology and Hardware Acceleration on FPGA
An Introduction of DNN Compression Technology and Hardware Acceleration on FPGA
 
機械学習 / Deep Learning 大全 (6) Library編
機械学習 / Deep Learning 大全 (6) Library編機械学習 / Deep Learning 大全 (6) Library編
機械学習 / Deep Learning 大全 (6) Library編
 
C14 Greenplum Database Technology - Large Scale-out and Next generation Analy...
C14 Greenplum Database Technology - Large Scale-out and Next generation Analy...C14 Greenplum Database Technology - Large Scale-out and Next generation Analy...
C14 Greenplum Database Technology - Large Scale-out and Next generation Analy...
 
MemoryPlus Workshop
MemoryPlus WorkshopMemoryPlus Workshop
MemoryPlus Workshop
 
Deep learningの発展と化学反応への応用 - 日本化学会第101春季大会(2021)
Deep learningの発展と化学反応への応用 - 日本化学会第101春季大会(2021)Deep learningの発展と化学反応への応用 - 日本化学会第101春季大会(2021)
Deep learningの発展と化学反応への応用 - 日本化学会第101春季大会(2021)
 
ICCV 2019 論文紹介 (26 papers)
ICCV 2019 論文紹介 (26 papers)ICCV 2019 論文紹介 (26 papers)
ICCV 2019 論文紹介 (26 papers)
 
2021 03-09-ac ri-nngen
2021 03-09-ac ri-nngen2021 03-09-ac ri-nngen
2021 03-09-ac ri-nngen
 
オープンソースコンパイラNNgenでつくるエッジ・ディープラーニングシステム
オープンソースコンパイラNNgenでつくるエッジ・ディープラーニングシステムオープンソースコンパイラNNgenでつくるエッジ・ディープラーニングシステム
オープンソースコンパイラNNgenでつくるエッジ・ディープラーニングシステム
 
[DL輪読会]EfficientDet: Scalable and Efficient Object Detection
[DL輪読会]EfficientDet: Scalable and Efficient Object Detection[DL輪読会]EfficientDet: Scalable and Efficient Object Detection
[DL輪読会]EfficientDet: Scalable and Efficient Object Detection
 
EnrootとPyxisで快適コンテナ生活
EnrootとPyxisで快適コンテナ生活EnrootとPyxisで快適コンテナ生活
EnrootとPyxisで快適コンテナ生活
 
Storm×couchbase serverで作るリアルタイム解析基盤
Storm×couchbase serverで作るリアルタイム解析基盤Storm×couchbase serverで作るリアルタイム解析基盤
Storm×couchbase serverで作るリアルタイム解析基盤
 
Deep Learning技術の最近の動向とPreferred Networksの取り組み
Deep Learning技術の最近の動向とPreferred Networksの取り組みDeep Learning技術の最近の動向とPreferred Networksの取り組み
Deep Learning技術の最近の動向とPreferred Networksの取り組み
 
フロー技術によるネットワーク管理
フロー技術によるネットワーク管理フロー技術によるネットワーク管理
フロー技術によるネットワーク管理
 

Mais de harmonylab

【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
harmonylab
 
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
harmonylab
 
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
harmonylab
 

Mais de harmonylab (20)

【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
 
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
 
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
 
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
 
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
 
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
 
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
DLゼミ: MobileOne: An Improved One millisecond Mobile BackboneDLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
 
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat ModelsDLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
 
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose EstimationDLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
 
Voyager: An Open-Ended Embodied Agent with Large Language Models
Voyager: An Open-Ended Embodied Agent with Large Language ModelsVoyager: An Open-Ended Embodied Agent with Large Language Models
Voyager: An Open-Ended Embodied Agent with Large Language Models
 
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose EstimationDLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
 
ReAct: Synergizing Reasoning and Acting in Language Models
ReAct: Synergizing Reasoning and Acting in Language ModelsReAct: Synergizing Reasoning and Acting in Language Models
ReAct: Synergizing Reasoning and Acting in Language Models
 
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
 
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
 
灯油タンク内の液面高計測を用いた 灯油残量推定システムに関する研究
灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究
灯油タンク内の液面高計測を用いた 灯油残量推定システムに関する研究
 
深層自己回帰モデルを用いた俳句の生成と評価に関する研究
深層自己回帰モデルを用いた俳句の生成と評価に関する研究深層自己回帰モデルを用いた俳句の生成と評価に関する研究
深層自己回帰モデルを用いた俳句の生成と評価に関する研究
 
競輪におけるレーティングシステムを用いた予想記事生成に関する研究
競輪におけるレーティングシステムを用いた予想記事生成に関する研究競輪におけるレーティングシステムを用いた予想記事生成に関する研究
競輪におけるレーティングシステムを用いた予想記事生成に関する研究
 
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
 
A Study on Estimation of Household Kerosene Consumption for Optimization of D...
A Study on Estimation of Household Kerosene Consumption for Optimization of D...A Study on Estimation of Household Kerosene Consumption for Optimization of D...
A Study on Estimation of Household Kerosene Consumption for Optimization of D...
 
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
 

Último

Último (11)

新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
 
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
 

FastDepth: Fast Monocular Depth Estimation on Embedded Systems

  • 1. DLゼミ
 FastDepth: Fast Monocular Depth Estimation on Embedded Systems
 1 北海道大学大学院情報科学院
 調和系工学研究室
 修士1年 森 雄斗

  • 2. 論文情報
 2 ● タイトル
 – FastDepth: Fast Monocular Depth Estimation on Embedded Systems ● 学会
 – ICRA (IEEE International Conference on Robotics and Automation)2019 ● 著者
 – Diana Wofk*, Fangchang Ma* , Tien-Ju Yang, Sertac Karaman, Vivienne Sze • The Massachusetts Institute of Techonology
 ● Github
 – https://github.com/dwofk/fast-depth(PyTorch) ● Webサイト
 – http://fastdepth.mit.edu/

  • 4. 背景
 ● 既存の深度センサはかさばり、消費電力が高いため、単眼カメラを用いた深度 推定が望まれる
 ● 従来の単眼深度推定は、精度向上のみに焦点が当てられ、結果的に計算リ ソースが大きいアルゴリズムを採用している
 ● これからの課題は、アルゴリズムの精度と計算及び実行時間のコストのバラ ンスをとること
 4 深度センサ 単眼カメラ 単眼深度推定
 アルゴリズム 小型・低コストのために
 が大きな計算リソースを必要としている から
 へ しかし、 ex: LiDAR, 構造光3Dスキャナー ex: ReDWeb, struct2depth

  • 5. 背景
 ● 既存の深度センサはかさばり、消費電力が高いため、単眼カメラを用いた深度 推定が望まれる
 ● 従来の単眼深度推定は、精度向上のみに焦点が当てられ、結果的に計算リ ソースが大きいアルゴリズムを採用している
 ● これからの課題は、アルゴリズムの精度と計算及び実行時間のコストのバラ ンスをとること
 5 深度センサ 単眼カメラ 単眼深度推定
 アルゴリズム 小型・低コストのために
 が大きな計算リソースを必要としている から
 へ しかし、 ex: LiDAR, 構造光3Dスキャナー ex: ReDWeb, struct2depth
 バランスが
 重要

  • 6. 関連研究 | 単眼深度推定
Monocular Relative Depth Perception with Web Stereo Data Supervision [1]
 6 Deeper Depth Prediction with Fully Convolutional Residual Networks[2]
 関連研究 | 単眼深度推定 (Monocular Depth Estimation)
 どちらも高精度なモデルを作成するアプローチ
 [1] Xian, Ke, et al. "Monocular relative depth perception with web stereo data supervision." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018. [2] Laina, Iro, et al. "Deeper depth prediction with fully convolutional residual networks." 2016 Fourth international conference on 3D vision (3DV). IEEE, 2016.
  • 7. 関連研究 | その他
 ● Efficient Neural Networks
 ○ 画像分類 | VGG → MobileNet
 ○ 物体検出 | SSD → FasterRCNN
 
 
 
 
 ● Network Pruning
 ○ 冗長なパラメータや計算と特定して除去
 ○ ex: NetAdapt
 
 7 ラベルに縮小するエンコーダーネットワークに焦点が当てられている
 デコーダーネットワークを持つピクセルベースの効率性についてはあまり検討されていない
 図1 | https://missinglink.ai/guides/tensorflow/tensorflow-conv2d-layers-practical-guide/ より引用
 図1: 一般的なCNN
 一般的にエンコーダーネットワークに適用されている
 エンコーダーとデコーダーの両方の効率性がプルーニングによって向上するかを実証する

  • 9. 提案手法 | ネットワーク構成
 9 Fully convolutional encoder-decoder
 入力サイズと同じ出力サイズを出力するには、”Fully Convolutional”が効果的[3]
 全結合層を1×1の畳み込みで置き換える
 [3] Long, Jonathan, Evan Shelhamer, and Trevor Darrell. "Fully convolutional networks for semantic segmentation." Proceedings of the IEEE conference on computer vision and pattern recognition. 2015.
  • 10. 提案手法 | ネットワーク構成
 10 ● 低レイテンシを目標とし、MobileNet_v1[4]を採用
 [4] A. G. Howard, M. Zhu, B. Chen, D. Kalenichenko, W. Wang, T. Weyand, M. Andreetto, and H. Adam, “MobileNets: Efficient convolutional neural networks for mobile vision applications,” arXiv preprint arXiv:1704.04861, 2017. (a) 通常の畳み込み演算
 (b) 下がMobileNetの畳み込み演算
 空間方向とチャネル方向の畳み込みを同時に行わず、 
 Depthwise(空間方向)とPointwise(チャネル方向)を順に行う 
 m×m×nの標準的な畳込みレイヤの場合
 MAC(積和演算)の回数がm 倍少ない
 2

  • 11. 提案手法 | ネットワーク構成
 11 ● Decoder
 ○ 5×5のアップサンプリングレイヤーを使用
 ○ 中間特徴マップのサイズを倍にし、チャネル数を半分にする
 ○ 本研究ではNNconv5と定義
 
 ● Skip Connection (U-Net, DeeperLabにも使用されている)
 ○ エンコーダによって失われた画像情報を追加する
 ○ エンコーダの中間の3層をアップサンプリングレイヤーに加算
 
 

  • 12. 提案手法 | ネットワーク構成
 12 ● Decoder
 ○ 5×5のアップサンプリングレイヤーを使用
 ○ 中間特徴マップのサイズを倍にし、チャネル数を半分にする
 ○ 本研究ではNNconv5と定義
 
 ● Skip Connection (U-Net, DeeperLabにも使用されている)
 ○ エンコーダによって失われた画像情報を追加する
 ○ エンコーダの中間の3層をアップサンプリングレイヤーに加算
 
 

  • 13. 提案手法 | ネットワークコンパイル
 ● TVMコンパイラスタック[5]を使用
 ○ ハードウェア上でのランタイム削減のために最適化
 
 
 
 
 13 [5] T. Chen, T. Moreau, Z. Jiang, L. Zheng, E. Yan, H. Shen, M. Cowan, L. Wang, Y. Hu, L. Ceze et al., “TVM: An Automated End-to-End Optimizing Compiler for Deep Learning,” in 13th USENIX Symposium on Operating Systems Design and Implementation (OSDI 18), 2018, pp. 578–594. web: https://tvm.apache.org/2017/10/06/nnvm-compiler-announcement
  • 14. 提案手法 | Network Pruning
 ● NetAdapt[6]を使用
 ○ 使用率の低いアクティベーションチャネルを減少させる
 ○ 精度と複雑さのトレードオフで最も良いネットワーク提案
 
 14 [6] T.-J. Yang, A. Howard, B. Chen, X. Zhang, A. Go, M. Sadler, V. Sze, and H. Adam, “NetAdapt: PlatformAware Neural Network Adaptation for Mobile Applications,” in European Conference on Computer Vision (ECCV), 2018. 
 ・github | https://github.com/denru01/netadapt/

  • 15. 実験 | 設定
 ● データセット
 ○ NYU Depth Dataset v2 [7]
 ■ Microsoft Kinectで撮影した室内の画像(1449個)
 ■ ダウンロードurl: https://cs.nyu.edu/~silberman/datasets/nyu_depth_v2.html
 
 ● エンコーダー
 ○ ImageNetで事前学習
 ● プラットフォーム
 ○ Jetson TX2
 
 ● 実験概要
 ○ 先行研究との比較
 ○ エンコーダーの検証
 ○ デコーダーの検証
 ○ Network Pruningの効果
 15 [7] N. Silberman, D. Hoiem, P. Kohli, and R. Fergus, “Indoor segmentation and support inference from RGBD images,” in European Conference on Computer Vision (ECCV), 2012, pp. 746–760. 
 サンプル画像
 推論の時間と精度を確認

  • 16. 実験 | 先行研究との比較
 ● 推論時はデコーダー部分で時間がかかる
 ● ベースラインと比較して、同程度の精度かつ総ランタイムを約65倍に短 縮
 16 先行研究との比較 
 MACs: 積和演算 
 RMSE: 平均平方二乗誤差 
 δ : 相対誤差が25%以内の    予測ピクセルの割合 

  • 17. 実験 | エンコーダーの検証
 ● エンコーダー部分のみを変更して推論
 ○ 精度は落ちるが、ランタイム時間を大幅に減少
 17
  • 18. 実験 | エンコーダーの検証
 ● エンコーダー部分のみを変更して推論
 ○ 精度は落ちるが、ランタイム時間を大幅に減少
 18 深層学習フレームワークが今回の実装において最 適化されていないことに起因 ..? 深層学習コンパイラの必要性あり
  • 19. 実験 | デコーダーの検証 | アップサンプリング処理
 ● 4つのアップサンプリング処理を比較
 ○ 高い精度と低いランタイム時間を持つNNConv5を採用
 19 2×2の
 Unpooling
 サイズを2倍にする 
 最近傍補間

  • 20. 実験 | デコーダーの検証 | depthwise and skip connection
 ● 標準的なデコーダーとdepthwise デコーダーの比較
 ○ depthwise: 畳み込みの深さ方向に分解する (MobileNetの構造に近い)
 ● additive skip connectionsとconcatenative skip connectionsの比較
 ○ concatの場合、チャネル数が増え、複雑度が増える
       → 精度は向上する一方、ランタイム時間も増加
 ● skip connectionを持つと深度画像の鮮明さが向上 (定性評価)
 
 20 GT
 skip
 connectio
 なし
 skip
 connectio
 あり
 結果から depthwise decoder + skip-add を採用

  • 21. 実験 | Network Pruningの効果
 ● NetAdaptを使用
 ○ 各レイヤーのチャネル数を効率良く減らし、複雑度を減少
 
 
 
 
 
 
 ○ ほぼ同じ精度でGPUでの実行時間を1.5倍に削減
 21 網掛け部分が
 pruning前のチャネル数

  • 22. デモ映像 @ ICRA 2019
 22 FastDepth: Fast Monocular Depth Estimation on Embedded Systems @ ICRA 2019 url : https://youtu.be/gRqrYJWyXyI?t=38 Demo of FastDepth on iPhone @ ICRA 2019 url: https://youtu.be/gtXfRTPnz6Y