Muramatsu Bachelor Thesis

Sparsity Embedded Convolutional Multi-class Detection
スパースな畳み込みによるマルチクラス物体検出
情報科学科４年加藤研究室 05-171029 村松佑亮

背景
● 自動運転技術
○ センサーによるデータ収集
○ 物体検出
○ 自己位置推定
○ 経路決定
https://www.pf.is.s.u-tokyo.ac.jp/ja/research-ja/data-ja/
2

物体検出
3
画像による２次元物体検出
● 画像平面上の位置を取得
点群による３次元物体検出
● 現実空間上の位置を取得

３次元物体検出の課題
4
Nフレーム N+1フレーム
Nフレーム N+1フレーム
クラス別処理
● 複数モデル
● 処理時間が長い
マルチクラス処理
● 単一モデル
● 処理時間が短い

先行研究
[1] Yan Yan, Yuxing Mao, and Bo Li. SECOND: Sparsely EmbeddedCconvolutional Detection. Sensors, 18(10):3337, 2018
[2] Yin Zhou and Oncel Tuzel. Voxelnet: End-to-end learning for point cloud based 3d object detection.
In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 4490–4499, 2018. 5
SECOND[1]
● VoxelNet[2]の精度を落とさず4.6倍高速化
● 他の既存手法と比較し精度は劣るが実行時間が短い
● 車・自転車・歩行者のマルチクラス検出に非対応

本研究の提案
SECONDの改良
● 車・自転車・歩行者のマルチクラスに対応
● 各ネットワークの改良による精度向上
達成目標: 処理時間と精度の両立
6

Anchorの調節によるマルチクラス対応
7
３次元を２次元に簡略化
自動車クラス
のAnchor
自転車クラス
のAnchor
歩行者クラス
のAnchor
● 各クラスに合わせたAnchor（基準領域）の大きさを調節
● 各クラスのAnchor統合することでマルチクラス対応

Voxel Encoder Network（VEN）の改良
クラス検出
位置推定
方向推定
8Yin Zhou and Oncel Tuzel. Voxelnet: End-to-end learning for point cloud based 3d object detection.
In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 4490–4499, 2018.
● 転移畳込みによる計算の効率化

Sparse Middle Network（SMN）の改良
● フィルタリングで起こる特徴量減少の抑制
9
クラス検出
位置推定
方向推定
[2] Benjamin Graham and Laurens van der Maaten. Submanifold sparse convolutional networks. arXiv preprint arXiv:1706.01307, 2017.
[3] Ben Graham. Sparse 3d convolutional neural networks. arXiv preprint arXiv:1505.02890, 2015.

Regison Proposal Network（RPN）の改良
10
クラス検出
位置推定
方向推定
Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. Identity mappings in deep residual networks.
In European conference on computer vision, pages 630–645. Springer, 2016.
● ショートカットコネクションにより正確な位置情報の伝播

評価
● KITTI 3D Object Detection Dataset [4] の学習用データを
train/testに分割
● 評価指標: Average Precision
● 対象クラス: 車・自転車・歩行者
● レベル: Easy, Moderate, Hard
11
CPU Intel Xeon Gold 6126 2.60GHz
GPU NVIDIA Tesla V100 16GB
実行環境 VEN Voxel Encoder Network
SMN Sparse Middle Network
RPN Region Proposal Network
ネットワークの略称
[4] Andreas Geiger, Philip Lenz, and Raquel Urtasun. Are we ready for autonomous driving? the kitti vision benchmark suite.
In Conference on Computer Vision and Pattern Recognition (CVPR), 2012

精度の評価結果
12
2.62 ↑
3.12 ↑
1.95 ↑
E = Easy, M = Moderate, H = Hard
先行研究
先行研究+
マルチクラス
提案手法

処理時間の評価結果
13
4.38% ↓
先行研究
先行研究+
マルチクラス
提案手法

まとめ
● ３次元物体検出アルゴリズムSECOND[1]のマルチクラス対応を提案
○ Anchorのハイパーパラメータ調節によるマルチクラス対応
○ VEN, SMN, RPNの各ネットワークの改良
● 成果
○ マルチクラス化SECOND[1]と比較し最大5.67%精度向上
○ SMN + RPNは平均1.95%精度向上
○ 処理時間の増加は4.4%未満
● 課題
○ 自転車・歩行者の精度改善
○ 今回対象外のクラスへの対応
14[1] Yan Yan, Yuxing Mao, and Bo Li. SECOND: Sparsely EmbeddedCconvolutional Detection. Sensors, 18(10):3337, 2018

Muramatsu Bachelor Thesis

Recomendados

Recomendados

Mais conteúdo relacionado

Mais procurados

Mais procurados (20)

Semelhante a Muramatsu Bachelor Thesis

Semelhante a Muramatsu Bachelor Thesis (20)

Mais de pflab

Mais de pflab (18)

Muramatsu Bachelor Thesis