IEEE ITSS Nagoya Chapter

ディープラーニング
～画像認識と自動運転に向けた応用～
山下隆義

ここからわかること
屋外の走行シーン
3

歩行者が二人いる
後ろを向いている
4

前方に車がいる
停車車両がいる
5

標識がある
時速３０キロ
駐車禁止
6

白線の位置
7

走行可能領域対向車線
歩道
8

・物体認識
標識など
・物体検出
歩行者，車両など
・シーンラベリング
走行可能領域・歩道など
・シーン理解
歩行者の属性など
9

ほとんどの認識がディープラーニングでできつつある
・物体認識
標識など
・物体検出
歩行者，車両など
・シーンラベリング
走行可能領域・歩道など
・シーン理解
歩行者の属性など
10

画像分野でのディープラーニング
全てのルーツは
福島邦彦、位置ずれに影響されないパターン認識機構の神経回路のモデル --- ネオコグニトロン ---電子通信学会論文誌A, vol. J62-A,
no. 10, pp. 658-665，1979.
Y. LeCun, et.al. “Gradient-based Learning Applied to Document Recognition”, Proc. of The IEEE, 1998.
ネオコグニトロン
畳み込みニューラルネットワーク
11

ディープラーニング手法の変遷
物体認識ベンチマークを通じて，より深い構造へ
１９９８年
２０１２年
２０１4年
２０１5年
AlexNet
LeNet
GoogLeNet
ResNet
12

物体認識
http://image-net.org
ImageNetのデータセットを利用して１０００クラスの物体認識を行う
ImageNet Large Scale Visual Recognition Challenge (ILSVRC)
13

ディープラーニングによる物体認識
AlexNet
ILSVRC2012で優勝８層（畳み込み５層，全結合３層）の構造
Team year Error
(top-‐5)
SuperVision(AlexNet) 2012 15.3%
1層目のフィルタ
A. Krizhevsky, ImageNet Classification with Deep Convolutional Neural Networks, NIPS2012 14

Team year Error
(top-‐5)
SuperVision 2012 15.3%
Clarifai 2013 11.2%
VGG – Oxford
(16 layers) 2014 7.32%
3x3のフィルタを２層積層すると
5x5のフィルタと等価になる
AlexNetとほぼ等価の構成
VGG16
ILSVRC2014で２位１６層と深い構造
K. Simonyan, Very Deep Convolutional Networks for Large-Scale Image Recognition, ICLR2015 15

Convolution
Pooling
Softmax
Other
Inception module
Team year Error
(top-‐5)
Clarifai 2013 11.2%
VGG – Oxford
(16 layers) 2014 7.32%
GoogLeNet (22layers) 2014 6.67%
3x3
convolutions
5x5
convolutions
Filter
concatenation
Previous layer
3x3 max
pooling
1x1
convolutions
1x1
convolutions
1x1
convolutions
1x1
convolutions
C. Szegedy, Going Deeper with Convolutions, CVPR2015
GoogLeNet
Inception モジュールを９つ積層
途中の層の誤差を求め，下位層まで誤差を伝播
16

Team year Error
(top-‐5)
Clarifai 2013 11.2%
VGG – Oxford
(16 layers) 2014 7.32%
GoogLeNet (22layers) 2014 6.67%
Residual
Net. 2015 3.57%
human expert 5.1%
K. He, Deep Residual Learning for Image Recognition, CVPR2016
Residual Network
特定層への入力をバイパスして上位層へ与える
逆伝播時に誤差を下位層に直接与えることができる
17

http://research.microsoft.com/en-us/um/people/kahe/ilsvrc15/ilsvrc2015_deep_residual_learning_kaiminghe.pdf
18

標識認識
German Traffic Sign Recognition Benchmarkで人を上回る性能
Multi-Column Deep Neural Network for Traffic Sign Classification，IJCNN2011
METHODS ACCURACY
Multi-Column Deep Neural Network 99.46%
Human Performance 98.84%
Multi-Scale CNN 98.31%
Random Forest 96.14%
LDA on HOG 95.68%
0.71
0.17
0.03
0.09
0.89
0.03
0.01
0.07
0.85
0.09
0.02
0.04
複数のCNNを利用して精度向上
学習の手間：大
メモリサイズ：大
処理時間：大
19

標識認識
一つのネットワークを仮想的に複数のネットワークにする
Ensemble Median Inference
Fukui, Pedestrian Detection Based on Deep Convolutional Neural Network with Ensemble Inference Network, IV2015
METHODS ACCURACY
LDA on HOG 95.68%
0.71
0.17
0.03
0.09
20

標識認識
METHODS ACCURACY
Random Droput+Dn’MI 99.22%
LDA on HOG 95.68%
0.89
0.03
0.01
0.07
0.71
0.17
0.03
0.09
0.85
0.09
0.02
0.04
複数ネットワーク利用時と同等性能
学習の手間：小
メモリサイズ：小
処理時間：中
一つのネットワークを仮想的に複数のネットワークにする
Ensemble Median Inference
STEP1：全結合層のネットワークを複数生成
STEP2：各クラスの確率を累積する
Fukui, Pedestrian Detection Based on Deep Convolutional Neural Network with Ensemble Inference Network, IV2015 21

標識認識
人の目でも分かりにくい標識でも認識可能
Dropout Random Dropout + EIN
0 20 40 60 80 100
0 20 40 60 80 100
0 20 40 60 80 100
0 20 40 60 80 100
0 20 40 60 80 100
0 20 40 60 80 100
0 20 40 60 80 100
0 20 40 60 80 100
Input imageFukui, Pedestrian Detection Based on Deep Convolutional Neural Network with Ensemble Inference Network, IV2015 22

CNNの課題
物体検出への応用の難しさ
http://image-net.org/challenges/LSVRC/2014/slides/ILSVRC2014_09_12_14_det.pdf
与えられた領域の名称を認識することは得意
問題：どのように物体の領域(=位置）を与えるか？
CNNだけでは物体らしい領域を抽出ことは困難
物体検出とは？
画像中の物体の名称と位置
を特定する
23

物体検出への応用方法
2段階の検出構造
• 前段：物体領域候補を検出
• 後段：検出した物体領域候補から最終的な物体の領域を検出
入力画像前段処理後段処理
24

前段の検出手法
Aggregate Channel Features (ACF)
・入力画像からチャンネル特徴量を生成(LUV, 勾配強度，勾配ヒストグラム)
・生成したチャンネル特徴量から特徴ピラミッドを作成
・Boosted treeによりチャンネル特徴量から歩行者検出に有効な
特徴量を選択
25

後段の検出処理
前段処理
0.97
0.03
2段階の検出構造
• 前段：物体領域候補を検出
• 後段：検出した物体領域候補から最終的な物体の領域を検出
26

ディープラーニングを利用した歩行者検出
Caltech Pedestrian Detection Benchmarkにおける性能
10
-3
10
-2
10
-1
10
0
10
1
.05
.10
.20
.30
.40
.50
.64
.80
1
false positives per image
missrate
95% VJ
68% HOG
31% DeepCascade
30% ACF-Caltech+
26% DeepCascade+
25% LDCF
21% TA-CNN
19% CCF
18% Checkerboards
17% CCF+CF
17% Checkerboards+
12% DeepParts
12% CompACT-Deep
10% SA-FastRCNN
27

S. Zhang , How Far are We from Solving Pedestrian Detection?, CVPR2016
ディープラーニングを利用した歩行者検出
人と機械学習手法との比較
31

一般物体検出
• Selective Searchにより物体候補を検出
• CNNで抽出した特徴量をSVMでクラス識別
R−CNN
４つのステップから構成
１）局所領域の切り出し
２）領域の変形
３）CNNによる特徴抽出
４）SVMによる識別
R. Girshick, Rich feature hierarchies for accurate object detection and semantic segmentation, CVPR2014
32

R-CNNの課題
処理時間がかかる
• １画像あたり：４７秒 (VGGネットを使用時）
学習・検出プロセスが複雑
• 処理ごとに個別の学習とデータの準備が必要
特徴抽出
(CNN)
特徴抽出
(CNN)
特徴抽出
(CNN)
物体識別
(SVM)
物体識別(
SVM)
物体識別
(SVM)
入力画像
領域切り出し
領域変形
背景
人
馬
領域ごとに実行
座標補正 (
回帰)
座標補正 (
回帰)
R. Girshick, Rich feature hierarchies for accurate object detection and semantic segmentation, CVPR2014
33

Fast R-CNN
特徴抽出処理をまとめて行うことで高速化
• R-CNNと比べて10-100倍高速
学習・検出プロセスをシンプルに
• 領域切り出しの処理をCNNの構成で行う（SVMなし）
特徴抽出
(CNN)
特徴座標識別層・回帰層
(CNN)
入力画像
領域切り出し
領域変形
物体：背景
座標情報
(-1,-1,-1,-1)
物体：人
座標情報
(10,3,40,100)
物体：馬
座標情報
(5,100,80,20)
識別層・回帰層
(CNN)
(CNN)
R. Girshick,, Fast RCNN, ICCV2015
34

Fast R-CNN
特徴抽出処理をまとめて行うことで高速化
学習・検出プロセスをシンプルに
• 領域切り出しの処理をCNNの構成で行う（SVMなし）
特徴抽出
(CNN)
特徴座標識別層・回帰層
(CNN)
入力画像
領域切り出し
領域変形
物体：背景
座標情報
(-1,-1,-1,-1)
物体：人
座標情報
(10,3,40,100)
物体：馬
座標情報
(5,100,80,20)
(CNN)
(CNN)
R. Girshick,, Fast RCNN, ICCV2015
Selective Searchによる切り出し
=>この処理が時間かかる
35

Faster R-CNN
領域切り出しもCNNで行うことでさらなる高速化
学習・検出プロセスをさらにシンプルに
• すべてをCNNで行う
特徴抽出
(CNN)
検出層
(全結合)
入力画像
回帰層
(全結合)
識別層
(Fast R-CNN)
Region Proposal
Network
S. Ren,, Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks, NIPS2015 36

Region Proposal Network(RPN)
特徴抽出
(CNN)
入力画像
CNNで抽出した特徴マップ上の各注目点について
検出：k個のアンカーに対する物体か否か
回帰：k個のアンカーに対する座標
を行う形状は1:1，1:2,2:1の３種類
大きさは128, 256, 512の３スケール
アンカー=注目領域の形状と
大きさのパターン
S. Ren,, Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks, NIPS2015 37

Faster R-CNNによる物体検出例
38

Faster R-CNNによる物体検出の速度
• 特徴マップ作成をVGGで行った場合，selective searchの
場合よりも約10倍高速化
• ZFを特徴マップ作成に利用するとさらに３倍高速化
39

コンピュータビジョンで目指す姿
これは，人手でアノテーションをしているが．．．
41

シーンラベリング
畳み込みニューラルネットワークを利用して，各ピクセルのシーンラベルを付与
画素情報をそのまま入力して，特徴を自動的に学習
Superpixelによるセグメンテーションも併用
C.Farabet, C.Couprie, L.Najman, Y.LeCun, “Learning Hierarchical Features for Scene Labeling.”, PAMI2013.
畳み込みニューラルネットワークでのシーン認識
42

シーンラベリング
43
V. Badrinarayanan, SegNet: A Deep Convolutional Encoder-Decoder Architecture for Robust Semantic Pixel-Wise Labelling, 2015

シーンラベリング手法
Fully Convolutional Neural Network
プーリング層後の特徴マップを拡大し，結合
44J. Long, Fully Convolutional Networks for Semantic Segmentation, CVPR2015

SegNet
エンコーダ・デコーダの構成
Max Poolingを行う時に位置情報を記憶
最大値＆圧縮前の位置情報を参照
データがない座標には「０」を補完
45
V. Badrinarayanan, SegNet: A Deep Convolutional Encoder-Decoder Architecture for Robust Semantic Pixel-Wise Labelling, 2015

Cityscapes
車載用セグメンテーションのデータセット
→ 既存のセグメンテーションデータセット(CamVid)より，大規模
Dataset URL : https://www.cityscapes-dataset.com/
50都市で撮影
３０クラスのラベリング
評価には１９クラスを利用
（頻出頻度の低いクラスは対象外）
The Cityscapes Dataset for Semantic Urban Scene Understanding
46M. Cordts, The Cityscapes Dataset for Semantic Urban Scene Understanding, CVPR2016

ヘテロジニアスラーニング（１）
ディープラーニングのメリット
複数の異なる情報を同時に学習・認識できる
年齢と性別の同時推定
Convolution Layer Fully Connection Layer
Male or Female
input samples
Age
[加藤, MIRU2015] 49

ヘテロジニアスラーニング（２）
出力情報の種類を増やすことが可能
Convolution Layer Fully Connection Layer
Male or Female
input samples
Age
Race
Smile degree
[加藤, MIRU2015] 50
ディープラーニングのメリット
複数の異なる情報を同時に学習・認識できる

ヘテロジニアスラーニング（３）
[加藤, MIRU2015] 51

ヘテロジニアスラーニング（４）
ヘテロジニアスラーニングによる歩行者検出と部位推定
1
0.0001 0.001 0.01 0.1 1 10
MissRate False Positive per Image
回帰型DCNN 31.77%
単体のDCNN 38.38%
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
Daimler
Mono-‐Pedestrian
Benchmark
Dataset
の評価結果
距離[m] 距離推定結果[m] 誤差[%]
5 4.89 2.2
10 9.26 5.3
15 14.12 5.8
[山下, ICPR2016] 52

ヘテロジニアスラーニング（５）
歩行者の属性推定
Task.2
身体の向き推定
Task.3
顔の向き推定
Task.4
性別認識
Task.5
傘の所持認識
Task.1
歩行者部位位置推定
全結合層
傘をさしているか
男性女性
: 歩行者部位検出
( 頭と両足 )
身体の向き
( 前 , 後 , 左 , 右 )
顔の向き
( 前 , 後 , 左 , 右 )
識別するタスク
[Fukui, IV2016] 53

ディープラーニングによる運転支援
C. Chen, DeepDriving: Learning Affordance for Direct Perception in Autonomous Driving, ICCV2015
周辺理解
54

強化学習
入力：４フレームの画面
出力：１８種のジョイスティックとボタン
差（報酬）：１回の動きで得られるスコア
55V.Mnih, Playing Atari with Deep Reinforcement Learning, NIPS2014

自動運転（NVIDIA)
56
https://www.youtube.com/watch?v=JHHlo7b0UoE

位置関係の自動制御
57https://www.youtube.com/watch?v=7A9UwxvgcV0

まとめ
自動運転に向けたディープラーニングの活用
物体認識・標識認識のための畳み込みニューラルネットワーク
物体検出のためR-CNNからFaster R-CNN
シーンラベリングのためのFCN, SegNet, そしてデータセット
複数の処理を同時に行うヘテロジニアスラーニング
強化学習を利用した自動運転
質問などは
yamashita@cs.chubu.ac.jp
59
＠takayosiy 山下隆義

IEEE ITSS Nagoya Chapter

Recomendados

Recomendados

Mais conteúdo relacionado

Mais procurados

Mais procurados (20)

Semelhante a IEEE ITSS Nagoya Chapter

Semelhante a IEEE ITSS Nagoya Chapter (20)

IEEE ITSS Nagoya Chapter