O slideshow foi denunciado.
Utilizamos seu perfil e dados de atividades no LinkedIn para personalizar e exibir anúncios mais relevantes. Altere suas preferências de anúncios quando desejar.

IEEE ITSS Nagoya Chapter

3.445 visualizações

Publicada em

Deep Learning for autonomous driving

Publicada em: Ciências
  • Seja o primeiro a comentar

IEEE ITSS Nagoya Chapter

  1. 1. ディープラーニング ~画像認識と自動運転に向けた応用~ 山下 隆義
  2. 2. ここからわかること 2
  3. 3. ここからわかること 屋外の走行シーン 3
  4. 4. ここからわかること 歩行者が二人いる 後ろを向いている 4
  5. 5. ここからわかること 前方に車がいる 停車車両がいる 5
  6. 6. ここからわかること 標識がある 時速30キロ 駐車禁止 6
  7. 7. ここからわかること 白線の位置 7
  8. 8. ここからわかること 走行可能領域 対向車線 歩道 8
  9. 9. ここからわかること ・物体認識 標識など ・物体検出 歩行者,車両など ・シーンラベリング 走行可能領域・歩道など ・シーン理解 歩行者の属性など 9
  10. 10. ここからわかること ほとんどの認識がディープラーニングでできつつある ・物体認識 標識など ・物体検出 歩行者,車両など ・シーンラベリング 走行可能領域・歩道など ・シーン理解 歩行者の属性など 10
  11. 11. 画像分野でのディープラーニング 全てのルーツは 福島邦彦、位置ずれに影響されないパターン認識機構の神経回路のモデル -­-­-­ ネオコグニトロン -­-­-­電子通信学会論文誌A,  vol.  J62-­A,   no.  10,  pp.  658-­665,1979. Y.  LeCun,  et.al.  “Gradient-­based  Learning  Applied  to  Document  Recognition”,  Proc.  of  The  IEEE,    1998. ネオコグニトロン 畳み込みニューラルネットワーク 11
  12. 12. ディープラーニング手法の変遷 物体認識ベンチマークを通じて,より深い構造へ 1998年 2012年 2014年 2015年 AlexNet LeNet GoogLeNet ResNet 12
  13. 13. 物体認識 http://image-­net.org ImageNetのデータセットを利用して1000クラスの物体認識を行う ImageNet  Large  Scale  Visual  Recognition  Challenge  (ILSVRC) 13
  14. 14. ディープラーニングによる物体認識 AlexNet ILSVRC2012で優勝 8層(畳み込み5層,全結合3層)の構造 Team year Error  (top-­‐5) SuperVision(AlexNet) 2012 15.3% 1層目のフィルタ A.  Krizhevsky,  ImageNet  Classification  with  Deep  Convolutional  Neural  Networks,  NIPS2012 14
  15. 15. ディープラーニングによる物体認識 Team year Error  (top-­‐5) SuperVision 2012 15.3% Clarifai 2013 11.2% VGG – Oxford  (16 layers) 2014 7.32% 3x3のフィルタを2層積層すると 5x5のフィルタと等価になる AlexNetとほぼ等価の構成 VGG16 ILSVRC2014で2位 16層と深い構造 K. Simonyan,  Very Deep Convolutional Networks for Large-Scale Image Recognition, ICLR2015 15
  16. 16. ディープラーニングによる物体認識 Convolution Pooling Softmax Other Inception  module Team year Error  (top-­‐5) SuperVision 2012 15.3% Clarifai 2013 11.2% VGG – Oxford  (16 layers) 2014 7.32% GoogLeNet (22layers) 2014 6.67% 3x3   convolutions 5x5   convolutions Filter   concatenation Previous  layer 3x3  max   pooling 1x1   convolutions 1x1   convolutions 1x1   convolutions 1x1   convolutions C. Szegedy, Going Deeper with Convolutions, CVPR2015 GoogLeNet Inception  モジュールを9つ積層 途中の層の誤差を求め,下位層まで誤差を伝播 16
  17. 17. ディープラーニングによる物体認識 Team year Error  (top-­‐5) SuperVision 2012 15.3% Clarifai 2013 11.2% VGG – Oxford  (16 layers) 2014 7.32% GoogLeNet (22layers) 2014 6.67% Residual  Net. 2015 3.57% human  expert 5.1% K. He, Deep Residual Learning for Image Recognition, CVPR2016 Residual  Network 特定層への入力をバイパスして上位層へ与える 逆伝播時に誤差を下位層に直接与えることができる 17
  18. 18. ディープラーニングによる物体認識 http://research.microsoft.com/en-­us/um/people/kahe/ilsvrc15/ilsvrc2015_deep_residual_learning_kaiminghe.pdf 18
  19. 19. 標識認識 German  Traffic  Sign  Recognition  Benchmarkで人を上回る性能 Multi-Column Deep Neural Network for Traffic Sign Classification,IJCNN2011 METHODS ACCURACY Multi-­Column Deep Neural Network 99.46% Human  Performance 98.84% Multi-­Scale  CNN 98.31% Random  Forest 96.14% LDA  on  HOG 95.68% 0.71 0.17 0.03 0.09 0.89 0.03 0.01 0.07 0.85 0.09 0.02 0.04 複数のCNNを利用して精度向上 学習の手間:大 メモリサイズ:大 処理時間:大 19
  20. 20. 標識認識 一つのネットワークを仮想的に複数のネットワークにする Ensemble  Median  Inference   Fukui, Pedestrian Detection Based on Deep Convolutional Neural Network with Ensemble Inference Network, IV2015 METHODS ACCURACY Multi-­Column Deep Neural Network 99.46% Human  Performance 98.84% Multi-­Scale  CNN 98.31% Random  Forest 96.14% LDA  on  HOG 95.68% 0.71 0.17 0.03 0.09 20
  21. 21. 標識認識 METHODS ACCURACY Random  Droput+Dn’MI 99.22% Multi-­Column Deep Neural Network 99.46% Human  Performance 98.84% Multi-­Scale  CNN 98.31% Random  Forest 96.14% LDA  on  HOG 95.68% 0.89 0.03 0.01 0.07 0.71 0.17 0.03 0.09 0.85 0.09 0.02 0.04 複数ネットワーク利用時と同等性能 学習の手間:小 メモリサイズ:小 処理時間:中 一つのネットワークを仮想的に複数のネットワークにする Ensemble  Median  Inference   STEP1:全結合層のネットワークを複数生成 STEP2:各クラスの確率を累積する Fukui, Pedestrian Detection Based on Deep Convolutional Neural Network with Ensemble Inference Network, IV2015 21
  22. 22. 標識認識 人の目でも分かりにくい標識でも認識可能 Dropout Random Dropout + EIN 0 20 40 60 80 100 0 20 40 60 80 100 0 20 40 60 80 100 0 20 40 60 80 100 0 20 40 60 80 100 0 20 40 60 80 100 0 20 40 60 80 100 0 20 40 60 80 100 Input imageFukui, Pedestrian Detection Based on Deep Convolutional Neural Network with Ensemble Inference Network, IV2015 22
  23. 23. CNNの課題 物体検出への応用の難しさ http://image-net.org/challenges/LSVRC/2014/slides/ILSVRC2014_09_12_14_det.pdf 与えられた領域の名称を認識することは得意 問題:どのように物体の領域(=位置)を与えるか? CNNだけでは物体らしい領域を抽出ことは困難 物体検出とは? 画像中の物体の名称と位置 を特定する 23
  24. 24. 物体検出への応用方法 2段階の検出構造 • 前段:物体領域候補を検出 • 後段:検出した物体領域候補から最終的な物体の領域を検出 入力画像 前段処理 後段処理 24
  25. 25. 前段の検出手法 Aggregate  Channel  Features  (ACF) ・入力画像からチャンネル特徴量を生成(LUV,  勾配強度,勾配ヒストグラム) ・生成したチャンネル特徴量から特徴ピラミッドを作成 ・Boosted  treeによりチャンネル特徴量から歩行者検出に有効な 特徴量を選択 25
  26. 26. 後段の検出処理 前段処理 0.97 0.03 2段階の検出構造 • 前段:物体領域候補を検出 • 後段:検出した物体領域候補から最終的な物体の領域を検出 26
  27. 27. ディープラーニングを利用した歩行者検出 Caltech  Pedestrian  Detection  Benchmarkにおける性能 10 -3 10 -2 10 -1 10 0 10 1 .05 .10 .20 .30 .40 .50 .64 .80 1 false positives per image missrate 95% VJ 68% HOG 31% DeepCascade 30% ACF-Caltech+ 26% DeepCascade+ 25% LDCF 21% TA-CNN 19% CCF 18% Checkerboards 17% CCF+CF 17% Checkerboards+ 12% DeepParts 12% CompACT-Deep 10% SA-FastRCNN 27
  28. 28. S. Zhang , How Far are We from Solving Pedestrian Detection?, CVPR2016 ディープラーニングを利用した歩行者検出 人と機械学習手法との比較 31
  29. 29. 一般物体検出 • Selective  Searchにより物体候補を検出 • CNNで抽出した特徴量をSVMでクラス識別 R−CNN 4つのステップから構成 1)局所領域の切り出し 2)領域の変形 3)CNNによる特徴抽出 4)SVMによる識別 R.  Girshick,  Rich  feature  hierarchies  for  accurate  object  detection  and  semantic  segmentation,  CVPR2014 32
  30. 30. R-CNNの課題 処理時間がかかる • 1画像あたり:47秒 (VGGネットを使用時) 学習・検出プロセスが複雑 • 処理ごとに個別の学習とデータの準備が必要 特徴抽出 (CNN) 特徴抽出 (CNN) 特徴抽出 (CNN) 物体識別 (SVM) 物体識別(   SVM) 物体識別 (SVM) 入力画像 領域切り出し 領域変形 背景 人 馬 領域ごとに実行 座標補正 (   回帰) 座標補正 ( 回帰) R.  Girshick,  Rich  feature  hierarchies  for  accurate  object  detection  and  semantic  segmentation,  CVPR2014 33
  31. 31. Fast R-CNN 特徴抽出処理をまとめて行うことで高速化 • R-CNNと比べて10-100倍高速 学習・検出プロセスをシンプルに • 領域切り出しの処理をCNNの構成で行う(SVMなし) 特徴抽出 (CNN) 特徴座標 識別層・回帰層 (CNN) 入力画像 領域切り出し 領域変形 物体:背景 座標情報 (-­1,-­1,-­1,-­1) 物体:人 座標情報 (10,3,40,100) 物体:馬 座標情報 (5,100,80,20) 領域ごとに実行 識別層・回帰層 (CNN) 識別層・回帰層 (CNN) R.  Girshick,,  Fast  RCNN,  ICCV2015 34
  32. 32. Fast R-CNN 特徴抽出処理をまとめて行うことで高速化 • R-CNNと比べて10-100倍高速 学習・検出プロセスをシンプルに • 領域切り出しの処理をCNNの構成で行う(SVMなし) 特徴抽出 (CNN) 特徴座標 識別層・回帰層 (CNN) 入力画像 領域切り出し 領域変形 物体:背景 座標情報 (-­1,-­1,-­1,-­1) 物体:人 座標情報 (10,3,40,100) 物体:馬 座標情報 (5,100,80,20) 領域ごとに実行 識別層・回帰層 (CNN) 識別層・回帰層 (CNN) R.  Girshick,,  Fast  RCNN,  ICCV2015 Selective  Searchによる切り出し =>この処理が時間かかる 35
  33. 33. Faster R-CNN 領域切り出しもCNNで行うことでさらなる高速化 • R-CNNと比べて10-100倍高速 学習・検出プロセスをさらにシンプルに • すべてをCNNで行う 特徴抽出 (CNN) 検出層 (全結合) 入力画像 回帰層 (全結合) 識別層 (Fast R-­CNN) Region  Proposal   Network S. Ren,, Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks, NIPS2015 36
  34. 34. Region Proposal Network(RPN) 特徴抽出 (CNN) 入力画像 CNNで抽出した特徴マップ上の各注目点について 検出:k個のアンカーに対する物体か否か 回帰:k個のアンカーに対する座標 を行う 形状は1:1,1:2,2:1の3種類 大きさは128,  256,  512の3スケール アンカー=注目領域の形状と 大きさのパターン S. Ren,, Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks, NIPS2015 37
  35. 35. Faster R-CNNによる物体検出例 38
  36. 36. Faster R-CNNによる物体検出の速度 • 特徴マップ作成をVGGで行った場合,selective  searchの 場合よりも約10倍高速化 • ZFを特徴マップ作成に利用するとさらに3倍高速化 39
  37. 37. 車載映像 40
  38. 38. コンピュータビジョンで目指す姿 これは,人手でアノテーションをしているが... 41
  39. 39. シーンラベリング 畳み込みニューラルネットワークを利用して,各ピクセルのシーンラベルを付与 画素情報をそのまま入力して,特徴を自動的に学習 Superpixelによるセグメンテーションも併用 C.Farabet,  C.Couprie,  L.Najman,  Y.LeCun,  “Learning  Hierarchical  Features  for  Scene  Labeling.”,  PAMI2013. 畳み込みニューラルネットワークでのシーン認識 42
  40. 40. シーンラベリング 43 V. Badrinarayanan,  SegNet: A Deep Convolutional Encoder-Decoder Architecture for Robust Semantic Pixel-Wise Labelling, 2015
  41. 41. シーンラベリング手法 Fully  Convolutional  Neural  Network プーリング層後の特徴マップを拡大し,結合 44J. Long, Fully Convolutional Networks for Semantic Segmentation, CVPR2015
  42. 42. SegNet エンコーダ・デコーダの構成 Max Poolingを行う時に位置情報を記憶 最大値&圧縮前の位置情報を参照 データがない座標には「0」を補完 45 V. Badrinarayanan,  SegNet: A Deep Convolutional Encoder-Decoder Architecture for Robust Semantic Pixel-Wise Labelling, 2015
  43. 43. Cityscapes 車載用セグメンテーションのデータセット →  既存のセグメンテーションデータセット(CamVid)より,大規模 Dataset  URL  :  https://www.cityscapes-­dataset.com/ 50都市で撮影 30クラスのラベリング 評価には19クラスを利用 (頻出頻度の低いクラスは対象外) The  Cityscapes  Dataset  for  Semantic  Urban  Scene  Understanding 46M. Cordts, The Cityscapes Dataset for Semantic Urban Scene Understanding, CVPR2016
  44. 44. ヘテロジニアスラーニング(1) ディープラーニングのメリット 複数の異なる情報を同時に学習・認識できる 年齢と性別の同時推定 Convolution Layer Fully Connection Layer Male  or  Female input  samples Age [加藤,  MIRU2015] 49
  45. 45. ヘテロジニアスラーニング(2) 出力情報の種類を増やすことが可能 Convolution Layer Fully Connection Layer Male  or  Female input  samples Age Race Smile  degree [加藤,  MIRU2015] 50 ディープラーニングのメリット 複数の異なる情報を同時に学習・認識できる
  46. 46. ヘテロジニアスラーニング(3) [加藤,  MIRU2015] 51
  47. 47. ヘテロジニアスラーニング(4) ヘテロジニアスラーニングによる歩行者検出と部位推定 1 0.0001 0.001 0.01 0.1 1 10 MissRate False Positive per Image 回帰型DCNN 31.77% 単体のDCNN 38.38%   0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 Daimler  Mono-­‐Pedestrian  Benchmark  Dataset の評価結果 距離[m] 距離推定結果[m] 誤差[%] 5 4.89 2.2 10 9.26 5.3 15 14.12 5.8 [山下,  ICPR2016] 52
  48. 48. ヘテロジニアスラーニング(5) 歩行者の属性推定 Task.2 身体の向き推定 Task.3 顔の向き推定 Task.4 性別認識 Task.5 傘の所持認識 Task.1 歩行者部位位置推定 全結合層 傘をさしているか 男性 女性 : 歩行者部位検出 ( 頭と両足 ) 身体の向き ( 前 , 後 , 左 , 右 ) 顔の向き ( 前 , 後 , 左 , 右 ) 識別するタスク [Fukui,  IV2016] 53
  49. 49. ディープラーニングによる運転支援 C.  Chen,  DeepDriving:  Learning  Affordance  for  Direct  Perception  in  Autonomous  Driving,  ICCV2015 周辺理解 54
  50. 50. 強化学習 入力:4フレームの画面 出力:18種のジョイスティックとボタン 差(報酬): 1回の動きで得られるスコア 55V.Mnih, Playing Atari with Deep Reinforcement Learning, NIPS2014
  51. 51. 自動運転(NVIDIA) 56 https://www.youtube.com/watch?v=JHHlo7b0UoE
  52. 52. 位置関係の自動制御 57https://www.youtube.com/watch?v=7A9UwxvgcV0
  53. 53. Roborace 58 roborace.com
  54. 54. まとめ 自動運転に向けたディープラーニングの活用 物体認識・標識認識のための畳み込みニューラルネットワーク 物体検出のためR-CNNからFaster R-CNN シーンラベリングのためのFCN, SegNet, そしてデータセット 複数の処理を同時に行うヘテロジニアスラーニング 強化学習を利用した自動運転 質問などは yamashita@cs.chubu.ac.jp 59 @takayosiy 山下隆義

×