SlideShare uma empresa Scribd logo
1 de 42
Baixar para ler offline
LiDAR-Camera Fusionによる道路上の
物体検出サーベイ
2018年11月30日
takmin
自己紹介
2
株式会社ビジョン&ITラボ 代表取締役
皆川 卓也(みながわ たくや)
「コンピュータビジョン勉強会@関東」主催
博士(工学)
略歴:
1999-2003年
日本HP(後にアジレント・テクノロジーへ分社)にて、ITエンジニアとしてシステム構築、プリ
セールス、プロジェクトマネジメント、サポート等の業務に従事
2004-2009年
コンピュータビジョンを用いたシステム/アプリ/サービス開発等に従事
2007-2010年
慶應義塾大学大学院 後期博士課程にて、コンピュータビジョンを専攻
単位取得退学後、博士号取得(2014年)
2009年-現在
フリーランスとして、コンピュータビジョンのコンサル/研究/開発等に従事(2018年法人化)
お問い合わせ:http://visitlab.jp
この資料について
 LiDARとカメラ<両方>の情報を使用して車両や人などの物
体検出を行う手法の調査を行いました。
 カメラとLiDAR両方の情報を用いて上記タスクを行うには、両
センサー間のキャリブレーションが必須で、それだけで1つの
研究トピックですが、ここでは調査範囲外とします。
 物体検出は3次元的な物体位置検出を目的とするものと、画
像上での2次元的な物体位置検出を目的とするものに分ける
ことができます。
 ここではカメラのみ、またはLiDARのみを用いた物体検出につ
いては言及しません。
 ここでは車載カメラおよびLiDARを使用した屋外での物体検出
について調査を行い、屋内環境でRGBDセンサーを用いた物
体検出のケースについては対象外とします。
3D物体検出
 画像および点群から、物体に対し、直方体のBounding
Boxを検出するタスク
LiDAR-Camera Fusion 3D Object Detection
 [Qi2018] Qi, C. R., Liu,W.,Wu, C., Su, H., & Guibas, L. J. (2018). Frustum PointNets
for 3D Object Detection from RGB-D Data. In Conference on ComputerVision and
Pattern Recognition.
 [Ku2018]Ku, J., Mozifian, M., Lee, J., Harakeh,A., & Waslander, S. L. (2018). Joint 3D
Proposal Generation and Object Detection fromView Aggregation. In International
Conference on Intelligent Robots and Systems.
 [Chen2017]Chen, X., Ma, H.,Wan, J., Li, B., & Xia,T. (2017). Multi-View 3D Object
Detection Network for Autonomous Driving. In Conference on ComputerVision and
Pattern Recognition.
 [Liang2018]Liang, M.,Yang, B.,Wang, S., & Urtasun, R. (2018). Deep Continuous
Fusion for Multi-Sensor 3D Object Detection. In European Conference on Computer
Vision.
 [Xu2018]Xu, D.,Anguelov, D., & Jain,A. (2018). PointFusion: Deep Sensor Fusion for
3D Bounding Box Estimation. Conference on ComputerVision and Pattern
 [Du2018]Du, X., Jr, M. H.A., Karaman, S., Rus, D., & Feb, C.V. (2018).A General
Pipeline for 3D Detection ofVehicles. ArXiv, arXiv:1803.
 [Shin2018]Shin, K., Kwon, P., & Tomizuka, M. (2018). RoarNet:A Robust 3D Object
Detection based on RegiOn Approximation Refinement. ArXiv, arXiv:1811.
車載センサー環境での3D物体検出
車載センサー(カメラ+LiDAR)を用い3D物体検出は以下のよう
に分類できます。
 カメラを初期位置の検出に使用し、LiDARの情報を統合して
Refine
[Qi2018]Frustom PointNet
[Xu2018]PointFusion
[Du2018]General Pipeline
[Shin2018]RoarNet
 LiDARを初期位置の検出に使用し、カメラ情報を統合して
Refine
[Chen2017]MV3D
 LiDARとカメラの両方から取得した特徴量を融合して物体検
出
[Ku2018]AVOD
[Liang2018]Deep Continuous Fusion
[Qi2018]Frustum PointNet (1/2)
 KITTI 3D Object Detection Evaluationで上位の成績
 従来のDeep Learningベース画像検出器で画像から物体
を検出し、そのFrustum上の点群をPointNetでSemantic
Segmentationすることで3D Bounding Boxを検出
[Qi2018]Frustum PointNet (2/2)
 Frustum上で座標系を正規化するのがポイント
 ソースコード
https://github.com/charlesq34/frustum-pointnets
画像から物体検出
• Frustum上の点群を
Segmentation
• 画像上での物体識別結果
を事前知識として使用
• 物体に属する点群のみを使用
• T-Netで姿勢を補正
• Bounding Boxのパラメータを推定
[Ku2018] Aggregate View Object Detection
(AVOD) (1/2)
 Frustom PointNetと並びKITTI Benchmarkで好成績
 Faster R-CNNのRegion Proposal Network (RPN)の考え方を
もとに3次元上の物体候補を算出
 ソースコード
https://github.com/kujason/avod
[Ku2018] Aggregate View Object Detection
(AVOD) (2/2)
 点群をBirdView (XY平面)へ投影し、MV3D[Chen2017]と同様の手法で点の密度
や高さなどから6チャネルの画像を生成(BEV Input)
 BEVと画像それぞれから特徴マップを生成
 Region Proposal Network (RPN)で物体候補領域をアンカー形状との差分という
形で出力
 Detection Networkで各物体候補領域のクラス、向き、サイズを算出
Region Proposal Network
Point Cloud Feature Extractor
Image Feature Extractor
Detection Network
[Chen2017]MV3D (1/2)
 入力点群をBirdViewおよびFrontViewへ投影し、画像として扱う
 BirdViewから物体候補領域(3D)を検出し、BirdView、FrontViewお
よびRGB画像へ投影
 投影された3D候補領域をROI Pooling後に、3つのViewを統合し、最
終的な物体クラスとBounding Boxを出力します。
[Chen2017]MV3D (2/2)
 入力点群をBirdViewおよびFrontViewへ投影し、画像として扱
う
BirdView:(M+2)チャネル
Z方向にM個のスライスを作成し、各スライスのZの最大値(Height Maps)
各セルの点の個数(Density)
各セルの最も高い点(Z最大)の反射率(Intensity)
FrontView: 3チャネル
Height、Distance、Intensity
 ソースコード
https://github.com/bostondiditeam/MV3D
[Liang2018]Deep Continuous Fusion (1/2)
 点群をBirdViewへ投影し画像として扱うことでCNN可能に
 画像から取得した特徴量をBirdViewのCNN各層の特徴量と
結合することで、疎な点群の情報を補間し精度向上
 画像特徴と結合したBirdView特徴をもとに3次元物体検出
 画像とBirdViewの特徴量の統合にDeep Parametric
Continuous Convolutionを利用(Continuous Fusion)
[Liang2018]Deep Continuous Fusion (2/2)
 Deep Parametric Continuous Convolution
Wang, S., Suo, S., Ma,W., & Urtasun, R. “Deep Parametric Continuous Convolutional Neural
Networks”. CVPR2018
畳み込みカーネルを離散ではなく、パラメトリックな連続関数(Multi-Layer Perceptron)とし
て表現することで、点群のような非構造的な離散データに畳み込み演算を適用(付録参
照)
 Deep Continuous Fusion
BirdView上の任意の画素の特徴量(点が存在しなくても可)を、Deep Parametric
Continuous Convolutionを用いてカメラ画像の特徴量で補間
1. BirdView上の任意の画素のK
近傍点(画素)を取得
2. K近傍点上の点群を復元
3. 点群をカメラ画像上へ投影
4. 投影した点の画像特徴量を取
得
5. K個のカメラ画像からの特徴量
と三次元点群を投影した時の
ずれをもとにMulti-layer
PerceptronでBirdView上の画
素の特徴量を算出
[Xu2018]Point Fusion (1/2)
 物体検出は画像に対してFaster R-CNNなどを用いて行い、検出結
果をもとに3D Bounding Boxを推定
 Bounding Boxから取得した点群とカメラ画像をそれぞれPointNetと
ResNetで独立に処理し、その結果をFusion Networkで統合
Global FusionとDense Fusionの2通りの方法でBounding Box推定
 KITTIで評価しSOTA(ただし比較対象がMV3Dのみ)
[Xu2018]Point Fusion (2/2)
 Global FusionではPointNetの全体特徴とResNetからの特徴
量を統合して、直接Bounding Box推定
 Dense FusionではPointNetの全体特徴と点ごとの特徴、およ
びResNetの画像特徴を統合し、点ごとのBounding Box内での
相対位置を推定
 現時点でソースコード非公開
[Du2018]General Pipeline
 一般的な2Dの物体検出器をLiDARの情報を加えて3Dへ
拡張するための手法の提案
 2D物体検出の結果から点群を切り出し、この点群から
3D Bounding Boxを取得
 3D Bounding Box内の点群を用いて、より正確な
Bounding Boxと識別結果を出力
[Shin2018]RoarNet (1/2)
 まずは画像、次に点群上で、探索領域を徐々に狭めながら、
物体の位置、姿勢、サイズを高精度に求める
画像に対してRoarNet_2Dで2D Bounding Boxと姿勢を推定
画像から求めた領域を散らして、円柱状の探索領域を複数作成
RoarNet_3D (RPN)で物体らしさと位置を絞り込み、
RoarNet_3D(BRN)で位置、サイズ、向きを算出
 コード(公開予定)
https://github.com/Kiwoo/RoarNet
[Shin2018]RoarNet (2/2)
 RoarNet_2Dでは、物体クラス、2D Bounding Box、3D
Bounding Boxと向き(2Dの結果と一致するように)を推定(a)
 RoarNet_2Dで求めた物体候補から、小さくかつカメラに近い、
または大きくかつカメラから遠い、複数の候補を算出(b)
 RoarNet_3D(RPNおよびBRN)はPointNetからT-Netを除いて
簡略化したネットワーク(c)
(a) RoarNet_2D
(c) RoarNet_3D
(b) 画像から算出した候補領域
KITTI 3D Object Detection Evaluation
 ここで紹介した各研究についてKITTI 3D Object
Detection Evaluation上での性能を比較しました。
http://www.cvlibs.net/datasets/kitti/eval_object.php
 上記サイトに性能の記載のないものは論文での実験結
果を参照しました。
 比較は”Car”、”Pedestrian”、”Cyclist”の3カテゴリについ
て行いました。
 評価方法の詳細については上記サイトを参照してくださ
い。
KITTI 3D Object Detection Evaluation
 Car
Method Moderate Easy Hard Runtime Environment
RoarNet 73.04 % 83.71 % 59.16 % 0.1 s
GPU @ >3.5 Ghz
(Python + C/C++)
AVOD-FPN 71.88 % 81.94 % 66.38 % 0.1 s Titan X (Pascal)
Frustom PointNet 70.39 % 81.20 % 62.19 % 0.17 s
GPU @ 3.0 Ghz
(Python)
Deep Continuous Fusion 66.22 % 82.54 % 64.04 % 0.06 s
GPU @ 2.5 Ghz
(Python)
AVOD 65.78 % 73.59 % 58.38 % 0.08 s Titan X (pascal)
PointFusion 63.00 % 77.92 % 53.27 %
MV3D 62.35 % 71.09 % 55.12 % 0.36 s
GPU @ 2.5 Ghz
(Python + C/C++)
General Pipeline (MS-CNN) 55.26 % 55.82 % 51.89 %
MV3D (LIDAR) 52.73 % 66.77 % 51.31 % 0.24 s
GPU @ 2.5 Ghz
(Python + C/C++)
General Pipeline (PC-CNN) 51.74 % 57.63 % 51.39 %
AVOD-FPN: AVODにFeature Pyramid Network [Lin2017]というFeature Mapを物体検出用にマルチスケールにする技術を
適用したもの
[Lin2017]Tsung-Yi Lin, Piotr Dollar, Ross Girshick,“Feature Pyramid Networks for Object Detection”, CVPR2017
KITTI 3D Object Detection Evaluation
 Pedestrian
Method Moderate Easy Hard Runtime Environment
Frustom PointNet 44.89 % 51.21 % 40.23 % 0.17 s
GPU @ 3.0 Ghz
(Python)
AVOD-FPN 42.81 % 50.80 % 40.88 % 0.1 s Titan X (Pascal)
AVOD 31.51 % 38.28 % 26.98 % 0.08 s Titan X (pascal)
PointFusion 28.04 % 33.36 % 23.38 %
KITTI 3D Object Detection Evaluation
 Cyclist
Method Moderate Easy Hard Runtime Environment
Frustom PointNet 56.77 % 71.96 % 50.39 % 0.17 s
GPU @ 3.0 Ghz
(Python)
AVOD-FPN 52.18 % 64.00 % 46.61 % 0.1 s Titan X (Pascal)
AVOD 31.51 % 38.28 % 26.98 % 0.08 s Titan X (pascal)
PointFusion 29.42 % 49.34 % 26.98 %
2D物体検出
 画像上の物体を検出し、位置とスケールを表す矩形を出
力するタスク
LiDAR-Camera Fusion 2D Object Detection
 [Premebida2014]Premebida, C., Carreira, J., Batista, J., & Nunes,
U. (2014). Pedestrian detection combining RGB and dense
LIDAR data. IEEE International Conference on Intelligent Robots
and Systems,
 [Gonzalez2017]Gonzalez,A.,Vazquez, D., Lopez,A. M., &
Amores, J. (2017). On-Board Object Detection: Multicue,
Multimodal, and Multiview Random Forest of Local Experts.
IEEETransactions on Cybernetics, 47(11), 3980–3990.
 [Costea2017]Costea,A. D.,Varga, R., & Nedevschi, S. (2017).
Fast Boosting based Detection using Scale Invariant Multimodal
Multiresolution Filtered Features. Conference on ComputerVision
and Pattern Recognition
 [Asvadi2017]Asvadi,A., Garrote, L., Premebida, C., Peixoto, P., &
J. Nunes, U. (2017). Multimodal vehicle detection: Fusing 3D-
LIDAR and color camera data. Pattern Recognition Letters,
(September).
車載カメラおよびLiDARによる2D物体検出
 [Oh2017]Oh, S. Il, & Kang, H. B. (2017). Object detection
and classification by decision-level fusion for intelligent
vehicle systems. Sensors (Switzerland), 17(1),
 [Schlosser2016]Schlosser, J., Chow, Christopher K., & Kira,
Z. (2016). Fusing LIDAR and images for pedestrian
detection using convolutional neural networks. IEEE
International Conference on Robotics and Automation
(ICRA)
 [Du2017]Du, X.Ang, M H., & Rus, D. (2017). Car detection
for autonomous vehicle: LIDAR and vision fusion approach
through deep learning framework. IEEE/RSJ International
Conference on Intelligent Robots and Systems (IROS)
車載センサー環境での2D物体検出
車載センサー(カメラ+LiDAR)を用い2D物体検出は以下のよう
に分類できます。
 LiDARとカメラの両方から取得した特徴量を融合して物体検
出
[Premebida2014]Fusion-DPM
[Gonzalez2017]MV-RGBD-RF
[Costea2017]MM-MRFC
[Schlosser2016]Fusing for Pedestrian Detection
 LiDARとカメラから独立に物体を検出して統合
[Premebida2014]Fusion-DPM
[Asvadi2017]Multimodal Detection
[Oh2017]Decision-Level Fusion
[Schlosser2016]Fusing for Pedestrian Detection
 LiDAR点群をガイドとして画像上で物体検出
[Du2017]PC-CNN
[Premebida2014] Fusion-DPM
 RGB画像とデプス画像にDeformable Part Modelによる人
物検出の特徴量を取得し、2通りの方法で統合
特徴量を統合してから人物検出
それぞれで人物検出をしてから結果を統合
点群からアップサンプルでデプス画像を生成
[Gonzalez2017]MV-RGBD-RF
 RGB画像とデプス画像に対し、HOGとLBPで特徴量を抽
出し、Random Forestを用いて様々な視点の物体の情報
を統合的に学習
[Costea2017]MM-MRFC
 カラー画像、Motion(オプティカルフロー)、Depthを、色、勾配の強さ、勾
配方向のチャネルへ分離し、Box Filterを繰り返しかけることで、さらにマ
ルチ解像度のチャネルへ分離
 画像からとデプスから垂直/水平位置やエッジ、奥行き、道路位置など、
Contextを表すチャネルを取得
 AdaboostとSlidingWindowによって物体検出
 Deep Learningベースの手法と同等の性能で、10-100倍高速
[Asvadi2017]Multimodal Detection
 LiDARデータからデプス(DM)と反射率(RM)のマップを生
成し、DMとRMおよび画像に対して、それぞれのチャネル
用に学習したYOLOを用いて物体検出
 それぞれのチャネルの検出結果を統合することで、最終
結果を算出
 ソースコード(現時点では未公開)
https://github.com/alirezaasvadi/Multimodal
[Oh2017]Decision-level Fusion
 LiDARと画像に対し、個別に物体検出し、それらをCNNで統合
 Pre-processingでカメラは色補正、LiDARはVoxel化を行い、Object
proposal generationでセグメンテーションベースの候補領域算出し、
CNNでUnary Classifierでクラス識別
 Fusion Classifierで、それぞれのクラス識別結果と特徴量を入力とし、
最終的な検出結果とクラスをCNNとSVMを用いて出力
[Schlosser2016]Fusing for Pedestrian
Detection
 疎なLiDARデータから密な
HHA(horizontal disparity,
height above ground, and angle)
画像チャネルを生成
 RGBとHHAから特徴量を抽出
し、どの段階で統合するかで
人物検出の性能が良くなるか
をR-CNNベースの手法で検
証
 性能は後段で融合したほうが
高いが、限られたパラメータや
計算リソースの下では、初段
から中段での融合が有効
[Du2017]PC-CNN (1/2)
 LiDARから道路上物体の点群候補を取得し、画像平面へ投影
(Seed Proposal Generation)
 投影された点群をガイドとしてBounding BoxとClass Probability
を推定 (Proposal Network)
 Bounding Box候補を統合して、最終的なBounding BoxとClass
Probabilityを算出(Detection Network)
[Du2017]PC-CNN (2/2)
 LiDAR点群から算出した物体候補点群は、LiDARからの距離
に応じて近い順にLarge、Medium、Smallに分ける。
 画像上をグリッドに分割し、点群を投影。点群がLargeの場合
は大きいグリッド、Smallの場合は小さいグリッドを使用して、グ
リッド内の点群の重心をアンカーとして求める(下図の赤い
点)
 Region Proposal Networkを用いて、アンカー点でBounding
BoxとClass Probabilityを推定。
KITTI Object Detection 2012 Evaluation
 ここで紹介した各研究についてKITTI Object Detection
2012 Evaluation上での性能を比較しました。
http://www.cvlibs.net/datasets/kitti/eval_object.php
 比較は”Car”、”Pedestrian”、”Cyclist”の3カテゴリについ
て行いました。
 評価方法の詳細については上記サイトを参照してくださ
い。
KITTI Object Detection 2012 Evaluation
 Car
Method Moderate Easy Hard Runtime Environment
F-PointNet 90.00 % 90.78 % 80.80 % 0.17 s
GPU @ 3.0 Ghz
(Python)
PC-CNN 89.37% 93.50% 79.52%
Decision-level
Fusion
89.34% 94.88% 81.42%
MV3D 89.17 % 90.53 % 80.16 % 0.36 s
GPU @ 2.5 Ghz
(Python + C/C++)
MM-MRFC 88.20 % 90.93 % 78.02 % 0.05 s
GPU @ 2.5 Ghz
(C/C++)
AVOD 88.08 % 89.73 % 80.14 % 0.08 s Titan X (pascal)
AVOD-FPN 87.44 % 89.99 % 80.05 % 0.1 s Titan X (Pascal)
MV3D (LIDAR) 79.76 % 89.80 % 78.61 % 0.24 s
GPU @ 2.5 Ghz
(Python + C/C++)
Faster R-CNN 79.11 % 87.90 % 70.19 % 2 s
GPU @ 3.5 Ghz
(Python + C/C++)
MV-RGBD-RF 69.92 % 76.49 % 57.47 % 4 s
4 cores @ 2.5 Ghz
(C/C++)
Multimodal
Detection
46.77 % 64.04 % 39.38 % 0.06 s
GPU @ 3.5 Ghz
(Matlab + C/C++)
KITTI Object Detection 2012 Evaluation
 Pedestrian
Method Moderate Easy Hard Runtime Environment
F-PointNet 77.25 % 87.81 % 74.46 % 0.17 s GPU @ 3.0 Ghz (Python)
Decision-level
Fusion
70.84% 83.71% 68.67%
MM-MRFC 69.96 % 82.37 % 64.76 % 0.05 s GPU @ 2.5 Ghz (C/C++)
Faster R-CNN 65.91 % 78.35 % 61.19 % 2 s
GPU @ 3.5 Ghz (Python +
C/C++)
AVOD-FPN 58.42 % 67.32 % 57.44 % 0.1 s Titan X (Pascal)
MV-RGBD-RF 56.59 % 73.05 % 49.63 % 4 s
4 cores @ 2.5 Ghz
(C/C++)
Fusion-DPM 46.67 % 59.38 % 42.05 % ~ 30 s
1 core @ 3.5 Ghz (Matlab
+ C/C++)
AVOD 43.49 % 51.64 % 37.79 % 0.08 s Titan X (pascal)
KITTI Object Detection 2012 Evaluation
 Cyclist
Method Moderate Easy Hard Runtime Environment
Decision-level
Fusion
72.98% 83.95% 66.47%
F-PointNet 72.25 % 84.90 % 65.14 % 0.17 s
GPU @ 3.0 Ghz
(Python)
Faster R-CNN 62.81 % 71.41 % 55.44 % 2 s
GPU @ 3.5 Ghz
(Python + C/C++)
AVOD-FPN 59.32 % 68.65 % 55.82 % 0.1 s Titan X (Pascal)
AVOD 56.01 % 65.72 % 48.89 % 0.08 s Titan X (pascal)
MV-RGBD-RF 42.61 % 51.46 % 37.42 % 4 s
4 cores @ 2.5 Ghz
(C/C++)
まとめ
 車載カメラとLiDAR両方の情報を用いた物体検出について調
査しました。
 物体検出タスクは3Dと2Dに分けられ3Dの手法は2Dにおいて
も高い性能を発揮します。
 3D物体検出でのLiDARデータはBirdViewに変換されて画像と
してニューラルネットワークに入力されるケースがほとんどで
したが、PointNetの登場により点群をそのまま処理する方法も
高い性能を発揮するようになりました。
 2D物体検出では、LiDARデータをデプスデータへ変換し、カメ
ラと視点を合わせることで、従来の画像ベースの物体検出の
新しいチャネルとして利用することで性能向上を図ります。
 LiDARとカメラそれぞれの特徴量をどの段階で融合するかが
手法それぞれで工夫されています。
[付録]PointNet
41
 Qi, C. R., Su, H., Mo, K., & Guibas, L. J. (2017). PointNet : Deep
Learning on Point Sets for 3D Classification and Segmentation
Big Data + Deep Representation Learning. IEEE Conference on
ComputerVision and Pattern Recognition (CVPR).
 各点群の点を独立に畳み込む
 Global Max Poolingで点群全体の特徴量を取得
各点を個別
に畳み込み
アフィン変換
各点の特徴を統合
[付録]Deep Parametric Continuous CNN
 カーネルを離散ではなく、パラメトリックな連続関数として表現
(ここではMulti-Layer Perceptron)
 任意の構造の入力に対して、任意の個所の出力が計算可能
ℎ 𝑛 = ෍
𝑚=−𝑀
𝑀
𝑓 𝑛 − 𝑚 𝑔[𝑚] ℎ 𝒙 = න
−∞
∞
𝑓 𝒚 𝑔 𝒙 − 𝒚 ⅆ𝑦 ≈ ෍
𝑖
𝑁
1
𝑁
𝑓 𝒚𝑖 𝑔(𝒙 − 𝒚𝑖)
連続カーネル離散カーネル

Mais conteúdo relacionado

Mais procurados

Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Yusuke Uchida
 
[DL輪読会]PointNet++: Deep Hierarchical Feature Learning on Point Sets in a Metr...
[DL輪読会]PointNet++: Deep Hierarchical Feature Learning on Point Sets in a Metr...[DL輪読会]PointNet++: Deep Hierarchical Feature Learning on Point Sets in a Metr...
[DL輪読会]PointNet++: Deep Hierarchical Feature Learning on Point Sets in a Metr...Deep Learning JP
 
【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習cvpaper. challenge
 
【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised LearningまとめDeep Learning JP
 
3Dマップを活用したVisual Localization
3Dマップを活用したVisual Localization3Dマップを活用したVisual Localization
3Dマップを活用したVisual LocalizationHajime Taira
 
時系列問題に対するCNNの有用性検証
時系列問題に対するCNNの有用性検証時系列問題に対するCNNの有用性検証
時系列問題に対するCNNの有用性検証Masaharu Kinoshita
 
ORB-SLAMの手法解説
ORB-SLAMの手法解説ORB-SLAMの手法解説
ORB-SLAMの手法解説Masaya Kaneko
 
Transformer メタサーベイ
Transformer メタサーベイTransformer メタサーベイ
Transformer メタサーベイcvpaper. challenge
 
動作認識の最前線:手法,タスク,データセット
動作認識の最前線:手法,タスク,データセット動作認識の最前線:手法,タスク,データセット
動作認識の最前線:手法,タスク,データセットToru Tamaki
 
画像認識モデルを作るための鉄板レシピ
画像認識モデルを作るための鉄板レシピ画像認識モデルを作るための鉄板レシピ
画像認識モデルを作るための鉄板レシピTakahiro Kubo
 
近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer近年のHierarchical Vision Transformer
近年のHierarchical Vision TransformerYusuke Uchida
 
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​SSII
 
SSII2021 [TS1] Visual SLAM ~カメラ幾何の基礎から最近の技術動向まで~
SSII2021 [TS1] Visual SLAM ~カメラ幾何の基礎から最近の技術動向まで~SSII2021 [TS1] Visual SLAM ~カメラ幾何の基礎から最近の技術動向まで~
SSII2021 [TS1] Visual SLAM ~カメラ幾何の基礎から最近の技術動向まで~SSII
 
画像キャプションと動作認識の最前線 〜データセットに注目して〜(第17回ステアラボ人工知能セミナー)
画像キャプションと動作認識の最前線 〜データセットに注目して〜(第17回ステアラボ人工知能セミナー)画像キャプションと動作認識の最前線 〜データセットに注目して〜(第17回ステアラボ人工知能セミナー)
画像キャプションと動作認識の最前線 〜データセットに注目して〜(第17回ステアラボ人工知能セミナー)STAIR Lab, Chiba Institute of Technology
 
【DL輪読会】ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders
【DL輪読会】ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders【DL輪読会】ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders
【DL輪読会】ConvNeXt V2: Co-designing and Scaling ConvNets with Masked AutoencodersDeep Learning JP
 
JDLA主催「CVPR2023技術報告会」発表資料
JDLA主催「CVPR2023技術報告会」発表資料JDLA主催「CVPR2023技術報告会」発表資料
JDLA主催「CVPR2023技術報告会」発表資料Morpho, Inc.
 
[DL輪読会]MetaFormer is Actually What You Need for Vision
[DL輪読会]MetaFormer is Actually What You Need for Vision[DL輪読会]MetaFormer is Actually What You Need for Vision
[DL輪読会]MetaFormer is Actually What You Need for VisionDeep Learning JP
 
semantic segmentation サーベイ
semantic segmentation サーベイsemantic segmentation サーベイ
semantic segmentation サーベイyohei okawa
 
20190307 visualslam summary
20190307 visualslam summary20190307 visualslam summary
20190307 visualslam summaryTakuya Minagawa
 
【DL輪読会】LAR-SR: A Local Autoregressive Model for Image Super-Resolution
【DL輪読会】LAR-SR: A Local Autoregressive Model for Image Super-Resolution【DL輪読会】LAR-SR: A Local Autoregressive Model for Image Super-Resolution
【DL輪読会】LAR-SR: A Local Autoregressive Model for Image Super-ResolutionDeep Learning JP
 

Mais procurados (20)

Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
 
[DL輪読会]PointNet++: Deep Hierarchical Feature Learning on Point Sets in a Metr...
[DL輪読会]PointNet++: Deep Hierarchical Feature Learning on Point Sets in a Metr...[DL輪読会]PointNet++: Deep Hierarchical Feature Learning on Point Sets in a Metr...
[DL輪読会]PointNet++: Deep Hierarchical Feature Learning on Point Sets in a Metr...
 
【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習
 
【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ
 
3Dマップを活用したVisual Localization
3Dマップを活用したVisual Localization3Dマップを活用したVisual Localization
3Dマップを活用したVisual Localization
 
時系列問題に対するCNNの有用性検証
時系列問題に対するCNNの有用性検証時系列問題に対するCNNの有用性検証
時系列問題に対するCNNの有用性検証
 
ORB-SLAMの手法解説
ORB-SLAMの手法解説ORB-SLAMの手法解説
ORB-SLAMの手法解説
 
Transformer メタサーベイ
Transformer メタサーベイTransformer メタサーベイ
Transformer メタサーベイ
 
動作認識の最前線:手法,タスク,データセット
動作認識の最前線:手法,タスク,データセット動作認識の最前線:手法,タスク,データセット
動作認識の最前線:手法,タスク,データセット
 
画像認識モデルを作るための鉄板レシピ
画像認識モデルを作るための鉄板レシピ画像認識モデルを作るための鉄板レシピ
画像認識モデルを作るための鉄板レシピ
 
近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer
 
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
 
SSII2021 [TS1] Visual SLAM ~カメラ幾何の基礎から最近の技術動向まで~
SSII2021 [TS1] Visual SLAM ~カメラ幾何の基礎から最近の技術動向まで~SSII2021 [TS1] Visual SLAM ~カメラ幾何の基礎から最近の技術動向まで~
SSII2021 [TS1] Visual SLAM ~カメラ幾何の基礎から最近の技術動向まで~
 
画像キャプションと動作認識の最前線 〜データセットに注目して〜(第17回ステアラボ人工知能セミナー)
画像キャプションと動作認識の最前線 〜データセットに注目して〜(第17回ステアラボ人工知能セミナー)画像キャプションと動作認識の最前線 〜データセットに注目して〜(第17回ステアラボ人工知能セミナー)
画像キャプションと動作認識の最前線 〜データセットに注目して〜(第17回ステアラボ人工知能セミナー)
 
【DL輪読会】ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders
【DL輪読会】ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders【DL輪読会】ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders
【DL輪読会】ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders
 
JDLA主催「CVPR2023技術報告会」発表資料
JDLA主催「CVPR2023技術報告会」発表資料JDLA主催「CVPR2023技術報告会」発表資料
JDLA主催「CVPR2023技術報告会」発表資料
 
[DL輪読会]MetaFormer is Actually What You Need for Vision
[DL輪読会]MetaFormer is Actually What You Need for Vision[DL輪読会]MetaFormer is Actually What You Need for Vision
[DL輪読会]MetaFormer is Actually What You Need for Vision
 
semantic segmentation サーベイ
semantic segmentation サーベイsemantic segmentation サーベイ
semantic segmentation サーベイ
 
20190307 visualslam summary
20190307 visualslam summary20190307 visualslam summary
20190307 visualslam summary
 
【DL輪読会】LAR-SR: A Local Autoregressive Model for Image Super-Resolution
【DL輪読会】LAR-SR: A Local Autoregressive Model for Image Super-Resolution【DL輪読会】LAR-SR: A Local Autoregressive Model for Image Super-Resolution
【DL輪読会】LAR-SR: A Local Autoregressive Model for Image Super-Resolution
 

Semelhante a object detection with lidar-camera fusion: survey (updated)

object detection with lidar-camera fusion: survey
object detection with lidar-camera fusion: surveyobject detection with lidar-camera fusion: survey
object detection with lidar-camera fusion: surveyTakuya Minagawa
 
20181130 lidar object detection survey
20181130 lidar object detection survey20181130 lidar object detection survey
20181130 lidar object detection surveyTakuya Minagawa
 
2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentation
2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentation2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentation
2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentationTakuya Minagawa
 
20190131 lidar-camera fusion semantic segmentation survey
20190131 lidar-camera fusion semantic segmentation survey20190131 lidar-camera fusion semantic segmentation survey
20190131 lidar-camera fusion semantic segmentation surveyTakuya Minagawa
 
cvsaisentan20141004 kanezaki
cvsaisentan20141004 kanezakicvsaisentan20141004 kanezaki
cvsaisentan20141004 kanezakikanejaki
 
≪インテル x ブロケード 特別対談≫ 2020年。どうなる?車とデータセンタの関係 ~SDxの、その先へ~
≪インテル x ブロケード 特別対談≫ 2020年。どうなる?車とデータセンタの関係 ~SDxの、その先へ~ ≪インテル x ブロケード 特別対談≫ 2020年。どうなる?車とデータセンタの関係 ~SDxの、その先へ~
≪インテル x ブロケード 特別対談≫ 2020年。どうなる?車とデータセンタの関係 ~SDxの、その先へ~ Brocade
 
【チュートリアル】コンピュータビジョンによる動画認識 v2
【チュートリアル】コンピュータビジョンによる動画認識 v2【チュートリアル】コンピュータビジョンによる動画認識 v2
【チュートリアル】コンピュータビジョンによる動画認識 v2Hirokatsu Kataoka
 
Tatsuya Sueki Bachelor Thesis
Tatsuya Sueki Bachelor ThesisTatsuya Sueki Bachelor Thesis
Tatsuya Sueki Bachelor Thesispflab
 
NVIDIA Jetson Edge Computing Digital Seminar Special Edition, JETSON XAVIER NX
NVIDIA Jetson Edge Computing Digital Seminar Special Edition, JETSON XAVIER NXNVIDIA Jetson Edge Computing Digital Seminar Special Edition, JETSON XAVIER NX
NVIDIA Jetson Edge Computing Digital Seminar Special Edition, JETSON XAVIER NXAya Owosekun
 
Pruning filters for efficient conv nets
Pruning filters for efficient conv netsPruning filters for efficient conv nets
Pruning filters for efficient conv netsYamato OKAMOTO
 
SQuBOKガイドV3概説 ~IoT・AI・DX時代のソフトウェア品質とシステム監査~
SQuBOKガイドV3概説 ~IoT・AI・DX時代のソフトウェア品質とシステム監査~SQuBOKガイドV3概説 ~IoT・AI・DX時代のソフトウェア品質とシステム監査~
SQuBOKガイドV3概説 ~IoT・AI・DX時代のソフトウェア品質とシステム監査~Hironori Washizaki
 
1010: エヌビディア GPU が加速するディープラーニング
1010: エヌビディア GPU が加速するディープラーニング1010: エヌビディア GPU が加速するディープラーニング
1010: エヌビディア GPU が加速するディープラーニングNVIDIA Japan
 
Yoshio Kato Bachelor Thesis
Yoshio Kato Bachelor Thesis Yoshio Kato Bachelor Thesis
Yoshio Kato Bachelor Thesis pflab
 
20180527 ORB SLAM Code Reading
20180527 ORB SLAM Code Reading20180527 ORB SLAM Code Reading
20180527 ORB SLAM Code ReadingTakuya Minagawa
 
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation 「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation Takumi Ohkuma
 
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose EstimationDeep Learning JP
 
2016 summercamp SysML講習会
2016 summercamp SysML講習会2016 summercamp SysML講習会
2016 summercamp SysML講習会openrtm
 

Semelhante a object detection with lidar-camera fusion: survey (updated) (20)

object detection with lidar-camera fusion: survey
object detection with lidar-camera fusion: surveyobject detection with lidar-camera fusion: survey
object detection with lidar-camera fusion: survey
 
20181130 lidar object detection survey
20181130 lidar object detection survey20181130 lidar object detection survey
20181130 lidar object detection survey
 
2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentation
2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentation2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentation
2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentation
 
Semantic segmentation2
Semantic segmentation2Semantic segmentation2
Semantic segmentation2
 
20190131 lidar-camera fusion semantic segmentation survey
20190131 lidar-camera fusion semantic segmentation survey20190131 lidar-camera fusion semantic segmentation survey
20190131 lidar-camera fusion semantic segmentation survey
 
cvsaisentan20141004 kanezaki
cvsaisentan20141004 kanezakicvsaisentan20141004 kanezaki
cvsaisentan20141004 kanezaki
 
≪インテル x ブロケード 特別対談≫ 2020年。どうなる?車とデータセンタの関係 ~SDxの、その先へ~
≪インテル x ブロケード 特別対談≫ 2020年。どうなる?車とデータセンタの関係 ~SDxの、その先へ~ ≪インテル x ブロケード 特別対談≫ 2020年。どうなる?車とデータセンタの関係 ~SDxの、その先へ~
≪インテル x ブロケード 特別対談≫ 2020年。どうなる?車とデータセンタの関係 ~SDxの、その先へ~
 
【チュートリアル】コンピュータビジョンによる動画認識 v2
【チュートリアル】コンピュータビジョンによる動画認識 v2【チュートリアル】コンピュータビジョンによる動画認識 v2
【チュートリアル】コンピュータビジョンによる動画認識 v2
 
Visual slam
Visual slamVisual slam
Visual slam
 
Tatsuya Sueki Bachelor Thesis
Tatsuya Sueki Bachelor ThesisTatsuya Sueki Bachelor Thesis
Tatsuya Sueki Bachelor Thesis
 
NVIDIA Jetson Edge Computing Digital Seminar Special Edition, JETSON XAVIER NX
NVIDIA Jetson Edge Computing Digital Seminar Special Edition, JETSON XAVIER NXNVIDIA Jetson Edge Computing Digital Seminar Special Edition, JETSON XAVIER NX
NVIDIA Jetson Edge Computing Digital Seminar Special Edition, JETSON XAVIER NX
 
Pruning filters for efficient conv nets
Pruning filters for efficient conv netsPruning filters for efficient conv nets
Pruning filters for efficient conv nets
 
SQuBOKガイドV3概説 ~IoT・AI・DX時代のソフトウェア品質とシステム監査~
SQuBOKガイドV3概説 ~IoT・AI・DX時代のソフトウェア品質とシステム監査~SQuBOKガイドV3概説 ~IoT・AI・DX時代のソフトウェア品質とシステム監査~
SQuBOKガイドV3概説 ~IoT・AI・DX時代のソフトウェア品質とシステム監査~
 
1010: エヌビディア GPU が加速するディープラーニング
1010: エヌビディア GPU が加速するディープラーニング1010: エヌビディア GPU が加速するディープラーニング
1010: エヌビディア GPU が加速するディープラーニング
 
Yoshio Kato Bachelor Thesis
Yoshio Kato Bachelor Thesis Yoshio Kato Bachelor Thesis
Yoshio Kato Bachelor Thesis
 
20180527 ORB SLAM Code Reading
20180527 ORB SLAM Code Reading20180527 ORB SLAM Code Reading
20180527 ORB SLAM Code Reading
 
20200704 bsp net
20200704 bsp net20200704 bsp net
20200704 bsp net
 
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation 「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
 
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
 
2016 summercamp SysML講習会
2016 summercamp SysML講習会2016 summercamp SysML講習会
2016 summercamp SysML講習会
 

Mais de Takuya Minagawa

Machine Learning Operations (MLOps): Overview, Definition, and Architecture
Machine Learning Operations (MLOps): Overview, Definition, and ArchitectureMachine Learning Operations (MLOps): Overview, Definition, and Architecture
Machine Learning Operations (MLOps): Overview, Definition, and ArchitectureTakuya Minagawa
 
点群SegmentationのためのTransformerサーベイ
点群SegmentationのためのTransformerサーベイ点群SegmentationのためのTransformerサーベイ
点群SegmentationのためのTransformerサーベイTakuya Minagawa
 
Learning to Solve Hard Minimal Problems
Learning to Solve Hard Minimal ProblemsLearning to Solve Hard Minimal Problems
Learning to Solve Hard Minimal ProblemsTakuya Minagawa
 
ConditionalPointDiffusion.pdf
ConditionalPointDiffusion.pdfConditionalPointDiffusion.pdf
ConditionalPointDiffusion.pdfTakuya Minagawa
 
楽しいコンピュータビジョンの受託仕事
楽しいコンピュータビジョンの受託仕事楽しいコンピュータビジョンの受託仕事
楽しいコンピュータビジョンの受託仕事Takuya Minagawa
 
20200910コンピュータビジョン今昔物語(JPTA講演資料)
20200910コンピュータビジョン今昔物語(JPTA講演資料)20200910コンピュータビジョン今昔物語(JPTA講演資料)
20200910コンピュータビジョン今昔物語(JPTA講演資料)Takuya Minagawa
 
2020/07/04 BSP-Net (CVPR2020)
2020/07/04 BSP-Net (CVPR2020)2020/07/04 BSP-Net (CVPR2020)
2020/07/04 BSP-Net (CVPR2020)Takuya Minagawa
 
20190706cvpr2019_3d_shape_representation
20190706cvpr2019_3d_shape_representation20190706cvpr2019_3d_shape_representation
20190706cvpr2019_3d_shape_representationTakuya Minagawa
 
run Keras model on opencv
run Keras model on opencvrun Keras model on opencv
run Keras model on opencvTakuya Minagawa
 
CVPR2018のPointCloudのCNN論文とSPLATNet
CVPR2018のPointCloudのCNN論文とSPLATNetCVPR2018のPointCloudのCNN論文とSPLATNet
CVPR2018のPointCloudのCNN論文とSPLATNetTakuya Minagawa
 
Curiosity driven exploration
Curiosity driven explorationCuriosity driven exploration
Curiosity driven explorationTakuya Minagawa
 
「コンピュータビジョン勉強会@関東」紹介資料
「コンピュータビジョン勉強会@関東」紹介資料「コンピュータビジョン勉強会@関東」紹介資料
「コンピュータビジョン勉強会@関東」紹介資料Takuya Minagawa
 
車載カメラの映像から歩行者に関わる危険を予測する技術
車載カメラの映像から歩行者に関わる危険を予測する技術車載カメラの映像から歩行者に関わる危険を予測する技術
車載カメラの映像から歩行者に関わる危険を予測する技術Takuya Minagawa
 
20170806 Discriminative Optimization
20170806 Discriminative Optimization20170806 Discriminative Optimization
20170806 Discriminative OptimizationTakuya Minagawa
 

Mais de Takuya Minagawa (20)

Machine Learning Operations (MLOps): Overview, Definition, and Architecture
Machine Learning Operations (MLOps): Overview, Definition, and ArchitectureMachine Learning Operations (MLOps): Overview, Definition, and Architecture
Machine Learning Operations (MLOps): Overview, Definition, and Architecture
 
MobileNeRF
MobileNeRFMobileNeRF
MobileNeRF
 
点群SegmentationのためのTransformerサーベイ
点群SegmentationのためのTransformerサーベイ点群SegmentationのためのTransformerサーベイ
点群SegmentationのためのTransformerサーベイ
 
Learning to Solve Hard Minimal Problems
Learning to Solve Hard Minimal ProblemsLearning to Solve Hard Minimal Problems
Learning to Solve Hard Minimal Problems
 
ConditionalPointDiffusion.pdf
ConditionalPointDiffusion.pdfConditionalPointDiffusion.pdf
ConditionalPointDiffusion.pdf
 
楽しいコンピュータビジョンの受託仕事
楽しいコンピュータビジョンの受託仕事楽しいコンピュータビジョンの受託仕事
楽しいコンピュータビジョンの受託仕事
 
20210711 deepI2P
20210711 deepI2P20210711 deepI2P
20210711 deepI2P
 
20201010 personreid
20201010 personreid20201010 personreid
20201010 personreid
 
20200910コンピュータビジョン今昔物語(JPTA講演資料)
20200910コンピュータビジョン今昔物語(JPTA講演資料)20200910コンピュータビジョン今昔物語(JPTA講演資料)
20200910コンピュータビジョン今昔物語(JPTA講演資料)
 
2020/07/04 BSP-Net (CVPR2020)
2020/07/04 BSP-Net (CVPR2020)2020/07/04 BSP-Net (CVPR2020)
2020/07/04 BSP-Net (CVPR2020)
 
20190825 vins mono
20190825 vins mono20190825 vins mono
20190825 vins mono
 
20190706cvpr2019_3d_shape_representation
20190706cvpr2019_3d_shape_representation20190706cvpr2019_3d_shape_representation
20190706cvpr2019_3d_shape_representation
 
run Keras model on opencv
run Keras model on opencvrun Keras model on opencv
run Keras model on opencv
 
3DFeat-Net
3DFeat-Net3DFeat-Net
3DFeat-Net
 
CVPR2018のPointCloudのCNN論文とSPLATNet
CVPR2018のPointCloudのCNN論文とSPLATNetCVPR2018のPointCloudのCNN論文とSPLATNet
CVPR2018のPointCloudのCNN論文とSPLATNet
 
20180424 orb slam
20180424 orb slam20180424 orb slam
20180424 orb slam
 
Curiosity driven exploration
Curiosity driven explorationCuriosity driven exploration
Curiosity driven exploration
 
「コンピュータビジョン勉強会@関東」紹介資料
「コンピュータビジョン勉強会@関東」紹介資料「コンピュータビジョン勉強会@関東」紹介資料
「コンピュータビジョン勉強会@関東」紹介資料
 
車載カメラの映像から歩行者に関わる危険を予測する技術
車載カメラの映像から歩行者に関わる危険を予測する技術車載カメラの映像から歩行者に関わる危険を予測する技術
車載カメラの映像から歩行者に関わる危険を予測する技術
 
20170806 Discriminative Optimization
20170806 Discriminative Optimization20170806 Discriminative Optimization
20170806 Discriminative Optimization
 

Último

CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?akihisamiyanaga1
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...博三 太田
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)Hiroshi Tomioka
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案sugiuralab
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)UEHARA, Tetsutaro
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineerYuki Kikuchi
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfFumieNakayama
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfFumieNakayama
 

Último (8)

CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
 

object detection with lidar-camera fusion: survey (updated)

  • 2. 自己紹介 2 株式会社ビジョン&ITラボ 代表取締役 皆川 卓也(みながわ たくや) 「コンピュータビジョン勉強会@関東」主催 博士(工学) 略歴: 1999-2003年 日本HP(後にアジレント・テクノロジーへ分社)にて、ITエンジニアとしてシステム構築、プリ セールス、プロジェクトマネジメント、サポート等の業務に従事 2004-2009年 コンピュータビジョンを用いたシステム/アプリ/サービス開発等に従事 2007-2010年 慶應義塾大学大学院 後期博士課程にて、コンピュータビジョンを専攻 単位取得退学後、博士号取得(2014年) 2009年-現在 フリーランスとして、コンピュータビジョンのコンサル/研究/開発等に従事(2018年法人化) お問い合わせ:http://visitlab.jp
  • 3. この資料について  LiDARとカメラ<両方>の情報を使用して車両や人などの物 体検出を行う手法の調査を行いました。  カメラとLiDAR両方の情報を用いて上記タスクを行うには、両 センサー間のキャリブレーションが必須で、それだけで1つの 研究トピックですが、ここでは調査範囲外とします。  物体検出は3次元的な物体位置検出を目的とするものと、画 像上での2次元的な物体位置検出を目的とするものに分ける ことができます。  ここではカメラのみ、またはLiDARのみを用いた物体検出につ いては言及しません。  ここでは車載カメラおよびLiDARを使用した屋外での物体検出 について調査を行い、屋内環境でRGBDセンサーを用いた物 体検出のケースについては対象外とします。
  • 5. LiDAR-Camera Fusion 3D Object Detection  [Qi2018] Qi, C. R., Liu,W.,Wu, C., Su, H., & Guibas, L. J. (2018). Frustum PointNets for 3D Object Detection from RGB-D Data. In Conference on ComputerVision and Pattern Recognition.  [Ku2018]Ku, J., Mozifian, M., Lee, J., Harakeh,A., & Waslander, S. L. (2018). Joint 3D Proposal Generation and Object Detection fromView Aggregation. In International Conference on Intelligent Robots and Systems.  [Chen2017]Chen, X., Ma, H.,Wan, J., Li, B., & Xia,T. (2017). Multi-View 3D Object Detection Network for Autonomous Driving. In Conference on ComputerVision and Pattern Recognition.  [Liang2018]Liang, M.,Yang, B.,Wang, S., & Urtasun, R. (2018). Deep Continuous Fusion for Multi-Sensor 3D Object Detection. In European Conference on Computer Vision.  [Xu2018]Xu, D.,Anguelov, D., & Jain,A. (2018). PointFusion: Deep Sensor Fusion for 3D Bounding Box Estimation. Conference on ComputerVision and Pattern  [Du2018]Du, X., Jr, M. H.A., Karaman, S., Rus, D., & Feb, C.V. (2018).A General Pipeline for 3D Detection ofVehicles. ArXiv, arXiv:1803.  [Shin2018]Shin, K., Kwon, P., & Tomizuka, M. (2018). RoarNet:A Robust 3D Object Detection based on RegiOn Approximation Refinement. ArXiv, arXiv:1811.
  • 6. 車載センサー環境での3D物体検出 車載センサー(カメラ+LiDAR)を用い3D物体検出は以下のよう に分類できます。  カメラを初期位置の検出に使用し、LiDARの情報を統合して Refine [Qi2018]Frustom PointNet [Xu2018]PointFusion [Du2018]General Pipeline [Shin2018]RoarNet  LiDARを初期位置の検出に使用し、カメラ情報を統合して Refine [Chen2017]MV3D  LiDARとカメラの両方から取得した特徴量を融合して物体検 出 [Ku2018]AVOD [Liang2018]Deep Continuous Fusion
  • 7. [Qi2018]Frustum PointNet (1/2)  KITTI 3D Object Detection Evaluationで上位の成績  従来のDeep Learningベース画像検出器で画像から物体 を検出し、そのFrustum上の点群をPointNetでSemantic Segmentationすることで3D Bounding Boxを検出
  • 8. [Qi2018]Frustum PointNet (2/2)  Frustum上で座標系を正規化するのがポイント  ソースコード https://github.com/charlesq34/frustum-pointnets 画像から物体検出 • Frustum上の点群を Segmentation • 画像上での物体識別結果 を事前知識として使用 • 物体に属する点群のみを使用 • T-Netで姿勢を補正 • Bounding Boxのパラメータを推定
  • 9. [Ku2018] Aggregate View Object Detection (AVOD) (1/2)  Frustom PointNetと並びKITTI Benchmarkで好成績  Faster R-CNNのRegion Proposal Network (RPN)の考え方を もとに3次元上の物体候補を算出  ソースコード https://github.com/kujason/avod
  • 10. [Ku2018] Aggregate View Object Detection (AVOD) (2/2)  点群をBirdView (XY平面)へ投影し、MV3D[Chen2017]と同様の手法で点の密度 や高さなどから6チャネルの画像を生成(BEV Input)  BEVと画像それぞれから特徴マップを生成  Region Proposal Network (RPN)で物体候補領域をアンカー形状との差分という 形で出力  Detection Networkで各物体候補領域のクラス、向き、サイズを算出 Region Proposal Network Point Cloud Feature Extractor Image Feature Extractor Detection Network
  • 11. [Chen2017]MV3D (1/2)  入力点群をBirdViewおよびFrontViewへ投影し、画像として扱う  BirdViewから物体候補領域(3D)を検出し、BirdView、FrontViewお よびRGB画像へ投影  投影された3D候補領域をROI Pooling後に、3つのViewを統合し、最 終的な物体クラスとBounding Boxを出力します。
  • 12. [Chen2017]MV3D (2/2)  入力点群をBirdViewおよびFrontViewへ投影し、画像として扱 う BirdView:(M+2)チャネル Z方向にM個のスライスを作成し、各スライスのZの最大値(Height Maps) 各セルの点の個数(Density) 各セルの最も高い点(Z最大)の反射率(Intensity) FrontView: 3チャネル Height、Distance、Intensity  ソースコード https://github.com/bostondiditeam/MV3D
  • 13. [Liang2018]Deep Continuous Fusion (1/2)  点群をBirdViewへ投影し画像として扱うことでCNN可能に  画像から取得した特徴量をBirdViewのCNN各層の特徴量と 結合することで、疎な点群の情報を補間し精度向上  画像特徴と結合したBirdView特徴をもとに3次元物体検出  画像とBirdViewの特徴量の統合にDeep Parametric Continuous Convolutionを利用(Continuous Fusion)
  • 14. [Liang2018]Deep Continuous Fusion (2/2)  Deep Parametric Continuous Convolution Wang, S., Suo, S., Ma,W., & Urtasun, R. “Deep Parametric Continuous Convolutional Neural Networks”. CVPR2018 畳み込みカーネルを離散ではなく、パラメトリックな連続関数(Multi-Layer Perceptron)とし て表現することで、点群のような非構造的な離散データに畳み込み演算を適用(付録参 照)  Deep Continuous Fusion BirdView上の任意の画素の特徴量(点が存在しなくても可)を、Deep Parametric Continuous Convolutionを用いてカメラ画像の特徴量で補間 1. BirdView上の任意の画素のK 近傍点(画素)を取得 2. K近傍点上の点群を復元 3. 点群をカメラ画像上へ投影 4. 投影した点の画像特徴量を取 得 5. K個のカメラ画像からの特徴量 と三次元点群を投影した時の ずれをもとにMulti-layer PerceptronでBirdView上の画 素の特徴量を算出
  • 15. [Xu2018]Point Fusion (1/2)  物体検出は画像に対してFaster R-CNNなどを用いて行い、検出結 果をもとに3D Bounding Boxを推定  Bounding Boxから取得した点群とカメラ画像をそれぞれPointNetと ResNetで独立に処理し、その結果をFusion Networkで統合 Global FusionとDense Fusionの2通りの方法でBounding Box推定  KITTIで評価しSOTA(ただし比較対象がMV3Dのみ)
  • 16. [Xu2018]Point Fusion (2/2)  Global FusionではPointNetの全体特徴とResNetからの特徴 量を統合して、直接Bounding Box推定  Dense FusionではPointNetの全体特徴と点ごとの特徴、およ びResNetの画像特徴を統合し、点ごとのBounding Box内での 相対位置を推定  現時点でソースコード非公開
  • 17. [Du2018]General Pipeline  一般的な2Dの物体検出器をLiDARの情報を加えて3Dへ 拡張するための手法の提案  2D物体検出の結果から点群を切り出し、この点群から 3D Bounding Boxを取得  3D Bounding Box内の点群を用いて、より正確な Bounding Boxと識別結果を出力
  • 18. [Shin2018]RoarNet (1/2)  まずは画像、次に点群上で、探索領域を徐々に狭めながら、 物体の位置、姿勢、サイズを高精度に求める 画像に対してRoarNet_2Dで2D Bounding Boxと姿勢を推定 画像から求めた領域を散らして、円柱状の探索領域を複数作成 RoarNet_3D (RPN)で物体らしさと位置を絞り込み、 RoarNet_3D(BRN)で位置、サイズ、向きを算出  コード(公開予定) https://github.com/Kiwoo/RoarNet
  • 19. [Shin2018]RoarNet (2/2)  RoarNet_2Dでは、物体クラス、2D Bounding Box、3D Bounding Boxと向き(2Dの結果と一致するように)を推定(a)  RoarNet_2Dで求めた物体候補から、小さくかつカメラに近い、 または大きくかつカメラから遠い、複数の候補を算出(b)  RoarNet_3D(RPNおよびBRN)はPointNetからT-Netを除いて 簡略化したネットワーク(c) (a) RoarNet_2D (c) RoarNet_3D (b) 画像から算出した候補領域
  • 20. KITTI 3D Object Detection Evaluation  ここで紹介した各研究についてKITTI 3D Object Detection Evaluation上での性能を比較しました。 http://www.cvlibs.net/datasets/kitti/eval_object.php  上記サイトに性能の記載のないものは論文での実験結 果を参照しました。  比較は”Car”、”Pedestrian”、”Cyclist”の3カテゴリについ て行いました。  評価方法の詳細については上記サイトを参照してくださ い。
  • 21. KITTI 3D Object Detection Evaluation  Car Method Moderate Easy Hard Runtime Environment RoarNet 73.04 % 83.71 % 59.16 % 0.1 s GPU @ >3.5 Ghz (Python + C/C++) AVOD-FPN 71.88 % 81.94 % 66.38 % 0.1 s Titan X (Pascal) Frustom PointNet 70.39 % 81.20 % 62.19 % 0.17 s GPU @ 3.0 Ghz (Python) Deep Continuous Fusion 66.22 % 82.54 % 64.04 % 0.06 s GPU @ 2.5 Ghz (Python) AVOD 65.78 % 73.59 % 58.38 % 0.08 s Titan X (pascal) PointFusion 63.00 % 77.92 % 53.27 % MV3D 62.35 % 71.09 % 55.12 % 0.36 s GPU @ 2.5 Ghz (Python + C/C++) General Pipeline (MS-CNN) 55.26 % 55.82 % 51.89 % MV3D (LIDAR) 52.73 % 66.77 % 51.31 % 0.24 s GPU @ 2.5 Ghz (Python + C/C++) General Pipeline (PC-CNN) 51.74 % 57.63 % 51.39 % AVOD-FPN: AVODにFeature Pyramid Network [Lin2017]というFeature Mapを物体検出用にマルチスケールにする技術を 適用したもの [Lin2017]Tsung-Yi Lin, Piotr Dollar, Ross Girshick,“Feature Pyramid Networks for Object Detection”, CVPR2017
  • 22. KITTI 3D Object Detection Evaluation  Pedestrian Method Moderate Easy Hard Runtime Environment Frustom PointNet 44.89 % 51.21 % 40.23 % 0.17 s GPU @ 3.0 Ghz (Python) AVOD-FPN 42.81 % 50.80 % 40.88 % 0.1 s Titan X (Pascal) AVOD 31.51 % 38.28 % 26.98 % 0.08 s Titan X (pascal) PointFusion 28.04 % 33.36 % 23.38 %
  • 23. KITTI 3D Object Detection Evaluation  Cyclist Method Moderate Easy Hard Runtime Environment Frustom PointNet 56.77 % 71.96 % 50.39 % 0.17 s GPU @ 3.0 Ghz (Python) AVOD-FPN 52.18 % 64.00 % 46.61 % 0.1 s Titan X (Pascal) AVOD 31.51 % 38.28 % 26.98 % 0.08 s Titan X (pascal) PointFusion 29.42 % 49.34 % 26.98 %
  • 25. LiDAR-Camera Fusion 2D Object Detection  [Premebida2014]Premebida, C., Carreira, J., Batista, J., & Nunes, U. (2014). Pedestrian detection combining RGB and dense LIDAR data. IEEE International Conference on Intelligent Robots and Systems,  [Gonzalez2017]Gonzalez,A.,Vazquez, D., Lopez,A. M., & Amores, J. (2017). On-Board Object Detection: Multicue, Multimodal, and Multiview Random Forest of Local Experts. IEEETransactions on Cybernetics, 47(11), 3980–3990.  [Costea2017]Costea,A. D.,Varga, R., & Nedevschi, S. (2017). Fast Boosting based Detection using Scale Invariant Multimodal Multiresolution Filtered Features. Conference on ComputerVision and Pattern Recognition  [Asvadi2017]Asvadi,A., Garrote, L., Premebida, C., Peixoto, P., & J. Nunes, U. (2017). Multimodal vehicle detection: Fusing 3D- LIDAR and color camera data. Pattern Recognition Letters, (September).
  • 26. 車載カメラおよびLiDARによる2D物体検出  [Oh2017]Oh, S. Il, & Kang, H. B. (2017). Object detection and classification by decision-level fusion for intelligent vehicle systems. Sensors (Switzerland), 17(1),  [Schlosser2016]Schlosser, J., Chow, Christopher K., & Kira, Z. (2016). Fusing LIDAR and images for pedestrian detection using convolutional neural networks. IEEE International Conference on Robotics and Automation (ICRA)  [Du2017]Du, X.Ang, M H., & Rus, D. (2017). Car detection for autonomous vehicle: LIDAR and vision fusion approach through deep learning framework. IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS)
  • 27. 車載センサー環境での2D物体検出 車載センサー(カメラ+LiDAR)を用い2D物体検出は以下のよう に分類できます。  LiDARとカメラの両方から取得した特徴量を融合して物体検 出 [Premebida2014]Fusion-DPM [Gonzalez2017]MV-RGBD-RF [Costea2017]MM-MRFC [Schlosser2016]Fusing for Pedestrian Detection  LiDARとカメラから独立に物体を検出して統合 [Premebida2014]Fusion-DPM [Asvadi2017]Multimodal Detection [Oh2017]Decision-Level Fusion [Schlosser2016]Fusing for Pedestrian Detection  LiDAR点群をガイドとして画像上で物体検出 [Du2017]PC-CNN
  • 28. [Premebida2014] Fusion-DPM  RGB画像とデプス画像にDeformable Part Modelによる人 物検出の特徴量を取得し、2通りの方法で統合 特徴量を統合してから人物検出 それぞれで人物検出をしてから結果を統合 点群からアップサンプルでデプス画像を生成
  • 30. [Costea2017]MM-MRFC  カラー画像、Motion(オプティカルフロー)、Depthを、色、勾配の強さ、勾 配方向のチャネルへ分離し、Box Filterを繰り返しかけることで、さらにマ ルチ解像度のチャネルへ分離  画像からとデプスから垂直/水平位置やエッジ、奥行き、道路位置など、 Contextを表すチャネルを取得  AdaboostとSlidingWindowによって物体検出  Deep Learningベースの手法と同等の性能で、10-100倍高速
  • 31. [Asvadi2017]Multimodal Detection  LiDARデータからデプス(DM)と反射率(RM)のマップを生 成し、DMとRMおよび画像に対して、それぞれのチャネル 用に学習したYOLOを用いて物体検出  それぞれのチャネルの検出結果を統合することで、最終 結果を算出  ソースコード(現時点では未公開) https://github.com/alirezaasvadi/Multimodal
  • 32. [Oh2017]Decision-level Fusion  LiDARと画像に対し、個別に物体検出し、それらをCNNで統合  Pre-processingでカメラは色補正、LiDARはVoxel化を行い、Object proposal generationでセグメンテーションベースの候補領域算出し、 CNNでUnary Classifierでクラス識別  Fusion Classifierで、それぞれのクラス識別結果と特徴量を入力とし、 最終的な検出結果とクラスをCNNとSVMを用いて出力
  • 33. [Schlosser2016]Fusing for Pedestrian Detection  疎なLiDARデータから密な HHA(horizontal disparity, height above ground, and angle) 画像チャネルを生成  RGBとHHAから特徴量を抽出 し、どの段階で統合するかで 人物検出の性能が良くなるか をR-CNNベースの手法で検 証  性能は後段で融合したほうが 高いが、限られたパラメータや 計算リソースの下では、初段 から中段での融合が有効
  • 34. [Du2017]PC-CNN (1/2)  LiDARから道路上物体の点群候補を取得し、画像平面へ投影 (Seed Proposal Generation)  投影された点群をガイドとしてBounding BoxとClass Probability を推定 (Proposal Network)  Bounding Box候補を統合して、最終的なBounding BoxとClass Probabilityを算出(Detection Network)
  • 35. [Du2017]PC-CNN (2/2)  LiDAR点群から算出した物体候補点群は、LiDARからの距離 に応じて近い順にLarge、Medium、Smallに分ける。  画像上をグリッドに分割し、点群を投影。点群がLargeの場合 は大きいグリッド、Smallの場合は小さいグリッドを使用して、グ リッド内の点群の重心をアンカーとして求める(下図の赤い 点)  Region Proposal Networkを用いて、アンカー点でBounding BoxとClass Probabilityを推定。
  • 36. KITTI Object Detection 2012 Evaluation  ここで紹介した各研究についてKITTI Object Detection 2012 Evaluation上での性能を比較しました。 http://www.cvlibs.net/datasets/kitti/eval_object.php  比較は”Car”、”Pedestrian”、”Cyclist”の3カテゴリについ て行いました。  評価方法の詳細については上記サイトを参照してくださ い。
  • 37. KITTI Object Detection 2012 Evaluation  Car Method Moderate Easy Hard Runtime Environment F-PointNet 90.00 % 90.78 % 80.80 % 0.17 s GPU @ 3.0 Ghz (Python) PC-CNN 89.37% 93.50% 79.52% Decision-level Fusion 89.34% 94.88% 81.42% MV3D 89.17 % 90.53 % 80.16 % 0.36 s GPU @ 2.5 Ghz (Python + C/C++) MM-MRFC 88.20 % 90.93 % 78.02 % 0.05 s GPU @ 2.5 Ghz (C/C++) AVOD 88.08 % 89.73 % 80.14 % 0.08 s Titan X (pascal) AVOD-FPN 87.44 % 89.99 % 80.05 % 0.1 s Titan X (Pascal) MV3D (LIDAR) 79.76 % 89.80 % 78.61 % 0.24 s GPU @ 2.5 Ghz (Python + C/C++) Faster R-CNN 79.11 % 87.90 % 70.19 % 2 s GPU @ 3.5 Ghz (Python + C/C++) MV-RGBD-RF 69.92 % 76.49 % 57.47 % 4 s 4 cores @ 2.5 Ghz (C/C++) Multimodal Detection 46.77 % 64.04 % 39.38 % 0.06 s GPU @ 3.5 Ghz (Matlab + C/C++)
  • 38. KITTI Object Detection 2012 Evaluation  Pedestrian Method Moderate Easy Hard Runtime Environment F-PointNet 77.25 % 87.81 % 74.46 % 0.17 s GPU @ 3.0 Ghz (Python) Decision-level Fusion 70.84% 83.71% 68.67% MM-MRFC 69.96 % 82.37 % 64.76 % 0.05 s GPU @ 2.5 Ghz (C/C++) Faster R-CNN 65.91 % 78.35 % 61.19 % 2 s GPU @ 3.5 Ghz (Python + C/C++) AVOD-FPN 58.42 % 67.32 % 57.44 % 0.1 s Titan X (Pascal) MV-RGBD-RF 56.59 % 73.05 % 49.63 % 4 s 4 cores @ 2.5 Ghz (C/C++) Fusion-DPM 46.67 % 59.38 % 42.05 % ~ 30 s 1 core @ 3.5 Ghz (Matlab + C/C++) AVOD 43.49 % 51.64 % 37.79 % 0.08 s Titan X (pascal)
  • 39. KITTI Object Detection 2012 Evaluation  Cyclist Method Moderate Easy Hard Runtime Environment Decision-level Fusion 72.98% 83.95% 66.47% F-PointNet 72.25 % 84.90 % 65.14 % 0.17 s GPU @ 3.0 Ghz (Python) Faster R-CNN 62.81 % 71.41 % 55.44 % 2 s GPU @ 3.5 Ghz (Python + C/C++) AVOD-FPN 59.32 % 68.65 % 55.82 % 0.1 s Titan X (Pascal) AVOD 56.01 % 65.72 % 48.89 % 0.08 s Titan X (pascal) MV-RGBD-RF 42.61 % 51.46 % 37.42 % 4 s 4 cores @ 2.5 Ghz (C/C++)
  • 40. まとめ  車載カメラとLiDAR両方の情報を用いた物体検出について調 査しました。  物体検出タスクは3Dと2Dに分けられ3Dの手法は2Dにおいて も高い性能を発揮します。  3D物体検出でのLiDARデータはBirdViewに変換されて画像と してニューラルネットワークに入力されるケースがほとんどで したが、PointNetの登場により点群をそのまま処理する方法も 高い性能を発揮するようになりました。  2D物体検出では、LiDARデータをデプスデータへ変換し、カメ ラと視点を合わせることで、従来の画像ベースの物体検出の 新しいチャネルとして利用することで性能向上を図ります。  LiDARとカメラそれぞれの特徴量をどの段階で融合するかが 手法それぞれで工夫されています。
  • 41. [付録]PointNet 41  Qi, C. R., Su, H., Mo, K., & Guibas, L. J. (2017). PointNet : Deep Learning on Point Sets for 3D Classification and Segmentation Big Data + Deep Representation Learning. IEEE Conference on ComputerVision and Pattern Recognition (CVPR).  各点群の点を独立に畳み込む  Global Max Poolingで点群全体の特徴量を取得 各点を個別 に畳み込み アフィン変換 各点の特徴を統合
  • 42. [付録]Deep Parametric Continuous CNN  カーネルを離散ではなく、パラメトリックな連続関数として表現 (ここではMulti-Layer Perceptron)  任意の構造の入力に対して、任意の個所の出力が計算可能 ℎ 𝑛 = ෍ 𝑚=−𝑀 𝑀 𝑓 𝑛 − 𝑚 𝑔[𝑚] ℎ 𝒙 = න −∞ ∞ 𝑓 𝒚 𝑔 𝒙 − 𝒚 ⅆ𝑦 ≈ ෍ 𝑖 𝑁 1 𝑁 𝑓 𝒚𝑖 𝑔(𝒙 − 𝒚𝑖) 連続カーネル離散カーネル