SlideShare uma empresa Scribd logo
1 de 47
Baixar para ler offline
2011/07/16 名古屋CV・PRML勉強会
                    発表資料
                    takmin
本日紹介する論文
   A Coarse-to-fine approach for fast deformable
    object detection
       Marco Pedersoli, Andrea Vadaldi, Jordi Gonzalez
       CVPR2011

この論文の主張:
Deformable Part Modelと
いう物体検出手法を高速
化したぜ
Deformable Part Model
   とはなんぞや?
Histogram of Oriented Gradients (HOG)




   8×8ピクセルを一つのセルとする。
   セルごとに勾配方向のヒストグラムを作成
   各ヒストグラムをつなげたものを特徴量とする
   N. Dalal and B. Triggs, “Histograms of Oriented Gradients for Human Detection”,
    CVPR, 2005
HOGによる物体検出
             :位置とスケール




                 p  ( x, y, l )
                        位置   スケール

               score( p)
                   F   ( p, H )
                  位置とスケールpから抽出
                  したHOG特徴量ベクトル
HOGによる物体検出

線型SVMによる学習と検出
Deformable Part Model
   物体のモデルをパーツの集合として表現
       パーツの相対位置は対象によって変化
   ここでは、以下の手法を解説
       P. Felzenswalb et al, “Object Detection with Discriminatively Trained
        Part Based Models”, PAMI, 32(9), 2010
Deformable Part Model

                        z   p0 ,, pn 
                        p0
                          ルート位置

                        p1 ,, pn
                             パーツ位置
評価関数
Bounding Boxの妥当性              各パーツ形状                  パーツ位置の歪み           定数項
                               の妥当性
                        n                       n
score p0 ,, pn    Fi   ( H , pi )   di  d (dxi , dyi )  b
                       i 0                    i 1
                                各Boxの                     パーツ位置
                                HOG特徴                      歪み
                        フィルタ                    歪みパラ
                                                 メータ



                        d (dx, dy)  (dx, dy, dx 2 , dy 2 )

                         (dxi , dyi )  ( xi , yi )  (2( x0 , y0 )  vi )
                     パーツ位置歪み           パーツ位置           ルート位置
                                                                  標準的な
                                                                  パーツの
                                                                   位置
物体の検出

                        n                    n
score p0 ,, pn    Fi   ( H , pi )   di  d (dxi , dyi )  b
                       i 0                 i 1


p0                                     Sliding Windowの各位置で以下の
                                       スコアを求め、高いところを検出す
                                       る。

                                     score( p0 )
                                          max score p0 ,, pn 
                                            p1 ,, pn


                                       各ルート位置でもっとも最適化された
                                       パーツ位置でのスコア
物体の検出

                           n                    n
  score p0 ,, pn    Fi   ( H , pi )   di  d (dxi , dyi )  b
                          i 0                 i 1




                               n             n
                                                                    
      score p0   max   Fi   ( pi )   d i  d (dxi , dyi ) 
                    p1 ,, pn
                               i 0        i 1                    



                      各パーツは独立なので、それぞれについてスコアを最大化する。
                                  n
score( p0 )  F0   ( p0 )   max Fi   ( pi )  di  d (dxi , dyi ) 
                                        pi
                                 i 1
n
score( p0 )  F0   ( p0 )   max Fi   ( pi )  di  d (dxi , dyi ) 
                                      pi
                               i 1
n
score( p0 )  F0   ( p0 )   max Fi   ( pi )  di  d (dxi , dyi ) 
                                      pi
                               i 1
n
score( p0 )  F0   ( p0 )   max Fi   ( pi )  di  d (dxi , dyi ) 
                                      pi
                               i 1
n
score( p0 )  F0   ( p0 )   max Fi   ( pi )  di  d (dxi , dyi ) 
                                      pi
                               i 1
n
score( p0 )  F0   ( p0 )   max Fi   ( pi )  di  d (dxi , dyi ) 
                                      pi
                               i 1
n
score( p0 )  F0   ( p0 )   max Fi   ( pi )  di  d (dxi , dyi ) 
                                      pi
                               i 1
n
score( p0 )  F0   ( p0 )   max Fi   ( pi )  di  d (dxi , dyi ) 
                                      pi
                               i 1
Deformable Part Modelの学習
   学習データはBounding Box + ラベル名
   各パーツのフィルタFと歪みパラメータdを求める。
Latent SVMによる学習
                                n
score( p0 )  F0   ( p0 )   max Fi   ( pi )  di  d (dxi , dyi ) 
                                        pi
                               i 1




識別関数             f  ( x)  max   ( x, z )
                            zZ ( x )
Latent SVMによる学習
                                n
score( p0 )  F0   ( p0 )   max Fi   ( pi )  di  d (dxi , dyi ) 
                                        pi
                               i 1




識別関数             f  ( x)  max   ( x, z )
                            zZ ( x )
Latent SVMによる学習
                                n
score( p0 )  F0   ( p0 )   max Fi   ( pi )  di  d (dxi , dyi ) 
                                        pi
                               i 1




識別関数             f  ( x)  max   ( x, z )
                            zZ ( x )

                                             入力画像 パーツ位置   z   p0 ,, pn 
                            これを学習したい!


 f  ( x)    ( x) という形なら、SVMで解けるが、、、
                       残念ながら非凸関数
Latent SVMによる学習
   パーツ位置zを潜在変数として扱う

       Latent SVM (MI-SVM)

識別関数     f  ( x)  max   ( x, z )
                  zZ ( x )

                              学習画像 パーツ位置    z   p0 ,, pn 
                                   (潜在変数)


以下の繰り返しにより解く:
1.  を固定して f  (x) を最大化する z を求める
2. z を固定して  を最適化(通常のSVM)
やっと本題
Deformable Part Modelの計算コスト

 L   画像のピクセル数        c   パーツの近傍探索範囲
 P   パーツの数          D    フィルターの次元
 δ   セルのサイズ




               L        L 
             O P 2  D  2  
                            
                        c 
         処理する      特徴量マッチ   パーツ探索
         セルの数      ングのコスト    のコスト
Deformable Part Modelの計算コスト
 例:
 フィルターのサイズ: 6×6セル           D  6  6  31  1,116
 セルの次元: 31
                             L
 パーツ探索範囲: 6×6セル                  6  6  36
                             c
                             2



         L        L 
       O P 2  D  2  
                      
                  c 
       処理する   特徴量マッチ   パーツ探索
       セルの数   ングのコスト    のコスト
Deformable Part Modelの計算コスト
 例:
 フィルターのサイズ: 6×6セル             D  6  6  31  1,116
 セルの次元: 31
                               L
 パーツ探索範囲: 6×6セル                    6  6  36
                               c
                               2




         L               
       O P 2 1,116  36
                        
       処理する   特徴量マッチ   パーツ探索
       セルの数   ングのコスト    のコスト

  いかにマッチングにかかるコストを減らすか?
Coarse-to-Fineな推定
       粗い解像度で取得したフィルター情報を元に、密な解
        像度でのフィルターの計算範囲を絞る。
       極大点周辺のm×mセルのみ
オブジェクトモデル
   モデルは異なる解像度のHOGフィルタのパーツで構成
   各パーツフィルターは解像度が上がるごとに均等に分割
   階層間の制約(青ライン)+パーツ間の制約(赤ライン)
検出のための評価関数
                  p
S y; x, w    S H i (y i ; x, w)      S          Fij   (y i , y j ; w )      S          Pij   (y i , y j ; w )
                 i 1                   ( i , j )F                              ( i , j )P
Sliding Window          各パーツ形状                    親子パーツの相対                                隣接パーツの相対
   の妥当性                  の妥当性                       位置の妥当性                                 位置の妥当性
                          (a)                      (bの青いライン)                               (bの赤の破線)
検出のための評価関数
                  p
S y; x, w    S H i (y i ; x, w)      S          Fij   (y i , y j ; w )      S          Pij   (y i , y j ; w )
                 i 1                   ( i , j )F                              ( i , j )P
Sliding Window          各パーツ形状                    親子パーツの相対                                隣接パーツの相対
   の妥当性                  の妥当性                      位置の妥当性                                  位置の妥当性

     S Hi (y i ; x, w)  H (y i ; x)  M Hi (w)                                  x : 入力画像
                          HOG特徴         パーツのフィルタ
                                                                                 w : パラメータ
                                                                                 y i : パーツiの位置
検出のための評価関数
                  p
S y; x, w    S H i (y i ; x, w)       S          Fij   (y i , y j ; w )      S          Pij   (y i , y j ; w )
                 i 1                    ( i , j )F                              ( i , j )P
Sliding Window          各パーツ形状                     親子パーツの相対                                隣接パーツの相対
   の妥当性                  の妥当性                       位置の妥当性                                  位置の妥当性

     S Hi (y i ; x, w)  H (y i ; x)  M Hi (w)                                   x : 入力画像
                            HOG特徴        パーツのフィルタ
                                                                                  w : パラメータ
    S Fij (y i , y j ; w)  D(2y i , y j )  M Fi (w)                             y i : パーツiの位置
                            親子パーツの相             歪みパラメータ
                              対位置




                        
     D(y i , y j )  ( xi  x j ) 2 , ( yi  y j ) 2         
検出のための評価関数
                  p
S y; x, w    S H i (y i ; x, w)       S          Fij   (y i , y j ; w )      S          Pij   (y i , y j ; w )
                 i 1                    ( i , j )F                              ( i , j )P
Sliding Window          各パーツ形状                     親子パーツの相対                                隣接パーツの相対
   の妥当性                  の妥当性                       位置の妥当性                                  位置の妥当性

     S Hi (y i ; x, w)  H (y i ; x)  M Hi (w)                                   x : 入力画像
                            HOG特徴        パーツのフィルタ
                                                                                  w : パラメータ
    S Fij (y i , y j ; w)  D(2y i , y j )  M Fi (w)                             y i : パーツiの位置
                            親子パーツの相             歪みパラメータ
                              対位置

     S Pij (y i , y j ; w)  D(y i , y j )  M Pi (w; y i )
                            隣接パーツの相           歪みパラメータ
                              対位置

                        
     D(y i , y j )  ( xi  x j ) 2 , ( yi  y j ) 2         
検出のための評価関数                                                                                                NEW!
                  p
S y; x, w    S H i (y i ; x, w)      S          Fij   (y i , y j ; w )      S          Pij   (y i , y j ; w )
                 i 1                   ( i , j )F                              ( i , j )P
Sliding Window          各パーツ形状                    親子パーツの相対                                隣接パーツの相対
   の妥当性                  の妥当性                      位置の妥当性                                  位置の妥当性



                             n                                     n
 score p0 ,, pn    Fi   ( H , pi )   di  d (dxi , dyi )  b
                            i 0                                  i 1

  Felzenswalbらのモデルとの対応
検出のための評価関数
                p
S y; x, w    S H i (y i ; x, w)      S          Fij   (y i , y j ; w )      S          Pij   (y i , y j ; w )
               i 1                     ( i , j )F                              ( i , j )P
                                                                                          隣接パーツの相対
                                                                                           位置の妥当性
                 おそらくこういう状況を防ぐための制約
検出のための評価関数
                p
S y; x, w    S H i (y i ; x, w)      S          Fij   (y i , y j ; w )      S          Pij   (y i , y j ; w )
               i 1                     ( i , j )F                              ( i , j )P
                                                                                          隣接パーツの相対
                                                                                           位置の妥当性

  Coarse-to-Fineにしたために、オクルージョンやノイズに弱くなっ
  たため、加えた制約




         隣接パーツの評価あり                                             隣接パーツの評価なし
            学習結果                                                   学習結果
物体の検出
       粗い解像度から順にスコアを計算してい
        く
       前の解像度で求めたスコアの極大点周
        辺(2m+1)×(2m+1)セルのみ
       パーツのフィルタ応答を計算
       パーツ位置の歪みを計算
       (フィルタ応答-歪み)の最大値を計算
物体の検出
       粗い解像度から順にスコアを計算してい
        く
       前の解像度で求めたスコアの極大点周
        辺(2m+1)×(2m+1)セルのみ
       パーツのフィルタ応答を計算
       パーツ位置の歪みを計算
       (フィルタ応答-歪み)の最大値を計算
物体の検出
       粗い解像度から順にスコアを計算してい
        く
       前の解像度で求めたスコアの極大点周
        辺(2m+1)×(2m+1)セルのみ
       パーツのフィルタ応答を計算
       パーツ位置の歪みを計算
       (フィルタ応答-歪み)の最大値を計算




                         ×4
物体の検出
       粗い解像度から順にスコアを計算してい
        く
       前の解像度で求めたスコアの極大点周
        辺(2m+1)×(2m+1)セルのみ
       パーツのフィルタ応答を計算
       パーツ位置の歪みを計算
       (フィルタ応答-歪み)の最大値を計算




                             ×16
物体の検出
                p
S y; x, w    S H i (y i ; x, w)      S          Fij   (y i , y j ; w )      S          Pij   (y i , y j ; w )
               i 1                     ( i , j )F                              ( i , j )P


    隣接パーツ間の制約が無い時は、モデルはツリー構造
        DPを用いてスコアが一意に求まる
    隣接パーツ間の制約がある時は、一つのパーツの位置を固定
     してしまう。




     iを固定して、jとiの位置からkの歪みを求める
学習
   latent structural SVMでパラメータを学習
       パーツ位置を潜在変数として扱う
       Vedaldiらのやり方*に従ったと書いてあるだけで、具体的にこ
        のモデルにどのようにlatent structural SVMを適用したのかの
        記述はない。
           (おそらく)以下の識別関数Sにおいて、カーネル関数をΦ同士の内
            積、損失関数をBounding Boxの重なり具合として、wを求めている。


               S y1; x   max w  (x, y i )
                                y i  p  y1



* A. Vedaldi and A. Zisserman. .Structured output regression for detection with partial
occulusion. In Proc NIPS, 2009
実験:INRIA Pedestrianデータセット




CF: Coarse-to-Fine
sib: 隣接パーツの制約

[9] P. Felzenszwalb, R. Girshick, and D. McAllester. Cascade object detection with
deformable par models. In CVPR, 2010
実験:INRIA Pedestrianデータセット
実験:Coarse-to-Fineの有無で性能比較
       INRIA Pedestrianデータの検出スコアの比較

CFあり                       CFあり




                    CF無し              CF無し
実験:PASCAL VOC 2007データセット
まとめ
   Coarse-to-Fineなアプローチを入れることでDeformable
    Part Modelによる検出を高速化した。
   性能(精度+速度)に関しては、ほぼ最新の手法(カス
    ケード型)と同等
   この2つの手法は組み合わせることで更なる高速化が可
    能

Mais conteúdo relacionado

Mais procurados

局所特徴量と統計学習手法による物体検出
局所特徴量と統計学習手法による物体検出局所特徴量と統計学習手法による物体検出
局所特徴量と統計学習手法による物体検出MPRG_Chubu_University
 
Mask-RCNNを用いたキャベツの結球認識
Mask-RCNNを用いたキャベツの結球認識Mask-RCNNを用いたキャベツの結球認識
Mask-RCNNを用いたキャベツの結球認識Masahiro Tsukano
 
物体検出の歴史(R-CNNからSSD・YOLOまで)
物体検出の歴史(R-CNNからSSD・YOLOまで)物体検出の歴史(R-CNNからSSD・YOLOまで)
物体検出の歴史(R-CNNからSSD・YOLOまで)HironoriKanazawa
 
Objectnessとその周辺技術
Objectnessとその周辺技術Objectnessとその周辺技術
Objectnessとその周辺技術Takao Yamanaka
 
オープンワールド認識 (第34回全脳アーキテクチャ若手の会 勉強会)
オープンワールド認識 (第34回全脳アーキテクチャ若手の会 勉強会)オープンワールド認識 (第34回全脳アーキテクチャ若手の会 勉強会)
オープンワールド認識 (第34回全脳アーキテクチャ若手の会 勉強会)Takuma Yagi
 
初めてのグラフカット
初めてのグラフカット初めてのグラフカット
初めてのグラフカットTsubasa Hirakawa
 
SSD: Single Shot MultiBox Detector (ECCV2016)
SSD: Single Shot MultiBox Detector (ECCV2016)SSD: Single Shot MultiBox Detector (ECCV2016)
SSD: Single Shot MultiBox Detector (ECCV2016)Takanori Ogata
 
物体検知(Meta Study Group 発表資料)
物体検知(Meta Study Group 発表資料)物体検知(Meta Study Group 発表資料)
物体検知(Meta Study Group 発表資料)cvpaper. challenge
 
[論文紹介] Convolutional Neural Network(CNN)による超解像
[論文紹介] Convolutional Neural Network(CNN)による超解像[論文紹介] Convolutional Neural Network(CNN)による超解像
[論文紹介] Convolutional Neural Network(CNN)による超解像Rei Takami
 
Fisher線形判別分析とFisher Weight Maps
Fisher線形判別分析とFisher Weight MapsFisher線形判別分析とFisher Weight Maps
Fisher線形判別分析とFisher Weight MapsTakao Yamanaka
 
【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習cvpaper. challenge
 
R-CNNの原理とここ数年の流れ
R-CNNの原理とここ数年の流れR-CNNの原理とここ数年の流れ
R-CNNの原理とここ数年の流れKazuki Motohashi
 
スペクトラル・クラスタリング
スペクトラル・クラスタリングスペクトラル・クラスタリング
スペクトラル・クラスタリングAkira Miyazawa
 
Go-ICP: グローバル最適(Globally optimal) なICPの解説
Go-ICP: グローバル最適(Globally optimal) なICPの解説Go-ICP: グローバル最適(Globally optimal) なICPの解説
Go-ICP: グローバル最適(Globally optimal) なICPの解説Yusuke Sekikawa
 
【DL輪読会】EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Pointsfor...
【DL輪読会】EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Pointsfor...【DL輪読会】EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Pointsfor...
【DL輪読会】EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Pointsfor...Deep Learning JP
 
[DL輪読会]LightTrack: A Generic Framework for Online Top-Down Human Pose Tracking
[DL輪読会]LightTrack: A Generic Framework for Online Top-Down Human Pose Tracking[DL輪読会]LightTrack: A Generic Framework for Online Top-Down Human Pose Tracking
[DL輪読会]LightTrack: A Generic Framework for Online Top-Down Human Pose TrackingDeep Learning JP
 
ノンパラメトリックベイズを用いた逆強化学習
ノンパラメトリックベイズを用いた逆強化学習ノンパラメトリックベイズを用いた逆強化学習
ノンパラメトリックベイズを用いた逆強化学習Shota Ishikawa
 
[DL輪読会]A closer look at few shot classification
[DL輪読会]A closer look at few shot classification[DL輪読会]A closer look at few shot classification
[DL輪読会]A closer look at few shot classificationDeep Learning JP
 
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
[DL輪読会]Learning Transferable Visual Models From Natural Language SupervisionDeep Learning JP
 

Mais procurados (20)

人工知能概論 2
人工知能概論 2人工知能概論 2
人工知能概論 2
 
局所特徴量と統計学習手法による物体検出
局所特徴量と統計学習手法による物体検出局所特徴量と統計学習手法による物体検出
局所特徴量と統計学習手法による物体検出
 
Mask-RCNNを用いたキャベツの結球認識
Mask-RCNNを用いたキャベツの結球認識Mask-RCNNを用いたキャベツの結球認識
Mask-RCNNを用いたキャベツの結球認識
 
物体検出の歴史(R-CNNからSSD・YOLOまで)
物体検出の歴史(R-CNNからSSD・YOLOまで)物体検出の歴史(R-CNNからSSD・YOLOまで)
物体検出の歴史(R-CNNからSSD・YOLOまで)
 
Objectnessとその周辺技術
Objectnessとその周辺技術Objectnessとその周辺技術
Objectnessとその周辺技術
 
オープンワールド認識 (第34回全脳アーキテクチャ若手の会 勉強会)
オープンワールド認識 (第34回全脳アーキテクチャ若手の会 勉強会)オープンワールド認識 (第34回全脳アーキテクチャ若手の会 勉強会)
オープンワールド認識 (第34回全脳アーキテクチャ若手の会 勉強会)
 
初めてのグラフカット
初めてのグラフカット初めてのグラフカット
初めてのグラフカット
 
SSD: Single Shot MultiBox Detector (ECCV2016)
SSD: Single Shot MultiBox Detector (ECCV2016)SSD: Single Shot MultiBox Detector (ECCV2016)
SSD: Single Shot MultiBox Detector (ECCV2016)
 
物体検知(Meta Study Group 発表資料)
物体検知(Meta Study Group 発表資料)物体検知(Meta Study Group 発表資料)
物体検知(Meta Study Group 発表資料)
 
[論文紹介] Convolutional Neural Network(CNN)による超解像
[論文紹介] Convolutional Neural Network(CNN)による超解像[論文紹介] Convolutional Neural Network(CNN)による超解像
[論文紹介] Convolutional Neural Network(CNN)による超解像
 
Fisher線形判別分析とFisher Weight Maps
Fisher線形判別分析とFisher Weight MapsFisher線形判別分析とFisher Weight Maps
Fisher線形判別分析とFisher Weight Maps
 
【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習
 
R-CNNの原理とここ数年の流れ
R-CNNの原理とここ数年の流れR-CNNの原理とここ数年の流れ
R-CNNの原理とここ数年の流れ
 
スペクトラル・クラスタリング
スペクトラル・クラスタリングスペクトラル・クラスタリング
スペクトラル・クラスタリング
 
Go-ICP: グローバル最適(Globally optimal) なICPの解説
Go-ICP: グローバル最適(Globally optimal) なICPの解説Go-ICP: グローバル最適(Globally optimal) なICPの解説
Go-ICP: グローバル最適(Globally optimal) なICPの解説
 
【DL輪読会】EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Pointsfor...
【DL輪読会】EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Pointsfor...【DL輪読会】EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Pointsfor...
【DL輪読会】EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Pointsfor...
 
[DL輪読会]LightTrack: A Generic Framework for Online Top-Down Human Pose Tracking
[DL輪読会]LightTrack: A Generic Framework for Online Top-Down Human Pose Tracking[DL輪読会]LightTrack: A Generic Framework for Online Top-Down Human Pose Tracking
[DL輪読会]LightTrack: A Generic Framework for Online Top-Down Human Pose Tracking
 
ノンパラメトリックベイズを用いた逆強化学習
ノンパラメトリックベイズを用いた逆強化学習ノンパラメトリックベイズを用いた逆強化学習
ノンパラメトリックベイズを用いた逆強化学習
 
[DL輪読会]A closer look at few shot classification
[DL輪読会]A closer look at few shot classification[DL輪読会]A closer look at few shot classification
[DL輪読会]A closer look at few shot classification
 
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
 

Mais de Takuya Minagawa

Machine Learning Operations (MLOps): Overview, Definition, and Architecture
Machine Learning Operations (MLOps): Overview, Definition, and ArchitectureMachine Learning Operations (MLOps): Overview, Definition, and Architecture
Machine Learning Operations (MLOps): Overview, Definition, and ArchitectureTakuya Minagawa
 
点群SegmentationのためのTransformerサーベイ
点群SegmentationのためのTransformerサーベイ点群SegmentationのためのTransformerサーベイ
点群SegmentationのためのTransformerサーベイTakuya Minagawa
 
Learning to Solve Hard Minimal Problems
Learning to Solve Hard Minimal ProblemsLearning to Solve Hard Minimal Problems
Learning to Solve Hard Minimal ProblemsTakuya Minagawa
 
ConditionalPointDiffusion.pdf
ConditionalPointDiffusion.pdfConditionalPointDiffusion.pdf
ConditionalPointDiffusion.pdfTakuya Minagawa
 
楽しいコンピュータビジョンの受託仕事
楽しいコンピュータビジョンの受託仕事楽しいコンピュータビジョンの受託仕事
楽しいコンピュータビジョンの受託仕事Takuya Minagawa
 
20200910コンピュータビジョン今昔物語(JPTA講演資料)
20200910コンピュータビジョン今昔物語(JPTA講演資料)20200910コンピュータビジョン今昔物語(JPTA講演資料)
20200910コンピュータビジョン今昔物語(JPTA講演資料)Takuya Minagawa
 
2020/07/04 BSP-Net (CVPR2020)
2020/07/04 BSP-Net (CVPR2020)2020/07/04 BSP-Net (CVPR2020)
2020/07/04 BSP-Net (CVPR2020)Takuya Minagawa
 
20190706cvpr2019_3d_shape_representation
20190706cvpr2019_3d_shape_representation20190706cvpr2019_3d_shape_representation
20190706cvpr2019_3d_shape_representationTakuya Minagawa
 
20190307 visualslam summary
20190307 visualslam summary20190307 visualslam summary
20190307 visualslam summaryTakuya Minagawa
 
20190131 lidar-camera fusion semantic segmentation survey
20190131 lidar-camera fusion semantic segmentation survey20190131 lidar-camera fusion semantic segmentation survey
20190131 lidar-camera fusion semantic segmentation surveyTakuya Minagawa
 
2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentation
2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentation2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentation
2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentationTakuya Minagawa
 
run Keras model on opencv
run Keras model on opencvrun Keras model on opencv
run Keras model on opencvTakuya Minagawa
 
20181130 lidar object detection survey
20181130 lidar object detection survey20181130 lidar object detection survey
20181130 lidar object detection surveyTakuya Minagawa
 
object detection with lidar-camera fusion: survey (updated)
object detection with lidar-camera fusion: survey (updated)object detection with lidar-camera fusion: survey (updated)
object detection with lidar-camera fusion: survey (updated)Takuya Minagawa
 

Mais de Takuya Minagawa (20)

Machine Learning Operations (MLOps): Overview, Definition, and Architecture
Machine Learning Operations (MLOps): Overview, Definition, and ArchitectureMachine Learning Operations (MLOps): Overview, Definition, and Architecture
Machine Learning Operations (MLOps): Overview, Definition, and Architecture
 
MobileNeRF
MobileNeRFMobileNeRF
MobileNeRF
 
点群SegmentationのためのTransformerサーベイ
点群SegmentationのためのTransformerサーベイ点群SegmentationのためのTransformerサーベイ
点群SegmentationのためのTransformerサーベイ
 
Learning to Solve Hard Minimal Problems
Learning to Solve Hard Minimal ProblemsLearning to Solve Hard Minimal Problems
Learning to Solve Hard Minimal Problems
 
ConditionalPointDiffusion.pdf
ConditionalPointDiffusion.pdfConditionalPointDiffusion.pdf
ConditionalPointDiffusion.pdf
 
楽しいコンピュータビジョンの受託仕事
楽しいコンピュータビジョンの受託仕事楽しいコンピュータビジョンの受託仕事
楽しいコンピュータビジョンの受託仕事
 
20210711 deepI2P
20210711 deepI2P20210711 deepI2P
20210711 deepI2P
 
20201010 personreid
20201010 personreid20201010 personreid
20201010 personreid
 
20200910コンピュータビジョン今昔物語(JPTA講演資料)
20200910コンピュータビジョン今昔物語(JPTA講演資料)20200910コンピュータビジョン今昔物語(JPTA講演資料)
20200910コンピュータビジョン今昔物語(JPTA講演資料)
 
2020/07/04 BSP-Net (CVPR2020)
2020/07/04 BSP-Net (CVPR2020)2020/07/04 BSP-Net (CVPR2020)
2020/07/04 BSP-Net (CVPR2020)
 
20200704 bsp net
20200704 bsp net20200704 bsp net
20200704 bsp net
 
20190825 vins mono
20190825 vins mono20190825 vins mono
20190825 vins mono
 
20190706cvpr2019_3d_shape_representation
20190706cvpr2019_3d_shape_representation20190706cvpr2019_3d_shape_representation
20190706cvpr2019_3d_shape_representation
 
20190307 visualslam summary
20190307 visualslam summary20190307 visualslam summary
20190307 visualslam summary
 
Visual slam
Visual slamVisual slam
Visual slam
 
20190131 lidar-camera fusion semantic segmentation survey
20190131 lidar-camera fusion semantic segmentation survey20190131 lidar-camera fusion semantic segmentation survey
20190131 lidar-camera fusion semantic segmentation survey
 
2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentation
2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentation2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentation
2018/12/28 LiDARで取得した道路上点群に対するsemantic segmentation
 
run Keras model on opencv
run Keras model on opencvrun Keras model on opencv
run Keras model on opencv
 
20181130 lidar object detection survey
20181130 lidar object detection survey20181130 lidar object detection survey
20181130 lidar object detection survey
 
object detection with lidar-camera fusion: survey (updated)
object detection with lidar-camera fusion: survey (updated)object detection with lidar-camera fusion: survey (updated)
object detection with lidar-camera fusion: survey (updated)
 

2011/07/16 NagoyaCV_takmin

  • 2. 本日紹介する論文  A Coarse-to-fine approach for fast deformable object detection  Marco Pedersoli, Andrea Vadaldi, Jordi Gonzalez  CVPR2011 この論文の主張: Deformable Part Modelと いう物体検出手法を高速 化したぜ
  • 3. Deformable Part Model とはなんぞや?
  • 4. Histogram of Oriented Gradients (HOG)  8×8ピクセルを一つのセルとする。  セルごとに勾配方向のヒストグラムを作成  各ヒストグラムをつなげたものを特徴量とする  N. Dalal and B. Triggs, “Histograms of Oriented Gradients for Human Detection”, CVPR, 2005
  • 5. HOGによる物体検出 :位置とスケール p  ( x, y, l ) 位置 スケール score( p)  F   ( p, H ) 位置とスケールpから抽出 したHOG特徴量ベクトル
  • 7. Deformable Part Model  物体のモデルをパーツの集合として表現  パーツの相対位置は対象によって変化  ここでは、以下の手法を解説  P. Felzenswalb et al, “Object Detection with Discriminatively Trained Part Based Models”, PAMI, 32(9), 2010
  • 8. Deformable Part Model z   p0 ,, pn  p0 ルート位置 p1 ,, pn パーツ位置
  • 9. 評価関数 Bounding Boxの妥当性 各パーツ形状 パーツ位置の歪み 定数項 の妥当性 n n score p0 ,, pn    Fi   ( H , pi )   di  d (dxi , dyi )  b i 0 i 1 各Boxの パーツ位置 HOG特徴 歪み フィルタ 歪みパラ メータ d (dx, dy)  (dx, dy, dx 2 , dy 2 ) (dxi , dyi )  ( xi , yi )  (2( x0 , y0 )  vi ) パーツ位置歪み パーツ位置 ルート位置 標準的な パーツの 位置
  • 10. 物体の検出 n n score p0 ,, pn    Fi   ( H , pi )   di  d (dxi , dyi )  b i 0 i 1 p0 Sliding Windowの各位置で以下の スコアを求め、高いところを検出す る。 score( p0 )  max score p0 ,, pn  p1 ,, pn 各ルート位置でもっとも最適化された パーツ位置でのスコア
  • 11. 物体の検出 n n score p0 ,, pn    Fi   ( H , pi )   di  d (dxi , dyi )  b i 0 i 1  n n  score p0   max   Fi   ( pi )   d i  d (dxi , dyi )  p1 ,, pn  i 0 i 1  各パーツは独立なので、それぞれについてスコアを最大化する。 n score( p0 )  F0   ( p0 )   max Fi   ( pi )  di  d (dxi , dyi )  pi i 1
  • 12. n score( p0 )  F0   ( p0 )   max Fi   ( pi )  di  d (dxi , dyi )  pi i 1
  • 13. n score( p0 )  F0   ( p0 )   max Fi   ( pi )  di  d (dxi , dyi )  pi i 1
  • 14. n score( p0 )  F0   ( p0 )   max Fi   ( pi )  di  d (dxi , dyi )  pi i 1
  • 15. n score( p0 )  F0   ( p0 )   max Fi   ( pi )  di  d (dxi , dyi )  pi i 1
  • 16. n score( p0 )  F0   ( p0 )   max Fi   ( pi )  di  d (dxi , dyi )  pi i 1
  • 17. n score( p0 )  F0   ( p0 )   max Fi   ( pi )  di  d (dxi , dyi )  pi i 1
  • 18. n score( p0 )  F0   ( p0 )   max Fi   ( pi )  di  d (dxi , dyi )  pi i 1
  • 19. Deformable Part Modelの学習  学習データはBounding Box + ラベル名  各パーツのフィルタFと歪みパラメータdを求める。
  • 20. Latent SVMによる学習 n score( p0 )  F0   ( p0 )   max Fi   ( pi )  di  d (dxi , dyi )  pi i 1 識別関数 f  ( x)  max   ( x, z ) zZ ( x )
  • 21. Latent SVMによる学習 n score( p0 )  F0   ( p0 )   max Fi   ( pi )  di  d (dxi , dyi )  pi i 1 識別関数 f  ( x)  max   ( x, z ) zZ ( x )
  • 22. Latent SVMによる学習 n score( p0 )  F0   ( p0 )   max Fi   ( pi )  di  d (dxi , dyi )  pi i 1 識別関数 f  ( x)  max   ( x, z ) zZ ( x ) 入力画像 パーツ位置 z   p0 ,, pn  これを学習したい! f  ( x)    ( x) という形なら、SVMで解けるが、、、 残念ながら非凸関数
  • 23. Latent SVMによる学習  パーツ位置zを潜在変数として扱う Latent SVM (MI-SVM) 識別関数 f  ( x)  max   ( x, z ) zZ ( x ) 学習画像 パーツ位置 z   p0 ,, pn  (潜在変数) 以下の繰り返しにより解く: 1.  を固定して f  (x) を最大化する z を求める 2. z を固定して  を最適化(通常のSVM)
  • 25. Deformable Part Modelの計算コスト L 画像のピクセル数 c パーツの近傍探索範囲 P パーツの数 D フィルターの次元 δ セルのサイズ  L  L  O P 2  D  2         c  処理する 特徴量マッチ パーツ探索 セルの数 ングのコスト のコスト
  • 26. Deformable Part Modelの計算コスト 例: フィルターのサイズ: 6×6セル D  6  6  31  1,116 セルの次元: 31 L パーツ探索範囲: 6×6セル  6  6  36  c 2  L  L  O P 2  D  2         c  処理する 特徴量マッチ パーツ探索 セルの数 ングのコスト のコスト
  • 27. Deformable Part Modelの計算コスト 例: フィルターのサイズ: 6×6セル D  6  6  31  1,116 セルの次元: 31 L パーツ探索範囲: 6×6セル  6  6  36  c 2  L  O P 2 1,116  36    処理する 特徴量マッチ パーツ探索 セルの数 ングのコスト のコスト いかにマッチングにかかるコストを減らすか?
  • 28. Coarse-to-Fineな推定  粗い解像度で取得したフィルター情報を元に、密な解 像度でのフィルターの計算範囲を絞る。  極大点周辺のm×mセルのみ
  • 29. オブジェクトモデル  モデルは異なる解像度のHOGフィルタのパーツで構成  各パーツフィルターは解像度が上がるごとに均等に分割  階層間の制約(青ライン)+パーツ間の制約(赤ライン)
  • 30. 検出のための評価関数 p S y; x, w    S H i (y i ; x, w)  S Fij (y i , y j ; w )  S Pij (y i , y j ; w ) i 1 ( i , j )F ( i , j )P Sliding Window 各パーツ形状 親子パーツの相対 隣接パーツの相対 の妥当性 の妥当性 位置の妥当性 位置の妥当性 (a) (bの青いライン) (bの赤の破線)
  • 31. 検出のための評価関数 p S y; x, w    S H i (y i ; x, w)  S Fij (y i , y j ; w )  S Pij (y i , y j ; w ) i 1 ( i , j )F ( i , j )P Sliding Window 各パーツ形状 親子パーツの相対 隣接パーツの相対 の妥当性 の妥当性 位置の妥当性 位置の妥当性 S Hi (y i ; x, w)  H (y i ; x)  M Hi (w) x : 入力画像 HOG特徴 パーツのフィルタ w : パラメータ y i : パーツiの位置
  • 32. 検出のための評価関数 p S y; x, w    S H i (y i ; x, w)  S Fij (y i , y j ; w )  S Pij (y i , y j ; w ) i 1 ( i , j )F ( i , j )P Sliding Window 各パーツ形状 親子パーツの相対 隣接パーツの相対 の妥当性 の妥当性 位置の妥当性 位置の妥当性 S Hi (y i ; x, w)  H (y i ; x)  M Hi (w) x : 入力画像 HOG特徴 パーツのフィルタ w : パラメータ S Fij (y i , y j ; w)  D(2y i , y j )  M Fi (w) y i : パーツiの位置 親子パーツの相 歪みパラメータ 対位置  D(y i , y j )  ( xi  x j ) 2 , ( yi  y j ) 2 
  • 33. 検出のための評価関数 p S y; x, w    S H i (y i ; x, w)  S Fij (y i , y j ; w )  S Pij (y i , y j ; w ) i 1 ( i , j )F ( i , j )P Sliding Window 各パーツ形状 親子パーツの相対 隣接パーツの相対 の妥当性 の妥当性 位置の妥当性 位置の妥当性 S Hi (y i ; x, w)  H (y i ; x)  M Hi (w) x : 入力画像 HOG特徴 パーツのフィルタ w : パラメータ S Fij (y i , y j ; w)  D(2y i , y j )  M Fi (w) y i : パーツiの位置 親子パーツの相 歪みパラメータ 対位置 S Pij (y i , y j ; w)  D(y i , y j )  M Pi (w; y i ) 隣接パーツの相 歪みパラメータ 対位置  D(y i , y j )  ( xi  x j ) 2 , ( yi  y j ) 2 
  • 34. 検出のための評価関数 NEW! p S y; x, w    S H i (y i ; x, w)  S Fij (y i , y j ; w )  S Pij (y i , y j ; w ) i 1 ( i , j )F ( i , j )P Sliding Window 各パーツ形状 親子パーツの相対 隣接パーツの相対 の妥当性 の妥当性 位置の妥当性 位置の妥当性 n n score p0 ,, pn    Fi   ( H , pi )   di  d (dxi , dyi )  b i 0 i 1 Felzenswalbらのモデルとの対応
  • 35. 検出のための評価関数 p S y; x, w    S H i (y i ; x, w)  S Fij (y i , y j ; w )  S Pij (y i , y j ; w ) i 1 ( i , j )F ( i , j )P 隣接パーツの相対 位置の妥当性 おそらくこういう状況を防ぐための制約
  • 36. 検出のための評価関数 p S y; x, w    S H i (y i ; x, w)  S Fij (y i , y j ; w )  S Pij (y i , y j ; w ) i 1 ( i , j )F ( i , j )P 隣接パーツの相対 位置の妥当性 Coarse-to-Fineにしたために、オクルージョンやノイズに弱くなっ たため、加えた制約 隣接パーツの評価あり 隣接パーツの評価なし 学習結果 学習結果
  • 37. 物体の検出  粗い解像度から順にスコアを計算してい く  前の解像度で求めたスコアの極大点周 辺(2m+1)×(2m+1)セルのみ  パーツのフィルタ応答を計算  パーツ位置の歪みを計算  (フィルタ応答-歪み)の最大値を計算
  • 38. 物体の検出  粗い解像度から順にスコアを計算してい く  前の解像度で求めたスコアの極大点周 辺(2m+1)×(2m+1)セルのみ  パーツのフィルタ応答を計算  パーツ位置の歪みを計算  (フィルタ応答-歪み)の最大値を計算
  • 39. 物体の検出  粗い解像度から順にスコアを計算してい く  前の解像度で求めたスコアの極大点周 辺(2m+1)×(2m+1)セルのみ  パーツのフィルタ応答を計算  パーツ位置の歪みを計算  (フィルタ応答-歪み)の最大値を計算 ×4
  • 40. 物体の検出  粗い解像度から順にスコアを計算してい く  前の解像度で求めたスコアの極大点周 辺(2m+1)×(2m+1)セルのみ  パーツのフィルタ応答を計算  パーツ位置の歪みを計算  (フィルタ応答-歪み)の最大値を計算 ×16
  • 41. 物体の検出 p S y; x, w    S H i (y i ; x, w)  S Fij (y i , y j ; w )  S Pij (y i , y j ; w ) i 1 ( i , j )F ( i , j )P  隣接パーツ間の制約が無い時は、モデルはツリー構造  DPを用いてスコアが一意に求まる  隣接パーツ間の制約がある時は、一つのパーツの位置を固定 してしまう。 iを固定して、jとiの位置からkの歪みを求める
  • 42. 学習  latent structural SVMでパラメータを学習  パーツ位置を潜在変数として扱う  Vedaldiらのやり方*に従ったと書いてあるだけで、具体的にこ のモデルにどのようにlatent structural SVMを適用したのかの 記述はない。  (おそらく)以下の識別関数Sにおいて、カーネル関数をΦ同士の内 積、損失関数をBounding Boxの重なり具合として、wを求めている。 S y1; x   max w  (x, y i ) y i  p y1 * A. Vedaldi and A. Zisserman. .Structured output regression for detection with partial occulusion. In Proc NIPS, 2009
  • 43. 実験:INRIA Pedestrianデータセット CF: Coarse-to-Fine sib: 隣接パーツの制約 [9] P. Felzenszwalb, R. Girshick, and D. McAllester. Cascade object detection with deformable par models. In CVPR, 2010
  • 45. 実験:Coarse-to-Fineの有無で性能比較 INRIA Pedestrianデータの検出スコアの比較 CFあり CFあり CF無し CF無し
  • 47. まとめ  Coarse-to-Fineなアプローチを入れることでDeformable Part Modelによる検出を高速化した。  性能(精度+速度)に関しては、ほぼ最新の手法(カス ケード型)と同等  この2つの手法は組み合わせることで更なる高速化が可 能