SlideShare uma empresa Scribd logo
1 de 21
Baixar para ler offline
第3巻 第4章 Bag-of-Featuresに基づく物体認識(2)      2011.09.04




          CV勉強会@関東(第15回)
             3. 局所特徴量とbag-of-features


                       shirasy




                                               1
第3巻 第4章 Bag-of-Featuresに基づく物体認識(2)




    3.1 局所特徴量登場以前の物体認識
    3.2 局所特徴量
    3.3 Bag-of-features
        3.4 Spatial Pyramid Matching
        3.5 Bag-of-Featuresの拡張




                                       2
3.1 局所特徴量登場以前の物体認識

 画像認識研究の流れ

 1960年代
 1960年代
 • 対象:線画
 • 内容:線画解釈
 1970年代
 1970年代
 • 対象: 航空画像、風景画像
 • 内容: 各領域の形状、色、模様、領域間の関係などを手がかりに
       ラベリングにより認識
 1980年代
 1980年代
 • 内容:エキスパートシステム(複雑なルールに基づく認識システム)



                                     3
3.1 局所特徴量登場以前の物体認識

 画像認識研究の流れ

 1980年代後半
 1980年代後半
 • 対象:3次元の実世界
 • 内容:モデルベース
     人手によるルールや幾何形状モデルを認識モデルとして利用
     ⇒認識対象を増やすことが困難

 1990年代
 1990年代
 •内容:学習画像を用意、それから自動的に特徴量を抽出し認識(例:固有顔法)




                                    4
3.1 局所特徴量登場以前の物体認識

 画像認識研究の流れ

                      現在の物体認識の方法の基本的な考え方

 アピアランスベース
 3次元物体を3次元情報に復元せずに2次元(アピアランス)のみで認識


 CBIR(content-based image retrieval)
 見た目が類似している画像を画像データベース中から検索する、
 内容に基づく画像検索




                                           5
3.2 局所特徴量


 一般物体認識

 2000年前後まで、一般物体認識は極めて困難な問題として考えられていた。

 • 常に何らかの前提条件が必要
 • 制約のない一般的な画像に適用することは困難



 ブレークスルー(2000年代前半)
 ブレークスルー(2000年代前半)
             年代前半
 1. 局所特徴の組み合わせによる画像の表現
 2. 局所特徴の表現法
 3. 局所特徴のヒスグラム表現であるbag-of-features

                                        6
3.2 局所特徴量

 ブレイクスルー前夜

 1990年代後半:
 1990年代後半:
     年代後半
 • 内容:局所特徴の複数の組み合わせによって画像認識を行う
      特定物体認識法が提案[49]


  • 3次元物体復元のための対応点抽出に使われていた特徴点抽出
    アルゴリズムを物体認識に応用
  • 多数の特徴点周辺の局所パターンの組み合わせで物体認識が可能
  • オルクージョンや変形の影響を受けにくい




                                    7
3.2 局所特徴量

 SIFT(Scale Invariant Feature Transform)[33]

 局所パターンの組み合わせによる認識のための特徴点検出と特徴ベクトルの
 抽出法がセット

 特徴:
 • 回転、スケールの変化に不変な特徴量
  • 明るさの変化やアフィン変換(視点の移動)に頑強


 以下の2処理を含むアルゴリズム:
 (1)特徴点とその点の最適スケールの検出
 (2)特徴点の輝度勾配ヒストグラムによる128次元ベクトルによる記述


                                               8
3.3 Bag-of-features


    局所特徴量の問題点
   1枚の画像から数百~数千個抽出
   そのままでは、データ量が多すぎて扱いにくい




                      Bag-of-
                      Bag-of-features

                                データ量を少なくし扱いやすくする

  • 局所特徴量のデータ量圧縮のためのアプローチ
  • 局所特徴量をベクトル量子化し、1枚の画像から抽出された局所特徴量の集合
    を単一のヒストグラムで表現

                                               9
3.3 Bag-of-features

  ヒストグラム

  学習用画像データの各画像から抽出した多数の局所特徴量(濃淡変化に着目)
  から代表的な局所パターンをvisual wordとして選出

  • ヒストグラムを作成することにより画像を表現
  • 局所パターンは物体のカテゴリーと関係深い




                                   10
3.3 Bag-of-features


  一般物体認識と特定物体認識のアプローチの差分


  • 一般物体認識
     • visual words数:数百~数千
     • 一般物体認識においては同じカテゴリーに属する物体の細かな差異の
       吸収されることが望ましい

  • 特定物体認識
     • visual words数:数万~百万
     • 全く同じ局所パターンのみが1つのvisual wordに割り当てられることが
       望ましい



                                                11
3.3 Bag-of-features

  統計的言語処理と画像認識処理の差分


  • 統計的言語処理:bag-of-words
     • 文章をベクトル表現する方法として使用
     • 語順を無視して文章を単語の出現頻度で表現

  • 画像認識処理 :bag-of-features
     • 画像分類が文書分類と同じ問題として取り扱うことが可能



   bag-of-features提案直後、言語処理の分野で提案された手法が画像認識
   に応用されるということが起こった
   ・ サポートベクターマシンによるテキスト分類手法
   ・ 文書分類のための確率的トピック抽出手法                  12
3.3 Bag-of-features

 bag-of-featuresによる特徴表現への変換手順

  1. 特徴点抽出
     • 画像1枚に付き、数百~数千個程度
     • 最近では、決められたピクセルごとの格子点やランダムに選ばれた点を
       機械的に特徴点とする方法も活用(dense sampling)
  2. BoFベクトルの計算
     • SIFT記述子などを利用
  3. 全学習画像の全局所特徴ベクトルのk-meansによるクラスタリングによる
     visual wordsの選出(図4.3)
  4. visual wordsに基づいて各画像についてSIFT記述子ベクトルのヒストグラムを
     作成(図4.4)


                                              13
3.3 Bag-of-features




                       図4.3




                       図4.4         14
    引用元: 八木、斎藤編:コンピュータビジョン最先端ガイド3
3.3 Bag-of-features

 sparse sampling / dense sampling

 認識・・・テクスチャのない均一な局所特徴も重要な情報
         画像の内容に関わらず機械的に特徴点の位置およびスケールを選択
         する方法も有効[16]

  • sparse sampling
     • 特徴点抽出法(SIFTやSURFを含む)を用いて特徴点を抽出する方法
  • dense sampling
     • 格子点やランダム点を特徴点として選択する方法


  dense samplingでは、特徴点の数を任意に設定可能であるため、sparse
  samplingよりも多くの局所特徴を抽出可能

                                               15
3.3 Bag-of-features

 sparse sampling / dense sampling




                           図4.5




                                    16
    引用元: 八木、斎藤編:コンピュータビジョン最先端ガイド3
3.3 Bag-of-features


 BoFベクトルの生成
  一般的には方法 C)を選択することが多い
  A) TF-IFD(※)で重み付け
     ⇒bag-of-wordsでよく用いられる方法
  B) 各要素を1か0の2値にしてヒストグラムを構成
  C) visual wordsの出現回数をカウントしてヒストグラムを構成


  画像間でvisual wordsの合計頻度に差がある場合、以下を行うことが多い
  • L1正規化:BoFベクトルの要素の絶対値の和を1とする
  • L2正規化:BoFベクトルの要素の2乗和を1とする

(※) TF-IFD:索引語の重み付け方法のひとつ
    ex.一文書中に同じ索引語が多く出現すれば、TF-IDFの値は大きく
       また、多くの文書に索引語が出現すれば、値は小さくなる                    17
    引用元: http://nlp.nagaokaut.ac.jp/TF%E3%83%BBIDF
3.4 Spatial Pyramid Matching




 Bag-of-features表現・・・元の特徴点の位置を無視

 画像中での位置も物体認識のための重要な手がかりになることが多い


 自動車の場合
  • タイヤ : 画像中の下方に写っていることが多い
              ⇒タイヤ特有のvisual wordが存在
  • ルーフ : 画像中の上方に写っていることが多い
              ⇒ルーフ特有のvisual wordが存在




                                      18
3.4 Spatial Pyramid Matching

 Spaitial Pyramid Matching法[30]
     大まかな位置情報を考慮した画像間の類似度計算法
     画像を4分割および16分割し画像ピラミッドを構築して、それぞれからBoFを
     構築し、ピラミッドのレベルに応じ重みを付けて類似度を計算




                               図4.6     19
     引用元: 八木、斎藤編:コンピュータビジョン最先端ガイド3
3.5 Bag-of-featuresの拡張


 アプローチ分類
  • コードブック作成法
     • オンラインクラスタリングとmean-shift[24]
     • 階層的クラスタリング[41]
     • ガウス混合分布およびEMアルゴリズムによる確率的クラスタリング[43]
     • Information Bottleneck法[58]
     • sparse coding[58]
  • BoFベクトル生成法[74]
  • 色情報の追加[69]
     • Bag-of-featuresとは異なる特徴との混合



                                        20
3.5 Bag-of-featuresの拡張
                               近年急速に拡大
 動作認識

  静止画像の局所特徴を時間軸方向に拡張
  例:人間の動作の分類(歩く、走るなど) [15]



 bag-of-featuresを用いない一般物体認識
  NBNN(Native Bayes Nearest Neighbor)[6]
     visual wordsを用いずに、特徴点マッチングのみで一般物体認識

       アイデア
        1. 未知画像の各特徴点と最も類似した学習データの特徴点まで
           の距離をクラスごとに別々に総和
        2. 最も和が小さいクラスに分類
                                           21

Mais conteúdo relacionado

Mais procurados

SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~
SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~
SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~SSII
 
SSII2021 [OS3] 広域環境の3D計測と認識 ~ 人が活動する場のセンシングとモデル化 ~(オーガナイザーによる冒頭の導入)
SSII2021 [OS3] 広域環境の3D計測と認識 ~ 人が活動する場のセンシングとモデル化 ~(オーガナイザーによる冒頭の導入)SSII2021 [OS3] 広域環境の3D計測と認識 ~ 人が活動する場のセンシングとモデル化 ~(オーガナイザーによる冒頭の導入)
SSII2021 [OS3] 広域環境の3D計測と認識 ~ 人が活動する場のセンシングとモデル化 ~(オーガナイザーによる冒頭の導入)SSII
 
SSII2021 [TS1] Visual SLAM ~カメラ幾何の基礎から最近の技術動向まで~
SSII2021 [TS1] Visual SLAM ~カメラ幾何の基礎から最近の技術動向まで~SSII2021 [TS1] Visual SLAM ~カメラ幾何の基礎から最近の技術動向まで~
SSII2021 [TS1] Visual SLAM ~カメラ幾何の基礎から最近の技術動向まで~SSII
 
20160612 関東cv勉強会 sumisumithパート
20160612 関東cv勉強会 sumisumithパート20160612 関東cv勉強会 sumisumithパート
20160612 関東cv勉強会 sumisumithパートsumisumith
 
SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~
SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~
SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~SSII
 
Online moving camera_background_subtraction
Online moving camera_background_subtractionOnline moving camera_background_subtraction
Online moving camera_background_subtractionDaichi Suzuo
 
SSII2018TS: コンピュテーショナルイルミネーション
SSII2018TS: コンピュテーショナルイルミネーションSSII2018TS: コンピュテーショナルイルミネーション
SSII2018TS: コンピュテーショナルイルミネーションSSII
 
ECCV読み会 "Materials for Masses: SVBRDF Acquisition with a Single Mobile Phone ...
ECCV読み会 "Materials for Masses: SVBRDF Acquisition with a Single Mobile Phone ...ECCV読み会 "Materials for Masses: SVBRDF Acquisition with a Single Mobile Phone ...
ECCV読み会 "Materials for Masses: SVBRDF Acquisition with a Single Mobile Phone ...Hajime Mihara
 
SLAMチュートリアル大会資料(ORB-SLAM)
SLAMチュートリアル大会資料(ORB-SLAM)SLAMチュートリアル大会資料(ORB-SLAM)
SLAMチュートリアル大会資料(ORB-SLAM)Masaya Kaneko
 
論文紹介 LexToMap: lexical-based topological mapping
論文紹介 LexToMap: lexical-based topological mapping論文紹介 LexToMap: lexical-based topological mapping
論文紹介 LexToMap: lexical-based topological mappingAkira Taniguchi
 
SSII2019TS: プロジェクタ・カメラシステムが変わる! ~時間同期の制御で広がる応用~
SSII2019TS: プロジェクタ・カメラシステムが変わる! ~時間同期の制御で広がる応用~SSII2019TS: プロジェクタ・カメラシステムが変わる! ~時間同期の制御で広がる応用~
SSII2019TS: プロジェクタ・カメラシステムが変わる! ~時間同期の制御で広がる応用~SSII
 
SSII2019TS: プロジェクタ・カメラシステムが変わる! ~時間同期の制御で広がる応用~
SSII2019TS: プロジェクタ・カメラシステムが変わる! ~時間同期の制御で広がる応用~SSII2019TS: プロジェクタ・カメラシステムが変わる! ~時間同期の制御で広がる応用~
SSII2019TS: プロジェクタ・カメラシステムが変わる! ~時間同期の制御で広がる応用~SSII
 
NDTスキャンマッチング 第1回3D勉強会@PFN 2018年5月27日
NDTスキャンマッチング 第1回3D勉強会@PFN 2018年5月27日NDTスキャンマッチング 第1回3D勉強会@PFN 2018年5月27日
NDTスキャンマッチング 第1回3D勉強会@PFN 2018年5月27日Kitsukawa Yuki
 
ImageJを使った画像解析実習〜数・形態・分布の解析〜
ImageJを使った画像解析実習〜数・形態・分布の解析〜ImageJを使った画像解析実習〜数・形態・分布の解析〜
ImageJを使った画像解析実習〜数・形態・分布の解析〜LPIXEL
 
論文紹介 Semantic Mapping for Mobile Robotics Tasks: A Survey
論文紹介 Semantic Mapping for Mobile Robotics Tasks: A Survey論文紹介 Semantic Mapping for Mobile Robotics Tasks: A Survey
論文紹介 Semantic Mapping for Mobile Robotics Tasks: A SurveyAkira Taniguchi
 
Soft Rasterizer: A Differentiable Renderer for Image-based 3D Reasoning
Soft Rasterizer: A Differentiable Renderer for Image-based 3D ReasoningSoft Rasterizer: A Differentiable Renderer for Image-based 3D Reasoning
Soft Rasterizer: A Differentiable Renderer for Image-based 3D ReasoningKohei Nishimura
 
Deformable Part Modelとその発展
Deformable Part Modelとその発展Deformable Part Modelとその発展
Deformable Part Modelとその発展Takao Yamanaka
 
ロボットによる一般問題解決
ロボットによる一般問題解決ロボットによる一般問題解決
ロボットによる一般問題解決SOINN Inc.
 
Appropriate Mesh Density for the Optical Simulation of a Silver Nanoparticle ...
Appropriate Mesh Density for the Optical Simulation of a Silver Nanoparticle ...Appropriate Mesh Density for the Optical Simulation of a Silver Nanoparticle ...
Appropriate Mesh Density for the Optical Simulation of a Silver Nanoparticle ...kagikenco
 

Mais procurados (20)

SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~
SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~
SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~
 
SSII2021 [OS3] 広域環境の3D計測と認識 ~ 人が活動する場のセンシングとモデル化 ~(オーガナイザーによる冒頭の導入)
SSII2021 [OS3] 広域環境の3D計測と認識 ~ 人が活動する場のセンシングとモデル化 ~(オーガナイザーによる冒頭の導入)SSII2021 [OS3] 広域環境の3D計測と認識 ~ 人が活動する場のセンシングとモデル化 ~(オーガナイザーによる冒頭の導入)
SSII2021 [OS3] 広域環境の3D計測と認識 ~ 人が活動する場のセンシングとモデル化 ~(オーガナイザーによる冒頭の導入)
 
SSII2021 [TS1] Visual SLAM ~カメラ幾何の基礎から最近の技術動向まで~
SSII2021 [TS1] Visual SLAM ~カメラ幾何の基礎から最近の技術動向まで~SSII2021 [TS1] Visual SLAM ~カメラ幾何の基礎から最近の技術動向まで~
SSII2021 [TS1] Visual SLAM ~カメラ幾何の基礎から最近の技術動向まで~
 
SLAM勉強会(PTAM)
SLAM勉強会(PTAM)SLAM勉強会(PTAM)
SLAM勉強会(PTAM)
 
20160612 関東cv勉強会 sumisumithパート
20160612 関東cv勉強会 sumisumithパート20160612 関東cv勉強会 sumisumithパート
20160612 関東cv勉強会 sumisumithパート
 
SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~
SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~
SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~
 
Online moving camera_background_subtraction
Online moving camera_background_subtractionOnline moving camera_background_subtraction
Online moving camera_background_subtraction
 
SSII2018TS: コンピュテーショナルイルミネーション
SSII2018TS: コンピュテーショナルイルミネーションSSII2018TS: コンピュテーショナルイルミネーション
SSII2018TS: コンピュテーショナルイルミネーション
 
ECCV読み会 "Materials for Masses: SVBRDF Acquisition with a Single Mobile Phone ...
ECCV読み会 "Materials for Masses: SVBRDF Acquisition with a Single Mobile Phone ...ECCV読み会 "Materials for Masses: SVBRDF Acquisition with a Single Mobile Phone ...
ECCV読み会 "Materials for Masses: SVBRDF Acquisition with a Single Mobile Phone ...
 
SLAMチュートリアル大会資料(ORB-SLAM)
SLAMチュートリアル大会資料(ORB-SLAM)SLAMチュートリアル大会資料(ORB-SLAM)
SLAMチュートリアル大会資料(ORB-SLAM)
 
論文紹介 LexToMap: lexical-based topological mapping
論文紹介 LexToMap: lexical-based topological mapping論文紹介 LexToMap: lexical-based topological mapping
論文紹介 LexToMap: lexical-based topological mapping
 
SSII2019TS: プロジェクタ・カメラシステムが変わる! ~時間同期の制御で広がる応用~
SSII2019TS: プロジェクタ・カメラシステムが変わる! ~時間同期の制御で広がる応用~SSII2019TS: プロジェクタ・カメラシステムが変わる! ~時間同期の制御で広がる応用~
SSII2019TS: プロジェクタ・カメラシステムが変わる! ~時間同期の制御で広がる応用~
 
SSII2019TS: プロジェクタ・カメラシステムが変わる! ~時間同期の制御で広がる応用~
SSII2019TS: プロジェクタ・カメラシステムが変わる! ~時間同期の制御で広がる応用~SSII2019TS: プロジェクタ・カメラシステムが変わる! ~時間同期の制御で広がる応用~
SSII2019TS: プロジェクタ・カメラシステムが変わる! ~時間同期の制御で広がる応用~
 
NDTスキャンマッチング 第1回3D勉強会@PFN 2018年5月27日
NDTスキャンマッチング 第1回3D勉強会@PFN 2018年5月27日NDTスキャンマッチング 第1回3D勉強会@PFN 2018年5月27日
NDTスキャンマッチング 第1回3D勉強会@PFN 2018年5月27日
 
ImageJを使った画像解析実習〜数・形態・分布の解析〜
ImageJを使った画像解析実習〜数・形態・分布の解析〜ImageJを使った画像解析実習〜数・形態・分布の解析〜
ImageJを使った画像解析実習〜数・形態・分布の解析〜
 
論文紹介 Semantic Mapping for Mobile Robotics Tasks: A Survey
論文紹介 Semantic Mapping for Mobile Robotics Tasks: A Survey論文紹介 Semantic Mapping for Mobile Robotics Tasks: A Survey
論文紹介 Semantic Mapping for Mobile Robotics Tasks: A Survey
 
Soft Rasterizer: A Differentiable Renderer for Image-based 3D Reasoning
Soft Rasterizer: A Differentiable Renderer for Image-based 3D ReasoningSoft Rasterizer: A Differentiable Renderer for Image-based 3D Reasoning
Soft Rasterizer: A Differentiable Renderer for Image-based 3D Reasoning
 
Deformable Part Modelとその発展
Deformable Part Modelとその発展Deformable Part Modelとその発展
Deformable Part Modelとその発展
 
ロボットによる一般問題解決
ロボットによる一般問題解決ロボットによる一般問題解決
ロボットによる一般問題解決
 
Appropriate Mesh Density for the Optical Simulation of a Silver Nanoparticle ...
Appropriate Mesh Density for the Optical Simulation of a Silver Nanoparticle ...Appropriate Mesh Density for the Optical Simulation of a Silver Nanoparticle ...
Appropriate Mesh Density for the Optical Simulation of a Silver Nanoparticle ...
 

Semelhante a 20110904cvsaisentan(shirasy) 3 4_3

【チュートリアル】コンピュータビジョンによる動画認識 v2
【チュートリアル】コンピュータビジョンによる動画認識 v2【チュートリアル】コンピュータビジョンによる動画認識 v2
【チュートリアル】コンピュータビジョンによる動画認識 v2Hirokatsu Kataoka
 
cvsaisentan20141004 kanezaki
cvsaisentan20141004 kanezakicvsaisentan20141004 kanezaki
cvsaisentan20141004 kanezakikanejaki
 
[DL輪読会]Dense Captioning分野のまとめ
[DL輪読会]Dense Captioning分野のまとめ[DL輪読会]Dense Captioning分野のまとめ
[DL輪読会]Dense Captioning分野のまとめDeep Learning JP
 
【SSII2015】人を観る技術の先端的研究
【SSII2015】人を観る技術の先端的研究【SSII2015】人を観る技術の先端的研究
【SSII2015】人を観る技術の先端的研究Hirokatsu Kataoka
 
大規模画像認識とその周辺
大規模画像認識とその周辺大規模画像認識とその周辺
大規模画像認識とその周辺n_hidekey
 
VoxFormer: Sparse Voxel Transformer for Camera-based 3D Semantic Scene Comple...
VoxFormer: Sparse Voxel Transformer for Camera-based 3D Semantic Scene Comple...VoxFormer: Sparse Voxel Transformer for Camera-based 3D Semantic Scene Comple...
VoxFormer: Sparse Voxel Transformer for Camera-based 3D Semantic Scene Comple...Kazuyuki Miyazawa
 
画像認識における幾何学的不変性の扱い
画像認識における幾何学的不変性の扱い画像認識における幾何学的不変性の扱い
画像認識における幾何学的不変性の扱いSeiji Hotta
 
第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)
第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)
第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)kanejaki
 
CVPR2016 reading - 特徴量学習とクロスモーダル転移について
CVPR2016 reading - 特徴量学習とクロスモーダル転移についてCVPR2016 reading - 特徴量学習とクロスモーダル転移について
CVPR2016 reading - 特徴量学習とクロスモーダル転移についてAkisato Kimura
 
[DL輪読会]BANMo: Building Animatable 3D Neural Models from Many Casual Videos
[DL輪読会]BANMo: Building Animatable 3D Neural Models from Many Casual Videos[DL輪読会]BANMo: Building Animatable 3D Neural Models from Many Casual Videos
[DL輪読会]BANMo: Building Animatable 3D Neural Models from Many Casual VideosDeep Learning JP
 
Object Detection & Instance Segmentationの論文紹介 | OHS勉強会#3
Object Detection & Instance Segmentationの論文紹介 | OHS勉強会#3Object Detection & Instance Segmentationの論文紹介 | OHS勉強会#3
Object Detection & Instance Segmentationの論文紹介 | OHS勉強会#3Toshinori Hanya
 
画像キャプションの自動生成
画像キャプションの自動生成画像キャプションの自動生成
画像キャプションの自動生成Yoshitaka Ushiku
 
Jubatusでマルウェア分類
Jubatusでマルウェア分類Jubatusでマルウェア分類
Jubatusでマルウェア分類Shuzo Kashihara
 
3Dマップを活用したVisual Localization
3Dマップを活用したVisual Localization3Dマップを活用したVisual Localization
3Dマップを活用したVisual LocalizationHajime Taira
 
AIのラボからロボティクスへ --- 東大松尾研究室のWRS2020パートナーロボットチャレンジへの挑戦
AIのラボからロボティクスへ --- 東大松尾研究室のWRS2020パートナーロボットチャレンジへの挑戦AIのラボからロボティクスへ --- 東大松尾研究室のWRS2020パートナーロボットチャレンジへの挑戦
AIのラボからロボティクスへ --- 東大松尾研究室のWRS2020パートナーロボットチャレンジへの挑戦Tatsuya Matsushima
 
ICCV 2019 論文紹介 (26 papers)
ICCV 2019 論文紹介 (26 papers)ICCV 2019 論文紹介 (26 papers)
ICCV 2019 論文紹介 (26 papers)Hideki Okada
 
画像認識の初歩、SIFT,SURF特徴量
画像認識の初歩、SIFT,SURF特徴量画像認識の初歩、SIFT,SURF特徴量
画像認識の初歩、SIFT,SURF特徴量takaya imai
 

Semelhante a 20110904cvsaisentan(shirasy) 3 4_3 (20)

【チュートリアル】コンピュータビジョンによる動画認識 v2
【チュートリアル】コンピュータビジョンによる動画認識 v2【チュートリアル】コンピュータビジョンによる動画認識 v2
【チュートリアル】コンピュータビジョンによる動画認識 v2
 
cvsaisentan20141004 kanezaki
cvsaisentan20141004 kanezakicvsaisentan20141004 kanezaki
cvsaisentan20141004 kanezaki
 
[DL輪読会]Dense Captioning分野のまとめ
[DL輪読会]Dense Captioning分野のまとめ[DL輪読会]Dense Captioning分野のまとめ
[DL輪読会]Dense Captioning分野のまとめ
 
【SSII2015】人を観る技術の先端的研究
【SSII2015】人を観る技術の先端的研究【SSII2015】人を観る技術の先端的研究
【SSII2015】人を観る技術の先端的研究
 
大規模画像認識とその周辺
大規模画像認識とその周辺大規模画像認識とその周辺
大規模画像認識とその周辺
 
VoxFormer: Sparse Voxel Transformer for Camera-based 3D Semantic Scene Comple...
VoxFormer: Sparse Voxel Transformer for Camera-based 3D Semantic Scene Comple...VoxFormer: Sparse Voxel Transformer for Camera-based 3D Semantic Scene Comple...
VoxFormer: Sparse Voxel Transformer for Camera-based 3D Semantic Scene Comple...
 
画像認識における幾何学的不変性の扱い
画像認識における幾何学的不変性の扱い画像認識における幾何学的不変性の扱い
画像認識における幾何学的不変性の扱い
 
ICCV2011 report
ICCV2011 reportICCV2011 report
ICCV2011 report
 
第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)
第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)
第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)
 
CVPR2016 reading - 特徴量学習とクロスモーダル転移について
CVPR2016 reading - 特徴量学習とクロスモーダル転移についてCVPR2016 reading - 特徴量学習とクロスモーダル転移について
CVPR2016 reading - 特徴量学習とクロスモーダル転移について
 
20201010 personreid
20201010 personreid20201010 personreid
20201010 personreid
 
[DL輪読会]BANMo: Building Animatable 3D Neural Models from Many Casual Videos
[DL輪読会]BANMo: Building Animatable 3D Neural Models from Many Casual Videos[DL輪読会]BANMo: Building Animatable 3D Neural Models from Many Casual Videos
[DL輪読会]BANMo: Building Animatable 3D Neural Models from Many Casual Videos
 
Object Detection & Instance Segmentationの論文紹介 | OHS勉強会#3
Object Detection & Instance Segmentationの論文紹介 | OHS勉強会#3Object Detection & Instance Segmentationの論文紹介 | OHS勉強会#3
Object Detection & Instance Segmentationの論文紹介 | OHS勉強会#3
 
画像キャプションの自動生成
画像キャプションの自動生成画像キャプションの自動生成
画像キャプションの自動生成
 
Jubatusでマルウェア分類
Jubatusでマルウェア分類Jubatusでマルウェア分類
Jubatusでマルウェア分類
 
3Dマップを活用したVisual Localization
3Dマップを活用したVisual Localization3Dマップを活用したVisual Localization
3Dマップを活用したVisual Localization
 
AIのラボからロボティクスへ --- 東大松尾研究室のWRS2020パートナーロボットチャレンジへの挑戦
AIのラボからロボティクスへ --- 東大松尾研究室のWRS2020パートナーロボットチャレンジへの挑戦AIのラボからロボティクスへ --- 東大松尾研究室のWRS2020パートナーロボットチャレンジへの挑戦
AIのラボからロボティクスへ --- 東大松尾研究室のWRS2020パートナーロボットチャレンジへの挑戦
 
ICCV 2019 論文紹介 (26 papers)
ICCV 2019 論文紹介 (26 papers)ICCV 2019 論文紹介 (26 papers)
ICCV 2019 論文紹介 (26 papers)
 
research(9:24)
research(9:24)research(9:24)
research(9:24)
 
画像認識の初歩、SIFT,SURF特徴量
画像認識の初歩、SIFT,SURF特徴量画像認識の初歩、SIFT,SURF特徴量
画像認識の初歩、SIFT,SURF特徴量
 

Mais de Yoichi Shirasawa

動画にて、身体と人工物のインタラクションを表現する
動画にて、身体と人工物のインタラクションを表現する動画にて、身体と人工物のインタラクションを表現する
動画にて、身体と人工物のインタラクションを表現するYoichi Shirasawa
 
写真に関わるユーザーエクスペリエンス(UX)のためのアプローチ
写真に関わるユーザーエクスペリエンス(UX)のためのアプローチ写真に関わるユーザーエクスペリエンス(UX)のためのアプローチ
写真に関わるユーザーエクスペリエンス(UX)のためのアプローチYoichi Shirasawa
 
写真撮影プロセスとHCDプロセスの共通性
写真撮影プロセスとHCDプロセスの共通性写真撮影プロセスとHCDプロセスの共通性
写真撮影プロセスとHCDプロセスの共通性Yoichi Shirasawa
 
フォトグラファーのためのUXデザイン
フォトグラファーのためのUXデザインフォトグラファーのためのUXデザイン
フォトグラファーのためのUXデザインYoichi Shirasawa
 
20151004 hcdvalue LT_shirasy_スケッチモーション
20151004 hcdvalue LT_shirasy_スケッチモーション20151004 hcdvalue LT_shirasy_スケッチモーション
20151004 hcdvalue LT_shirasy_スケッチモーションYoichi Shirasawa
 
写真を見る人の経験のためにできること
写真を見る人の経験のためにできること写真を見る人の経験のためにできること
写真を見る人の経験のためにできることYoichi Shirasawa
 
20131116 digitable shirasy
20131116 digitable shirasy20131116 digitable shirasy
20131116 digitable shirasyYoichi Shirasawa
 
20140321_abc2014spring_shirasy
20140321_abc2014spring_shirasy20140321_abc2014spring_shirasy
20140321_abc2014spring_shirasyYoichi Shirasawa
 
20120623 cv勉強会 shirasy
20120623 cv勉強会 shirasy20120623 cv勉強会 shirasy
20120623 cv勉強会 shirasyYoichi Shirasawa
 
20111212paper whiteboard prototyping(shibuyaux)
20111212paper whiteboard prototyping(shibuyaux)20111212paper whiteboard prototyping(shibuyaux)
20111212paper whiteboard prototyping(shibuyaux)Yoichi Shirasawa
 
20111127 iccv祭り shirasy
20111127 iccv祭り shirasy20111127 iccv祭り shirasy
20111127 iccv祭り shirasyYoichi Shirasawa
 
20110625 cv 3_3_5(shirasy)
20110625 cv 3_3_5(shirasy)20110625 cv 3_3_5(shirasy)
20110625 cv 3_3_5(shirasy)Yoichi Shirasawa
 
20110109第8回CV勉強会(ミーンシフトの原理と応用:6章・7章)shirasy)
20110109第8回CV勉強会(ミーンシフトの原理と応用:6章・7章)shirasy)20110109第8回CV勉強会(ミーンシフトの原理と応用:6章・7章)shirasy)
20110109第8回CV勉強会(ミーンシフトの原理と応用:6章・7章)shirasy)Yoichi Shirasawa
 
20100626 CVIM(3)6,7 shirasy
20100626 CVIM(3)6,7 shirasy20100626 CVIM(3)6,7 shirasy
20100626 CVIM(3)6,7 shirasyYoichi Shirasawa
 

Mais de Yoichi Shirasawa (18)

動画にて、身体と人工物のインタラクションを表現する
動画にて、身体と人工物のインタラクションを表現する動画にて、身体と人工物のインタラクションを表現する
動画にて、身体と人工物のインタラクションを表現する
 
写真に関わるユーザーエクスペリエンス(UX)のためのアプローチ
写真に関わるユーザーエクスペリエンス(UX)のためのアプローチ写真に関わるユーザーエクスペリエンス(UX)のためのアプローチ
写真に関わるユーザーエクスペリエンス(UX)のためのアプローチ
 
写真撮影プロセスとHCDプロセスの共通性
写真撮影プロセスとHCDプロセスの共通性写真撮影プロセスとHCDプロセスの共通性
写真撮影プロセスとHCDプロセスの共通性
 
フォトグラファーのためのUXデザイン
フォトグラファーのためのUXデザインフォトグラファーのためのUXデザイン
フォトグラファーのためのUXデザイン
 
20151004 hcdvalue LT_shirasy_スケッチモーション
20151004 hcdvalue LT_shirasy_スケッチモーション20151004 hcdvalue LT_shirasy_スケッチモーション
20151004 hcdvalue LT_shirasy_スケッチモーション
 
写真を見る人の経験のためにできること
写真を見る人の経験のためにできること写真を見る人の経験のためにできること
写真を見る人の経験のためにできること
 
20131116 digitable shirasy
20131116 digitable shirasy20131116 digitable shirasy
20131116 digitable shirasy
 
201312hcdnet2013-shirasy
201312hcdnet2013-shirasy201312hcdnet2013-shirasy
201312hcdnet2013-shirasy
 
20140321_abc2014spring_shirasy
20140321_abc2014spring_shirasy20140321_abc2014spring_shirasy
20140321_abc2014spring_shirasy
 
20130622_gcs2013_shirasy
20130622_gcs2013_shirasy20130622_gcs2013_shirasy
20130622_gcs2013_shirasy
 
20121021hcdvalue_shirasy
20121021hcdvalue_shirasy20121021hcdvalue_shirasy
20121021hcdvalue_shirasy
 
20120623 cv勉強会 shirasy
20120623 cv勉強会 shirasy20120623 cv勉強会 shirasy
20120623 cv勉強会 shirasy
 
20111212paper whiteboard prototyping(shibuyaux)
20111212paper whiteboard prototyping(shibuyaux)20111212paper whiteboard prototyping(shibuyaux)
20111212paper whiteboard prototyping(shibuyaux)
 
20111127 iccv祭り shirasy
20111127 iccv祭り shirasy20111127 iccv祭り shirasy
20111127 iccv祭り shirasy
 
20111107 cvim(shirasy)
20111107 cvim(shirasy)20111107 cvim(shirasy)
20111107 cvim(shirasy)
 
20110625 cv 3_3_5(shirasy)
20110625 cv 3_3_5(shirasy)20110625 cv 3_3_5(shirasy)
20110625 cv 3_3_5(shirasy)
 
20110109第8回CV勉強会(ミーンシフトの原理と応用:6章・7章)shirasy)
20110109第8回CV勉強会(ミーンシフトの原理と応用:6章・7章)shirasy)20110109第8回CV勉強会(ミーンシフトの原理と応用:6章・7章)shirasy)
20110109第8回CV勉強会(ミーンシフトの原理と応用:6章・7章)shirasy)
 
20100626 CVIM(3)6,7 shirasy
20100626 CVIM(3)6,7 shirasy20100626 CVIM(3)6,7 shirasy
20100626 CVIM(3)6,7 shirasy
 

20110904cvsaisentan(shirasy) 3 4_3

  • 1. 第3巻 第4章 Bag-of-Featuresに基づく物体認識(2) 2011.09.04 CV勉強会@関東(第15回) 3. 局所特徴量とbag-of-features shirasy 1
  • 2. 第3巻 第4章 Bag-of-Featuresに基づく物体認識(2) 3.1 局所特徴量登場以前の物体認識 3.2 局所特徴量 3.3 Bag-of-features 3.4 Spatial Pyramid Matching 3.5 Bag-of-Featuresの拡張 2
  • 3. 3.1 局所特徴量登場以前の物体認識 画像認識研究の流れ 1960年代 1960年代 • 対象:線画 • 内容:線画解釈 1970年代 1970年代 • 対象: 航空画像、風景画像 • 内容: 各領域の形状、色、模様、領域間の関係などを手がかりに ラベリングにより認識 1980年代 1980年代 • 内容:エキスパートシステム(複雑なルールに基づく認識システム) 3
  • 4. 3.1 局所特徴量登場以前の物体認識 画像認識研究の流れ 1980年代後半 1980年代後半 • 対象:3次元の実世界 • 内容:モデルベース 人手によるルールや幾何形状モデルを認識モデルとして利用 ⇒認識対象を増やすことが困難 1990年代 1990年代 •内容:学習画像を用意、それから自動的に特徴量を抽出し認識(例:固有顔法) 4
  • 5. 3.1 局所特徴量登場以前の物体認識 画像認識研究の流れ 現在の物体認識の方法の基本的な考え方 アピアランスベース 3次元物体を3次元情報に復元せずに2次元(アピアランス)のみで認識 CBIR(content-based image retrieval) 見た目が類似している画像を画像データベース中から検索する、 内容に基づく画像検索 5
  • 6. 3.2 局所特徴量 一般物体認識 2000年前後まで、一般物体認識は極めて困難な問題として考えられていた。 • 常に何らかの前提条件が必要 • 制約のない一般的な画像に適用することは困難 ブレークスルー(2000年代前半) ブレークスルー(2000年代前半) 年代前半 1. 局所特徴の組み合わせによる画像の表現 2. 局所特徴の表現法 3. 局所特徴のヒスグラム表現であるbag-of-features 6
  • 7. 3.2 局所特徴量 ブレイクスルー前夜 1990年代後半: 1990年代後半: 年代後半 • 内容:局所特徴の複数の組み合わせによって画像認識を行う 特定物体認識法が提案[49] • 3次元物体復元のための対応点抽出に使われていた特徴点抽出 アルゴリズムを物体認識に応用 • 多数の特徴点周辺の局所パターンの組み合わせで物体認識が可能 • オルクージョンや変形の影響を受けにくい 7
  • 8. 3.2 局所特徴量 SIFT(Scale Invariant Feature Transform)[33] 局所パターンの組み合わせによる認識のための特徴点検出と特徴ベクトルの 抽出法がセット 特徴: • 回転、スケールの変化に不変な特徴量 • 明るさの変化やアフィン変換(視点の移動)に頑強 以下の2処理を含むアルゴリズム: (1)特徴点とその点の最適スケールの検出 (2)特徴点の輝度勾配ヒストグラムによる128次元ベクトルによる記述 8
  • 9. 3.3 Bag-of-features 局所特徴量の問題点 1枚の画像から数百~数千個抽出 そのままでは、データ量が多すぎて扱いにくい Bag-of- Bag-of-features データ量を少なくし扱いやすくする • 局所特徴量のデータ量圧縮のためのアプローチ • 局所特徴量をベクトル量子化し、1枚の画像から抽出された局所特徴量の集合 を単一のヒストグラムで表現 9
  • 10. 3.3 Bag-of-features ヒストグラム 学習用画像データの各画像から抽出した多数の局所特徴量(濃淡変化に着目) から代表的な局所パターンをvisual wordとして選出 • ヒストグラムを作成することにより画像を表現 • 局所パターンは物体のカテゴリーと関係深い 10
  • 11. 3.3 Bag-of-features 一般物体認識と特定物体認識のアプローチの差分 • 一般物体認識 • visual words数:数百~数千 • 一般物体認識においては同じカテゴリーに属する物体の細かな差異の 吸収されることが望ましい • 特定物体認識 • visual words数:数万~百万 • 全く同じ局所パターンのみが1つのvisual wordに割り当てられることが 望ましい 11
  • 12. 3.3 Bag-of-features 統計的言語処理と画像認識処理の差分 • 統計的言語処理:bag-of-words • 文章をベクトル表現する方法として使用 • 語順を無視して文章を単語の出現頻度で表現 • 画像認識処理 :bag-of-features • 画像分類が文書分類と同じ問題として取り扱うことが可能 bag-of-features提案直後、言語処理の分野で提案された手法が画像認識 に応用されるということが起こった ・ サポートベクターマシンによるテキスト分類手法 ・ 文書分類のための確率的トピック抽出手法 12
  • 13. 3.3 Bag-of-features bag-of-featuresによる特徴表現への変換手順 1. 特徴点抽出 • 画像1枚に付き、数百~数千個程度 • 最近では、決められたピクセルごとの格子点やランダムに選ばれた点を 機械的に特徴点とする方法も活用(dense sampling) 2. BoFベクトルの計算 • SIFT記述子などを利用 3. 全学習画像の全局所特徴ベクトルのk-meansによるクラスタリングによる visual wordsの選出(図4.3) 4. visual wordsに基づいて各画像についてSIFT記述子ベクトルのヒストグラムを 作成(図4.4) 13
  • 14. 3.3 Bag-of-features 図4.3 図4.4 14 引用元: 八木、斎藤編:コンピュータビジョン最先端ガイド3
  • 15. 3.3 Bag-of-features sparse sampling / dense sampling 認識・・・テクスチャのない均一な局所特徴も重要な情報 画像の内容に関わらず機械的に特徴点の位置およびスケールを選択 する方法も有効[16] • sparse sampling • 特徴点抽出法(SIFTやSURFを含む)を用いて特徴点を抽出する方法 • dense sampling • 格子点やランダム点を特徴点として選択する方法 dense samplingでは、特徴点の数を任意に設定可能であるため、sparse samplingよりも多くの局所特徴を抽出可能 15
  • 16. 3.3 Bag-of-features sparse sampling / dense sampling 図4.5 16 引用元: 八木、斎藤編:コンピュータビジョン最先端ガイド3
  • 17. 3.3 Bag-of-features BoFベクトルの生成 一般的には方法 C)を選択することが多い A) TF-IFD(※)で重み付け ⇒bag-of-wordsでよく用いられる方法 B) 各要素を1か0の2値にしてヒストグラムを構成 C) visual wordsの出現回数をカウントしてヒストグラムを構成 画像間でvisual wordsの合計頻度に差がある場合、以下を行うことが多い • L1正規化:BoFベクトルの要素の絶対値の和を1とする • L2正規化:BoFベクトルの要素の2乗和を1とする (※) TF-IFD:索引語の重み付け方法のひとつ ex.一文書中に同じ索引語が多く出現すれば、TF-IDFの値は大きく また、多くの文書に索引語が出現すれば、値は小さくなる 17 引用元: http://nlp.nagaokaut.ac.jp/TF%E3%83%BBIDF
  • 18. 3.4 Spatial Pyramid Matching Bag-of-features表現・・・元の特徴点の位置を無視 画像中での位置も物体認識のための重要な手がかりになることが多い 自動車の場合 • タイヤ : 画像中の下方に写っていることが多い ⇒タイヤ特有のvisual wordが存在 • ルーフ : 画像中の上方に写っていることが多い ⇒ルーフ特有のvisual wordが存在 18
  • 19. 3.4 Spatial Pyramid Matching Spaitial Pyramid Matching法[30] 大まかな位置情報を考慮した画像間の類似度計算法 画像を4分割および16分割し画像ピラミッドを構築して、それぞれからBoFを 構築し、ピラミッドのレベルに応じ重みを付けて類似度を計算 図4.6 19 引用元: 八木、斎藤編:コンピュータビジョン最先端ガイド3
  • 20. 3.5 Bag-of-featuresの拡張 アプローチ分類 • コードブック作成法 • オンラインクラスタリングとmean-shift[24] • 階層的クラスタリング[41] • ガウス混合分布およびEMアルゴリズムによる確率的クラスタリング[43] • Information Bottleneck法[58] • sparse coding[58] • BoFベクトル生成法[74] • 色情報の追加[69] • Bag-of-featuresとは異なる特徴との混合 20
  • 21. 3.5 Bag-of-featuresの拡張 近年急速に拡大 動作認識 静止画像の局所特徴を時間軸方向に拡張 例:人間の動作の分類(歩く、走るなど) [15] bag-of-featuresを用いない一般物体認識 NBNN(Native Bayes Nearest Neighbor)[6] visual wordsを用いずに、特徴点マッチングのみで一般物体認識 アイデア 1. 未知画像の各特徴点と最も類似した学習データの特徴点まで の距離をクラスごとに別々に総和 2. 最も和が小さいクラスに分類 21