Objectnessとその周辺技術

Objectnessとその周辺技術
Objectness
[1] B. Alexe, T. Deselaers, and V. Ferrari, “What is an object ?,” in IEEE Conference on Computer Vision
and Pattern Recognition, 2010.
[2] B. Alexe, T. Deselaers, and V. Ferrari, “Measuring the objectness of image windows,” IEEE
Transactions on Pattern Analysis and Machine Intelligence, vol. 34, no. 11, pp. 2189–2202, 2012.
([1]と同じ提案手法でデータを追加してPAMIに掲載された論文)
Saliency
[3] L. Itti, C. Koch, and E. Niebur, “A Model of Saliency-Based Visual Attention for Rapid Scene
Analysis,” IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 20, no. 11, pp. 1254–
1259, 1998.
[4]X. Hou and L. Zhang, “Saliency Detection : A Spectral Residual Approach,” in IEEE Conference on
Computer Vision and Pattern Recognition, 2007.
Segmentation
[5]P. F. Felzenszwalb and D. P. Huttenlocher, “Efficient Graph-Based Image Segmentation,”
International Journal of Computer Vision, vol. 59, no. 2, 2004.
Fusing Generic Objectness and Visual Saliency
[6]K. Chang, T. Liu, H. Chen, and S. Lai, “Fusing Generic Objectness and Visual Saliency for Salient
Object Detection,” in International Conference on Computer Vision, 2011.
Dec 05, 2012 山中高夫

背景
 画像中の注目領域検出
• Saliency（顕著度）[Itti PAMI1998]
• Objectness [Alexe CVPR2010, Alexe PAMI2012]
Saliency Map [Itti PAMI1998]
Objectness
[Alexe CVPR2010, Alexe PAMI2012]
Green: Ground Truth
Blue: Partially covering
ground truth
Red: Wrong windows

Objectness
 Objectnessの構成要素（4指標）
• Multi-scale Saliency (MS)
[Hou CVPR2007]の
Saliencyを利用
• Color Contrast (CC)
• Edge Density (ED)
• Superpixels Straddling (SS)
[Felzenszwalb IJCV2004]
のSegmentationを利用
MS
CC
ED
SS

Saliency Detection :
A Spectral Residual Approach
[Hou CVPR2007] X. Hou and L. Zhang, “Saliency Detection : A Spectral
Residual Approach,” in IEEE Conference on Computer Vision and Pattern
Recognition, 2007.

• 画像のSaliencyを計算する手法が
[Itti PAMI1998]で提案されて以
来，様々な手法が提案されている
• しかし，それらは複雑なモデルを
利用しており，計算量が多い
• これらの多くの手法では，物体の
対象領域に着目し，その特徴をモ
デル化しているが，様々な対象物
体を統一的な枠組みでモデル化す
ることは難しい
Saliency Map [Itti PAMI1998]
背景

目的
• 対象物体ではなく，背景の特徴に着目し，その背景モデル
を利用する
• 自然画像の特徴を利用した単純な背景モデルを利用するこ
とにより，計算量の少ないSaliencyモデルを提案する
自然画像の特徴
多くの自然画像では，全方向の
平均周波数スペクトルが両対数
グラフでほぼ直線に近似できる
→ しかし，周波数軸を対数で
とると，低周波数の点が不規則
になるので，周波数軸は実軸と
する

対数周波数スペクトル表現

平均周波数スペクトル
• 複数画像の対数周波数スペクトルを平均することにより，
なだらかな曲線となる
• 多くの画像を平均したスペクトルでは局所的な線形性が成
り立つ
• 個々の画像に特有の情報は，平均スペクトルとの差に現れ
る。

Spectral Residual
• 個々の画像の対数周波数スペクトルL(f)と平均対数周波数
スペクトルA(f)の差 Spectral Residual R(f)を，Saliency
として利用する
• ただし，平均対数周波数スペクトルA(f)を，１枚の画像に
対する対数周波数スペクトルL(f)に移動平均フィルタhn(f)
をかけた波形で近似する
𝑅 𝑓 = 𝐿 𝑓 − 𝐴(𝑓)
𝐴 𝑓 ≅ ℎ 𝑛 𝑓 ∗ 𝐿(𝑓)
畳み込み積分
A(F)
L(F)

Spectral Residualの計算例
L(F)
R(F)
A(F)

Saliency Map
• 求められたSpectral Residual R(f)からSaliency Map
S(x)を求めるため，元の画像の位相情報P(f)をそのまま
使って逆フーリエ変換する
𝑆 𝑥 = 𝑔 𝑥 ∗ 𝐹−1
[exp 𝑅 𝑓 exp⁡( 𝑗𝑃 𝑓 )]2
振幅情報位相情報
= 𝑔 𝑥 ∗ 𝐹−1
[exp 𝑅 𝑓 + 𝑗𝑃 𝑓 ]2
Saliency Mapを平滑化する
ためのガウシアンフィルタ

計算方法のまとめ
𝑆 𝑥 = 𝑔 𝑥 ∗ 𝐹−1
[exp 𝑅 𝑓 + 𝑗𝑃 𝑓 ]2
𝐴 𝑓 = 𝑎𝑏𝑠(𝐹 𝐼 𝑥 )
𝐼(𝑥) 入力画像
𝑃 𝑓 = 𝑎𝑛𝑔𝑙𝑒(𝐹 𝐼 𝑥 )
振幅（周波数スペクトル）
位相
𝐿 𝑓 = log⁡( 𝐴 𝑓 )
𝑅 𝑓 = 𝐿 𝑓 − ℎ 𝑛 𝑓 ∗ 𝐿(𝑓)
対数スペクトル
残差スペクトル
論文では虚数単位がぬ
けているので注意

Visual Scaleの選択
• 入力画像の解像度（画素数）によりSaliency Mapの結果
が異なる
• 解像度が高いほど細かい部分を検出し，低いほどおおまか
な物体を検出する
• 本研究では，経験的に64x64の画像に変換してSaliency
Mapを求めると良い結果が得られることがわかった
32x32
512x512

定性的な実験結果（１）

定性的な実験結果（２）

定量的な実験結果（1）
 評価指標
• 被験者4人に対して物体のGround Truthを取得
k番目の被験者に対する画素xの判定
𝑂 𝑘 𝑥 =
1
0
for 物体
for 非物体
𝐻𝑅 = 𝐸 𝑂 𝑘(𝑥) ∙ 𝑆(𝑥)
𝑘
𝐹𝐴𝑅 = 𝐸 (1 − 𝑂 𝑘(𝑥)) ∙ 𝑆(𝑥)
𝑘
Hit Rate
False Alarm Rate

定量的な実験結果（２）

実験結果の比較
input SR Itti Ok

心理実験に利用されるパターン

Efficient Graph-Based Image
Segmentation
[Felzenszwalb IJCV2004] P. F. Felzenszwalb and D. P. Huttenlocher,
“Efficient Graph-Based Image Segmentation,” International Journal of
Computer Vision, vol. 59, no. 2, 2004.

背景と目的
 背景
• コンピュータビジョンの様々な課題に対して，画像中の画
素をグループ分けする手法（Segmentation）が役立つ
• 人の視覚における物体の認識でも，物体の知覚的なグルー
プ分けが有効であると考えられている
 目的
• コンピュータビジョンの様々な課題に対して幅広く役立つ
Segmentation手法を提案する
• 以下の2つの特徴を有する手法を
提案する
(1) 知覚的に重要なグループ分けを行う
(2) 効率的に計算できる

Graph-Based Segmentation
𝐺 = (𝑉, 𝐸)
無向グラフ𝐺
𝑉
𝐸
頂点の集合
エッジの集合
𝑣𝑖
𝑣𝑗
(𝑣𝑖, 𝑣𝑗)
Image Segmentationでは
画素に対応
Image Segmentation → グラフの頂点Vの分割
各エッジは重みw(vi, vj)を持つ
𝐺グラフ

提案手法のコンセプト
• ある画像のImage Segmentationを考える
• その画像中の2つの隣合うSegmentation領域間の
Dissimilarity（相違度）が，各Segmentation領域内の相違
度より大きい時，その2つの領域を異なる領域として扱う
• 逆に，Segmentation領域間の相違度が，各Segmentation
領域内の相違度より小さい時，その2つの領域を結合する
領域C2
領域C1
𝑣𝑗
𝑣𝑖
(𝑣𝑖, 𝑣𝑗)

コンセプトの数式モデル
領域内の相違度（領域内の隣合う頂点間の重みの最大値）
𝐼𝑛𝑡 𝐶 = max
𝑒∈𝑀𝑆𝑇(𝐶,𝐸)
𝑤(𝑒)
領域間の相違度（領域間の隣合う頂点間の重みの最小値）
𝐷𝑖𝑓 𝐶1, 𝐶2 = min
𝑣 𝑖∈𝐶1,𝑣 𝑗∈𝐶2,(𝑣 𝑖,𝑣 𝑗)∈𝐸
𝑤((𝑣𝑖, 𝑣𝑗))
領域間の分離
𝐷 𝐶1, 𝐶2 =
𝑡𝑟𝑢𝑒
𝑓𝑎𝑙𝑠𝑒
𝐷𝑖𝑓 𝐶1, 𝐶2 > ⁡𝑀𝐼𝑛𝑡(𝐶1, 𝐶2)for
otherwise
ただし，
𝑀𝐼𝑛𝑡 𝐶1, 𝐶2 = min⁡( 𝐼𝑛𝑡 𝐶1 + 𝜏 𝐶1 , 𝐼𝑛𝑡 𝐶2 + 𝜏 𝐶2 )
𝜏 𝐶 = 𝑘/ 𝐶 Threshold function

領域の分離・結合の効率的計算方法
入力：G=(V, E) where V n個の頂点，E m本のエッジ
出力：Vに対するSegmentation S=(C1, …, Cr)
1. m本のエッジEを小さい順に並べる（o1, …, om)
2. すべての頂点が個々に領域となっているS0から開始
3. ステップ4をq=1, …, mまで繰り返す
4. Sq-1からSqを以下のように求める。Sq-1において，vi, vjがそ
れぞれCi
q-1, Cj
q-1の領域にあるとする。 Ci
q-1 ≠ Cj
q-1 かつ
w(oq)≦MInt(Ci
q-1, Cj
q-1)の時， Ci
q-1とCj
q-1を結合してSq
とする。それ以外の時，Sq=Sq-1とする。
5. S=Smを出力する
このアルゴリズムで求められたSegmentationは
前述の特徴を満たす

グリッドグラフに対する実験（実験手法）
• グラフの頂点vi∈Vを画像の各画素とする
• グラフのエッジEを8近傍の画素の結合とする
• エッジの重みを以下のように画素間の輝度差とする
I(vi)は画素viにおける輝度を表すが，通常，元画像にガウシ
アンフィルタをかけて多少スムージングを行う（本研究で
はσ=0.8のガウシアンフィルタ）
• カラー画像に対しては，各チャネルに対してSegmentation
を行い，全チャネルで同じ領域にある画素を一つの領域とし
て出力する
𝑤 𝑣𝑖, 𝑣𝑗 = 𝐼 𝑣𝑖 − 𝐼(𝑣𝑗)

グリッドグラフに対する実験（実験結果）

最近傍グラフに対する実験（実験手法）
• グラフの頂点vi∈Vを画像の各画素とする
• 各画素（頂点）における特徴量として，(x, y, r, g, b)を用い
る
• グラフのエッジEを，特徴量空間における近傍の頂点から構
成する（本実験では10近傍を使用する）
• エッジの重みを特徴量空間におけるユークリッド距離とする
𝑤 𝑣𝑖, 𝑣𝑗 = (𝑓𝑖 − 𝑓𝑗)2
𝑓∈𝑥,𝑦,𝑟,𝑔,𝑏

最近傍グラフに対する実験（実験結果）

Fusing Generic Objectness and Visual
Saliency for Salient Object Detection
[Chang ICCV2011] K. Chang, T. Liu, H. Chen, and S. Lai, “Fusing Generic
Objectness and Visual Saliency for Salient Object Detection,” in
International Conference on Computer Vision, 2011.

背景と目的
 背景
• ObjectnessとSaliencyは深く関係しているが，その関係
性を双方向に活用した例はない
• 例えば，Objectnessを計算するためにSaliencyを利用し
ていたり，Saliencyを計算するためにObjectの情報を活
用したりする例があるが，双方向の関係性は考慮されてい
ない
 目的
• ObjectnessとSaliencyの関係性を双方向に活用する手法
を提案する
• つまり，Objectnessの情報を活用してSaliencyの精度を
向上し，逆にSaliencyの情報を活用してObjectnessの精
度を向上する

ObjectnessとSaliencyの双方向改善例
(c) S. Goferman, L. Zelnik-Manor, and A. Tal, “Context-Aware Saliency Detection,” CVPR 2010.
(d) R. Achanta, et al., “Frequency-tuned Salient Region Detection,” CVPR 2009.
(e) B. Alexe, T. Deselaers, and V. Ferrari, “What is an object ?,” CVPR 2010.

ObjectnessとSaliencyの統合モデル
従来のSaliency
ただしSegmentationによる
Superpixel毎にSaliencyを求める
従来の
Objectness
𝐹 𝐱 𝑠
, 𝐱 𝑜
= 𝐹𝑠 𝐱 𝑠
+ 𝐹𝑜 𝐱 𝑜
+ ∆(𝐱 𝑠
, 𝐱 𝑜
)
𝐱 𝑠
= [𝑥1
𝑠
, ⋯ , 𝑥 𝑚
𝑠
, ⋯ , 𝑥 𝑃
𝑠
]
𝐱 𝑜
= [𝑥1
𝑜
, ⋯ , 𝑥𝑖
𝑜
, ⋯ , 𝑥 𝑄
𝑜
]
エネルギー関数の最小化

Saliencyに関するエネルギー関数
𝐹 𝐱 𝑠
, 𝐱 𝑜
+ ∆(𝐱 𝑠
, 𝐱 𝑜
)
𝐹𝑠 𝐱 𝑠
= (𝑝 𝑚
𝑠
− 𝑥 𝑚
𝑠
)2
𝑚
+ 𝜆 𝑠 𝑤 𝑚,𝑛(𝑥 𝑚
𝑠
− 𝑥 𝑛
𝑠
)2
𝑚,𝑛∈𝜀
従来の
Saliency 求めたい
Saliencyの値
隣合う
Saliencyの値
𝑤 𝑚,𝑛 = exp⁡(−𝜎 𝐯 𝑘 − 𝐯𝑙 ⁡2
)⁡
(𝑘,𝑙)∈𝐵 𝑚,𝑛
Superpixel間の境界画素のRGBベクトル
vk, vlが近いときSaliencyも近い値にする
Superpixel間の
境界の画素

Objectnessに関するエネルギー関数
𝐹 𝐱 𝑠
, 𝐱 𝑜
+ ∆(𝐱 𝑠
, 𝐱 𝑜
)
𝐹𝑜 𝐱 𝑜
= 𝜆 𝑜 (𝑝𝑖
𝑜
− 𝑥𝑖
𝑜
)2
𝑖
従来の
Objectness
求めたい
Objectnessの値
従来のObjectnessとできる限り近い値にする

SaliencyとObjectnessの相互作用（１）
𝐹 𝐱 𝑠
, 𝐱 𝑜
+ ∆(𝐱 𝑠
, 𝐱 𝑜
)
あるObjectness window i に対し
て，まずObject-level Saliency ciを
求める
ただし，hi,c, hi, sはそれぞれ
Objectness window i の中心ヒ
ストグラムと周辺ヒストグラムで
り，その差をciとする

SaliencyとObjectnessの相互作用（２）
𝐹 𝐱 𝑠
, 𝐱 𝑜
+ ∆(𝐱 𝑠
, 𝐱 𝑜
)
求めたciから，m番目のsuperpixelに
対するTop-down saliency τm
sを次
式で求める
SaliencyとObjectnessの相互作用
に対する評価関数を，τm
sを用いて次
式で定義する
求めたいSaliencyの値

評価関数の最小化
𝐹 𝐱 𝑠
, 𝐱 𝑜
+ ∆(𝐱 𝑠
, 𝐱 𝑜
)
以下の（１），（２）を繰り返して，評価関数F(xs, xo)を最
小化する。
（１）与えられたObjectness xoに対して，F(xs, xo)を最小に
するSaliency xsを求める
（２）与えられたSaliency xsに対して， F(xs, xo)を最小にす
るObjectness xoを求める

評価関数の最小化（１）
𝐹 𝐱 𝑠
, 𝐱 𝑜
+ ∆(𝐱 𝑠
, 𝐱 𝑜
)
（１）与えられたObjectness xoに対して，F(xs, xo)を最小に
するSaliency xsを求める

評価関数の最小化（２）
𝐹 𝐱 𝑠
, 𝐱 𝑜
+ ∆(𝐱 𝑠
, 𝐱 𝑜
)
（２）与えられたSaliency xsに対して， F(xs, xo)を最小にす
るObjectness xoを求める
１ステップ前のxi
oで近似
上式を最小化するxoをcvx toolboxにより求める
M. Grant and S. Boyd. CVX:Matlab software for disciplined convex
programming, version 1.21. http://cvxr.com/cvx

実験結果（評価指標）
評価指標：Average Precision (AP)
Saliencyが上位i個のSuperpixels
をとったときの正解率
全正解の個数
Saliency Ground Truth Data（２種類）
(1)目の動きを記録し，ガウシアンフィルタで平滑
化した画像
(2)Superpixel毎に目の動きが通過する割合を記録
全正解のSuperpixelに対して，正解率の平均を計算

まとめ
• Objectnessとその周辺技術について紹介した
• コンピュータビジョンの課題の多くは，前処理として対象物
体の位置を特定する必要がある
• Objectness及びその周辺技術は，その前処理手法を提供する
汎用的なツールである

[参考] Objectnessにおける4指標の統合
 4指標(MS, CC, ED, SS)を統合
• 最も直接的な方法：MS, CC, ED, SSの同時確率を求める
→ 計算量が多く，実際には困難
• Naive Bayes Approach
𝑝 𝑜𝑏𝑗⁡ ⁡𝑀𝑆, 𝐶𝐶, 𝐸𝐷, 𝑆𝑆 =
𝑝 𝑀𝑆, 𝐶𝐶, 𝐸𝐷, 𝑆𝑆⁡ ⁡𝑜𝑏𝑗) 𝑝(𝑜𝑏𝑗)
𝑝(𝑀𝑆, 𝐶𝐶, 𝐸𝐷, 𝑆𝑆)
𝑝 𝑜𝑏𝑗⁡ ⁡𝑀𝑆, 𝐶𝐶, 𝐸𝐷, 𝑆𝑆 =
𝑝 𝑀𝑆, 𝐶𝐶, 𝐸𝐷, 𝑆𝑆⁡ ⁡𝑜𝑏𝑗) 𝑝(𝑜𝑏𝑗)
𝑝(𝑀𝑆, 𝐶𝐶, 𝐸𝐷, 𝑆𝑆)
≅
𝑝(𝑀𝑆 𝑜𝑏𝑗 𝑝 𝐶𝐶 𝑜𝑏𝑗 𝑝 𝐸𝐷 𝑜𝑏𝑗 𝑝(𝑆𝑆|𝑜𝑏𝑗)𝑝(𝑜𝑏𝑗)
𝑝 𝑀𝑆 𝑝 𝐶𝐶 𝑝 𝐸𝐷 𝑝(𝑆𝑆)
MS, CC, ED, SSが互いに独立である
ことを仮定して計算量を低減

[参考] Spectral Residualにおける
移動平均フィルタサイズの影響
• 移動平均フィルタのサイズは，Saliencyの計算結果にあま
り影響を与えない（サイズはそれほど厳密に考えなくても
良い）

Objectnessとその周辺技術

Recomendados

Recomendados

Mais conteúdo relacionado

Mais procurados

Mais procurados (20)

Destaque

Destaque (8)

Semelhante a Objectnessとその周辺技術

Semelhante a Objectnessとその周辺技術 (20)

Último

Último (8)

Objectnessとその周辺技術