関東CV勉強会20140802（Face Alignment at 3000fps）

1
Face Alignment at 3000 FPS
via Regressing Local Binary
Features
解説者
東京大学佐藤洋一研究室
博士１年 tackson某
関東CV勉強会 2014年8月2日
CVPR 2014論文紹介

2
発表者プロフィール
• 略歴
– 東京高専から東大工学部に２年次編入
– 学部：セグメンテーション＠東大苗村研
– 修士：ステレオ＠東大苗村研（MSRAインターン）
– 博士：３次元復元＠東大佐藤洋一研
• 興味のある分野
– ３次元形状復元・ステレオ
– MRF最適化・グラフカット
– セグメンテーション
• Twitterアカウント

3
Face Alignment at 3000 FPS
via Regressing Local Binary
Features
Shaoqing Ren Xudong Cao Yichen Wei Jian Sun
中国科学技術大学
（インターン生）
MSRAのVisual Computingｸﾞﾙｰﾌﾟ研究者
(Associate/Lead/Principal Researcher)
指導教員が入っていないのが気になる
現地では筆頭不在でWei氏がオーラル発表

4
Face Alignmentとは
事前に定義された
顔のlandmarksの
位置の推定
提案手法：最高精度＆最高速度（3000 fps）

5
本研究の位置づけ
Active Shape Model [BMVC ’92]
Optimizationベース
・エネルギー関数を最小化
・”wild“環境で低性能
Regressionベース
ベストな形状更新を
直接予測
Active Appearance Model [ECCV ’98, PAMI ’01]
Cascaded Regression [CVPR ‘10]
Explicit Shape Regression [CVPR ‘12]
3000 FPS via Local Binary Features [CVPR ‘14]
(See [Cao+ CVPR ‘12] & [Burgos-Artizzu+ ICCV ‘13] for more discussions)
Under Occlusion [ICCV ‘13]

6
提案手法の特徴
■ 従来手法と同じ
• Regressionベース
• Cascaded Regression Framework
• Shape-Indexed Feature
• Ensemble Regression（Random Forest）
■ 提案ポイント
• Local Binary Feature
• Local FeatureをGlobalにRegression
• 3000 FPSの秘訣

7

8
Face Alignment via Regression (学習)
min
𝑅
𝑖
𝑆𝑖
∗
− 𝑆𝑖
0
+ 𝑅 𝐼𝑖, 𝑆𝑖
0
最適な変位量関数𝑹を様々なﾊﾟﾀｰﾝで学習
今の形状正解形状変位量関数
学
習
用
デ
ー
タ
… …
𝑖 = 1 𝑖 = 𝑁training image 𝐼𝑖

9
Face Alignment via Regression (テスト)
画像･形状ペアから直接変位量を予測
更新後の形状𝑆1
𝑆1 = 𝑆0 + 𝑅 𝐼, 𝑆0
テ
ス
ト
デ
ー
タ
training image 𝐼𝑖
入力：画像𝐼と初期形状𝑆0

10
１回の更新だけじゃ
あんまりうまくいかないのかな

11

12Cascaded Regression [Dollar+ CVPR
‘10]
training images 𝑖
training images 𝑖
ステージごとに段階的に変位量𝑹 𝒕
を学習
𝑅 𝑡
を学習
𝑅 𝑡で形状更新
𝑅 𝑡+1を学習

13Cascaded Regression [Dollar+ CVPR
‘10]
𝑺 𝐟𝐢𝐧𝐚𝐥
= 𝑺 𝟎
+ 𝑹 𝟏
+ 𝑹 𝟐
+ ⋯ + 𝑹 𝑻
𝑺 𝟎
𝑺 𝟏
𝑺 𝑻
⋯
coarse fine
coarse-to-fineな変形列を自然に生成 [Cao+ CVPR ‘12]

14
全体像はわかったけど
具体的な学習方法の
イメージがわかないゾ
𝑹 𝑰, 𝑺 の学習 ??

15

16Shape-Indexed Feature [Fleuret+ JMLR
‘08]
𝑅 𝐼, 𝑆 = Δ𝑆
形状正解形状変位量関数
𝑅 = argmin
𝑅
𝑖
(𝑆𝑖
∗
− 𝑆𝑖) − 𝑅 𝐼𝑖, 𝑆𝑖
画像と今の形状正解への変位
マッピングの学習
𝑟 𝑓 𝐼, 𝑆 = Δ𝑆
要するに
Shape-Indexed Feature:
今の形状に相対的な画像特徴量
正確には特徴量と変位のﾏｯﾋﾟﾝｸﾞ

‘08]
つまり形状に相対的な座標上での画像特徴抽出
 絶対座標
 形状中心から
の相対座標
Pose-variationになるべくinvariantに特徴抽出
一番近いlandmark
からの相対座標
[Cao+ CVPR ‘12]
2つのlandmarks
の線形結合座標
[B-A+ ICCV ‘13]

‘08]
実際の特徴量は pixel-difference features
2画素(p, q) の輝度値の差
𝑓 𝐼, 𝑆 =
𝐼 𝑝1
− 𝐼 𝑞1
𝐼 𝑝2
− 𝐼 𝑞2
𝐼 𝑝3
− 𝐼 𝑞3
⋮
𝐼 𝑝 𝑛
− 𝐼 𝑞 𝑛
画素ペア集合
サンプル点(p, q) はうまいこといい感じに選ぶ [Cao+ CVPR ‘12]

19
あとは特徴量 𝒇 𝑰, 𝑺 と
変位量𝜟𝑺の対応関係
𝒓 𝒕
𝒇 𝑰, 𝑺 = 𝚫𝑺
を学習すればいいんだね!
まさに回帰問題だね！

20
• Ensemble Regression (Random Forest)

21
Ensemble Regression (Random Forest)
Δ𝑆1
Δ𝑆4
Δ𝑆2 Δ𝑆3 Δ𝑆6
Δ𝑆 𝑁
Δ𝑆2
Δ𝑆9
Δ𝑆4
𝑓1
𝑓1
Δ𝑆1
Δ𝑆4
Δ𝑆 𝑁
𝑓1, Δ𝑆1 , 𝑓2, Δ𝑆2 , 𝑓3, Δ𝑆3 , 𝑓4, Δ𝑆4 , …, 𝑓𝑁, Δ𝑆 𝑁
学習
データ
subset
で学習
subset
で学習
subset
で学習

22
Ensemble Regression (Random Forest)
Δ𝑆1
Δ𝑆4
Δ𝑆 𝑁
Δ𝑆2
Δ𝑆9
Δ𝑆4
𝑓1
𝑓1
Δ𝑆1
Δ𝑆4
Δ𝑆 𝑁
𝑓1, Δ𝑆1 , 𝑓2, Δ𝑆2 , 𝑓3, Δ𝑆3 , 𝑓4, Δ𝑆4 , …, 𝑓𝑁, Δ𝑆 𝑁
学習
データ
subset
で学習
subset
で学習
subset
で学習
テストデータ 𝒕 の回帰予測
r 𝒕 = 𝑚𝑒𝑎𝑛 Δ𝑆2, Δ𝑆2, Δ𝑆 𝑁, Δ𝑆2, Δ𝑆9
𝒕
𝒕
𝒕
𝒕
𝒕
𝒕
※ これを直接使うと[Cao+ CVPR ‘12]とほぼ同じアプローチ

23
これでベースラインは
カンペキだね☆

24

25
Global Regression vs Local Regression
 landmark同士の相互作用やcontextを考慮できる
 その利点を生かしきれない現実面での事情
（学習データ不足・学習時間・学習手法の性能）
全landmark同時の回帰学習 [Cao+ CVPR ‘12]
Landmarkごとの個別の回帰学習

26
Local Binary Feature
Δ𝑆1
Δ𝑆4
Δ𝑆 𝑁
Δ𝑆2
Δ𝑆9
Δ𝑆4
Δ𝑆1
Δ𝑆4
Δ𝑆 𝑁
𝒕
𝒕
𝒕
𝒕
𝒕
𝒕
Landmark周辺の
Shape-Indexed Featureで回帰学習
ローカルな回帰予測は精度が低いので捨てる (！)
Binary Features
1 0 0 0 0 0 0 1 0 1 0 0

27

28Local Binary Features の Global
Regression
0 0 1 0 0 … 0
0 1 0 0 0 … 1
Local Binary Features
…
0…00…1 0…0 0…0
全Landmarkの
Binary Featureを結合
min
𝑊
𝑖
𝑺𝒊
∗
− 𝑺𝒊 + 𝑊𝝓𝒊 2
2
+ 𝑊 2
2
今の形状正解形状
1 0 0 0 0 … 0
全landmarkの特徴量を使ったGlobal回帰学習
（Local回帰→ Global回帰の２段階回帰）
 あるLandmarkが遮蔽されてても他が助けてくれる
over-fitting回避

29
これでようやく
回帰の学習部分の
話はおしまい ☆
次は実行時の話

30

31
実行時の動作：3000FPSの秘訣
とってもスパース
𝚫𝑺 = 𝑊𝝓
形状更新の予測
0 0 1 0 0 … 0
0 1 0 0 0 … 1
…
1 0 0 0 0 … 0
Treeだからとっても速い
テストデータ
 とっても高速な積計算
𝝓 が1になるところだけ
𝑊の列ベクトルを参照して
加算するだけで良い

33
３つのデータセットで評価
ESR [Cao+ CVPR’ 12]
同著者らの手法
グローバル回帰
SDM [Xiong+ CVPR ’13]
Supervisedな勾配法
LBF手法は精度も速度も state-of-the-art
※ LFPWデータセット
人力で3.28

34
難しいデータセット（300-W）の結果

35
提案手法がSDMとESRに勝ってるケース

37
Global学習 vs Local 学習
Local学習のほうがより良い特徴抽出できる

38
Global回帰するときの特徴量
Binary特徴は学習結果の完全な情報を保持
Δ𝑆1
Δ𝑆4
Δ𝑆 𝑁
Δ𝑆2
Δ𝑆9
Δ𝑆4
Δ𝑆1
Δ𝑆4
Δ𝑆 𝑁
𝑚𝑒𝑎𝑛 Δ𝑆2, Δ𝑆2, Δ𝑆 𝑁, Δ𝑆2, Δ𝑆9
vs
0 0 0 11 0 0 0 0 1 0 0

40
実際のデモ
昨晩実装したものをお見せします

42
参考文献
• 今回の論文
Shaoqing Ren, Xudong Cao, Yichen Wei, Jian Sun, Face Alignment at
3000 FPS via Regressing Local Binary Features (CVPR 2014).
• Cascaded Regressionの論文（今回のアプローチの大元？？）
Piotr Dollár, Peter Welinder, Pietro Perona, Cascaded Pose Regression
(CVPR 2010).
• 今回の論文と同じ著者グループ（実質のベースライン。ただし
Random Forestではなく別の方法でEnsemble Regressionしてる）
Xudong Cao, Yichen Wei, Fang Wen, Jian Sun, Face Alignment by
Explicit Shape Regression (CVPR 2012).
• 上論文に対してocclusionを考慮（そこまで大きな改善ではない）
Xavier P. Burgos-Artizzu, Pietro Perona, Piotr Dollar, Robust face
landmark estimation under occlusion (ICCV 2013).

43
おことわり
スライドに使われた画像は
ネット上の画像群から無作為に抽出されたもので
発表者個人の趣向を代表するものではありません

44
THANK YOU 
本日の発表内容は
• Face Alignment
• Regressionアプローチ
– Cascaded Regression
– Shape-Indexed Feature
– Ensemble Regression
• 提案手法
– Local Binary Feature
– Local FeatureのGlobal Regression
でした

関東CV勉強会20140802（Face Alignment at 3000fps）

Recomendados

Recomendados

Mais conteúdo relacionado

Mais procurados

Mais procurados (20)

Semelhante a 関東CV勉強会20140802（Face Alignment at 3000fps）

Semelhante a 関東CV勉強会20140802（Face Alignment at 3000fps） (20)

関東CV勉強会20140802（Face Alignment at 3000fps）