ICCV2015勉強会顔関連論文のまとめ

Faces in ICCV2015
@51takahashi

• さのまる
• @51Takahashi
• 専門は顔の画像処理
• 今回の発表は所属組織と関係ありません
• ICCVの論文を一括ダウンロードするPythonスクリプト
– http://51takahashi.tumblr.com/
自己紹介
ICCV2015読み会
2

はじめに
ICCV2015読み会
3
• ICCV2015の顔関連の研究はどれくらい？
– 検索条件: face or facial
– 27/526件
– 一応、全論文に目を通しました

はじめに
ICCV2015読み会
4
– 27/526件
– 研究動向
– 顔特徴点検出 7件
– 表情認識 5件
– 顔認証 4件
– 顔属性認識 4件
– 顔検出 2件
– 3D顔モデル推定 2件
– その他 3件

はじめに
ICCV2015読み会
5
– 27/526件
– 研究動向
– 顔特徴点検出 7件
– 表情認識 5件
– 顔認証 4件
– 顔属性認識 4件
– 顔検出 2件
– 3D顔モデル推定 2件
– その他 3件
– 3D顔モデル推定を除く25本の論文を軽く紹介します
– オススメ論文 ★
– 動画あり ♪

1. Robust Facial Landmark Detection
Under Significant Head Poses and Occlusion
ICCV2015読み会
7
• どんな研究？
– 横向きや遮蔽にロバストな顔特徴点検出
• どんな手法？
– カスケード型回帰モデルを使用
– 推定した顔の形とSIFT特徴から、特徴点が見えている確率を求める
• 結果と感想は？
– 通常のベンチマークデータセット（Helen・LFW）でも良好
– 横向き・遮蔽ありのデータセット（COFW）ではすごく良い結果
– おそい（2fps）

2. Pose-Invariant 3D Face Alignment
ICCV2015読み会
8
– 横向きでもOKで、しかも3Dの顔特徴点検出
– 3D拡張したカスケード型回帰モデルを使用
– 3Dモデルの法線ベクトルから見えてない点を算出
– 良好らしいけど、データセットも比較できる手法も全然なくて正直不明
– 3D特徴点なので、横向きの顔の奥の特徴点位置を計算できる
– はやい（58fps）

3. Regressing a 3D Face Shape From a Single Image
ICCV2015読み会
9
– 横向きでもOKで、しかも3Dの顔特徴点検出&顔向き推定
– 3D拡張したカスケード型回帰モデルを使用
– 3000枚の3D顔に68点の手動アノテーションをした（すごい）
– 良好らしいけど、データセットも比較できる手法も全然なくて正直不明
– 3D特徴点なので、横向きの顔の奥の特徴点位置を計算できる
– はやい（9ms）

4. Leveraging Datasets With Varying Annotations
for Face Alignment via Deep Regression Network ★
ICCV2015読み会
10
– 点数の異なる複数のデータセットを合体して顔特徴点検出
– カスケード型ディープ回帰モデルを使用
– アノテーションされてない特徴点は周辺の（疎な）アノテーション済み
の特徴点から近似
– 最も困難なデータセット（IBUG）でも非常にいい結果
– ディープによる性能向上＋混合データセットによる性能向上がすごい
– おそい（330ms）

5. Regressive Tree Structured Model
for Facial Landmark Localization ♪
ICCV2015読み会
11
– 顔検出+顔向き推定+顔特徴点検出を同時に行う手法
– Tree Structure Modelを改良（[Zhu+ CVPR2012]で有名）
– 小さな顔も検出できて高速化にも対応
– 普通に顔検出&顔特徴点検出した手法に比べて性能が悪い（書いてない）
– おそい（700ms）
– なぜ通ったのか不明
https://www.youtube.com/watch?v=IJlnKek8648

6. Robust Statistical Face Frontalization ★
ICCV2015読み会
12
– ヒトとネコ(!?)の顔特徴点検出&正面顔生成
– Active Appearance Modelっぽい最適化ベースの手法
– 正面顔を行列として捉えると、その行列はランクが低いっていう発想をコ
スト関数に利用
– 凸最適化で定式化、 ADMMを使って解く
– 人間の顔特徴点検出の性能は普通、ネコは良好
– 生成した正面顔で顔認証してるけど結果は微妙、ネコはかわいい
– おそそう（イテレーション中に核ノルム・L0最適化）

7. PIEFA: Personalized Incremental and Ensemble
Face Alignment
ICCV2015読み会
13
– 時系列の情報を考慮した顔特徴点検出
– 前後フレームの顔は高相関（低ランク）なことをコスト関数に利用
– 凸最適化で定式化、ALMを使って解く（6. とすごく似てる）
– 動画データセットでの結果は良好
– 省メモリ化・高速化されてるけど、おそい（1024フレームで12分）

8. Joint Fine-Tuning in Deep Neural Networks for
Facial Expression Recognition ♪
ICCV2015読み会
15
– 2種類のDNNを組み合わせた表情認識
– 1つ目は時系列の画像を入力、2つ目は顔特徴点座標を入力するDNN
– それぞれを個別に学習してから、最終層で結合してファインチューニング
– CK+とOulu-CASIAの2つのデータセットでstate-of-the-artを達成
– ネットワーク構造とか工夫したらもっとよくなりそう
https://www.youtube.com/watch?v=wlaR5F30hiU

9. Pairwise Conditional Random Forests for
Facial Expression Recognition ★
ICCV2015読み会
16
– 画像ペアを入力するランダムフォレストを使った表情認識
– 1種類＋全N種類の表情ペアを使ってN個のランダムフォレストを学習
– 過去のフレームの推定結果を事前分布として木をサンプリングして推論
– 過去のフレームで笑ってたら、笑い+全N種類の木が多く選ばれる
– CK+は8. の手法とだいたい一緒で、その他も良好な結果

10. Confidence Preserving Machine for
Facial Action Unit Detection
ICCV2015読み会
17
– 個人差に適応可能な識別器を使ったAU(Action Unit)検出
– 分類が簡単か困難かという確信度に基づく識別器を学習
– SVMのような考え方で、2本の識別境界w-とw+を推定
– 本人のサンプルから簡単なサンプルを特定して、分類境界を更新
– 個人差を考慮できるからSVMより高精度、という印象
(表情のアクション：口角が上がる等)

11. Learning to Transfer: Transferring Latent Task Structures and
Its Application to Person-Specific Facial Action Unit Detection
ICCV2015読み会
18
– スマイルに正則化を加えたマルチタスク学習を使ってAU検出器を個人調整
– AUのなかでもAU12（スマイル）は一番簡単
– 全AU平等にマルチタスク学習のではなく、AU12を検出するのに必要な変換
行列を他のAU検出器の変換行列と似せる、というアイデア
– Grouping & Overlap in Malti-Task Learning[Kumar+ ICML2012]の拡張
– 本人データなしでは普通だけど、本人データを少し加えると大きく性能向上
– アイデアベースの手法でおもしろい

12. Multi-Conditional Latent Variable Model for
Joint Facial Action Unit Detection
ICCV2015読み会
19
– すべてのAUを同時に学習できる、生成モデルを使ったAU検出手法
– AUごとに個別にモデルを作るのではなく、すべて同時に生成モデル化
– 顔特徴点+LBP y をずっと低次元な x の生成モデルで表現（60D）
– かつ、x はAU間をうまく分離するような空間で表現
– AUは x のロジスティック関数を使って検出
– 従来手法より全体的に性能が向上
– 式がいっぱい出てくるけどそんなに怖くない

13. Selective Encoding for Recognizing Unreliably
Localized Faces ♪
ICCV2015読み会
21
– 画像上のどこかに映ってる人の顔認証
– SIFT＋Fisher Vectorを特徴量として利用
– GMMから事後分布を求めるときに、重み（セレクタ）を考慮
– 顔検出縛り顔認証が実用上必要な場面って本当にあるのか謎
– （顔検出できない顔で顔認証って無茶な気がする）
– セレクタの効果はデータセット間で差がありすぎて謎
https://www.youtube.com/watch?v=r-cCjJleiZk

14. Conditional Convolutional Neural Network for
Modality-Aware Face Recognition
ICCV2015読み会
22
– 分岐するDNNを使って顔認証
– 右向き左向き・遮蔽の種類のような条件を自動分岐するDNNを学習
– レガシーな感じの3層のDNNで学習
– 難しい問題を設定していて、提案手法はそれに依存しすぎてる気がする
– いい結果なのかどうか正直分からない
– 考え方や手法はいろいろな場面で使えるかもしれない

15. Simultaneous Local Binary Feature Learning
and Encoding for Face Recognition
ICCV2015読み会
23
– 新しいバイナリ特徴を使った顔認証
– Pixel Difference Vectorという実数特徴 ⇒ バイナリ変換 ⇒ ヒストグラム
– ハッシュ関数の変換行列Wと辞書の変換行列Dを同時に最適化
– 超パラメータは多いけど、教師なし特徴の中では顔認証結果はそこそこ
– 解いている最適化問題の解・解法があやしい…
– 数少ない非ディープ特徴量

16. Discriminative Pose-Free Descriptors for Face and
Object Matching
ICCV2015読み会
24
– 向きに依存しない顔認証・物体認識のための特徴量
– 少数視点の画像データセットから中間視点の画像の特徴空間も生成
– ある視点の特徴量から異なる視点の特徴量に変換（グラスマン多様体）
– 正面顔から特徴抽出して右向きに変換できたら右向きの顔と照合できる
– Large Scale Metric Learning[Kostinger+ CVPR2012]を使って距離学習
– 多視点の物体のマッチングを数学的なアプローチで頑張ってる系論文
– 実問題で使えそうかと言われると微妙

17. Learning Social Relation Traits
From Face Images ♪
ICCV2015読み会
26
– 画像中の2人の関係性を学習する手法（信頼・対等・親密など8項目）
– まず顔領域から性別・顔向き・表情・年齢を推定するDNNを学習
– 2人のDNNの最終層の値と位置の結合特徴量で8項目をロジスティック回帰
– 新しい問題設定を考えてディープで殴る系論文
– 8. とは違ってファインチューニングしていない（したら性能向上しそう）
https://www.youtube.com/watch?v=z2_7HclTPuc

18. Automated Facial Trait Judgment and Election
Outcome Prediction Social Dimensions of Face ★
ICCV2015読み会
27
– 顔だけから選挙でどっちの候補者が勝ったか当ててみた
– 被験者に2枚の顔画像ペアで「どっちのほうが○○か」と8項目を質問
（年上・裕福・知的・身なりがいい・自信家・精力的・魅力的・男/女らしい）
– 3段階に分けて順に候補者の8項目の属性を抽出
1. 低レベルな特徴（顔形状＋HoG・色）
2. 中レベルな属性（眼鏡・ハゲ…＋顔部位の見た目）をSVMで学習
3. 高レベルな属性（上記8項目）をRank-SVMで学習（relative attribute）

18. Automated Facial Trait Judgment and Election
Outcome Prediction Social Dimensions of Face ★
ICCV2015読み会
28
• 結果は？
– 2000～2012年の選挙で学習して、2014年の選挙でテスト（白人だけ）
– 州知事選挙で67.9%を達成
– 上院議員選挙で65.5％を達成
– それ以外にもいろいろな結果が…
– 男性62.6%、女性60.1％で民主党か共和党かを分類できた
» 民主党は知的で自信家な傾向
» 共和党はイケメンで身なりがいい傾向
» 選挙で勝った人はこれらの特徴がより大きい
• 感想は？
– 論文としての完成度がすごく高い
– そもそも読み物として非常に興味深いことがたくさん書いてある
– 紹介しきれないのでご自身で読んでみることをおすすめ

19. Deep Learning Face Attributes in the Wild
ICCV2015読み会
29
– 3種類のDNNを接続した顔属性認識
– 最初の2つのDNN（LNeto, Lnets）は顔領域のヒートマップを出力
– 最後のDNN（ANet）は顔属性のカテゴリを出力
– 最終的にはSVMを使って顔属性認識する
– 結果は従来手法と比較して微妙に性能向上

20. Two Birds, One Stone Jointly Learning Binary Code for
Large-Scale Face Image Retrieval and Attributes Prediction ★
ICCV2015読み会
30
– 顔画像検索と顔属性認識を同時に実現する一石二鳥な手法
– 顔属性認識もできるようなバイナリコードを生成するハッシュ関数を学習
– 4000次元のガボール特徴 x を~256bitのバイナリコード b に変換
– a = Ub で求めた a は14カテゴリの顔属性になってる
– ただの近似最近傍探索より、顔属性認識も同時に学習したほうが精度向上
– おもしろい論文
– ガボール？

21. Visual Phrases for Exemplar Face Detection
ICCV2015読み会
32
– Visual wordsを組み合わせたVisual phrasesを使った事例ベース顔検出
– 学習用顔画像から生成されるVisual wordsを重みづけ
– 鼻のVisual wordは顔の中心付近に分布していて顔検出に有効 ⇒ 重み大
– Visual phrasesも同様に重みづけして顔検出に利用
– 従来の事例ベースの手法と比較して大幅に性能向上
– ディープ系でない手法の中では良好な結果だが、おそい（10~12s）

22. From Facial Parts Responses to Face Detection:
A Deep Learning Approach ★
ICCV2015読み会
33
– 顔部位を検出するDNNを使った顔検出
– 髪・目・鼻・口・あごの5種類のDNNの出力から顔領域を計算
– 出力マップの積分画像を作って結果を統合
– 正直、それだけ
– 現時点で最も高精度な顔検出手法、つよい
– GPUならはやい（VGAで100fps）

23. Face Flow ♪
ICCV2015読み会
35
– 顔用のオプティカルフロー（トラッキング）
– 顔の変形情報をコスト関数に加えることで顔の形が崩れにくくなる
– オプティカルフローでよく使われるInverse compositional法で解ける
– 顔の変形情報を使ってない一般的な手法よりは高精度
– この手法が有効な場面っていうのがよく分からない…
– おそい（1.4fps）
https://www.youtube.com/watch?v=EJ8NmbVIuok

24. Learning to Predict Saliency on Face Images
ICCV2015読み会
36
– 顔画像では目や口を見る傾向があることを考慮した顕著性マップ
– 最も基本的なIttiらの顕著性マップがベース
– 顔検出結果と顔特徴点検出結果を使って顔と顔部位に顕著性を追加
– 顔部位に基づく顕著性はGMMを利用
– すごく単純だけど採択されてる
– 3D円グラフが使われている…

25. FaceDirector:
Continuous Control of Facial Performance in Video ♪
ICCV2015読み会
37
– 複数撮影した演技を混ぜて動画編集する
– 「足して2で割った演技」とか「こっちは演技Aでこっちは演技B」という
動画編集ができる
– 顔特徴点検出して、時系列の整合性をとって、ブレンディングする
– 定量評価は一切なし、それでも通ってる
– 動画で見てみることをおすすめ
https://www.youtube.com/watch?v=o-nJpaCXL0k

おわりに
ICCV2015読み会
39
• あれ、ディープラーニング少ない？
– 安心してください、ちゃんと流行ってますよ（2015年秋～）
– CVPR2016ではより洗練されたディープの大群が大挙して押し寄せてきます

ICCV2015勉強会顔関連論文のまとめ

Recomendados

Recomendados

Mais conteúdo relacionado

Destaque

Destaque (6)

Semelhante a ICCV2015勉強会顔関連論文のまとめ

Semelhante a ICCV2015勉強会顔関連論文のまとめ (8)