SlideShare uma empresa Scribd logo
1 de 35
1
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
"Deep Face Recognition: A Survey"
Mei Wang, Weihong Deng
Presentater: Koichiro Tamura, Matsuo Lab. M2
書誌情報
• タイトル: Deep Face Recognition: A Survey
• https://arxiv.org/abs/1804.06655
• Submitted on 18 Apr 2018 (v1), last revised 28 Sep 2018 (this version, v7)
• 著者: Mei Wang, Weihong Deng
• 顔認識にまつわる研究をまとめたサーベイ論文
• DLによるFace Recognition(FR)のAlgorithmsおよびloss functionの研究の発展に関する体系的な整理
• Face Processingにおいて,「one-to-many augmentation」と「many-to-one normalization」の研究における
体系的整理
• データセットとおよび訓練・評価のプロトコルの整理
• Anti-spoofingをはじめとした12の課題の提示
目次 *論文と構成を少し変えています
1. Background
2. Components and Definition
3. Network architecture & Loss function
4. Face processing
5. Dataset
6. Training & Evaluation Protocol
7. Problems
Background
• [社会背景]Face Recognition(FR)のタスクは,軍事や金融,セキュリティ,エンタメなどの分野での
応用が期待されいる
• Ex1: 警備や保安の自動化
1. 人件費に課題を抱えている
2. 監視カメラ(スマホ&自動運転でセンサが増加されると見込まれる)の普及
• Ex2: 決済などの金融における本人確認
• キャッシュレス化のトレンド
• 本人確認書類の時間・金銭的コストの問題
• [技術背景]Deep Learningの登場によって,飛躍的に精度が向上
Components and Definition
• FRの全体のシステムとして,
1. Face Detection => 本論文の範囲外(Deep Learning for Understanding Faces: Machines May Be Just as Good, or Better, than Humans)
2. Face Alignment => 本論文の範囲外(Deep Learning for Understanding Faces: Machines May Be Just as Good, or Better, than Humans)
3. Deep Face Recognition
• FRのタスクは,大きく以下の2つに分類
1. Face Verification: 1対1の類似度判定タスク
2. Face identification: 1=>多の類似度判定タスク
• データは,以下の2つに分類
1. Gallery: 既知の(顔)画像
2. Probe: 未知の(顔)画像
• Face identificationも
• Closed-set identification: Probe ∈ Gallery
• Open-set identification: Probe ∉ Gallery
Components and Definition
Network architecture & Loss function
• FRは,実世界への適用を考えると,とても細かくかつ超大規模の分類タスクである.全ての顔(個
人)のデータをあらかじめgalleryとして保持することが理想的であるが,全く現実的でないため,
特にアカデミック界隈ではLoss FunctionとDeep featuresを研究することでこれらの課題を解こうと
してきた
• FacebookやGoogleなどのInternet Giantsは,プラットフォームで溜まった個人の写真と,豊富なGPUリ
ソースを用いてdeep FRのシステムでは10^6~10^7ほどのIDをさばけるが,普通は無理
• 中国SenseTimeでは10億件規模の顔画像を記録したデータベースを持っているが,他国では難しそう
Network architecture & Loss function
1. Network Architecture
2. Loss function
3. Face Matching by deep features
Network architecture & Loss function
1. Network Architecture
2. Loss function
3. Face Matching by deep features
Network Architecture
1. Backbone network
1. Mainstream architectures: 基本的なCNN algorithm
2. Special architectures: FR特化のnetwork
3. Joint alignment-representation network: Face Detectionから全てend-to-endで行ってしまおうというもの
2. Multiple network: タスクやバッチに対して,複数のnetworkを用いることで精度を上げるもの
Mainstream Architectures
2015 2016 2017 2018
技
術
粒
度
時系列
ネットワーク
アーキテクチャ
モジュール
提案
モジュール
アーキテクチャ
Inception-v1
Module
(2014-09-17)
Residual
Module
(2015-12-10)
ResNeXt
Module
(2016-11-16)
Xception
Module
(2016-10-07)
DenseNet
(2016-08-25)
DPN
(2017-07-06)
Residual-Attention
Network
(2017-04-23)
Pre-act
ResNet
(2016-03-16)
Pryamid
Net
(2016-10-10)
SENet
(2017-09-05)
進化
進化
改善
提案
利用可能
利用可能
利用可能
利用可能
v2 v3 v4
Shake
Drop
(2018-02-15)
Mainstream Architectures
引用: https://www.slideshare.net/ren4yu/ss-84282514?from_action=save
Mainstream Architectures
• 結局何が良いのか?
• https://www.slideshare.net/DeepLearningJP2016/dlsqueezeandexcitation-networks で発表した時
• ResNetを基本とする
• Residual module: ShakeDropを正則化として採用
• 正則化: 通常の正則化に加えて,cutoutも導入
• SENetを導入
• Attention-Moduleなどの、モジュールの導入設計をタスクに応じて検討
Special architectures, Joint alignment-representation network
• FRのための特別なarchitecturesも提案されている
• Light CNN: max-feature-map(MFM, maxoutという活性化関数自体を学習する手法をfully connected layerに導
入したもの)を用いている
• A Light CNN for Deep Face Representation with Noisy Labels
• Binary CNN
• One-to- many face recognition with bilinear cnns
• Trunk CNN
• Face recognition with contrastive convolution
• Pairwise relational network(PRN)
• Pairwise relational networks for face recognition
• Conditional CNN(c-CNN)
• Conditional convolutional neural network for modality-aware face recognition
• FRにおいて,Face Detectionから何から何までend-to-endでやってしまうという研究も存在
• Joint registration and representation learning for unconstrained face identification
Multiple network
• 複数のnetworkを用いることによって精度を上げる(アンサンブル学習みたいなもの)試みや研究も
なされている
1. データのパッチ(前処理やdata augmentationによって種類が異なるもの)に対してnetworkを複数用いる
2. 画像のpose(向きなど)に対して,networkを複数用いる
• 正面を向いていない(0%)画像,正面をちょっと向いている(40%) 画像,正面を向いている(75%)画像
3. タスクごとに対してnetworkを複数用いる
• 性別判定
• 感情判定
• 年齢判定
Network architecture & Loss function
1. Network Architecture
2. Loss function
3. Face Matching by deep features
Loss Function
softmax
Eucidiean
Angular
cosine
variation
softmax
• 特定のimage(Anchor)に対して,任意の組み
合わせ「対応するimage(Positive)と,その
他の画像(Negative)」において,Anchorは
positiveの方が近いということを保証した
い
• サンプリングによって学習が不安定だった
• 平均との距離で計算
• GPU memoryがネッ
ク
• 正規化およびAngular/Cosine 距離の導入による誤差関数の改善
L-softmaxの例
Loss Function
**Sortmax関数を用いる時,Xのラベルが1
の時, 𝑊1 𝑥は 𝑊2 𝑥よりも大きくなってい
る必要がある
Network architecture & Loss function
1. Network Architecture
2. Loss function
3. Face Matching by deep features
Face Matching by deep features
• 推論時には,一般的な分類タスクと同様にCOS距離やL2距離が用いられる
• Cos距離やl2距離に基づいて、閾値判定や近傍方を用いる
• FRにおけるタスクとして,以下のような手法も用いられることがある
• Metric Learning(距離学習)を用いて,判定する方法
• 複数のモジュールを用いて,多数決(2017年の challenge2 of MS-celeb 1Mで優勝)
• 局所的な部分の特徴も追加した手法
• Top-kを推論したのち,kこの中で再びランキングをつけ直す手法
• また,学習データセットとtestデータセットの分布の違い(画角,民族性,用いるセンサなど)を考
慮し,転移学習なども適用されることがある
Face Processing
• 画像の特徴量を獲得するarchitectureの前に,processingが必要
1. one-to-many augmentation: 単一の画像からポーズ変動の多くのパッチまたは画像を生成する(学習時)
• 学習データセットを増やす
• Testデータセットにおけるgalleryを増やす
2. many-to-one normalization: 複数の正面を向いていない画像から,正規化された1つの画像を再現する(推
論時)
ここ!
Face Processing
• 画像の特徴量を獲得するarchitectureの前に,processingが必要
1. one-to-many augmentation: 単一の画像からポーズ変動の多くのパッチまたは画像を生成する(学習時)
• 学習データセットを増やす
• Testデータセットにおけるgalleryを増やす
2. many-to-one normalization: 複数の正面を向いていない画像から,正規化された1つの画像を再現する(推
論時)
ここ!
one-to-many augmentation
1. Data augmentation: 一般的なaugmentationの手法
2. 3D model: 2D -> 3D -> 2Dと変換・生成する手法
3. CNN model: CNNで2Dを変換する手法
4. GAN: GANで生成する手法
• Dual-Agent GANs for Photorealistic and Identity Preserving Profile Face Synthesis
• https://papers.nips.cc/paper/6612-dual-agent-gans-for-photorealistic-and-identity-preserving-profile-face-
synthesis
• NIPS2017, NIST IJB-A 2017 FR competitionsで優勝
• generatorで合成画像生成,auto-encoderを用いたdiscriminatorでidentityの判別を行う.refineされた生成
画像と本物画像との差を縮めていく
• 合成画像とそれをrefineした画像とで顔の角度を一定にするloss
• 個人のidentityを保持するloss
• adversarial lossに境界平衡正則化項が追加
Face Processing
• 画像の特徴量を獲得するarchitectureの前に,processingが必要
1. one-to-many augmentation: 単一の画像からポーズ変動の多くのパッチまたは画像を生成する(学習時)
• 学習データセットを増やす
• Testデータセットにおけるgalleryを増やす
2. many-to-one normalization: 複数の正面を向いていない画像から,正規化された1つの画像を再現する(推
論時)
ここ!
many-to-one normalization
1. SAE: stacked auto encoderを用いて正規化
2. CNN: CNNで画像特徴量を獲得し,正規化(正面を向いている画像)を生成
3. GAN: a two-pathway generative adversarial network(TP-GAN)を用いて生成
• ICCV2017
• https://arxiv.org/abs/1704.04086
• 対称性を表すloss
• 個性を保持していることを表すloss
Dataset
• 個人の顔のデータは,企業独自のデータになりがちだが,そうした課題を乗り越えて研究におけ
るデータセットが設計されてきた
Dataset
• 主たるデータセットは以下の通り
1. VGGface2
• 対象ユーザー数は少なめだが,1ユーザーに対するデータ数・情報が多い
• それゆえ,写り方や年齢,poseなどにの変動に対するタスク設計や研究に用いられることが多い
2. MS-Celeb-1M
• 1ユーザーに対する画像は限定的だが,非常に大きなデータセット
3. Megaface
• ユーザーに対する画像は限定的だが,非常に大きなデータセット
• まずMS-Celeb-1MおよびMegafaceで体系的に学習を行い,その後VGGface2でチューニングすることが良
いとされている
Dataset(training)
Dataset(test)
Datasetとノイズ/バイアスについて
• 各データセットには,一定のノイズやバイアスが存在している
1. 各データセットは部分的な分布のみしかカバーされていない
2. ほとんどのデータセットは,セレブの画像やフォーマルな画像が多い
• Megafaceはdaily lifeのデータセットである
Training & Evaluation Protocol
Problems
• 現在のFRの研究や実用では,以下のような課題がある
Problems
1. Cross-Pose Face Recognition
• 正面を向いた画像が少ない
• One-to-many normalizationなどで克服を試みる
2. Cross-Age Face Recognition
• 認証に用いるのに,経年変化するという決定的な課題
• 年齢を追加
• 年齢で条件付けた画像をGANで生成
3. Makeup Face Recognition
• メイクすると誰か分からなくなる問題(汎用課題)
• ノーメイクの画像を生成する手法などが提案
4. NIR-VIS Face Recognition
• くらいシーンでのFRの問題
5. Low-Resolution Face Recognition
• 画質の問題
6. Photo-Sketch Face Recognition
Problems
7. Low-Shot Face Recognition
• 実用では,とても少ないデータセット(1枚の場合も)で特定する必要がある場合も
8. Set/Template-Based Face Recognition
• Probe/gallery共にデータのセット(単一画像でない)である場合
9. Video Face Recognition
• VideoでFRを行う必要がある場合
10. 3D Face Recognition
• 3DでFRすることができる手法はまだ少ない
11. Partial Face Recognition
• 部分的な写りこみだと難しい
12. Face Anti-spoofing
• Print attack, replay attach, 3dマスクなどの学習に対する攻撃は驚異
13. Face Recognition for Mobile Devices
• モバイルでFRできるかどうか
参考文献
• 畳み込みニューラルネットワークの研究動向
• https://www.slideshare.net/ren4yu/ss-84282514
• [DL輪読会]Squeeze-and-Excitation Networks
• https://www.slideshare.net/DeepLearningJP2016/dlsqueezeandexcitation-networks
• Triplet Lossによる Person Re-identification
• https://www.slideshare.net/KoheiNishino/triplet-loss-person-reidentification
• CVPR 2018に44本の論文が採択
• https://www.sensetime.jp/single-post/2018/05/15/CVPR-
2018%E3%81%AB44%E6%9C%AC%E3%81%AE%E8%AB%96%E6%96%87%E3%81%8C%E6%8E%A1%E6%8A%9E
• 数式で書き下す Maxout Networks
• http://blog.yusugomori.com/post/133257383300/%E6%95%B0%E5%BC%8F%E3%81%A7%E6%9B%B8%E3%81%8D
%E4%B8%8B%E3%81%99-maxout-networks
• 同じか否かを判定するための距離学習(Metric Learning)
• https://qiita.com/tancoro/items/8d3438cab574a02319cc
• 論文まとめ:Dual-Agent GANs for Photorealistic and Identity Preserving Profile Face Synthesis
• https://qiita.com/masataka46/items/4f7e4a3d1036de55affd

Mais conteúdo relacionado

Mais procurados

Mais procurados (20)

自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)
 
[DL輪読会]An Image is Worth 16x16 Words: Transformers for Image Recognition at S...
[DL輪読会]An Image is Worth 16x16 Words: Transformers for Image Recognition at S...[DL輪読会]An Image is Worth 16x16 Words: Transformers for Image Recognition at S...
[DL輪読会]An Image is Worth 16x16 Words: Transformers for Image Recognition at S...
 
【DL輪読会】Perceiver io a general architecture for structured inputs & outputs
【DL輪読会】Perceiver io  a general architecture for structured inputs & outputs 【DL輪読会】Perceiver io  a general architecture for structured inputs & outputs
【DL輪読会】Perceiver io a general architecture for structured inputs & outputs
 
【DL輪読会】StyleCLIP: Text-Driven Manipulation of StyleGAN Imagery
【DL輪読会】StyleCLIP: Text-Driven Manipulation of StyleGAN Imagery【DL輪読会】StyleCLIP: Text-Driven Manipulation of StyleGAN Imagery
【DL輪読会】StyleCLIP: Text-Driven Manipulation of StyleGAN Imagery
 
XAI (説明可能なAI) の必要性
XAI (説明可能なAI) の必要性XAI (説明可能なAI) の必要性
XAI (説明可能なAI) の必要性
 
【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ
 
Sift特徴量について
Sift特徴量についてSift特徴量について
Sift特徴量について
 
【DL輪読会】Implicit Behavioral Cloning
【DL輪読会】Implicit Behavioral Cloning【DL輪読会】Implicit Behavioral Cloning
【DL輪読会】Implicit Behavioral Cloning
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
 
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
[DL輪読会]ドメイン転移と不変表現に関するサーベイ[DL輪読会]ドメイン転移と不変表現に関するサーベイ
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
 
Triplet Lossによる Person Re-identification
Triplet Lossによる Person Re-identificationTriplet Lossによる Person Re-identification
Triplet Lossによる Person Re-identification
 
実装レベルで学ぶVQVAE
実装レベルで学ぶVQVAE実装レベルで学ぶVQVAE
実装レベルで学ぶVQVAE
 
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
 
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks? 【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
 
【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models
 
【DL輪読会】Foundation Models for Decision Making: Problems, Methods, and Opportun...
【DL輪読会】Foundation Models for Decision Making: Problems, Methods, and Opportun...【DL輪読会】Foundation Models for Decision Making: Problems, Methods, and Opportun...
【DL輪読会】Foundation Models for Decision Making: Problems, Methods, and Opportun...
 
【DL輪読会】"Masked Siamese Networks for Label-Efficient Learning"
【DL輪読会】"Masked Siamese Networks for Label-Efficient Learning"【DL輪読会】"Masked Siamese Networks for Label-Efficient Learning"
【DL輪読会】"Masked Siamese Networks for Label-Efficient Learning"
 
機械学習モデルの判断根拠の説明(Ver.2)
機械学習モデルの判断根拠の説明(Ver.2)機械学習モデルの判断根拠の説明(Ver.2)
機械学習モデルの判断根拠の説明(Ver.2)
 
敵対的生成ネットワーク(GAN)
敵対的生成ネットワーク(GAN)敵対的生成ネットワーク(GAN)
敵対的生成ネットワーク(GAN)
 
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
 

Semelhante a [DL輪読会]Deep Face Recognition: A Survey

[AI05] 目指せ、最先端 AI 技術の実活用!Deep Learning フレームワーク 「Microsoft Cognitive Toolkit 」...
[AI05] 目指せ、最先端 AI 技術の実活用!Deep Learning フレームワーク 「Microsoft Cognitive Toolkit 」...[AI05] 目指せ、最先端 AI 技術の実活用!Deep Learning フレームワーク 「Microsoft Cognitive Toolkit 」...
[AI05] 目指せ、最先端 AI 技術の実活用!Deep Learning フレームワーク 「Microsoft Cognitive Toolkit 」...
de:code 2017
 
増加するコアを使い切れ!!
増加するコアを使い切れ!!増加するコアを使い切れ!!
増加するコアを使い切れ!!
guestc06e54
 
大規模画像認識とその周辺
大規模画像認識とその周辺大規模画像認識とその周辺
大規模画像認識とその周辺
n_hidekey
 
関西CVPRML勉強会 2012.2.18 (一般物体認識 - データセット)
関西CVPRML勉強会 2012.2.18 (一般物体認識 - データセット)関西CVPRML勉強会 2012.2.18 (一般物体認識 - データセット)
関西CVPRML勉強会 2012.2.18 (一般物体認識 - データセット)
Akisato Kimura
 
Big data解析ビジネス
Big data解析ビジネスBig data解析ビジネス
Big data解析ビジネス
Mie Mori
 

Semelhante a [DL輪読会]Deep Face Recognition: A Survey (20)

ディープラーニング最近の発展とビジネス応用への課題
ディープラーニング最近の発展とビジネス応用への課題ディープラーニング最近の発展とビジネス応用への課題
ディープラーニング最近の発展とビジネス応用への課題
 
An Introduction of DNN Compression Technology and Hardware Acceleration on FPGA
An Introduction of DNN Compression Technology and Hardware Acceleration on FPGAAn Introduction of DNN Compression Technology and Hardware Acceleration on FPGA
An Introduction of DNN Compression Technology and Hardware Acceleration on FPGA
 
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation 「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
 
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
 
CVPR 2011 ImageNet Challenge 文献紹介
CVPR 2011 ImageNet Challenge 文献紹介CVPR 2011 ImageNet Challenge 文献紹介
CVPR 2011 ImageNet Challenge 文献紹介
 
[DL Hacks 実装]StyleNet: Generating Attractive Visual Captions with Styles
[DL Hacks 実装]StyleNet: Generating Attractive Visual Captions with Styles[DL Hacks 実装]StyleNet: Generating Attractive Visual Captions with Styles
[DL Hacks 実装]StyleNet: Generating Attractive Visual Captions with Styles
 
Few-Shot Unsupervised Image-to-Image Translation
Few-Shot Unsupervised Image-to-Image TranslationFew-Shot Unsupervised Image-to-Image Translation
Few-Shot Unsupervised Image-to-Image Translation
 
[AI05] 目指せ、最先端 AI 技術の実活用!Deep Learning フレームワーク 「Microsoft Cognitive Toolkit 」...
[AI05] 目指せ、最先端 AI 技術の実活用!Deep Learning フレームワーク 「Microsoft Cognitive Toolkit 」...[AI05] 目指せ、最先端 AI 技術の実活用!Deep Learning フレームワーク 「Microsoft Cognitive Toolkit 」...
[AI05] 目指せ、最先端 AI 技術の実活用!Deep Learning フレームワーク 「Microsoft Cognitive Toolkit 」...
 
増加するコアを使い切れ!!
増加するコアを使い切れ!!増加するコアを使い切れ!!
増加するコアを使い切れ!!
 
大規模画像認識とその周辺
大規模画像認識とその周辺大規模画像認識とその周辺
大規模画像認識とその周辺
 
Bridging between Vision and Language
Bridging between Vision and LanguageBridging between Vision and Language
Bridging between Vision and Language
 
[DL輪読会]EfficientDet: Scalable and Efficient Object Detection
[DL輪読会]EfficientDet: Scalable and Efficient Object Detection[DL輪読会]EfficientDet: Scalable and Efficient Object Detection
[DL輪読会]EfficientDet: Scalable and Efficient Object Detection
 
Azure Antenna AI 概要
Azure Antenna AI 概要Azure Antenna AI 概要
Azure Antenna AI 概要
 
[DL Hacks] Learning Transferable Features with Deep Adaptation Networks
[DL Hacks] Learning Transferable Features with Deep Adaptation Networks[DL Hacks] Learning Transferable Features with Deep Adaptation Networks
[DL Hacks] Learning Transferable Features with Deep Adaptation Networks
 
はじめての人のためのDeep Learning
はじめての人のためのDeep Learningはじめての人のためのDeep Learning
はじめての人のためのDeep Learning
 
関西CVPRML勉強会 2012.2.18 (一般物体認識 - データセット)
関西CVPRML勉強会 2012.2.18 (一般物体認識 - データセット)関西CVPRML勉強会 2012.2.18 (一般物体認識 - データセット)
関西CVPRML勉強会 2012.2.18 (一般物体認識 - データセット)
 
Big data解析ビジネス
Big data解析ビジネスBig data解析ビジネス
Big data解析ビジネス
 
企業システムにアジャイルは必要か
企業システムにアジャイルは必要か企業システムにアジャイルは必要か
企業システムにアジャイルは必要か
 
DAシンポジウム2019招待講演「深層学習モデルの高速なTraining/InferenceのためのHW/SW技術」 金子紘也hare
DAシンポジウム2019招待講演「深層学習モデルの高速なTraining/InferenceのためのHW/SW技術」 金子紘也hareDAシンポジウム2019招待講演「深層学習モデルの高速なTraining/InferenceのためのHW/SW技術」 金子紘也hare
DAシンポジウム2019招待講演「深層学習モデルの高速なTraining/InferenceのためのHW/SW技術」 金子紘也hare
 
MLOps Course Slides_JP(配布用).pdf
MLOps Course Slides_JP(配布用).pdfMLOps Course Slides_JP(配布用).pdf
MLOps Course Slides_JP(配布用).pdf
 

Mais de Deep Learning JP

Mais de Deep Learning JP (20)

【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
 
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて
 
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
 
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
 
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
 
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM
 
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo... 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
 
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
 
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
 

Último

Último (10)

LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
 
Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsUtilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native Integrations
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
 
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
 

[DL輪読会]Deep Face Recognition: A Survey

  • 1. 1 DEEP LEARNING JP [DL Papers] http://deeplearning.jp/ "Deep Face Recognition: A Survey" Mei Wang, Weihong Deng Presentater: Koichiro Tamura, Matsuo Lab. M2
  • 2. 書誌情報 • タイトル: Deep Face Recognition: A Survey • https://arxiv.org/abs/1804.06655 • Submitted on 18 Apr 2018 (v1), last revised 28 Sep 2018 (this version, v7) • 著者: Mei Wang, Weihong Deng • 顔認識にまつわる研究をまとめたサーベイ論文 • DLによるFace Recognition(FR)のAlgorithmsおよびloss functionの研究の発展に関する体系的な整理 • Face Processingにおいて,「one-to-many augmentation」と「many-to-one normalization」の研究における 体系的整理 • データセットとおよび訓練・評価のプロトコルの整理 • Anti-spoofingをはじめとした12の課題の提示
  • 3. 目次 *論文と構成を少し変えています 1. Background 2. Components and Definition 3. Network architecture & Loss function 4. Face processing 5. Dataset 6. Training & Evaluation Protocol 7. Problems
  • 4. Background • [社会背景]Face Recognition(FR)のタスクは,軍事や金融,セキュリティ,エンタメなどの分野での 応用が期待されいる • Ex1: 警備や保安の自動化 1. 人件費に課題を抱えている 2. 監視カメラ(スマホ&自動運転でセンサが増加されると見込まれる)の普及 • Ex2: 決済などの金融における本人確認 • キャッシュレス化のトレンド • 本人確認書類の時間・金銭的コストの問題 • [技術背景]Deep Learningの登場によって,飛躍的に精度が向上
  • 5. Components and Definition • FRの全体のシステムとして, 1. Face Detection => 本論文の範囲外(Deep Learning for Understanding Faces: Machines May Be Just as Good, or Better, than Humans) 2. Face Alignment => 本論文の範囲外(Deep Learning for Understanding Faces: Machines May Be Just as Good, or Better, than Humans) 3. Deep Face Recognition • FRのタスクは,大きく以下の2つに分類 1. Face Verification: 1対1の類似度判定タスク 2. Face identification: 1=>多の類似度判定タスク • データは,以下の2つに分類 1. Gallery: 既知の(顔)画像 2. Probe: 未知の(顔)画像 • Face identificationも • Closed-set identification: Probe ∈ Gallery • Open-set identification: Probe ∉ Gallery
  • 7. Network architecture & Loss function • FRは,実世界への適用を考えると,とても細かくかつ超大規模の分類タスクである.全ての顔(個 人)のデータをあらかじめgalleryとして保持することが理想的であるが,全く現実的でないため, 特にアカデミック界隈ではLoss FunctionとDeep featuresを研究することでこれらの課題を解こうと してきた • FacebookやGoogleなどのInternet Giantsは,プラットフォームで溜まった個人の写真と,豊富なGPUリ ソースを用いてdeep FRのシステムでは10^6~10^7ほどのIDをさばけるが,普通は無理 • 中国SenseTimeでは10億件規模の顔画像を記録したデータベースを持っているが,他国では難しそう
  • 8. Network architecture & Loss function 1. Network Architecture 2. Loss function 3. Face Matching by deep features
  • 9. Network architecture & Loss function 1. Network Architecture 2. Loss function 3. Face Matching by deep features
  • 10. Network Architecture 1. Backbone network 1. Mainstream architectures: 基本的なCNN algorithm 2. Special architectures: FR特化のnetwork 3. Joint alignment-representation network: Face Detectionから全てend-to-endで行ってしまおうというもの 2. Multiple network: タスクやバッチに対して,複数のnetworkを用いることで精度を上げるもの
  • 11. Mainstream Architectures 2015 2016 2017 2018 技 術 粒 度 時系列 ネットワーク アーキテクチャ モジュール 提案 モジュール アーキテクチャ Inception-v1 Module (2014-09-17) Residual Module (2015-12-10) ResNeXt Module (2016-11-16) Xception Module (2016-10-07) DenseNet (2016-08-25) DPN (2017-07-06) Residual-Attention Network (2017-04-23) Pre-act ResNet (2016-03-16) Pryamid Net (2016-10-10) SENet (2017-09-05) 進化 進化 改善 提案 利用可能 利用可能 利用可能 利用可能 v2 v3 v4 Shake Drop (2018-02-15)
  • 13. Mainstream Architectures • 結局何が良いのか? • https://www.slideshare.net/DeepLearningJP2016/dlsqueezeandexcitation-networks で発表した時 • ResNetを基本とする • Residual module: ShakeDropを正則化として採用 • 正則化: 通常の正則化に加えて,cutoutも導入 • SENetを導入 • Attention-Moduleなどの、モジュールの導入設計をタスクに応じて検討
  • 14. Special architectures, Joint alignment-representation network • FRのための特別なarchitecturesも提案されている • Light CNN: max-feature-map(MFM, maxoutという活性化関数自体を学習する手法をfully connected layerに導 入したもの)を用いている • A Light CNN for Deep Face Representation with Noisy Labels • Binary CNN • One-to- many face recognition with bilinear cnns • Trunk CNN • Face recognition with contrastive convolution • Pairwise relational network(PRN) • Pairwise relational networks for face recognition • Conditional CNN(c-CNN) • Conditional convolutional neural network for modality-aware face recognition • FRにおいて,Face Detectionから何から何までend-to-endでやってしまうという研究も存在 • Joint registration and representation learning for unconstrained face identification
  • 15. Multiple network • 複数のnetworkを用いることによって精度を上げる(アンサンブル学習みたいなもの)試みや研究も なされている 1. データのパッチ(前処理やdata augmentationによって種類が異なるもの)に対してnetworkを複数用いる 2. 画像のpose(向きなど)に対して,networkを複数用いる • 正面を向いていない(0%)画像,正面をちょっと向いている(40%) 画像,正面を向いている(75%)画像 3. タスクごとに対してnetworkを複数用いる • 性別判定 • 感情判定 • 年齢判定
  • 16. Network architecture & Loss function 1. Network Architecture 2. Loss function 3. Face Matching by deep features
  • 17. Loss Function softmax Eucidiean Angular cosine variation softmax • 特定のimage(Anchor)に対して,任意の組み 合わせ「対応するimage(Positive)と,その 他の画像(Negative)」において,Anchorは positiveの方が近いということを保証した い • サンプリングによって学習が不安定だった • 平均との距離で計算 • GPU memoryがネッ ク • 正規化およびAngular/Cosine 距離の導入による誤差関数の改善 L-softmaxの例
  • 18. Loss Function **Sortmax関数を用いる時,Xのラベルが1 の時, 𝑊1 𝑥は 𝑊2 𝑥よりも大きくなってい る必要がある
  • 19. Network architecture & Loss function 1. Network Architecture 2. Loss function 3. Face Matching by deep features
  • 20. Face Matching by deep features • 推論時には,一般的な分類タスクと同様にCOS距離やL2距離が用いられる • Cos距離やl2距離に基づいて、閾値判定や近傍方を用いる • FRにおけるタスクとして,以下のような手法も用いられることがある • Metric Learning(距離学習)を用いて,判定する方法 • 複数のモジュールを用いて,多数決(2017年の challenge2 of MS-celeb 1Mで優勝) • 局所的な部分の特徴も追加した手法 • Top-kを推論したのち,kこの中で再びランキングをつけ直す手法 • また,学習データセットとtestデータセットの分布の違い(画角,民族性,用いるセンサなど)を考 慮し,転移学習なども適用されることがある
  • 21. Face Processing • 画像の特徴量を獲得するarchitectureの前に,processingが必要 1. one-to-many augmentation: 単一の画像からポーズ変動の多くのパッチまたは画像を生成する(学習時) • 学習データセットを増やす • Testデータセットにおけるgalleryを増やす 2. many-to-one normalization: 複数の正面を向いていない画像から,正規化された1つの画像を再現する(推 論時) ここ!
  • 22. Face Processing • 画像の特徴量を獲得するarchitectureの前に,processingが必要 1. one-to-many augmentation: 単一の画像からポーズ変動の多くのパッチまたは画像を生成する(学習時) • 学習データセットを増やす • Testデータセットにおけるgalleryを増やす 2. many-to-one normalization: 複数の正面を向いていない画像から,正規化された1つの画像を再現する(推 論時) ここ!
  • 23. one-to-many augmentation 1. Data augmentation: 一般的なaugmentationの手法 2. 3D model: 2D -> 3D -> 2Dと変換・生成する手法 3. CNN model: CNNで2Dを変換する手法 4. GAN: GANで生成する手法 • Dual-Agent GANs for Photorealistic and Identity Preserving Profile Face Synthesis • https://papers.nips.cc/paper/6612-dual-agent-gans-for-photorealistic-and-identity-preserving-profile-face- synthesis • NIPS2017, NIST IJB-A 2017 FR competitionsで優勝 • generatorで合成画像生成,auto-encoderを用いたdiscriminatorでidentityの判別を行う.refineされた生成 画像と本物画像との差を縮めていく • 合成画像とそれをrefineした画像とで顔の角度を一定にするloss • 個人のidentityを保持するloss • adversarial lossに境界平衡正則化項が追加
  • 24. Face Processing • 画像の特徴量を獲得するarchitectureの前に,processingが必要 1. one-to-many augmentation: 単一の画像からポーズ変動の多くのパッチまたは画像を生成する(学習時) • 学習データセットを増やす • Testデータセットにおけるgalleryを増やす 2. many-to-one normalization: 複数の正面を向いていない画像から,正規化された1つの画像を再現する(推 論時) ここ!
  • 25. many-to-one normalization 1. SAE: stacked auto encoderを用いて正規化 2. CNN: CNNで画像特徴量を獲得し,正規化(正面を向いている画像)を生成 3. GAN: a two-pathway generative adversarial network(TP-GAN)を用いて生成 • ICCV2017 • https://arxiv.org/abs/1704.04086 • 対称性を表すloss • 個性を保持していることを表すloss
  • 27. Dataset • 主たるデータセットは以下の通り 1. VGGface2 • 対象ユーザー数は少なめだが,1ユーザーに対するデータ数・情報が多い • それゆえ,写り方や年齢,poseなどにの変動に対するタスク設計や研究に用いられることが多い 2. MS-Celeb-1M • 1ユーザーに対する画像は限定的だが,非常に大きなデータセット 3. Megaface • ユーザーに対する画像は限定的だが,非常に大きなデータセット • まずMS-Celeb-1MおよびMegafaceで体系的に学習を行い,その後VGGface2でチューニングすることが良 いとされている
  • 30. Datasetとノイズ/バイアスについて • 各データセットには,一定のノイズやバイアスが存在している 1. 各データセットは部分的な分布のみしかカバーされていない 2. ほとんどのデータセットは,セレブの画像やフォーマルな画像が多い • Megafaceはdaily lifeのデータセットである
  • 33. Problems 1. Cross-Pose Face Recognition • 正面を向いた画像が少ない • One-to-many normalizationなどで克服を試みる 2. Cross-Age Face Recognition • 認証に用いるのに,経年変化するという決定的な課題 • 年齢を追加 • 年齢で条件付けた画像をGANで生成 3. Makeup Face Recognition • メイクすると誰か分からなくなる問題(汎用課題) • ノーメイクの画像を生成する手法などが提案 4. NIR-VIS Face Recognition • くらいシーンでのFRの問題 5. Low-Resolution Face Recognition • 画質の問題 6. Photo-Sketch Face Recognition
  • 34. Problems 7. Low-Shot Face Recognition • 実用では,とても少ないデータセット(1枚の場合も)で特定する必要がある場合も 8. Set/Template-Based Face Recognition • Probe/gallery共にデータのセット(単一画像でない)である場合 9. Video Face Recognition • VideoでFRを行う必要がある場合 10. 3D Face Recognition • 3DでFRすることができる手法はまだ少ない 11. Partial Face Recognition • 部分的な写りこみだと難しい 12. Face Anti-spoofing • Print attack, replay attach, 3dマスクなどの学習に対する攻撃は驚異 13. Face Recognition for Mobile Devices • モバイルでFRできるかどうか
  • 35. 参考文献 • 畳み込みニューラルネットワークの研究動向 • https://www.slideshare.net/ren4yu/ss-84282514 • [DL輪読会]Squeeze-and-Excitation Networks • https://www.slideshare.net/DeepLearningJP2016/dlsqueezeandexcitation-networks • Triplet Lossによる Person Re-identification • https://www.slideshare.net/KoheiNishino/triplet-loss-person-reidentification • CVPR 2018に44本の論文が採択 • https://www.sensetime.jp/single-post/2018/05/15/CVPR- 2018%E3%81%AB44%E6%9C%AC%E3%81%AE%E8%AB%96%E6%96%87%E3%81%8C%E6%8E%A1%E6%8A%9E • 数式で書き下す Maxout Networks • http://blog.yusugomori.com/post/133257383300/%E6%95%B0%E5%BC%8F%E3%81%A7%E6%9B%B8%E3%81%8D %E4%B8%8B%E3%81%99-maxout-networks • 同じか否かを判定するための距離学習(Metric Learning) • https://qiita.com/tancoro/items/8d3438cab574a02319cc • 論文まとめ:Dual-Agent GANs for Photorealistic and Identity Preserving Profile Face Synthesis • https://qiita.com/masataka46/items/4f7e4a3d1036de55affd