SlideShare uma empresa Scribd logo
1 de 23
Baixar para ler offline
1©2019 ARISE analytics
Self-Attention Generative
Adversarial Networks
2018/09/07
Yuya Kanemoto
2©2019 ARISE analytics
概要
一言で言うと
すごい点
Self-attentionを用いて画像の大域的な依存関係を抽出
画像生成の性能指標が大幅に向上
 Inception Score (IS): 36.8 → 52.52
 Fréchet Inception distance (FID): 27.62 → 18.65
モチベーション GANの精度向上
3©2019 ARISE analytics
Table of contents
• Background
• GAN
• Framework
• 1クラス画像生成の進展
• 多クラス画像生成の進展
• 評価基準
• Spectral normalization
• Self-attention
• 本論文
4©2019 ARISE analytics
GAN framework
Goodfellow et al. 2014. Generative Adversarial Nets
5©2019 ARISE analytics
3.5 Years of Progress on Faces
Goodfellow CVPR Tutorial 2018
6©2019 ARISE analytics
SOTA on Faces: PG-GAN
Kerras et al. ICLR 2018. PROGRESSIVE GROWING OF GANS FOR IMPROVED QUALITY, STABILITY, AND
VARIATION
7©2019 ARISE analytics
<2 Years of Progress on ImageNet
Goodfellow CVPR Tutorial 2018
8©2019 ARISE analytics
多クラス画像生成の課題
• ImageNetのような多クラスの画像から学習する際、textureで判断される画像(e.g. 犬の体毛)は綺麗に
生成されやすいのに対して、geometryで判断される画像(e.g. 犬の足)を上手く生成するのは難しい
• CNNは局所的な受容野を持つため、大局的な依存関係は層を重ねることによってのみ考慮される
大局的な情報を得るためにCNNを多層にするのはコストがかかる
• → Self-attentionでcost-effectiveに大局的な依存関係を抽出(後述)
(FID)
Miyato et al. ICLR 2018. cGANs WITH PROJECTION DISCRIMINATOR
9©2019 ARISE analytics
GANの評価基準
• Inception Score (IS)
GANによる生成画像が各クラスを上手く表現できていれば、学習済みモデル(Inception)による
生成画像の分類予測p(y|x)のエントロピーは小さい
GANによる生成画像のバリエーションが多ければモデル出力の分布p(y)のエントロピーは大きい
• Fréchet Inception distance (FID)
Inceptionモデルの特定の層にデータと生成画像からのサンプルを写像し、多変量ガウス分布とみ
なして平均・共分散を計算
それらを用いてFréchet距離を計算
ISに比べmode collapseをより的確に捉えることができる
Lucic et al. NeurIPS 2018. Are GANs Created Equal? A Large-Scale Study
10©2019 ARISE analytics
Lipschitz連続
• GANの学習を安定させるにはLipschitz連続であることが重要であると最近の研究で議論されている
(e.g. Wasserstein GAN)
• ある写像fがLipschitz連続であるとき、実定数K(≥0)が存在して下式をみたす
• Lipschitz連続な写像fにおいて、下図のように常にその外側にグラフが存在する双錐が存在
• Wasserstein GANにおいては、ニューラルネットをLipschitz連続な写像にするためにweight
clippingを行った
Arjovsky et al. ICML 2017. Wasserstein Generative Adversarial Networks
11©2019 ARISE analytics
Spectral Normalization
• 活性化関数のLipschitz normが1とすると、ニューラルネットのLipschitz normは各線形層の
Lipschitz normの積で表せる
• 定義より行列AのSpectral normは式(1)で表され、また行列Aの最大特異値に等しい
• 定義より式(2)のように、線形層g(h)=WhのLipschitz normは重み行列WのSpectral normに
等しい
• 式(3)の様に重みを正規化して各層にてLipschitz制約σ(W)=1を満たすことにより、ニューラルネッ
トfのLipschitz normを1以下に制御
(1)
(3)
Miyato et al. ICLR 2018. SPECTRAL NORMALIZATION FOR GENERATIVE ADVERSARIAL NETWORKS
(2)
12©2019 ARISE analytics
Attention
• Source-target attention
• 機械翻訳において、Encoder-decoder networkではencoderの出力である固定長ベクトルを
decoderに入力として与えるため、長文の場合精度が悪かった
• Source(Key & Value)とTarget(Query)の関係性を同時に学習させ、文章入力のどこを重点的に処
理するかのAttention機構を取り入れることにより、長文に対しても精度が向上
• Self-attention
• Self-attentionにおいてはKey/Value/Queryが同一の場所(Self)、つまり直前の隠れ層から来る
• Self-attentionはある位置の出力を求めるのに下の隠れ層の全ての位置を参照でき、これは局所的な
位置しか参照できない畳み込み層より優れた利点である
Luong et al. 2015. Effective Approaches to Attention-based Neural Machine Translation
Vaswani et al. NIPS 2017. Attention Is All You Need
13©2019 ARISE analytics
本論文
14©2019 ARISE analytics
Self-attention on image
• Self-attention GAN(SAGAN)はself-attentionを用いてattention mapを学習することにより、大局的な
依存関係を推測する
• 各クエリ(色ドット)と対応するattention map(白色強度)の例が下図
Zhang et al. 2018. Self-Attention Generative Adversarial Networks
15©2019 ARISE analytics
Self-attention mechanism
( )
Zhang et al. 2018. Self-Attention Generative Adversarial Networks
16©2019 ARISE analytics
Self-attention mechanism
( )
Zhang et al. 2018. Self-Attention Generative Adversarial Networks
17©2019 ARISE analytics
Effect of spectral normalization
• Spectral Normalizationにより学習が安定
• Spectral Normalizationは元論文ではDiscriminatorのみに適用していたが、Generatorにも適用することでより安定
• Two-timescale update rule (TTUR)という、Generatorの学習率をDiscriminatorの学習率より小さくす
る手法により学習が高速化
Zhang et al. 2018. Self-Attention Generative Adversarial Networks
18©2019 ARISE analytics
Self-attention vs residual block
• Self-attentionという新たなブロックを加え層が深くなったことによる精度向上の可能性を検証するため、対照群
としてResidualブロックを加えたネットワークと比較
• SAGANがFID/ISいずれの指標でもベストスコア、より深い層にブロック挿入した方が高精度
Zhang et al. 2018. Self-Attention Generative Adversarial Networks
19©2019 ARISE analytics
Self-attention visualization
• Generator側のself-attentionを用いた最後の層のattention mapを可視化
• 鳥の尾や犬の足などの、畳み込みでは捉えづらい大局的な依存関係をattentionが捉えている
Zhang et al. 2018. Self-Attention Generative Adversarial Networks
20©2019 ARISE analytics
SOTA on class-conditional GAN
• 既存の多クラス画像生成手法と比較
• SOTAを達成、大幅に精度が向上
Zhang et al. 2018. Self-Attention Generative Adversarial Networks
21©2019 ARISE analytics
SAGAN-generated images
Zhang et al. 2018. Self-Attention Generative Adversarial Networks
22©2019 ARISE analytics
Summary
• Self-attentionを用いて大局的な依存関係を抽出
• Spectral normalizationをDiscriminator/Generator双方に適用することによりGAN学習を安定化
• TTURによりGAN学習を高速化
• 多クラス画像生成においてSOTAを達成、大幅に精度が向上
23©2019 ARISE analytics

Mais conteúdo relacionado

Mais procurados

Mais procurados (20)

【基調講演】『深層学習の原理の理解に向けた理論の試み』 今泉 允聡(東大)
【基調講演】『深層学習の原理の理解に向けた理論の試み』 今泉 允聡(東大)【基調講演】『深層学習の原理の理解に向けた理論の試み』 今泉 允聡(東大)
【基調講演】『深層学習の原理の理解に向けた理論の試み』 今泉 允聡(東大)
 
[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative Models[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative Models
 
深層学習の数理
深層学習の数理深層学習の数理
深層学習の数理
 
[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...
[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...
[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...
 
Semi supervised, weakly-supervised, unsupervised, and active learning
Semi supervised, weakly-supervised, unsupervised, and active learningSemi supervised, weakly-supervised, unsupervised, and active learning
Semi supervised, weakly-supervised, unsupervised, and active learning
 
【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ
 
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
 
【DL輪読会】マルチモーダル 基盤モデル
【DL輪読会】マルチモーダル 基盤モデル【DL輪読会】マルチモーダル 基盤モデル
【DL輪読会】マルチモーダル 基盤モデル
 
全力解説!Transformer
全力解説!Transformer全力解説!Transformer
全力解説!Transformer
 
【DL輪読会】Dropout Reduces Underfitting
【DL輪読会】Dropout Reduces Underfitting【DL輪読会】Dropout Reduces Underfitting
【DL輪読会】Dropout Reduces Underfitting
 
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
[DL輪読会]ドメイン転移と不変表現に関するサーベイ[DL輪読会]ドメイン転移と不変表現に関するサーベイ
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
 
帰納バイアスが成立する条件
帰納バイアスが成立する条件帰納バイアスが成立する条件
帰納バイアスが成立する条件
 
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
 
[DLHacks]StyleGANとBigGANのStyle mixing, morphing
[DLHacks]StyleGANとBigGANのStyle mixing, morphing[DLHacks]StyleGANとBigGANのStyle mixing, morphing
[DLHacks]StyleGANとBigGANのStyle mixing, morphing
 
Domain Adaptation 発展と動向まとめ(サーベイ資料)
Domain Adaptation 発展と動向まとめ(サーベイ資料)Domain Adaptation 発展と動向まとめ(サーベイ資料)
Domain Adaptation 発展と動向まとめ(サーベイ資料)
 
深層生成モデルと世界モデル
深層生成モデルと世界モデル深層生成モデルと世界モデル
深層生成モデルと世界モデル
 
Layer Normalization@NIPS+読み会・関西
Layer Normalization@NIPS+読み会・関西Layer Normalization@NIPS+読み会・関西
Layer Normalization@NIPS+読み会・関西
 
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion  for Generation and Editing[DL輪読会]GLIDE: Guided Language to Image Diffusion  for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
 
[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech,...
[DL輪読会]data2vec: A General Framework for  Self-supervised Learning in Speech,...[DL輪読会]data2vec: A General Framework for  Self-supervised Learning in Speech,...
[DL輪読会]data2vec: A General Framework for Self-supervised Learning in Speech,...
 
PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門
 

Semelhante a 【論文読み会】Self-Attention Generative Adversarial Networks

Semelhante a 【論文読み会】Self-Attention Generative Adversarial Networks (20)

Icml2018読み会_overview&GANs
Icml2018読み会_overview&GANsIcml2018読み会_overview&GANs
Icml2018読み会_overview&GANs
 
[DL輪読会]Deep Face Recognition: A Survey
[DL輪読会]Deep Face Recognition: A Survey[DL輪読会]Deep Face Recognition: A Survey
[DL輪読会]Deep Face Recognition: A Survey
 
MIRU_Preview_JSAI2019
MIRU_Preview_JSAI2019MIRU_Preview_JSAI2019
MIRU_Preview_JSAI2019
 
クラウドがアプリケーションの価値を上げる
クラウドがアプリケーションの価値を上げるクラウドがアプリケーションの価値を上げる
クラウドがアプリケーションの価値を上げる
 
景観セミナー資料 (株)フジヤマ
景観セミナー資料 (株)フジヤマ景観セミナー資料 (株)フジヤマ
景観セミナー資料 (株)フジヤマ
 
何がって"DevQA" アジャイル開発とQAの合体が改善を生む
何がって"DevQA" アジャイル開発とQAの合体が改善を生む何がって"DevQA" アジャイル開発とQAの合体が改善を生む
何がって"DevQA" アジャイル開発とQAの合体が改善を生む
 
20190804_icml_kyoto
20190804_icml_kyoto20190804_icml_kyoto
20190804_icml_kyoto
 
Counterfaual Machine Learning(CFML)のサーベイ
Counterfaual Machine Learning(CFML)のサーベイCounterfaual Machine Learning(CFML)のサーベイ
Counterfaual Machine Learning(CFML)のサーベイ
 
サイトサーチアナリティクスとは
サイトサーチアナリティクスとはサイトサーチアナリティクスとは
サイトサーチアナリティクスとは
 
Generative Adversarial Networks (GAN) @ NIPS2017
Generative Adversarial Networks (GAN) @ NIPS2017Generative Adversarial Networks (GAN) @ NIPS2017
Generative Adversarial Networks (GAN) @ NIPS2017
 
JOSS2021_E7_FAIRなデータキュレーションの実践_FAIR_Evaluation.pptx
JOSS2021_E7_FAIRなデータキュレーションの実践_FAIR_Evaluation.pptxJOSS2021_E7_FAIRなデータキュレーションの実践_FAIR_Evaluation.pptx
JOSS2021_E7_FAIRなデータキュレーションの実践_FAIR_Evaluation.pptx
 
SQuaRE に基づくソフトウェア品質評価枠組みと品質実態調査
SQuaRE に基づくソフトウェア品質評価枠組みと品質実態調査SQuaRE に基づくソフトウェア品質評価枠組みと品質実態調査
SQuaRE に基づくソフトウェア品質評価枠組みと品質実態調査
 
SQuaREに基づくソフトウェア品質評価枠組みと品質実態調査
SQuaREに基づくソフトウェア品質評価枠組みと品質実態調査SQuaREに基づくソフトウェア品質評価枠組みと品質実態調査
SQuaREに基づくソフトウェア品質評価枠組みと品質実態調査
 
WebEffective overview 2012 japanese
WebEffective overview 2012 japaneseWebEffective overview 2012 japanese
WebEffective overview 2012 japanese
 
WebアプリケーションのUI機能テストのためのHTML構造パターンの提案
WebアプリケーションのUI機能テストのためのHTML構造パターンの提案WebアプリケーションのUI機能テストのためのHTML構造パターンの提案
WebアプリケーションのUI機能テストのためのHTML構造パターンの提案
 
Annotating object instances with a polygon rnn
Annotating object instances with a polygon rnnAnnotating object instances with a polygon rnn
Annotating object instances with a polygon rnn
 
超高速な機械学習を Oracle Database で実現!
超高速な機械学習を Oracle Database で実現!超高速な機械学習を Oracle Database で実現!
超高速な機械学習を Oracle Database で実現!
 
成功と失敗に学ぶアジャイル受託開発の極意
成功と失敗に学ぶアジャイル受託開発の極意成功と失敗に学ぶアジャイル受託開発の極意
成功と失敗に学ぶアジャイル受託開発の極意
 
アジャイル品質のパターンとメトリクス Agile Quality Patterns and Metrics (QA2AQ) 20240225
アジャイル品質のパターンとメトリクス Agile Quality Patterns and Metrics (QA2AQ) 20240225アジャイル品質のパターンとメトリクス Agile Quality Patterns and Metrics (QA2AQ) 20240225
アジャイル品質のパターンとメトリクス Agile Quality Patterns and Metrics (QA2AQ) 20240225
 
【Microsoft Conference Japan Tour 2010】 T4-2 クラウド時代を迎えたソフトウェア開発における現場力の向上
【Microsoft Conference Japan Tour 2010】 T4-2 クラウド時代を迎えたソフトウェア開発における現場力の向上【Microsoft Conference Japan Tour 2010】 T4-2 クラウド時代を迎えたソフトウェア開発における現場力の向上
【Microsoft Conference Japan Tour 2010】 T4-2 クラウド時代を迎えたソフトウェア開発における現場力の向上
 

Mais de ARISE analytics

Mais de ARISE analytics (20)

【第3回生成AIなんでもLT会資料】_動画生成AIと物理法則_v0.2.pptx
【第3回生成AIなんでもLT会資料】_動画生成AIと物理法則_v0.2.pptx【第3回生成AIなんでもLT会資料】_動画生成AIと物理法則_v0.2.pptx
【第3回生成AIなんでもLT会資料】_動画生成AIと物理法則_v0.2.pptx
 
【第3回】生成AIなんでもLT会 2024_0304なんでも生成AI_sergicalsix.pptx
【第3回】生成AIなんでもLT会 2024_0304なんでも生成AI_sergicalsix.pptx【第3回】生成AIなんでもLT会 2024_0304なんでも生成AI_sergicalsix.pptx
【第3回】生成AIなんでもLT会 2024_0304なんでも生成AI_sergicalsix.pptx
 
めんどうな環境構築とはおさらば!Dockerの概要と使い方
めんどうな環境構築とはおさらば!Dockerの概要と使い方めんどうな環境構築とはおさらば!Dockerの概要と使い方
めんどうな環境構築とはおさらば!Dockerの概要と使い方
 
【論文レベルで理解しよう!】​ 欠測値処理編​
【論文レベルで理解しよう!】​ 欠測値処理編​【論文レベルで理解しよう!】​ 欠測値処理編​
【論文レベルで理解しよう!】​ 欠測値処理編​
 
【論文レベルで理解しよう!】​ 大規模言語モデル(LLM)編​
【論文レベルで理解しよう!】​ 大規模言語モデル(LLM)編​【論文レベルで理解しよう!】​ 大規模言語モデル(LLM)編​
【論文レベルで理解しよう!】​ 大規模言語モデル(LLM)編​
 
【論文読み会】Signing at Scale: Learning to Co-Articulate Signs for Large-Scale Pho...
【論文読み会】Signing at Scale: Learning to Co-Articulate  Signs for Large-Scale Pho...【論文読み会】Signing at Scale: Learning to Co-Articulate  Signs for Large-Scale Pho...
【論文読み会】Signing at Scale: Learning to Co-Articulate Signs for Large-Scale Pho...
 
Hierarchical Metadata-Aware Document Categorization under Weak Supervision​ (...
Hierarchical Metadata-Aware Document Categorization under Weak Supervision​ (...Hierarchical Metadata-Aware Document Categorization under Weak Supervision​ (...
Hierarchical Metadata-Aware Document Categorization under Weak Supervision​ (...
 
教師なしGNNによるIoTデバイスの異常通信検知の検討
教師なしGNNによるIoTデバイスの異常通信検知の検討教師なしGNNによるIoTデバイスの異常通信検知の検討
教師なしGNNによるIoTデバイスの異常通信検知の検討
 
【論文読み会】Pyraformer_Low-Complexity Pyramidal Attention for Long-Range Time Seri...
【論文読み会】Pyraformer_Low-Complexity Pyramidal Attention for Long-Range Time Seri...【論文読み会】Pyraformer_Low-Complexity Pyramidal Attention for Long-Range Time Seri...
【論文読み会】Pyraformer_Low-Complexity Pyramidal Attention for Long-Range Time Seri...
 
【論文読み会】Analytic-DPM_an Analytic Estimate of the Optimal Reverse Variance in D...
【論文読み会】Analytic-DPM_an Analytic Estimate of the Optimal Reverse Variance in D...【論文読み会】Analytic-DPM_an Analytic Estimate of the Optimal Reverse Variance in D...
【論文読み会】Analytic-DPM_an Analytic Estimate of the Optimal Reverse Variance in D...
 
【論文読み会】Autoregressive Diffusion Models.pptx
【論文読み会】Autoregressive Diffusion Models.pptx【論文読み会】Autoregressive Diffusion Models.pptx
【論文読み会】Autoregressive Diffusion Models.pptx
 
【論文読み会】BEiT_BERT Pre-Training of Image Transformers.pptx
【論文読み会】BEiT_BERT Pre-Training of Image Transformers.pptx【論文読み会】BEiT_BERT Pre-Training of Image Transformers.pptx
【論文読み会】BEiT_BERT Pre-Training of Image Transformers.pptx
 
【論文読み会】PiCO_Contrastive Label Disambiguation for Partial Label Learning.pptx
【論文読み会】PiCO_Contrastive Label Disambiguation for Partial Label Learning.pptx【論文読み会】PiCO_Contrastive Label Disambiguation for Partial Label Learning.pptx
【論文読み会】PiCO_Contrastive Label Disambiguation for Partial Label Learning.pptx
 
【論文読み会】Deep Reinforcement Learning at the Edge of the Statistical Precipice
【論文読み会】Deep Reinforcement Learning at the Edge of the Statistical Precipice【論文読み会】Deep Reinforcement Learning at the Edge of the Statistical Precipice
【論文読み会】Deep Reinforcement Learning at the Edge of the Statistical Precipice
 
【論文読み会】Alias-Free Generative Adversarial Networks(StyleGAN3)
【論文読み会】Alias-Free Generative Adversarial Networks(StyleGAN3)【論文読み会】Alias-Free Generative Adversarial Networks(StyleGAN3)
【論文読み会】Alias-Free Generative Adversarial Networks(StyleGAN3)
 
【論文読み会】On the Expressivity of Markov Reward
【論文読み会】On the Expressivity of Markov Reward【論文読み会】On the Expressivity of Markov Reward
【論文読み会】On the Expressivity of Markov Reward
 
【論文読み会】MAUVE: Measuring the Gap Between Neural Text and Human Text using Dive...
【論文読み会】MAUVE: Measuring the Gap Between Neural Text and Human Text using Dive...【論文読み会】MAUVE: Measuring the Gap Between Neural Text and Human Text using Dive...
【論文読み会】MAUVE: Measuring the Gap Between Neural Text and Human Text using Dive...
 
【論文読み会】Moser Flow: Divergence-based Generative Modeling on Manifolds
【論文読み会】Moser Flow: Divergence-based Generative Modeling on Manifolds【論文読み会】Moser Flow: Divergence-based Generative Modeling on Manifolds
【論文読み会】Moser Flow: Divergence-based Generative Modeling on Manifolds
 
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
 
【論文読み会】Universal Language Model Fine-tuning for Text Classification
【論文読み会】Universal Language Model Fine-tuning for Text Classification【論文読み会】Universal Language Model Fine-tuning for Text Classification
【論文読み会】Universal Language Model Fine-tuning for Text Classification
 

【論文読み会】Self-Attention Generative Adversarial Networks

  • 1. 1©2019 ARISE analytics Self-Attention Generative Adversarial Networks 2018/09/07 Yuya Kanemoto
  • 2. 2©2019 ARISE analytics 概要 一言で言うと すごい点 Self-attentionを用いて画像の大域的な依存関係を抽出 画像生成の性能指標が大幅に向上  Inception Score (IS): 36.8 → 52.52  Fréchet Inception distance (FID): 27.62 → 18.65 モチベーション GANの精度向上
  • 3. 3©2019 ARISE analytics Table of contents • Background • GAN • Framework • 1クラス画像生成の進展 • 多クラス画像生成の進展 • 評価基準 • Spectral normalization • Self-attention • 本論文
  • 4. 4©2019 ARISE analytics GAN framework Goodfellow et al. 2014. Generative Adversarial Nets
  • 5. 5©2019 ARISE analytics 3.5 Years of Progress on Faces Goodfellow CVPR Tutorial 2018
  • 6. 6©2019 ARISE analytics SOTA on Faces: PG-GAN Kerras et al. ICLR 2018. PROGRESSIVE GROWING OF GANS FOR IMPROVED QUALITY, STABILITY, AND VARIATION
  • 7. 7©2019 ARISE analytics <2 Years of Progress on ImageNet Goodfellow CVPR Tutorial 2018
  • 8. 8©2019 ARISE analytics 多クラス画像生成の課題 • ImageNetのような多クラスの画像から学習する際、textureで判断される画像(e.g. 犬の体毛)は綺麗に 生成されやすいのに対して、geometryで判断される画像(e.g. 犬の足)を上手く生成するのは難しい • CNNは局所的な受容野を持つため、大局的な依存関係は層を重ねることによってのみ考慮される 大局的な情報を得るためにCNNを多層にするのはコストがかかる • → Self-attentionでcost-effectiveに大局的な依存関係を抽出(後述) (FID) Miyato et al. ICLR 2018. cGANs WITH PROJECTION DISCRIMINATOR
  • 9. 9©2019 ARISE analytics GANの評価基準 • Inception Score (IS) GANによる生成画像が各クラスを上手く表現できていれば、学習済みモデル(Inception)による 生成画像の分類予測p(y|x)のエントロピーは小さい GANによる生成画像のバリエーションが多ければモデル出力の分布p(y)のエントロピーは大きい • Fréchet Inception distance (FID) Inceptionモデルの特定の層にデータと生成画像からのサンプルを写像し、多変量ガウス分布とみ なして平均・共分散を計算 それらを用いてFréchet距離を計算 ISに比べmode collapseをより的確に捉えることができる Lucic et al. NeurIPS 2018. Are GANs Created Equal? A Large-Scale Study
  • 10. 10©2019 ARISE analytics Lipschitz連続 • GANの学習を安定させるにはLipschitz連続であることが重要であると最近の研究で議論されている (e.g. Wasserstein GAN) • ある写像fがLipschitz連続であるとき、実定数K(≥0)が存在して下式をみたす • Lipschitz連続な写像fにおいて、下図のように常にその外側にグラフが存在する双錐が存在 • Wasserstein GANにおいては、ニューラルネットをLipschitz連続な写像にするためにweight clippingを行った Arjovsky et al. ICML 2017. Wasserstein Generative Adversarial Networks
  • 11. 11©2019 ARISE analytics Spectral Normalization • 活性化関数のLipschitz normが1とすると、ニューラルネットのLipschitz normは各線形層の Lipschitz normの積で表せる • 定義より行列AのSpectral normは式(1)で表され、また行列Aの最大特異値に等しい • 定義より式(2)のように、線形層g(h)=WhのLipschitz normは重み行列WのSpectral normに 等しい • 式(3)の様に重みを正規化して各層にてLipschitz制約σ(W)=1を満たすことにより、ニューラルネッ トfのLipschitz normを1以下に制御 (1) (3) Miyato et al. ICLR 2018. SPECTRAL NORMALIZATION FOR GENERATIVE ADVERSARIAL NETWORKS (2)
  • 12. 12©2019 ARISE analytics Attention • Source-target attention • 機械翻訳において、Encoder-decoder networkではencoderの出力である固定長ベクトルを decoderに入力として与えるため、長文の場合精度が悪かった • Source(Key & Value)とTarget(Query)の関係性を同時に学習させ、文章入力のどこを重点的に処 理するかのAttention機構を取り入れることにより、長文に対しても精度が向上 • Self-attention • Self-attentionにおいてはKey/Value/Queryが同一の場所(Self)、つまり直前の隠れ層から来る • Self-attentionはある位置の出力を求めるのに下の隠れ層の全ての位置を参照でき、これは局所的な 位置しか参照できない畳み込み層より優れた利点である Luong et al. 2015. Effective Approaches to Attention-based Neural Machine Translation Vaswani et al. NIPS 2017. Attention Is All You Need
  • 14. 14©2019 ARISE analytics Self-attention on image • Self-attention GAN(SAGAN)はself-attentionを用いてattention mapを学習することにより、大局的な 依存関係を推測する • 各クエリ(色ドット)と対応するattention map(白色強度)の例が下図 Zhang et al. 2018. Self-Attention Generative Adversarial Networks
  • 15. 15©2019 ARISE analytics Self-attention mechanism ( ) Zhang et al. 2018. Self-Attention Generative Adversarial Networks
  • 16. 16©2019 ARISE analytics Self-attention mechanism ( ) Zhang et al. 2018. Self-Attention Generative Adversarial Networks
  • 17. 17©2019 ARISE analytics Effect of spectral normalization • Spectral Normalizationにより学習が安定 • Spectral Normalizationは元論文ではDiscriminatorのみに適用していたが、Generatorにも適用することでより安定 • Two-timescale update rule (TTUR)という、Generatorの学習率をDiscriminatorの学習率より小さくす る手法により学習が高速化 Zhang et al. 2018. Self-Attention Generative Adversarial Networks
  • 18. 18©2019 ARISE analytics Self-attention vs residual block • Self-attentionという新たなブロックを加え層が深くなったことによる精度向上の可能性を検証するため、対照群 としてResidualブロックを加えたネットワークと比較 • SAGANがFID/ISいずれの指標でもベストスコア、より深い層にブロック挿入した方が高精度 Zhang et al. 2018. Self-Attention Generative Adversarial Networks
  • 19. 19©2019 ARISE analytics Self-attention visualization • Generator側のself-attentionを用いた最後の層のattention mapを可視化 • 鳥の尾や犬の足などの、畳み込みでは捉えづらい大局的な依存関係をattentionが捉えている Zhang et al. 2018. Self-Attention Generative Adversarial Networks
  • 20. 20©2019 ARISE analytics SOTA on class-conditional GAN • 既存の多クラス画像生成手法と比較 • SOTAを達成、大幅に精度が向上 Zhang et al. 2018. Self-Attention Generative Adversarial Networks
  • 21. 21©2019 ARISE analytics SAGAN-generated images Zhang et al. 2018. Self-Attention Generative Adversarial Networks
  • 22. 22©2019 ARISE analytics Summary • Self-attentionを用いて大局的な依存関係を抽出 • Spectral normalizationをDiscriminator/Generator双方に適用することによりGAN学習を安定化 • TTURによりGAN学習を高速化 • 多クラス画像生成においてSOTAを達成、大幅に精度が向上