【論文読み会】Alias-Free Generative Adversarial Networks(StyleGAN3)

ARISE analytics
ARISE analyticsARISE analytics
[公開情報]
Alias-Free Generative Adversarial
Networks
(StyleGAN 3)
Customer Analytics Division
近藤 真暉
2022/03/10
[公開情報]
©2022 ARISE analytics 2
引用
特に注釈ない限り、動画像は以下の論文・PJページからの引用です。
【論文】
StyleGAN1: A Style-Based Generator Architecture for Generative Adversarial
Networks (CVPR 2019)
StyleGAN2:Analyzing and Improving the Image Quality of StyleGAN (CVPR
2020)
StyleGAN3:Alias-Free Generative Adversarial Networks (NeurIPS 2021)
【PJページ】
PJページ:Alias-Free Generative Adversarial Networks (StyleGAN3)
[公開情報]
©2022 ARISE analytics 3
注意
論文が対象としているドメインの特性上、動画を用いての説明が中心です。
動画があるページは、スライド右上に と記載しています。
動画がうまく再生できない場合は、スライド下部に動画リンクを記載していますのでそ
ちらをクリックしてご確認ください。
動画
[公開情報]
©2022 ARISE analytics 4
論文概要
平行移動・回転に対応したStyleGANの正統進化
動画URL:https://nvlabs-fi-cdn.nvidia.com/_web/stylegan3/videos/video_0_ffhq_cinemagraphs.mp4
StyleGAN2
(ヒゲが浮いている)
StyleGAN3
(ヒゲがくっついている)
動画
[公開情報]
©2022 ARISE analytics 5
StyleGANの歴史
StyleGAN
口が動かない+ノイズ
StyleGAN2
連続的な変化のときに一部固定される
StyleGAN3
平行移動や回転に対しても自然な連続変化
AdaIN(青色)でノイズが大きくなる
Progressive Growingのせいで頻出特徴(正面顔)を生成
AdaINの除去でノイズ防止
Progressive Growingの除去で不自然なモードを防止
StyleGAN2では意図しない形で位置情報を使ってしまう
Generatorの出力を連続信号として扱い、ローパスフィルタ
を導入することで解決
[公開情報]
©2022 ARISE analytics 6
一般的なGAN
GeneratorとDiscriminatorを同時に学習することで、高精度な学習を実現
画像引用:From GAN basic to StyleGAN2
ノイズを入力すると画像を生成するGeneratorと
Generatorが生成した画像が本物かどうかを判断するDiscriminatorを
同時に学習
すなわち、GANの学習は以下のように行われる
Discriminator:V(D,G)を最大にするように学習(本物の画像を入れたときは1を出力、偽物の画像を入れたときは0を出力)
Generator:V(D,G)を最小にするように学習(GeneratorはDiscriminatorが1を出すような画像を出力 )
GANの損失関数はV(D,G)を用いて右式のように表現できる
ここで、GANの学習は右式のような the two-player minimax game で表現できる
[公開情報]
©2022 ARISE analytics 7
StyleGAN
スタイル変換を目的としたGANの一種
コンテンツ情報とスタイル情報を合成して新しい画像を生成
画像引用:Arbitrary Style Transfer in Real-time with Adaptive Instance Normalization(ICCV 2017)
StyleGANのベースとなったStyleTransferの構成
コンテンツ情報の形状 + スタイル情報の色情報
を生成する
コンテンツ
情報
スタイル
情報
確率変数 ノイズ
StyleGANではスタイル情報を確率変数、コンテンツ情報をノイズとして入力
[公開情報]
©2022 ARISE analytics 8
StyleGAN2
ノイズ対策や顔向き変化の追従ができるように改良
画像引用:Progressive Growing of GANs for Improved Quality(ICLR2018)
MSG-GAN: Multi-Scale Gradients for Generative Adversarial Networks(CVPR2020)
スタイル情報とコンテンツ情報を合成するためにAdaINを利用
入力にスパイク値が入ると正規化によりどんどん大きくなっていく
↓
AdaINを使わず、標準偏差で正規化するなどより単純な仕組みに改良
(ノイズ対策)
Progressive growingは個々のGeneratorが独立しているため頻出特徴が生成されやすい
そのため顔を動かしても歯は頻出(正面顔)のままになってしまう
↓
Progressive growing のかわりに、MSG-GANライクなネットワークに変更
(顔向き変化追従)
Progressive Growing
徐々に高解像度化することで、きれいな画像を生成
Generator/Discriminatorは複数存在・独立
MSG-GAN
Generator/Discriminatorはひとつずつ
途中段階を入出力
[公開情報]
©2022 ARISE analytics 9
StyleGAN3のモチベーション
StyleGAN2では、画像の絶対座標にいくつかの特徴が貼りついたようになる問題が発生
動画像応用を考える場合、これは大きな課題になるため解決したい
テクスチャ貼り付けの例
Generatorの出力をぼかすと、出力画像も一様にぼやけるはず
しかし、StyleGAN2はテクスチャが貼りついてしまってるため
画像をぼかしても、不自然にくっきりした部分が出てしまう
アニメーションの例
人物を右に移動させたときの絶対座標のセグメント窓を
水平方向に並べたもの
連続的な変化になっていれば、きれいな画像が取り出せるはず
StyleGAN2 は水平方向に移動したときの変化が連続的でない
StyleGAN3 は水平方向に移動したときの変化が連続的
[公開情報]
©2022 ARISE analytics 10
StyleGAN3のベースアイデア
生成器の入力値を連続信号として扱うことで、平行移動・回転に対しても変化が生じないように改良
(連続信号にすることで、周辺情報をリッチに扱うことができる)
Z:離散表現(ピクセルごとに値を保持)
z:連続表現(ピクセル間にも値を入れる)
離散→連続の変換は補完フィルタ(Φs)によって行われる
深層学習で用いられる非線形関数σ(例:ReLU)は高い周波数だけ残してしまう
そうすると、せっかく連続表現にしたにもかかわらず低周波領域が
離散表現(すべて同じ)になってしまい効果が薄くなる
↓
ローパスフィルタ(高周波領域を減衰)を追加することで、低周波領域も
しっかりとらえられるように工夫
(たぶん細かい調整していると思うが、細かい実装は不明)
[公開情報]
©2022 ARISE analytics 11
ローパスフィルタの効果
ローパスフィルタ Φ_s をかけることで滑らかな関数が得られる
動画URL:https://nvlabs-fi-cdn.nvidia.com/_web/stylegan3/videos/video_7_figure_2_right_filtered_nonlinearity.mp4
元の信号
(連続表現)
サンプリング
(離散表現)
再構成
元の信号
ReLU ReLU +ローパスフィルタ
動画
[公開情報]
©2022 ARISE analytics 12
StyleGAN3の構成検証
StyleGAN2ベースにいくつか要素を加え、クリティカルな要素を探るべくunaligned FFHQデータセット
で実験
Flexible LayerとRotation Equiv が効いた
↓
Flexible layer specifications (config T):解像度が低いレイヤと高いレイヤで異なるパラメタを使うようにし、レイヤごとに最適化
Rotation equivariance (config R) :畳み込み層のフィルタサイズを 3x3 → 1x1 に変更。回転してもうまく変化するように対応できる+パラメタ削減効果
[公開情報]
©2022 ARISE analytics 13
Flexible layerの効果
Config Gでは解消できなかった低レイヤのアーチファクトが解消
動画URL:https://nvlabs-fi-cdn.nvidia.com/_web/stylegan3/videos/video_5_figure_3_left_equivariance_quality.mp4
動画
[公開情報]
©2022 ARISE analytics 14
Rotation equivarianceの効果
まだ少々アーチファクトはあるものの、回転しても自然に
動画URL:https://nvlabs-fi-cdn.nvidia.com/_web/stylegan3/videos/video_6_figure_5_right_g-cnn_comparison.mp4
動画
[公開情報]
©2022 ARISE analytics 15
StyleGAN3の最終的な構成
最終的なアーキテクチャ
[公開情報]
©2022 ARISE analytics 16
実験結果
6種のデータセットで実験。-Tと-Rでばらつきあるものの、おおむねStyleGAN3が良い
(-Rでばらつきあるのは、データセットが持つ回転のバリエーションが少ない可能性もありそう)
FID:Frechet Inception Distance。本物の画像と生成画像の埋め込み表現間の距離。小さいほど良い
EQ-T/R:デシベル(dB)で表した等分散性指標。生成画像のばらつき(バリエーション)を表す。大きいほど良い
[公開情報]
©2022 ARISE analytics 17
特徴マップ
特徴マップを可視化。StyleGAN2は特徴がへばりついているが、StyleGAN3は最低限必要な輪郭
部分のみ保持
動画URL:https://nvlabs-fi-cdn.nvidia.com/_web/stylegan3/videos/video_8_internal_activations.mp4
[公開情報]
©2022 ARISE analytics 18
生成結果いろいろ
https://nvlabs-fi-cdn.nvidia.com/_web/stylegan3/videos/video_1_ffhq_cinemagraphs.mp4
https://nvlabs-fi-cdn.nvidia.com/_web/stylegan3/videos/video_2_metfaces_interpolations.mp4
https://nvlabs-fi-cdn.nvidia.com/_web/stylegan3/videos/video_3_afhq_interpolations.mp4
https://nvlabs-fi-cdn.nvidia.com/_web/stylegan3/videos/video_4_beaches_interpolations.mp4
動画
[公開情報]
©2022 ARISE analytics 19
StyleGAN3で遊んでみた
上から年齢、表情、顔方向、性別を変動させたときの結果
年齢
動画
表情
顔方向
性別
[公開情報]
©2022 ARISE analytics 20
StyleGAN3で遊んでみた
テキスト情報を使ったマルチモーダル変換
"a face" "a smiling face"
[公開情報]
©2022 ARISE analytics 21
参考文献
【論文】
Arbitrary Style Transfer in Real-time with Adaptive Instance Normalization(ICCV 2017)
Progressive Growing of GANs for Improved Quality(ICLR2018)
A Style-Based Generator Architecture for Generative Adversarial Networks (CVPR 2019)
Analyzing and Improving the Image Quality of StyleGAN (CVPR 2020)
MSG-GAN: Multi-Scale Gradients for Generative Adversarial Networks (CVPR 2020)
Alias-Free Generative Adversarial Networks (NeurIPS 2021)
【解説記事】
From GAN basic to StyleGAN2
【論文読解】Analyzing and improving the image quality of stylegan
StyleGAN3による画像とビデオの編集
【公式ページ】
Alias-Free Generative Adversarial Networks (StyleGAN3)
[公開情報]
1 de 22

Recomendados

Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料 por
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Yusuke Uchida
16K visualizações38 slides
StyleGAN解説 CVPR2019読み会@DeNA por
StyleGAN解説 CVPR2019読み会@DeNAStyleGAN解説 CVPR2019読み会@DeNA
StyleGAN解説 CVPR2019読み会@DeNAKento Doi
8.4K visualizações34 slides
【DL輪読会】DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Dri... por
【DL輪読会】DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Dri...【DL輪読会】DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Dri...
【DL輪読会】DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Dri...Deep Learning JP
1.4K visualizações25 slides
画像生成・生成モデル メタサーベイ por
画像生成・生成モデル メタサーベイ画像生成・生成モデル メタサーベイ
画像生成・生成モデル メタサーベイcvpaper. challenge
8.3K visualizações118 slides
【論文読み会】Self-Attention Generative Adversarial Networks por
【論文読み会】Self-Attention Generative  Adversarial Networks【論文読み会】Self-Attention Generative  Adversarial Networks
【論文読み会】Self-Attention Generative Adversarial NetworksARISE analytics
5.3K visualizações23 slides
近年のHierarchical Vision Transformer por
近年のHierarchical Vision Transformer近年のHierarchical Vision Transformer
近年のHierarchical Vision TransformerYusuke Uchida
13.9K visualizações46 slides

Mais conteúdo relacionado

Mais procurados

Optimizer入門&最新動向 por
Optimizer入門&最新動向Optimizer入門&最新動向
Optimizer入門&最新動向Motokawa Tetsuya
23K visualizações21 slides
PRML学習者から入る深層生成モデル入門 por
PRML学習者から入る深層生成モデル入門PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門tmtm otm
5.7K visualizações73 slides
【DL輪読会】Visual Classification via Description from Large Language Models (ICLR... por
【DL輪読会】Visual Classification via Description from Large Language Models (ICLR...【DL輪読会】Visual Classification via Description from Large Language Models (ICLR...
【DL輪読会】Visual Classification via Description from Large Language Models (ICLR...Deep Learning JP
1.8K visualizações16 slides
【LT資料】 Neural Network 素人なんだけど何とかご機嫌取りをしたい por
【LT資料】 Neural Network 素人なんだけど何とかご機嫌取りをしたい【LT資料】 Neural Network 素人なんだけど何とかご機嫌取りをしたい
【LT資料】 Neural Network 素人なんだけど何とかご機嫌取りをしたいTakuji Tahara
14.1K visualizações20 slides
Triplet Loss 徹底解説 por
Triplet Loss 徹底解説Triplet Loss 徹底解説
Triplet Loss 徹底解説tancoro
11.4K visualizações46 slides
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing por
[DL輪読会]GLIDE: Guided Language to Image Diffusion  for Generation and Editing[DL輪読会]GLIDE: Guided Language to Image Diffusion  for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and EditingDeep Learning JP
3K visualizações21 slides

Mais procurados(20)

Optimizer入門&最新動向 por Motokawa Tetsuya
Optimizer入門&最新動向Optimizer入門&最新動向
Optimizer入門&最新動向
Motokawa Tetsuya23K visualizações
PRML学習者から入る深層生成モデル入門 por tmtm otm
PRML学習者から入る深層生成モデル入門PRML学習者から入る深層生成モデル入門
PRML学習者から入る深層生成モデル入門
tmtm otm5.7K visualizações
【DL輪読会】Visual Classification via Description from Large Language Models (ICLR... por Deep Learning JP
【DL輪読会】Visual Classification via Description from Large Language Models (ICLR...【DL輪読会】Visual Classification via Description from Large Language Models (ICLR...
【DL輪読会】Visual Classification via Description from Large Language Models (ICLR...
Deep Learning JP1.8K visualizações
【LT資料】 Neural Network 素人なんだけど何とかご機嫌取りをしたい por Takuji Tahara
【LT資料】 Neural Network 素人なんだけど何とかご機嫌取りをしたい【LT資料】 Neural Network 素人なんだけど何とかご機嫌取りをしたい
【LT資料】 Neural Network 素人なんだけど何とかご機嫌取りをしたい
Takuji Tahara14.1K visualizações
Triplet Loss 徹底解説 por tancoro
Triplet Loss 徹底解説Triplet Loss 徹底解説
Triplet Loss 徹底解説
tancoro11.4K visualizações
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing por Deep Learning JP
[DL輪読会]GLIDE: Guided Language to Image Diffusion  for Generation and Editing[DL輪読会]GLIDE: Guided Language to Image Diffusion  for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
Deep Learning JP3K visualizações
[DL輪読会]ドメイン転移と不変表現に関するサーベイ por Deep Learning JP
[DL輪読会]ドメイン転移と不変表現に関するサーベイ[DL輪読会]ドメイン転移と不変表現に関するサーベイ
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
Deep Learning JP6.9K visualizações
深層生成モデルと世界モデル por Masahiro Suzuki
深層生成モデルと世界モデル深層生成モデルと世界モデル
深層生成モデルと世界モデル
Masahiro Suzuki16.6K visualizações
[DL輪読会]Flow-based Deep Generative Models por Deep Learning JP
[DL輪読会]Flow-based Deep Generative Models[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative Models
Deep Learning JP14.6K visualizações
GAN(と強化学習との関係) por Masahiro Suzuki
GAN(と強化学習との関係)GAN(と強化学習との関係)
GAN(と強化学習との関係)
Masahiro Suzuki83.1K visualizações
Disentanglement Survey:Can You Explain How Much Are Generative models Disenta... por Hideki Tsunashima
Disentanglement Survey:Can You Explain How Much Are Generative models Disenta...Disentanglement Survey:Can You Explain How Much Are Generative models Disenta...
Disentanglement Survey:Can You Explain How Much Are Generative models Disenta...
Hideki Tsunashima6.9K visualizações
[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten... por Deep Learning JP
[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...
[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...
Deep Learning JP5.7K visualizações
backbone としての timm 入門 por Takuji Tahara
backbone としての timm 入門backbone としての timm 入門
backbone としての timm 入門
Takuji Tahara7.4K visualizações
[DL輪読会]Few-Shot Unsupervised Image-to-Image Translation por Deep Learning JP
[DL輪読会]Few-Shot Unsupervised Image-to-Image Translation[DL輪読会]Few-Shot Unsupervised Image-to-Image Translation
[DL輪読会]Few-Shot Unsupervised Image-to-Image Translation
Deep Learning JP4.1K visualizações
SSII2019TS: Shall We GANs?​ ~GANの基礎から最近の研究まで~ por SSII
SSII2019TS: Shall We GANs?​ ~GANの基礎から最近の研究まで~SSII2019TS: Shall We GANs?​ ~GANの基礎から最近の研究まで~
SSII2019TS: Shall We GANs?​ ~GANの基礎から最近の研究まで~
SSII1.1K visualizações
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces por Deep Learning JP
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
Deep Learning JP4.8K visualizações
Anomaly detection 系の論文を一言でまとめた por ぱんいち すみもと
Anomaly detection 系の論文を一言でまとめたAnomaly detection 系の論文を一言でまとめた
Anomaly detection 系の論文を一言でまとめた
ぱんいち すみもと4.5K visualizações
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision por Deep Learning JP
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
Deep Learning JP46.5K visualizações
Layer Normalization@NIPS+読み会・関西 por Keigo Nishida
Layer Normalization@NIPS+読み会・関西Layer Normalization@NIPS+読み会・関西
Layer Normalization@NIPS+読み会・関西
Keigo Nishida23.5K visualizações

Mais de ARISE analytics

【論文レベルで理解しよう!】​ 欠測値処理編​ por
【論文レベルで理解しよう!】​ 欠測値処理編​【論文レベルで理解しよう!】​ 欠測値処理編​
【論文レベルで理解しよう!】​ 欠測値処理編​ARISE analytics
87 visualizações19 slides
【論文レベルで理解しよう!】​ 大規模言語モデル(LLM)編​ por
【論文レベルで理解しよう!】​ 大規模言語モデル(LLM)編​【論文レベルで理解しよう!】​ 大規模言語モデル(LLM)編​
【論文レベルで理解しよう!】​ 大規模言語モデル(LLM)編​ARISE analytics
118 visualizações20 slides
【論文読み会】Signing at Scale: Learning to Co-Articulate Signs for Large-Scale Pho... por
【論文読み会】Signing at Scale: Learning to Co-Articulate  Signs for Large-Scale Pho...【論文読み会】Signing at Scale: Learning to Co-Articulate  Signs for Large-Scale Pho...
【論文読み会】Signing at Scale: Learning to Co-Articulate Signs for Large-Scale Pho...ARISE analytics
184 visualizações32 slides
Hierarchical Metadata-Aware Document Categorization under Weak Supervision​ (... por
Hierarchical Metadata-Aware Document Categorization under Weak Supervision​ (...Hierarchical Metadata-Aware Document Categorization under Weak Supervision​ (...
Hierarchical Metadata-Aware Document Categorization under Weak Supervision​ (...ARISE analytics
122 visualizações24 slides
教師なしGNNによるIoTデバイスの異常通信検知の検討 por
教師なしGNNによるIoTデバイスの異常通信検知の検討教師なしGNNによるIoTデバイスの異常通信検知の検討
教師なしGNNによるIoTデバイスの異常通信検知の検討ARISE analytics
1K visualizações21 slides
【論文読み会】Pyraformer_Low-Complexity Pyramidal Attention for Long-Range Time Seri... por
【論文読み会】Pyraformer_Low-Complexity Pyramidal Attention for Long-Range Time Seri...【論文読み会】Pyraformer_Low-Complexity Pyramidal Attention for Long-Range Time Seri...
【論文読み会】Pyraformer_Low-Complexity Pyramidal Attention for Long-Range Time Seri...ARISE analytics
578 visualizações18 slides

Mais de ARISE analytics(17)

【論文レベルで理解しよう!】​ 欠測値処理編​ por ARISE analytics
【論文レベルで理解しよう!】​ 欠測値処理編​【論文レベルで理解しよう!】​ 欠測値処理編​
【論文レベルで理解しよう!】​ 欠測値処理編​
ARISE analytics87 visualizações
【論文レベルで理解しよう!】​ 大規模言語モデル(LLM)編​ por ARISE analytics
【論文レベルで理解しよう!】​ 大規模言語モデル(LLM)編​【論文レベルで理解しよう!】​ 大規模言語モデル(LLM)編​
【論文レベルで理解しよう!】​ 大規模言語モデル(LLM)編​
ARISE analytics118 visualizações
【論文読み会】Signing at Scale: Learning to Co-Articulate Signs for Large-Scale Pho... por ARISE analytics
【論文読み会】Signing at Scale: Learning to Co-Articulate  Signs for Large-Scale Pho...【論文読み会】Signing at Scale: Learning to Co-Articulate  Signs for Large-Scale Pho...
【論文読み会】Signing at Scale: Learning to Co-Articulate Signs for Large-Scale Pho...
ARISE analytics184 visualizações
Hierarchical Metadata-Aware Document Categorization under Weak Supervision​ (... por ARISE analytics
Hierarchical Metadata-Aware Document Categorization under Weak Supervision​ (...Hierarchical Metadata-Aware Document Categorization under Weak Supervision​ (...
Hierarchical Metadata-Aware Document Categorization under Weak Supervision​ (...
ARISE analytics122 visualizações
教師なしGNNによるIoTデバイスの異常通信検知の検討 por ARISE analytics
教師なしGNNによるIoTデバイスの異常通信検知の検討教師なしGNNによるIoTデバイスの異常通信検知の検討
教師なしGNNによるIoTデバイスの異常通信検知の検討
ARISE analytics1K visualizações
【論文読み会】Pyraformer_Low-Complexity Pyramidal Attention for Long-Range Time Seri... por ARISE analytics
【論文読み会】Pyraformer_Low-Complexity Pyramidal Attention for Long-Range Time Seri...【論文読み会】Pyraformer_Low-Complexity Pyramidal Attention for Long-Range Time Seri...
【論文読み会】Pyraformer_Low-Complexity Pyramidal Attention for Long-Range Time Seri...
ARISE analytics578 visualizações
【論文読み会】Analytic-DPM_an Analytic Estimate of the Optimal Reverse Variance in D... por ARISE analytics
【論文読み会】Analytic-DPM_an Analytic Estimate of the Optimal Reverse Variance in D...【論文読み会】Analytic-DPM_an Analytic Estimate of the Optimal Reverse Variance in D...
【論文読み会】Analytic-DPM_an Analytic Estimate of the Optimal Reverse Variance in D...
ARISE analytics468 visualizações
【論文読み会】Autoregressive Diffusion Models.pptx por ARISE analytics
【論文読み会】Autoregressive Diffusion Models.pptx【論文読み会】Autoregressive Diffusion Models.pptx
【論文読み会】Autoregressive Diffusion Models.pptx
ARISE analytics5.3K visualizações
【論文読み会】BEiT_BERT Pre-Training of Image Transformers.pptx por ARISE analytics
【論文読み会】BEiT_BERT Pre-Training of Image Transformers.pptx【論文読み会】BEiT_BERT Pre-Training of Image Transformers.pptx
【論文読み会】BEiT_BERT Pre-Training of Image Transformers.pptx
ARISE analytics555 visualizações
【論文読み会】PiCO_Contrastive Label Disambiguation for Partial Label Learning.pptx por ARISE analytics
【論文読み会】PiCO_Contrastive Label Disambiguation for Partial Label Learning.pptx【論文読み会】PiCO_Contrastive Label Disambiguation for Partial Label Learning.pptx
【論文読み会】PiCO_Contrastive Label Disambiguation for Partial Label Learning.pptx
ARISE analytics497 visualizações
【論文読み会】Deep Reinforcement Learning at the Edge of the Statistical Precipice por ARISE analytics
【論文読み会】Deep Reinforcement Learning at the Edge of the Statistical Precipice【論文読み会】Deep Reinforcement Learning at the Edge of the Statistical Precipice
【論文読み会】Deep Reinforcement Learning at the Edge of the Statistical Precipice
ARISE analytics699 visualizações
【論文読み会】On the Expressivity of Markov Reward por ARISE analytics
【論文読み会】On the Expressivity of Markov Reward【論文読み会】On the Expressivity of Markov Reward
【論文読み会】On the Expressivity of Markov Reward
ARISE analytics583 visualizações
【論文読み会】MAUVE: Measuring the Gap Between Neural Text and Human Text using Dive... por ARISE analytics
【論文読み会】MAUVE: Measuring the Gap Between Neural Text and Human Text using Dive...【論文読み会】MAUVE: Measuring the Gap Between Neural Text and Human Text using Dive...
【論文読み会】MAUVE: Measuring the Gap Between Neural Text and Human Text using Dive...
ARISE analytics699 visualizações
【論文読み会】Moser Flow: Divergence-based Generative Modeling on Manifolds por ARISE analytics
【論文読み会】Moser Flow: Divergence-based Generative Modeling on Manifolds【論文読み会】Moser Flow: Divergence-based Generative Modeling on Manifolds
【論文読み会】Moser Flow: Divergence-based Generative Modeling on Manifolds
ARISE analytics701 visualizações
Counterfaual Machine Learning(CFML)のサーベイ por ARISE analytics
Counterfaual Machine Learning(CFML)のサーベイCounterfaual Machine Learning(CFML)のサーベイ
Counterfaual Machine Learning(CFML)のサーベイ
ARISE analytics29.9K visualizações
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features por ARISE analytics
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
ARISE analytics7.8K visualizações
【論文読み会】Universal Language Model Fine-tuning for Text Classification por ARISE analytics
【論文読み会】Universal Language Model Fine-tuning for Text Classification【論文読み会】Universal Language Model Fine-tuning for Text Classification
【論文読み会】Universal Language Model Fine-tuning for Text Classification
ARISE analytics1.9K visualizações

【論文読み会】Alias-Free Generative Adversarial Networks(StyleGAN3)

  • 1. [公開情報] Alias-Free Generative Adversarial Networks (StyleGAN 3) Customer Analytics Division 近藤 真暉 2022/03/10
  • 2. [公開情報] ©2022 ARISE analytics 2 引用 特に注釈ない限り、動画像は以下の論文・PJページからの引用です。 【論文】 StyleGAN1: A Style-Based Generator Architecture for Generative Adversarial Networks (CVPR 2019) StyleGAN2:Analyzing and Improving the Image Quality of StyleGAN (CVPR 2020) StyleGAN3:Alias-Free Generative Adversarial Networks (NeurIPS 2021) 【PJページ】 PJページ:Alias-Free Generative Adversarial Networks (StyleGAN3)
  • 3. [公開情報] ©2022 ARISE analytics 3 注意 論文が対象としているドメインの特性上、動画を用いての説明が中心です。 動画があるページは、スライド右上に と記載しています。 動画がうまく再生できない場合は、スライド下部に動画リンクを記載していますのでそ ちらをクリックしてご確認ください。 動画
  • 4. [公開情報] ©2022 ARISE analytics 4 論文概要 平行移動・回転に対応したStyleGANの正統進化 動画URL:https://nvlabs-fi-cdn.nvidia.com/_web/stylegan3/videos/video_0_ffhq_cinemagraphs.mp4 StyleGAN2 (ヒゲが浮いている) StyleGAN3 (ヒゲがくっついている) 動画
  • 5. [公開情報] ©2022 ARISE analytics 5 StyleGANの歴史 StyleGAN 口が動かない+ノイズ StyleGAN2 連続的な変化のときに一部固定される StyleGAN3 平行移動や回転に対しても自然な連続変化 AdaIN(青色)でノイズが大きくなる Progressive Growingのせいで頻出特徴(正面顔)を生成 AdaINの除去でノイズ防止 Progressive Growingの除去で不自然なモードを防止 StyleGAN2では意図しない形で位置情報を使ってしまう Generatorの出力を連続信号として扱い、ローパスフィルタ を導入することで解決
  • 6. [公開情報] ©2022 ARISE analytics 6 一般的なGAN GeneratorとDiscriminatorを同時に学習することで、高精度な学習を実現 画像引用:From GAN basic to StyleGAN2 ノイズを入力すると画像を生成するGeneratorと Generatorが生成した画像が本物かどうかを判断するDiscriminatorを 同時に学習 すなわち、GANの学習は以下のように行われる Discriminator:V(D,G)を最大にするように学習(本物の画像を入れたときは1を出力、偽物の画像を入れたときは0を出力) Generator:V(D,G)を最小にするように学習(GeneratorはDiscriminatorが1を出すような画像を出力 ) GANの損失関数はV(D,G)を用いて右式のように表現できる ここで、GANの学習は右式のような the two-player minimax game で表現できる
  • 7. [公開情報] ©2022 ARISE analytics 7 StyleGAN スタイル変換を目的としたGANの一種 コンテンツ情報とスタイル情報を合成して新しい画像を生成 画像引用:Arbitrary Style Transfer in Real-time with Adaptive Instance Normalization(ICCV 2017) StyleGANのベースとなったStyleTransferの構成 コンテンツ情報の形状 + スタイル情報の色情報 を生成する コンテンツ 情報 スタイル 情報 確率変数 ノイズ StyleGANではスタイル情報を確率変数、コンテンツ情報をノイズとして入力
  • 8. [公開情報] ©2022 ARISE analytics 8 StyleGAN2 ノイズ対策や顔向き変化の追従ができるように改良 画像引用:Progressive Growing of GANs for Improved Quality(ICLR2018) MSG-GAN: Multi-Scale Gradients for Generative Adversarial Networks(CVPR2020) スタイル情報とコンテンツ情報を合成するためにAdaINを利用 入力にスパイク値が入ると正規化によりどんどん大きくなっていく ↓ AdaINを使わず、標準偏差で正規化するなどより単純な仕組みに改良 (ノイズ対策) Progressive growingは個々のGeneratorが独立しているため頻出特徴が生成されやすい そのため顔を動かしても歯は頻出(正面顔)のままになってしまう ↓ Progressive growing のかわりに、MSG-GANライクなネットワークに変更 (顔向き変化追従) Progressive Growing 徐々に高解像度化することで、きれいな画像を生成 Generator/Discriminatorは複数存在・独立 MSG-GAN Generator/Discriminatorはひとつずつ 途中段階を入出力
  • 9. [公開情報] ©2022 ARISE analytics 9 StyleGAN3のモチベーション StyleGAN2では、画像の絶対座標にいくつかの特徴が貼りついたようになる問題が発生 動画像応用を考える場合、これは大きな課題になるため解決したい テクスチャ貼り付けの例 Generatorの出力をぼかすと、出力画像も一様にぼやけるはず しかし、StyleGAN2はテクスチャが貼りついてしまってるため 画像をぼかしても、不自然にくっきりした部分が出てしまう アニメーションの例 人物を右に移動させたときの絶対座標のセグメント窓を 水平方向に並べたもの 連続的な変化になっていれば、きれいな画像が取り出せるはず StyleGAN2 は水平方向に移動したときの変化が連続的でない StyleGAN3 は水平方向に移動したときの変化が連続的
  • 10. [公開情報] ©2022 ARISE analytics 10 StyleGAN3のベースアイデア 生成器の入力値を連続信号として扱うことで、平行移動・回転に対しても変化が生じないように改良 (連続信号にすることで、周辺情報をリッチに扱うことができる) Z:離散表現(ピクセルごとに値を保持) z:連続表現(ピクセル間にも値を入れる) 離散→連続の変換は補完フィルタ(Φs)によって行われる 深層学習で用いられる非線形関数σ(例:ReLU)は高い周波数だけ残してしまう そうすると、せっかく連続表現にしたにもかかわらず低周波領域が 離散表現(すべて同じ)になってしまい効果が薄くなる ↓ ローパスフィルタ(高周波領域を減衰)を追加することで、低周波領域も しっかりとらえられるように工夫 (たぶん細かい調整していると思うが、細かい実装は不明)
  • 11. [公開情報] ©2022 ARISE analytics 11 ローパスフィルタの効果 ローパスフィルタ Φ_s をかけることで滑らかな関数が得られる 動画URL:https://nvlabs-fi-cdn.nvidia.com/_web/stylegan3/videos/video_7_figure_2_right_filtered_nonlinearity.mp4 元の信号 (連続表現) サンプリング (離散表現) 再構成 元の信号 ReLU ReLU +ローパスフィルタ 動画
  • 12. [公開情報] ©2022 ARISE analytics 12 StyleGAN3の構成検証 StyleGAN2ベースにいくつか要素を加え、クリティカルな要素を探るべくunaligned FFHQデータセット で実験 Flexible LayerとRotation Equiv が効いた ↓ Flexible layer specifications (config T):解像度が低いレイヤと高いレイヤで異なるパラメタを使うようにし、レイヤごとに最適化 Rotation equivariance (config R) :畳み込み層のフィルタサイズを 3x3 → 1x1 に変更。回転してもうまく変化するように対応できる+パラメタ削減効果
  • 13. [公開情報] ©2022 ARISE analytics 13 Flexible layerの効果 Config Gでは解消できなかった低レイヤのアーチファクトが解消 動画URL:https://nvlabs-fi-cdn.nvidia.com/_web/stylegan3/videos/video_5_figure_3_left_equivariance_quality.mp4 動画
  • 14. [公開情報] ©2022 ARISE analytics 14 Rotation equivarianceの効果 まだ少々アーチファクトはあるものの、回転しても自然に 動画URL:https://nvlabs-fi-cdn.nvidia.com/_web/stylegan3/videos/video_6_figure_5_right_g-cnn_comparison.mp4 動画
  • 15. [公開情報] ©2022 ARISE analytics 15 StyleGAN3の最終的な構成 最終的なアーキテクチャ
  • 16. [公開情報] ©2022 ARISE analytics 16 実験結果 6種のデータセットで実験。-Tと-Rでばらつきあるものの、おおむねStyleGAN3が良い (-Rでばらつきあるのは、データセットが持つ回転のバリエーションが少ない可能性もありそう) FID:Frechet Inception Distance。本物の画像と生成画像の埋め込み表現間の距離。小さいほど良い EQ-T/R:デシベル(dB)で表した等分散性指標。生成画像のばらつき(バリエーション)を表す。大きいほど良い
  • 17. [公開情報] ©2022 ARISE analytics 17 特徴マップ 特徴マップを可視化。StyleGAN2は特徴がへばりついているが、StyleGAN3は最低限必要な輪郭 部分のみ保持 動画URL:https://nvlabs-fi-cdn.nvidia.com/_web/stylegan3/videos/video_8_internal_activations.mp4
  • 18. [公開情報] ©2022 ARISE analytics 18 生成結果いろいろ https://nvlabs-fi-cdn.nvidia.com/_web/stylegan3/videos/video_1_ffhq_cinemagraphs.mp4 https://nvlabs-fi-cdn.nvidia.com/_web/stylegan3/videos/video_2_metfaces_interpolations.mp4 https://nvlabs-fi-cdn.nvidia.com/_web/stylegan3/videos/video_3_afhq_interpolations.mp4 https://nvlabs-fi-cdn.nvidia.com/_web/stylegan3/videos/video_4_beaches_interpolations.mp4 動画
  • 19. [公開情報] ©2022 ARISE analytics 19 StyleGAN3で遊んでみた 上から年齢、表情、顔方向、性別を変動させたときの結果 年齢 動画 表情 顔方向 性別
  • 20. [公開情報] ©2022 ARISE analytics 20 StyleGAN3で遊んでみた テキスト情報を使ったマルチモーダル変換 "a face" "a smiling face"
  • 21. [公開情報] ©2022 ARISE analytics 21 参考文献 【論文】 Arbitrary Style Transfer in Real-time with Adaptive Instance Normalization(ICCV 2017) Progressive Growing of GANs for Improved Quality(ICLR2018) A Style-Based Generator Architecture for Generative Adversarial Networks (CVPR 2019) Analyzing and Improving the Image Quality of StyleGAN (CVPR 2020) MSG-GAN: Multi-Scale Gradients for Generative Adversarial Networks (CVPR 2020) Alias-Free Generative Adversarial Networks (NeurIPS 2021) 【解説記事】 From GAN basic to StyleGAN2 【論文読解】Analyzing and improving the image quality of stylegan StyleGAN3による画像とビデオの編集 【公式ページ】 Alias-Free Generative Adversarial Networks (StyleGAN3)