SlideShare a Scribd company logo
Enviar pesquisa
Carregar
【論文読み会】Alias-Free Generative Adversarial Networks(StyleGAN3)
Denunciar
Compartilhar
ARISE analytics
ARISE analytics
Seguir
•
1 gostou
•
2,682 visualizações
1
de
22
【論文読み会】Alias-Free Generative Adversarial Networks(StyleGAN3)
•
1 gostou
•
2,682 visualizações
Denunciar
Compartilhar
Baixar agora
Baixar para ler offline
Dados e análise
社内で行った「NeurIPS読み会」でまとめた資料です。
Leia mais
ARISE analytics
ARISE analytics
Seguir
Recomendados
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料 por
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Yusuke Uchida
16K visualizações
•
38 slides
StyleGAN解説 CVPR2019読み会@DeNA por
StyleGAN解説 CVPR2019読み会@DeNA
Kento Doi
8.4K visualizações
•
34 slides
【DL輪読会】DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Dri... por
【DL輪読会】DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Dri...
Deep Learning JP
1.4K visualizações
•
25 slides
画像生成・生成モデル メタサーベイ por
画像生成・生成モデル メタサーベイ
cvpaper. challenge
8.3K visualizações
•
118 slides
【論文読み会】Self-Attention Generative Adversarial Networks por
【論文読み会】Self-Attention Generative Adversarial Networks
ARISE analytics
5.3K visualizações
•
23 slides
近年のHierarchical Vision Transformer por
近年のHierarchical Vision Transformer
Yusuke Uchida
13.9K visualizações
•
46 slides
Mais conteúdo relacionado
Mais procurados
Optimizer入門&最新動向 por
Optimizer入門&最新動向
Motokawa Tetsuya
23K visualizações
•
21 slides
PRML学習者から入る深層生成モデル入門 por
PRML学習者から入る深層生成モデル入門
tmtm otm
5.7K visualizações
•
73 slides
【DL輪読会】Visual Classification via Description from Large Language Models (ICLR... por
【DL輪読会】Visual Classification via Description from Large Language Models (ICLR...
Deep Learning JP
1.8K visualizações
•
16 slides
【LT資料】 Neural Network 素人なんだけど何とかご機嫌取りをしたい por
【LT資料】 Neural Network 素人なんだけど何とかご機嫌取りをしたい
Takuji Tahara
14.1K visualizações
•
20 slides
Triplet Loss 徹底解説 por
Triplet Loss 徹底解説
tancoro
11.4K visualizações
•
46 slides
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing por
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
Deep Learning JP
3K visualizações
•
21 slides
Mais procurados
(20)
Optimizer入門&最新動向 por Motokawa Tetsuya
Optimizer入門&最新動向
Motokawa Tetsuya
•
23K visualizações
PRML学習者から入る深層生成モデル入門 por tmtm otm
PRML学習者から入る深層生成モデル入門
tmtm otm
•
5.7K visualizações
【DL輪読会】Visual Classification via Description from Large Language Models (ICLR... por Deep Learning JP
【DL輪読会】Visual Classification via Description from Large Language Models (ICLR...
Deep Learning JP
•
1.8K visualizações
【LT資料】 Neural Network 素人なんだけど何とかご機嫌取りをしたい por Takuji Tahara
【LT資料】 Neural Network 素人なんだけど何とかご機嫌取りをしたい
Takuji Tahara
•
14.1K visualizações
Triplet Loss 徹底解説 por tancoro
Triplet Loss 徹底解説
tancoro
•
11.4K visualizações
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing por Deep Learning JP
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
Deep Learning JP
•
3K visualizações
実装レベルで学ぶVQVAE por ぱんいち すみもと
実装レベルで学ぶVQVAE
ぱんいち すみもと
•
12.6K visualizações
[DL輪読会]ドメイン転移と不変表現に関するサーベイ por Deep Learning JP
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
Deep Learning JP
•
6.9K visualizações
深層生成モデルと世界モデル por Masahiro Suzuki
深層生成モデルと世界モデル
Masahiro Suzuki
•
16.6K visualizações
[DL輪読会]Flow-based Deep Generative Models por Deep Learning JP
[DL輪読会]Flow-based Deep Generative Models
Deep Learning JP
•
14.6K visualizações
GAN(と強化学習との関係) por Masahiro Suzuki
GAN(と強化学習との関係)
Masahiro Suzuki
•
83.1K visualizações
Disentanglement Survey:Can You Explain How Much Are Generative models Disenta... por Hideki Tsunashima
Disentanglement Survey:Can You Explain How Much Are Generative models Disenta...
Hideki Tsunashima
•
6.9K visualizações
[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten... por Deep Learning JP
[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...
Deep Learning JP
•
5.7K visualizações
backbone としての timm 入門 por Takuji Tahara
backbone としての timm 入門
Takuji Tahara
•
7.4K visualizações
[DL輪読会]Few-Shot Unsupervised Image-to-Image Translation por Deep Learning JP
[DL輪読会]Few-Shot Unsupervised Image-to-Image Translation
Deep Learning JP
•
4.1K visualizações
SSII2019TS: Shall We GANs? ~GANの基礎から最近の研究まで~ por SSII
SSII2019TS: Shall We GANs? ~GANの基礎から最近の研究まで~
SSII
•
1.1K visualizações
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces por Deep Learning JP
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
Deep Learning JP
•
4.8K visualizações
Anomaly detection 系の論文を一言でまとめた por ぱんいち すみもと
Anomaly detection 系の論文を一言でまとめた
ぱんいち すみもと
•
4.5K visualizações
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision por Deep Learning JP
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
Deep Learning JP
•
46.5K visualizações
Layer Normalization@NIPS+読み会・関西 por Keigo Nishida
Layer Normalization@NIPS+読み会・関西
Keigo Nishida
•
23.5K visualizações
Mais de ARISE analytics
【論文レベルで理解しよう!】 欠測値処理編 por
【論文レベルで理解しよう!】 欠測値処理編
ARISE analytics
87 visualizações
•
19 slides
【論文レベルで理解しよう!】 大規模言語モデル(LLM)編 por
【論文レベルで理解しよう!】 大規模言語モデル(LLM)編
ARISE analytics
118 visualizações
•
20 slides
【論文読み会】Signing at Scale: Learning to Co-Articulate Signs for Large-Scale Pho... por
【論文読み会】Signing at Scale: Learning to Co-Articulate Signs for Large-Scale Pho...
ARISE analytics
184 visualizações
•
32 slides
Hierarchical Metadata-Aware Document Categorization under Weak Supervision (... por
Hierarchical Metadata-Aware Document Categorization under Weak Supervision (...
ARISE analytics
122 visualizações
•
24 slides
教師なしGNNによるIoTデバイスの異常通信検知の検討 por
教師なしGNNによるIoTデバイスの異常通信検知の検討
ARISE analytics
1K visualizações
•
21 slides
【論文読み会】Pyraformer_Low-Complexity Pyramidal Attention for Long-Range Time Seri... por
【論文読み会】Pyraformer_Low-Complexity Pyramidal Attention for Long-Range Time Seri...
ARISE analytics
578 visualizações
•
18 slides
Mais de ARISE analytics
(17)
【論文レベルで理解しよう!】 欠測値処理編 por ARISE analytics
【論文レベルで理解しよう!】 欠測値処理編
ARISE analytics
•
87 visualizações
【論文レベルで理解しよう!】 大規模言語モデル(LLM)編 por ARISE analytics
【論文レベルで理解しよう!】 大規模言語モデル(LLM)編
ARISE analytics
•
118 visualizações
【論文読み会】Signing at Scale: Learning to Co-Articulate Signs for Large-Scale Pho... por ARISE analytics
【論文読み会】Signing at Scale: Learning to Co-Articulate Signs for Large-Scale Pho...
ARISE analytics
•
184 visualizações
Hierarchical Metadata-Aware Document Categorization under Weak Supervision (... por ARISE analytics
Hierarchical Metadata-Aware Document Categorization under Weak Supervision (...
ARISE analytics
•
122 visualizações
教師なしGNNによるIoTデバイスの異常通信検知の検討 por ARISE analytics
教師なしGNNによるIoTデバイスの異常通信検知の検討
ARISE analytics
•
1K visualizações
【論文読み会】Pyraformer_Low-Complexity Pyramidal Attention for Long-Range Time Seri... por ARISE analytics
【論文読み会】Pyraformer_Low-Complexity Pyramidal Attention for Long-Range Time Seri...
ARISE analytics
•
578 visualizações
【論文読み会】Analytic-DPM_an Analytic Estimate of the Optimal Reverse Variance in D... por ARISE analytics
【論文読み会】Analytic-DPM_an Analytic Estimate of the Optimal Reverse Variance in D...
ARISE analytics
•
468 visualizações
【論文読み会】Autoregressive Diffusion Models.pptx por ARISE analytics
【論文読み会】Autoregressive Diffusion Models.pptx
ARISE analytics
•
5.3K visualizações
【論文読み会】BEiT_BERT Pre-Training of Image Transformers.pptx por ARISE analytics
【論文読み会】BEiT_BERT Pre-Training of Image Transformers.pptx
ARISE analytics
•
555 visualizações
【論文読み会】PiCO_Contrastive Label Disambiguation for Partial Label Learning.pptx por ARISE analytics
【論文読み会】PiCO_Contrastive Label Disambiguation for Partial Label Learning.pptx
ARISE analytics
•
497 visualizações
【論文読み会】Deep Reinforcement Learning at the Edge of the Statistical Precipice por ARISE analytics
【論文読み会】Deep Reinforcement Learning at the Edge of the Statistical Precipice
ARISE analytics
•
699 visualizações
【論文読み会】On the Expressivity of Markov Reward por ARISE analytics
【論文読み会】On the Expressivity of Markov Reward
ARISE analytics
•
583 visualizações
【論文読み会】MAUVE: Measuring the Gap Between Neural Text and Human Text using Dive... por ARISE analytics
【論文読み会】MAUVE: Measuring the Gap Between Neural Text and Human Text using Dive...
ARISE analytics
•
699 visualizações
【論文読み会】Moser Flow: Divergence-based Generative Modeling on Manifolds por ARISE analytics
【論文読み会】Moser Flow: Divergence-based Generative Modeling on Manifolds
ARISE analytics
•
701 visualizações
Counterfaual Machine Learning(CFML)のサーベイ por ARISE analytics
Counterfaual Machine Learning(CFML)のサーベイ
ARISE analytics
•
29.9K visualizações
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features por ARISE analytics
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
ARISE analytics
•
7.8K visualizações
【論文読み会】Universal Language Model Fine-tuning for Text Classification por ARISE analytics
【論文読み会】Universal Language Model Fine-tuning for Text Classification
ARISE analytics
•
1.9K visualizações
【論文読み会】Alias-Free Generative Adversarial Networks(StyleGAN3)
1.
[公開情報] Alias-Free Generative Adversarial Networks (StyleGAN
3) Customer Analytics Division 近藤 真暉 2022/03/10
2.
[公開情報] ©2022 ARISE analytics
2 引用 特に注釈ない限り、動画像は以下の論文・PJページからの引用です。 【論文】 StyleGAN1: A Style-Based Generator Architecture for Generative Adversarial Networks (CVPR 2019) StyleGAN2:Analyzing and Improving the Image Quality of StyleGAN (CVPR 2020) StyleGAN3:Alias-Free Generative Adversarial Networks (NeurIPS 2021) 【PJページ】 PJページ:Alias-Free Generative Adversarial Networks (StyleGAN3)
3.
[公開情報] ©2022 ARISE analytics
3 注意 論文が対象としているドメインの特性上、動画を用いての説明が中心です。 動画があるページは、スライド右上に と記載しています。 動画がうまく再生できない場合は、スライド下部に動画リンクを記載していますのでそ ちらをクリックしてご確認ください。 動画
4.
[公開情報] ©2022 ARISE analytics
4 論文概要 平行移動・回転に対応したStyleGANの正統進化 動画URL:https://nvlabs-fi-cdn.nvidia.com/_web/stylegan3/videos/video_0_ffhq_cinemagraphs.mp4 StyleGAN2 (ヒゲが浮いている) StyleGAN3 (ヒゲがくっついている) 動画
5.
[公開情報] ©2022 ARISE analytics
5 StyleGANの歴史 StyleGAN 口が動かない+ノイズ StyleGAN2 連続的な変化のときに一部固定される StyleGAN3 平行移動や回転に対しても自然な連続変化 AdaIN(青色)でノイズが大きくなる Progressive Growingのせいで頻出特徴(正面顔)を生成 AdaINの除去でノイズ防止 Progressive Growingの除去で不自然なモードを防止 StyleGAN2では意図しない形で位置情報を使ってしまう Generatorの出力を連続信号として扱い、ローパスフィルタ を導入することで解決
6.
[公開情報] ©2022 ARISE analytics
6 一般的なGAN GeneratorとDiscriminatorを同時に学習することで、高精度な学習を実現 画像引用:From GAN basic to StyleGAN2 ノイズを入力すると画像を生成するGeneratorと Generatorが生成した画像が本物かどうかを判断するDiscriminatorを 同時に学習 すなわち、GANの学習は以下のように行われる Discriminator:V(D,G)を最大にするように学習(本物の画像を入れたときは1を出力、偽物の画像を入れたときは0を出力) Generator:V(D,G)を最小にするように学習(GeneratorはDiscriminatorが1を出すような画像を出力 ) GANの損失関数はV(D,G)を用いて右式のように表現できる ここで、GANの学習は右式のような the two-player minimax game で表現できる
7.
[公開情報] ©2022 ARISE analytics
7 StyleGAN スタイル変換を目的としたGANの一種 コンテンツ情報とスタイル情報を合成して新しい画像を生成 画像引用:Arbitrary Style Transfer in Real-time with Adaptive Instance Normalization(ICCV 2017) StyleGANのベースとなったStyleTransferの構成 コンテンツ情報の形状 + スタイル情報の色情報 を生成する コンテンツ 情報 スタイル 情報 確率変数 ノイズ StyleGANではスタイル情報を確率変数、コンテンツ情報をノイズとして入力
8.
[公開情報] ©2022 ARISE analytics
8 StyleGAN2 ノイズ対策や顔向き変化の追従ができるように改良 画像引用:Progressive Growing of GANs for Improved Quality(ICLR2018) MSG-GAN: Multi-Scale Gradients for Generative Adversarial Networks(CVPR2020) スタイル情報とコンテンツ情報を合成するためにAdaINを利用 入力にスパイク値が入ると正規化によりどんどん大きくなっていく ↓ AdaINを使わず、標準偏差で正規化するなどより単純な仕組みに改良 (ノイズ対策) Progressive growingは個々のGeneratorが独立しているため頻出特徴が生成されやすい そのため顔を動かしても歯は頻出(正面顔)のままになってしまう ↓ Progressive growing のかわりに、MSG-GANライクなネットワークに変更 (顔向き変化追従) Progressive Growing 徐々に高解像度化することで、きれいな画像を生成 Generator/Discriminatorは複数存在・独立 MSG-GAN Generator/Discriminatorはひとつずつ 途中段階を入出力
9.
[公開情報] ©2022 ARISE analytics
9 StyleGAN3のモチベーション StyleGAN2では、画像の絶対座標にいくつかの特徴が貼りついたようになる問題が発生 動画像応用を考える場合、これは大きな課題になるため解決したい テクスチャ貼り付けの例 Generatorの出力をぼかすと、出力画像も一様にぼやけるはず しかし、StyleGAN2はテクスチャが貼りついてしまってるため 画像をぼかしても、不自然にくっきりした部分が出てしまう アニメーションの例 人物を右に移動させたときの絶対座標のセグメント窓を 水平方向に並べたもの 連続的な変化になっていれば、きれいな画像が取り出せるはず StyleGAN2 は水平方向に移動したときの変化が連続的でない StyleGAN3 は水平方向に移動したときの変化が連続的
10.
[公開情報] ©2022 ARISE analytics
10 StyleGAN3のベースアイデア 生成器の入力値を連続信号として扱うことで、平行移動・回転に対しても変化が生じないように改良 (連続信号にすることで、周辺情報をリッチに扱うことができる) Z:離散表現(ピクセルごとに値を保持) z:連続表現(ピクセル間にも値を入れる) 離散→連続の変換は補完フィルタ(Φs)によって行われる 深層学習で用いられる非線形関数σ(例:ReLU)は高い周波数だけ残してしまう そうすると、せっかく連続表現にしたにもかかわらず低周波領域が 離散表現(すべて同じ)になってしまい効果が薄くなる ↓ ローパスフィルタ(高周波領域を減衰)を追加することで、低周波領域も しっかりとらえられるように工夫 (たぶん細かい調整していると思うが、細かい実装は不明)
11.
[公開情報] ©2022 ARISE analytics
11 ローパスフィルタの効果 ローパスフィルタ Φ_s をかけることで滑らかな関数が得られる 動画URL:https://nvlabs-fi-cdn.nvidia.com/_web/stylegan3/videos/video_7_figure_2_right_filtered_nonlinearity.mp4 元の信号 (連続表現) サンプリング (離散表現) 再構成 元の信号 ReLU ReLU +ローパスフィルタ 動画
12.
[公開情報] ©2022 ARISE analytics
12 StyleGAN3の構成検証 StyleGAN2ベースにいくつか要素を加え、クリティカルな要素を探るべくunaligned FFHQデータセット で実験 Flexible LayerとRotation Equiv が効いた ↓ Flexible layer specifications (config T):解像度が低いレイヤと高いレイヤで異なるパラメタを使うようにし、レイヤごとに最適化 Rotation equivariance (config R) :畳み込み層のフィルタサイズを 3x3 → 1x1 に変更。回転してもうまく変化するように対応できる+パラメタ削減効果
13.
[公開情報] ©2022 ARISE analytics
13 Flexible layerの効果 Config Gでは解消できなかった低レイヤのアーチファクトが解消 動画URL:https://nvlabs-fi-cdn.nvidia.com/_web/stylegan3/videos/video_5_figure_3_left_equivariance_quality.mp4 動画
14.
[公開情報] ©2022 ARISE analytics
14 Rotation equivarianceの効果 まだ少々アーチファクトはあるものの、回転しても自然に 動画URL:https://nvlabs-fi-cdn.nvidia.com/_web/stylegan3/videos/video_6_figure_5_right_g-cnn_comparison.mp4 動画
15.
[公開情報] ©2022 ARISE analytics
15 StyleGAN3の最終的な構成 最終的なアーキテクチャ
16.
[公開情報] ©2022 ARISE analytics
16 実験結果 6種のデータセットで実験。-Tと-Rでばらつきあるものの、おおむねStyleGAN3が良い (-Rでばらつきあるのは、データセットが持つ回転のバリエーションが少ない可能性もありそう) FID:Frechet Inception Distance。本物の画像と生成画像の埋め込み表現間の距離。小さいほど良い EQ-T/R:デシベル(dB)で表した等分散性指標。生成画像のばらつき(バリエーション)を表す。大きいほど良い
17.
[公開情報] ©2022 ARISE analytics
17 特徴マップ 特徴マップを可視化。StyleGAN2は特徴がへばりついているが、StyleGAN3は最低限必要な輪郭 部分のみ保持 動画URL:https://nvlabs-fi-cdn.nvidia.com/_web/stylegan3/videos/video_8_internal_activations.mp4
18.
[公開情報] ©2022 ARISE analytics
18 生成結果いろいろ https://nvlabs-fi-cdn.nvidia.com/_web/stylegan3/videos/video_1_ffhq_cinemagraphs.mp4 https://nvlabs-fi-cdn.nvidia.com/_web/stylegan3/videos/video_2_metfaces_interpolations.mp4 https://nvlabs-fi-cdn.nvidia.com/_web/stylegan3/videos/video_3_afhq_interpolations.mp4 https://nvlabs-fi-cdn.nvidia.com/_web/stylegan3/videos/video_4_beaches_interpolations.mp4 動画
19.
[公開情報] ©2022 ARISE analytics
19 StyleGAN3で遊んでみた 上から年齢、表情、顔方向、性別を変動させたときの結果 年齢 動画 表情 顔方向 性別
20.
[公開情報] ©2022 ARISE analytics
20 StyleGAN3で遊んでみた テキスト情報を使ったマルチモーダル変換 "a face" "a smiling face"
21.
[公開情報] ©2022 ARISE analytics
21 参考文献 【論文】 Arbitrary Style Transfer in Real-time with Adaptive Instance Normalization(ICCV 2017) Progressive Growing of GANs for Improved Quality(ICLR2018) A Style-Based Generator Architecture for Generative Adversarial Networks (CVPR 2019) Analyzing and Improving the Image Quality of StyleGAN (CVPR 2020) MSG-GAN: Multi-Scale Gradients for Generative Adversarial Networks (CVPR 2020) Alias-Free Generative Adversarial Networks (NeurIPS 2021) 【解説記事】 From GAN basic to StyleGAN2 【論文読解】Analyzing and improving the image quality of stylegan StyleGAN3による画像とビデオの編集 【公式ページ】 Alias-Free Generative Adversarial Networks (StyleGAN3)
22.
[公開情報]