[DL輪読会]StyleGAN-NADA: CLIP-Guided Domain Adaptation of Image Generators

StyleGAN-NADA: CLIP-Guided Domain
Adaptation of Image Generators
岡田領 / Ryo Okada
1

StyleGAN-NADA: CLIP-Guided Domain
Adaptation of Image Generators
● Rinon Gal, Or Patashnik, Haggai Maron,
Gal Chechik, Daniel Cohen-Or
● Tel Aviv University，NVIDIA
● 2021/8/2 Arxiv投稿
● プロジェクトページ : https://stylegan-
nada.github.io/
● コードあり
書誌情報
2

● 2つのテキスト（例「Dog」から
「Cat」）を与えると学習済みStyleGAN
の生成内容を変換
● StyleGANの訓練済みモデルの範疇を大き
く超えた（out of domain）の変換が可能
● 学習データは必要なく、Photo to Sketch
のような簡単な変換ならNVIDIA V100で
数分以内（と言っても論文内での大きな
変換は6hかけているものもあり）
3
概要

● Webから収集した「画像+テキスト」4億組の訓練データ
● 画像からその画像に対応する真の記述文を、ランダムに選ばれた他の 32,768個の記述
文の中から見つけだす対照学習でマルチモーダルな埋め込み空間を学習
● 与えられたテキストと画像の間の意味的な類似性の推定をゼロショット学習で可能
5
関連研究：CLIP(Contrastive Language-Image Pre-training)

● 高解像度の画像生成が可能
● Mapping networkとSynthesis networkの２つで構成
● 正規分布からサンプリングしたzをMapping networkを通
じて潜在変数wを得る
● Synthesis networkは4 x 4 x 512の定数を入力とし，最終的
に画像を生成するが，各層においてwがスタイルとして流
し込まれる．
● 様々な研究を通じて潜在変数wによって生成画像の操作の
可能性が示されているが，あくまで既存研究はin domain
（generatorの学習範疇）の変換
6
関連研究：StyleGAN

● StyleGANの生成能力とCLIPの埋め込み表現を組み合わせ，テキスト入力によってStyleGANの生成画像を
編集できる．３種類のアプローチを試している．
● https://www.slideshare.net/DeepLearningJP2016/dlstyleclip-textdriven-manipulation-of-stylegan-imagery 7
関連研究：StyleCLIP

● StyleCLIPの３つのアプローチ
▸ latent optimization
✓ 生成画像とテキストのCLIP埋め込み表現におけるコサイン距離最小化で潜在変数を最
適化して編集画像を得る方法（モデルではなく潜在変数を最適化）
✓ 提案手法ではglobal CLIP lossと名付け学習の工夫の際に使用
▸ latent mapper
✓ テキスト内容が反映されるような潜在変数を出力できるようにネットワーク（mapping
network）を学習する方法
✓ 提案手法でも一部結果で使用
▸ global directions
✓ 与えられたテキストのCLIP表現におけるベクトルに類似する画像のベクトル方向を見
つけて反映する方法
8
関連研究：StyleCLIP

● ２つの訓練済みのStyleGANの
generator．入力w(mapping
network)は同じ
● 一方のGfrozenを固定し，もう一方
のGtrainを訓練．
● テキストとそれぞれの生成画像か
ら学習を方向付けるloss（後述）を
元に学習し，Gtrainが求める画像を
生成できるように学習
● ただし，Gtrainでは学習安定のため
各イテレーションで変更に関連度
が強い層だけ学習する（Layer
Freezing） 10
提案手法（全体）

● Global CLIP Loss
▸ CLIP埋め込み表現空間における変換後画像とターゲットテキス
トのコサイン距離を最小化
▸ シンプルだが，多様性は考慮されない
▸ 後述するLayer Freezingにて使用
● Directional CLIP loss
▸ ソースとターゲットテキストのCLIP埋め込み空間でのベクトル
差と元画像と変換画像のベクトル差の向きを一致させる（内積最
大化）
▸ 入力が変われば生成画像も変化するように働くので多様性が担保
● Embedding-norm loss
▸ StyleCLIPのlatent mapperに追加の以下lossを加えた（経験則的
に）
▸ （latent mapperは画像を大きく変更したいときに適用） 11
提案手法（loss）

● 先行研究（few shot domain translation）において学
習する重みを制限することが品質の改善に繋がるこ
とが示されている．変更内容に最も関連する重みだ
けを学習するように制限したい．
● Layer Freezing
▸ (1)ネットワークの重みをすべて固定し，潜在
変数wをGlobal CLIP lossによって最適化．最
も大きく変化したwに対応する層を選択
▸ (2)選択した層の重みの固定化のみ解除．
directional CLIP lossで最適化
● +α）大幅な変換の場合（別の動物に変換するなど），
最後にStyleCLIPのlatent mapperで学習
（Embedding-norm loss） 12
提案手法（学習方法の工夫）

● faces（StyleGAN2-FFHQ）
から変換
● ランダムにサンプリングし
た結果
● モデル層の約2/3を学習
● latent mapperなし
13
結果１

● 犬（AFHQ-dogで訓練した
generator）からいろんな
動物への変換
● 各反復において学習可能
な層の数を3つ
● latent mapper を使用
● スタイルの変更や形状の
微調整ではなく大幅な変
更
14
結果２

● テキストでの編集手法
（StyleCLIP）との比較
● 既存の手法は訓練済みモ
デルの学習内の編集に限
られるが，提案手法は
out of domainな変化
15
比較１

● Few-shot
generators系の
手法との比較
● 犬をCatに変換
した結果
● 提案手法は多様
性があり，学習
画像も不要
16
比較２

● Global lossや学習する層
について比較検証
● 提案手法（Adaptive
Layers）が最も良いと主
張
● latent mapper（with
mapper）は大幅な形状変
化を伴うときに有効とし
ている（あんまりわから
ない？）
17
Ablation Study

● GAN Inversion（実画像をGANの潜在変
数にエンコード）との組み合わせ
● 与えられた実画像を先行研究のReStyle
のエンコーダで潜在変数wにエンコード
● 提案手法のgeneratorでそのwから人物
の特徴が復元ができている
● textually-driven, zero-shot out-of-
domain image-to-image translation of
real images
18
他のGAN手法との組み合わせ１

● 実画像に以下を適用
▸ StyleCLIP to edit expression and hairstyle
▸ StyleFlow to edit pose
▸ InterfaceGAN to edit age
▸ 提案手法
● 提案手法のgeneratorの編集内容がソー
スgeneraotorの内容と一致
19
他のGAN手法との組み合わせ２

● image to imageの既存研究
（pixel2Style2pixel）において，セグメ
ンテーションやスケッチ画像を潜在変
数wにエンコード
● 潜在変数wに対して提案手法の有効性を
確認
20
他のGAN手法との組み合わせ３

● StyleGAN-NADA
▸ a CLIP-guided zero-shot method for Non-Adversarial Domain Adaptation of image generators
▸ CLIPの表現内容を効率的に反映し，学習することでgeneratorの学習の範囲を超えた変換が可能
▸ 潜在変数wを介し，様々なStyleGANの既存研究との組み合わせの有効性も示した
● Limitations
▸ 変換の範囲はCLIPの表現に限られる（特に新しい概念・変換内容は無理）
▸ 自然言語は曖昧さがあるのでちゃんとした文を書かないと思い通りに反映されない
● その他
▸ 学習方法を工夫することでCLIPの表現をStyleCLIPより効果的にStyleGANの潜在変数に取り込むこ
とに成功したという話
▸ いろいろ試すとCLIPの表現には得意と不得意がありそう
▸ 一方，学習させる層の数やlatent mapperを使用するかどうかなど，学習の調整にはヒューリスティ
ックな調整が入っているように感じた
21
まとめ

[DL輪読会]StyleGAN-NADA: CLIP-Guided Domain Adaptation of Image Generators

Recomendados

Recomendados

Mais conteúdo relacionado

Mais procurados

Mais procurados (20)

Semelhante a [DL輪読会]StyleGAN-NADA: CLIP-Guided Domain Adaptation of Image Generators

Semelhante a [DL輪読会]StyleGAN-NADA: CLIP-Guided Domain Adaptation of Image Generators (20)

Mais de Deep Learning JP

Mais de Deep Learning JP (20)

Último

Último (7)

[DL輪読会]StyleGAN-NADA: CLIP-Guided Domain Adaptation of Image Generators

Notas do Editor