【CVPR 2020 メタサーベイ】Neural Generative Models

CVPR 2020の動向・気付き・メタサーベイ  
1
中塚俊介（パナソニック株式会社），野中琢登（工学院大学）, 
清田浩史（株式会社カブク），浅野一真 
Group 17: Neural Generative Models

2
Neural Generative Model -アジェンダ- 
1. イントロダクション  
2. StyleGAN 
3. Image to Image Translation 
4. 3D 
5. Dataset & 評価指標 
6. 有力研究機関 / 研究者 
7. CVPR2020の論文の流行りや気付き 
 
p.3 ～ p.5  
p.6～p.11 
p.12～p.20 
p.21～p.27 
p.28～p.35 
p.36～p.45 
p.46 ～

3
本サーベイの概要 
• Neural Generative Modelの概要や最新動向を調査 
– Neural Generative Modelの概要や話題となった過去の 
論文，データセット，評価の方法を紹介 
– CVPR2020のNeural Generative Model最新論文を紹介 
– 本分野に強い研究機関や研究者，その動向を調査し共有 
– サーベイからどのような論文が流行っているか， 
近年の研究動向や気付きを共有 
生成モデルの動向や最新情報を共有することで，
今後の研究や業務への知見に活かす

4
Neural generative modelってどんな研究？ 
• 学習用データを元に新たなデータを生成するモデル 
– 確率分布や画像から新たな画像(3Dデータや音データなどもあり)を生成

5
近年のNeural Generative Modelの流行 
• 大きく分けて3つの流行があることが判明 
– StyleGANを改良 / 活用したモデルやタスク 
• StyleGANを改良した論文（本サーベイで3本紹介）やStyleGANを 
しれっと使っている論文が顕在 
 
– Image to Image Translation (画像変換) 
• Pix2PixやCycleGANから始まり，近年でも新たな問題設定を構築し，そ
のためのモデルを提案している論文が顕在 
 
– 3次元情報を生成または中継・生成するタスク 
• 3Dデータや高画質画像など，データのサイズが大きいものを扱う研究
が出始め，次のフェーズに移ろうとしている

6 
StyleGAN 
summarized by 中塚俊介

7
CVPR2020で見たNeural Generative Models 
• GAN 
– Generative Adversarial Networks 
– CVPRでダントツに多いNeural Generative Models 
– 次ページから深掘 
• VAE 
– Variational Autoencoders 
– CVPRでは2番目に多い生成モデル 
– ICLR，ICMLなどでは数多く見かける 
Flow Based Model 
– CVPR2020では数本程度

8
GANのデファクトスタンダードの変遷 
DCGAN 
Deep Convolutional GAN  
2015 
 
GAN 
Generative Adversarial Nets  
2014 
 
WGAN 
Wasserstein GAN  
2017 
 WGAN-GP 
WGAN-Gradient Penalty  
2017 
 
BigGAN 
Big GAN 
2018 
 
SAGAN 
Self Attention GAN  
2018 
 
PGGAN 
Progressive Growing GAN  
2017 
 Style GAN 
Style GAN 
2019 
 
NVIDIAの系譜 
DeepMind 
Goodfellow 
CVPR2020でStyle GANを利用・改造した論文多数あり！

StyleGAN in CVPR2020 (1/3) 
9
• StyleGAN2 
– StyleGANの問題点を改善した論文 
• Instance Normによるdroplet-like artifacts(水滴みたいな)の除去 
• Progressive Growing構造による“phase” artifactsの除去 
（interpolationで顔の向きは変わってるのに顔のパーツが追従してないとか） 
Progressive Growingを廃止

10
• Adversarial Latent Autoencoders 
– StyleGAN with Encoderの構造 
• StyleGANから潜在変数を出力することは不可能だった 
• Encoderの追加でそれを可能に 
• GeneratorとEncoderで不思議なAutoencoderの形になっている

11
• Image2StyleGAN++ 
– Encoder lessのImage to latent vector 
• 画像とGeneratorの出力の差をLossとしSGDで 
画像に対応する潜在変数とノイズを求める x -> w, n 
• Crossover，Inpainting，StyleTransferなど様々なapplicationに 
応用可能

12 
Image to Image Translation 
summarized by 清田浩史

13
Consistencyの工夫 (1/4) 
• Unpaired Image-to-Image Translation using
Cycle-Consistent Adversarial Networks (ICCV2017) 
– Cycle-Consistencyを提案 
• I2I Translationにおいては、入力データの文脈をいかに残すかが大事 
• 2回の変換で行って帰ってきたら元の入力に近くなければならないという制約

14
• Breaking the Cycle - Colleagues Are All You Need 
– Cycle-Consistency 制約を除いた論文 
• 1つのgeneratorと2つのdiscriminatorからなる組（council）を複数作成 
• 入力画像のドメインを判定するdiscriminatorと、入力画像が自身の所属するcouncilの
generatorが生成したものかどうかを判定するdiscriminatorを使用 
• generatorは他のcouncilのgeneratorの出力に寄せる必要が出てくるので、結果として
cycle-consistencyなしでも文脈が保存される。

15
• RL-CycleGAN: Reinforcement Learning Aware
Simulation-to-Real 
– 強化学習におけるQ値を使ったconsistencyを提案 
• シミュレータの画像と実際の画像の間での変換 
• 変換前後で状態そのものの評価値であるQ値は同じでなければならない、という制約を導入

16
• Unpaired Portrait Drawing Generation via Asymmetric
Cycle Mapping 
– 非対称なcycle-consistencyの導入 
• 写真⇔線画の変換などでは、写真→線画で失われる情報が大きいため、元の画像に戻さな
いといけないというcycle-consistencyの制約は強すぎる 
• 写真→線画→写真の側の制約としてゆるいRelaxed cycle-consistencyを用いた

17
ドメインラベル付きデータの削減 (1/2) 
• High-Resolution Daytime Translation Without
Domain Labels 
– 風景写真の時間帯変換をドメインラベルなしで学習

18
ドメインラベル付きデータの削減 (2/2) 
• Semi-Supervised Learning for Few-Shot
Image-to-Image Translation 
– 新規ドメインについて変換可能なモデルを少数のラベル付き
データで作成 
• 少数のラベル付きデータの情報からラベルなしデータの疑似ラベルを作成して学
習に利用。

19
I2Iの高解像度化 (1/2) 
• High-Resolution Daytime Translation Without
Domain Labels 
– 高解像度の画像に対して変換を行うための工夫 
• ダウンサンプリングした画像に対して変換を施し、merging networkで統合する。 
1024x1024の画像で成功

20
I2Iの高解像度化 (2/2) 
• Contextual Residual Aggregation for Ultra
High-Resolution Image Inpainting 
– 高解像度の画像に対して変換を行うための工夫 
• ダウンサンプリングした画像に対してInpaintingを施し、元の解像度においてマスク領域外の
高周波成分を利用して精緻化する。 
1080Tiで4096x4096の画像まで  
適用できる。

21 
3D 
summarized by 野中琢登

22
３Dへの注目 
• Title に”３D”とはいっている物だけでも142本 
– CVPR採択論文のざっくり1割.とても多い！ 
 
– 1枚の２D画像から３D画像を再構成 
• そもそも３D生成が目的 
• 複数視点獲得のために３Dを経由 
– 生成したものを意味的に制御したい 
• モーフィングなどできるように 
– 教師なし(3D model自体は学習させない)が多い

23
single viewからの3Dshape復元 
• Unsupervised Learning of Probably Symmetric
Deformable 3D Objects from Images in the Wild 
– CVPR Best Paper  
– 教師や事前モデルなしに3D shapeを復元できる 
• 画像のsymmetryの特性に注目している 
• symmetryを得るのは難しいので照明の確率マップを用いる 
• 各入力画像を奥行き，アルベト，視点，照明に因数分解するAEを用いる 
• symmetryかどうかの確率マップも用いる

24
SynSin:画像から新規視点画像を生成 
SynSin: End-to-End View Synthesis From a Single Image 
– 複雑なリアルシーン画像に対応かつEnd-to-End生成 
– 1枚の画像から複数視点を生成 
• そのために特徴マップ，深度マップを推測 
• そこから微分可能なレンダラーを導入し，３Dの点群を用意 
• GAN構造を用いている 
– 他のタスクへも応用可

25
StyleGAN×３D　顔リグ 
• StyleRig: Rigging StyleGAN for 3D Control Over Portrait
Images 
– 新しいタスクを切り開いた 
• 今までは顔の内部のモデルをいじれるor目・鼻などの生成のみだった 
– StyleGAN画像をフェイスリグのようにコントロール 
• 頭部のポーズ，表情，照明をミックスできる 
– 訓練は自己教師付二重cycle consistencyに基づく

26
texture付き3D shape生成 
• Leveraging 2D Data to Learn Textured 3D Mesh
Generation 
– 形状だけでなくテクスチャ付き３Dオブジェクト(Mesh)を生成できる 
– 3D Meshのデータセットではなく2D画像のデータセットを学習 
• 画像を２D背景＋３Dオブジェクトと解釈 
• 任意の画像を生成する潜在パラメータを生成するEncoder + 
colored 3D meshを生成するDecoder+背景のGenerator 
– self-intersectionsを解決

27
自然な３Dテクスチャの生成 
• Learning a Neural 3D Texture Space from 2D Exemplars 
– 多様性，視覚的忠実度，計算効率がよい2D or 3Dの自然テクスチャ
の生成 
• 歴史あるperlin noiseをdeepに，非線形に 
– 新しいテクスチャに対して再学習の必要なし 
• 無限ドメインのサポート 
– 学習は２D画像のみ

28 
Dataset ＆評価指標 
summarized by 中塚俊介

データセット（1/5） 
29
• 画像生成 
– MNIST 
• 予備実験，仮説検証に使われることが多い 
– Cifar10 
• MNIST同様 
– LSUN 
• 特にBedroomが使われる

30
• 画像生成 
– ImageNet 
• Classificationのように224x224で使われることは少ない 
• 64x64 ~ 1024x1024で用いられる 
• 非常に多クラスなので，conditionalな生成タスクによく用いられる 
– CelebA HQ 
• 顔データセット 
• PGGANやStyleGANなどの高解像度画像生成タスクに用いられる 
• 顔のパーツ位置の正規化することがほとんど (PGGAN参照)

31
• Image to Image Translation 
– City Scapes 
• ドイツの都市の画像＋セマンティックセグメンテーションラベル 
• セグメンテーションラベル <-> 画像の translation 
– horse2zebra 
• Cycle GANでお馴染み 
• 馬 <-> シマウマ

32
• Image Inpainting 
– Places2 
• 元々はシーン認識のデータセット 
• 8 Million images 
– The Street View Text Dataset 
• 元々はin the wildなテキスト検出データセット 
• 350枚しかデータがない

33
• Text-to-Image Generation 
– CUB 
• 鳥の画像＋様々なラベル 
• クラス，羽・背中・足の色，胸・背中の模様サイズ．．．等々 
– COCO 
• 画像+captionなデータセット 
• object segmentation, detectionもOK

評価指標（1/2） 
34
• Incepsion Score (IS) 
– 以下2つを測る指標 
• Inception model が識別しやすい 
• 多様性がある 
Fréchet Inception Distance (FID) 
– 実画像と生成画像をそれぞれInception Modelに入力 
– 得られた特徴ベクトルを正規分布と仮定し，分布間の距離を測る 
Sliced Wasserstein Distance  
– Laplacian Pyramidの各レベルから，パッチ切り出す 
– それぞれをベクトルにreshapeしてSliced Wasserstein Distanceを計測

評価指標（2/2） 
35
• Perceptual Path Length (PPL) 
– 人間の知覚的に潜在空間上で画像が滑らかに変化するか 
– e.g.) 白い馬と黒い馬の潜在変数を線形補完したときに 
灰色の馬を経由すれば知覚的に滑らか 
車を経由すれば知覚的に滑らかではない 
Negative Log Likelihood (NLL) 
– 負の対数尤度 
– GANでは使用できないが， 
Flow based, Pixel CNNベースの手法で用いられる 
– bits/dimは画像の解像度を考慮したNLL

36 
研究機関／研究者紹介 
summarized by 浅野一真

37
有力研究機関，研究者 
• 研究機関 (気になる，調べたいと思った団体をpick up) 
– NVIDIA 
– Google Brain Team 
– OpenAI 
•  
研究者(敬称略) 
– Ian Goodfellow 
– Tero Karras 
– Diederik P. Kingma 
 
– Phillip Isola 
– Jun-Yan Zhu

38
NVIDIA (有力研究機関 1 / 3) 
• 論文の画像や公開動画のクオリティがやばい 
– 概要・経歴 
• グラフィックスチップの製造会社として1993年に設立， 
2010年代の第三次AIブーム，同社のCUDAアーキテクチャとDNNの相性が非常に良かっ
たことから急成長した． 
– 特徴 
• GPUの製造会社であることを生かした潤沢な計算資源に加え，DNNだけでなくコンピュータ
グラフィックスやレイトレなどの研究分野を持つ研究者，UC BerkeleyやCAEML，Stanford
などとの共同研究で優秀な学生が集まるシステムが出来上がっている 
– 代表的な / 最新の論文 (Neural Generative modelを主体にピックアップ) 
• High-Resolution Image Synthesis and Semantic Manipulation with Conditional GANs (CVPR 2018) 
• Devil is in the Edges: Learning Semantic Boundaries from Noisy Annotations (CVPR 2019) 
• Semantic Image Synthesis with Spatially-Adaptive Normalization (CVPR 2019) 
• Analyzing and Improving the Image Quality of StyleGAN (CVPR 2020) 
• Learning to Simulate Dynamic Environments With GameGAN (CVPR 2020) 
NVIDIA Research Homepage: https://www.nvidia.com/en-us/research/

• 総研究者数2024, Google最強チーム 
• Google ReserchのMachine Learing研究チームとして2011年に設立， 
チームメンバの各自が自由研究ベースでAIに関する研究を行っており，NeurlPSやICML, ICLR等
のトップ会議に数百本の論文が採択されているチームである． 
– 特徴 
• 音楽やアートの生成他，自然言語やロボット工学，バイオサイエンスなど幅広く扱っており，また
，People + AI Research(PAIR)というFairnessや解釈性を扱う分野が存在する．特にMachine
Intelligence（研究者数971）とMachine Perception(研究者数407)分野には力を入れており，研究
者数がほかの分野に比べ3倍近くいる（そのため，NeurlPSやICLRへの採択率が凄まじい数に
なっている），TPUやTensorFlowの開発も研究の支えとなっている． 
• Don't Decay the Learning Rate, Increase the Batch Size(ICLR 2018) 
• 3D-MPA: Multi Proposal Aggregation for 3D Semantic Instance Segmentation(CVPR 2020) 
• Deep Implicit Volume Compression(CVPR 2020) 
• A Commentary on the Unsupervised Learning of Disentangled Representations(AAAI 2020)  
 
39
Google Brain Team (有力研究機関 2 / 3) 
Google Brain Homepage: https://research.google/teams/brain/

40
• Elon. R. Muskが投資！Goodfellow，Kingmaの古巣 
• 人工知能を研究する非営利団体として2015年に設立， 
後述するGoodfellowやKingmaなど，生成モデルの流れを作った人物が所属していた団体であり
，近年もImage GPT(ICML 2020)やJukebox(音楽の生成)などの論文やコードが公開されてい
る．(2019年には上限付き営利団体のOpenAI LPを設立している) 
– 特徴 
• 非営利団体で人工知能の発展のために尽くしていることから，多くの論文のコードやAPIが公開
されており，一時話題となったテキスト生成モデル「GPT-2」の開発などを行っている．2019年7
月 Microsoftより10億ドルの資金調達をしており，今後も強い企業との共同研究やインターンで
強い論文が出る可能性がある．しかし，Team Updateの記事を見ると人数は45人とかなり小規
模に見える（2017年の記事でそれ以降，またOpenAI LPの人物紹介が発見できなかったので，
もっと多い可能性は高い）． 
• [Image GPT] Generative Pretraining from Pixels (ICML 2020) 
• Jukebox: A Generative Model for Music (公開日: April, 2020) 
• PixelCNN++: A PixelCNN Implementation with Discretized Logistic Mixture Likelihood and Other Modifications (2017) 
 
OpenAI (有力研究機関 3 / 3) 
OpenAI Homepage: https://openai.com/

41
Ian Goodfellow (有力研究者 1 / 5) 
• GANの生みの親，35 Innovators Under 35の一人 
– 前Google Brain → 現Apple (2019.3～) 
– GAN，Adversarial Exampleを生み出した張本人で， 
生成モデルや機械学習のセキュリティの第一人者 
– 研究として論文執筆だけでなく，『Deep Learning』 
の執筆やOpenAIに所属していたなど機械学習界隈 
全体に強くに貢献している 
– 実は年齢は34歳前後であり，2018年まで第一著者として論文を執筆 
– 代表的な論文 / 書籍（詳細は下記のGoogle Scholarを参照） 
• Generative adversarial Nets(NIPS 2014) 
• Explaining and Harnessing Adversarial Examples（ICLR 2014） 
• Deep Learning (MIT Press Book 2018)→（東大松尾研翻訳版：深層学習） 
Homepage : http://www.iangoodfellow.com/ (ちなみにホームページは阿部寛より爆速接続できるかもしれない) 
Google Scholar : https://scholar.google.ca/citations?user=iYN86KEAAAAJ&hl=en （論文一覧） 
LinkedIn : https://www.linkedin.com/in/ian-goodfellow-b7187213 (経歴記載あり)

42
Tero Karras (有力研究者 2 / 5) 
• PGGAN，StyleGANの第一著者 
– 現NVIDIA Research Distinguished Engineer(2009～) 
– PGGAN，StyleGANを生み出した張本人でGANの常識， 
学習方法を変えたといっても過言ではない 
– 生成モデルの他，リアルタイムレイトレーシングの 
開発やハードウェア分野に貢献など，研究対象が広い 
– CVPR2020のStyleGAN2の第一著者で現役バリバリの 
研究者であり，本人のYoutube動画は非常に質が高い 
• [PGGAN] Progressive Growing of GANs for Improved Quality, Stability, and Variation (ICLR 2018) 
• [StyleGAN] A Style-Based Generator Architecture for Generative Adversarial Networks（CVPR 2019） 
• [StyleGAN2] Analyzing and Improving the Image Quality of StyleGAN. (CVPR 2020) 
Homepage : https://research.nvidia.com/person/tero-karras 
Google Scholar : https://scholar.google.ca/citations?hl=en&user=-50qJW8AAAAJ (論文一覧あり) 
Youtube : https://www.youtube.com/channel/UCRtoHpUxLBJ95IU-p-4T_iA (本人の論文紹介動画あり)

43
Diederik P. Kingma (有力研究者 3 / 5) 
• 生成モデルのVAE，最適化のAdamの第一著者 
– 前OpenAI -> 現Google Research (2018～) 
– Advanzaの共同設立後，アムステル大学でPh.D取得（2017） 
OpenAIの創設＆リサーチチームとして所属(2015～2018) 
– 最適化のAdamや生成モデルのVAEを生み出した他， 
近年ではFlow Contrastive estimateやVideoFlowなど 
Flowを扱う論文の共著としても見られる 
• Auto-Encoding Variational Bayes (ICLR 2014) 
• Adam: A Method for Stochastic Optimization (ICLR 2015) 
• Semi-Supervised Learning with Deep Generative Models (NIPS 2014) 
• Flow Contrastive Estimation of Energy-Based Models (第三著者， CVPR 2020) 
Homepage : http://www.dpkingma.com/ (経歴記載あり)
Google Scholar : https://scholar.google.nl/citations?user=yyIoQu4AAAAJ&hl=en (論文一覧あり) 
Linkedin : https://www.linkedin.com/in/durk-kingma-58b3564  
Youtube : https://www.youtube.com/channel/UCBWS9Ym5IG8mDllhrnY6qqA

44
• Phillip Isola (有力研究者 4 / 5) 
Pix2Pixの第一著者 
– 前OpenAI -> 現MIT ECSS 助教 (2018～) 
– イェール大学でBSー＞MITでPh.D取得（2015）， 
OpenAIの創設＆リサーチチームとして所属(2015～2018) 
– I2Iの第一人者であり，近年では同研究室の論文： 
Contractive Learningの共著として名を並べている  
• [Pix2Pix] Image-to-image translation with conditional adversarial networks  
(CVPR 2017) 
• [CycleGAN] Unpaired image-to-image translation using cycle-consistent adversarial networks  
(第三著者，CVPR2017)  
• Cycada: Cycle-consistent adversarial domain adaptation (第五著者，ICML 2018) 
• What makes for good views for contrastive learning? (第六著者，arXiv, 2020) 
Homepage : http://web.mit.edu/phillipi/
Google Scholar : https://scholar.google.com/citations?user=ROILf3EAAAAJ&hl=en&oi=ao (論文一覧あり) 
Linkedin : https://www.linkedin.com/in/phillip-isola-a9955b20/ (経歴記載あり)

45
• Jun-Yan Zhu (有力研究者 5 / 5) 
• CycleGANの第一著者，The 100 Greatest Innovations  
– 前MIT ポスドク -> 現Adobe Researcher(2019.8～) 
– 2020年秋よりCMUの助教に就任 
– UC BerkeleyでPh.D取得（2017.12），ポスドクとして 
MITに所属時，SIGGRAPH Best in Show Awardや 
NVIDIA Pioneer Researcher Award(2019)を獲得 
– 近年ではGAN圧縮や特性(何が生成できないかなど)，訓練時のデータ拡張な
ど効率化の論文共著に名を並べている 
• [CycleGAN] Unpaired image-to-image translation using cycle-consistent adversarial networks
(CVPR2017) 
• [BicycleGAN] Toward Multimodal Image-to-Image Translation (NIPS 2017) 
• GAN Compression: Efficient Architectures for Interactive Conditional GANs  
(第五著者，CVPR2020)  
Homepage : http://people.csail.mit.edu/junyanz/
Google Scholar : https://scholar.google.com/citations?user=UdpacsMAAAAJ&hl=en (論文一覧あり) 
Linkedin : https://www.linkedin.com/in/jun-yan-zhu-99b18814/ (経歴記載あり)

46
CVPR2020気付き 
• どんな論文が通っている？or求められている？ 
– 1ページ目のFig.1のインパクト 
• 見た目のわかりやすさ大事 
• GitHubやYoutubeにリンクを貼って、動画でのデモも有効かも 
– GANでも画像→潜在空間へのマッピングをできるようにする流れは継続 
– ラベル付きデータが少ないケースへの適用 
– SOTA競争への参加よりも新しいタスクの提案 
• 既存手法では上手く対応できない領域へタスクを拡張する 
• 戦いやすいデータセットを構築する 
• そのタスクの意義についてイントロでしっかり述べる 
– 評価指標は掘り下げの余地あり？ 
 
応用を意識した内容が割と評価されやすい？

【CVPR 2020 メタサーベイ】Neural Generative Models

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to 【CVPR 2020 メタサーベイ】Neural Generative Models

Similar to 【CVPR 2020 メタサーベイ】Neural Generative Models (20)

【CVPR 2020 メタサーベイ】Neural Generative Models