SlideShare a Scribd company logo
1 of 46
Download to read offline
CVPR 2020の動向・気付き・メタサーベイ 

1
中塚俊介(パナソニック株式会社),野中琢登(工学院大学),

清田浩史(株式会社カブク),浅野 一真

Group 17: Neural Generative Models
2
Neural Generative Model -アジェンダ-

1. イントロダクション 

2. StyleGAN

3. Image to Image Translation

4. 3D

5. Dataset & 評価指標

6. 有力研究機関 / 研究者

7. CVPR2020の論文の流行りや気付き



p.3 ~ p.5 

p.6~p.11

p.12~p.20

p.21~p.27

p.28~p.35

p.36~p.45

p.46 ~ 

3
本サーベイの概要

• Neural Generative Modelの概要や最新動向を調査

– Neural Generative Modelの概要や話題となった過去の

論文,データセット,評価の方法を紹介

– CVPR2020のNeural Generative Model最新論文を紹介

– 本分野に強い研究機関や研究者,その動向を調査し共有

– サーベイからどのような論文が流行っているか,

近年の研究動向や気付きを共有

生成モデルの動向や最新情報を共有することで,
今後の研究や業務への知見に活かす
4
Neural generative modelってどんな研究?

• 学習用データを元に新たなデータを生成するモデル

– 確率分布や画像から新たな画像(3Dデータや音データなどもあり)を生成

5
近年のNeural Generative Modelの流行

• 大きく分けて3つの流行があることが判明

– StyleGANを改良 / 活用したモデルやタスク

• StyleGANを改良した論文(本サーベイで3本紹介)やStyleGANを

しれっと使っている論文が顕在



– Image to Image Translation (画像変換)

• Pix2PixやCycleGANから始まり,近年でも新たな問題設定を構築し,そ
のためのモデルを提案している論文が顕在



– 3次元情報を生成または中継・生成するタスク

• 3Dデータや高画質画像など,データのサイズが大きいものを扱う研究
が出始め,次のフェーズに移ろうとしている



6

StyleGAN

summarized by 中塚 俊介

7
CVPR2020で見たNeural Generative Models

• GAN

– Generative Adversarial Networks

– CVPRでダントツに多いNeural Generative Models

– 次ページから深掘

• VAE

– Variational Autoencoders

– CVPRでは2番目に多い生成モデル

– ICLR,ICMLなどでは数多く見かける

Flow Based Model

– CVPR2020では数本程度



8
GANのデファクトスタンダードの変遷

DCGAN

Deep Convolutional GAN 

2015



GAN

Generative Adversarial Nets 

2014



WGAN

Wasserstein GAN 

2017


WGAN-GP

WGAN-Gradient Penalty 

2017



BigGAN

Big GAN

2018



SAGAN

Self Attention GAN 

2018



PGGAN

Progressive Growing GAN 

2017


Style GAN

Style GAN

2019



NVIDIAの系譜

DeepMind

Goodfellow

CVPR2020でStyle GANを利用・改造した論文多数あり! 

StyleGAN in CVPR2020 (1/3)

9
• StyleGAN2

– StyleGANの問題点を改善した論文

• Instance Normによるdroplet-like artifacts(水滴みたいな)の除去

• Progressive Growing構造による“phase” artifactsの除去

(interpolationで顔の向きは変わってるのに顔のパーツが追従してないとか)

Progressive Growingを廃止

StyleGAN in CVPR2020 (2/3)

10
• Adversarial Latent Autoencoders

– StyleGAN with Encoderの構造

• StyleGANから潜在変数を出力することは不可能だった

• Encoderの追加でそれを可能に

• GeneratorとEncoderで不思議なAutoencoderの形になっている

StyleGAN in CVPR2020 (3/3)

11
• Image2StyleGAN++

– Encoder lessのImage to latent vector

• 画像とGeneratorの出力の差をLossとしSGDで

画像に対応する潜在変数とノイズを求める x -> w, n

• Crossover,Inpainting,StyleTransferなど様々なapplicationに

応用可能

12

Image to Image Translation

summarized by 清田 浩史

13
Consistencyの工夫 (1/4)

• Unpaired Image-to-Image Translation using
Cycle-Consistent Adversarial Networks (ICCV2017)

– Cycle-Consistencyを提案

• I2I Translationにおいては、入力データの文脈をいかに残すかが大事

• 2回の変換で行って帰ってきたら元の入力に近くなければならないという制約

14
Consistencyの工夫 (2/4)

• Breaking the Cycle - Colleagues Are All You Need

– Cycle-Consistency 制約を除いた論文

• 1つのgeneratorと2つのdiscriminatorからなる組(council)を複数作成

• 入力画像のドメインを判定するdiscriminatorと、入力画像が自身の所属するcouncilの
generatorが生成したものかどうかを判定するdiscriminatorを使用

• generatorは他のcouncilのgeneratorの出力に寄せる必要が出てくるので、結果として
cycle-consistencyなしでも文脈が保存される。

15
Consistencyの工夫 (3/4)

• RL-CycleGAN: Reinforcement Learning Aware
Simulation-to-Real

– 強化学習におけるQ値を使ったconsistencyを提案

• シミュレータの画像と実際の画像の間での変換

• 変換前後で状態そのものの評価値であるQ値は同じでなければならない、という制約を導入

16
Consistencyの工夫 (4/4)

• Unpaired Portrait Drawing Generation via Asymmetric
Cycle Mapping

– 非対称なcycle-consistencyの導入

• 写真⇔線画の変換などでは、写真→線画で失われる情報が大きいため、元の画像に戻さな
いといけないというcycle-consistencyの制約は強すぎる

• 写真→線画→写真の側の制約としてゆるいRelaxed cycle-consistencyを用いた

17
ドメインラベル付きデータの削減 (1/2)

• High-Resolution Daytime Translation Without
Domain Labels

– 風景写真の時間帯変換をドメインラベルなしで学習

18
ドメインラベル付きデータの削減 (2/2)

• Semi-Supervised Learning for Few-Shot
Image-to-Image Translation

– 新規ドメインについて変換可能なモデルを少数のラベル付き
データで作成

• 少数のラベル付きデータの情報からラベルなしデータの疑似ラベルを作成して学
習に利用。

19
I2Iの高解像度化 (1/2)

• High-Resolution Daytime Translation Without
Domain Labels

– 高解像度の画像に対して変換を行うための工夫

• ダウンサンプリングした画像に対して変換を施し、merging networkで統合する。

1024x1024の画像で成功 

20
I2Iの高解像度化 (2/2)

• Contextual Residual Aggregation for Ultra
High-Resolution Image Inpainting

– 高解像度の画像に対して変換を行うための工夫

• ダウンサンプリングした画像に対してInpaintingを施し、元の解像度においてマスク領域外の
高周波成分を利用して精緻化する。

1080Tiで4096x4096の画像まで 

適用できる。

21

3D

summarized by 野中 琢登

22
3Dへの注目

• Title に”3D”とはいっている物だけでも142本

– CVPR採択論文のざっくり1割.とても多い!



– 1枚の2D画像から3D画像を再構成

• そもそも3D生成が目的

• 複数視点獲得のために3Dを経由

– 生成したものを意味的に制御したい

• モーフィングなどできるように

– 教師なし(3D model自体は学習させない)が多い

23
single viewからの3Dshape復元

• Unsupervised Learning of Probably Symmetric
Deformable 3D Objects from Images in the Wild

– CVPR Best Paper 

– 教師や事前モデルなしに3D shapeを復元できる

• 画像のsymmetryの特性に注目している

• symmetryを得るのは難しいので照明の確率マップを用いる

• 各入力画像を奥行き,アルベト,視点,照明に因数分解するAEを用いる

• symmetryかどうかの確率マップも用いる



24
SynSin:画像から新規視点画像を生成

SynSin: End-to-End View Synthesis From a Single Image

– 複雑なリアルシーン画像に対応かつEnd-to-End生成

– 1枚の画像から複数視点を生成

• そのために特徴マップ,深度マップを推測

• そこから微分可能なレンダラーを導入し,3Dの点群を用意

• GAN構造を用いている

– 他のタスクへも応用可

25
StyleGAN×3D 顔リグ

• StyleRig: Rigging StyleGAN for 3D Control Over Portrait
Images

– 新しいタスクを切り開いた

• 今までは顔の内部のモデルをいじれるor目・鼻などの生成のみだった

– StyleGAN画像をフェイスリグのようにコントロール

• 頭部のポーズ,表情,照明をミックスできる

– 訓練は自己教師付二重cycle consistencyに基づく

26
texture付き3D shape生成

• Leveraging 2D Data to Learn Textured 3D Mesh
Generation

– 形状だけでなくテクスチャ付き3Dオブジェクト(Mesh)を生成できる

– 3D Meshのデータセットではなく2D画像のデータセットを学習

• 画像を2D背景+3Dオブジェクトと解釈

• 任意の画像を生成する潜在パラメータを生成するEncoder +

colored 3D meshを生成するDecoder+背景のGenerator

– self-intersectionsを解決

27
自然な3Dテクスチャの生成

• Learning a Neural 3D Texture Space from 2D Exemplars

– 多様性,視覚的忠実度,計算効率がよい2D or 3Dの自然テクスチャ
の生成

• 歴史あるperlin noiseをdeepに,非線形に

– 新しいテクスチャに対して再学習の必要なし

• 無限ドメインのサポート

– 学習は2D画像のみ

28

Dataset & 評価指標

summarized by 中塚 俊介

データセット(1/5)

29
• 画像生成

– MNIST

• 予備実験,仮説検証に使われることが多い

– Cifar10

• MNIST同様

– LSUN

• 特にBedroomが使われる

データセット(2/5)

30
• 画像生成

– ImageNet

• Classificationのように224x224で使われることは少ない

• 64x64 ~ 1024x1024で用いられる

• 非常に多クラスなので,conditionalな生成タスクによく用いられる

– CelebA HQ

• 顔データセット

• PGGANやStyleGANなどの高解像度画像生成タスクに用いられる

• 顔のパーツ位置の正規化することがほとんど (PGGAN参照)

データセット(3/5)

31
• Image to Image Translation

– City Scapes

• ドイツの都市の画像+セマンティックセグメンテーションラベル

• セグメンテーションラベル <-> 画像 の translation

– horse2zebra

• Cycle GANでお馴染み

• 馬 <-> シマウマ



データセット(4/5)

32
• Image Inpainting

– Places2

• 元々はシーン認識のデータセット

• 8 Million images

– The Street View Text Dataset

• 元々はin the wildなテキスト検出データセット

• 350枚しかデータがない

データセット(5/5)

33
• Text-to-Image Generation

– CUB

• 鳥の画像+様々なラベル

• クラス,羽・背中・足の色,胸・背中の模様サイズ ... 等々

– COCO

• 画像+captionなデータセット

• object segmentation, detectionもOK

評価指標(1/2)

34
• Incepsion Score (IS)

– 以下2つを測る指標

• Inception model が識別しやすい

• 多様性がある

Fréchet Inception Distance (FID)

– 実画像と生成画像をそれぞれInception Modelに入力

– 得られた特徴ベクトルを正規分布と仮定し,分布間の距離を測る

Sliced Wasserstein Distance 

– Laplacian Pyramidの各レベルから,パッチ切り出す

– それぞれをベクトルにreshapeしてSliced Wasserstein Distanceを計測





評価指標(2/2)

35
• Perceptual Path Length (PPL)

– 人間の知覚的に潜在空間上で画像が滑らかに変化するか

– e.g.) 白い馬と黒い馬の潜在変数を線形補完したときに

灰色の馬を経由すれば知覚的に滑らか

車を経由すれば知覚的に滑らかではない

Negative Log Likelihood (NLL)

– 負の対数尤度

– GANでは使用できないが,

Flow based, Pixel CNNベースの手法で用いられる

– bits/dimは画像の解像度を考慮したNLL



36

研究機関/研究者紹介

summarized by 浅野 一真

37
有力研究機関,研究者

• 研究機関 (気になる,調べたいと思った団体をpick up)

– NVIDIA

– Google Brain Team

– OpenAI

• 

研究者(敬称略)

– Ian Goodfellow

– Tero Karras

– Diederik P. Kingma



– Phillip Isola

– Jun-Yan Zhu

38
NVIDIA (有力研究機関 1 / 3)

• 論文の画像や公開動画のクオリティがやばい

– 概要・経歴

• グラフィックスチップの製造会社として1993年に設立,

2010年代の第三次AIブーム,同社のCUDAアーキテクチャとDNNの相性が非常に良かっ
たことから急成長した.

– 特徴

• GPUの製造会社であることを生かした潤沢な計算資源に加え,DNNだけでなくコンピュータ
グラフィックスやレイトレなどの研究分野を持つ研究者,UC BerkeleyやCAEML,Stanford
などとの共同研究で優秀な学生が集まるシステムが出来上がっている

– 代表的な / 最新の論文 (Neural Generative modelを主体にピックアップ)

• High-Resolution Image Synthesis and Semantic Manipulation with Conditional GANs (CVPR 2018)

• Devil is in the Edges: Learning Semantic Boundaries from Noisy Annotations (CVPR 2019)

• Semantic Image Synthesis with Spatially-Adaptive Normalization (CVPR 2019)

• Analyzing and Improving the Image Quality of StyleGAN (CVPR 2020)

• Learning to Simulate Dynamic Environments With GameGAN (CVPR 2020)

NVIDIA Research Homepage: https://www.nvidia.com/en-us/research/

• 総研究者数2024, Google最強チーム

– 概要・経歴

• Google ReserchのMachine Learing研究チームとして2011年に設立,

チームメンバの各自が自由研究ベースでAIに関する研究を行っており,NeurlPSやICML, ICLR等
のトップ会議に数百本の論文が採択されているチームである.

– 特徴

• 音楽やアートの生成他,自然言語やロボット工学,バイオサイエンスなど幅広く扱っており,また
,People + AI Research(PAIR)というFairnessや解釈性を扱う分野が存在する.特にMachine
Intelligence(研究者数971)とMachine Perception(研究者数407)分野には力を入れており,研究
者数がほかの分野に比べ3倍近くいる(そのため,NeurlPSやICLRへの採択率が凄まじい数に
なっている),TPUやTensorFlowの開発も研究の支えとなっている.

– 代表的な / 最新の論文 (Neural Generative modelを主体にピックアップ)

• Don't Decay the Learning Rate, Increase the Batch Size(ICLR 2018)

• 3D-MPA: Multi Proposal Aggregation for 3D Semantic Instance Segmentation(CVPR 2020)

• Deep Implicit Volume Compression(CVPR 2020)

• A Commentary on the Unsupervised Learning of Disentangled Representations(AAAI 2020) 



39
Google Brain Team (有力研究機関 2 / 3)

Google Brain Homepage: https://research.google/teams/brain/

40
• Elon. R. Muskが投資!Goodfellow,Kingmaの古巣

– 概要・経歴

• 人工知能を研究する非営利団体として2015年に設立,

後述するGoodfellowやKingmaなど,生成モデルの流れを作った人物が所属していた団体であり
,近年もImage GPT(ICML 2020)やJukebox(音楽の生成)などの論文やコードが公開されてい
る.(2019年には上限付き営利団体のOpenAI LPを設立している)

– 特徴

• 非営利団体で人工知能の発展のために尽くしていることから,多くの論文のコードやAPIが公開
されており,一時話題となったテキスト生成モデル「GPT-2」の開発などを行っている.2019年7
月 Microsoftより10億ドルの資金調達をしており,今後も強い企業との共同研究やインターンで
強い論文が出る可能性がある.しかし,Team Updateの記事を見ると人数は45人とかなり小規
模に見える(2017年の記事でそれ以降,またOpenAI LPの人物紹介が発見できなかったので,
もっと多い可能性は高い).

– 代表的な / 最新の論文 (Neural Generative modelを主体にピックアップ)

• [Image GPT] Generative Pretraining from Pixels (ICML 2020)

• Jukebox: A Generative Model for Music (公開日: April, 2020)

• PixelCNN++: A PixelCNN Implementation with Discretized Logistic Mixture Likelihood and Other Modifications (2017)



OpenAI (有力研究機関 3 / 3)

OpenAI Homepage: https://openai.com/

41
Ian Goodfellow (有力研究者 1 / 5)

• GANの生みの親,35 Innovators Under 35の一人

– 前Google Brain → 現Apple (2019.3~)

– GAN,Adversarial Exampleを生み出した張本人で,

生成モデルや機械学習のセキュリティの第一人者

– 研究として論文執筆だけでなく,『Deep Learning』

の執筆やOpenAIに所属していたなど機械学習界隈

全体に強くに貢献している

– 実は年齢は34歳前後であり,2018年まで第一著者として論文を執筆

– 代表的な論文 / 書籍 (詳細は下記のGoogle Scholarを参照)

• Generative adversarial Nets(NIPS 2014)

• Explaining and Harnessing Adversarial Examples(ICLR 2014)

• Deep Learning (MIT Press Book 2018)→(東大松尾研翻訳版:深層学習)

Homepage : http://www.iangoodfellow.com/ (ちなみにホームページは阿部寛より爆速接続できるかもしれない)

Google Scholar : https://scholar.google.ca/citations?user=iYN86KEAAAAJ&hl=en (論文一覧)

LinkedIn : https://www.linkedin.com/in/ian-goodfellow-b7187213 (経歴記載あり)

42
Tero Karras (有力研究者 2 / 5)

• PGGAN,StyleGANの第一著者

– 現NVIDIA Research Distinguished Engineer(2009~)

– PGGAN,StyleGANを生み出した張本人でGANの常識,

学習方法を変えたといっても過言ではない

– 生成モデルの他,リアルタイムレイトレーシングの

開発やハードウェア分野に貢献など,研究対象が広い

– CVPR2020のStyleGAN2の第一著者で現役バリバリの

研究者であり,本人のYoutube動画は非常に質が高い

– 代表的な論文 / 書籍 (詳細は下記のGoogle Scholarを参照)

• [PGGAN] Progressive Growing of GANs for Improved Quality, Stability, and Variation (ICLR 2018)

• [StyleGAN] A Style-Based Generator Architecture for Generative Adversarial Networks(CVPR 2019)

• [StyleGAN2] Analyzing and Improving the Image Quality of StyleGAN. (CVPR 2020)

Homepage : https://research.nvidia.com/person/tero-karras

Google Scholar : https://scholar.google.ca/citations?hl=en&user=-50qJW8AAAAJ (論文一覧あり)

Youtube : https://www.youtube.com/channel/UCRtoHpUxLBJ95IU-p-4T_iA (本人の論文紹介動画あり) 

43
Diederik P. Kingma (有力研究者 3 / 5)

• 生成モデルのVAE,最適化のAdamの第一著者

– 前OpenAI -> 現Google Research (2018~)

– Advanzaの共同設立後,アムステル大学でPh.D取得(2017)

OpenAIの創設&リサーチチームとして所属(2015~2018)

– 最適化のAdamや生成モデルのVAEを生み出した他,

近年ではFlow Contrastive estimateやVideoFlowなど

Flowを扱う論文の共著としても見られる

– 代表的な論文 / 書籍 (詳細は下記のGoogle Scholarを参照)

• Auto-Encoding Variational Bayes (ICLR 2014)

• Adam: A Method for Stochastic Optimization (ICLR 2015)

• Semi-Supervised Learning with Deep Generative Models (NIPS 2014)

• Flow Contrastive Estimation of Energy-Based Models (第三著者, CVPR 2020)

Homepage : http://www.dpkingma.com/ (経歴記載あり)
Google Scholar : https://scholar.google.nl/citations?user=yyIoQu4AAAAJ&hl=en (論文一覧あり)

Linkedin : https://www.linkedin.com/in/durk-kingma-58b3564 

Youtube : https://www.youtube.com/channel/UCBWS9Ym5IG8mDllhrnY6qqA

44
• Phillip Isola (有力研究者 4 / 5)

Pix2Pixの第一著者

– 前OpenAI -> 現MIT ECSS 助教 (2018~)

– イェール大学でBSー>MITでPh.D取得(2015),

OpenAIの創設&リサーチチームとして所属(2015~2018)

– I2Iの第一人者であり,近年では同研究室の論文:

Contractive Learningの共著として名を並べている 

– 代表的な論文 / 書籍 (詳細は下記のGoogle Scholarを参照)

• [Pix2Pix] Image-to-image translation with conditional adversarial networks 

(CVPR 2017)

• [CycleGAN] Unpaired image-to-image translation using cycle-consistent adversarial networks 

(第三著者,CVPR2017) 

• Cycada: Cycle-consistent adversarial domain adaptation (第五著者,ICML 2018)

• What makes for good views for contrastive learning? (第六著者,arXiv, 2020)

Homepage : http://web.mit.edu/phillipi/
Google Scholar : https://scholar.google.com/citations?user=ROILf3EAAAAJ&hl=en&oi=ao (論文一覧あり)

Linkedin : https://www.linkedin.com/in/phillip-isola-a9955b20/ (経歴記載あり)

45
• Jun-Yan Zhu (有力研究者 5 / 5)

• CycleGANの第一著者,The 100 Greatest Innovations 

– 前MIT ポスドク -> 現Adobe Researcher(2019.8~)

– 2020年秋よりCMUの助教に就任

– UC BerkeleyでPh.D取得(2017.12),ポスドクとして

MITに所属時,SIGGRAPH Best in Show Awardや

NVIDIA Pioneer Researcher Award(2019)を獲得

– 近年ではGAN圧縮や特性(何が生成できないかなど),訓練時のデータ拡張な
ど効率化の論文共著に名を並べている

– 代表的な論文 / 書籍 (詳細は下記のGoogle Scholarを参照)

• [CycleGAN] Unpaired image-to-image translation using cycle-consistent adversarial networks
(CVPR2017)

• [BicycleGAN] Toward Multimodal Image-to-Image Translation (NIPS 2017)

• GAN Compression: Efficient Architectures for Interactive Conditional GANs 

(第五著者,CVPR2020) 

Homepage : http://people.csail.mit.edu/junyanz/
Google Scholar : https://scholar.google.com/citations?user=UdpacsMAAAAJ&hl=en (論文一覧あり)

Linkedin : https://www.linkedin.com/in/jun-yan-zhu-99b18814/ (経歴記載あり)

46
CVPR2020気付き

• どんな論文が通っている?or求められている?

– 1ページ目のFig.1のインパクト

• 見た目のわかりやすさ大事

• GitHubやYoutubeにリンクを貼って、動画でのデモも有効かも

– GANでも画像→潜在空間へのマッピングをできるようにする流れは継続

– ラベル付きデータが少ないケースへの適用

– SOTA競争への参加よりも新しいタスクの提案

• 既存手法では上手く対応できない領域へタスクを拡張する

• 戦いやすいデータセットを構築する

• そのタスクの意義についてイントロでしっかり述べる

– 評価指標は掘り下げの余地あり?



応用を意識した内容が割と評価されやすい?






More Related Content

What's hot

【メタサーベイ】Video Transformer
 【メタサーベイ】Video Transformer 【メタサーベイ】Video Transformer
【メタサーベイ】Video Transformercvpaper. challenge
 
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Yusuke Uchida
 
Generative Models(メタサーベイ )
Generative Models(メタサーベイ )Generative Models(メタサーベイ )
Generative Models(メタサーベイ )cvpaper. challenge
 
【DL輪読会】SDEdit: Guided Image Synthesis and Editing with Stochastic Differentia...
【DL輪読会】SDEdit: Guided Image Synthesis and Editing with Stochastic Differentia...【DL輪読会】SDEdit: Guided Image Synthesis and Editing with Stochastic Differentia...
【DL輪読会】SDEdit: Guided Image Synthesis and Editing with Stochastic Differentia...Deep Learning JP
 
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向SSII
 
GAN(と強化学習との関係)
GAN(と強化学習との関係)GAN(と強化学習との関係)
GAN(と強化学習との関係)Masahiro Suzuki
 
深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)Masahiro Suzuki
 
【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...
【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...
【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...Deep Learning JP
 
Vision and Language(メタサーベイ )
Vision and Language(メタサーベイ )Vision and Language(メタサーベイ )
Vision and Language(メタサーベイ )cvpaper. challenge
 
統計的学習理論チュートリアル: 基礎から応用まで (Ibis2012)
統計的学習理論チュートリアル: 基礎から応用まで (Ibis2012)統計的学習理論チュートリアル: 基礎から応用まで (Ibis2012)
統計的学習理論チュートリアル: 基礎から応用まで (Ibis2012)Taiji Suzuki
 
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
[DL輪読会]NVAE: A Deep Hierarchical Variational AutoencoderDeep Learning JP
 
動画認識サーベイv1(メタサーベイ )
動画認識サーベイv1(メタサーベイ )動画認識サーベイv1(メタサーベイ )
動画認識サーベイv1(メタサーベイ )cvpaper. challenge
 
[DL輪読会]A Higher-Dimensional Representation for Topologically Varying Neural R...
[DL輪読会]A Higher-Dimensional Representation for Topologically Varying Neural R...[DL輪読会]A Higher-Dimensional Representation for Topologically Varying Neural R...
[DL輪読会]A Higher-Dimensional Representation for Topologically Varying Neural R...Deep Learning JP
 
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion  for Generation and Editing[DL輪読会]GLIDE: Guided Language to Image Diffusion  for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and EditingDeep Learning JP
 
【DL輪読会】Novel View Synthesis with Diffusion Models
【DL輪読会】Novel View Synthesis with Diffusion Models【DL輪読会】Novel View Synthesis with Diffusion Models
【DL輪読会】Novel View Synthesis with Diffusion ModelsDeep Learning JP
 
[DL輪読会]Model soups: averaging weights of multiple fine-tuned models improves ...
[DL輪読会]Model soups: averaging weights of multiple fine-tuned models improves ...[DL輪読会]Model soups: averaging weights of multiple fine-tuned models improves ...
[DL輪読会]Model soups: averaging weights of multiple fine-tuned models improves ...Deep Learning JP
 
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​SSII
 
[DL輪読会]Deep High-Resolution Representation Learning for Human Pose Estimation
[DL輪読会]Deep High-Resolution Representation Learning for Human Pose Estimation[DL輪読会]Deep High-Resolution Representation Learning for Human Pose Estimation
[DL輪読会]Deep High-Resolution Representation Learning for Human Pose EstimationDeep Learning JP
 
【メタサーベイ】Vision and Language のトップ研究室/研究者
【メタサーベイ】Vision and Language のトップ研究室/研究者【メタサーベイ】Vision and Language のトップ研究室/研究者
【メタサーベイ】Vision and Language のトップ研究室/研究者cvpaper. challenge
 
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View SynthesisDeep Learning JP
 

What's hot (20)

【メタサーベイ】Video Transformer
 【メタサーベイ】Video Transformer 【メタサーベイ】Video Transformer
【メタサーベイ】Video Transformer
 
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
 
Generative Models(メタサーベイ )
Generative Models(メタサーベイ )Generative Models(メタサーベイ )
Generative Models(メタサーベイ )
 
【DL輪読会】SDEdit: Guided Image Synthesis and Editing with Stochastic Differentia...
【DL輪読会】SDEdit: Guided Image Synthesis and Editing with Stochastic Differentia...【DL輪読会】SDEdit: Guided Image Synthesis and Editing with Stochastic Differentia...
【DL輪読会】SDEdit: Guided Image Synthesis and Editing with Stochastic Differentia...
 
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
 
GAN(と強化学習との関係)
GAN(と強化学習との関係)GAN(と強化学習との関係)
GAN(と強化学習との関係)
 
深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)
 
【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...
【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...
【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...
 
Vision and Language(メタサーベイ )
Vision and Language(メタサーベイ )Vision and Language(メタサーベイ )
Vision and Language(メタサーベイ )
 
統計的学習理論チュートリアル: 基礎から応用まで (Ibis2012)
統計的学習理論チュートリアル: 基礎から応用まで (Ibis2012)統計的学習理論チュートリアル: 基礎から応用まで (Ibis2012)
統計的学習理論チュートリアル: 基礎から応用まで (Ibis2012)
 
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
 
動画認識サーベイv1(メタサーベイ )
動画認識サーベイv1(メタサーベイ )動画認識サーベイv1(メタサーベイ )
動画認識サーベイv1(メタサーベイ )
 
[DL輪読会]A Higher-Dimensional Representation for Topologically Varying Neural R...
[DL輪読会]A Higher-Dimensional Representation for Topologically Varying Neural R...[DL輪読会]A Higher-Dimensional Representation for Topologically Varying Neural R...
[DL輪読会]A Higher-Dimensional Representation for Topologically Varying Neural R...
 
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion  for Generation and Editing[DL輪読会]GLIDE: Guided Language to Image Diffusion  for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
 
【DL輪読会】Novel View Synthesis with Diffusion Models
【DL輪読会】Novel View Synthesis with Diffusion Models【DL輪読会】Novel View Synthesis with Diffusion Models
【DL輪読会】Novel View Synthesis with Diffusion Models
 
[DL輪読会]Model soups: averaging weights of multiple fine-tuned models improves ...
[DL輪読会]Model soups: averaging weights of multiple fine-tuned models improves ...[DL輪読会]Model soups: averaging weights of multiple fine-tuned models improves ...
[DL輪読会]Model soups: averaging weights of multiple fine-tuned models improves ...
 
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
 
[DL輪読会]Deep High-Resolution Representation Learning for Human Pose Estimation
[DL輪読会]Deep High-Resolution Representation Learning for Human Pose Estimation[DL輪読会]Deep High-Resolution Representation Learning for Human Pose Estimation
[DL輪読会]Deep High-Resolution Representation Learning for Human Pose Estimation
 
【メタサーベイ】Vision and Language のトップ研究室/研究者
【メタサーベイ】Vision and Language のトップ研究室/研究者【メタサーベイ】Vision and Language のトップ研究室/研究者
【メタサーベイ】Vision and Language のトップ研究室/研究者
 
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
 

Similar to 【CVPR 2020 メタサーベイ】Neural Generative Models

【メタサーベイ】Face, Gesture, and Body Pose
【メタサーベイ】Face, Gesture, and Body Pose【メタサーベイ】Face, Gesture, and Body Pose
【メタサーベイ】Face, Gesture, and Body Posecvpaper. challenge
 
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation 「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation Takumi Ohkuma
 
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose EstimationDeep Learning JP
 
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...cvpaper. challenge
 
[DL輪読会]HoloGAN: Unsupervised learning of 3D representations from natural images
[DL輪読会]HoloGAN: Unsupervised learning of 3D representations from natural images[DL輪読会]HoloGAN: Unsupervised learning of 3D representations from natural images
[DL輪読会]HoloGAN: Unsupervised learning of 3D representations from natural imagesDeep Learning JP
 
HoloGAN: Unsupervised Learning of 3D Representations from Natural Images
HoloGAN: Unsupervised Learning of 3D Representations from Natural ImagesHoloGAN: Unsupervised Learning of 3D Representations from Natural Images
HoloGAN: Unsupervised Learning of 3D Representations from Natural ImagesKento Doi
 
cvpaper.challenge チームラボ講演
cvpaper.challenge チームラボ講演cvpaper.challenge チームラボ講演
cvpaper.challenge チームラボ講演cvpaper. challenge
 
[DL輪読会]Deep Face Recognition: A Survey
[DL輪読会]Deep Face Recognition: A Survey[DL輪読会]Deep Face Recognition: A Survey
[DL輪読会]Deep Face Recognition: A SurveyDeep Learning JP
 
【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...
【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...
【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...Deep Learning JP
 
AIがAIを生み出す?
AIがAIを生み出す?AIがAIを生み出す?
AIがAIを生み出す?Daiki Tsuchiya
 
[DL輪読会]Object-Oriented Dynamics Predictor (NIPS 2018)
[DL輪読会]Object-Oriented Dynamics Predictor (NIPS 2018)[DL輪読会]Object-Oriented Dynamics Predictor (NIPS 2018)
[DL輪読会]Object-Oriented Dynamics Predictor (NIPS 2018)Deep Learning JP
 
[論文紹介] Convolutional Neural Network(CNN)による超解像
[論文紹介] Convolutional Neural Network(CNN)による超解像[論文紹介] Convolutional Neural Network(CNN)による超解像
[論文紹介] Convolutional Neural Network(CNN)による超解像Rei Takami
 
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
[DL輪読会]Meta-Learning Probabilistic Inference for PredictionDeep Learning JP
 
CVPR2017/ICCV2017から見た研究動向(名古屋CV・PRML勉強会)
CVPR2017/ICCV2017から見た研究動向(名古屋CV・PRML勉強会)CVPR2017/ICCV2017から見た研究動向(名古屋CV・PRML勉強会)
CVPR2017/ICCV2017から見た研究動向(名古屋CV・PRML勉強会)cvpaper. challenge
 
[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...
[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...
[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...Deep Learning JP
 
【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Modelscvpaper. challenge
 
CVPR2016 reading - 特徴量学習とクロスモーダル転移について
CVPR2016 reading - 特徴量学習とクロスモーダル転移についてCVPR2016 reading - 特徴量学習とクロスモーダル転移について
CVPR2016 reading - 特徴量学習とクロスモーダル転移についてAkisato Kimura
 
第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)
第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)
第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)kanejaki
 

Similar to 【CVPR 2020 メタサーベイ】Neural Generative Models (20)

【メタサーベイ】Face, Gesture, and Body Pose
【メタサーベイ】Face, Gesture, and Body Pose【メタサーベイ】Face, Gesture, and Body Pose
【メタサーベイ】Face, Gesture, and Body Pose
 
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation 「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
 
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
 
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
 
[DL輪読会]HoloGAN: Unsupervised learning of 3D representations from natural images
[DL輪読会]HoloGAN: Unsupervised learning of 3D representations from natural images[DL輪読会]HoloGAN: Unsupervised learning of 3D representations from natural images
[DL輪読会]HoloGAN: Unsupervised learning of 3D representations from natural images
 
HoloGAN: Unsupervised Learning of 3D Representations from Natural Images
HoloGAN: Unsupervised Learning of 3D Representations from Natural ImagesHoloGAN: Unsupervised Learning of 3D Representations from Natural Images
HoloGAN: Unsupervised Learning of 3D Representations from Natural Images
 
cvpaper.challenge チームラボ講演
cvpaper.challenge チームラボ講演cvpaper.challenge チームラボ講演
cvpaper.challenge チームラボ講演
 
[DL輪読会]Deep Face Recognition: A Survey
[DL輪読会]Deep Face Recognition: A Survey[DL輪読会]Deep Face Recognition: A Survey
[DL輪読会]Deep Face Recognition: A Survey
 
【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...
【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...
【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...
 
AIがAIを生み出す?
AIがAIを生み出す?AIがAIを生み出す?
AIがAIを生み出す?
 
CVPR 2018 速報
CVPR 2018 速報CVPR 2018 速報
CVPR 2018 速報
 
[DL輪読会]Object-Oriented Dynamics Predictor (NIPS 2018)
[DL輪読会]Object-Oriented Dynamics Predictor (NIPS 2018)[DL輪読会]Object-Oriented Dynamics Predictor (NIPS 2018)
[DL輪読会]Object-Oriented Dynamics Predictor (NIPS 2018)
 
[論文紹介] Convolutional Neural Network(CNN)による超解像
[論文紹介] Convolutional Neural Network(CNN)による超解像[論文紹介] Convolutional Neural Network(CNN)による超解像
[論文紹介] Convolutional Neural Network(CNN)による超解像
 
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
 
Ocha 20191204
Ocha 20191204Ocha 20191204
Ocha 20191204
 
CVPR2017/ICCV2017から見た研究動向(名古屋CV・PRML勉強会)
CVPR2017/ICCV2017から見た研究動向(名古屋CV・PRML勉強会)CVPR2017/ICCV2017から見た研究動向(名古屋CV・PRML勉強会)
CVPR2017/ICCV2017から見た研究動向(名古屋CV・PRML勉強会)
 
[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...
[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...
[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...
 
【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models
 
CVPR2016 reading - 特徴量学習とクロスモーダル転移について
CVPR2016 reading - 特徴量学習とクロスモーダル転移についてCVPR2016 reading - 特徴量学習とクロスモーダル転移について
CVPR2016 reading - 特徴量学習とクロスモーダル転移について
 
第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)
第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)
第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)
 

【CVPR 2020 メタサーベイ】Neural Generative Models

  • 2. 2 Neural Generative Model -アジェンダ-
 1. イントロダクション 
 2. StyleGAN
 3. Image to Image Translation
 4. 3D
 5. Dataset & 評価指標
 6. 有力研究機関 / 研究者
 7. CVPR2020の論文の流行りや気付き
 
 p.3 ~ p.5 
 p.6~p.11
 p.12~p.20
 p.21~p.27
 p.28~p.35
 p.36~p.45
 p.46 ~ 

  • 3. 3 本サーベイの概要
 • Neural Generative Modelの概要や最新動向を調査
 – Neural Generative Modelの概要や話題となった過去の
 論文,データセット,評価の方法を紹介
 – CVPR2020のNeural Generative Model最新論文を紹介
 – 本分野に強い研究機関や研究者,その動向を調査し共有
 – サーベイからどのような論文が流行っているか,
 近年の研究動向や気付きを共有
 生成モデルの動向や最新情報を共有することで, 今後の研究や業務への知見に活かす
  • 4. 4 Neural generative modelってどんな研究?
 • 学習用データを元に新たなデータを生成するモデル
 – 確率分布や画像から新たな画像(3Dデータや音データなどもあり)を生成

  • 5. 5 近年のNeural Generative Modelの流行
 • 大きく分けて3つの流行があることが判明
 – StyleGANを改良 / 活用したモデルやタスク
 • StyleGANを改良した論文(本サーベイで3本紹介)やStyleGANを
 しれっと使っている論文が顕在
 
 – Image to Image Translation (画像変換)
 • Pix2PixやCycleGANから始まり,近年でも新たな問題設定を構築し,そ のためのモデルを提案している論文が顕在
 
 – 3次元情報を生成または中継・生成するタスク
 • 3Dデータや高画質画像など,データのサイズが大きいものを扱う研究 が出始め,次のフェーズに移ろうとしている
 

  • 7. 7 CVPR2020で見たNeural Generative Models
 • GAN
 – Generative Adversarial Networks
 – CVPRでダントツに多いNeural Generative Models
 – 次ページから深掘
 • VAE
 – Variational Autoencoders
 – CVPRでは2番目に多い生成モデル
 – ICLR,ICMLなどでは数多く見かける
 Flow Based Model
 – CVPR2020では数本程度
 

  • 8. 8 GANのデファクトスタンダードの変遷
 DCGAN
 Deep Convolutional GAN 
 2015
 
 GAN
 Generative Adversarial Nets 
 2014
 
 WGAN
 Wasserstein GAN 
 2017
 
WGAN-GP
 WGAN-Gradient Penalty 
 2017
 
 BigGAN
 Big GAN
 2018
 
 SAGAN
 Self Attention GAN 
 2018
 
 PGGAN
 Progressive Growing GAN 
 2017
 
Style GAN
 Style GAN
 2019
 
 NVIDIAの系譜
 DeepMind
 Goodfellow
 CVPR2020でStyle GANを利用・改造した論文多数あり! 

  • 9. StyleGAN in CVPR2020 (1/3)
 9 • StyleGAN2
 – StyleGANの問題点を改善した論文
 • Instance Normによるdroplet-like artifacts(水滴みたいな)の除去
 • Progressive Growing構造による“phase” artifactsの除去
 (interpolationで顔の向きは変わってるのに顔のパーツが追従してないとか)
 Progressive Growingを廃止

  • 10. StyleGAN in CVPR2020 (2/3)
 10 • Adversarial Latent Autoencoders
 – StyleGAN with Encoderの構造
 • StyleGANから潜在変数を出力することは不可能だった
 • Encoderの追加でそれを可能に
 • GeneratorとEncoderで不思議なAutoencoderの形になっている

  • 11. StyleGAN in CVPR2020 (3/3)
 11 • Image2StyleGAN++
 – Encoder lessのImage to latent vector
 • 画像とGeneratorの出力の差をLossとしSGDで
 画像に対応する潜在変数とノイズを求める x -> w, n
 • Crossover,Inpainting,StyleTransferなど様々なapplicationに
 応用可能

  • 12. 12
 Image to Image Translation
 summarized by 清田 浩史

  • 13. 13 Consistencyの工夫 (1/4)
 • Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks (ICCV2017)
 – Cycle-Consistencyを提案
 • I2I Translationにおいては、入力データの文脈をいかに残すかが大事
 • 2回の変換で行って帰ってきたら元の入力に近くなければならないという制約

  • 14. 14 Consistencyの工夫 (2/4)
 • Breaking the Cycle - Colleagues Are All You Need
 – Cycle-Consistency 制約を除いた論文
 • 1つのgeneratorと2つのdiscriminatorからなる組(council)を複数作成
 • 入力画像のドメインを判定するdiscriminatorと、入力画像が自身の所属するcouncilの generatorが生成したものかどうかを判定するdiscriminatorを使用
 • generatorは他のcouncilのgeneratorの出力に寄せる必要が出てくるので、結果として cycle-consistencyなしでも文脈が保存される。

  • 15. 15 Consistencyの工夫 (3/4)
 • RL-CycleGAN: Reinforcement Learning Aware Simulation-to-Real
 – 強化学習におけるQ値を使ったconsistencyを提案
 • シミュレータの画像と実際の画像の間での変換
 • 変換前後で状態そのものの評価値であるQ値は同じでなければならない、という制約を導入

  • 16. 16 Consistencyの工夫 (4/4)
 • Unpaired Portrait Drawing Generation via Asymmetric Cycle Mapping
 – 非対称なcycle-consistencyの導入
 • 写真⇔線画の変換などでは、写真→線画で失われる情報が大きいため、元の画像に戻さな いといけないというcycle-consistencyの制約は強すぎる
 • 写真→線画→写真の側の制約としてゆるいRelaxed cycle-consistencyを用いた

  • 17. 17 ドメインラベル付きデータの削減 (1/2)
 • High-Resolution Daytime Translation Without Domain Labels
 – 風景写真の時間帯変換をドメインラベルなしで学習

  • 18. 18 ドメインラベル付きデータの削減 (2/2)
 • Semi-Supervised Learning for Few-Shot Image-to-Image Translation
 – 新規ドメインについて変換可能なモデルを少数のラベル付き データで作成
 • 少数のラベル付きデータの情報からラベルなしデータの疑似ラベルを作成して学 習に利用。

  • 19. 19 I2Iの高解像度化 (1/2)
 • High-Resolution Daytime Translation Without Domain Labels
 – 高解像度の画像に対して変換を行うための工夫
 • ダウンサンプリングした画像に対して変換を施し、merging networkで統合する。
 1024x1024の画像で成功 

  • 20. 20 I2Iの高解像度化 (2/2)
 • Contextual Residual Aggregation for Ultra High-Resolution Image Inpainting
 – 高解像度の画像に対して変換を行うための工夫
 • ダウンサンプリングした画像に対してInpaintingを施し、元の解像度においてマスク領域外の 高周波成分を利用して精緻化する。
 1080Tiで4096x4096の画像まで 
 適用できる。

  • 22. 22 3Dへの注目
 • Title に”3D”とはいっている物だけでも142本
 – CVPR採択論文のざっくり1割.とても多い!
 
 – 1枚の2D画像から3D画像を再構成
 • そもそも3D生成が目的
 • 複数視点獲得のために3Dを経由
 – 生成したものを意味的に制御したい
 • モーフィングなどできるように
 – 教師なし(3D model自体は学習させない)が多い

  • 23. 23 single viewからの3Dshape復元
 • Unsupervised Learning of Probably Symmetric Deformable 3D Objects from Images in the Wild
 – CVPR Best Paper 
 – 教師や事前モデルなしに3D shapeを復元できる
 • 画像のsymmetryの特性に注目している
 • symmetryを得るのは難しいので照明の確率マップを用いる
 • 各入力画像を奥行き,アルベト,視点,照明に因数分解するAEを用いる
 • symmetryかどうかの確率マップも用いる
 

  • 24. 24 SynSin:画像から新規視点画像を生成
 SynSin: End-to-End View Synthesis From a Single Image
 – 複雑なリアルシーン画像に対応かつEnd-to-End生成
 – 1枚の画像から複数視点を生成
 • そのために特徴マップ,深度マップを推測
 • そこから微分可能なレンダラーを導入し,3Dの点群を用意
 • GAN構造を用いている
 – 他のタスクへも応用可

  • 25. 25 StyleGAN×3D 顔リグ
 • StyleRig: Rigging StyleGAN for 3D Control Over Portrait Images
 – 新しいタスクを切り開いた
 • 今までは顔の内部のモデルをいじれるor目・鼻などの生成のみだった
 – StyleGAN画像をフェイスリグのようにコントロール
 • 頭部のポーズ,表情,照明をミックスできる
 – 訓練は自己教師付二重cycle consistencyに基づく

  • 26. 26 texture付き3D shape生成
 • Leveraging 2D Data to Learn Textured 3D Mesh Generation
 – 形状だけでなくテクスチャ付き3Dオブジェクト(Mesh)を生成できる
 – 3D Meshのデータセットではなく2D画像のデータセットを学習
 • 画像を2D背景+3Dオブジェクトと解釈
 • 任意の画像を生成する潜在パラメータを生成するEncoder +
 colored 3D meshを生成するDecoder+背景のGenerator
 – self-intersectionsを解決

  • 27. 27 自然な3Dテクスチャの生成
 • Learning a Neural 3D Texture Space from 2D Exemplars
 – 多様性,視覚的忠実度,計算効率がよい2D or 3Dの自然テクスチャ の生成
 • 歴史あるperlin noiseをdeepに,非線形に
 – 新しいテクスチャに対して再学習の必要なし
 • 無限ドメインのサポート
 – 学習は2D画像のみ

  • 29. データセット(1/5)
 29 • 画像生成
 – MNIST
 • 予備実験,仮説検証に使われることが多い
 – Cifar10
 • MNIST同様
 – LSUN
 • 特にBedroomが使われる

  • 30. データセット(2/5)
 30 • 画像生成
 – ImageNet
 • Classificationのように224x224で使われることは少ない
 • 64x64 ~ 1024x1024で用いられる
 • 非常に多クラスなので,conditionalな生成タスクによく用いられる
 – CelebA HQ
 • 顔データセット
 • PGGANやStyleGANなどの高解像度画像生成タスクに用いられる
 • 顔のパーツ位置の正規化することがほとんど (PGGAN参照)

  • 31. データセット(3/5)
 31 • Image to Image Translation
 – City Scapes
 • ドイツの都市の画像+セマンティックセグメンテーションラベル
 • セグメンテーションラベル <-> 画像 の translation
 – horse2zebra
 • Cycle GANでお馴染み
 • 馬 <-> シマウマ
 

  • 32. データセット(4/5)
 32 • Image Inpainting
 – Places2
 • 元々はシーン認識のデータセット
 • 8 Million images
 – The Street View Text Dataset
 • 元々はin the wildなテキスト検出データセット
 • 350枚しかデータがない

  • 33. データセット(5/5)
 33 • Text-to-Image Generation
 – CUB
 • 鳥の画像+様々なラベル
 • クラス,羽・背中・足の色,胸・背中の模様サイズ ... 等々
 – COCO
 • 画像+captionなデータセット
 • object segmentation, detectionもOK

  • 34. 評価指標(1/2)
 34 • Incepsion Score (IS)
 – 以下2つを測る指標
 • Inception model が識別しやすい
 • 多様性がある
 Fréchet Inception Distance (FID)
 – 実画像と生成画像をそれぞれInception Modelに入力
 – 得られた特徴ベクトルを正規分布と仮定し,分布間の距離を測る
 Sliced Wasserstein Distance 
 – Laplacian Pyramidの各レベルから,パッチ切り出す
 – それぞれをベクトルにreshapeしてSliced Wasserstein Distanceを計測
 
 

  • 35. 評価指標(2/2)
 35 • Perceptual Path Length (PPL)
 – 人間の知覚的に潜在空間上で画像が滑らかに変化するか
 – e.g.) 白い馬と黒い馬の潜在変数を線形補完したときに
 灰色の馬を経由すれば知覚的に滑らか
 車を経由すれば知覚的に滑らかではない
 Negative Log Likelihood (NLL)
 – 負の対数尤度
 – GANでは使用できないが,
 Flow based, Pixel CNNベースの手法で用いられる
 – bits/dimは画像の解像度を考慮したNLL
 

  • 37. 37 有力研究機関,研究者
 • 研究機関 (気になる,調べたいと思った団体をpick up)
 – NVIDIA
 – Google Brain Team
 – OpenAI
 • 
 研究者(敬称略)
 – Ian Goodfellow
 – Tero Karras
 – Diederik P. Kingma
 
 – Phillip Isola
 – Jun-Yan Zhu

  • 38. 38 NVIDIA (有力研究機関 1 / 3)
 • 論文の画像や公開動画のクオリティがやばい
 – 概要・経歴
 • グラフィックスチップの製造会社として1993年に設立,
 2010年代の第三次AIブーム,同社のCUDAアーキテクチャとDNNの相性が非常に良かっ たことから急成長した.
 – 特徴
 • GPUの製造会社であることを生かした潤沢な計算資源に加え,DNNだけでなくコンピュータ グラフィックスやレイトレなどの研究分野を持つ研究者,UC BerkeleyやCAEML,Stanford などとの共同研究で優秀な学生が集まるシステムが出来上がっている
 – 代表的な / 最新の論文 (Neural Generative modelを主体にピックアップ)
 • High-Resolution Image Synthesis and Semantic Manipulation with Conditional GANs (CVPR 2018)
 • Devil is in the Edges: Learning Semantic Boundaries from Noisy Annotations (CVPR 2019)
 • Semantic Image Synthesis with Spatially-Adaptive Normalization (CVPR 2019)
 • Analyzing and Improving the Image Quality of StyleGAN (CVPR 2020)
 • Learning to Simulate Dynamic Environments With GameGAN (CVPR 2020)
 NVIDIA Research Homepage: https://www.nvidia.com/en-us/research/

  • 39. • 総研究者数2024, Google最強チーム
 – 概要・経歴
 • Google ReserchのMachine Learing研究チームとして2011年に設立,
 チームメンバの各自が自由研究ベースでAIに関する研究を行っており,NeurlPSやICML, ICLR等 のトップ会議に数百本の論文が採択されているチームである.
 – 特徴
 • 音楽やアートの生成他,自然言語やロボット工学,バイオサイエンスなど幅広く扱っており,また ,People + AI Research(PAIR)というFairnessや解釈性を扱う分野が存在する.特にMachine Intelligence(研究者数971)とMachine Perception(研究者数407)分野には力を入れており,研究 者数がほかの分野に比べ3倍近くいる(そのため,NeurlPSやICLRへの採択率が凄まじい数に なっている),TPUやTensorFlowの開発も研究の支えとなっている.
 – 代表的な / 最新の論文 (Neural Generative modelを主体にピックアップ)
 • Don't Decay the Learning Rate, Increase the Batch Size(ICLR 2018)
 • 3D-MPA: Multi Proposal Aggregation for 3D Semantic Instance Segmentation(CVPR 2020)
 • Deep Implicit Volume Compression(CVPR 2020)
 • A Commentary on the Unsupervised Learning of Disentangled Representations(AAAI 2020) 
 
 39 Google Brain Team (有力研究機関 2 / 3)
 Google Brain Homepage: https://research.google/teams/brain/

  • 40. 40 • Elon. R. Muskが投資!Goodfellow,Kingmaの古巣
 – 概要・経歴
 • 人工知能を研究する非営利団体として2015年に設立,
 後述するGoodfellowやKingmaなど,生成モデルの流れを作った人物が所属していた団体であり ,近年もImage GPT(ICML 2020)やJukebox(音楽の生成)などの論文やコードが公開されてい る.(2019年には上限付き営利団体のOpenAI LPを設立している)
 – 特徴
 • 非営利団体で人工知能の発展のために尽くしていることから,多くの論文のコードやAPIが公開 されており,一時話題となったテキスト生成モデル「GPT-2」の開発などを行っている.2019年7 月 Microsoftより10億ドルの資金調達をしており,今後も強い企業との共同研究やインターンで 強い論文が出る可能性がある.しかし,Team Updateの記事を見ると人数は45人とかなり小規 模に見える(2017年の記事でそれ以降,またOpenAI LPの人物紹介が発見できなかったので, もっと多い可能性は高い).
 – 代表的な / 最新の論文 (Neural Generative modelを主体にピックアップ)
 • [Image GPT] Generative Pretraining from Pixels (ICML 2020)
 • Jukebox: A Generative Model for Music (公開日: April, 2020)
 • PixelCNN++: A PixelCNN Implementation with Discretized Logistic Mixture Likelihood and Other Modifications (2017)
 
 OpenAI (有力研究機関 3 / 3)
 OpenAI Homepage: https://openai.com/

  • 41. 41 Ian Goodfellow (有力研究者 1 / 5)
 • GANの生みの親,35 Innovators Under 35の一人
 – 前Google Brain → 現Apple (2019.3~)
 – GAN,Adversarial Exampleを生み出した張本人で,
 生成モデルや機械学習のセキュリティの第一人者
 – 研究として論文執筆だけでなく,『Deep Learning』
 の執筆やOpenAIに所属していたなど機械学習界隈
 全体に強くに貢献している
 – 実は年齢は34歳前後であり,2018年まで第一著者として論文を執筆
 – 代表的な論文 / 書籍 (詳細は下記のGoogle Scholarを参照)
 • Generative adversarial Nets(NIPS 2014)
 • Explaining and Harnessing Adversarial Examples(ICLR 2014)
 • Deep Learning (MIT Press Book 2018)→(東大松尾研翻訳版:深層学習)
 Homepage : http://www.iangoodfellow.com/ (ちなみにホームページは阿部寛より爆速接続できるかもしれない)
 Google Scholar : https://scholar.google.ca/citations?user=iYN86KEAAAAJ&hl=en (論文一覧)
 LinkedIn : https://www.linkedin.com/in/ian-goodfellow-b7187213 (経歴記載あり)

  • 42. 42 Tero Karras (有力研究者 2 / 5)
 • PGGAN,StyleGANの第一著者
 – 現NVIDIA Research Distinguished Engineer(2009~)
 – PGGAN,StyleGANを生み出した張本人でGANの常識,
 学習方法を変えたといっても過言ではない
 – 生成モデルの他,リアルタイムレイトレーシングの
 開発やハードウェア分野に貢献など,研究対象が広い
 – CVPR2020のStyleGAN2の第一著者で現役バリバリの
 研究者であり,本人のYoutube動画は非常に質が高い
 – 代表的な論文 / 書籍 (詳細は下記のGoogle Scholarを参照)
 • [PGGAN] Progressive Growing of GANs for Improved Quality, Stability, and Variation (ICLR 2018)
 • [StyleGAN] A Style-Based Generator Architecture for Generative Adversarial Networks(CVPR 2019)
 • [StyleGAN2] Analyzing and Improving the Image Quality of StyleGAN. (CVPR 2020)
 Homepage : https://research.nvidia.com/person/tero-karras
 Google Scholar : https://scholar.google.ca/citations?hl=en&user=-50qJW8AAAAJ (論文一覧あり)
 Youtube : https://www.youtube.com/channel/UCRtoHpUxLBJ95IU-p-4T_iA (本人の論文紹介動画あり) 

  • 43. 43 Diederik P. Kingma (有力研究者 3 / 5)
 • 生成モデルのVAE,最適化のAdamの第一著者
 – 前OpenAI -> 現Google Research (2018~)
 – Advanzaの共同設立後,アムステル大学でPh.D取得(2017)
 OpenAIの創設&リサーチチームとして所属(2015~2018)
 – 最適化のAdamや生成モデルのVAEを生み出した他,
 近年ではFlow Contrastive estimateやVideoFlowなど
 Flowを扱う論文の共著としても見られる
 – 代表的な論文 / 書籍 (詳細は下記のGoogle Scholarを参照)
 • Auto-Encoding Variational Bayes (ICLR 2014)
 • Adam: A Method for Stochastic Optimization (ICLR 2015)
 • Semi-Supervised Learning with Deep Generative Models (NIPS 2014)
 • Flow Contrastive Estimation of Energy-Based Models (第三著者, CVPR 2020)
 Homepage : http://www.dpkingma.com/ (経歴記載あり) Google Scholar : https://scholar.google.nl/citations?user=yyIoQu4AAAAJ&hl=en (論文一覧あり)
 Linkedin : https://www.linkedin.com/in/durk-kingma-58b3564 
 Youtube : https://www.youtube.com/channel/UCBWS9Ym5IG8mDllhrnY6qqA

  • 44. 44 • Phillip Isola (有力研究者 4 / 5)
 Pix2Pixの第一著者
 – 前OpenAI -> 現MIT ECSS 助教 (2018~)
 – イェール大学でBSー>MITでPh.D取得(2015),
 OpenAIの創設&リサーチチームとして所属(2015~2018)
 – I2Iの第一人者であり,近年では同研究室の論文:
 Contractive Learningの共著として名を並べている 
 – 代表的な論文 / 書籍 (詳細は下記のGoogle Scholarを参照)
 • [Pix2Pix] Image-to-image translation with conditional adversarial networks 
 (CVPR 2017)
 • [CycleGAN] Unpaired image-to-image translation using cycle-consistent adversarial networks 
 (第三著者,CVPR2017) 
 • Cycada: Cycle-consistent adversarial domain adaptation (第五著者,ICML 2018)
 • What makes for good views for contrastive learning? (第六著者,arXiv, 2020)
 Homepage : http://web.mit.edu/phillipi/ Google Scholar : https://scholar.google.com/citations?user=ROILf3EAAAAJ&hl=en&oi=ao (論文一覧あり)
 Linkedin : https://www.linkedin.com/in/phillip-isola-a9955b20/ (経歴記載あり)

  • 45. 45 • Jun-Yan Zhu (有力研究者 5 / 5)
 • CycleGANの第一著者,The 100 Greatest Innovations 
 – 前MIT ポスドク -> 現Adobe Researcher(2019.8~)
 – 2020年秋よりCMUの助教に就任
 – UC BerkeleyでPh.D取得(2017.12),ポスドクとして
 MITに所属時,SIGGRAPH Best in Show Awardや
 NVIDIA Pioneer Researcher Award(2019)を獲得
 – 近年ではGAN圧縮や特性(何が生成できないかなど),訓練時のデータ拡張な ど効率化の論文共著に名を並べている
 – 代表的な論文 / 書籍 (詳細は下記のGoogle Scholarを参照)
 • [CycleGAN] Unpaired image-to-image translation using cycle-consistent adversarial networks (CVPR2017)
 • [BicycleGAN] Toward Multimodal Image-to-Image Translation (NIPS 2017)
 • GAN Compression: Efficient Architectures for Interactive Conditional GANs 
 (第五著者,CVPR2020) 
 Homepage : http://people.csail.mit.edu/junyanz/ Google Scholar : https://scholar.google.com/citations?user=UdpacsMAAAAJ&hl=en (論文一覧あり)
 Linkedin : https://www.linkedin.com/in/jun-yan-zhu-99b18814/ (経歴記載あり)

  • 46. 46 CVPR2020気付き
 • どんな論文が通っている?or求められている?
 – 1ページ目のFig.1のインパクト
 • 見た目のわかりやすさ大事
 • GitHubやYoutubeにリンクを貼って、動画でのデモも有効かも
 – GANでも画像→潜在空間へのマッピングをできるようにする流れは継続
 – ラベル付きデータが少ないケースへの適用
 – SOTA競争への参加よりも新しいタスクの提案
 • 既存手法では上手く対応できない領域へタスクを拡張する
 • 戦いやすいデータセットを構築する
 • そのタスクの意義についてイントロでしっかり述べる
 – 評価指標は掘り下げの余地あり?
 
 応用を意識した内容が割と評価されやすい?