Enviar pesquisa
Carregar
[DL輪読会]StyleGAN-NADA: CLIP-Guided Domain Adaptation of Image Generators
•
Transferir como PPTX, PDF
•
1 gostou
•
1,446 visualizações
Deep Learning JP
Seguir
2021/08/13 Deep Learning JP: http://deeplearning.jp/seminar-2/
Leia menos
Leia mais
Tecnologia
Denunciar
Compartilhar
Denunciar
Compartilhar
1 de 21
Baixar agora
Recomendados
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
Deep Learning JP
StyleGAN解説 CVPR2019読み会@DeNA
StyleGAN解説 CVPR2019読み会@DeNA
Kento Doi
【DL輪読会】DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Dri...
【DL輪読会】DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Dri...
Deep Learning JP
近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer
Yusuke Uchida
画像生成・生成モデル メタサーベイ
画像生成・生成モデル メタサーベイ
cvpaper. challenge
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
Deep Learning JP
これからの Vision & Language ~ Acadexit した4つの理由
これからの Vision & Language ~ Acadexit した4つの理由
Yoshitaka Ushiku
【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models
cvpaper. challenge
Recomendados
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
Deep Learning JP
StyleGAN解説 CVPR2019読み会@DeNA
StyleGAN解説 CVPR2019読み会@DeNA
Kento Doi
【DL輪読会】DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Dri...
【DL輪読会】DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Dri...
Deep Learning JP
近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer
Yusuke Uchida
画像生成・生成モデル メタサーベイ
画像生成・生成モデル メタサーベイ
cvpaper. challenge
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
Deep Learning JP
これからの Vision & Language ~ Acadexit した4つの理由
これからの Vision & Language ~ Acadexit した4つの理由
Yoshitaka Ushiku
【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models
cvpaper. challenge
【メタサーベイ】Vision and Language のトップ研究室/研究者
【メタサーベイ】Vision and Language のトップ研究室/研究者
cvpaper. challenge
【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習
cvpaper. challenge
backbone としての timm 入門
backbone としての timm 入門
Takuji Tahara
画像キャプションの自動生成
画像キャプションの自動生成
Yoshitaka Ushiku
[DL輪読会]Progressive Growing of GANs for Improved Quality, Stability, and Varia...
[DL輪読会]Progressive Growing of GANs for Improved Quality, Stability, and Varia...
Deep Learning JP
【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ
Deep Learning JP
【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
Deep Learning JP
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
Deep Learning JP
Transformer メタサーベイ
Transformer メタサーベイ
cvpaper. challenge
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
Deep Learning JP
猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder
Sho Tatsuno
【DL輪読会】StyleCLIP: Text-Driven Manipulation of StyleGAN Imagery
【DL輪読会】StyleCLIP: Text-Driven Manipulation of StyleGAN Imagery
Deep Learning JP
[DL輪読会]Few-Shot Unsupervised Image-to-Image Translation
[DL輪読会]Few-Shot Unsupervised Image-to-Image Translation
Deep Learning JP
Semantic segmentation
Semantic segmentation
Takuya Minagawa
【メタサーベイ】Neural Fields
【メタサーベイ】Neural Fields
cvpaper. challenge
【DL輪読会】ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders
【DL輪読会】ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders
Deep Learning JP
【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...
【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...
Deep Learning JP
[DL輪読会]Dense Captioning分野のまとめ
[DL輪読会]Dense Captioning分野のまとめ
Deep Learning JP
実装レベルで学ぶVQVAE
実装レベルで学ぶVQVAE
ぱんいち すみもと
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
Deep Learning JP
Bridging between Vision and Language
Bridging between Vision and Language
Shion Honda
[DL輪読会]Deep Face Recognition: A Survey
[DL輪読会]Deep Face Recognition: A Survey
Deep Learning JP
Mais conteúdo relacionado
Mais procurados
【メタサーベイ】Vision and Language のトップ研究室/研究者
【メタサーベイ】Vision and Language のトップ研究室/研究者
cvpaper. challenge
【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習
cvpaper. challenge
backbone としての timm 入門
backbone としての timm 入門
Takuji Tahara
画像キャプションの自動生成
画像キャプションの自動生成
Yoshitaka Ushiku
[DL輪読会]Progressive Growing of GANs for Improved Quality, Stability, and Varia...
[DL輪読会]Progressive Growing of GANs for Improved Quality, Stability, and Varia...
Deep Learning JP
【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ
Deep Learning JP
【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
Deep Learning JP
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
Deep Learning JP
Transformer メタサーベイ
Transformer メタサーベイ
cvpaper. challenge
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
Deep Learning JP
猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder
Sho Tatsuno
【DL輪読会】StyleCLIP: Text-Driven Manipulation of StyleGAN Imagery
【DL輪読会】StyleCLIP: Text-Driven Manipulation of StyleGAN Imagery
Deep Learning JP
[DL輪読会]Few-Shot Unsupervised Image-to-Image Translation
[DL輪読会]Few-Shot Unsupervised Image-to-Image Translation
Deep Learning JP
Semantic segmentation
Semantic segmentation
Takuya Minagawa
【メタサーベイ】Neural Fields
【メタサーベイ】Neural Fields
cvpaper. challenge
【DL輪読会】ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders
【DL輪読会】ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders
Deep Learning JP
【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...
【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...
Deep Learning JP
[DL輪読会]Dense Captioning分野のまとめ
[DL輪読会]Dense Captioning分野のまとめ
Deep Learning JP
実装レベルで学ぶVQVAE
実装レベルで学ぶVQVAE
ぱんいち すみもと
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
Deep Learning JP
Mais procurados
(20)
【メタサーベイ】Vision and Language のトップ研究室/研究者
【メタサーベイ】Vision and Language のトップ研究室/研究者
【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習
backbone としての timm 入門
backbone としての timm 入門
画像キャプションの自動生成
画像キャプションの自動生成
[DL輪読会]Progressive Growing of GANs for Improved Quality, Stability, and Varia...
[DL輪読会]Progressive Growing of GANs for Improved Quality, Stability, and Varia...
【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
Transformer メタサーベイ
Transformer メタサーベイ
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder
【DL輪読会】StyleCLIP: Text-Driven Manipulation of StyleGAN Imagery
【DL輪読会】StyleCLIP: Text-Driven Manipulation of StyleGAN Imagery
[DL輪読会]Few-Shot Unsupervised Image-to-Image Translation
[DL輪読会]Few-Shot Unsupervised Image-to-Image Translation
Semantic segmentation
Semantic segmentation
【メタサーベイ】Neural Fields
【メタサーベイ】Neural Fields
【DL輪読会】ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders
【DL輪読会】ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders
【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...
【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...
[DL輪読会]Dense Captioning分野のまとめ
[DL輪読会]Dense Captioning分野のまとめ
実装レベルで学ぶVQVAE
実装レベルで学ぶVQVAE
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
Semelhante a [DL輪読会]StyleGAN-NADA: CLIP-Guided Domain Adaptation of Image Generators
Bridging between Vision and Language
Bridging between Vision and Language
Shion Honda
[DL輪読会]Deep Face Recognition: A Survey
[DL輪読会]Deep Face Recognition: A Survey
Deep Learning JP
[DL Hacks 実装]The Conditional Analogy GAN: Swapping Fashion Articles on People...
[DL Hacks 実装]The Conditional Analogy GAN: Swapping Fashion Articles on People...
Deep Learning JP
Scalaの現状と課題
Scalaの現状と課題
Kota Mizushima
[db tech showcase Tokyo 2017] E35: 12台でやってみた!DWHソフトウェアアプライアンス Db2 Warehouse ~...
[db tech showcase Tokyo 2017] E35: 12台でやってみた!DWHソフトウェアアプライアンス Db2 Warehouse ~...
Insight Technology, Inc.
Watsonをささえる ハイパフォーマンスクラウドで はじめるDeep Learning
Watsonをささえる ハイパフォーマンスクラウドで はじめるDeep Learning
Atsumori Sasaki
BazelでビルドしたアプリをGCPにデプロイしようとしてハマった話
BazelでビルドしたアプリをGCPにデプロイしようとしてハマった話
Katsunori Kanda
NGC でインフラ環境整備の時間短縮!素早く始めるディープラーニング
NGC でインフラ環境整備の時間短縮!素早く始めるディープラーニング
NVIDIA Japan
CVPR2018 pix2pixHD論文紹介 (CV勉強会@関東)
CVPR2018 pix2pixHD論文紹介 (CV勉強会@関東)
Tenki Lee
静的解析とUIの自動生成を駆使してモバイルアプリの運用コストを大幅に下げた話
静的解析とUIの自動生成を駆使してモバイルアプリの運用コストを大幅に下げた話
Takuya Ueda
httpbis interim とhttp2.0相互接続試験の話
httpbis interim とhttp2.0相互接続試験の話
shigeki_ohtsu
Japan OSS promotion Forum symposium - Neaoss wg2 activity
Japan OSS promotion Forum symposium - Neaoss wg2 activity
Hiroshi Miura
2018 07-19dist
2018 07-19dist
Yuji Oshima
LabVIEW NXG Current Status @ 2020
LabVIEW NXG Current Status @ 2020
Yusuke Tochigi
Deep Learning Implementations: pylearn2 and torch7 (JNNS 2015)
Deep Learning Implementations: pylearn2 and torch7 (JNNS 2015)
Kotaro Nakayama
10年ぶりの ニューラルネットワーク
10年ぶりの ニューラルネットワーク
Takatsugu Nokubi
[AI05] 目指せ、最先端 AI 技術の実活用!Deep Learning フレームワーク 「Microsoft Cognitive Toolkit 」...
[AI05] 目指せ、最先端 AI 技術の実活用!Deep Learning フレームワーク 「Microsoft Cognitive Toolkit 」...
de:code 2017
GiNZAで始める日本語依存構造解析 〜CaboCha, UDPipe, Stanford NLPとの比較〜
GiNZAで始める日本語依存構造解析 〜CaboCha, UDPipe, Stanford NLPとの比較〜
Megagon Labs
産総研AIクラウドでChainerMN
産総研AIクラウドでChainerMN
Hitoshi Sato
FPGA, AI, エッジコンピューティング
FPGA, AI, エッジコンピューティング
Hideo Terada
Semelhante a [DL輪読会]StyleGAN-NADA: CLIP-Guided Domain Adaptation of Image Generators
(20)
Bridging between Vision and Language
Bridging between Vision and Language
[DL輪読会]Deep Face Recognition: A Survey
[DL輪読会]Deep Face Recognition: A Survey
[DL Hacks 実装]The Conditional Analogy GAN: Swapping Fashion Articles on People...
[DL Hacks 実装]The Conditional Analogy GAN: Swapping Fashion Articles on People...
Scalaの現状と課題
Scalaの現状と課題
[db tech showcase Tokyo 2017] E35: 12台でやってみた!DWHソフトウェアアプライアンス Db2 Warehouse ~...
[db tech showcase Tokyo 2017] E35: 12台でやってみた!DWHソフトウェアアプライアンス Db2 Warehouse ~...
Watsonをささえる ハイパフォーマンスクラウドで はじめるDeep Learning
Watsonをささえる ハイパフォーマンスクラウドで はじめるDeep Learning
BazelでビルドしたアプリをGCPにデプロイしようとしてハマった話
BazelでビルドしたアプリをGCPにデプロイしようとしてハマった話
NGC でインフラ環境整備の時間短縮!素早く始めるディープラーニング
NGC でインフラ環境整備の時間短縮!素早く始めるディープラーニング
CVPR2018 pix2pixHD論文紹介 (CV勉強会@関東)
CVPR2018 pix2pixHD論文紹介 (CV勉強会@関東)
静的解析とUIの自動生成を駆使してモバイルアプリの運用コストを大幅に下げた話
静的解析とUIの自動生成を駆使してモバイルアプリの運用コストを大幅に下げた話
httpbis interim とhttp2.0相互接続試験の話
httpbis interim とhttp2.0相互接続試験の話
Japan OSS promotion Forum symposium - Neaoss wg2 activity
Japan OSS promotion Forum symposium - Neaoss wg2 activity
2018 07-19dist
2018 07-19dist
LabVIEW NXG Current Status @ 2020
LabVIEW NXG Current Status @ 2020
Deep Learning Implementations: pylearn2 and torch7 (JNNS 2015)
Deep Learning Implementations: pylearn2 and torch7 (JNNS 2015)
10年ぶりの ニューラルネットワーク
10年ぶりの ニューラルネットワーク
[AI05] 目指せ、最先端 AI 技術の実活用!Deep Learning フレームワーク 「Microsoft Cognitive Toolkit 」...
[AI05] 目指せ、最先端 AI 技術の実活用!Deep Learning フレームワーク 「Microsoft Cognitive Toolkit 」...
GiNZAで始める日本語依存構造解析 〜CaboCha, UDPipe, Stanford NLPとの比較〜
GiNZAで始める日本語依存構造解析 〜CaboCha, UDPipe, Stanford NLPとの比較〜
産総研AIクラウドでChainerMN
産総研AIクラウドでChainerMN
FPGA, AI, エッジコンピューティング
FPGA, AI, エッジコンピューティング
Mais de Deep Learning JP
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
Deep Learning JP
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて
Deep Learning JP
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
Deep Learning JP
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
Deep Learning JP
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
Deep Learning JP
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM
Deep Learning JP
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
Deep Learning JP
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
Deep Learning JP
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
Deep Learning JP
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
Deep Learning JP
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
Deep Learning JP
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
Deep Learning JP
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
Deep Learning JP
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
Deep Learning JP
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
Deep Learning JP
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
Deep Learning JP
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
Deep Learning JP
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
Deep Learning JP
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
Deep Learning JP
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
Deep Learning JP
Mais de Deep Learning JP
(20)
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
Último
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
iPride Co., Ltd.
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
CRI Japan, Inc.
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
iPride Co., Ltd.
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
iPride Co., Ltd.
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
CRI Japan, Inc.
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NTT DATA Technology & Innovation
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
Hiroshi Tomioka
Último
(7)
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
[DL輪読会]StyleGAN-NADA: CLIP-Guided Domain Adaptation of Image Generators
1.
StyleGAN-NADA: CLIP-Guided Domain Adaptation
of Image Generators 岡田 領 / Ryo Okada 1
2.
StyleGAN-NADA: CLIP-Guided Domain Adaptation
of Image Generators ● Rinon Gal, Or Patashnik, Haggai Maron, Gal Chechik, Daniel Cohen-Or ● Tel Aviv University,NVIDIA ● 2021/8/2 Arxiv投稿 ● プロジェクトページ : https://stylegan- nada.github.io/ ● コードあり 書誌情報 2
3.
● 2つのテキスト(例「Dog」から 「Cat」)を与えると学習済みStyleGAN の生成内容を変換 ● StyleGANの訓練済みモデルの範疇を大き く超えた(out
of domain)の変換が可能 ● 学習データは必要なく、Photo to Sketch のような簡単な変換ならNVIDIA V100で 数分以内(と言っても論文内での大きな 変換は6hかけているものもあり) 3 概要
4.
関連研究 4
5.
● Webから収集した「画像+テキスト」4億組の訓練データ ● 画像からその画像に対応する真の記述文を、ランダムに選ばれた他の
32,768個の記述 文の中から見つけだす対照学習でマルチモーダルな埋め込み空間を学習 ● 与えられたテキストと画像の間の意味的な類似性の推定をゼロショット学習で可能 5 関連研究:CLIP(Contrastive Language-Image Pre-training)
6.
● 高解像度の画像生成が可能 ● Mapping
networkとSynthesis networkの2つで構成 ● 正規分布からサンプリングしたzをMapping networkを通 じて潜在変数wを得る ● Synthesis networkは4 x 4 x 512の定数を入力とし,最終的 に画像を生成するが,各層においてwがスタイルとして流 し込まれる. ● 様々な研究を通じて潜在変数wによって生成画像の操作の 可能性が示されているが,あくまで既存研究はin domain (generatorの学習範疇)の変換 6 関連研究:StyleGAN
7.
● StyleGANの生成能力とCLIPの埋め込み表現を組み合わせ,テキスト入力によってStyleGANの生成画像を 編集できる.3種類のアプローチを試している. ● https://www.slideshare.net/DeepLearningJP2016/dlstyleclip-textdriven-manipulation-of-stylegan-imagery
7 関連研究:StyleCLIP
8.
● StyleCLIPの3つのアプローチ ▸ latent
optimization ✓ 生成画像とテキストのCLIP埋め込み表現におけるコサイン距離最小化で潜在変数を最 適化して編集画像を得る方法(モデルではなく潜在変数を最適化) ✓ 提案手法ではglobal CLIP lossと名付け学習の工夫の際に使用 ▸ latent mapper ✓ テキスト内容が反映されるような潜在変数を出力できるようにネットワーク(mapping network)を学習する方法 ✓ 提案手法でも一部結果で使用 ▸ global directions ✓ 与えられたテキストのCLIP表現におけるベクトルに類似する画像のベクトル方向を見 つけて反映する方法 8 関連研究:StyleCLIP
9.
提案手法 9
10.
● 2つの訓練済みのStyleGANの generator.入力w(mapping network)は同じ ● 一方のGfrozenを固定し,もう一方 のGtrainを訓練. ●
テキストとそれぞれの生成画像か ら学習を方向付けるloss(後述)を 元に学習し,Gtrainが求める画像を 生成できるように学習 ● ただし,Gtrainでは学習安定のため 各イテレーションで変更に関連度 が強い層だけ学習する(Layer Freezing) 10 提案手法(全体)
11.
● Global CLIP
Loss ▸ CLIP埋め込み表現空間における変換後画像とターゲットテキス トのコサイン距離を最小化 ▸ シンプルだが,多様性は考慮されない ▸ 後述するLayer Freezingにて使用 ● Directional CLIP loss ▸ ソースとターゲットテキストのCLIP埋め込み空間でのベクトル 差と元画像と変換画像のベクトル差の向きを一致させる(内積最 大化) ▸ 入力が変われば生成画像も変化するように働くので多様性が担保 ● Embedding-norm loss ▸ StyleCLIPのlatent mapperに追加の以下lossを加えた(経験則的 に) ▸ (latent mapperは画像を大きく変更したいときに適用) 11 提案手法(loss)
12.
● 先行研究(few shot
domain translation)において学 習する重みを制限することが品質の改善に繋がるこ とが示されている.変更内容に最も関連する重みだ けを学習するように制限したい. ● Layer Freezing ▸ (1)ネットワークの重みをすべて固定し,潜在 変数wをGlobal CLIP lossによって最適化.最 も大きく変化したwに対応する層を選択 ▸ (2)選択した層の重みの固定化のみ解除. directional CLIP lossで最適化 ● +α)大幅な変換の場合(別の動物に変換するなど), 最後にStyleCLIPのlatent mapperで学習 (Embedding-norm loss) 12 提案手法(学習方法の工夫)
13.
● faces(StyleGAN2-FFHQ) から変換 ● ランダムにサンプリングし た結果 ●
モデル層の約2/3を学習 ● latent mapperなし 13 結果1
14.
● 犬(AFHQ-dogで訓練した generator)からいろんな 動物への変換 ● 各反復において学習可能 な層の数を3つ ●
latent mapper を使用 ● スタイルの変更や形状の 微調整ではなく大幅な変 更 14 結果2
15.
● テキストでの編集手法 (StyleCLIP)との比較 ● 既存の手法は訓練済みモ デルの学習内の編集に限 られるが,提案手法は out
of domainな変化 15 比較1
16.
● Few-shot generators系の 手法との比較 ● 犬をCatに変換 した結果 ●
提案手法は多様 性があり,学習 画像も不要 16 比較2
17.
● Global lossや学習する層 について比較検証 ●
提案手法(Adaptive Layers)が最も良いと主 張 ● latent mapper(with mapper)は大幅な形状変 化を伴うときに有効とし ている(あんまりわから ない?) 17 Ablation Study
18.
● GAN Inversion(実画像をGANの潜在変 数にエンコード)との組み合わせ ●
与えられた実画像を先行研究のReStyle のエンコーダで潜在変数wにエンコード ● 提案手法のgeneratorでそのwから人物 の特徴が復元ができている ● textually-driven, zero-shot out-of- domain image-to-image translation of real images 18 他のGAN手法との組み合わせ1
19.
● 実画像に以下を適用 ▸ StyleCLIP
to edit expression and hairstyle ▸ StyleFlow to edit pose ▸ InterfaceGAN to edit age ▸ 提案手法 ● 提案手法のgeneratorの編集内容がソー スgeneraotorの内容と一致 19 他のGAN手法との組み合わせ2
20.
● image to
imageの既存研究 (pixel2Style2pixel)において,セグメ ンテーションやスケッチ画像を潜在変 数wにエンコード ● 潜在変数wに対して提案手法の有効性を 確認 20 他のGAN手法との組み合わせ3
21.
● StyleGAN-NADA ▸ a
CLIP-guided zero-shot method for Non-Adversarial Domain Adaptation of image generators ▸ CLIPの表現内容を効率的に反映し,学習することでgeneratorの学習の範囲を超えた変換が可能 ▸ 潜在変数wを介し,様々なStyleGANの既存研究との組み合わせの有効性も示した ● Limitations ▸ 変換の範囲はCLIPの表現に限られる(特に新しい概念・変換内容は無理) ▸ 自然言語は曖昧さがあるのでちゃんとした文を書かないと思い通りに反映されない ● その他 ▸ 学習方法を工夫することでCLIPの表現をStyleCLIPより効果的にStyleGANの潜在変数に取り込むこ とに成功したという話 ▸ いろいろ試すとCLIPの表現には得意と不得意がありそう ▸ 一方,学習させる層の数やlatent mapperを使用するかどうかなど,学習の調整にはヒューリスティ ックな調整が入っているように感じた 21 まとめ
Notas do Editor
変更内容を説明するテキスト(犬から猫)をしよう
Baixar agora