10. 流行りのStable Diffusionを超ざっくり説明
§ Stable Diffusion
LDM論文で発表された手法で現在はStable diffusionという名前でOSSとして公開され画像生成AIブームの起爆剤となった。
学習時は学習データを別の空間移しノイズを付与し、逆拡散過程を学習。当たり前だが推論時は逆拡散過程の部分(赤線の中)のみを用いる。
§ Stable DiffusionはU-NetとVAEとText Encoderから構成される
①VAE:VAEの潜在空間に対して拡散モデルを学習させることで、効率よく高解像度の画像生成が可能。
② U-Net:画像中のノイズを推論する部分。テキストによる条件付けは、U-Net内のCross-Attentionでおこなっている。
③ Text Encoder:CLIPというモデルでテキストから特徴量を取得
10
https://qiita.com/omiita/items/ecf8d60466c50ae8295b
(Qiita記事: 世界に衝撃を与えた画像生成AI「Stable Diffusion」を徹底解説!@omiita より引用)
③
① ①
②
11. 流行りのStable Diffusionを超ざっくり説明
§ Stable Diffusion
LDM論文で発表された手法で現在はStable diffusionという名前でOSSとして公開され画像生成AIブームの起爆剤となった。
学習時は学習データを別の空間移しノイズを付与した後、逆拡散過程を学習。当たり前だが推論時は逆拡散過程の部分(赤線の中)のみを用いる。
§ Stable DiffusionはU-NetとVAEとText Encoderから構成される
①VAE:VAEの潜在空間に対して拡散モデルを学習させることで、効率よく高解像度の画像生成が可能。
② U-Net:画像中のノイズを推論する部分。テキストによる条件付けは、U-Net内のCross-Attentionでおこなっている。
③ Text Encoder:CLIPというモデルでテキストから特徴量を取得
11
https://qiita.com/omiita/items/ecf8d60466c50ae8295b
(Qiita記事: 世界に衝撃を与えた画像生成AI「Stable Diffusion」を徹底解説!@omiita より引用)
③
① ①
②
13. 流行りのStable Diffusionを超ざっくり説明
§ Stable Diffusion
LDM論文で発表された手法で現在はStable diffusionという名前でOSSとして公開され画像生成AIブームの起爆剤となった。
学習時は学習データを別の空間移しノイズを付与した後、逆拡散過程を学習。当たり前だが推論時は逆拡散過程の部分(赤線の中)のみを用いる。
§ Stable DiffusionはU-NetとVAEとText Encoderから構成される
①VAE:VAEの潜在空間に対して拡散モデルを学習させることで、効率よく高解像度の画像生成が可能。
② U-Net:画像中のノイズを推論する部分。テキストによる条件付けは、U-Net内でおこなっている。
③ Text Encoder:CLIPというモデルでテキストから特徴量を取得
13
https://qiita.com/omiita/items/ecf8d60466c50ae8295b
(Qiita記事: 世界に衝撃を与えた画像生成AI「Stable Diffusion」を徹底解説!@omiita より引用)
③
① ①
②
15. 流行りのStable Diffusionを超ざっくり説明
§ Stable Diffusion
LDM論文で発表された手法で現在はStable diffusionという名前でOSSとして公開され画像生成AIブームの起爆剤となった。
学習時は学習データを別の空間移しノイズを付与した後、逆拡散過程を学習。当たり前だが推論時は逆拡散過程の部分(赤線の中)のみを用いる。
§ Stable DiffusionはU-NetとVAEとText Encoderから構成される
①VAE:VAEの潜在空間に対して拡散モデルを学習させることで、効率よく高解像度の画像生成が可能。
② U-Net:画像中のノイズを推論する部分。テキストによる条件付けは、U-Net内のCross-Attentionでおこなっている。
③ Text Encoder:CLIPというモデルでテキストから特徴量を取得
15
https://qiita.com/omiita/items/ecf8d60466c50ae8295b
(Qiita記事: 世界に衝撃を与えた画像生成AI「Stable Diffusion」を徹底解説!@omiita より引用)
③
① ①
②
16. 流行りのStable Diffusionを超ざっくり説明
③ Text Encoder:CLIP
§ 元々は画像とテキストの類似度を推定するモデル
§ 学習時はテキストと画像で対照学習(※)を行いテキストと画像の特徴を同じ空間上に埋め込む、マルチモーダルモデル
§ Stable diffusionではテキストを入力して類似度が高い画像のCLIP特徴を得る
§ CLIP特徴をUnetに差し込むことでテキストによる条件付けが可能
※対照学習: ラベル付けを行うことなく、データ同士を比較する仕組みを用いて
学習できる自己教師あり学習の一つ
16
https://openai.com/research/clip
( CLIP: Connecting text and imagesより引用)