SlideShare uma empresa Scribd logo
1 de 25
Baixar para ler offline
@ginrou799
CVPR2021で発表された


virtual try-onまとめ
第7回全日本コンピュータビジョン勉強会
Virtual try-on (仮想試着/バーチャル試着)とは何か?
はじめに
2
人物画像 服の画像 合成結果 失敗例
腕が不自然
• 「人物画像」と「 服の画像」を入力とし、「人物画像に写っている人物が服
の画像の服を着ているような画像」を生成すること


• より違和感のない、自然な合成結果を生成することが目標


• Conditional GAN の一種


• ネットショッピングなどへの応用が期待される
CVPR2021で発表されたvirtual try-on の論文全部*読む
はじめに / 今日紹介する論文
3
呼称 タイトル 著者 所属
VITON-HD
VITON-HD: High-Resolution Virtual Try-On
via Misalignment-Aware Normalization
Seunghwan Choi, Sunghyun Park


Minsoo Lee, Jaegul Choo
• KAIST
DCTON
Disentangled Cycle Consistency for Highly-
realistic Virtual Try-On
Chongjian Ge, Yibing Song


Yuying Ge, Han Yang


Wei Liu, Ping Luo
• The University of Hong Kong


• Tencent AI Lab


• ETH Zürich


• Tencent Data Platform
PF-AFN
Parser-Free Virtual Try-on via Distilling
Appearance Flows
Yuying Ge, Yibing Song


Ruimao Zhang, Chongjian Ge


Wei Liu, Ping Luo
• The University of Hong Kong


• Tencent AI Lab


• The Chinese University of Hong Kong (Shenzhen)


• Shenzhen Research Institute of Big Data


• Tencent Data Platform
CT-Net
CT-Net: Complementary Transfering
Network for Garment Transfer with
Arbitrary Geometric Changes
Fan Yang, Guosheng Lin • Nanyang Technological University
MONet
Toward Accurate and Realistic Outfits
Visualization with Attention to Details
Kedan Li, Min Jin Chong


Jeffrey Zhang, Jingen Liu
• University of Illinois, Urbana Champaign


• Revery AI Inc.


• JD AI Research.
* 「人物の着ている服を別の服に着せ替える」という手法に関するもののみを選別
4
• Virtual try-on の概要


• 各論文の紹介


• 各手法の比較


• 考察・実際にやってみた


• まとめ
Virtual try-on のベースライン
Virtual try-on の概要
5
人物画像
服の画像
• 前処理で人物画像から「ポーズ」「パーツ」「処理対象領域」を求める


• 「レイアウト推定」「服画像のワーピング」「画像生成」の3つのモジュールから成る
前処理
ポーズ
パーツ
処理対象領域
ポーズ
推定
パーツ
推定
服・腕を
マスク
レイアウト推定


目標の服を着せた時の


レイアウトを推定
服の画像
パーツ
ポーズ
目標


レイアウト
袖の部分を服に
合わせて伸ばす
Generate
服画像のワーピング


目標レイアウトに合うように


服の画像を変形
param
Thin-Plate


Spline 変換
目標


レイアウト
処理対象領域
服の画像
目標服画像
Regress
画像生成


最終出力であるバーチャル試着


画像を生成する
目標


レイアウト 処理対象領域 目標服画像
Generate
バーチャル


試着画像
入力
出力
※ ACGPNと各手法の共通部分を参考にしました
Virtual try-on のベースライン
Virtual try-on の概要
6
人物画像
服の画像
前処理
ポーズ
パーツ
処理対象領域
ポーズ
推定
パーツ
推定
服・腕を
マスク
レイアウト推定


目標の服を着せた時の


レイアウトを推定
服の画像
パーツ
ポーズ
目標


レイアウト
袖の部分を服に
合わせて伸ばす
Generate
服画像のワーピング


目標レイアウトに合うように


服の画像を変形
param
Thin-Plate


Spline 変換
目標


レイアウト
処理対象領域
服の画像
目標服画像
Regress
画像生成


最終出力であるバーチャル試着


画像を生成する
目標


レイアウト 処理対象領域 目標服画像
Generate
バーチャル


試着画像
入力
出力
• ポーズ推定はOpenPose、パーツ推定はLook into
person などの o
ff
-the-shelf なものを利用
• グレーマスクされている箇所が処理対象領域。


マスクされていない箇所は保持する
• ネットワークは前処理結果を入力とする。前処理
部分は学習しない
• 前処理で人物画像から「ポーズ」「パーツ」「処理対象領域」を求める


• 「レイアウト推定」「服画像のワーピング」「画像生成」の3つのモジュールから成る
Virtual try-on のベースライン
Virtual try-on の概要
7
人物画像
服の画像
前処理
ポーズ
パーツ
処理対象領域
ポーズ
推定
パーツ
推定
服・腕を
マスク
レイアウト推定


目標の服を着せた時の


レイアウトを推定
服の画像
パーツ
ポーズ
目標


レイアウト
袖の部分を服に
合わせて伸ばす
Generate
服画像のワーピング


目標レイアウトに合うように


服の画像を変形
param
Thin-Plate


Spline 変換
目標


レイアウト
処理対象領域
服の画像
目標服画像
Regress
画像生成


最終出力であるバーチャル試着


画像を生成する
目標


レイアウト 処理対象領域 目標服画像
Generate
バーチャル


試着画像
入力
出力
• ネットワークはpix2pix など
の流儀に従い U-Net ベース
のものが多い
• 前処理で人物画像から「ポーズ」「パーツ」「処理対象領域」を求める


• 「レイアウト推定」「服画像のワーピング」「画像生成」の3つのモジュールから成る
Virtual try-on のベースライン
Virtual try-on の概要
8
人物画像
服の画像
前処理
ポーズ
パーツ
処理対象領域
ポーズ
推定
パーツ
推定
服・腕を
マスク
レイアウト推定


目標の服を着せた時の


レイアウトを推定
服の画像
パーツ
ポーズ
目標


レイアウト
袖の部分を服に
合わせて伸ばす
Generate
服画像のワーピング


目標レイアウトに合うように


服の画像を変形
param
Thin-Plate


Spline 変換
目標


レイアウト
処理対象領域
服の画像
目標服画像
Regress
画像生成


最終出力であるバーチャル試着


画像を生成する
目標


レイアウト 処理対象領域 目標服画像
Generate
バーチャル


試着画像
入力
出力
• Thin-Plate Spline はスプライ
ン曲線を2次元平面に拡張した
もの
• ネットワークからパラメータを
求め、そのパラメータを用いて
服の画像をワーピングする
• 前処理で人物画像から「ポーズ」「パーツ」「処理対象領域」を求める


• 「レイアウト推定」「服画像のワーピング」「画像生成」の3つのモジュールから成る
Virtual try-on のベースライン
Virtual try-on の概要
9
人物画像
服の画像
前処理
ポーズ
パーツ
処理対象領域
ポーズ
推定
パーツ
推定
服・腕を
マスク
レイアウト推定


目標の服を着せた時の


レイアウトを推定
服の画像
パーツ
ポーズ
目標


レイアウト
袖の部分を服に
合わせて伸ばす
Generate
服画像のワーピング


目標レイアウトに合うように


服の画像を変形
param
Thin-Plate


Spline 変換
目標


レイアウト
処理対象領域
服の画像
目標服画像
Regress
画像生成


最終出力であるバーチャル試着


画像を生成する
目標


レイアウト 処理対象領域 目標服画像
Generate
バーチャル


試着画像
入力
出力
• ここまでで求めた中間生成物
を入力としてバーチャル試着
画像を生成する
• ここも U-Net ベースのネッ
トワーク
• 学習は全てのネットワークを
一括で学習する
• 前処理で人物画像から「ポーズ」「パーツ」「処理対象領域」を求める


• 「レイアウト推定」「服画像のワーピング」「画像生成」の3つのモジュールから成る
CVPR2021
今日の紹介論文
Virtual try-on の歴史
Virtual try-on の概要
10
2018 2019 2020 2021
• VITON


(CVPR2018)
• CP-VTON


(ECCV2018)
• VTNFP


(ICCV2019)
• ACGPN


(CVPR2020)
• ClothFlow


(ICCV2019)
Thin-Plate Spline を
学習可能に
レイアウト推定に
セグメンテーションを
利用
服のワーピングがTPS
ではなくflow*ベースに


*服画像の各画素がどこに


ワープするかを直接求める
レイアウト推定を
改良
• VITON-HD


高解像度化
• DCTON


Cycle-GANの適用
• PF-AFN


teacher-student式の学習
• CT-Net


別の人の着ている服一式
を試着
• OV-Net


服の組み合わせをまとめ
て試着
Virtual try-on の
元祖
11
• Virtual try-on の概要


• 各論文の紹介


• 各手法の比較


• 考察・実際にやってみた


• まとめ
• 既存手法の高解像度化 (256x192
➡︎
1024x768)


• ALIAS Generator


• 「画像生成モジュール」に対する改良


• 低解像度からスタートし、Upsample と Conv を


繰り返して画像を生成する


• TPSによる服の画像のワーピングでカバーしきれない


箇所 (misalignment)を陽に求め、モジュールに入力


することで位置ズレによる画質低下を低減


• 高解像度で既存手法が失敗するケースでも良い
生成結果が出せている
VITON-HD: High-Resolution Virtual Try-On via Misalignment-Aware
Normalization
各論文の紹介 1/5
12
• 既存手法は学習データが得づらい問題を抱えていた


• 同じ人物・同じポーズで服だけ違う写真を撮るのは難しい


• 今までの手法は、人物画像から服や腕の部分をマスクするこ
とで服の部分を消した画像を入力とし、元の画像を生成する
ようにすることで、学習していた


• Cycle Consistency (Cycle GAN) を導入すること
で既存手法の学習データの問題を改善
Disentangled Cycle Consistency for Highly-realistic Virtual Try-On
(DCTON)
各論文の紹介 2/5
13
• Virtual try-on の結果はレイアウト推定の結
果に大きく左右される


• レイアウト推定を行わない(parser-free)こ
とでレイアウト推定で失敗するような服でも
画像生成可能に


• レイアウト推定を含んだ 教師ネットワーク
と、その結果を用いてレイアウト推定を含ま
ない生徒ネットワークを学習する


• Teacher-student の枠組みではあるが、教師ネット


ワークの出力を生徒ネットワークが用いる teacher-
tutor-student という枠組み


• Cycle GAN に近い印象


• レイアウトが難しい服でも合成ができている
Parser-Free Virtual Try-on via Distilling Appearance Flows


(PF-AFN)
各論文の紹介 3/5
14
• Virtual try-on ではなく、ある写真に写っている人物が
着ている服を一式別の人物に着せ替えるタスク
(Garment Transfer) に関する研究


• より難しい課題への取り組み


• ただしフレームワークは virtual try-on とほぼ共通


• 服画像のワーピングにThin-Plate Spline ベースとFlow
ベースの両方を相補的に用いている


• 大きなポーズの違いや性別の違いに対しても対応できて
いる
CT-Net: Complementary Transferring Network for Garment Transfer
with Arbitrary Geometric Changes
各論文の紹介 4/5
15
Target person Model image Synthesis result
• 「複数の服を組み合わせて着せた場合の人物画像


生成」というより難しいタスク (Outfit try-on) を


ターゲットに置いた研究


• ただしフレームワークは virtual try-on とほぼ共通


• 人物は入力ではなく、服の組み合わせとポーズ


から生成する


• そのため、人物の顔部分は生成しない


• ポーズ推定結果は、人物の着ている服によって変わ
ってくる。そのため、画像合成においては適した


モデルの画像を選んでくる


• 服が重なっている箇所なども自然に合成できている
Toward Accurate and Realistic Outfits Visualization with Attention to
Details (OVNet)
各論文の紹介 5/5
16
Fig5. ブラウスを着ている人よりコートを着ている人の方が


両肘の間隔が広くなっている
• 服の画像をいかにワーピングするかに取り組むものが多い (VITON-HD, PF-AFN, CT-Net)


• 新しい学習の枠組み (DCTON, PF-AFN)や、より難しい問題への取り組み(CT-Net,MONet)も
各論文の紹介 / それぞれの手法のcontributionと方向性
17
呼称 タイトル 著者 所属 Contribution
VITON-HD
VITON-HD: High-Resolution Virtual Try-
On via Misalignment-Aware
Normalization
Seunghwan Choi, Sunghyun Park


Minsoo Lee, Jaegul Choo
• KAIST
• ベースラインの進歩による高解像度化


• 服画像のワーピングの位置ズレを陽に


補正するモジュールをネットワーク内に
組み込む
DCTON
Disentangled Cycle Consistency for
Highly-realistic Virtual Try-On
Chongjian Ge, Yibing Song


Yuying Ge, Han Yang


Wei Liu, Ping Luo
• The University of Hong Kong


• Tencent AI Lab


• ETH Zürich


• Tencent Data Platform
• Cycle GAN による新しい学習の枠組み
PF-AFN
Parser-Free Virtual Try-on via Distilling
Appearance Flows
Yuying Ge, Yibing Song


Ruimao Zhang, Chongjian Ge


Wei Liu, Ping Luo
• The University of Hong Kong


• Tencent AI Lab


• The Chinese University of Hong Kong (Shenzhen)


• Shenzhen Research Institute of Big Data


• Tencent Data Platform
• レイアウト推定モジュールを不要に


• teacher-tutor-student 式の学習
CT-Net
CT-Net: Complementary Transfering
Network for Garment Transfer with
Arbitrary Geometric Changes
Fan Yang, Guosheng Lin • Nanyang Technological University
• 人物間の服一式を着せ替える新しい


問題への取り組み


• TPSベース & Flowベースのワーピング
MONet
Toward Accurate and Realistic Outfits
Visualization with Attention to Details
Kedan Li, Min Jin Chong


Jeffrey Zhang, Jingen Liu
• University of Illinois, Urbana Champaign


• Revery AI Inc.


• JD AI Research.
• 服の組み合わせを選択してそれを着た
場合の画像を合成する
18
• Virtual try-on の概要


• 各論文の紹介


• 各手法の比較


• 考察・実際にやってみた


• まとめ
PF-AFN が現在のState-of-the-art
各手法の比較 / どの手法が優れているの?
19
• 各手法の定量評価結果を比較


• 手法によって評価指標とベースライン(ACGPN, CP-VTON)のスコアが異なるため、改善幅で比較
各手法 ACGPN CP-VTON
スコア


(a)
スコア


(b)
改善幅


(a) - (b)
スコア


(c)
改善幅


(a) - (c)
VITON-HD 0.844 0.842 0.002 0.739 0.105
DCTON 0.83 0.81 0.02 0.72 0.09
PF-AFN
CT-Net
MONet 0.852 0.845 0.007 0.745 0.107
SSIM(Structural SIMilarity) ↑


画像の局所領域の分布で比較
各手法 ACGPN CP-VTON
スコア


(a)
スコア


(b)
改善幅


(a) - (b)
スコア


(c)
改善幅


(a) - (c)
VITON-HD


DCTON 2.85 2.69 0.16 2.59 0.26
PF-AFN
CT-Net 3.511 3.366 0.145
MONet 2.846 2.829 0.017 2.757 0.089
IS (Inception Score) ↑


特徴抽出器 Inception の分類結果でスコアリング
各手法 ACGPN CP-VTON
スコア


(a)
スコア


(b)
改善幅


(a) - (b)
スコア


(c)
改善幅


(a) - (c)
VITON-HD 27.83 26.45 -1.38 56.23 -28.4
DCTON 14.82 16.64 -1.82 24.45 -9.63
PF-AFN 10.09 15.67 -5.58 24.43 -14.34
CT-Net
MONet
FID (Fréchet Inception Distance) ↓


Inceptionの特徴ベクトルを生成画像と実画像で比較
DCTON > MONet > VITON-HD DCTON > CT-Net > MONet PF-AFN > DCTON > VITON-HD
➡︎
PF-AFN > DCTON > CT-Net > MONet > VITON-HD
フォロー
•VITON-HD は本来ターゲットに
している高解像度画像では高性能
•CT-NetやMONetはより難しい


課題に取り組んでいる
20
• Virtual try-on の概要


• 各論文の紹介


• 各手法の比較


• 考察・実際にやってみた


• まとめ
• PF-AFNがコードと学習済みモデルを公開していたのでやってみた


• https://github.com/geyuying/PF-AFN/


• 実行にあたって大きなハマりポイントはなく、簡単に実行可能
予想以上に違和感のない試着画像を生成できる
考察・実際にやってみた / PF-AFN の実行結果
21
人物画像では隠れて
いる腕の部分も補完
できている
服の画像
人物画像 合成結果 服の画像
人物画像 合成結果
• 着用方法が難しいパターンの服も学習データに含めれば解決?


• 右のような「新しい」かつ「難しい」ケースはどのように対処する?
着方の難しい服では、不自然な合成結果になる
考察・実際にやってみた / 現在の課題 ②
22
服の画像
人物画像 合成結果
正しい着用方法
• 本来は右の画像のように


ウエストインして着る服


• 合成結果のように裾を


出して着ることはできない 「パリコレ 難解」の画像検索結果より
• サイズ感の合っていない人物と服の組み合わせでも自然な合成結果を生成


してしまうが、それでいいの?


• 自然な合成結果ではなく、サイズ感含めた現実的な合成結果が必要なのでは?


• 実際にお店で試着する際は「サイズが合っているか」を確認することも重要なポイント
自然な合成結果 ≠ 現実的な合成結果
考察・実際にやってみた / 現在の課題 ②
23
24
• Virtual try-on の概要


• 各論文の紹介


• 各手法の比較


• 考察・実際にやってみた


• まとめ
• Virtual try-on のベースライン手法と歴史を紹介


• VITON (CVPR2018) を起点に発展してきた


• 前処理をしたものを入力とし、ネットワーク本体はレイアウト推定、


服画像のワーピング、画像生成のモジュールから構成されている


• CVPR2021で発表された論文を5つ紹介


• 紹介した論文; VITON-HD, DCTON, PF-AFN, CT-Net, MONet


• 服の画像のワーピングをいかに正確に行うかが肝要


• 新しい学習の枠組みや、より難しい課題に取り組んだ論文も


• 比較できる範囲では、PF-AFN が現在のSOTA


• 実際に virtual try-on を実行してみて、現在の課題を考察


• 着用方法の難しい服の場合の画像生成は難しい


• サイズ感の合わない組み合わせでも自然な画像を生成するが、それゆえに


現実的なサイズ感を反映させた生成結果となっていない
まとめ
まとめ
25

Mais conteúdo relacionado

Mais procurados

Mais procurados (20)

AI勉強会用スライド
AI勉強会用スライドAI勉強会用スライド
AI勉強会用スライド
 
Cvpr 2021 manydepth
Cvpr 2021 manydepthCvpr 2021 manydepth
Cvpr 2021 manydepth
 
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
 
semantic segmentation サーベイ
semantic segmentation サーベイsemantic segmentation サーベイ
semantic segmentation サーベイ
 
Skip Connection まとめ(Neural Network)
Skip Connection まとめ(Neural Network)Skip Connection まとめ(Neural Network)
Skip Connection まとめ(Neural Network)
 
[DL輪読会] MoCoGAN: Decomposing Motion and Content for Video Generation
[DL輪読会] MoCoGAN: Decomposing Motion and Content for Video Generation[DL輪読会] MoCoGAN: Decomposing Motion and Content for Video Generation
[DL輪読会] MoCoGAN: Decomposing Motion and Content for Video Generation
 
【論文読み会】Alias-Free Generative Adversarial Networks(StyleGAN3)
【論文読み会】Alias-Free Generative Adversarial Networks(StyleGAN3)【論文読み会】Alias-Free Generative Adversarial Networks(StyleGAN3)
【論文読み会】Alias-Free Generative Adversarial Networks(StyleGAN3)
 
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
 
敵対的生成ネットワーク(GAN)
敵対的生成ネットワーク(GAN)敵対的生成ネットワーク(GAN)
敵対的生成ネットワーク(GAN)
 
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
 
ピンホールカメラモデル
ピンホールカメラモデルピンホールカメラモデル
ピンホールカメラモデル
 
【DL輪読会】DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Dri...
【DL輪読会】DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Dri...【DL輪読会】DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Dri...
【DL輪読会】DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Dri...
 
画像処理AIを用いた異常検知
画像処理AIを用いた異常検知画像処理AIを用いた異常検知
画像処理AIを用いた異常検知
 
SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~
SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~
SSII2019TS: 実践カメラキャリブレーション ~カメラを用いた実世界計測の基礎と応用~
 
Superpixel Sampling Networks
Superpixel Sampling NetworksSuperpixel Sampling Networks
Superpixel Sampling Networks
 
[DL輪読会]GQNと関連研究,世界モデルとの関係について
[DL輪読会]GQNと関連研究,世界モデルとの関係について[DL輪読会]GQNと関連研究,世界モデルとの関係について
[DL輪読会]GQNと関連研究,世界モデルとの関係について
 
[DL輪読会]A Higher-Dimensional Representation for Topologically Varying Neural R...
[DL輪読会]A Higher-Dimensional Representation for Topologically Varying Neural R...[DL輪読会]A Higher-Dimensional Representation for Topologically Varying Neural R...
[DL輪読会]A Higher-Dimensional Representation for Topologically Varying Neural R...
 
12. Diffusion Model の数学的基礎.pdf
12. Diffusion Model の数学的基礎.pdf12. Diffusion Model の数学的基礎.pdf
12. Diffusion Model の数学的基礎.pdf
 
[DL輪読会]Model soups: averaging weights of multiple fine-tuned models improves ...
[DL輪読会]Model soups: averaging weights of multiple fine-tuned models improves ...[DL輪読会]Model soups: averaging weights of multiple fine-tuned models improves ...
[DL輪読会]Model soups: averaging weights of multiple fine-tuned models improves ...
 
【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models
 

Semelhante a Cvpr2021で発表されたvirtual try on まとめ

2012 kanemotolablecture1
2012 kanemotolablecture12012 kanemotolablecture1
2012 kanemotolablecture1
ytanno
 
大規模画像認識とその周辺
大規模画像認識とその周辺大規模画像認識とその周辺
大規模画像認識とその周辺
n_hidekey
 

Semelhante a Cvpr2021で発表されたvirtual try on まとめ (20)

【CVPR 2020 メタサーベイ】Vision Applications and Systems
【CVPR 2020 メタサーベイ】Vision Applications and Systems【CVPR 2020 メタサーベイ】Vision Applications and Systems
【CVPR 2020 メタサーベイ】Vision Applications and Systems
 
ECCV2020 Oral論文 完全読破(1/2)
ECCV2020 Oral論文 完全読破(1/2)ECCV2020 Oral論文 完全読破(1/2)
ECCV2020 Oral論文 完全読破(1/2)
 
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
 
[CVPR2020読み会@CV勉強会] 3D Packing for Self-Supervised Monocular Depth Estimation
[CVPR2020読み会@CV勉強会] 3D Packing for Self-Supervised Monocular Depth Estimation[CVPR2020読み会@CV勉強会] 3D Packing for Self-Supervised Monocular Depth Estimation
[CVPR2020読み会@CV勉強会] 3D Packing for Self-Supervised Monocular Depth Estimation
 
コンピュータビジョンの今を映す-CVPR 2017 速報より- (夏のトップカンファレンス論文読み会)
コンピュータビジョンの今を映す-CVPR 2017 速報より- (夏のトップカンファレンス論文読み会)コンピュータビジョンの今を映す-CVPR 2017 速報より- (夏のトップカンファレンス論文読み会)
コンピュータビジョンの今を映す-CVPR 2017 速報より- (夏のトップカンファレンス論文読み会)
 
cvpaper.challenge -CVの動向とこれからの問題を作るために- (東京大学講演)
cvpaper.challenge -CVの動向とこれからの問題を作るために- (東京大学講演)cvpaper.challenge -CVの動向とこれからの問題を作るために- (東京大学講演)
cvpaper.challenge -CVの動向とこれからの問題を作るために- (東京大学講演)
 
正しいものをともに考え、正しくともにつくる
正しいものをともに考え、正しくともにつくる正しいものをともに考え、正しくともにつくる
正しいものをともに考え、正しくともにつくる
 
CVPR2016 reading - 特徴量学習とクロスモーダル転移について
CVPR2016 reading - 特徴量学習とクロスモーダル転移についてCVPR2016 reading - 特徴量学習とクロスモーダル転移について
CVPR2016 reading - 特徴量学習とクロスモーダル転移について
 
論文紹介:Tracking Anything with Decoupled Video Segmentation
論文紹介:Tracking Anything with Decoupled Video Segmentation論文紹介:Tracking Anything with Decoupled Video Segmentation
論文紹介:Tracking Anything with Decoupled Video Segmentation
 
動画認識サーベイv1(メタサーベイ )
動画認識サーベイv1(メタサーベイ )動画認識サーベイv1(メタサーベイ )
動画認識サーベイv1(メタサーベイ )
 
論文紹介: Value Prediction Network
論文紹介: Value Prediction Network論文紹介: Value Prediction Network
論文紹介: Value Prediction Network
 
San Diego Japan Bio Forum: ライフサイエンス向けデータ可視化技術の現状
San Diego Japan Bio Forum: ライフサイエンス向けデータ可視化技術の現状San Diego Japan Bio Forum: ライフサイエンス向けデータ可視化技術の現状
San Diego Japan Bio Forum: ライフサイエンス向けデータ可視化技術の現状
 
CNNの構造最適化手法について
CNNの構造最適化手法についてCNNの構造最適化手法について
CNNの構造最適化手法について
 
20170823【GWゼミ #2】コンピュータビジョンの基礎
20170823【GWゼミ #2】コンピュータビジョンの基礎20170823【GWゼミ #2】コンピュータビジョンの基礎
20170823【GWゼミ #2】コンピュータビジョンの基礎
 
Media Kinect2014 day7
Media Kinect2014 day7Media Kinect2014 day7
Media Kinect2014 day7
 
2012 kanemotolablecture1
2012 kanemotolablecture12012 kanemotolablecture1
2012 kanemotolablecture1
 
静的解析とUIの自動生成を駆使してモバイルアプリの運用コストを大幅に下げた話
静的解析とUIの自動生成を駆使してモバイルアプリの運用コストを大幅に下げた話静的解析とUIの自動生成を駆使してモバイルアプリの運用コストを大幅に下げた話
静的解析とUIの自動生成を駆使してモバイルアプリの運用コストを大幅に下げた話
 
先端技術とメディア表現 第1回レポートまとめ
先端技術とメディア表現 第1回レポートまとめ先端技術とメディア表現 第1回レポートまとめ
先端技術とメディア表現 第1回レポートまとめ
 
分散表現を用いたリアルタイム学習型セッションベース推薦システム
分散表現を用いたリアルタイム学習型セッションベース推薦システム分散表現を用いたリアルタイム学習型セッションベース推薦システム
分散表現を用いたリアルタイム学習型セッションベース推薦システム
 
大規模画像認識とその周辺
大規模画像認識とその周辺大規模画像認識とその周辺
大規模画像認識とその周辺
 

Mais de yuichi takeda (7)

フーリエ変換と画像圧縮の仕組み
フーリエ変換と画像圧縮の仕組みフーリエ変換と画像圧縮の仕組み
フーリエ変換と画像圧縮の仕組み
 
iOS Traning #0
iOS Traning #0iOS Traning #0
iOS Traning #0
 
Jenkins on-mac
Jenkins on-macJenkins on-mac
Jenkins on-mac
 
Depth From Sequence
Depth From SequenceDepth From Sequence
Depth From Sequence
 
App dojo-2014-03-27
App dojo-2014-03-27App dojo-2014-03-27
App dojo-2014-03-27
 
130624 auto layout
130624 auto layout130624 auto layout
130624 auto layout
 
拡大縮小から始める画像処理
拡大縮小から始める画像処理拡大縮小から始める画像処理
拡大縮小から始める画像処理
 

Último

Último (11)

知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
 
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
 
Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsUtilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native Integrations
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
 

Cvpr2021で発表されたvirtual try on まとめ

  • 2. Virtual try-on (仮想試着/バーチャル試着)とは何か? はじめに 2 人物画像 服の画像 合成結果 失敗例 腕が不自然 • 「人物画像」と「 服の画像」を入力とし、「人物画像に写っている人物が服 の画像の服を着ているような画像」を生成すること • より違和感のない、自然な合成結果を生成することが目標 • Conditional GAN の一種 • ネットショッピングなどへの応用が期待される
  • 3. CVPR2021で発表されたvirtual try-on の論文全部*読む はじめに / 今日紹介する論文 3 呼称 タイトル 著者 所属 VITON-HD VITON-HD: High-Resolution Virtual Try-On via Misalignment-Aware Normalization Seunghwan Choi, Sunghyun Park 
 Minsoo Lee, Jaegul Choo • KAIST DCTON Disentangled Cycle Consistency for Highly- realistic Virtual Try-On Chongjian Ge, Yibing Song 
 Yuying Ge, Han Yang 
 Wei Liu, Ping Luo • The University of Hong Kong • Tencent AI Lab • ETH Zürich • Tencent Data Platform PF-AFN Parser-Free Virtual Try-on via Distilling Appearance Flows Yuying Ge, Yibing Song 
 Ruimao Zhang, Chongjian Ge 
 Wei Liu, Ping Luo • The University of Hong Kong • Tencent AI Lab • The Chinese University of Hong Kong (Shenzhen) • Shenzhen Research Institute of Big Data • Tencent Data Platform CT-Net CT-Net: Complementary Transfering Network for Garment Transfer with Arbitrary Geometric Changes Fan Yang, Guosheng Lin • Nanyang Technological University MONet Toward Accurate and Realistic Outfits Visualization with Attention to Details Kedan Li, Min Jin Chong 
 Jeffrey Zhang, Jingen Liu • University of Illinois, Urbana Champaign • Revery AI Inc. • JD AI Research. * 「人物の着ている服を別の服に着せ替える」という手法に関するもののみを選別
  • 4. 4 • Virtual try-on の概要 • 各論文の紹介 • 各手法の比較 • 考察・実際にやってみた • まとめ
  • 5. Virtual try-on のベースライン Virtual try-on の概要 5 人物画像 服の画像 • 前処理で人物画像から「ポーズ」「パーツ」「処理対象領域」を求める • 「レイアウト推定」「服画像のワーピング」「画像生成」の3つのモジュールから成る 前処理 ポーズ パーツ 処理対象領域 ポーズ 推定 パーツ 推定 服・腕を マスク レイアウト推定 目標の服を着せた時の 
 レイアウトを推定 服の画像 パーツ ポーズ 目標 
 レイアウト 袖の部分を服に 合わせて伸ばす Generate 服画像のワーピング 目標レイアウトに合うように 
 服の画像を変形 param Thin-Plate 
 Spline 変換 目標 
 レイアウト 処理対象領域 服の画像 目標服画像 Regress 画像生成 最終出力であるバーチャル試着 
 画像を生成する 目標 
 レイアウト 処理対象領域 目標服画像 Generate バーチャル 
 試着画像 入力 出力 ※ ACGPNと各手法の共通部分を参考にしました
  • 6. Virtual try-on のベースライン Virtual try-on の概要 6 人物画像 服の画像 前処理 ポーズ パーツ 処理対象領域 ポーズ 推定 パーツ 推定 服・腕を マスク レイアウト推定 目標の服を着せた時の 
 レイアウトを推定 服の画像 パーツ ポーズ 目標 
 レイアウト 袖の部分を服に 合わせて伸ばす Generate 服画像のワーピング 目標レイアウトに合うように 
 服の画像を変形 param Thin-Plate 
 Spline 変換 目標 
 レイアウト 処理対象領域 服の画像 目標服画像 Regress 画像生成 最終出力であるバーチャル試着 
 画像を生成する 目標 
 レイアウト 処理対象領域 目標服画像 Generate バーチャル 
 試着画像 入力 出力 • ポーズ推定はOpenPose、パーツ推定はLook into person などの o ff -the-shelf なものを利用 • グレーマスクされている箇所が処理対象領域。 
 マスクされていない箇所は保持する • ネットワークは前処理結果を入力とする。前処理 部分は学習しない • 前処理で人物画像から「ポーズ」「パーツ」「処理対象領域」を求める • 「レイアウト推定」「服画像のワーピング」「画像生成」の3つのモジュールから成る
  • 7. Virtual try-on のベースライン Virtual try-on の概要 7 人物画像 服の画像 前処理 ポーズ パーツ 処理対象領域 ポーズ 推定 パーツ 推定 服・腕を マスク レイアウト推定 目標の服を着せた時の 
 レイアウトを推定 服の画像 パーツ ポーズ 目標 
 レイアウト 袖の部分を服に 合わせて伸ばす Generate 服画像のワーピング 目標レイアウトに合うように 
 服の画像を変形 param Thin-Plate 
 Spline 変換 目標 
 レイアウト 処理対象領域 服の画像 目標服画像 Regress 画像生成 最終出力であるバーチャル試着 
 画像を生成する 目標 
 レイアウト 処理対象領域 目標服画像 Generate バーチャル 
 試着画像 入力 出力 • ネットワークはpix2pix など の流儀に従い U-Net ベース のものが多い • 前処理で人物画像から「ポーズ」「パーツ」「処理対象領域」を求める • 「レイアウト推定」「服画像のワーピング」「画像生成」の3つのモジュールから成る
  • 8. Virtual try-on のベースライン Virtual try-on の概要 8 人物画像 服の画像 前処理 ポーズ パーツ 処理対象領域 ポーズ 推定 パーツ 推定 服・腕を マスク レイアウト推定 目標の服を着せた時の 
 レイアウトを推定 服の画像 パーツ ポーズ 目標 
 レイアウト 袖の部分を服に 合わせて伸ばす Generate 服画像のワーピング 目標レイアウトに合うように 
 服の画像を変形 param Thin-Plate 
 Spline 変換 目標 
 レイアウト 処理対象領域 服の画像 目標服画像 Regress 画像生成 最終出力であるバーチャル試着 
 画像を生成する 目標 
 レイアウト 処理対象領域 目標服画像 Generate バーチャル 
 試着画像 入力 出力 • Thin-Plate Spline はスプライ ン曲線を2次元平面に拡張した もの • ネットワークからパラメータを 求め、そのパラメータを用いて 服の画像をワーピングする • 前処理で人物画像から「ポーズ」「パーツ」「処理対象領域」を求める • 「レイアウト推定」「服画像のワーピング」「画像生成」の3つのモジュールから成る
  • 9. Virtual try-on のベースライン Virtual try-on の概要 9 人物画像 服の画像 前処理 ポーズ パーツ 処理対象領域 ポーズ 推定 パーツ 推定 服・腕を マスク レイアウト推定 目標の服を着せた時の 
 レイアウトを推定 服の画像 パーツ ポーズ 目標 
 レイアウト 袖の部分を服に 合わせて伸ばす Generate 服画像のワーピング 目標レイアウトに合うように 
 服の画像を変形 param Thin-Plate 
 Spline 変換 目標 
 レイアウト 処理対象領域 服の画像 目標服画像 Regress 画像生成 最終出力であるバーチャル試着 
 画像を生成する 目標 
 レイアウト 処理対象領域 目標服画像 Generate バーチャル 
 試着画像 入力 出力 • ここまでで求めた中間生成物 を入力としてバーチャル試着 画像を生成する • ここも U-Net ベースのネッ トワーク • 学習は全てのネットワークを 一括で学習する • 前処理で人物画像から「ポーズ」「パーツ」「処理対象領域」を求める • 「レイアウト推定」「服画像のワーピング」「画像生成」の3つのモジュールから成る
  • 10. CVPR2021 今日の紹介論文 Virtual try-on の歴史 Virtual try-on の概要 10 2018 2019 2020 2021 • VITON 
 (CVPR2018) • CP-VTON 
 (ECCV2018) • VTNFP 
 (ICCV2019) • ACGPN 
 (CVPR2020) • ClothFlow 
 (ICCV2019) Thin-Plate Spline を 学習可能に レイアウト推定に セグメンテーションを 利用 服のワーピングがTPS ではなくflow*ベースに 
 *服画像の各画素がどこに 
 ワープするかを直接求める レイアウト推定を 改良 • VITON-HD 
 高解像度化 • DCTON 
 Cycle-GANの適用 • PF-AFN 
 teacher-student式の学習 • CT-Net 
 別の人の着ている服一式 を試着 • OV-Net 
 服の組み合わせをまとめ て試着 Virtual try-on の 元祖
  • 11. 11 • Virtual try-on の概要 • 各論文の紹介 • 各手法の比較 • 考察・実際にやってみた • まとめ
  • 12. • 既存手法の高解像度化 (256x192 ➡︎ 1024x768) • ALIAS Generator • 「画像生成モジュール」に対する改良 • 低解像度からスタートし、Upsample と Conv を 
 繰り返して画像を生成する • TPSによる服の画像のワーピングでカバーしきれない 
 箇所 (misalignment)を陽に求め、モジュールに入力 
 することで位置ズレによる画質低下を低減 • 高解像度で既存手法が失敗するケースでも良い 生成結果が出せている VITON-HD: High-Resolution Virtual Try-On via Misalignment-Aware Normalization 各論文の紹介 1/5 12
  • 13. • 既存手法は学習データが得づらい問題を抱えていた • 同じ人物・同じポーズで服だけ違う写真を撮るのは難しい • 今までの手法は、人物画像から服や腕の部分をマスクするこ とで服の部分を消した画像を入力とし、元の画像を生成する ようにすることで、学習していた • Cycle Consistency (Cycle GAN) を導入すること で既存手法の学習データの問題を改善 Disentangled Cycle Consistency for Highly-realistic Virtual Try-On (DCTON) 各論文の紹介 2/5 13
  • 14. • Virtual try-on の結果はレイアウト推定の結 果に大きく左右される • レイアウト推定を行わない(parser-free)こ とでレイアウト推定で失敗するような服でも 画像生成可能に • レイアウト推定を含んだ 教師ネットワーク と、その結果を用いてレイアウト推定を含ま ない生徒ネットワークを学習する • Teacher-student の枠組みではあるが、教師ネット 
 ワークの出力を生徒ネットワークが用いる teacher- tutor-student という枠組み • Cycle GAN に近い印象 • レイアウトが難しい服でも合成ができている Parser-Free Virtual Try-on via Distilling Appearance Flows 
 (PF-AFN) 各論文の紹介 3/5 14
  • 15. • Virtual try-on ではなく、ある写真に写っている人物が 着ている服を一式別の人物に着せ替えるタスク (Garment Transfer) に関する研究 • より難しい課題への取り組み • ただしフレームワークは virtual try-on とほぼ共通 • 服画像のワーピングにThin-Plate Spline ベースとFlow ベースの両方を相補的に用いている • 大きなポーズの違いや性別の違いに対しても対応できて いる CT-Net: Complementary Transferring Network for Garment Transfer with Arbitrary Geometric Changes 各論文の紹介 4/5 15 Target person Model image Synthesis result
  • 16. • 「複数の服を組み合わせて着せた場合の人物画像 
 生成」というより難しいタスク (Outfit try-on) を 
 ターゲットに置いた研究 • ただしフレームワークは virtual try-on とほぼ共通 • 人物は入力ではなく、服の組み合わせとポーズ 
 から生成する • そのため、人物の顔部分は生成しない • ポーズ推定結果は、人物の着ている服によって変わ ってくる。そのため、画像合成においては適した 
 モデルの画像を選んでくる • 服が重なっている箇所なども自然に合成できている Toward Accurate and Realistic Outfits Visualization with Attention to Details (OVNet) 各論文の紹介 5/5 16 Fig5. ブラウスを着ている人よりコートを着ている人の方が 
 両肘の間隔が広くなっている
  • 17. • 服の画像をいかにワーピングするかに取り組むものが多い (VITON-HD, PF-AFN, CT-Net) • 新しい学習の枠組み (DCTON, PF-AFN)や、より難しい問題への取り組み(CT-Net,MONet)も 各論文の紹介 / それぞれの手法のcontributionと方向性 17 呼称 タイトル 著者 所属 Contribution VITON-HD VITON-HD: High-Resolution Virtual Try- On via Misalignment-Aware Normalization Seunghwan Choi, Sunghyun Park 
 Minsoo Lee, Jaegul Choo • KAIST • ベースラインの進歩による高解像度化 • 服画像のワーピングの位置ズレを陽に 
 補正するモジュールをネットワーク内に 組み込む DCTON Disentangled Cycle Consistency for Highly-realistic Virtual Try-On Chongjian Ge, Yibing Song 
 Yuying Ge, Han Yang 
 Wei Liu, Ping Luo • The University of Hong Kong • Tencent AI Lab • ETH Zürich • Tencent Data Platform • Cycle GAN による新しい学習の枠組み PF-AFN Parser-Free Virtual Try-on via Distilling Appearance Flows Yuying Ge, Yibing Song 
 Ruimao Zhang, Chongjian Ge 
 Wei Liu, Ping Luo • The University of Hong Kong • Tencent AI Lab • The Chinese University of Hong Kong (Shenzhen) • Shenzhen Research Institute of Big Data • Tencent Data Platform • レイアウト推定モジュールを不要に • teacher-tutor-student 式の学習 CT-Net CT-Net: Complementary Transfering Network for Garment Transfer with Arbitrary Geometric Changes Fan Yang, Guosheng Lin • Nanyang Technological University • 人物間の服一式を着せ替える新しい 
 問題への取り組み • TPSベース & Flowベースのワーピング MONet Toward Accurate and Realistic Outfits Visualization with Attention to Details Kedan Li, Min Jin Chong 
 Jeffrey Zhang, Jingen Liu • University of Illinois, Urbana Champaign • Revery AI Inc. • JD AI Research. • 服の組み合わせを選択してそれを着た 場合の画像を合成する
  • 18. 18 • Virtual try-on の概要 • 各論文の紹介 • 各手法の比較 • 考察・実際にやってみた • まとめ
  • 19. PF-AFN が現在のState-of-the-art 各手法の比較 / どの手法が優れているの? 19 • 各手法の定量評価結果を比較 • 手法によって評価指標とベースライン(ACGPN, CP-VTON)のスコアが異なるため、改善幅で比較 各手法 ACGPN CP-VTON スコア (a) スコア 
 (b) 改善幅 
 (a) - (b) スコア 
 (c) 改善幅 
 (a) - (c) VITON-HD 0.844 0.842 0.002 0.739 0.105 DCTON 0.83 0.81 0.02 0.72 0.09 PF-AFN CT-Net MONet 0.852 0.845 0.007 0.745 0.107 SSIM(Structural SIMilarity) ↑ 画像の局所領域の分布で比較 各手法 ACGPN CP-VTON スコア (a) スコア 
 (b) 改善幅 
 (a) - (b) スコア 
 (c) 改善幅 
 (a) - (c) VITON-HD DCTON 2.85 2.69 0.16 2.59 0.26 PF-AFN CT-Net 3.511 3.366 0.145 MONet 2.846 2.829 0.017 2.757 0.089 IS (Inception Score) ↑ 特徴抽出器 Inception の分類結果でスコアリング 各手法 ACGPN CP-VTON スコア (a) スコア 
 (b) 改善幅 
 (a) - (b) スコア 
 (c) 改善幅 
 (a) - (c) VITON-HD 27.83 26.45 -1.38 56.23 -28.4 DCTON 14.82 16.64 -1.82 24.45 -9.63 PF-AFN 10.09 15.67 -5.58 24.43 -14.34 CT-Net MONet FID (Fréchet Inception Distance) ↓ Inceptionの特徴ベクトルを生成画像と実画像で比較 DCTON > MONet > VITON-HD DCTON > CT-Net > MONet PF-AFN > DCTON > VITON-HD ➡︎ PF-AFN > DCTON > CT-Net > MONet > VITON-HD フォロー •VITON-HD は本来ターゲットに している高解像度画像では高性能 •CT-NetやMONetはより難しい 
 課題に取り組んでいる
  • 20. 20 • Virtual try-on の概要 • 各論文の紹介 • 各手法の比較 • 考察・実際にやってみた • まとめ
  • 21. • PF-AFNがコードと学習済みモデルを公開していたのでやってみた • https://github.com/geyuying/PF-AFN/ • 実行にあたって大きなハマりポイントはなく、簡単に実行可能 予想以上に違和感のない試着画像を生成できる 考察・実際にやってみた / PF-AFN の実行結果 21 人物画像では隠れて いる腕の部分も補完 できている 服の画像 人物画像 合成結果 服の画像 人物画像 合成結果
  • 22. • 着用方法が難しいパターンの服も学習データに含めれば解決? • 右のような「新しい」かつ「難しい」ケースはどのように対処する? 着方の難しい服では、不自然な合成結果になる 考察・実際にやってみた / 現在の課題 ② 22 服の画像 人物画像 合成結果 正しい着用方法 • 本来は右の画像のように 
 ウエストインして着る服 • 合成結果のように裾を 
 出して着ることはできない 「パリコレ 難解」の画像検索結果より
  • 23. • サイズ感の合っていない人物と服の組み合わせでも自然な合成結果を生成 
 してしまうが、それでいいの? • 自然な合成結果ではなく、サイズ感含めた現実的な合成結果が必要なのでは? • 実際にお店で試着する際は「サイズが合っているか」を確認することも重要なポイント 自然な合成結果 ≠ 現実的な合成結果 考察・実際にやってみた / 現在の課題 ② 23
  • 24. 24 • Virtual try-on の概要 • 各論文の紹介 • 各手法の比較 • 考察・実際にやってみた • まとめ
  • 25. • Virtual try-on のベースライン手法と歴史を紹介 • VITON (CVPR2018) を起点に発展してきた • 前処理をしたものを入力とし、ネットワーク本体はレイアウト推定、 
 服画像のワーピング、画像生成のモジュールから構成されている • CVPR2021で発表された論文を5つ紹介 • 紹介した論文; VITON-HD, DCTON, PF-AFN, CT-Net, MONet • 服の画像のワーピングをいかに正確に行うかが肝要 • 新しい学習の枠組みや、より難しい課題に取り組んだ論文も • 比較できる範囲では、PF-AFN が現在のSOTA • 実際に virtual try-on を実行してみて、現在の課題を考察 • 着用方法の難しい服の場合の画像生成は難しい • サイズ感の合わない組み合わせでも自然な画像を生成するが、それゆえに 
 現実的なサイズ感を反映させた生成結果となっていない まとめ まとめ 25