[DL輪読会]Multi-Modal and Multi-Domain Embedding Learning for Fashion Retrieval and Analysis

1
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
Multi-Modal and Multi-Domain Embedding Learning
for Fashion Retrieval and Analysis
Ryosuke Goto, ZOZO Research

書誌情報
• 著者: Xiaoling Gu, Yongkang Wong, Lidan Shou, Pai Peng, Gang Chen, Mohan S. Kankanhalli
• IEEE Transactions on Multimedia
– 18 October 2018
• URL: https://ieeexplore.ieee.org/document/8496862
– Supplementary materialあり
2

研究の目的
• ファッションに関する画像とテキストのデータ分析を行いたい
• ファッションに関するMulti-Domainデータを同じ空間に埋込みたい
3

やったこと
4
• Multi-domainかつMulti-modalなデータセットの表現学習のための
アーキテクチャとしてQuintuplet ranking lossと
Cross-view similarity ranking lossの二段階の学習を提案
• 正準相関分析系の手法に比べ、提案手法が優れていることを示す
• 様々なパターンで検証することで、各ステップの精度への貢献を明らかにした
• ファッショントレンドに関するケーススタディを実施

データセット
5
Street Photos Product ImagesRunway Photos
・背景やポーズがバラバラ
・タグはユーザーが付与する
ためノイズが多い
・背景はステージ
・プロによる撮影
・シーズンやデザイナーのタグ
・背景は白抜き
・カテゴリのタグがほとんど

提案モデル (全体)
6
・Multi-Domainの学習と
Multi-Modalの学習の二段階に分ける

提案モデル (Step 1)
• Quintuplet-based ranking loss
– 同一ドメインでは通常のTriplet loss
– 異種ドメインはマージンをより大きくとる
7

提案モデル (Step 2)
• Cross-view similarity ranking loss
– 画像とテキストの関係を学習
– アンカーに画像とテキストのどちらを取るかにより重み付け
8

定量評価（Image-To-Image Retrieval）
9
• 評価指標:
– Mean Average Precision (MAP)
– Normalized Discounted Cumulative Gain (NDCG)
– F1-Measure
• 比較対象
– Canonical Correlation Analysis (CCA)
– Deep Canonical Correlation Analysis (DCCA)
– Deep Canonical Correlated Autoencoder (DCCAE)
– 上記３つを、step1後のモデルで得た特徴を使って計算したもの(Quin_)
– 上記３つを、pre-trained VGG16の特徴で計算したもの(VGG_)

定量評価（Image-To-Image Retrieval）
10

定量評価（Image-To-Text Retrieval）
11

定量評価（Text-To-Image Retrieval）
12

定性評価（Street Photos）
13

定性評価（Runway Photos）
14

定性評価（Product Images）
15

Ablation Study 1
16
・Image-To-Image検索におけるStep2の効果
全ての画像ドメインにおいて、MAPの向上が見られる
・Step1とStep2の影響力
Step2のみだと著しく性能が低下。Step1が重要
Step1はStep2の良い初期値を与えていると考えられる
・Step1とStep2のJoint学習は可能か？
Joint_Step1_Step2は提案手法に比べて性能が低い
二種類のsimilarityの学習でトレードオフが起きて悪影響

Ablation Study 2
17
・Step2のcross-view tripletの効果
Step1_Step2_Textの効果が大きい
Step2のテキストをアンカーにしたTriplet Lossが重要
・Step1をQuintupletで学習する必要があるのか？
Triplet_Step2やQuadruplet_Step2よりも性能が高い
・ドメイン毎にモデルを作るのではダメか？
Quintupletとほぼ同等。ただし、ドメイン毎のモデルは
検索対象が同一ドメインになるため問題がとても簡単

ケーススタディ
18
・ChanelのRunwayデータを今回のモデルで得た表現でクラスタリング
・パーツ毎のアイテムや色に応じて分類ができている

まとめ
• Multi-domainかつMulti-modalなデータセットの表現学習のための
アーキテクチャとしてQuintuplet ranking lossと
Cross-view similarity ranking lossの二段階の学習を提案
• 正準相関分析系の手法に比べ、提案手法が優れていることを示す
• 様々なパターンで検証することで、各ステップの精度への貢献を明らかにした
• ファッショントレンドに関するケーススタディを実施
19

[DL輪読会]Multi-Modal and Multi-Domain Embedding Learning for Fashion Retrieval and Analysis

Recomendados

Recomendados

Mais conteúdo relacionado

Mais procurados

Mais procurados (20)

Semelhante a [DL輪読会]Multi-Modal and Multi-Domain Embedding Learning for Fashion Retrieval and Analysis

Semelhante a [DL輪読会]Multi-Modal and Multi-Domain Embedding Learning for Fashion Retrieval and Analysis (20)

Mais de Deep Learning JP

Mais de Deep Learning JP (20)

Último

Último (11)

[DL輪読会]Multi-Modal and Multi-Domain Embedding Learning for Fashion Retrieval and Analysis