O slideshow foi denunciado.
Utilizamos seu perfil e dados de atividades no LinkedIn para personalizar e exibir anúncios mais relevantes. Altere suas preferências de anúncios quando desejar.

[DL輪読会]Multi-Modal and Multi-Domain Embedding Learning for Fashion Retrieval and Analysis

777 visualizações

Publicada em

2018/12/7
Deep Learning JP:
http://deeplearning.jp/seminar-2/

Publicada em: Tecnologia
  • Entre para ver os comentários

[DL輪読会]Multi-Modal and Multi-Domain Embedding Learning for Fashion Retrieval and Analysis

  1. 1. 1 DEEP LEARNING JP [DL Papers] http://deeplearning.jp/ Multi-Modal and Multi-Domain Embedding Learning for Fashion Retrieval and Analysis Ryosuke Goto, ZOZO Research
  2. 2. 書誌情報 • 著者: Xiaoling Gu, Yongkang Wong, Lidan Shou, Pai Peng, Gang Chen, Mohan S. Kankanhalli • IEEE Transactions on Multimedia – 18 October 2018 • URL: https://ieeexplore.ieee.org/document/8496862 – Supplementary materialあり 2
  3. 3. 研究の目的 • ファッションに関する画像とテキストのデータ分析を行いたい • ファッションに関するMulti-Domainデータを同じ空間に埋込みたい 3
  4. 4. やったこと 4 • Multi-domainかつMulti-modalなデータセットの表現学習のための アーキテクチャとしてQuintuplet ranking lossと Cross-view similarity ranking lossの二段階の学習を提案 • 正準相関分析系の手法に比べ、提案手法が優れていることを示す • 様々なパターンで検証することで、各ステップの精度への貢献を明らかにした • ファッショントレンドに関するケーススタディを実施
  5. 5. データセット 5 Street Photos Product ImagesRunway Photos ・背景やポーズがバラバラ ・タグはユーザーが付与する ためノイズが多い ・背景はステージ ・プロによる撮影 ・シーズンやデザイナーのタグ ・背景は白抜き ・カテゴリのタグがほとんど
  6. 6. 提案モデル (全体) 6 ・Multi-Domainの学習と Multi-Modalの学習の二段階に分ける
  7. 7. 提案モデル (Step 1) • Quintuplet-based ranking loss – 同一ドメインでは通常のTriplet loss – 異種ドメインはマージンをより大きくとる 7
  8. 8. 提案モデル (Step 2) • Cross-view similarity ranking loss – 画像とテキストの関係を学習 – アンカーに画像とテキストのどちらを取るかにより重み付け 8
  9. 9. 定量評価(Image-To-Image Retrieval) 9 • 評価指標: – Mean Average Precision (MAP) – Normalized Discounted Cumulative Gain (NDCG) – F1-Measure • 比較対象 – Canonical Correlation Analysis (CCA) – Deep Canonical Correlation Analysis (DCCA) – Deep Canonical Correlated Autoencoder (DCCAE) – 上記3つを、step1後のモデルで得た特徴を使って計算したもの(Quin_) – 上記3つを、pre-trained VGG16の特徴で計算したもの(VGG_)
  10. 10. 定量評価(Image-To-Image Retrieval) 10
  11. 11. 定量評価(Image-To-Text Retrieval) 11
  12. 12. 定量評価(Text-To-Image Retrieval) 12
  13. 13. 定性評価(Street Photos) 13
  14. 14. 定性評価(Runway Photos) 14
  15. 15. 定性評価(Product Images) 15
  16. 16. Ablation Study 1 16 ・Image-To-Image検索におけるStep2の効果 全ての画像ドメインにおいて、MAPの向上が見られる ・Step1とStep2の影響力 Step2のみだと著しく性能が低下。Step1が重要 Step1はStep2の良い初期値を与えていると考えられる ・Step1とStep2のJoint学習は可能か? Joint_Step1_Step2は提案手法に比べて性能が低い 二種類のsimilarityの学習でトレードオフが起きて悪影響
  17. 17. Ablation Study 2 17 ・Step2のcross-view tripletの効果 Step1_Step2_Textの効果が大きい Step2のテキストをアンカーにしたTriplet Lossが重要 ・Step1をQuintupletで学習する必要があるのか? Triplet_Step2やQuadruplet_Step2よりも性能が高い ・ドメイン毎にモデルを作るのではダメか? Quintupletとほぼ同等。ただし、ドメイン毎のモデルは 検索対象が同一ドメインになるため問題がとても簡単
  18. 18. ケーススタディ 18 ・ChanelのRunwayデータを今回のモデルで得た表現でクラスタリング ・パーツ毎のアイテムや色に応じて分類ができている
  19. 19. まとめ • Multi-domainかつMulti-modalなデータセットの表現学習のための アーキテクチャとしてQuintuplet ranking lossと Cross-view similarity ranking lossの二段階の学習を提案 • 正準相関分析系の手法に比べ、提案手法が優れていることを示す • 様々なパターンで検証することで、各ステップの精度への貢献を明らかにした • ファッショントレンドに関するケーススタディを実施 19
  20. 20. ケーススタディ 20
  21. 21. ケーススタディ 21

×