O slideshow foi denunciado.
Utilizamos seu perfil e dados de atividades no LinkedIn para personalizar e exibir anúncios mais relevantes. Altere suas preferências de anúncios quando desejar.

Leveraging Visual Question Answering for Image-Caption Ranking (関東CV勉強会 ECCV 2016 読み会)

1.586 visualizações

Publicada em

ビジュアル質問応答システム(VQA)で学習すると、画像キャプション生成も高精度化しますよという話

Publicada em: Engenharia
  • Seja o primeiro a comentar

  • Seja a primeira pessoa a gostar disto

Leveraging Visual Question Answering for Image-Caption Ranking (関東CV勉強会 ECCV 2016 読み会)

  1. 1. ECCV 2016読み会 Leveraging Visual Question Answering for Image-Caption Ranking 牛久 祥孝 losnuevetoros
  2. 2. お前は誰だ? ~2014.3 博士(情報理工学)、東京大学 • 画像説明文の自動生成 • 大規模画像分類 2014.4~2016.3 NTT コミュニケーション科学基礎研究所 2016.4~ 東京大学 大学院情報理工学系研究科 知能機械情報学専攻 講師 (原田・牛久研究室)
  3. 3. 転職して9か月 教員であることにも慣れました 牛 久 学 生 B 学 生 A 学生に慕われる教員の図
  4. 4. 転職して9か月 教員であることにも慣れました 牛 久 学 生 B 学 生 A 学生に慕われる教員の図 牛久さん今日の服装 チャラいっすねwww (※ユニクロです)
  5. 5. 学 生 B 転職して9か月 教員であることにも慣れました 牛 久 学 生 A 学生に弄ばれる教員の図 牛久さん今日の服装 チャラいっすねwww (※ユニクロです) なんか今日は先生の服、 メンナクっぽさがない ですね。 (※身に覚えがない)
  6. 6. 関東CV勉強会の幹事です 国際会議読み会はこの2年皆勤賞 • 2015年6月 CVPR読み会 • 2016年2月 ICCV読み会 • 2016年7月 CVPR読み会 • 2016年12月 ECCV読み会 ←いまここ
  7. 7. 関東CV勉強会の幹事です 国際会議読み会はこの2年皆勤賞 • 2015年6月 CVPR読み会 弱教師あり物体検出の研究 • 2016年2月 ICCV読み会 カフェラテいれる際に、スチームミルクを 作り忘れていたらアラートだす研究 • 2016年7月 CVPR読み会 飲んだくれの画像を生成する研究 • 2016年12月 ECCV読み会 ←いまここ
  8. 8. 危惧される批判: あいつ変な論文しか読めないんじゃね? • 論文に数式出てこないし • 専門分野もってなさそうだし • 服装チャラいらしいし
  9. 9. 本日の論文 • 自分の専門分野(視覚×言語の融合)から • しっかりした研究を
  10. 10. 本日の論文 • 自分の専門分野(視覚×言語の融合)から • しっかりした研究を Visual Question Answering を Image-Caption Ranking に活用する…?
  11. 11. 本日の流れ • Image-Caption Ranking とは • Visual Question Answering とは • 本研究の着想と手法 • 実験結果
  12. 12. 本日の流れ • Image-Caption Ranking とは • Visual Question Answering とは • 本研究の着想と手法 • 実験結果
  13. 13. Every Picture Tells a Story [Farhadi+, ECCV 2010] 世界初の画像入力→キャプション出力論文 1. 画像の<object, action, scene>をMRFで推定 2. <object, action, scene>が同じキャプションを 検索して、まるごと再利用 <Horse, Ride, Field>
  14. 14. Every Picture Tells a Story [Farhadi+, ECCV 2010]
  15. 15. 再利用?新規生成? • 再利用 • 新規生成 – テンプレート 主語+動詞の文を生成しよう – 非テンプレート A small gray dog on a leash. A black dog standing in grassy area. A small white dog wearing a flannel warmer. 入力 データセット
  16. 16. 再利用?新規生成? • 再利用 – A small gray dog on a leash. • 新規生成 – テンプレート 主語+動詞の文を生成しよう – 非テンプレート A small gray dog on a leash. A black dog standing in grassy area. A small white dog wearing a flannel warmer. 入力 データセット
  17. 17. 再利用?新規生成? • 再利用 – A small gray dog on a leash. • 新規生成 – テンプレート dog+stand ⇒ A dog stands. – 非テンプレート A small gray dog on a leash. A black dog standing in grassy area. A small white dog wearing a flannel warmer. 入力 データセット
  18. 18. 再利用?新規生成? • 再利用 – A small gray dog on a leash. • 新規生成 – テンプレート dog+stand ⇒ A dog stands. – 非テンプレート A small white dog standing on a leash. A small gray dog on a leash. A black dog standing in grassy area. A small white dog wearing a flannel warmer. 入力 データセット
  19. 19. cf. 非テンプレート型新規キャプション生成 画像の内容を表す少数の単語列(フレーズ)の推定 +単語列を文法モデルによって連結 [Ushiku+, ACM MM 2012] 最近の Neural Image Captioningとの比較 [Wu+, CVPR 2016][You+, CVPR 2016] 1. 単語/単語列を推定する部分 FV+SVM か CNN かの違い 2. 文法モデルを含めて連結する部分 対数線形モデルか RNN かの違い
  20. 20. Image-Caption Ranking 画像キャプション再利用アプローチの別名 全部で𝐾の画像 or キャプションが存在するとする • 画像クエリによるキャプション検索 – 画像𝐼にキャプション𝐶が再利用される確率を定義 𝑃𝑐𝑎𝑝 𝐶 𝐼 = exp(𝑆(𝐼, 𝐶)) 𝑖=1 𝐾 exp(𝑆(𝐼, 𝐶𝑖)) • 逆問題:キャプションによる画像検索 𝑃𝑖𝑚 𝐼 𝐶 = exp(𝑆(𝐼, 𝐶)) 𝑖=1 𝐾 exp(𝑆(𝐼𝑖, 𝐶)) ある画像とキャプションの関連の強さ
  21. 21. 今日紹介する論文では… Multimodal Neural Language Models [Kiros+, TACL 2015] を採用 𝑆𝑡 𝐼, 𝐶 = 𝑡𝐼, 𝑡 𝐶 𝑡𝐼 = 𝑊𝐼 𝑥𝐼 𝑊𝐼 𝑥𝐼 2 , 𝑡 𝐶 = 𝑥 𝐶 𝑥 𝐶 2 𝑥𝐼:画像特徴量 19層VGGNetの出力 4096次元 𝑥 𝐶:キャプション特徴量 隠れ層1024次元のGRUによるRNNの出力 1024次元 𝑊𝐼:学習する線形変換 画像特徴からキャプション特徴への変換に相当
  22. 22. 本日の流れ • Image-Caption Ranking とは • Visual Question Answering とは • 本研究の着想と手法 • 実験結果
  23. 23. Visual Question Answering (VQA) 画像に関する質問に答えるQAシステム • Visual Turing Challenge [MalinowskiL+Fritz, 2014] • VQA Challenge CVPR 2016 併設のコンペティション (弊研究室:Abstract Image 部門で世界1位) [Malinowski+, ICCV 2015]
  24. 24. よくある手口:VQA=多クラス分類問題 質問文𝑄 What objects are found on the bed? 応答𝐴 bed sheets, pillow 画像𝐼 画像特徴量 𝑥𝐼 質問特徴量 𝑥 𝑄 統合された 表現ベクトル 𝑧𝐼+𝑄 表現ベクトル𝑍𝐼+𝑄以降は通常のクラス識別
  25. 25. 今日紹介する論文では… VQA 原著論文のモデル [Antol+, ICCV 2015]を採用 VQA モデル 𝑧𝐼 = tanh(𝑊𝐼 𝑥𝐼 + 𝑏𝐼) , 𝑧 𝑄 = tanh(𝑊𝑄 𝑥 𝑄 + 𝑏 𝑄) 𝑧𝐼+𝑄 = 𝑧𝐼⨀𝑧 𝑄 (⨀は要素積) 𝑠 𝐴 = 𝑊𝑆 𝑧𝐼+𝑄 + 𝑏𝑆 𝑥𝐼:19層VGGNetの出力 4096次元 𝑥 𝑄:隠れ層512次元のLSTMによるRNN2層の出力 2048次元 𝑧∗:表現ベクトル 1024次元 𝑊∗, 𝑏∗ :学習する線形変換とバイアス
  26. 26. キャプション+質問に答えるVQA-Caption 言語データのみ用いる質問応答(QA)システム 質問文𝑄 What kind of food Is in the picture? 応答𝐴 pizza キャプション𝐶 A couple of pieces of pizza with vegetable slices on them. キャプション 特徴量𝑥 𝐶 質問特徴量 𝑥 𝑄 統合された 表現ベクトル 𝑧 𝐶+𝑄
  27. 27. 今日紹介する論文では… VQA 原著論文のモデル [Antol+, ICCV 2015]を採用 VQA-Caption モデル 𝑧 𝐶 = tanh(𝑊𝐶 𝑥 𝐶 + 𝑏 𝐶) , 𝑧 𝑄 = tanh(𝑊𝑄 𝑥 𝑄 + 𝑏 𝑄) 𝑧 𝐶+𝑄 = 𝑧 𝐶⨀𝑧 𝑄 (⨀は要素積) 𝑠 𝐴 = 𝑊𝑆 𝑧 𝐶+𝑄 + 𝑏𝑆 𝑥 𝐶:最頻1000単語によるbag-of-wordsモデル 1000次元 𝑥 𝑄:隠れ層512次元のLSTMによるRNN2層の出力 2048次元 𝑧∗:表現ベクトル 1024次元 𝑊∗, 𝑏∗ :学習する線形変換とバイアス
  28. 28. 本日の流れ • Image-Caption Ranking とは • Visual Question Answering とは • 本研究の着想と手法 • 実験結果
  29. 29. 着眼 多くのVQA事例を学習したシステム →画像キャプション生成も得意なのでは? What is the colour of the comforter? blue, white What is on the refrigerator? magnet, paper What objects are found on the bed? bed sheets, pillow
  30. 30. 本日の論文 • 自分の専門分野(視覚×言語の融合)から • しっかりした研究を Visual Question Answering を Image-Caption Ranking に活用する…?
  31. 31. 本日の論文の概要 • VQAを中間表現(後述)に用いることを提案 – VQAモデル→画像の中間表現 – VQA-Captionモデル→キャプションの中間表現 • Image-Caption Ranking で用いる特徴量に追加 →検索精度が向上した – 入力画像に対するキャプション検索 – 入力キャプションに対する画像検索
  32. 32. 関連研究:中間表現 • Semantic Mid-Level Visual Representations Attributes, Parts, Poselets, Objects, Actions, Contextual information • 中間表現を用いるメリット – 既存タスクの高精度化 – Zero-shot learning (↓は[Elhoseiny+, ICCV 2013])
  33. 33. 本論文が提案する中間表現 画像側のVQAアクティべーション𝑢𝐼 𝑖番目の成分𝑢𝐼 (𝑖) = log 𝑃𝐼(𝐴𝑖|𝑄𝑖, 𝐼) 𝑢𝐼 𝐼が なら𝑢𝐼 (3) の値は0に近い 𝐼が なら𝑢𝐼 (3) の値は負の値 𝑢𝐼 (3) = log 𝑃𝐼(Yes|Is it clean?, 𝐼)
  34. 34. 本論文が提案する中間表現 画像側のVQAアクティべーション𝑢𝐼 𝑖番目の成分𝑢𝐼 (𝑖) = log 𝑃𝐼(𝐴𝑖|𝑄𝑖, 𝐼) 𝑢𝐼 𝐼が なら𝑢𝐼 (9) の値は…? 𝐼が なら𝑢𝐼 (9) の値は負の値 𝑢𝐼 (9) = log 𝑃𝐼(Helmets|What are the men wearing on their heads?, 𝐼)
  35. 35. 本論文が提案する中間表現 画像側のVQAアクティべーション𝑢𝐼 𝑖番目の成分𝑢𝐼 (𝑖) = log 𝑃𝐼(𝐴𝑖|𝑄𝑖, 𝐼) 𝑢𝐼 𝐼が なら𝑢𝐼 (9) の値は0に近い (シーンとして、もしmenがいたら どうなるかということで決まる) 𝐼が なら𝑢𝐼 (9) の値は負の値 𝑢𝐼 (9) = log 𝑃𝐼(Helmets|What are the men wearing on their heads?, 𝐼)
  36. 36. 本論文が提案する中間表現 キャプション側のVQA-Captionアクティべーション𝑢 𝐶 𝑖番目の成分𝑢 𝐶 (𝑖) = log 𝑃𝐶(𝐴𝑖|𝑄𝑖, 𝐶) 𝑢 𝐶 𝐶が なら𝑢 𝐶 (5) の値は0に近い 𝐶が なら𝑢 𝐶 (5) の値は負の値 𝑢 𝐶 (5) = log 𝑃𝐶(Pizza|What kind of food is in the picture?, 𝐶) A couple of pieces of pizza with vegetable slices on them. Two boats on shore near an ocean.
  37. 37. 中間表現𝑢𝐼, 𝑢 𝐶を元の特徴と統合したい • 𝑣𝐼 = ReLU 𝑊𝑢 𝐼 𝑢𝐼 + 𝑏 𝑣 𝐼 , 𝑣 𝐶 = ReLU 𝑊𝑢 𝐶 𝑢 𝐶 + 𝑏 𝑣 𝐶 • 𝑡𝐼 = 𝑊 𝐼 𝑥 𝐼 𝑊 𝐼 𝑥 𝐼 2 , 𝑡 𝐶 = 𝑥 𝐶 𝑥 𝐶 2 (再掲)
  38. 38. 最後に統合:Score-level fusion 𝑆 𝐼, 𝐶 = 𝛼𝑆𝑡 𝐼, 𝐶 + 𝛽𝑆 𝑣 𝐼, 𝐶 • 𝑆 𝑣 𝐼, 𝐶 = 𝑣𝐼, 𝑣 𝐶 • 𝑆𝑡 𝐼, 𝐶 = 𝑡𝐼, 𝑡 𝐶 (再掲)
  39. 39. 少し先に統合:Representation-level fusion 𝑆 𝐼, 𝐶 = 𝑟𝐼, 𝑟𝐶 • 𝑟𝐼=ReLU(𝑊𝑡 𝐼 𝑡𝐼 + 𝑊𝑣 𝐼 𝑣𝐼 + 𝑏 𝑟 𝐼 ) • 𝑟𝐶=ReLU(𝑊𝑡 𝐶 𝑡 𝐶 + 𝑊𝑣 𝐶 𝑣 𝐶 + 𝑏 𝑟 𝐶 )
  40. 40. 本日の流れ • Image-Caption Ranking とは • Visual Question Answering とは • 本研究の着想と手法 • 実験結果
  41. 41. 実験設定 • MS COCOデータセット – 8万強のキャプション付き画像で学習 – 5000枚のテストデータ • VQAデータセット – 実はMS COCOの画像を利用したデータセット – VQA中間表現:1000枚の訓練用画像から3つずつ QA例をサンプリング→3000次元の表現ベクトル • 評価方法 – Image-Caption Ranking としての評価 – Recall@(1,5,10)
  42. 42. State-of-the-art の成績一覧 本論文がBaselineとして採用している Multimodal Neural Language Models [Kiros+, TACL 2015]
  43. 43. State-of-the-artとの比較 Score-level fusion 2パターン • VQA-grounded only: 中間表現のみ利用 • VQA-aware: Score-level fusionそのもの
  44. 44. State-of-the-artとの比較 Representation-level fusion 2パターン • VQA-agnostic: もとの特徴量のみ利用 • VQA-aware: Representation-level fusionそのもの
  45. 45. …あれ? 2つの手法の差は何? • どっちも「もとの特徴量のみ使用」のはず • でも下の方が精度が高い
  46. 46. 2つのVQA-agnostic • Multimodal Neural Language Models [Kiros+, TACL 2015] • Representation-level fusion VQA-agnostic さらに1回の線形変換と活性化関数を経ている →よりdeepになり、精度が向上している
  47. 47. 定性的な比較(画像検索) 提案手法がうまくいった例 提案手法で失敗するようになった例
  48. 48. 定性的な比較(画像検索) 提案手法がうまくいった例 提案手法で失敗するようになった例 論文による考察 「提案手法のVQA中間表現 によって、batと言われる とhelmetも写った画像を探 すようになった。」
  49. 49. どちらの中間表現も寄与しているの? • Deeper VQA-agnostic • xxx-only representation-level fusion – どちらかの中間表現のみを用いた場合 • Full representation-level fusion
  50. 50. VQAで学習したならCaptionの学習は不要? • 画像当たりのキャプションの数と精度 • キャプションが多いほうが精度が高い – VQAで学習しても多くのキャプションが必要 – VQAとキャプションで持つ情報が異なる
  51. 51. 中間表現はどれくらいの次元にすればいい?
  52. 52. まとめと所感 • VQAを中間表現(後述)に用いることを提案 • Image-Caption Ranking で用いる特徴量に追加 – 検索精度が向上した – ほかのタスクにも有用である可能性はある • 「我々の知る限り最高精度」by著者 – 画像検索は[Wang+, CVPR 2016]のほうが上 • 危惧は解消できたか – 専門分野もってなさそうだし – 論文に数式出てこないし

×