Expressing Visual Relationships via Language: 自然言語による画像編集を目指して

自然言語による画像編集を目指して 
Expressing Visual Relationships via Language

Agenda 
■ Summary 
■ Method 
○ Data 
○ Model 
■ Evaluation 
■ Impression 
■ References

Summary 
■ 既存のImage Captionは単一の画像を対象にしている。 
■ 実際のアプリケーションでは、2画像間(Source/Target)の関係記述も有用。 
○ 画像の編集などに使える(Aの画像に人を追加、など)。 
■ そこで・・・ 
○ 1. データセットを作成して公開した。 
○ 2. タスクを解くモデルを作成して、自動/人手評価を行なった。 
○ 3. Basicな手法にくらべ優良な評価が得られた。

Method: Data (1/2) 
データセットの内容 
■ 編集前後の画像ペアと、編集内容の記述から構成される。 
○ Source画像、Target画像、Captionの3組み。

Method: Data (2/2) 
Redditの投稿サンプル 
後ろに写っているバス
マットを消して欲しい 
Done 
データセット作成のプロセス 
1. 投稿の収集 
a. Redditの画像編集掲示板 
b. 画像編集コミュニティZhopped 
2. 編集内容を書き起こし by MTurk 
a. 元のテキストはノイズが多い 
b. 関係ない画像のフィルタも実施 
3. 編集内容のチェック by Expert 
a. MTurkは画像専門でないので 
b. Expert自身の書き起こしも実施

Method: Model (1/5) 
Basic含め、計4種類のモデルを作成

Basic Model 
1. Source画像、Target画像の特徴を結合
してFlatten 
a. 特徴抽出はResNet 
2. 画像特徴にAttentionを貼りながら
LSTMで生成。

Multi-Head Attention 
Flatに結合しては雑なので(画像間の特徴
参照が弱い)、SourceとTargetを分けて処理
する。 
1. SourceにAttentionを貼ってhiddenを計
算 
2. 1のhiddenでTargetにAttentionを貼って
計算 
Multi-Head(Source & Target)だが段階的
(Sequential)に計算を行なう。

Static Relational Attention 
画像特徴のレベルで関連を見ておく。 
1. Source/Targetの特徴で双方向に
Attentionを貼って特徴を計算。 
2. その上で、前述のMulti-Head
Attentionで処理

Dynamic Relational Attention 
1. hidden/Source/Target間のAttentionを
動的に計算する。 
 
3ベクトル間のAttention計算

Evaluation 
■ Static < Dynamic Attention 
■ ただ普通のmulti-headでもそこそこいく 
自動評価指標  人間評価 
Spot-the-DiffとNLVR2は、画像変化に関するアノ
テーションがされた似たようなデータセット。

Impression 
■ タスクが明確なデータセット。 
○ Adobeが絡んでいるというのもあるが、「何をしたいのか」が明確。 
○ 最近「常識を獲得させる〜」とか謎な感じなのが多いので新鮮だった。 
■ ベースラインを超えたモデルを提示。 
○ モデルをかなり作り込んでいる。 
○ ただ、本当にやりたい逆変換からはちょっと遠いかも(Image Featureを、Image
自体のFeatureとTransformによるFeatureとに分けないといけないのでは?)。 
○ 最近「シンプルなベースラインでは〜」とか多いので(以下略) 
目的がはっきりしている＋実現するためのモデルをガチに考えているという点でとても面
白かった。

Expressing Visual Relationships via Language: 自然言語による画像編集を目指して

Recomendados

Recomendados

Mais conteúdo relacionado

Mais de Takahiro Kubo

Mais de Takahiro Kubo (20)

Expressing Visual Relationships via Language: 自然言語による画像編集を目指して