Mais conteúdo relacionado
Mais de Takahiro Kubo (20)
Expressing Visual Relationships via Language: 自然言語による画像編集を目指して
- 8. Method: Model (3/5)
Multi-Head Attention
Flatに結合しては雑なので(画像間の特徴
参照が弱い)、SourceとTargetを分けて処理
する。
1. SourceにAttentionを貼ってhiddenを計
算
2. 1のhiddenでTargetにAttentionを貼って
計算
Multi-Head(Source & Target)だが段階的
(Sequential)に計算を行なう。
- 9. Method: Model (4/5)
Static Relational Attention
画像特徴のレベルで関連を見ておく。
1. Source/Targetの特徴で双方向に
Attentionを貼って特徴を計算。
2. その上で、前述のMulti-Head
Attentionで処理
- 11. Evaluation
■ Static < Dynamic Attention
■ ただ普通のmulti-headでもそこそこいく
自動評価指標
人間評価
Spot-the-DiffとNLVR2は、画像変化に関するアノ
テーションがされた似たようなデータセット。