Visual Question Answering (VQA) - CVPR2018動向分析 (CVPR 2018 完全読破チャレンジ報告会)

Visual Question Answering (VQA)-
CVPR2018動向分析
筑波⼤学⼤学院システム情報⼯学研究科
コンピュータサイエンス専攻ヒューマンセンタード研究室
指導教員：佐藤雄隆
Yue Qiu
1
http://hirokatsukataoka.net/project/cc/index_cvpaperchallenge.html
CVPR 2018 完全読破チャレンジ報告会 cvpaper.challenge勉強会
@Wantedly白金台オフィス

概要
2
- VQA
・問題定義
・データセット
・アーキテクチャー
・評価指標
- CVPR2018の動向分析
- CVPR2018のピックアップ論⽂紹介
- まとめ

Visual Question Answering (VQA)
3

VQA：問題定義
4
Answer: No
Output:Input:
Question: Does it appear to be rainy?
n VQA: 入力は画像と質問文，出力は質問文の回答
*画像と質問文参考先[1]

VQA：問題定義
5
Question: Does it appear to be
rainy?
n VQA: 入力は画像と質問文，出力は質問文の回答
n VQA task は“画像理解 (Computer Vision)” と “自然言語理
解(Natural Language Processing)”の cross-modal task.
①自然言語理
解
②画像理解
Supporting-facts:
<wet ground, related to, rainy>
<blue sky, related to, sunny>
…
③知識の表
示

VQA：Trend 分析
6
2015： VQA1.0 Dataset
2016：1st VQA Challenge
VQA 2.0 Dataset
CLEVR Dataset
2017：2nd VQA Challenge
2018：3rd VQA Challenge
EQA Dataset
Keyword: attention*2
Keyword: attention*4, reason*2
Keyword: attention*8, generation*6,
memory*5, knowledge*2
0 ー

VQA：データセット (1/5)
7
- VQA 1.0 [1]
Year データセットの⼤きさ質問種類バイアス性
画像枚数 QAペア数内容回答形式
VQA1.0 2015 MS COCO:
204, 721
CG: 50, 000
760K程度 Yes/No;
Number;
Others
QAのバイアス性が⾼
いところが良く指摘
されている．
例：“How many …”
“2” (39%)
“What sport…”
“Tennis” (41%)
Fine-grained recognition;
Object detection;
Knowledge base reasoning;
Commonsense reasoning.
例

8
- VQA 2.0 [2]
VQA2.0 2016 MS COCO:
204, 721
1.11M程度 Yes/No;
Number;
Others
VQA1.0のQAバイア
ス性がある程度改善
できたが，train ,
testの分布が近いと指
摘されている．
Fine-grained recognition;
Object detection;
Knowledge base reasoning;
Commonsense reasoning.
VQA1.0データセット
のバイアス性を軽減
例

9
- CLEVR [3]
CLEVR 2016 CG画像:
100, 000
1M程度 Yes/No;
Number;
Others
画像，QAペア⾃
動⽣成プログラム
で⾃動⽣成されて
いる．
Attribute identification;
Counting;
Comparison;
Spatial relationship;
Logical operations.
CG画像；データセット
自動生成プログラム．
例

10
- EQA 1.0 [4]
EQA1.0 2018 750CGシーン
（SUNCG Subset）
5, 000 Yes/No;
Others
QAペア⾃動⽣成
プログラムで⾃動
⽣成されている．
Scene recognition;
Spatial reasoning;
Color recognition.
例
シー
ン
質問種類
Vが画像から“シー
ン”に

11
- FVQA [5]
FVQA 2017 2, 190
(Sampled from MS
COCO & ImageNet)
5, 826
(knowledge extracted
from
Dbpedia,ConceptNet
& WebChild)
Others 相関報告が⾒つか
らず．バイアス性
を避けるよりはバ
イアス性を利⽤す
る傾向．
画像・質問⽂から得
られない外部情報が
必要となる質問.
視覚コンセプトの理解；コ
ンセプト間の関係；
Image-Question-Answer ->
Image-Question-Answer-
Supporting fact
例

VQA：アーキテクチャー
12
- Multi-modal architecture, attention Mechanism
CNN
CNN/
LSTM
“There is a yellow ball behind
the red metal cylinder; what is its
material?”
Attention
Function
Feature
fusion
function
画像と言語
特徴を融合
Multi-class
Classification
Function
答え候補か
ら正解を選
ぶ
…
rubber
metal
yes
no
5
画像中どういった領域が重要かを
決める

VQA：評価指標
13
- VQA1.0, VQA2.0: (10 answers / question)*1
- VQA Challenge 2018 (Real Open-Ended)のトップ10 *2
𝑎𝑐𝑐𝑢𝑟𝑎𝑐𝑦 = min (
#ℎ𝑢𝑚𝑎𝑛𝑠 𝑡ℎ𝑎𝑡 𝑝𝑟𝑜𝑣𝑖𝑑𝑒𝑑 𝑡ℎ𝑎𝑡 𝑎𝑛𝑠𝑤𝑒𝑟
3
, 1)
*1 For open-ended questions
*2 参考先： http://visualqa.org/roe.html
1st :72.41

CVPR2018@VQAの動向分析
14

CVPR2018 VQA動向分析
15
- VQA in CVPR2018: 論⽂リスト（total: 22）
1 Embodied Question Answering
2 Learning by Asking Questions
3 VizWiz Grand Challenge: Answering Visual Questions From Blind People
4 Textbook Question Answering Under Instructor Guidance With Memory Networks
5 IQA: Visual Question Answering in Interactive Environments
6 Tips and Tricks for Visual Question Answering: Learnings From the 2017 Challenge
7 Don't Just Assume; Look and Answer: Overcoming Priors for Visual Question Answering
8 Learning Answer Embeddings for Visual Question Answering
9 DVQA: Understanding Data Visualizations via Question Answering
10 Cross-Dataset Adaptation for Visual Question Answering
11 Two Can Play This Game: Visual Dialog With Discriminative Question Generation and Answering
12 Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering
13 Improved Fusion of Visual and Language Representations by Dense Symmetric Co-Attention for Visual Question Answering
14 Visual Question Generation as Dual Task of Visual Question Answering
15 Focal Visual-Text Attention for Visual Question Answering
16 Motion-Appearance Co-Memory Networks for Video Question Answering
17 Visual Question Answering With Memory-Augmented Networks
18 Visual Question Reasoning on General Dependency Tree
19 Differential Attention for Visual Question Answering
20 Learning Visual Knowledge Memory Networks for Visual Question Answering
21 IVQA: Inverse Visual Question Answering
22 Customized Image Narrative Generation via Interactive Visual Question Generation and Answering

16
- 動向(1/6)：VQAの“V”の多様性
Vが画像だけではなく，“Diagram”, “Textbook”, “Environment”なども
Diagram Question Answering [6] Textbook Question Answering [7]
VQA in interactive environment [8];
Embodied Question Answering [4]

17
- 動向(2/6)：Question Generation, Interactive
Learning
VQAのsub-taskとして⽤いられるVisual Question GenerationがCVPR2018に数
本提案されている．また，Questionの⾃動⽣成とInteractive学習を組み合わせる提
案もある．このような組み合わせは学習サンプルの有効性を⾼められる，また，
humanの学習メカニズムとの類似性も⾼い．
Learning by Asking Questions [9]

18
- 動向(3/6)：attention mechanismの改善
attention mechanismを⽤いて，画像／質問⽂の重要領域をさらに強調
することができるので，VQAのcontextに重要なコンポーネントになれる．
CVPR2018もVQAのためのattention改善に関する論⽂が多くみられる．例
としては，bottom-up attention, dense co-attention, human-attention
を利⽤などがある
Bottom-up and Top-down attention [10]
Dense co-attention [11]

19
- 動向(4/6)：dataset biasesとの闘いの続き
VQA のような”Vision and Language”のmulti-modal taskのデータセッ
トバイアス性が広く検討されている．CVPR2018でこのような検討に関す
る論⽂も数本ある．代表としては：①逆問題を利⽤する(image, answerか
ら画像を⽣成)；②VQAを2ステップで⾏う（visual conceptを識別; 回答）
などが挙げられる．
①逆問題を利用する例 [12][13]
②2ステップVQA [14]
回答Visual Conceptを識別

20
- 動向(5/6)：Knowledge Representationが重要視
VQAタスクは①画像認識；②⾃然⾔語理解；③supporting-factsを表⽰
するknowledge representationなどが必要となる．従来，①②が重視され，
③に関する研究が相対的に少ない．しかし，画像と質問⽂から得られる知識
だけで答えられない質問⽂がリアル環境に膨⼤にあるため，③の研究も重要
視されるべきである．
また，近年interpretabilityがあらゆるCNNタスクで重要視され，VQAタ
スクに対し，答え⽂を出⼒する同時にsupporting factsも同時に出⼒できる
ところはinterpretability性が⾼くなる．（同じ理由で，relationship
reasoningなども重要視するべき？）
VQA with Knowledge検出の例 [15]
knowledge

21
- 動向(6/6)：新規な視点・応⽤
VQA分野まだ⼗分に成熟ではないため，まだまだ新しいアイデアで潜⼊で
きる．また，VQAタスクのリアル環境での応⽤に関しても研究を進めるべ
きである．
①個性的キャプション⽣成 [16] ②盲人のためのVQAの
データセット提案 [17]

CVPR2018のピックアップ論⽂紹介
22

23
• - 従来のVQAと⽐べて，“V”の部分は“3次元空間”になった
•・概要：新たな問題定義Embodied Question Answeringを提案した．Agentが3次元
空間のランダムなlocationからスタートし，与えられた質問⽂を回答する．質問⽂を回
答するために，環境で⾃⼰ナビゲーションして，必要な視覚情報を集める
•・必要される能⼒：Active perception; Language Understanding; Goal driving
navigation; Commonsense reasoning; Grounding of Language into action.

24
•・EQAという新たな問題定義を提案し，EQAのデータセット及び基本的な⼿法も
提案した．EQAが従来のVQAよりHRIにおいて実⽤性が⾼いため，この研究をはじ
めEQAの相関研究も今後増えることも考えられる．
•・⼿法的貢献：
• ① Adaptive Computation Time navigator(ACT：上図)を提案した．ACTが
navigationを“planner(actions を選択)”, “controller (actionsをvariable回数実⾏
する)”に分解する．
• ② Imitation learningによりagentsを初期化し，強化学習によりfine-tuningを
⾏う．

Learning by asking questions [8]
25
- Interactive Learning, Question Generation
・概要：VQAのcontextに⽤いられる新たなインターアクティブ学習フレームワーク
learning-by-asking(LBA)を提案した．従来のVQA設定と異なるところはLBAは学習
段階で“questions”を⽣成し，カリキュラム学習に基づき⽣成した”questions”から有
益な“questions”を選択し，学習を⾏う（従来のVQA設定で）．

Learning by asking questions [8]
26
𝑎のaccuracy
変化率
画像Iと質問qに対
して，答え𝑎の点数
・提案フレームワークの概要：
① Question Proposal Module: Question Generator gとQuestion Relevance rから構成さ
れ，画像と関連性が⾼い質問⽂候補を⽣成する．
② Question Answering Module:従来のVQAの設定を⽤いる．ただし，answer種類ごと(𝑎)
に，学習accuracy𝑠=(𝑎)を記録する．これを段階③に⽤いる．
③ Question Selection Module:下の式を最⼤化するような質問を選択し，VQAを学習．
・LBAという新たな学習フレームワークを提案した．Interactive学習の学習サンプ
ルの有効性が⾼い，またhumanの学習メカニズムと類似．

Bottom-Up and Top-Down Attention for Image Captioning and
Visual Question Answering [10]
27
- Bottom-up attentionを⽤いてattention mechanismの改善
Region Extraction &
Bottom-Up attention
Top-Down attention
VQA2.0データセットでの結果
VQA Challenge2017において優勝
・概要：従来のVQAとImage
captioning は主にタスクスペシ
フィックなtop-downタイプの
attentionを⽤いる．この論⽂で，⼈
の視覚attentionメカニズムから，
salient 領域を抽出するBottom-upの
attentionも⽤いることを提案した．
新規性：優れた性能でbottom-up + top-
down attentionの有⽤性を⽰した．

iVQA: Inverse Visual Question Answering [13]
28
-VQAの逆問題(画像・答え⽂から質問⽂を⽣成)を利⽤することで，データ
セットバイアス性を回避する．
出⼒：質問⽂⼊⼒：画像・答え⽂
・概要：VQA問題の逆問題iVQA設定及びモデルを提案した．
・新規性：質問⽂と⽐べ，答え⽂に含める情報量が少ないため，従来のVQAと⽐べ，
iVQA設定で画像から情報の収集が重要となる．

VizWiz Grand Challenge: Answering Visual Questions
from Blind People [17]
29
- VQAの実⽤場⾯：盲⼈のためのVQAのデータセットを提案した．
・概要：盲⼈に集められたVQAデータセットVizWiz（画像と⾳声質問⽂）を提案し
た． VizWizが31,000枚の盲⼈が携帯により撮影した画像および盲⼈が提出した⾳声
質問⽂から構成される．
・新規性と挑戦：実⽤性が⾼いVQAデータセットの提案．画像と⾳声の質が相対的
に低いので，VizWizにおいて既存⼿法の精度がVQAなどと⽐べ低い，またまた
VizWizにに関して努⼒できる空間がある．
従来のデータ
セットと⽐べ，
画質が低い画
像のほうが多
い
⾳声質問⽂も
相対的にノイ
ズが多い

まとめ
30
- VQA taskの概要
- CVPR2018の動向分析と論⽂紹介
CVPR2018＠VQAのキーワード：attention; generation; knowledge.
- 未来
l Relationship reasoning, Knowledge representation, attentionの
基盤が強固になり，もっと”Vision”と“Language”の関係をもっと深
く探る
l Visual Dialogのあたりに移りつつある
+ 会話で必要な知識を得る
+ Interactive的に環境から知識を得るプロセス
+ Zero-shot learning
l Embodied Question Answeringが期待される？

参考資料
32
• [１] Antol, Stanislaw, et al. "Vqa: Visual question answering."
Proceedings of the IEEE international conference on computer vision.
2015.
• [2] Goyal, Yash, et al. "Making the V in VQA matter: Elevating the role of
image understanding in Visual Question Answering." CVPR. Vol. 1. No. 2.
2017.
• [3] Johnson, Justin, et al. "CLEVR: A diagnostic dataset for compositional
language and elementary visual reasoning." Computer Vision and Pattern
Recognition (CVPR), 2017 IEEE Conference on. IEEE, 2017.
• [4] Das, Abhishek, et al. "Embodied question answering." Proceedings of
the IEEE Conference on Computer Vision and Pattern Recognition (CVPR).
2018.
• [5] Wang, Peng, et al. "Fvqa: Fact-based visual question answering."
IEEE transactions on pattern analysis and machine intelligence (2017).
• [6] Kafle, Kushal, et al. "DVQA: Understanding data visualizations via
question answering." Proceedings of the IEEE Conference on Computer
Vision and Pattern Recognition. 2018.
• [7] Li, Juzheng, et al. "Textbook Question Answering Under Instructor
Guidance With Memory Networks." Proceedings of the IEEE Conference
on Computer Vision and Pattern Recognition. 2018.

参考資料
33
• [8] Gordon, Daniel, et al. "IQA: Visual question answering in interactive
environments." Proceedings of the IEEE Conference on Computer Vision
and Pattern Recognition. 2018.
• [9] Misra, Ishan, et al. "Learning by Asking Questions." arXiv preprint
arXiv:1712.01238 (2017).
• [10] Anderson, Peter, et al. "Bottom-up and top-down attention for
image captioning and visual question answering." CVPR. Vol. 3. No. 5.
2018.
• [11] Nguyen, Duy-Kien, and Takayuki Okatani. "Improved Fusion of
Visual and Language Representations by Dense Symmetric Co-Attention
for Visual Question Answering.“
• [12] Li, Yikang, et al. "Visual question generation as dual task of visual
question answering." Proceedings of the IEEE Conference on Computer
Vision and Pattern Recognition. 2018.
• [13] Liu, Feng, et al. "iVQA: Inverse visual question answering." arXiv
preprint arXiv:1710.03370 (2017).
• [14] Jayaraman, Dinesh, and Kristen Grauman. "Learning to look around:
Intelligently exploring unseen environments for unknown tasks."
Proceedings of the IEEE Conference on Computer Vision and Pattern
Recognition. 2018.

参考資料
34
• [15] Su, Zhou, et al. "Learning Visual Knowledge Memory Networks for
Visual Question Answering." Proceedings of the IEEE Conference on
Computer Vision and Pattern Recognition. 2018.
• [16] Shin, Andrew, Yoshitaka Ushiku, and Tatsuya Harada. "Customized
Image Narrative Generation via Interactive Visual Question Generation
and Answering." Proceedings of the IEEE Conference on Computer Vision
and Pattern Recognition. 2018.
• [17] Gurari, Danna, et al. "VizWiz Grand Challenge: Answering Visual
Questions from Blind People." arXiv preprint arXiv:1802.08218 (2018).

Visual Question Answering (VQA) - CVPR2018動向分析 (CVPR 2018 完全読破チャレンジ報告会)

Recomendados

Recomendados

Mais conteúdo relacionado

Mais procurados

Mais procurados (20)

Semelhante a Visual Question Answering (VQA) - CVPR2018動向分析 (CVPR 2018 完全読破チャレンジ報告会)

Semelhante a Visual Question Answering (VQA) - CVPR2018動向分析 (CVPR 2018 完全読破チャレンジ報告会) (20)

Visual Question Answering (VQA) - CVPR2018動向分析 (CVPR 2018 完全読破チャレンジ報告会)