SlideShare uma empresa Scribd logo
1 de 34
Baixar para ler offline
Visual Question Answering (VQA)-
CVPR2018動向分析
筑波⼤学⼤学院 システム情報⼯学研究科
コンピュータサイエンス専攻 ヒューマンセンタード研究室
指導教員:佐藤 雄隆
Yue Qiu
1
http://hirokatsukataoka.net/project/cc/index_cvpaperchallenge.html
CVPR 2018 完全読破チャレンジ報告会 cvpaper.challenge勉強会
@Wantedly白金台オフィス
概要
2
- VQA
・問題定義
・データセット
・アーキテクチャー
・評価指標
- CVPR2018の動向分析
- CVPR2018のピックアップ論⽂紹介
- まとめ
Visual Question Answering (VQA)
3
VQA:問題定義
4
Answer: No
Output:Input:
Question: Does it appear to be rainy?
n VQA: 入力は画像と質問文,出力は質問文の回答
*画像と質問文参考先[1]
VQA:問題定義
5
Question: Does it appear to be
rainy?
n VQA: 入力は画像と質問文,出力は質問文の回答
n VQA task は“画像理解 (Computer Vision)” と “自然言語理
解(Natural Language Processing)”の cross-modal task.
①自然言語理
解
②画像理解
Supporting-facts:
<wet ground, related to, rainy>
<blue sky, related to, sunny>
…
③知識の表
示
VQA:Trend 分析
6
2015: VQA1.0 Dataset
2016:1st VQA Challenge
VQA 2.0 Dataset
CLEVR Dataset
2017:2nd VQA Challenge
2018:3rd VQA Challenge
EQA Dataset
Keyword: attention*2
Keyword: attention*4, reason*2
Keyword: attention*8, generation*6,
memory*5, knowledge*2
0 ー
VQA:データセット (1/5)
7
- VQA 1.0 [1]
Year データセットの⼤きさ 質問種類 バイアス性
画像枚数 QAペア数 内容 回答形式
VQA1.0 2015 MS COCO:
204, 721
CG: 50, 000
760K程度 Yes/No;
Number;
Others
QAのバイアス性が⾼
いところが良く指摘
されている.
例:“How many …”
“2” (39%)
“What sport…”
“Tennis” (41%)
Fine-grained recognition;
Object detection;
Knowledge base reasoning;
Commonsense reasoning.
例
VQA:データセット (2/5)
8
- VQA 2.0 [2]
Year データセットの⼤きさ 質問種類 バイアス性
画像枚数 QAペア数 内容 回答形式
VQA2.0 2016 MS COCO:
204, 721
1.11M程度 Yes/No;
Number;
Others
VQA1.0のQAバイア
ス性がある程度改善
できたが,train ,
testの分布が近いと指
摘されている.
Fine-grained recognition;
Object detection;
Knowledge base reasoning;
Commonsense reasoning.
VQA1.0データセット
のバイアス性を軽減
例
VQA:データセット (3/5)
9
- CLEVR [3]
Year データセットの⼤きさ 質問種類 バイアス性
画像枚数 QAペア数 内容 回答形式
CLEVR 2016 CG画像:
100, 000
1M程度 Yes/No;
Number;
Others
画像,QAペア⾃
動⽣成プログラム
で⾃動⽣成されて
いる.
Attribute identification;
Counting;
Comparison;
Spatial relationship;
Logical operations.
CG画像;データセット
自動生成プログラム.
例
VQA:データセット (4/5)
10
- EQA 1.0 [4]
Year データセットの⼤きさ 質問種類 バイアス性
画像枚数 QAペア数 内容 回答形式
EQA1.0 2018 750CGシーン
(SUNCG Subset)
5, 000 Yes/No;
Others
QAペア⾃動⽣成
プログラムで⾃動
⽣成されている.
Scene recognition;
Spatial reasoning;
Color recognition.
例
シー
ン
質問種類
Vが画像から“シー
ン”に
VQA:データセット (5/5)
11
- FVQA [5]
Year データセットの⼤きさ 質問種類 バイアス性
画像枚数 QAペア数 内容 回答形式
FVQA 2017 2, 190
(Sampled from MS
COCO & ImageNet)
5, 826
(knowledge extracted
from
Dbpedia,ConceptNet
& WebChild)
Others 相関報告が⾒つか
らず.バイアス性
を避けるよりはバ
イアス性を利⽤す
る傾向.
画像・質問⽂から得
られない外部情報が
必要となる質問.
視覚コンセプトの理解;コ
ンセプト間の関係;
Image-Question-Answer ->
Image-Question-Answer-
Supporting fact
例
VQA:アーキテクチャー
12
- Multi-modal architecture, attention Mechanism
CNN
CNN/
LSTM
“There is a yellow ball behind
the red metal cylinder; what is its
material?”
Attention
Function
Feature
fusion
function
画像と言語
特徴を融合
Multi-class
Classification
Function
答え候補か
ら正解を選
ぶ
…
rubber
metal
yes
no
5
画像中どういった領域が重要かを
決める
VQA:評価指標
13
- VQA1.0, VQA2.0: (10 answers / question)*1
- VQA Challenge 2018 (Real Open-Ended)のトップ10 *2
𝑎𝑐𝑐𝑢𝑟𝑎𝑐𝑦 = min	(
#ℎ𝑢𝑚𝑎𝑛𝑠	𝑡ℎ𝑎𝑡	𝑝𝑟𝑜𝑣𝑖𝑑𝑒𝑑	𝑡ℎ𝑎𝑡	𝑎𝑛𝑠𝑤𝑒𝑟
3
, 1)
*1 For open-ended questions
*2 参考先: http://visualqa.org/roe.html
1st :72.41
CVPR2018@VQAの動向分析
14
CVPR2018 VQA動向分析
15
- VQA in CVPR2018: 論⽂リスト(total: 22)
1 Embodied Question Answering
2 Learning by Asking Questions
3 VizWiz Grand Challenge: Answering Visual Questions From Blind People
4 Textbook Question Answering Under Instructor Guidance With Memory Networks
5 IQA: Visual Question Answering in Interactive Environments
6 Tips and Tricks for Visual Question Answering: Learnings From the 2017 Challenge
7 Don't Just Assume; Look and Answer: Overcoming Priors for Visual Question Answering
8 Learning Answer Embeddings for Visual Question Answering
9 DVQA: Understanding Data Visualizations via Question Answering
10 Cross-Dataset Adaptation for Visual Question Answering
11 Two Can Play This Game: Visual Dialog With Discriminative Question Generation and Answering
12 Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering
13 Improved Fusion of Visual and Language Representations by Dense Symmetric Co-Attention for Visual Question Answering
14 Visual Question Generation as Dual Task of Visual Question Answering
15 Focal Visual-Text Attention for Visual Question Answering
16 Motion-Appearance Co-Memory Networks for Video Question Answering
17 Visual Question Answering With Memory-Augmented Networks
18 Visual Question Reasoning on General Dependency Tree
19 Differential Attention for Visual Question Answering
20 Learning Visual Knowledge Memory Networks for Visual Question Answering
21 IVQA: Inverse Visual Question Answering
22 Customized Image Narrative Generation via Interactive Visual Question Generation and Answering
CVPR2018 VQA動向分析
16
- 動向(1/6):VQAの“V”の多様性
Vが画像だけではなく,“Diagram”, “Textbook”, “Environment”なども
Diagram Question Answering [6] Textbook Question Answering [7]
VQA in interactive environment [8];
Embodied Question Answering [4]
CVPR2018 VQA動向分析
17
- 動向(2/6):Question Generation, Interactive
Learning
VQAのsub-taskとして⽤いられるVisual Question GenerationがCVPR2018に数
本提案されている.また,Questionの⾃動⽣成とInteractive学習を組み合わせる提
案もある.このような組み合わせは学習サンプルの有効性を⾼められる,また,
humanの学習メカニズムとの類似性も⾼い.
Learning by Asking Questions [9]
CVPR2018 VQA動向分析
18
- 動向(3/6):attention mechanismの改善
attention mechanismを⽤いて,画像/質問⽂の重要領域をさらに強調
することができるので,VQAのcontextに重要なコンポーネントになれる.
CVPR2018もVQAのためのattention改善に関する論⽂が多くみられる.例
としては,bottom-up attention, dense co-attention, human-attention
を利⽤などがある
Bottom-up and Top-down attention [10]
Dense co-attention [11]
CVPR2018 VQA動向分析
19
- 動向(4/6):dataset biasesとの闘いの続き
VQA のような”Vision and Language”のmulti-modal taskのデータセッ
トバイアス性が広く検討されている.CVPR2018でこのような検討に関す
る論⽂も数本ある.代表としては:①逆問題を利⽤する(image, answerか
ら画像を⽣成);②VQAを2ステップで⾏う(visual conceptを識別; 回答)
などが挙げられる.
①逆問題を利用する例 [12][13]
②2ステップVQA [14]
回答Visual Conceptを識別
CVPR2018 VQA動向分析
20
- 動向(5/6):Knowledge Representationが重要視
VQAタスクは①画像認識;②⾃然⾔語理解;③supporting-factsを表⽰
するknowledge representationなどが必要となる.従来,①②が重視され,
③に関する研究が相対的に少ない.しかし,画像と質問⽂から得られる知識
だけで答えられない質問⽂がリアル環境に膨⼤にあるため,③の研究も重要
視されるべきである.
また,近年interpretabilityがあらゆるCNNタスクで重要視され,VQAタ
スクに対し,答え⽂を出⼒する同時にsupporting factsも同時に出⼒できる
ところはinterpretability性が⾼くなる.(同じ理由で,relationship
reasoningなども重要視するべき?)
VQA with Knowledge検出の例 [15]
knowledge
CVPR2018 VQA動向分析
21
- 動向(6/6):新規な視点・応⽤
VQA分野まだ⼗分に成熟ではないため,まだまだ新しいアイデアで潜⼊で
きる.また,VQAタスクのリアル環境での応⽤に関しても研究を進めるべ
きである.
①個性的キャプション⽣成 [16] ②盲人のためのVQAの
データセット提案 [17]
CVPR2018のピックアップ論⽂紹介
22
Embodied Question Answering [4]
23
• - 従来のVQAと⽐べて,“V”の部分は“3次元空間”になった
•・概要:新たな問題定義Embodied Question Answeringを提案した.Agentが3次元
空間のランダムなlocationからスタートし,与えられた質問⽂を回答する.質問⽂を回
答するために,環境で⾃⼰ナビゲーションして,必要な視覚情報を集める
•・必要される能⼒:Active perception; Language Understanding; Goal driving
navigation; Commonsense reasoning; Grounding of Language into action.
Embodied Question Answering [4]
24
•・EQAという新たな問題定義を提案し,EQAのデータセット及び基本的な⼿法も
提案した.EQAが従来のVQAよりHRIにおいて実⽤性が⾼いため,この研究をはじ
めEQAの相関研究も今後増えることも考えられる.
•・⼿法的貢献:
• ① Adaptive Computation Time navigator(ACT:上図)を提案した.ACTが
navigationを“planner(actions を選択)”, “controller (actionsをvariable回数実⾏
する)”に分解する.
• ② Imitation learningによりagentsを初期化し,強化学習によりfine-tuningを
⾏う.
Learning by asking questions [8]
25
- Interactive Learning, Question Generation
・概要:VQAのcontextに⽤いられる新たなインターアクティブ学習フレームワーク
learning-by-asking(LBA)を提案した.従来のVQA設定と異なるところはLBAは学習
段階で“questions”を⽣成し,カリキュラム学習に基づき⽣成した”questions”から有
益な“questions”を選択し,学習を⾏う(従来のVQA設定で).
Learning by asking questions [8]
26
𝑎のaccuracy
変化率
画像Iと質問qに対
して,答え𝑎の点数
・提案フレームワークの概要:
① Question Proposal Module: Question Generator gとQuestion Relevance rから構成さ
れ,画像と関連性が⾼い質問⽂候補を⽣成する.
② Question Answering Module:従来のVQAの設定を⽤いる.ただし,answer種類ごと(𝑎)
に,学習accuracy𝑠=(𝑎)を記録する.これを段階③に⽤いる.
③ Question Selection Module:下の式を最⼤化するような質問を選択し,VQAを学習.
・LBAという新たな学習フレームワークを提案した.Interactive学習の学習サンプ
ルの有効性が⾼い,またhumanの学習メカニズムと類似.
Bottom-Up and Top-Down Attention for Image Captioning and
Visual Question Answering [10]
27
- Bottom-up attentionを⽤いてattention mechanismの改善
Region Extraction &
Bottom-Up attention
Top-Down attention
VQA2.0データセットでの結果
VQA Challenge2017において優勝
・概要:従来のVQAとImage
captioning は主にタスクスペシ
フィックなtop-downタイプの
attentionを⽤いる.この論⽂で,⼈
の視覚attentionメカニズムから,
salient 領域を抽出するBottom-upの
attentionも⽤いることを提案した.
新規性:優れた性能でbottom-up + top-
down attentionの有⽤性を⽰した.
iVQA: Inverse Visual Question Answering [13]
28
-VQAの逆問題(画像・答え⽂から質問⽂を⽣成)を利⽤することで,データ
セットバイアス性を回避する.
出⼒:質問⽂⼊⼒:画像・答え⽂
・概要:VQA問題の逆問題iVQA設定及びモデルを提案した.
・新規性:質問⽂と⽐べ,答え⽂に含める情報量が少ないため, 従来のVQAと⽐べ,
iVQA設定で画像から情報の収集が重要となる.
VizWiz Grand Challenge: Answering Visual Questions
from Blind People [17]
29
- VQAの実⽤場⾯:盲⼈のためのVQAのデータセットを提案した.
・概要:盲⼈に集められたVQAデータセットVizWiz(画像と⾳声質問⽂)を提案し
た. VizWizが31,000枚の盲⼈が携帯により撮影した画像および盲⼈が提出した⾳声
質問⽂から構成される.
・新規性と挑戦:実⽤性が⾼いVQAデータセットの提案.画像と⾳声の質が相対的
に低いので,VizWizにおいて既存⼿法の精度がVQAなどと⽐べ低い,またまた
VizWizにに関して努⼒できる空間がある.
従来のデータ
セットと⽐べ,
画質が低い画
像のほうが多
い
⾳声質問⽂も
相対的にノイ
ズが多い
まとめ
30
- VQA taskの概要
- CVPR2018の動向分析と論⽂紹介
CVPR2018@VQAのキーワード:attention; generation; knowledge.
- 未来
l Relationship reasoning, Knowledge representation, attentionの
基盤が強固になり,もっと”Vision”と“Language”の関係をもっと深
く探る
l Visual Dialogのあたりに移りつつある
+ 会話で必要な知識を得る
+ Interactive的に環境から知識を得るプロセス
+ Zero-shot learning
l Embodied Question Answeringが期待される?
Thanks for your time!
31
参考資料
32
• [1] Antol, Stanislaw, et al. "Vqa: Visual question answering."
Proceedings of the IEEE international conference on computer vision.
2015.
• [2] Goyal, Yash, et al. "Making the V in VQA matter: Elevating the role of
image understanding in Visual Question Answering." CVPR. Vol. 1. No. 2.
2017.
• [3] Johnson, Justin, et al. "CLEVR: A diagnostic dataset for compositional
language and elementary visual reasoning." Computer Vision and Pattern
Recognition (CVPR), 2017 IEEE Conference on. IEEE, 2017.
• [4] Das, Abhishek, et al. "Embodied question answering." Proceedings of
the IEEE Conference on Computer Vision and Pattern Recognition (CVPR).
2018.
• [5] Wang, Peng, et al. "Fvqa: Fact-based visual question answering."
IEEE transactions on pattern analysis and machine intelligence (2017).
• [6] Kafle, Kushal, et al. "DVQA: Understanding data visualizations via
question answering." Proceedings of the IEEE Conference on Computer
Vision and Pattern Recognition. 2018.
• [7] Li, Juzheng, et al. "Textbook Question Answering Under Instructor
Guidance With Memory Networks." Proceedings of the IEEE Conference
on Computer Vision and Pattern Recognition. 2018.
参考資料
33
• [8] Gordon, Daniel, et al. "IQA: Visual question answering in interactive
environments." Proceedings of the IEEE Conference on Computer Vision
and Pattern Recognition. 2018.
• [9] Misra, Ishan, et al. "Learning by Asking Questions." arXiv preprint
arXiv:1712.01238 (2017).
• [10] Anderson, Peter, et al. "Bottom-up and top-down attention for
image captioning and visual question answering." CVPR. Vol. 3. No. 5.
2018.
• [11] Nguyen, Duy-Kien, and Takayuki Okatani. "Improved Fusion of
Visual and Language Representations by Dense Symmetric Co-Attention
for Visual Question Answering.“
• [12] Li, Yikang, et al. "Visual question generation as dual task of visual
question answering." Proceedings of the IEEE Conference on Computer
Vision and Pattern Recognition. 2018.
• [13] Liu, Feng, et al. "iVQA: Inverse visual question answering." arXiv
preprint arXiv:1710.03370 (2017).
• [14] Jayaraman, Dinesh, and Kristen Grauman. "Learning to look around:
Intelligently exploring unseen environments for unknown tasks."
Proceedings of the IEEE Conference on Computer Vision and Pattern
Recognition. 2018.
参考資料
34
• [15] Su, Zhou, et al. "Learning Visual Knowledge Memory Networks for
Visual Question Answering." Proceedings of the IEEE Conference on
Computer Vision and Pattern Recognition. 2018.
• [16] Shin, Andrew, Yoshitaka Ushiku, and Tatsuya Harada. "Customized
Image Narrative Generation via Interactive Visual Question Generation
and Answering." Proceedings of the IEEE Conference on Computer Vision
and Pattern Recognition. 2018.
• [17] Gurari, Danna, et al. "VizWiz Grand Challenge: Answering Visual
Questions from Blind People." arXiv preprint arXiv:1802.08218 (2018).

Mais conteúdo relacionado

Mais procurados

自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)cvpaper. challenge
 
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向SSII
 
3D CNNによる人物行動認識の動向
3D CNNによる人物行動認識の動向3D CNNによる人物行動認識の動向
3D CNNによる人物行動認識の動向Kensho Hara
 
動画認識サーベイv1(メタサーベイ )
動画認識サーベイv1(メタサーベイ )動画認識サーベイv1(メタサーベイ )
動画認識サーベイv1(メタサーベイ )cvpaper. challenge
 
Attentionの基礎からTransformerの入門まで
Attentionの基礎からTransformerの入門までAttentionの基礎からTransformerの入門まで
Attentionの基礎からTransformerの入門までAGIRobots
 
[DL輪読会]Dense Captioning分野のまとめ
[DL輪読会]Dense Captioning分野のまとめ[DL輪読会]Dense Captioning分野のまとめ
[DL輪読会]Dense Captioning分野のまとめDeep Learning JP
 
【DL輪読会】ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders
【DL輪読会】ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders【DL輪読会】ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders
【DL輪読会】ConvNeXt V2: Co-designing and Scaling ConvNets with Masked AutoencodersDeep Learning JP
 
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning 画像×言語の大規模基盤モ...
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning   画像×言語の大規模基盤モ...【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning   画像×言語の大規模基盤モ...
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning 画像×言語の大規模基盤モ...Deep Learning JP
 
[DL輪読会]Relational inductive biases, deep learning, and graph networks
[DL輪読会]Relational inductive biases, deep learning, and graph networks[DL輪読会]Relational inductive biases, deep learning, and graph networks
[DL輪読会]Relational inductive biases, deep learning, and graph networksDeep Learning JP
 
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)Deep Learning JP
 
PFNにおける研究開発(2022/10/19 東大大学院「融合情報学特別講義Ⅲ」)
PFNにおける研究開発(2022/10/19 東大大学院「融合情報学特別講義Ⅲ」)PFNにおける研究開発(2022/10/19 東大大学院「融合情報学特別講義Ⅲ」)
PFNにおける研究開発(2022/10/19 東大大学院「融合情報学特別講義Ⅲ」)Preferred Networks
 
畳み込みニューラルネットワークの研究動向
畳み込みニューラルネットワークの研究動向畳み込みニューラルネットワークの研究動向
畳み込みニューラルネットワークの研究動向Yusuke Uchida
 
【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Modelscvpaper. challenge
 
[DL輪読会]Understanding Black-box Predictions via Influence Functions
[DL輪読会]Understanding Black-box Predictions via Influence Functions [DL輪読会]Understanding Black-box Predictions via Influence Functions
[DL輪読会]Understanding Black-box Predictions via Influence Functions Deep Learning JP
 
[DL輪読会]DropBlock: A regularization method for convolutional networks
[DL輪読会]DropBlock: A regularization method for convolutional networks[DL輪読会]DropBlock: A regularization method for convolutional networks
[DL輪読会]DropBlock: A regularization method for convolutional networksDeep Learning JP
 
メタスタディ (Vision and Language)
メタスタディ (Vision and Language)メタスタディ (Vision and Language)
メタスタディ (Vision and Language)Shintaro Yamamoto
 
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜SSII
 
[DL輪読会]A System for General In-Hand Object Re-Orientation
[DL輪読会]A System for General In-Hand Object Re-Orientation[DL輪読会]A System for General In-Hand Object Re-Orientation
[DL輪読会]A System for General In-Hand Object Re-OrientationDeep Learning JP
 
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)RyuichiKanoh
 

Mais procurados (20)

自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)
 
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
 
3D CNNによる人物行動認識の動向
3D CNNによる人物行動認識の動向3D CNNによる人物行動認識の動向
3D CNNによる人物行動認識の動向
 
動画認識サーベイv1(メタサーベイ )
動画認識サーベイv1(メタサーベイ )動画認識サーベイv1(メタサーベイ )
動画認識サーベイv1(メタサーベイ )
 
Attentionの基礎からTransformerの入門まで
Attentionの基礎からTransformerの入門までAttentionの基礎からTransformerの入門まで
Attentionの基礎からTransformerの入門まで
 
[DL輪読会]Dense Captioning分野のまとめ
[DL輪読会]Dense Captioning分野のまとめ[DL輪読会]Dense Captioning分野のまとめ
[DL輪読会]Dense Captioning分野のまとめ
 
【DL輪読会】ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders
【DL輪読会】ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders【DL輪読会】ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders
【DL輪読会】ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders
 
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning 画像×言語の大規模基盤モ...
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning   画像×言語の大規模基盤モ...【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning   画像×言語の大規模基盤モ...
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning 画像×言語の大規模基盤モ...
 
[DL輪読会]Relational inductive biases, deep learning, and graph networks
[DL輪読会]Relational inductive biases, deep learning, and graph networks[DL輪読会]Relational inductive biases, deep learning, and graph networks
[DL輪読会]Relational inductive biases, deep learning, and graph networks
 
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
 
PFNにおける研究開発(2022/10/19 東大大学院「融合情報学特別講義Ⅲ」)
PFNにおける研究開発(2022/10/19 東大大学院「融合情報学特別講義Ⅲ」)PFNにおける研究開発(2022/10/19 東大大学院「融合情報学特別講義Ⅲ」)
PFNにおける研究開発(2022/10/19 東大大学院「融合情報学特別講義Ⅲ」)
 
畳み込みニューラルネットワークの研究動向
畳み込みニューラルネットワークの研究動向畳み込みニューラルネットワークの研究動向
畳み込みニューラルネットワークの研究動向
 
ResNetの仕組み
ResNetの仕組みResNetの仕組み
ResNetの仕組み
 
【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models
 
[DL輪読会]Understanding Black-box Predictions via Influence Functions
[DL輪読会]Understanding Black-box Predictions via Influence Functions [DL輪読会]Understanding Black-box Predictions via Influence Functions
[DL輪読会]Understanding Black-box Predictions via Influence Functions
 
[DL輪読会]DropBlock: A regularization method for convolutional networks
[DL輪読会]DropBlock: A regularization method for convolutional networks[DL輪読会]DropBlock: A regularization method for convolutional networks
[DL輪読会]DropBlock: A regularization method for convolutional networks
 
メタスタディ (Vision and Language)
メタスタディ (Vision and Language)メタスタディ (Vision and Language)
メタスタディ (Vision and Language)
 
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
 
[DL輪読会]A System for General In-Hand Object Re-Orientation
[DL輪読会]A System for General In-Hand Object Re-Orientation[DL輪読会]A System for General In-Hand Object Re-Orientation
[DL輪読会]A System for General In-Hand Object Re-Orientation
 
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
 

Semelhante a Visual Question Answering (VQA) - CVPR2018動向分析 (CVPR 2018 完全読破チャレンジ報告会)

Vision and Language(メタサーベイ )
Vision and Language(メタサーベイ )Vision and Language(メタサーベイ )
Vision and Language(メタサーベイ )cvpaper. challenge
 
【メタサーベイ】Vision and Language のトップ研究室/研究者
【メタサーベイ】Vision and Language のトップ研究室/研究者【メタサーベイ】Vision and Language のトップ研究室/研究者
【メタサーベイ】Vision and Language のトップ研究室/研究者cvpaper. challenge
 
【2017.03】cvpaper.challenge2017
【2017.03】cvpaper.challenge2017【2017.03】cvpaper.challenge2017
【2017.03】cvpaper.challenge2017cvpaper. challenge
 
SAP Inside Track Tokyo 2022 Deep Learning版Cash Applicationをやってみた
SAP Inside Track Tokyo 2022 Deep Learning版Cash ApplicationをやってみたSAP Inside Track Tokyo 2022 Deep Learning版Cash Applicationをやってみた
SAP Inside Track Tokyo 2022 Deep Learning版Cash ApplicationをやってみたShuntaro Oguri
 
[DL輪読会]The Neuro-Symbolic Concept Learner: Interpreting Scenes, Words, and Se...
[DL輪読会]The Neuro-Symbolic Concept Learner: Interpreting Scenes, Words, and Se...[DL輪読会]The Neuro-Symbolic Concept Learner: Interpreting Scenes, Words, and Se...
[DL輪読会]The Neuro-Symbolic Concept Learner: Interpreting Scenes, Words, and Se...Deep Learning JP
 
20110804 セミナー主旨とセッションのご案内 君塚
20110804 セミナー主旨とセッションのご案内 君塚20110804 セミナー主旨とセッションのご案内 君塚
20110804 セミナー主旨とセッションのご案内 君塚loftwork
 
【ネットラーニング】Jset 内田洋行セミナー20170331
【ネットラーニング】Jset 内田洋行セミナー20170331【ネットラーニング】Jset 内田洋行セミナー20170331
【ネットラーニング】Jset 内田洋行セミナー20170331IMS協会 日本
 
大規模画像認識とその周辺
大規模画像認識とその周辺大規模画像認識とその周辺
大規模画像認識とその周辺n_hidekey
 
[DL輪読会]MUTAN: Multimodal Tucker Fusion for Visual Question Answering
 [DL輪読会]MUTAN: Multimodal Tucker Fusion for Visual Question Answering [DL輪読会]MUTAN: Multimodal Tucker Fusion for Visual Question Answering
[DL輪読会]MUTAN: Multimodal Tucker Fusion for Visual Question AnsweringDeep Learning JP
 
XP祭り関西2011 森崎 修司「プラクティスが有効にはたらく前提は明らかになっていますか?」
XP祭り関西2011 森崎 修司「プラクティスが有効にはたらく前提は明らかになっていますか?」XP祭り関西2011 森崎 修司「プラクティスが有効にはたらく前提は明らかになっていますか?」
XP祭り関西2011 森崎 修司「プラクティスが有効にはたらく前提は明らかになっていますか?」Shuji Morisaki
 
CVPRプレゼン動画100本サーベイ
CVPRプレゼン動画100本サーベイCVPRプレゼン動画100本サーベイ
CVPRプレゼン動画100本サーベイYuki Yamashita
 
クリスマスを支える俺たちとJava(JJUG CCC 2015 Spring AB4)
クリスマスを支える俺たちとJava(JJUG CCC 2015 Spring AB4)クリスマスを支える俺たちとJava(JJUG CCC 2015 Spring AB4)
クリスマスを支える俺たちとJava(JJUG CCC 2015 Spring AB4)Koichi Sakata
 
Vision-and-Language Navigation: Interpreting visually-grounded navigation ins...
Vision-and-Language Navigation: Interpreting visually-grounded navigation ins...Vision-and-Language Navigation: Interpreting visually-grounded navigation ins...
Vision-and-Language Navigation: Interpreting visually-grounded navigation ins...Yoshitaka Ushiku
 
HTML5クイズ!
HTML5クイズ!HTML5クイズ!
HTML5クイズ!yoshikawa_t
 
Learning visual knowledge memory networks for visual question answering 文献講読
Learning visual knowledge memory networks for visual question answering 文献講読Learning visual knowledge memory networks for visual question answering 文献講読
Learning visual knowledge memory networks for visual question answering 文献講読poppyuri
 
Distributed Agile using UML
Distributed Agile using UMLDistributed Agile using UML
Distributed Agile using UMLKenji Hiranabe
 
アノテートによる単語情報を活用したプレゼンテーションにおけるリアルタイム相互支援システムの提案と実装
アノテートによる単語情報を活用したプレゼンテーションにおけるリアルタイム相互支援システムの提案と実装アノテートによる単語情報を活用したプレゼンテーションにおけるリアルタイム相互支援システムの提案と実装
アノテートによる単語情報を活用したプレゼンテーションにおけるリアルタイム相互支援システムの提案と実装Naoki Komatsu
 
San Diego Japan Bio Forum: ライフサイエンス向けデータ可視化技術の現状
San Diego Japan Bio Forum: ライフサイエンス向けデータ可視化技術の現状San Diego Japan Bio Forum: ライフサイエンス向けデータ可視化技術の現状
San Diego Japan Bio Forum: ライフサイエンス向けデータ可視化技術の現状Keiichiro Ono
 
20120623 cv勉強会 shirasy
20120623 cv勉強会 shirasy20120623 cv勉強会 shirasy
20120623 cv勉強会 shirasyYoichi Shirasawa
 
WebEffective overview 2012 japanese
WebEffective overview 2012 japaneseWebEffective overview 2012 japanese
WebEffective overview 2012 japaneseYoichiro Takehora
 

Semelhante a Visual Question Answering (VQA) - CVPR2018動向分析 (CVPR 2018 完全読破チャレンジ報告会) (20)

Vision and Language(メタサーベイ )
Vision and Language(メタサーベイ )Vision and Language(メタサーベイ )
Vision and Language(メタサーベイ )
 
【メタサーベイ】Vision and Language のトップ研究室/研究者
【メタサーベイ】Vision and Language のトップ研究室/研究者【メタサーベイ】Vision and Language のトップ研究室/研究者
【メタサーベイ】Vision and Language のトップ研究室/研究者
 
【2017.03】cvpaper.challenge2017
【2017.03】cvpaper.challenge2017【2017.03】cvpaper.challenge2017
【2017.03】cvpaper.challenge2017
 
SAP Inside Track Tokyo 2022 Deep Learning版Cash Applicationをやってみた
SAP Inside Track Tokyo 2022 Deep Learning版Cash ApplicationをやってみたSAP Inside Track Tokyo 2022 Deep Learning版Cash Applicationをやってみた
SAP Inside Track Tokyo 2022 Deep Learning版Cash Applicationをやってみた
 
[DL輪読会]The Neuro-Symbolic Concept Learner: Interpreting Scenes, Words, and Se...
[DL輪読会]The Neuro-Symbolic Concept Learner: Interpreting Scenes, Words, and Se...[DL輪読会]The Neuro-Symbolic Concept Learner: Interpreting Scenes, Words, and Se...
[DL輪読会]The Neuro-Symbolic Concept Learner: Interpreting Scenes, Words, and Se...
 
20110804 セミナー主旨とセッションのご案内 君塚
20110804 セミナー主旨とセッションのご案内 君塚20110804 セミナー主旨とセッションのご案内 君塚
20110804 セミナー主旨とセッションのご案内 君塚
 
【ネットラーニング】Jset 内田洋行セミナー20170331
【ネットラーニング】Jset 内田洋行セミナー20170331【ネットラーニング】Jset 内田洋行セミナー20170331
【ネットラーニング】Jset 内田洋行セミナー20170331
 
大規模画像認識とその周辺
大規模画像認識とその周辺大規模画像認識とその周辺
大規模画像認識とその周辺
 
[DL輪読会]MUTAN: Multimodal Tucker Fusion for Visual Question Answering
 [DL輪読会]MUTAN: Multimodal Tucker Fusion for Visual Question Answering [DL輪読会]MUTAN: Multimodal Tucker Fusion for Visual Question Answering
[DL輪読会]MUTAN: Multimodal Tucker Fusion for Visual Question Answering
 
XP祭り関西2011 森崎 修司「プラクティスが有効にはたらく前提は明らかになっていますか?」
XP祭り関西2011 森崎 修司「プラクティスが有効にはたらく前提は明らかになっていますか?」XP祭り関西2011 森崎 修司「プラクティスが有効にはたらく前提は明らかになっていますか?」
XP祭り関西2011 森崎 修司「プラクティスが有効にはたらく前提は明らかになっていますか?」
 
CVPRプレゼン動画100本サーベイ
CVPRプレゼン動画100本サーベイCVPRプレゼン動画100本サーベイ
CVPRプレゼン動画100本サーベイ
 
クリスマスを支える俺たちとJava(JJUG CCC 2015 Spring AB4)
クリスマスを支える俺たちとJava(JJUG CCC 2015 Spring AB4)クリスマスを支える俺たちとJava(JJUG CCC 2015 Spring AB4)
クリスマスを支える俺たちとJava(JJUG CCC 2015 Spring AB4)
 
Vision-and-Language Navigation: Interpreting visually-grounded navigation ins...
Vision-and-Language Navigation: Interpreting visually-grounded navigation ins...Vision-and-Language Navigation: Interpreting visually-grounded navigation ins...
Vision-and-Language Navigation: Interpreting visually-grounded navigation ins...
 
HTML5クイズ!
HTML5クイズ!HTML5クイズ!
HTML5クイズ!
 
Learning visual knowledge memory networks for visual question answering 文献講読
Learning visual knowledge memory networks for visual question answering 文献講読Learning visual knowledge memory networks for visual question answering 文献講読
Learning visual knowledge memory networks for visual question answering 文献講読
 
Distributed Agile using UML
Distributed Agile using UMLDistributed Agile using UML
Distributed Agile using UML
 
アノテートによる単語情報を活用したプレゼンテーションにおけるリアルタイム相互支援システムの提案と実装
アノテートによる単語情報を活用したプレゼンテーションにおけるリアルタイム相互支援システムの提案と実装アノテートによる単語情報を活用したプレゼンテーションにおけるリアルタイム相互支援システムの提案と実装
アノテートによる単語情報を活用したプレゼンテーションにおけるリアルタイム相互支援システムの提案と実装
 
San Diego Japan Bio Forum: ライフサイエンス向けデータ可視化技術の現状
San Diego Japan Bio Forum: ライフサイエンス向けデータ可視化技術の現状San Diego Japan Bio Forum: ライフサイエンス向けデータ可視化技術の現状
San Diego Japan Bio Forum: ライフサイエンス向けデータ可視化技術の現状
 
20120623 cv勉強会 shirasy
20120623 cv勉強会 shirasy20120623 cv勉強会 shirasy
20120623 cv勉強会 shirasy
 
WebEffective overview 2012 japanese
WebEffective overview 2012 japaneseWebEffective overview 2012 japanese
WebEffective overview 2012 japanese
 

Visual Question Answering (VQA) - CVPR2018動向分析 (CVPR 2018 完全読破チャレンジ報告会)

  • 1. Visual Question Answering (VQA)- CVPR2018動向分析 筑波⼤学⼤学院 システム情報⼯学研究科 コンピュータサイエンス専攻 ヒューマンセンタード研究室 指導教員:佐藤 雄隆 Yue Qiu 1 http://hirokatsukataoka.net/project/cc/index_cvpaperchallenge.html CVPR 2018 完全読破チャレンジ報告会 cvpaper.challenge勉強会 @Wantedly白金台オフィス
  • 4. VQA:問題定義 4 Answer: No Output:Input: Question: Does it appear to be rainy? n VQA: 入力は画像と質問文,出力は質問文の回答 *画像と質問文参考先[1]
  • 5. VQA:問題定義 5 Question: Does it appear to be rainy? n VQA: 入力は画像と質問文,出力は質問文の回答 n VQA task は“画像理解 (Computer Vision)” と “自然言語理 解(Natural Language Processing)”の cross-modal task. ①自然言語理 解 ②画像理解 Supporting-facts: <wet ground, related to, rainy> <blue sky, related to, sunny> … ③知識の表 示
  • 6. VQA:Trend 分析 6 2015: VQA1.0 Dataset 2016:1st VQA Challenge VQA 2.0 Dataset CLEVR Dataset 2017:2nd VQA Challenge 2018:3rd VQA Challenge EQA Dataset Keyword: attention*2 Keyword: attention*4, reason*2 Keyword: attention*8, generation*6, memory*5, knowledge*2 0 ー
  • 7. VQA:データセット (1/5) 7 - VQA 1.0 [1] Year データセットの⼤きさ 質問種類 バイアス性 画像枚数 QAペア数 内容 回答形式 VQA1.0 2015 MS COCO: 204, 721 CG: 50, 000 760K程度 Yes/No; Number; Others QAのバイアス性が⾼ いところが良く指摘 されている. 例:“How many …” “2” (39%) “What sport…” “Tennis” (41%) Fine-grained recognition; Object detection; Knowledge base reasoning; Commonsense reasoning. 例
  • 8. VQA:データセット (2/5) 8 - VQA 2.0 [2] Year データセットの⼤きさ 質問種類 バイアス性 画像枚数 QAペア数 内容 回答形式 VQA2.0 2016 MS COCO: 204, 721 1.11M程度 Yes/No; Number; Others VQA1.0のQAバイア ス性がある程度改善 できたが,train , testの分布が近いと指 摘されている. Fine-grained recognition; Object detection; Knowledge base reasoning; Commonsense reasoning. VQA1.0データセット のバイアス性を軽減 例
  • 9. VQA:データセット (3/5) 9 - CLEVR [3] Year データセットの⼤きさ 質問種類 バイアス性 画像枚数 QAペア数 内容 回答形式 CLEVR 2016 CG画像: 100, 000 1M程度 Yes/No; Number; Others 画像,QAペア⾃ 動⽣成プログラム で⾃動⽣成されて いる. Attribute identification; Counting; Comparison; Spatial relationship; Logical operations. CG画像;データセット 自動生成プログラム. 例
  • 10. VQA:データセット (4/5) 10 - EQA 1.0 [4] Year データセットの⼤きさ 質問種類 バイアス性 画像枚数 QAペア数 内容 回答形式 EQA1.0 2018 750CGシーン (SUNCG Subset) 5, 000 Yes/No; Others QAペア⾃動⽣成 プログラムで⾃動 ⽣成されている. Scene recognition; Spatial reasoning; Color recognition. 例 シー ン 質問種類 Vが画像から“シー ン”に
  • 11. VQA:データセット (5/5) 11 - FVQA [5] Year データセットの⼤きさ 質問種類 バイアス性 画像枚数 QAペア数 内容 回答形式 FVQA 2017 2, 190 (Sampled from MS COCO & ImageNet) 5, 826 (knowledge extracted from Dbpedia,ConceptNet & WebChild) Others 相関報告が⾒つか らず.バイアス性 を避けるよりはバ イアス性を利⽤す る傾向. 画像・質問⽂から得 られない外部情報が 必要となる質問. 視覚コンセプトの理解;コ ンセプト間の関係; Image-Question-Answer -> Image-Question-Answer- Supporting fact 例
  • 12. VQA:アーキテクチャー 12 - Multi-modal architecture, attention Mechanism CNN CNN/ LSTM “There is a yellow ball behind the red metal cylinder; what is its material?” Attention Function Feature fusion function 画像と言語 特徴を融合 Multi-class Classification Function 答え候補か ら正解を選 ぶ … rubber metal yes no 5 画像中どういった領域が重要かを 決める
  • 13. VQA:評価指標 13 - VQA1.0, VQA2.0: (10 answers / question)*1 - VQA Challenge 2018 (Real Open-Ended)のトップ10 *2 𝑎𝑐𝑐𝑢𝑟𝑎𝑐𝑦 = min ( #ℎ𝑢𝑚𝑎𝑛𝑠 𝑡ℎ𝑎𝑡 𝑝𝑟𝑜𝑣𝑖𝑑𝑒𝑑 𝑡ℎ𝑎𝑡 𝑎𝑛𝑠𝑤𝑒𝑟 3 , 1) *1 For open-ended questions *2 参考先: http://visualqa.org/roe.html 1st :72.41
  • 15. CVPR2018 VQA動向分析 15 - VQA in CVPR2018: 論⽂リスト(total: 22) 1 Embodied Question Answering 2 Learning by Asking Questions 3 VizWiz Grand Challenge: Answering Visual Questions From Blind People 4 Textbook Question Answering Under Instructor Guidance With Memory Networks 5 IQA: Visual Question Answering in Interactive Environments 6 Tips and Tricks for Visual Question Answering: Learnings From the 2017 Challenge 7 Don't Just Assume; Look and Answer: Overcoming Priors for Visual Question Answering 8 Learning Answer Embeddings for Visual Question Answering 9 DVQA: Understanding Data Visualizations via Question Answering 10 Cross-Dataset Adaptation for Visual Question Answering 11 Two Can Play This Game: Visual Dialog With Discriminative Question Generation and Answering 12 Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering 13 Improved Fusion of Visual and Language Representations by Dense Symmetric Co-Attention for Visual Question Answering 14 Visual Question Generation as Dual Task of Visual Question Answering 15 Focal Visual-Text Attention for Visual Question Answering 16 Motion-Appearance Co-Memory Networks for Video Question Answering 17 Visual Question Answering With Memory-Augmented Networks 18 Visual Question Reasoning on General Dependency Tree 19 Differential Attention for Visual Question Answering 20 Learning Visual Knowledge Memory Networks for Visual Question Answering 21 IVQA: Inverse Visual Question Answering 22 Customized Image Narrative Generation via Interactive Visual Question Generation and Answering
  • 16. CVPR2018 VQA動向分析 16 - 動向(1/6):VQAの“V”の多様性 Vが画像だけではなく,“Diagram”, “Textbook”, “Environment”なども Diagram Question Answering [6] Textbook Question Answering [7] VQA in interactive environment [8]; Embodied Question Answering [4]
  • 17. CVPR2018 VQA動向分析 17 - 動向(2/6):Question Generation, Interactive Learning VQAのsub-taskとして⽤いられるVisual Question GenerationがCVPR2018に数 本提案されている.また,Questionの⾃動⽣成とInteractive学習を組み合わせる提 案もある.このような組み合わせは学習サンプルの有効性を⾼められる,また, humanの学習メカニズムとの類似性も⾼い. Learning by Asking Questions [9]
  • 18. CVPR2018 VQA動向分析 18 - 動向(3/6):attention mechanismの改善 attention mechanismを⽤いて,画像/質問⽂の重要領域をさらに強調 することができるので,VQAのcontextに重要なコンポーネントになれる. CVPR2018もVQAのためのattention改善に関する論⽂が多くみられる.例 としては,bottom-up attention, dense co-attention, human-attention を利⽤などがある Bottom-up and Top-down attention [10] Dense co-attention [11]
  • 19. CVPR2018 VQA動向分析 19 - 動向(4/6):dataset biasesとの闘いの続き VQA のような”Vision and Language”のmulti-modal taskのデータセッ トバイアス性が広く検討されている.CVPR2018でこのような検討に関す る論⽂も数本ある.代表としては:①逆問題を利⽤する(image, answerか ら画像を⽣成);②VQAを2ステップで⾏う(visual conceptを識別; 回答) などが挙げられる. ①逆問題を利用する例 [12][13] ②2ステップVQA [14] 回答Visual Conceptを識別
  • 20. CVPR2018 VQA動向分析 20 - 動向(5/6):Knowledge Representationが重要視 VQAタスクは①画像認識;②⾃然⾔語理解;③supporting-factsを表⽰ するknowledge representationなどが必要となる.従来,①②が重視され, ③に関する研究が相対的に少ない.しかし,画像と質問⽂から得られる知識 だけで答えられない質問⽂がリアル環境に膨⼤にあるため,③の研究も重要 視されるべきである. また,近年interpretabilityがあらゆるCNNタスクで重要視され,VQAタ スクに対し,答え⽂を出⼒する同時にsupporting factsも同時に出⼒できる ところはinterpretability性が⾼くなる.(同じ理由で,relationship reasoningなども重要視するべき?) VQA with Knowledge検出の例 [15] knowledge
  • 23. Embodied Question Answering [4] 23 • - 従来のVQAと⽐べて,“V”の部分は“3次元空間”になった •・概要:新たな問題定義Embodied Question Answeringを提案した.Agentが3次元 空間のランダムなlocationからスタートし,与えられた質問⽂を回答する.質問⽂を回 答するために,環境で⾃⼰ナビゲーションして,必要な視覚情報を集める •・必要される能⼒:Active perception; Language Understanding; Goal driving navigation; Commonsense reasoning; Grounding of Language into action.
  • 24. Embodied Question Answering [4] 24 •・EQAという新たな問題定義を提案し,EQAのデータセット及び基本的な⼿法も 提案した.EQAが従来のVQAよりHRIにおいて実⽤性が⾼いため,この研究をはじ めEQAの相関研究も今後増えることも考えられる. •・⼿法的貢献: • ① Adaptive Computation Time navigator(ACT:上図)を提案した.ACTが navigationを“planner(actions を選択)”, “controller (actionsをvariable回数実⾏ する)”に分解する. • ② Imitation learningによりagentsを初期化し,強化学習によりfine-tuningを ⾏う.
  • 25. Learning by asking questions [8] 25 - Interactive Learning, Question Generation ・概要:VQAのcontextに⽤いられる新たなインターアクティブ学習フレームワーク learning-by-asking(LBA)を提案した.従来のVQA設定と異なるところはLBAは学習 段階で“questions”を⽣成し,カリキュラム学習に基づき⽣成した”questions”から有 益な“questions”を選択し,学習を⾏う(従来のVQA設定で).
  • 26. Learning by asking questions [8] 26 𝑎のaccuracy 変化率 画像Iと質問qに対 して,答え𝑎の点数 ・提案フレームワークの概要: ① Question Proposal Module: Question Generator gとQuestion Relevance rから構成さ れ,画像と関連性が⾼い質問⽂候補を⽣成する. ② Question Answering Module:従来のVQAの設定を⽤いる.ただし,answer種類ごと(𝑎) に,学習accuracy𝑠=(𝑎)を記録する.これを段階③に⽤いる. ③ Question Selection Module:下の式を最⼤化するような質問を選択し,VQAを学習. ・LBAという新たな学習フレームワークを提案した.Interactive学習の学習サンプ ルの有効性が⾼い,またhumanの学習メカニズムと類似.
  • 27. Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering [10] 27 - Bottom-up attentionを⽤いてattention mechanismの改善 Region Extraction & Bottom-Up attention Top-Down attention VQA2.0データセットでの結果 VQA Challenge2017において優勝 ・概要:従来のVQAとImage captioning は主にタスクスペシ フィックなtop-downタイプの attentionを⽤いる.この論⽂で,⼈ の視覚attentionメカニズムから, salient 領域を抽出するBottom-upの attentionも⽤いることを提案した. 新規性:優れた性能でbottom-up + top- down attentionの有⽤性を⽰した.
  • 28. iVQA: Inverse Visual Question Answering [13] 28 -VQAの逆問題(画像・答え⽂から質問⽂を⽣成)を利⽤することで,データ セットバイアス性を回避する. 出⼒:質問⽂⼊⼒:画像・答え⽂ ・概要:VQA問題の逆問題iVQA設定及びモデルを提案した. ・新規性:質問⽂と⽐べ,答え⽂に含める情報量が少ないため, 従来のVQAと⽐べ, iVQA設定で画像から情報の収集が重要となる.
  • 29. VizWiz Grand Challenge: Answering Visual Questions from Blind People [17] 29 - VQAの実⽤場⾯:盲⼈のためのVQAのデータセットを提案した. ・概要:盲⼈に集められたVQAデータセットVizWiz(画像と⾳声質問⽂)を提案し た. VizWizが31,000枚の盲⼈が携帯により撮影した画像および盲⼈が提出した⾳声 質問⽂から構成される. ・新規性と挑戦:実⽤性が⾼いVQAデータセットの提案.画像と⾳声の質が相対的 に低いので,VizWizにおいて既存⼿法の精度がVQAなどと⽐べ低い,またまた VizWizにに関して努⼒できる空間がある. 従来のデータ セットと⽐べ, 画質が低い画 像のほうが多 い ⾳声質問⽂も 相対的にノイ ズが多い
  • 30. まとめ 30 - VQA taskの概要 - CVPR2018の動向分析と論⽂紹介 CVPR2018@VQAのキーワード:attention; generation; knowledge. - 未来 l Relationship reasoning, Knowledge representation, attentionの 基盤が強固になり,もっと”Vision”と“Language”の関係をもっと深 く探る l Visual Dialogのあたりに移りつつある + 会話で必要な知識を得る + Interactive的に環境から知識を得るプロセス + Zero-shot learning l Embodied Question Answeringが期待される?
  • 31. Thanks for your time! 31
  • 32. 参考資料 32 • [1] Antol, Stanislaw, et al. "Vqa: Visual question answering." Proceedings of the IEEE international conference on computer vision. 2015. • [2] Goyal, Yash, et al. "Making the V in VQA matter: Elevating the role of image understanding in Visual Question Answering." CVPR. Vol. 1. No. 2. 2017. • [3] Johnson, Justin, et al. "CLEVR: A diagnostic dataset for compositional language and elementary visual reasoning." Computer Vision and Pattern Recognition (CVPR), 2017 IEEE Conference on. IEEE, 2017. • [4] Das, Abhishek, et al. "Embodied question answering." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 2018. • [5] Wang, Peng, et al. "Fvqa: Fact-based visual question answering." IEEE transactions on pattern analysis and machine intelligence (2017). • [6] Kafle, Kushal, et al. "DVQA: Understanding data visualizations via question answering." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018. • [7] Li, Juzheng, et al. "Textbook Question Answering Under Instructor Guidance With Memory Networks." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018.
  • 33. 参考資料 33 • [8] Gordon, Daniel, et al. "IQA: Visual question answering in interactive environments." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018. • [9] Misra, Ishan, et al. "Learning by Asking Questions." arXiv preprint arXiv:1712.01238 (2017). • [10] Anderson, Peter, et al. "Bottom-up and top-down attention for image captioning and visual question answering." CVPR. Vol. 3. No. 5. 2018. • [11] Nguyen, Duy-Kien, and Takayuki Okatani. "Improved Fusion of Visual and Language Representations by Dense Symmetric Co-Attention for Visual Question Answering.“ • [12] Li, Yikang, et al. "Visual question generation as dual task of visual question answering." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018. • [13] Liu, Feng, et al. "iVQA: Inverse visual question answering." arXiv preprint arXiv:1710.03370 (2017). • [14] Jayaraman, Dinesh, and Kristen Grauman. "Learning to look around: Intelligently exploring unseen environments for unknown tasks." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018.
  • 34. 参考資料 34 • [15] Su, Zhou, et al. "Learning Visual Knowledge Memory Networks for Visual Question Answering." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018. • [16] Shin, Andrew, Yoshitaka Ushiku, and Tatsuya Harada. "Customized Image Narrative Generation via Interactive Visual Question Generation and Answering." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018. • [17] Gurari, Danna, et al. "VizWiz Grand Challenge: Answering Visual Questions from Blind People." arXiv preprint arXiv:1802.08218 (2018).