Vision and Language（メタサーベイ）

Vision and Language 
 
山本，邱，笠井 
http://xpaperchallenge.org/cv

概要 
● 昨年実施したメタスタディの最新版．画像と言語の融合問題(所謂Vision and
Language)に関する研究について調査
● 主に昨年取り上げていないタスクや，最新の研究を中心に調査．

コンテンツ 
● タスク別サーベイ
○ Embodied Question Answering
○ Vision and Language Navigation
○ Retrieval
○ Pre-trained Model
● CVPR/ICCVにおける動向
○ CVPR2019, ICCV2019のVision and Language論文まとめ

概要:EQAとは 
・EQA (Embodied Question Answering)：
　Agentが与えられた質問を回答するために，First
person viewの環境で，自己ナビし，質問回答するのに
必要な視覚情報を集め，質問を回答するタスク

概要:EQA研究に関しての所感 
・VQAタスクより一層複雑になった；
・Facebook AI/Reality labやDevi Parikh & Dhruv Batra の研究室がLeadし
ている；
・タスクの複雑化・解析化・Multi-sensoryデータを使う；
・Internet-visionとEmbodiedの結合もかなり重要になってくるではないか；
・AI Habitatが提案され、EQAをさわりやすくなってきた；

概要:EQAデータセット 
・EQA v1.0：

概要:EQAデータセット 
・MT-EQA ( Multi-target EQA dataset )：
・MP3DEQA : Matterport 3D datasetをベースに

Embodied Question Answering 
会議 : CVPR 2018 
著者 : Abhishek Das, Samyak Datta, Georgia Gkioxari, Stefan Lee, Devi Parikh, Dhruv Batra 
 
● 新しいタスクEQAを提案：質問に対して回答するために，Agentが環境に自己ナビゲーションして，質問
に関する情報を収集し，回答を行うタスク 
● House3Dをベースとした新しいデータセット(バーチャル環境) の提案 
● 新しいフレームワークの提案：Planner＋Controller；ImitationLearning＋ReinforcementLearning 
perceive (first person view), communicate (Question answering), act
(self-navigation)できるEmbodied Agentのタスクの提案

Neural Modular Control for Embodied Question Answering 
会議 : CoRL 2018 
著者 : Abhishek Das, Georgia Gkioxari, Stefan Lee, Devi Parikh, Dhruv Batra 
 
● EQAタスクの新しいModular手法の提案．EQAタスクをマルチレベルに分割し，階層的なモデルにより
EQA問題を解く． 
● 事前定義したNeural Moduleで高レベルのSub-goals を解く．定義したモジュールが解釈性を持つ
(“exist room”, “find kitchen”, etc.) 
● Behavior CloningでSub-goalモジュールを事前学習し，さらに強化学習により再学習する． 
● 前作のEQAで提案した手法より，NavigationとQAの精度を大幅向上した． 
 
EQAタスクのための階層的，解釈性が高いモデルの提案．

Multi-Target Embodied Question Answering 
著者 : Licheng Yu, Xinlei Chen, Georgia Gkioxari, Mohit Bansal, Tamara L. Berg, Dhruv Batra
 
● EQAタスクをMulti-target化した．MT-EQAタスクで，一つの質問が2つのLocationに存在する情報に関
係し，それらの情報を得て，比較するなどの能力が必要． 
● Modularベースの４パーツから構成されるモデルを提案：program generatorがNeural Modulesを生成
；NavigatorがAgentをMulti-locationまでナビゲートする；controllerがPath中に質問回答に必要な
Observationsを選択する；VQAモデルがQに対して回答を行う． 
● EQAｖ１．０をベースにMT-EQAデータセットを提案． 
EQAタスクをMulti-target化した

Embodied Question Answering in Photorealistic Environments with Point Cloud Perception
著者 : Erik Wijmans, Samyak Datta, Oleksandr Maksymets, Abhishek Das, Georgia Gkioxari, Stefan Lee,
Irfan Essa, Devi Parikh, Dhruv Batra 
● 従来のCG環境をベースとしたEQAデータセットと大規模室内データセットMatterport3Dをベースに
，MP3DEQAデータセットを提案 
● MP3DEQAデータセットにおいて，RGB画像，Pointcloudデータに対して，網羅的な実験調査を行った． 
● EQAv1.0の評価指標を用いた場合，実験によりいくつかの重要な知見を得られた：Forward-onlyと
RandomといったNaiveなベースラインはMP3Dにおいてそれらの性能を超えることが難しい
；ImitationLearningに用いられるWeightingScheme Inflection Weightingを提案；Obstacle avoidanceにお
いてPCDがRGB画像より性能が良い 
 
EQAタスクのためのRealicstic環境でデータセットを提案

Vision and Language
Navigation

概要:VLNとは 
・VLN (Vision Language Navigation)：
　Agentが与えられた自然言語Instructionに従って
，First person viewの環境で，Instructionが示唆してい
るGoalまで自己ナビするタスク

概要:VLN研究に関しての所感 
・VLNではMappingを取り扱うフレームワークがほとんど見ていない
・EQAやVLNなどの研究において，実環境への汎化性能が重要そう

概要:VLNデータセット 
・AI2-THOR：(Visual Navigation用)
・R2R (Room2Room dataset)：

Target-driven Visual Navigation in Indoor Scenes using
Deep Reinforcement Learning (Visual Navigation)
 
会議 : ICRA 2017 
著者 : Yuke Zhu ; Roozbeh Mottaghi ; Eric Kolve ; Joseph J. Lim ; Abhinav Gupta ; Li Fei-Fei ; Ali Farhadi
 
● Target-driven visual navigationタスクを提案：入力がターゲット画像，First Person viewのScene，Agent
がターゲット画像が対応している領域まで自己ナビ． 
● 3D simulated 環境AI2-THORを提案． 
● 強化学習をベースとした手法を提案． 
● Unseen TargetへのTarget generalization; Unseen SceneへのScene generation；Real-world
generalizationの3つの面から実験を行った． 
Target-driven Visual Navigationタスクを提案

Cognitive Mapping and Planning for Visual Navigation
(Visual Navigation)
 
著者 : Saurabh Gupta, James Davidson, Sergey Levine, Rahul Sukthankar, Jitendra Malik
 
● Target-driven visual navigationのための手法を提案． 
● 提案手法は first person viewsから環境でのTarget-driven自己ナビが可能． 
● 提案手法Cognitive Mapper and PlannerがMappingとPlanningをUnifiedしたフレームワークであり
，Spatial　Memoryを用いることで，世界のIncomplete観測からPlanが可能． 
●  
Novel環境で自己ナビ可能なVisualNavigagtion手法の提案

SplitNet: Sim2Sim and Task2Task Transfer for Embodied
Visual Navigation (Visual Navigation)
 
会議 : ICCV 2019 
著者 : Daniel Gordon, Abhishek Kadian, Devi Parikh, Judy Hoffman, Dhruv Batra
 
● VLNやEQA手法のVisual perceptionとPolicy LearningをDecouplingする手法を提案． 
● Embodied系のタスクでの世界を感知する部分と感知をベースのActを分離し，従来手法より，異なる
Simulatorsへの汎化性を向上した．Sim2Realに一歩先に近づけた．また，Novel Emboided Navigationタ
スクへの汎化性能も示した(学習時間と学習データセットの大きさを減らせた)． 
新しいUnseenデータセット，新しいEmbodiedタスクで高い汎化性能を得ら
れるフレームワークの提案

Learning to Learn How to Learn: Self-Adaptive Visual
Navigation using Meta-Learning (Visual Navigation)
 
著者 : Mitchell Wortsman, Kiana Ehsani, Mohammad Rastegari, Ali Farhadi, Roozbeh Mottaghi 
● Meta-LearningをVisual Navigagtionに導入し，学習段階もテスト段階もパラメータ更新を行う． 
● Meta-reinforcementベースな手法を提案し，Self-supervised intercation lossを導入することで，効率的
なNavigationができる． 
● AI2-THORフレームワークにおいて，SOTAな結果及びUnseen Sceneに対しての強い汎化性能をしめし
た． 
Meta-LearningメカニズムをVisual Navigagtionに導入

Reinforced Cross-Modal Matching and Self-Supervised
Imitation Learning for Vision-Language Navigation
 
著者 : Xin Wang, Qiuyuan Huang, Asli Celikyilmaz, Jianfeng Gao, Dinghan Shen, Yuan-Fang Wang, William
Yang Wang, Lei Zhang 
● Vision-Language navigation (VLN)のためのSOTAな手法を提案． 
● 3つの問題を解くための仕組みを提案した．① cross-modal grounding: ローカルとグローバル両方から
cross-modal groundingを行う強化学習で対応；②ill-posed feedback: intrinsic rewardを用いたMatching
criticを提案し，instructionとTrajectoriesのグローバルMatchingを行える．③generalization problems:
self-supervised imitation learning手法を提案し，Unseen環境への対応を高めた． 
SOTAなVLN手法の提案．ほかのEmbodiedタスクにも使えるいつくか有力
なメカニズムも同時に提案

Tactical Rewind: Self-Correction via Backtracking in
Vision-and-Language Navigation
 
著者 : Liyiming Ke, Xiujun Li, Yonatan Bisk, Ari Holtzman, Zhe Gan, Jingjing Liu, Jianfeng Gao, Yejin Choi,
Siddhartha Srinivasa
● VLNタスクのためのFrontier Aware Search with backTraking (FAST) 手法を提案． 
● 従来手法はbeam searchを用いてLocal action decisionやTrajectoriesの点数付けを行っている．FAST
がLocalとGlobal信号により，経路選択を行い，更に必要な場合にBacktrackingを行う． 
● 従来手法と比べ，FASTが有効的に性能を向上でき，また，Backtrackingに有効的に重複した探索を減
らせた． 
ほかのVLNフレームワークに適応できる性能向上できるパーツFASTを提案

TOUCHDOWN: Natural Langauge Navigation and Spatial
Reasoning in Visual Street Environments
 
著者 : Howard Chen, Alane Suhr, Dipendra Misra, Noah Snavely, Yoav Artzi
● 新しいVLNのサブタスクとそのためのデータセットTOUCHDOWNを提案．提案タスクではStreetviewで
言語のInstructionによりGoalまでNavigationし，さらにHidenObjectの領域を探す． 
● 提案タスクで従来手法をBenchmarkし，分析の結果により，TOUCHDOWNデータセットがChallenge的で
あることを確認した（複雑なSpatial-reasoningが必要となる)． 
Streetview画像をベースとしたVision Language Navigagtionデータセットと
ベースライン手法を提案

概要 
● 画像・テキストのコンテンツベースの検索を行う手法
● 共通空間への埋め込み (Visual-Semantic Embedding)
○ Visual：画像側、VGG, ResNet 等による埋め込み
○ Semantic：言語側、単語埋め込み・LSTM 等で埋め込み

Unifying Visual-Semantic Embeddings with Multimodal Neural Language Models 
会議 : NIPS 2014 WS 
著者 : Ryan Kiros, Ruslan Salakhutdinov, Richard S. Zemel 
 
● 説明 
ニューラルモデルを用いて画像・テキスト検索に加え言語モデルを追加した論文。Visual-Semantic
Embedding の提案は DeViSE [Frome+, NIPS 2013] だが、本論文が画像・テキスト検索のベースラインと
なっている (Flickr30K I2C Rec@1: 23.0, C2I Rec@1: 16.8)。マルチモーダル共通空間の学習には画像・テ
キストの pair-wise ランキング損失を用いている。シンプルな発想で、実際に生成したキャプションも公開し
ている。 
画像・テキスト検索の基本、キャプショニングも同時に行う

VSE++: Improving Visual-Semantic Embeddings with Hard Negatives 
会議 : BMVC 2018 
著者 : Fartash Faghri, David J Fleet, Jamie Ryan Kiros, Sanja Fidler 
 
● 説明 
検索精度が高くなるような Visual-Semantic Embedding の損失の学習方法を提案。Pairwise ranking loss
の負例の取り方として、ミニバッチ内の他のサンプルをとってくることが多い。ミニバッチ内でもっとも難しい
負例のみで損失を取ることで、学習が振動せずスムーズに進むことを検証。また、バッチサイズの効果も考
慮していて、さらに再現性のためコードを公開。 
画像・テキスト検索の中で Hard Negative Sampling の 
重要性を検証、新しい VSE のベースライン

Learning Visually-Grounded Semantics from Contrastive Adversarial Samples 
会議 : COLING 2018 
著者 : Haoyue Shi, Jiayuan Mao, Tete Xiao, Yuning Jiang, Jian Sun 
 
● 説明 
言語側の負例を、Noun / Numeral / Relation を改変することで作成。従来の学習による埋め込みと比較し
て、よりキャプションの要となる位置に注目して埋め込みを行なっていることを検証。作成した負例による学
習を行うことで Adversarial Attack にもモデルが頑健になる。 
Adversarial Attack に強い画像・テキスト検索

UniVSE: Robust Visual Semantic Embeddings via Structured Semantic Representations 
著者 : Hao Wu, Jiayuan Mao, Yufeng Zhang, Yuning Jiang, Lei Li, Weiwei Sun, Wei-Ying Ma 
 
● 説明 
画像・テキスト埋め込みにおいて、キャプション全体だけでなく Entity, Attribute + Entity なども共通空間に
埋め込めるように、さらに画像全体だけでなく画像の局所領域も埋め込めるようにする論文。画像・キャプ
ションのペアのみから弱教師学習でこれを行い、相互検索の頑健性・検索精度をあげるとともに構文解析
や画像中の Entity 検索もできるようにした。 
局所的な意味も考慮した Visual-Semantic Embedding

概要 
● コンピュータビジョンにおける事前学習モデル
○ Alexnet, VGG, ResNet etc.
○ ImageNetで学習したものをﬁne-tuning
● 自然言語処理における事前学習モデルとしてElmoが存在したが，
重みは更新せずに特徴量として利用
● 2018年自然言語処理の事前学習モデルBERTをgoogleが発表
○ Elmoと異なり，ﬁne-tuningして利用
○ 11のタスクにおいてstate-of-the-artを更新
● 以後RoBERTa, XLNetなど自然言語処理における事前学習モデル
が数多く登場

概要 
● 言語のみを入力とするモデルだけでなく，画像と言語を入力する
事前学習モデルが2019年より立て続けに発表
● 会議採択論文(2020年4月現在)を対象に調査
出展：https://github.com/thunlp/PLMpapers

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding 
会議 : NAACL 2019 
著者 : Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova 
 
● 説明 
Transformerベースの事前学習モデルBERT(Bidirectional Encoder Representations from Transformers)を
提案．事前学習は，maskにより置き換えたトークンを予測するMasked LM及び文章ペアが連続しているか
を予測するNext sentence predictionを考える．学習データには，BooksCorpus(800M words)とEnglish
Wikipedia(2,500M words)を利用．GLUEやMultiNLI, SQuADを含んだ11の自然言語処理のタスクにおいて
SOTAを更新したことで話題に． 
NLPにおける事前学習済みモデル流行の火付け役

VideoBERT: A Joint Model for Video and Language Representation Learning 
会議 : ICCV 2019 
著者 : Chen Sun, Austin Myers, Carl Vondrick, Kevin Murphy, Cordelia Schmid 
 
● 説明 
動画のフレームをトークンとして扱うことで，BERTをテキストと動画のペアへ拡張したVideoBERTを提案．
学習は，テキストのmask prediction，動画のmask prediction，テキストと動画のalignment predictionの3つ
を考える．学習データとして，料理動画のデータセットであるYou Cook Ⅱの動画2000本(176時間)を用い
ている．応用タスクの例として，zero-shot action prediction, video captioning, text-to-video generation,
future forecastingが挙げられている． 
BERTの構造を動画へ拡張

Fusion of Detected Objects in Text for Visual Question Answering 
会議 : EMNLP 2019 
著者 : Chris Alberti, Jeffrey Ling, Michael Collins, David Reitter 
 
● 説明 
Visual Commonsense Reasoningのためのネットワーク，B2T2(Bounding Boxes in Text Transformers)を提
案．BERTの構造をベースに，物体のBounding Boxに対応する箇所に画像特徴量を挿入する．事前学習
は，BERTを参考に画像とキャプションのマッチング及びマスクの予測を行う．学習データとして，画像と
キャプションのペア3M組を利用． 
 
BERTへ画像を挿入するモデルを構築

LXMERT: Learning Cross-Modality Encoder Representations from Transformers 
会議 : EMNLP 2019 
著者 : Hao Tan, Mohit Bansal 
 
● 説明 
TransformerをベースとしたVision and Languageタスクのための事前学習済みモデルLXMERT (Learning
Cross-Modality Encoder Representations from Transformers)を提案．画像に関しては物体検出器により
得られたROIを1つのトークンとして扱う．画像とテキストをそれぞれ処理するObject-Relashionship
Encoder, Language Encoder及び他のモダリティを参照するCross-Modality Encoderにより構築．事前学習
は言語と画像のmask prediction，2つのモダリティのマッチング，Question Answeringを考える．学習には
MS COCO, Visual Genome, VQA v2.0, GQA balanced version, VQ-GAを利用．VQAとVisual Reasoningで
SOTA． 
事前学習済みマルチモーダルTransformer

ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for
Vision-and-Language Tasks 
会議 : NeurIPS 2019 
著者 : Jiasen Lu, Dhruv Batra, Devi Parikh, Stefan Lee 
 
● 説明 
BERTのモデルをベースにvision and languageタスクに拡張した事前学習モデルViLBERTを提案．画像に
関しては，物体検出により得られたROIを1つのトークンとして扱う．画像とテキストを独立して処理をした後
，もう一方のモダリティをkeyとvalueとして扱うco-transformerレイヤーを導入．事前学習にはBERTを参考
に，マスクの推定及び画像とテキストのalignment予測の2つのタスクを考える．学習データにはConceptial
Captioningデータセットの約310万の画像テキストペアを使用．応用タスクとして，Visual Question
Answering, Visual Commonsense Reasoning, Grounding Referring Expressions, Caption-Based Image
Retrievalの4つのタスクを挙げている． 
画像と言語を相互参照するtransformerを導入

12-in-1: Multi-Task Vision and Language Representation Learning 
著者 : Jiasen Lu, Vedanuj Goswami, Marcus Rohrbach, Devi Parikh, Stefan Lee 
 
● 説明 
Vision and Language研究の多くは各タスクが独立して進まれている．現実問題としては，物
体の色を理解するなど他のタスクと共通した部分が多い．そこで，ViLBERTをEncoderとして
，6つのタスク合計12のデータセットを用いたマルチタスク学習を行った．学習の結果，11の
データセットにおいてSOTAを更新することに成功し，Vision and Languageにおけるマルチタ
スク学習の有効性を示した． 
V&L研究におけるマルチタスク学習の有効性を検証

VL-BERT: Pre-training of Generic Visual-Linguistic Representations 
会議 : ICLR 2020 
著者 : Weijie Su, Xizhou Zhu, Yue Cao, Bin Li, Lewei Lu, Furu Wei, Jifeng Dai 
 
● 説明 
言語＋画像の事前学習モデルVL-BERTを提案．言語と画像を独立して処理した後に相互に
アテンションを求めるLXMERTやViLBERTと異なり，BERTの構造をそのまま拡張したモデルと
なっている．学習データはConceptual Captionsの画像＋キャプションペア及びBERTで用いら
れている2つの言語コーパス．事前学習では，マスクされたトークンもしくはROIの予測を行い
，他のモデルのようなalignmentは含まない．応用タスクとして挙げているのは，Visual
Commonsense Reasoning, Visual Question Answering, Referring Expression Comprehension
の3つ． 
BERTの構造を言語＋画像に拡張

Unified Vision-Language Pre-Training for Image Captioning and VQA 
会議 : AAAI 2020 
著者 : Luowei Zhou, Hamid Palangi, Lei Zhang, Houdong Hu, Jason J. Corso, Jianfeng Gao 
● 説明 
Vision and Languageタスクのためのモデル，unified Vision-Language Pre-training(VLP)モデ
ルを提案．従来のEncoderのみのモデルだけでなく，Decoderも学習することでキャプショニン
グなどのタスクへの適用が可能．事前学習は，ランダムに置換されたマスクの予測及びテキ
ストを一単語ずつ予測するseq2seqの2つのタスクを考える．データセットは画像とキャプション
のペアを使用．応用タスクとして，Image captioningとVQAの2つを提示． 
Decoderを含んだ事前学習モデル

研究機関 
各論文の機関まとめ
● 企業単独もしくは企業と大学の連携による研究が大半
● 企業が関わっていない研究はLXMERTのみ
● 大規模な実験が必要になるので、リソースのある企業が有利？
○ BERTの場合BASEは4TPU, LARGEは16TPU
モデル研究機関
BERT Google
VideoBERT Google
B2T2 Google
LXMERT UNC Chapell Hill
ViLBERT Georgia Institute of Technology, FAIR, Oregon State Univ.
VLBERT Univ. of Science and Technology of China, MSRA
VLP Univ. of Michigan, MS

データセット 
事前学習に用いるデータ
● 既存のデータセットを活用することが多い
● 画像＋テキストのセットを主に使用
● 規模の面でConceptual Captionsが主に採用されてい
る(ViLBERT, VL-BERT, B2T2)
● Conceptual Captionsの文は短いものが多いため
，VL-BERTではBERTで用いられているテキストのみの
コーパスも併せて利用
● 学習方法はBERTのものをベースにしていることが多い
● 多タスク学習
● 12-in-1(Lu+CVPR2020)では，事前学習に加えマルチタ
スク学習を実施

応用タスク 
紹介されているタスク
● 画像＋テキスト
● VQA, VCR, image retrieval, referring expressions,
multi-modal veriﬁcation, image captioning
● 動画＋テキスト(VideoBERT)
● action prediction, video captioning, text-to-video
generation, future forecasting
B2T2以外のモデルでは，複数のタスクに適用可能であることを実
験により示している

Deep Modular Co-Attention Networks for Visual Question
Answering (CVPR 2019)
  ● デンスなIntra-モジュール関係をモデリングするSA(self-attention)と
Inter-モジュールの関係をモデリングできるGA)(guided-attention)の2つ
のattentionメカニズムを設計した
● 更に，SAとGAを組み合わせたModule Co-Attention Layerを提案．
MCAをCascadedで積み重ねることでDepthでReasoningを行える

GQA: A New Dataset for Real-World Visual Reasoning and
Compositional Question Answering (CVPR 2019)
  ● VQAモデルのconsistency;validity&Plausibility;
Distribution;Groundingなどの能力，特にCompositional Reasoning能
力を評価できる新しいベンチマークデータセットGQAの提案
● VisualGenomeデータセットの画像，デンス物体Regionアノテーション及
びScene Graphを利用してデータセットを構築；質問ごとにFunction
Programを定義

Towards VQA Models That Can Read (CVPR 2019)
 
● V画像中に含むTextに関する質問応答のVQA問題設定，データセット及
びフレームワークの提案

Actively Seeking and Learning from Live Data (CVPR 2019)
 
● 外部知識を参照する(additional Q/AsかImage/Captions)VQA手法を
提案．(なかなか重要な設定だと思います)
● VQA-CPデータセット(train,test集のAnswer分布が異なるデータセット)
でSOTAな精度を達成

Unsupervised Image Captioning (CVPR 2019)
 
● UnsupervisedなImage Captioning手法を提案．画像集，センテンス
corpus及びVisual concept detectorから学習を行える
● センテンスcorpusからセンテンス生成の学習を行い，画像からVisual
conceptを検出し，検出されたconceptが含まれるようにセンテンスを生
成

Cycle-Consistency for Robust Visual Question Answering (CVPR
2019)
  ● 従来のVQA手法は同じ意味を持った異なる質問文の入力から予測する
答えの一致性が低いという問題点がある的VQAモデルに
Cycle-Consistencyを導入し，このような問題を緩和する
● VQAモデルの一致性（同じ意味を持った質問文に対し一致した回答をす
る）を評価できるVQA-Rephrasingsデータセットを提案

Two Body Problem: Collaborative Visual Task Completion (CVPR
2019)
  ● Collaborative-agentのフレームワークを提案．Agentが異なる位置から
スタートし，同じ領域までNavigationを行う；Agent間に自然言語により
情報交換を行う
● 実験結果によりAgent間の情報交換を行うことで，性能が比較的良い

Text2Scene: Generating Compositional Scenes From Textual
Description (CVPR 2019)
  ● Textからシーンの画像(scene layout)を生成するSeq2seqモデルを提案
；画像生成段階ではGANsを用いずに予測モデルを使用
● GANs手法と匹敵する精度で画像を生成できる．更に，生成のプロセス
のInterpretabilityが高い

Social-IQ: A Question Answering Benchmark for Artificial Social
Intelligence (CVPR 2019)
  ● unconstrainedなSocial intelligent技術の学習，評価のQuestion
AnsweringデータセットSocial-IQを提案．
● Social-IQデータセットは1,250social situationsを含め，7,500質問及び
52,500回答から構成される．social phenomena, mental stateと
attribute, multimodal behavior, referencingなどのタイプがある
● Human精度が95.08％と比べ，従来の他のVQAデータセットは
Social-IQにおいて精度が低い現状

Multi-task Learning of Hierachical Vision-Language Representation
(CVPR 2019)
  ● Image Caption Retrieval，Visual GroundingとVQAの3つのタスクを学
習するMulti-task Learningフレームワークを提案した(左下)．
● StackedなDense co-attention Encoderとtask specific decoders構造
を用いる．ICRタスクを浅い構造、VGをICRより深い構造VQAに対し最
も深い構造を用いる
● Multi-task学習を行うことでVQAの性能を向上した

Habitat: A Platform for Embodied AI Research (ICCV 2019)
 
● 新しいAI Platform Habitatを提案．高度リアルの3次元環境で一連の
Embodied Agentsの学習ができる．
● 実験により学習ベースがSLAMベースより限定された環境で良い精度を
得られた

Robust Change Captioning (ICCV 2019)
 
● Sceneの変化をCaptioningする手法のタスクの提案．

Visual Semantic Reasoning for Image-Text Matching (ICCV 2019)
 
● GCNを用いてImage Regions間のSemantic Relationshipsを考慮した
特徴抽出を行う．
● 提案手法を実装したImage Captioning手法がMS-COCOとFlicker30K
においてSOTAな結果を得られた

Learning to Assemble Neural Module Tree Networks for Visual
Grounding (ICCV 2019)
  ● Intuitive, explainable, compositeなvisual groundingモデルNeural
Module Tree networkを提案．NodeがNeural Moduleで言語特徴によ
り画像に対してAttentionを計算，grouding scoreはBottom-up方向で累
積される

What is Wrong With Scene Text Recognition Model Comparisons?
Dataset and Model Analysis (ICCV 2019)
  ● Scene-Text recognitionの従来手法の網羅的調査を行った．①学習と
評価データセットのInconsistencyを検証し，それにより生まれた性能の
ギャップを検討した．②従来のSTR手法に埋め込めるunited 4-stage
STRを提案しそれにより性能向上させた．③モデルごとに影響を分析し
た

Taking a HINT: Leveraging Explanations to Make Vision and
Language Models More Grounded (ICCV 2019)
  ● Human importance-aware Network Tuning (HINT)を提案し，有効的
HumanのAttentionをVQAモデルのAttentionをリードする
● データセットの収集プロセスは速い・Scalable・追加の手動Annotation
が必要ない．提案のデータセットが従来のデータセットより良い性能を示
した

HowTo100M: Learning a Text-Video Embedding by Watching
Hundred Million Narrated Video Clips (ICCV 2019)
  ● Text-video embeddingsのための大規模データセットHowTo100Mを提
案．(136 M videos)
● Human attention mapsとgradient-based network importantsを一致さ
せるように最適化する．VQA-CPデータセットにおいて従来の手法を大
幅に向上させた

Language-Agnostic Visual-Semantic Embeddings (ICCV 2019)
 
● Language-invariant cross-modal retrievalのためのフレームワークを
提案．また，新しいcharacter-based word-embedding手法を提案し，
異なる言語の類似単語を同じword-embedding spaceに射影できる

Vision and Language（メタサーベイ）

Recomendados

Recomendados

Mais conteúdo relacionado

Mais procurados

Mais procurados (20)

Semelhante a Vision and Language（メタサーベイ）

Semelhante a Vision and Language（メタサーベイ） (20)

Último

Último (9)