SlideShare uma empresa Scribd logo
1 de 62
Baixar para ler offline


Vision and Language



山本,邱,笠井

http://xpaperchallenge.org/cv 

概要

● 昨年実施したメタスタディの最新版.画像と言語の融合問題(所謂Vision and
Language)に関する研究について調査
● 主に昨年取り上げていないタスクや,最新の研究を中心に調査.
コンテンツ

● タスク別サーベイ
○ Embodied Question Answering
○ Vision and Language Navigation
○ Retrieval
○ Pre-trained Model
● CVPR/ICCVにおける動向
○ CVPR2019, ICCV2019のVision and Language論文まとめ
Embodied Question
Answering
概要:EQAとは

・EQA (Embodied Question Answering):
 Agentが与えられた質問を回答するために,First
person viewの環境で,自己ナビし,質問回答するのに
必要な視覚情報を集め,質問を回答するタスク


概要:EQA研究に関しての所感

・VQAタスクより一層複雑になった;
・Facebook AI/Reality labやDevi Parikh & Dhruv Batra の研究室がLeadし
ている;
・タスクの複雑化・解析化・Multi-sensoryデータを使う;
・Internet-visionとEmbodiedの結合もかなり重要になってくるではないか;
・AI Habitatが提案され、EQAをさわりやすくなってきた;


概要:EQAデータセット

・EQA v1.0:


概要:EQAデータセット

・MT-EQA ( Multi-target EQA dataset ):
・MP3DEQA : Matterport 3D datasetをベースに
Embodied Question Answering

会議 : CVPR 2018

著者 : Abhishek Das, Samyak Datta, Georgia Gkioxari, Stefan Lee, Devi Parikh, Dhruv Batra



● 新しいタスクEQAを提案:質問に対して回答するために,Agentが環境に自己ナビゲーションして,質問
に関する情報を収集し,回答を行うタスク

● House3Dをベースとした新しいデータセット(バーチャル環境) の提案

● 新しいフレームワークの提案:Planner+Controller;ImitationLearning+ReinforcementLearning

perceive (first person view), communicate (Question answering), act
(self-navigation)できるEmbodied Agentのタスクの提案





Neural Modular Control for Embodied Question Answering

会議 : CoRL 2018

著者 : Abhishek Das, Georgia Gkioxari, Stefan Lee, Devi Parikh, Dhruv Batra



● EQAタスクの新しいModular手法の提案.EQAタスクをマルチレベルに分割し,階層的なモデルにより
EQA問題を解く.

● 事前定義したNeural Moduleで高レベルのSub-goals を解く.定義したモジュールが解釈性を持つ
(“exist room”, “find kitchen”, etc.)

● Behavior CloningでSub-goalモジュールを事前学習し,さらに強化学習により再学習する.

● 前作のEQAで提案した手法より,NavigationとQAの精度を大幅向上した.



EQAタスクのための階層的,解釈性が高いモデルの提案.









Multi-Target Embodied Question Answering

会議 : CVPR 2019

著者 : Licheng Yu, Xinlei Chen, Georgia Gkioxari, Mohit Bansal, Tamara L. Berg, Dhruv Batra


● EQAタスクをMulti-target化した.MT-EQAタスクで,一つの質問が2つのLocationに存在する情報に関
係し,それらの情報を得て,比較するなどの能力が必要.

● Modularベースの4パーツから構成されるモデルを提案:program generatorがNeural Modulesを生成
;NavigatorがAgentをMulti-locationまでナビゲートする;controllerがPath中に質問回答に必要な
Observationsを選択する;VQAモデルがQに対して回答を行う.

● EQAv1.0をベースにMT-EQAデータセットを提案.

EQAタスクをMulti-target化した







Embodied Question Answering in Photorealistic Environments with Point Cloud Perception
会議 : CVPR 2019

著者 : Erik Wijmans, Samyak Datta, Oleksandr Maksymets, Abhishek Das, Georgia Gkioxari, Stefan Lee,
Irfan Essa, Devi Parikh, Dhruv Batra

● 従来のCG環境をベースとしたEQAデータセットと大規模室内データセットMatterport3Dをベースに
,MP3DEQAデータセットを提案

● MP3DEQAデータセットにおいて,RGB画像,Pointcloudデータに対して,網羅的な実験調査を行った.

● EQAv1.0の評価指標を用いた場合,実験によりいくつかの重要な知見を得られた:Forward-onlyと
RandomといったNaiveなベースラインはMP3Dにおいてそれらの性能を超えることが難しい
;ImitationLearningに用いられるWeightingScheme Inflection Weightingを提案;Obstacle avoidanceにお
いてPCDがRGB画像より性能が良い



EQAタスクのためのRealicstic環境でデータセットを提案







Vision and Language
Navigation
概要:VLNとは

・VLN (Vision Language Navigation):
 Agentが与えられた自然言語Instructionに従って
,First person viewの環境で,Instructionが示唆してい
るGoalまで自己ナビするタスク

概要:VLN研究に関しての所感

・VLNではMappingを取り扱うフレームワークがほとんど見ていない
・EQAやVLNなどの研究において,実環境への汎化性能が重要そう


概要:VLNデータセット

・AI2-THOR:(Visual Navigation用)
・R2R (Room2Room dataset):
Target-driven Visual Navigation in Indoor Scenes using
Deep Reinforcement Learning (Visual Navigation)


会議 : ICRA 2017

著者 : Yuke Zhu ; Roozbeh Mottaghi ; Eric Kolve ; Joseph J. Lim ; Abhinav Gupta ; Li Fei-Fei ; Ali Farhadi


● Target-driven visual navigationタスクを提案:入力がターゲット画像,First Person viewのScene,Agent
がターゲット画像が対応している領域まで自己ナビ.

● 3D simulated 環境AI2-THORを提案.

● 強化学習をベースとした手法を提案.

● Unseen TargetへのTarget generalization; Unseen SceneへのScene generation;Real-world
generalizationの3つの面から実験を行った.

Target-driven Visual Navigationタスクを提案





Cognitive Mapping and Planning for Visual Navigation
(Visual Navigation)


会議 : CVPR 2017

著者 : Saurabh Gupta, James Davidson, Sergey Levine, Rahul Sukthankar, Jitendra Malik


● Target-driven visual navigationのための手法を提案.

● 提案手法は first person viewsから環境でのTarget-driven自己ナビが可能.

● 提案手法Cognitive Mapper and PlannerがMappingとPlanningをUnifiedしたフレームワークであり
,Spatial Memoryを用いることで,世界のIncomplete観測からPlanが可能.

● 

Novel環境で自己ナビ可能なVisualNavigagtion手法の提案





SplitNet: Sim2Sim and Task2Task Transfer for Embodied
Visual Navigation (Visual Navigation)


会議 : ICCV 2019

著者 : Daniel Gordon, Abhishek Kadian, Devi Parikh, Judy Hoffman, Dhruv Batra


● VLNやEQA手法のVisual perceptionとPolicy LearningをDecouplingする手法を提案.

● Embodied系のタスクでの世界を感知する部分と感知をベースのActを分離し,従来手法より,異なる
Simulatorsへの汎化性を向上した.Sim2Realに一歩先に近づけた.また,Novel Emboided Navigationタ
スクへの汎化性能も示した(学習時間と学習データセットの大きさを減らせた).

新しいUnseenデータセット,新しいEmbodiedタスクで高い汎化性能を得ら
れるフレームワークの提案





Learning to Learn How to Learn: Self-Adaptive Visual
Navigation using Meta-Learning (Visual Navigation)


会議 : CVPR 2019

著者 : Mitchell Wortsman, Kiana Ehsani, Mohammad Rastegari, Ali Farhadi, Roozbeh Mottaghi

● Meta-LearningをVisual Navigagtionに導入し,学習段階もテスト段階もパラメータ更新を行う.

● Meta-reinforcementベースな手法を提案し,Self-supervised intercation lossを導入することで,効率的
なNavigationができる.

● AI2-THORフレームワークにおいて,SOTAな結果及びUnseen Sceneに対しての強い汎化性能をしめし
た.

Meta-LearningメカニズムをVisual Navigagtionに導入





Reinforced Cross-Modal Matching and Self-Supervised
Imitation Learning for Vision-Language Navigation


会議 : CVPR 2019

著者 : Xin Wang, Qiuyuan Huang, Asli Celikyilmaz, Jianfeng Gao, Dinghan Shen, Yuan-Fang Wang, William
Yang Wang, Lei Zhang

● Vision-Language navigation (VLN)のためのSOTAな手法を提案.

● 3つの問題を解くための仕組みを提案した.① cross-modal grounding: ローカルとグローバル両方から
cross-modal groundingを行う強化学習で対応;②ill-posed feedback: intrinsic rewardを用いたMatching
criticを提案し,instructionとTrajectoriesのグローバルMatchingを行える.③generalization problems:
self-supervised imitation learning手法を提案し,Unseen環境への対応を高めた.

SOTAなVLN手法の提案.ほかのEmbodiedタスクにも使えるいつくか有力
なメカニズムも同時に提案





Tactical Rewind: Self-Correction via Backtracking in
Vision-and-Language Navigation


会議 : CVPR 2019

著者 : Liyiming Ke, Xiujun Li, Yonatan Bisk, Ari Holtzman, Zhe Gan, Jingjing Liu, Jianfeng Gao, Yejin Choi,
Siddhartha Srinivasa
● VLNタスクのためのFrontier Aware Search with backTraking (FAST) 手法を提案.

● 従来手法はbeam searchを用いてLocal action decisionやTrajectoriesの点数付けを行っている.FAST
がLocalとGlobal信号により,経路選択を行い,更に必要な場合にBacktrackingを行う.

● 従来手法と比べ,FASTが有効的に性能を向上でき,また,Backtrackingに有効的に重複した探索を減
らせた.

ほかのVLNフレームワークに適応できる性能向上できるパーツFASTを提案





TOUCHDOWN: Natural Langauge Navigation and Spatial
Reasoning in Visual Street Environments


会議 : CVPR 2019

著者 : Howard Chen, Alane Suhr, Dipendra Misra, Noah Snavely, Yoav Artzi
● 新しいVLNのサブタスクとそのためのデータセットTOUCHDOWNを提案.提案タスクではStreetviewで
言語のInstructionによりGoalまでNavigationし,さらにHidenObjectの領域を探す.

● 提案タスクで従来手法をBenchmarkし,分析の結果により,TOUCHDOWNデータセットがChallenge的で
あることを確認した(複雑なSpatial-reasoningが必要となる).

Streetview画像をベースとしたVision Language Navigagtionデータセットと
ベースライン手法を提案



画像・テキスト検索
概要

● 画像・テキストのコンテンツベースの検索を行う手法
● 共通空間への埋め込み (Visual-Semantic Embedding)
○ Visual:画像側、VGG, ResNet 等による埋め込み
○ Semantic:言語側、単語埋め込み・LSTM 等で埋め込み
Unifying Visual-Semantic Embeddings with Multimodal Neural Language Models

会議 : NIPS 2014 WS

著者 : Ryan Kiros, Ruslan Salakhutdinov, Richard S. Zemel



● 説明

ニューラルモデルを用いて画像・テキスト検索に加え言語モデルを追加した論文。Visual-Semantic
Embedding の提案は DeViSE [Frome+, NIPS 2013] だが、本論文が画像・テキスト検索のベースラインと
なっている (Flickr30K I2C Rec@1: 23.0, C2I Rec@1: 16.8)。マルチモーダル共通空間の学習には 画像・テ
キストの pair-wise ランキング損失を用いている。シンプルな発想で、実際に生成したキャプションも公開し
ている。

画像・テキスト検索の基本、キャプショニングも同時に行う

VSE++: Improving Visual-Semantic Embeddings with Hard Negatives

会議 : BMVC 2018

著者 : Fartash Faghri, David J Fleet, Jamie Ryan Kiros, Sanja Fidler



● 説明

検索精度が高くなるような Visual-Semantic Embedding の損失の学習方法を提案。Pairwise ranking loss
の負例の取り方として、ミニバッチ内の他のサンプルをとってくることが多い。ミニバッチ内でもっとも難しい
負例のみで損失を取ることで、学習が振動せずスムーズに進むことを検証。また、バッチサイズの効果も考
慮していて、さらに再現性のためコードを公開。

画像・テキスト検索の中で Hard Negative Sampling の

重要性を検証、新しい VSE のベースライン

Learning Visually-Grounded Semantics from Contrastive Adversarial Samples

会議 : COLING 2018

著者 : Haoyue Shi, Jiayuan Mao, Tete Xiao, Yuning Jiang, Jian Sun



● 説明

言語側の負例を、Noun / Numeral / Relation を改変することで作成。従来の学習による埋め込みと比較し
て、よりキャプションの要となる位置に注目して埋め込みを行なっていることを検証。作成した負例による学
習を行うことで Adversarial Attack にもモデルが頑健になる。

Adversarial Attack に強い画像・テキスト検索

UniVSE: Robust Visual Semantic Embeddings via Structured Semantic Representations

会議 : CVPR 2019

著者 : Hao Wu, Jiayuan Mao, Yufeng Zhang, Yuning Jiang, Lei Li, Weiwei Sun, Wei-Ying Ma



● 説明

画像・テキスト埋め込みにおいて、キャプション全体だけでなく Entity, Attribute + Entity なども共通空間に
埋め込めるように、さらに画像全体だけでなく画像の局所領域も埋め込めるようにする論文。画像・キャプ
ションのペアのみから弱教師学習でこれを行い、相互検索の頑健性・検索精度をあげるとともに構文解析
や画像中の Entity 検索もできるようにした。

局所的な意味も考慮した Visual-Semantic Embedding

事前学習モデル
概要

● コンピュータビジョンにおける事前学習モデル
○ Alexnet, VGG, ResNet etc.
○ ImageNetで学習したものをfine-tuning
● 自然言語処理における事前学習モデルとしてElmoが存在したが,
重みは更新せずに特徴量として利用
● 2018年自然言語処理の事前学習モデルBERTをgoogleが発表
○ Elmoと異なり,fine-tuningして利用
○ 11のタスクにおいてstate-of-the-artを更新
● 以後RoBERTa, XLNetなど自然言語処理における事前学習モデル
が数多く登場
概要

● 言語のみを入力とするモデルだけでなく,画像と言語を入力する
事前学習モデルが2019年より立て続けに発表
● 会議採択論文(2020年4月現在)を対象に調査
出展:https://github.com/thunlp/PLMpapers
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

会議 : NAACL 2019

著者 : Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova



● 説明

Transformerベースの事前学習モデルBERT(Bidirectional Encoder Representations from Transformers)を
提案.事前学習は,maskにより置き換えたトークンを予測するMasked LM及び文章ペアが連続しているか
を予測するNext sentence predictionを考える.学習データには,BooksCorpus(800M words)とEnglish
Wikipedia(2,500M words)を利用.GLUEやMultiNLI, SQuADを含んだ11の自然言語処理のタスクにおいて
SOTAを更新したことで話題に.

NLPにおける事前学習済みモデル流行の火付け役

VideoBERT: A Joint Model for Video and Language Representation Learning

会議 : ICCV 2019

著者 : Chen Sun, Austin Myers, Carl Vondrick, Kevin Murphy, Cordelia Schmid



● 説明

動画のフレームをトークンとして扱うことで,BERTをテキストと動画のペアへ拡張したVideoBERTを提案.
学習は,テキストのmask prediction,動画のmask prediction,テキストと動画のalignment predictionの3つ
を考える.学習データとして,料理動画のデータセットであるYou Cook Ⅱの動画2000本(176時間)を用い
ている.応用タスクの例として,zero-shot action prediction, video captioning, text-to-video generation,
future forecastingが挙げられている.

BERTの構造を動画へ拡張

Fusion of Detected Objects in Text for Visual Question Answering

会議 : EMNLP 2019

著者 : Chris Alberti, Jeffrey Ling, Michael Collins, David Reitter



● 説明

Visual Commonsense Reasoningのためのネットワーク,B2T2(Bounding Boxes in Text Transformers)を提
案.BERTの構造をベースに,物体のBounding Boxに対応する箇所に画像特徴量を挿入する.事前学習
は,BERTを参考に画像とキャプションのマッチング及びマスクの予測を行う.学習データとして,画像と
キャプションのペア3M組を利用.



BERTへ画像を挿入するモデルを構築



LXMERT: Learning Cross-Modality Encoder Representations from Transformers

会議 : EMNLP 2019

著者 : Hao Tan, Mohit Bansal



● 説明

TransformerをベースとしたVision and Languageタスクのための事前学習済みモデルLXMERT (Learning
Cross-Modality Encoder Representations from Transformers)を提案.画像に関しては物体検出器により
得られたROIを1つのトークンとして扱う.画像とテキストをそれぞれ処理するObject-Relashionship
Encoder, Language Encoder及び他のモダリティを参照するCross-Modality Encoderにより構築.事前学習
は言語と画像のmask prediction,2つのモダリティのマッチング,Question Answeringを考える.学習には
MS COCO, Visual Genome, VQA v2.0, GQA balanced version, VQ-GAを利用.VQAとVisual Reasoningで
SOTA.

事前学習済みマルチモーダルTransformer

ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for
Vision-and-Language Tasks

会議 : NeurIPS 2019

著者 : Jiasen Lu, Dhruv Batra, Devi Parikh, Stefan Lee



● 説明

BERTのモデルをベースにvision and languageタスクに拡張した事前学習モデルViLBERTを提案.画像に
関しては,物体検出により得られたROIを1つのトークンとして扱う.画像とテキストを独立して処理をした後
,もう一方のモダリティをkeyとvalueとして扱うco-transformerレイヤーを導入.事前学習にはBERTを参考
に,マスクの推定及び画像とテキストのalignment予測の2つのタスクを考える.学習データにはConceptial
Captioningデータセットの約310万の画像テキストペアを使用.応用タスクとして,Visual Question
Answering, Visual Commonsense Reasoning, Grounding Referring Expressions, Caption-Based Image
Retrievalの4つのタスクを挙げている.

画像と言語を相互参照するtransformerを導入

12-in-1: Multi-Task Vision and Language Representation Learning

会議 : CVPR 2020

著者 : Jiasen Lu, Vedanuj Goswami, Marcus Rohrbach, Devi Parikh, Stefan Lee



● 説明

Vision and Language研究の多くは各タスクが独立して進まれている.現実問題としては,物
体の色を理解するなど他のタスクと共通した部分が多い.そこで,ViLBERTをEncoderとして
,6つのタスク合計12のデータセットを用いたマルチタスク学習を行った.学習の結果,11の
データセットにおいてSOTAを更新することに成功し,Vision and Languageにおけるマルチタ
スク学習の有効性を示した.

V&L研究におけるマルチタスク学習の有効性を検証







VL-BERT: Pre-training of Generic Visual-Linguistic Representations

会議 : ICLR 2020

著者 : Weijie Su, Xizhou Zhu, Yue Cao, Bin Li, Lewei Lu, Furu Wei, Jifeng Dai



● 説明

言語+画像の事前学習モデルVL-BERTを提案.言語と画像を独立して処理した後に相互に
アテンションを求めるLXMERTやViLBERTと異なり,BERTの構造をそのまま拡張したモデルと
なっている.学習データはConceptual Captionsの画像+キャプションペア及びBERTで用いら
れている2つの言語コーパス.事前学習では,マスクされたトークンもしくはROIの予測を行い
,他のモデルのようなalignmentは含まない.応用タスクとして挙げているのは,Visual
Commonsense Reasoning, Visual Question Answering, Referring Expression Comprehension
の3つ.

BERTの構造を言語+画像に拡張

Unified Vision-Language Pre-Training for Image Captioning and VQA

会議 : AAAI 2020

著者 : Luowei Zhou, Hamid Palangi, Lei Zhang, Houdong Hu, Jason J. Corso, Jianfeng Gao

● 説明

Vision and Languageタスクのためのモデル,unified Vision-Language Pre-training(VLP)モデ
ルを提案.従来のEncoderのみのモデルだけでなく,Decoderも学習することでキャプショニン
グなどのタスクへの適用が可能.事前学習は,ランダムに置換されたマスクの予測及びテキ
ストを一単語ずつ予測するseq2seqの2つのタスクを考える.データセットは画像とキャプション
のペアを使用.応用タスクとして,Image captioningとVQAの2つを提示.

Decoderを含んだ事前学習モデル

研究機関

各論文の機関まとめ
● 企業単独もしくは企業と大学の連携による研究が大半
● 企業が関わっていない研究はLXMERTのみ
● 大規模な実験が必要になるので、リソースのある企業が有利?
○ BERTの場合BASEは4TPU, LARGEは16TPU
モデル 研究機関
BERT Google
VideoBERT Google
B2T2 Google
LXMERT UNC Chapell Hill
ViLBERT Georgia Institute of Technology, FAIR, Oregon State Univ.
VLBERT Univ. of Science and Technology of China, MSRA
VLP Univ. of Michigan, MS
データセット

事前学習に用いるデータ
● 既存のデータセットを活用することが多い
● 画像+テキストのセットを主に使用
● 規模の面でConceptual Captionsが主に採用されてい
る(ViLBERT, VL-BERT, B2T2)
● Conceptual Captionsの文は短いものが多いため
,VL-BERTではBERTで用いられているテキストのみの
コーパスも併せて利用
● 学習方法はBERTのものをベースにしていることが多い
● 多タスク学習
● 12-in-1(Lu+CVPR2020)では,事前学習に加えマルチタ
スク学習を実施


応用タスク

紹介されているタスク
● 画像+テキスト
● VQA, VCR, image retrieval, referring expressions,
multi-modal verification, image captioning
● 動画+テキスト(VideoBERT)
● action prediction, video captioning, text-to-video
generation, future forecasting
B2T2以外のモデルでは,複数のタスクに適用可能であることを実
験により示している


CVPR/ICCV動向
Deep Modular Co-Attention Networks for Visual Question
Answering (CVPR 2019)

 ● デンスなIntra-モジュール関係をモデリングするSA(self-attention)と
Inter-モジュールの関係をモデリングできるGA)(guided-attention)の2つ
のattentionメカニズムを設計した
● 更に,SAとGAを組み合わせたModule Co-Attention Layerを提案.
MCAをCascadedで積み重ねることでDepthでReasoningを行える

GQA: A New Dataset for Real-World Visual Reasoning and
Compositional Question Answering (CVPR 2019)

 ● VQAモデルのconsistency;validity&Plausibility;
Distribution;Groundingなどの能力,特にCompositional Reasoning能
力を評価できる新しいベンチマークデータセットGQAの提案
● VisualGenomeデータセットの画像,デンス物体Regionアノテーション及
びScene Graphを利用してデータセットを構築;質問ごとにFunction
Programを定義

Towards VQA Models That Can Read (CVPR 2019)


● V画像中に含むTextに関する質問応答のVQA問題設定,データセット及
びフレームワークの提案


Actively Seeking and Learning from Live Data (CVPR 2019)


● 外部知識を参照する(additional Q/AsかImage/Captions)VQA手法を
提案.(なかなか重要な設定だと思います)
● VQA-CPデータセット(train,test集のAnswer分布が異なるデータセット)
でSOTAな精度を達成

Unsupervised Image Captioning (CVPR 2019)


● UnsupervisedなImage Captioning手法を提案.画像集,センテンス
corpus及びVisual concept detectorから学習を行える
● センテンスcorpusからセンテンス生成の学習を行い,画像からVisual
conceptを検出し,検出されたconceptが含まれるようにセンテンスを生
成
Cycle-Consistency for Robust Visual Question Answering (CVPR
2019)

 ● 従来のVQA手法は同じ意味を持った異なる質問文の入力から予測する
答えの一致性が低いという問題点がある的VQAモデルに
Cycle-Consistencyを導入し,このような問題を緩和する
● VQAモデルの一致性(同じ意味を持った質問文に対し一致した回答をす
る)を評価できるVQA-Rephrasingsデータセットを提案
Two Body Problem: Collaborative Visual Task Completion (CVPR
2019)

 ● Collaborative-agentのフレームワークを提案.Agentが異なる位置から
スタートし,同じ領域までNavigationを行う;Agent間に自然言語により
情報交換を行う
● 実験結果によりAgent間の情報交換を行うことで,性能が比較的良い
Text2Scene: Generating Compositional Scenes From Textual
Description (CVPR 2019)

 ● Textからシーンの画像(scene layout)を生成するSeq2seqモデルを提案
;画像生成段階ではGANsを用いずに予測モデルを使用
● GANs手法と匹敵する精度で画像を生成できる.更に,生成のプロセス
のInterpretabilityが高い
Social-IQ: A Question Answering Benchmark for Artificial Social
Intelligence (CVPR 2019)

 ● unconstrainedなSocial intelligent技術の学習,評価のQuestion
AnsweringデータセットSocial-IQを提案.
● Social-IQデータセットは1,250social situationsを含め,7,500質問及び
52,500回答から構成される.social phenomena, mental stateと
attribute, multimodal behavior, referencingなどのタイプがある
● Human精度が95.08%と比べ,従来の他のVQAデータセットは
Social-IQにおいて精度が低い現状
Multi-task Learning of Hierachical Vision-Language Representation
(CVPR 2019)

 ● Image Caption Retrieval,Visual GroundingとVQAの3つのタスクを学
習するMulti-task Learningフレームワークを提案した(左下).
● StackedなDense co-attention Encoderとtask specific decoders構造
を用いる.ICRタスクを浅い構造、VGをICRより深い構造VQAに対し最
も深い構造を用いる
● Multi-task学習を行うことでVQAの性能を向上した
Habitat: A Platform for Embodied AI Research (ICCV 2019)


● 新しいAI Platform Habitatを提案.高度リアルの3次元環境で一連の
Embodied Agentsの学習ができる.
● 実験により学習ベースがSLAMベースより限定された環境で良い精度を
得られた
Robust Change Captioning (ICCV 2019)


● Sceneの変化をCaptioningする手法のタスクの提案.
Visual Semantic Reasoning for Image-Text Matching (ICCV 2019)


● GCNを用いてImage Regions間のSemantic Relationshipsを考慮した
特徴抽出を行う.
● 提案手法を実装したImage Captioning手法がMS-COCOとFlicker30K
においてSOTAな結果を得られた
Learning to Assemble Neural Module Tree Networks for Visual
Grounding (ICCV 2019)

 ● Intuitive, explainable, compositeなvisual groundingモデルNeural
Module Tree networkを提案.NodeがNeural Moduleで言語特徴によ
り画像に対してAttentionを計算,grouding scoreはBottom-up方向で累
積される
What is Wrong With Scene Text Recognition Model Comparisons?
Dataset and Model Analysis (ICCV 2019)

 ● Scene-Text recognitionの従来手法の網羅的調査を行った.①学習と
評価データセットのInconsistencyを検証し,それにより生まれた性能の
ギャップを検討した.②従来のSTR手法に埋め込めるunited 4-stage
STRを提案しそれにより性能向上させた.③モデルごとに影響を分析し
た
Taking a HINT: Leveraging Explanations to Make Vision and
Language Models More Grounded (ICCV 2019)

 ● Human importance-aware Network Tuning (HINT)を提案し,有効的
HumanのAttentionをVQAモデルのAttentionをリードする
● データセットの収集プロセスは速い・Scalable・追加の手動Annotation
が必要ない.提案のデータセットが従来のデータセットより良い性能を示
した
HowTo100M: Learning a Text-Video Embedding by Watching
Hundred Million Narrated Video Clips (ICCV 2019)

 ● Text-video embeddingsのための大規模データセットHowTo100Mを提
案.(136 M videos)
● Human attention mapsとgradient-based network importantsを一致さ
せるように最適化する.VQA-CPデータセットにおいて従来の手法を大
幅に向上させた
Language-Agnostic Visual-Semantic Embeddings (ICCV 2019)


● Language-invariant cross-modal retrievalのためのフレームワークを
提案.また,新しいcharacter-based word-embedding手法を提案し,
異なる言語の類似単語を同じword-embedding spaceに射影できる

Mais conteúdo relacionado

Mais procurados

【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised LearningまとめDeep Learning JP
 
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...SSII
 
ドメイン適応の原理と応用
ドメイン適応の原理と応用ドメイン適応の原理と応用
ドメイン適応の原理と応用Yoshitaka Ushiku
 
SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習
SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習
SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習SSII
 
これからの Vision & Language ~ Acadexit した4つの理由
これからの Vision & Language ~ Acadexit した4つの理由これからの Vision & Language ~ Acadexit した4つの理由
これからの Vision & Language ~ Acadexit した4つの理由Yoshitaka Ushiku
 
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Yusuke Uchida
 
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
【論文読み会】Deep Clustering for Unsupervised Learning of Visual FeaturesARISE analytics
 
画像生成・生成モデル メタサーベイ
画像生成・生成モデル メタサーベイ画像生成・生成モデル メタサーベイ
画像生成・生成モデル メタサーベイcvpaper. challenge
 
Deep Learningによる画像認識革命 ー歴史・最新理論から実践応用までー
Deep Learningによる画像認識革命 ー歴史・最新理論から実践応用までーDeep Learningによる画像認識革命 ー歴史・最新理論から実践応用までー
Deep Learningによる画像認識革命 ー歴史・最新理論から実践応用までーnlab_utokyo
 
画像キャプションの自動生成
画像キャプションの自動生成画像キャプションの自動生成
画像キャプションの自動生成Yoshitaka Ushiku
 
深層学習によるHuman Pose Estimationの基礎
深層学習によるHuman Pose Estimationの基礎深層学習によるHuman Pose Estimationの基礎
深層学習によるHuman Pose Estimationの基礎Takumi Ohkuma
 
Transformerを雰囲気で理解する
Transformerを雰囲気で理解するTransformerを雰囲気で理解する
Transformerを雰囲気で理解するAtsukiYamaguchi1
 
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion  for Generation and Editing[DL輪読会]GLIDE: Guided Language to Image Diffusion  for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and EditingDeep Learning JP
 
[DLHacks]StyleGANとBigGANのStyle mixing, morphing
[DLHacks]StyleGANとBigGANのStyle mixing, morphing[DLHacks]StyleGANとBigGANのStyle mixing, morphing
[DLHacks]StyleGANとBigGANのStyle mixing, morphingDeep Learning JP
 
Deep Learningによる超解像の進歩
Deep Learningによる超解像の進歩Deep Learningによる超解像の進歩
Deep Learningによる超解像の進歩Hiroto Honda
 
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜SSII
 
Active Learning 入門
Active Learning 入門Active Learning 入門
Active Learning 入門Shuyo Nakatani
 
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向SSII
 
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​SSII
 
DNNの曖昧性に関する研究動向
DNNの曖昧性に関する研究動向DNNの曖昧性に関する研究動向
DNNの曖昧性に関する研究動向Naoki Matsunaga
 

Mais procurados (20)

【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ
 
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
 
ドメイン適応の原理と応用
ドメイン適応の原理と応用ドメイン適応の原理と応用
ドメイン適応の原理と応用
 
SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習
SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習
SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習
 
これからの Vision & Language ~ Acadexit した4つの理由
これからの Vision & Language ~ Acadexit した4つの理由これからの Vision & Language ~ Acadexit した4つの理由
これからの Vision & Language ~ Acadexit した4つの理由
 
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
 
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
 
画像生成・生成モデル メタサーベイ
画像生成・生成モデル メタサーベイ画像生成・生成モデル メタサーベイ
画像生成・生成モデル メタサーベイ
 
Deep Learningによる画像認識革命 ー歴史・最新理論から実践応用までー
Deep Learningによる画像認識革命 ー歴史・最新理論から実践応用までーDeep Learningによる画像認識革命 ー歴史・最新理論から実践応用までー
Deep Learningによる画像認識革命 ー歴史・最新理論から実践応用までー
 
画像キャプションの自動生成
画像キャプションの自動生成画像キャプションの自動生成
画像キャプションの自動生成
 
深層学習によるHuman Pose Estimationの基礎
深層学習によるHuman Pose Estimationの基礎深層学習によるHuman Pose Estimationの基礎
深層学習によるHuman Pose Estimationの基礎
 
Transformerを雰囲気で理解する
Transformerを雰囲気で理解するTransformerを雰囲気で理解する
Transformerを雰囲気で理解する
 
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion  for Generation and Editing[DL輪読会]GLIDE: Guided Language to Image Diffusion  for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
 
[DLHacks]StyleGANとBigGANのStyle mixing, morphing
[DLHacks]StyleGANとBigGANのStyle mixing, morphing[DLHacks]StyleGANとBigGANのStyle mixing, morphing
[DLHacks]StyleGANとBigGANのStyle mixing, morphing
 
Deep Learningによる超解像の進歩
Deep Learningによる超解像の進歩Deep Learningによる超解像の進歩
Deep Learningによる超解像の進歩
 
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
 
Active Learning 入門
Active Learning 入門Active Learning 入門
Active Learning 入門
 
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
 
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
 
DNNの曖昧性に関する研究動向
DNNの曖昧性に関する研究動向DNNの曖昧性に関する研究動向
DNNの曖昧性に関する研究動向
 

Semelhante a Vision and Language(メタサーベイ )

Visual Question Answering (VQA) - CVPR2018動向分析 (CVPR 2018 完全読破チャレンジ報告会)
Visual Question Answering (VQA) - CVPR2018動向分析 (CVPR 2018 完全読破チャレンジ報告会)Visual Question Answering (VQA) - CVPR2018動向分析 (CVPR 2018 完全読破チャレンジ報告会)
Visual Question Answering (VQA) - CVPR2018動向分析 (CVPR 2018 完全読破チャレンジ報告会)cvpaper. challenge
 
【メタサーベイ】Vision and Language のトップ研究室/研究者
【メタサーベイ】Vision and Language のトップ研究室/研究者【メタサーベイ】Vision and Language のトップ研究室/研究者
【メタサーベイ】Vision and Language のトップ研究室/研究者cvpaper. challenge
 
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation 「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation Takumi Ohkuma
 
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose EstimationDeep Learning JP
 
Vision-and-Language Navigation: Interpreting visually-grounded navigation ins...
Vision-and-Language Navigation: Interpreting visually-grounded navigation ins...Vision-and-Language Navigation: Interpreting visually-grounded navigation ins...
Vision-and-Language Navigation: Interpreting visually-grounded navigation ins...Yoshitaka Ushiku
 
勉強会用資料:Javaアプリ作成
勉強会用資料:Javaアプリ作成勉強会用資料:Javaアプリ作成
勉強会用資料:Javaアプリ作成ssuser331f24
 
CVPR2017 参加報告 速報版 本会議 1日目
CVPR2017 参加報告 速報版 本会議 1日目CVPR2017 参加報告 速報版 本会議 1日目
CVPR2017 参加報告 速報版 本会議 1日目Atsushi Hashimoto
 
[DL輪読会]Collaborative Deep Metric Learning for Video Understanding(KDD2018)
[DL輪読会]Collaborative Deep Metric Learning for Video Understanding(KDD2018)[DL輪読会]Collaborative Deep Metric Learning for Video Understanding(KDD2018)
[DL輪読会]Collaborative Deep Metric Learning for Video Understanding(KDD2018)Deep Learning JP
 
文献紹介:Elaborative Rehearsal for Zero-Shot Action Recognition
文献紹介:Elaborative Rehearsal for Zero-Shot Action Recognition文献紹介:Elaborative Rehearsal for Zero-Shot Action Recognition
文献紹介:Elaborative Rehearsal for Zero-Shot Action RecognitionToru Tamaki
 
Semat - a Japanese introduction
Semat - a Japanese introductionSemat - a Japanese introduction
Semat - a Japanese introductionKenji Hiranabe
 
【DL輪読会】Transporters with Visual Foresight for Solving Unseen Rearrangement Tasks
【DL輪読会】Transporters with Visual Foresight for Solving Unseen Rearrangement Tasks【DL輪読会】Transporters with Visual Foresight for Solving Unseen Rearrangement Tasks
【DL輪読会】Transporters with Visual Foresight for Solving Unseen Rearrangement TasksDeep Learning JP
 
Unified Vision-Language Pre-Training for Image Captioning and VQA
Unified Vision-Language Pre-Training for Image Captioning and VQAUnified Vision-Language Pre-Training for Image Captioning and VQA
Unified Vision-Language Pre-Training for Image Captioning and VQAharmonylab
 
先端技術とメディア表現 第4回レポートまとめ
先端技術とメディア表現 第4回レポートまとめ先端技術とメディア表現 第4回レポートまとめ
先端技術とメディア表現 第4回レポートまとめDigital Nature Group
 
NIIpotal_tokyo(20120822)
NIIpotal_tokyo(20120822)NIIpotal_tokyo(20120822)
NIIpotal_tokyo(20120822)真 岡本
 
【CVPR 2020 メタサーベイ】Vision & Other Modalities
【CVPR 2020 メタサーベイ】Vision & Other Modalities【CVPR 2020 メタサーベイ】Vision & Other Modalities
【CVPR 2020 メタサーベイ】Vision & Other Modalitiescvpaper. challenge
 
東北大学 先端技術の基礎と実践_深層学習による画像認識とデータの話_菊池悠太
東北大学 先端技術の基礎と実践_深層学習による画像認識とデータの話_菊池悠太東北大学 先端技術の基礎と実践_深層学習による画像認識とデータの話_菊池悠太
東北大学 先端技術の基礎と実践_深層学習による画像認識とデータの話_菊池悠太Preferred Networks
 
TypeScript でオブジェクト指向プログラミング
TypeScript でオブジェクト指向プログラミングTypeScript でオブジェクト指向プログラミング
TypeScript でオブジェクト指向プログラミングkoji kobayashi
 
ドメイン駆動設計 複雑さに立ち向かう
ドメイン駆動設計 複雑さに立ち向かうドメイン駆動設計 複雑さに立ち向かう
ドメイン駆動設計 複雑さに立ち向かう増田 亨
 
20120623 cv勉強会 shirasy
20120623 cv勉強会 shirasy20120623 cv勉強会 shirasy
20120623 cv勉強会 shirasyYoichi Shirasawa
 

Semelhante a Vision and Language(メタサーベイ ) (20)

Visual Question Answering (VQA) - CVPR2018動向分析 (CVPR 2018 完全読破チャレンジ報告会)
Visual Question Answering (VQA) - CVPR2018動向分析 (CVPR 2018 完全読破チャレンジ報告会)Visual Question Answering (VQA) - CVPR2018動向分析 (CVPR 2018 完全読破チャレンジ報告会)
Visual Question Answering (VQA) - CVPR2018動向分析 (CVPR 2018 完全読破チャレンジ報告会)
 
【メタサーベイ】Vision and Language のトップ研究室/研究者
【メタサーベイ】Vision and Language のトップ研究室/研究者【メタサーベイ】Vision and Language のトップ研究室/研究者
【メタサーベイ】Vision and Language のトップ研究室/研究者
 
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation 「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
「解説資料」ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
 
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
【DL輪読会】ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
 
Vision-and-Language Navigation: Interpreting visually-grounded navigation ins...
Vision-and-Language Navigation: Interpreting visually-grounded navigation ins...Vision-and-Language Navigation: Interpreting visually-grounded navigation ins...
Vision-and-Language Navigation: Interpreting visually-grounded navigation ins...
 
勉強会用資料:Javaアプリ作成
勉強会用資料:Javaアプリ作成勉強会用資料:Javaアプリ作成
勉強会用資料:Javaアプリ作成
 
CVPR2017 参加報告 速報版 本会議 1日目
CVPR2017 参加報告 速報版 本会議 1日目CVPR2017 参加報告 速報版 本会議 1日目
CVPR2017 参加報告 速報版 本会議 1日目
 
[DL輪読会]Collaborative Deep Metric Learning for Video Understanding(KDD2018)
[DL輪読会]Collaborative Deep Metric Learning for Video Understanding(KDD2018)[DL輪読会]Collaborative Deep Metric Learning for Video Understanding(KDD2018)
[DL輪読会]Collaborative Deep Metric Learning for Video Understanding(KDD2018)
 
文献紹介:Elaborative Rehearsal for Zero-Shot Action Recognition
文献紹介:Elaborative Rehearsal for Zero-Shot Action Recognition文献紹介:Elaborative Rehearsal for Zero-Shot Action Recognition
文献紹介:Elaborative Rehearsal for Zero-Shot Action Recognition
 
Semat - a Japanese introduction
Semat - a Japanese introductionSemat - a Japanese introduction
Semat - a Japanese introduction
 
【DL輪読会】Transporters with Visual Foresight for Solving Unseen Rearrangement Tasks
【DL輪読会】Transporters with Visual Foresight for Solving Unseen Rearrangement Tasks【DL輪読会】Transporters with Visual Foresight for Solving Unseen Rearrangement Tasks
【DL輪読会】Transporters with Visual Foresight for Solving Unseen Rearrangement Tasks
 
Unified Vision-Language Pre-Training for Image Captioning and VQA
Unified Vision-Language Pre-Training for Image Captioning and VQAUnified Vision-Language Pre-Training for Image Captioning and VQA
Unified Vision-Language Pre-Training for Image Captioning and VQA
 
先端技術とメディア表現 第4回レポートまとめ
先端技術とメディア表現 第4回レポートまとめ先端技術とメディア表現 第4回レポートまとめ
先端技術とメディア表現 第4回レポートまとめ
 
NIIpotal_tokyo(20120822)
NIIpotal_tokyo(20120822)NIIpotal_tokyo(20120822)
NIIpotal_tokyo(20120822)
 
【CVPR 2020 メタサーベイ】Vision & Other Modalities
【CVPR 2020 メタサーベイ】Vision & Other Modalities【CVPR 2020 メタサーベイ】Vision & Other Modalities
【CVPR 2020 メタサーベイ】Vision & Other Modalities
 
東北大学 先端技術の基礎と実践_深層学習による画像認識とデータの話_菊池悠太
東北大学 先端技術の基礎と実践_深層学習による画像認識とデータの話_菊池悠太東北大学 先端技術の基礎と実践_深層学習による画像認識とデータの話_菊池悠太
東北大学 先端技術の基礎と実践_深層学習による画像認識とデータの話_菊池悠太
 
TypeScript でオブジェクト指向プログラミング
TypeScript でオブジェクト指向プログラミングTypeScript でオブジェクト指向プログラミング
TypeScript でオブジェクト指向プログラミング
 
ドメイン駆動設計 複雑さに立ち向かう
ドメイン駆動設計 複雑さに立ち向かうドメイン駆動設計 複雑さに立ち向かう
ドメイン駆動設計 複雑さに立ち向かう
 
20120623 cv勉強会 shirasy
20120623 cv勉強会 shirasy20120623 cv勉強会 shirasy
20120623 cv勉強会 shirasy
 
SIGGRAPH 2019 Report
SIGGRAPH 2019 ReportSIGGRAPH 2019 Report
SIGGRAPH 2019 Report
 

Último

クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfFumieNakayama
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)Hiroshi Tomioka
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...博三 太田
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案sugiuralab
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NTT DATA Technology & Innovation
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineerYuki Kikuchi
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfFumieNakayama
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?akihisamiyanaga1
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)UEHARA, Tetsutaro
 

Último (9)

クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
 

Vision and Language(メタサーベイ )

  • 3. コンテンツ
 ● タスク別サーベイ ○ Embodied Question Answering ○ Vision and Language Navigation ○ Retrieval ○ Pre-trained Model ● CVPR/ICCVにおける動向 ○ CVPR2019, ICCV2019のVision and Language論文まとめ
  • 5. 概要:EQAとは
 ・EQA (Embodied Question Answering):  Agentが与えられた質問を回答するために,First person viewの環境で,自己ナビし,質問回答するのに 必要な視覚情報を集め,質問を回答するタスク 

  • 6. 概要:EQA研究に関しての所感
 ・VQAタスクより一層複雑になった; ・Facebook AI/Reality labやDevi Parikh & Dhruv Batra の研究室がLeadし ている; ・タスクの複雑化・解析化・Multi-sensoryデータを使う; ・Internet-visionとEmbodiedの結合もかなり重要になってくるではないか; ・AI Habitatが提案され、EQAをさわりやすくなってきた; 

  • 8. 概要:EQAデータセット
 ・MT-EQA ( Multi-target EQA dataset ): ・MP3DEQA : Matterport 3D datasetをベースに
  • 9. Embodied Question Answering
 会議 : CVPR 2018
 著者 : Abhishek Das, Samyak Datta, Georgia Gkioxari, Stefan Lee, Devi Parikh, Dhruv Batra
 
 ● 新しいタスクEQAを提案:質問に対して回答するために,Agentが環境に自己ナビゲーションして,質問 に関する情報を収集し,回答を行うタスク
 ● House3Dをベースとした新しいデータセット(バーチャル環境) の提案
 ● 新しいフレームワークの提案:Planner+Controller;ImitationLearning+ReinforcementLearning
 perceive (first person view), communicate (Question answering), act (self-navigation)できるEmbodied Agentのタスクの提案
 
 

  • 10. Neural Modular Control for Embodied Question Answering
 会議 : CoRL 2018
 著者 : Abhishek Das, Georgia Gkioxari, Stefan Lee, Devi Parikh, Dhruv Batra
 
 ● EQAタスクの新しいModular手法の提案.EQAタスクをマルチレベルに分割し,階層的なモデルにより EQA問題を解く.
 ● 事前定義したNeural Moduleで高レベルのSub-goals を解く.定義したモジュールが解釈性を持つ (“exist room”, “find kitchen”, etc.)
 ● Behavior CloningでSub-goalモジュールを事前学習し,さらに強化学習により再学習する.
 ● 前作のEQAで提案した手法より,NavigationとQAの精度を大幅向上した.
 
 EQAタスクのための階層的,解釈性が高いモデルの提案.
 
 
 
 

  • 11. Multi-Target Embodied Question Answering
 会議 : CVPR 2019
 著者 : Licheng Yu, Xinlei Chen, Georgia Gkioxari, Mohit Bansal, Tamara L. Berg, Dhruv Batra 
 ● EQAタスクをMulti-target化した.MT-EQAタスクで,一つの質問が2つのLocationに存在する情報に関 係し,それらの情報を得て,比較するなどの能力が必要.
 ● Modularベースの4パーツから構成されるモデルを提案:program generatorがNeural Modulesを生成 ;NavigatorがAgentをMulti-locationまでナビゲートする;controllerがPath中に質問回答に必要な Observationsを選択する;VQAモデルがQに対して回答を行う.
 ● EQAv1.0をベースにMT-EQAデータセットを提案.
 EQAタスクをMulti-target化した
 
 
 

  • 12. Embodied Question Answering in Photorealistic Environments with Point Cloud Perception 会議 : CVPR 2019
 著者 : Erik Wijmans, Samyak Datta, Oleksandr Maksymets, Abhishek Das, Georgia Gkioxari, Stefan Lee, Irfan Essa, Devi Parikh, Dhruv Batra
 ● 従来のCG環境をベースとしたEQAデータセットと大規模室内データセットMatterport3Dをベースに ,MP3DEQAデータセットを提案
 ● MP3DEQAデータセットにおいて,RGB画像,Pointcloudデータに対して,網羅的な実験調査を行った.
 ● EQAv1.0の評価指標を用いた場合,実験によりいくつかの重要な知見を得られた:Forward-onlyと RandomといったNaiveなベースラインはMP3Dにおいてそれらの性能を超えることが難しい ;ImitationLearningに用いられるWeightingScheme Inflection Weightingを提案;Obstacle avoidanceにお いてPCDがRGB画像より性能が良い
 
 EQAタスクのためのRealicstic環境でデータセットを提案
 
 
 

  • 14. 概要:VLNとは
 ・VLN (Vision Language Navigation):  Agentが与えられた自然言語Instructionに従って ,First person viewの環境で,Instructionが示唆してい るGoalまで自己ナビするタスク

  • 17. Target-driven Visual Navigation in Indoor Scenes using Deep Reinforcement Learning (Visual Navigation) 
 会議 : ICRA 2017
 著者 : Yuke Zhu ; Roozbeh Mottaghi ; Eric Kolve ; Joseph J. Lim ; Abhinav Gupta ; Li Fei-Fei ; Ali Farhadi 
 ● Target-driven visual navigationタスクを提案:入力がターゲット画像,First Person viewのScene,Agent がターゲット画像が対応している領域まで自己ナビ.
 ● 3D simulated 環境AI2-THORを提案.
 ● 強化学習をベースとした手法を提案.
 ● Unseen TargetへのTarget generalization; Unseen SceneへのScene generation;Real-world generalizationの3つの面から実験を行った.
 Target-driven Visual Navigationタスクを提案
 
 

  • 18. Cognitive Mapping and Planning for Visual Navigation (Visual Navigation) 
 会議 : CVPR 2017
 著者 : Saurabh Gupta, James Davidson, Sergey Levine, Rahul Sukthankar, Jitendra Malik 
 ● Target-driven visual navigationのための手法を提案.
 ● 提案手法は first person viewsから環境でのTarget-driven自己ナビが可能.
 ● 提案手法Cognitive Mapper and PlannerがMappingとPlanningをUnifiedしたフレームワークであり ,Spatial Memoryを用いることで,世界のIncomplete観測からPlanが可能.
 ● 
 Novel環境で自己ナビ可能なVisualNavigagtion手法の提案
 
 

  • 19. SplitNet: Sim2Sim and Task2Task Transfer for Embodied Visual Navigation (Visual Navigation) 
 会議 : ICCV 2019
 著者 : Daniel Gordon, Abhishek Kadian, Devi Parikh, Judy Hoffman, Dhruv Batra 
 ● VLNやEQA手法のVisual perceptionとPolicy LearningをDecouplingする手法を提案.
 ● Embodied系のタスクでの世界を感知する部分と感知をベースのActを分離し,従来手法より,異なる Simulatorsへの汎化性を向上した.Sim2Realに一歩先に近づけた.また,Novel Emboided Navigationタ スクへの汎化性能も示した(学習時間と学習データセットの大きさを減らせた).
 新しいUnseenデータセット,新しいEmbodiedタスクで高い汎化性能を得ら れるフレームワークの提案
 
 

  • 20. Learning to Learn How to Learn: Self-Adaptive Visual Navigation using Meta-Learning (Visual Navigation) 
 会議 : CVPR 2019
 著者 : Mitchell Wortsman, Kiana Ehsani, Mohammad Rastegari, Ali Farhadi, Roozbeh Mottaghi
 ● Meta-LearningをVisual Navigagtionに導入し,学習段階もテスト段階もパラメータ更新を行う.
 ● Meta-reinforcementベースな手法を提案し,Self-supervised intercation lossを導入することで,効率的 なNavigationができる.
 ● AI2-THORフレームワークにおいて,SOTAな結果及びUnseen Sceneに対しての強い汎化性能をしめし た.
 Meta-LearningメカニズムをVisual Navigagtionに導入
 
 

  • 21. Reinforced Cross-Modal Matching and Self-Supervised Imitation Learning for Vision-Language Navigation 
 会議 : CVPR 2019
 著者 : Xin Wang, Qiuyuan Huang, Asli Celikyilmaz, Jianfeng Gao, Dinghan Shen, Yuan-Fang Wang, William Yang Wang, Lei Zhang
 ● Vision-Language navigation (VLN)のためのSOTAな手法を提案.
 ● 3つの問題を解くための仕組みを提案した.① cross-modal grounding: ローカルとグローバル両方から cross-modal groundingを行う強化学習で対応;②ill-posed feedback: intrinsic rewardを用いたMatching criticを提案し,instructionとTrajectoriesのグローバルMatchingを行える.③generalization problems: self-supervised imitation learning手法を提案し,Unseen環境への対応を高めた.
 SOTAなVLN手法の提案.ほかのEmbodiedタスクにも使えるいつくか有力 なメカニズムも同時に提案
 
 

  • 22. Tactical Rewind: Self-Correction via Backtracking in Vision-and-Language Navigation 
 会議 : CVPR 2019
 著者 : Liyiming Ke, Xiujun Li, Yonatan Bisk, Ari Holtzman, Zhe Gan, Jingjing Liu, Jianfeng Gao, Yejin Choi, Siddhartha Srinivasa ● VLNタスクのためのFrontier Aware Search with backTraking (FAST) 手法を提案.
 ● 従来手法はbeam searchを用いてLocal action decisionやTrajectoriesの点数付けを行っている.FAST がLocalとGlobal信号により,経路選択を行い,更に必要な場合にBacktrackingを行う.
 ● 従来手法と比べ,FASTが有効的に性能を向上でき,また,Backtrackingに有効的に重複した探索を減 らせた.
 ほかのVLNフレームワークに適応できる性能向上できるパーツFASTを提案
 
 

  • 23. TOUCHDOWN: Natural Langauge Navigation and Spatial Reasoning in Visual Street Environments 
 会議 : CVPR 2019
 著者 : Howard Chen, Alane Suhr, Dipendra Misra, Noah Snavely, Yoav Artzi ● 新しいVLNのサブタスクとそのためのデータセットTOUCHDOWNを提案.提案タスクではStreetviewで 言語のInstructionによりGoalまでNavigationし,さらにHidenObjectの領域を探す.
 ● 提案タスクで従来手法をBenchmarkし,分析の結果により,TOUCHDOWNデータセットがChallenge的で あることを確認した(複雑なSpatial-reasoningが必要となる).
 Streetview画像をベースとしたVision Language Navigagtionデータセットと ベースライン手法を提案
 

  • 25. 概要
 ● 画像・テキストのコンテンツベースの検索を行う手法 ● 共通空間への埋め込み (Visual-Semantic Embedding) ○ Visual:画像側、VGG, ResNet 等による埋め込み ○ Semantic:言語側、単語埋め込み・LSTM 等で埋め込み
  • 26. Unifying Visual-Semantic Embeddings with Multimodal Neural Language Models
 会議 : NIPS 2014 WS
 著者 : Ryan Kiros, Ruslan Salakhutdinov, Richard S. Zemel
 
 ● 説明
 ニューラルモデルを用いて画像・テキスト検索に加え言語モデルを追加した論文。Visual-Semantic Embedding の提案は DeViSE [Frome+, NIPS 2013] だが、本論文が画像・テキスト検索のベースラインと なっている (Flickr30K I2C Rec@1: 23.0, C2I Rec@1: 16.8)。マルチモーダル共通空間の学習には 画像・テ キストの pair-wise ランキング損失を用いている。シンプルな発想で、実際に生成したキャプションも公開し ている。
 画像・テキスト検索の基本、キャプショニングも同時に行う

  • 27. VSE++: Improving Visual-Semantic Embeddings with Hard Negatives
 会議 : BMVC 2018
 著者 : Fartash Faghri, David J Fleet, Jamie Ryan Kiros, Sanja Fidler
 
 ● 説明
 検索精度が高くなるような Visual-Semantic Embedding の損失の学習方法を提案。Pairwise ranking loss の負例の取り方として、ミニバッチ内の他のサンプルをとってくることが多い。ミニバッチ内でもっとも難しい 負例のみで損失を取ることで、学習が振動せずスムーズに進むことを検証。また、バッチサイズの効果も考 慮していて、さらに再現性のためコードを公開。
 画像・テキスト検索の中で Hard Negative Sampling の
 重要性を検証、新しい VSE のベースライン

  • 28. Learning Visually-Grounded Semantics from Contrastive Adversarial Samples
 会議 : COLING 2018
 著者 : Haoyue Shi, Jiayuan Mao, Tete Xiao, Yuning Jiang, Jian Sun
 
 ● 説明
 言語側の負例を、Noun / Numeral / Relation を改変することで作成。従来の学習による埋め込みと比較し て、よりキャプションの要となる位置に注目して埋め込みを行なっていることを検証。作成した負例による学 習を行うことで Adversarial Attack にもモデルが頑健になる。
 Adversarial Attack に強い画像・テキスト検索

  • 29. UniVSE: Robust Visual Semantic Embeddings via Structured Semantic Representations
 会議 : CVPR 2019
 著者 : Hao Wu, Jiayuan Mao, Yufeng Zhang, Yuning Jiang, Lei Li, Weiwei Sun, Wei-Ying Ma
 
 ● 説明
 画像・テキスト埋め込みにおいて、キャプション全体だけでなく Entity, Attribute + Entity なども共通空間に 埋め込めるように、さらに画像全体だけでなく画像の局所領域も埋め込めるようにする論文。画像・キャプ ションのペアのみから弱教師学習でこれを行い、相互検索の頑健性・検索精度をあげるとともに構文解析 や画像中の Entity 検索もできるようにした。
 局所的な意味も考慮した Visual-Semantic Embedding

  • 31. 概要
 ● コンピュータビジョンにおける事前学習モデル ○ Alexnet, VGG, ResNet etc. ○ ImageNetで学習したものをfine-tuning ● 自然言語処理における事前学習モデルとしてElmoが存在したが, 重みは更新せずに特徴量として利用 ● 2018年自然言語処理の事前学習モデルBERTをgoogleが発表 ○ Elmoと異なり,fine-tuningして利用 ○ 11のタスクにおいてstate-of-the-artを更新 ● 以後RoBERTa, XLNetなど自然言語処理における事前学習モデル が数多く登場
  • 33. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
 会議 : NAACL 2019
 著者 : Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova
 
 ● 説明
 Transformerベースの事前学習モデルBERT(Bidirectional Encoder Representations from Transformers)を 提案.事前学習は,maskにより置き換えたトークンを予測するMasked LM及び文章ペアが連続しているか を予測するNext sentence predictionを考える.学習データには,BooksCorpus(800M words)とEnglish Wikipedia(2,500M words)を利用.GLUEやMultiNLI, SQuADを含んだ11の自然言語処理のタスクにおいて SOTAを更新したことで話題に.
 NLPにおける事前学習済みモデル流行の火付け役

  • 34. VideoBERT: A Joint Model for Video and Language Representation Learning
 会議 : ICCV 2019
 著者 : Chen Sun, Austin Myers, Carl Vondrick, Kevin Murphy, Cordelia Schmid
 
 ● 説明
 動画のフレームをトークンとして扱うことで,BERTをテキストと動画のペアへ拡張したVideoBERTを提案. 学習は,テキストのmask prediction,動画のmask prediction,テキストと動画のalignment predictionの3つ を考える.学習データとして,料理動画のデータセットであるYou Cook Ⅱの動画2000本(176時間)を用い ている.応用タスクの例として,zero-shot action prediction, video captioning, text-to-video generation, future forecastingが挙げられている.
 BERTの構造を動画へ拡張

  • 35. Fusion of Detected Objects in Text for Visual Question Answering
 会議 : EMNLP 2019
 著者 : Chris Alberti, Jeffrey Ling, Michael Collins, David Reitter
 
 ● 説明
 Visual Commonsense Reasoningのためのネットワーク,B2T2(Bounding Boxes in Text Transformers)を提 案.BERTの構造をベースに,物体のBounding Boxに対応する箇所に画像特徴量を挿入する.事前学習 は,BERTを参考に画像とキャプションのマッチング及びマスクの予測を行う.学習データとして,画像と キャプションのペア3M組を利用.
 
 BERTへ画像を挿入するモデルを構築
 

  • 36. LXMERT: Learning Cross-Modality Encoder Representations from Transformers
 会議 : EMNLP 2019
 著者 : Hao Tan, Mohit Bansal
 
 ● 説明
 TransformerをベースとしたVision and Languageタスクのための事前学習済みモデルLXMERT (Learning Cross-Modality Encoder Representations from Transformers)を提案.画像に関しては物体検出器により 得られたROIを1つのトークンとして扱う.画像とテキストをそれぞれ処理するObject-Relashionship Encoder, Language Encoder及び他のモダリティを参照するCross-Modality Encoderにより構築.事前学習 は言語と画像のmask prediction,2つのモダリティのマッチング,Question Answeringを考える.学習には MS COCO, Visual Genome, VQA v2.0, GQA balanced version, VQ-GAを利用.VQAとVisual Reasoningで SOTA.
 事前学習済みマルチモーダルTransformer

  • 37. ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks
 会議 : NeurIPS 2019
 著者 : Jiasen Lu, Dhruv Batra, Devi Parikh, Stefan Lee
 
 ● 説明
 BERTのモデルをベースにvision and languageタスクに拡張した事前学習モデルViLBERTを提案.画像に 関しては,物体検出により得られたROIを1つのトークンとして扱う.画像とテキストを独立して処理をした後 ,もう一方のモダリティをkeyとvalueとして扱うco-transformerレイヤーを導入.事前学習にはBERTを参考 に,マスクの推定及び画像とテキストのalignment予測の2つのタスクを考える.学習データにはConceptial Captioningデータセットの約310万の画像テキストペアを使用.応用タスクとして,Visual Question Answering, Visual Commonsense Reasoning, Grounding Referring Expressions, Caption-Based Image Retrievalの4つのタスクを挙げている.
 画像と言語を相互参照するtransformerを導入

  • 38. 12-in-1: Multi-Task Vision and Language Representation Learning
 会議 : CVPR 2020
 著者 : Jiasen Lu, Vedanuj Goswami, Marcus Rohrbach, Devi Parikh, Stefan Lee
 
 ● 説明
 Vision and Language研究の多くは各タスクが独立して進まれている.現実問題としては,物 体の色を理解するなど他のタスクと共通した部分が多い.そこで,ViLBERTをEncoderとして ,6つのタスク合計12のデータセットを用いたマルチタスク学習を行った.学習の結果,11の データセットにおいてSOTAを更新することに成功し,Vision and Languageにおけるマルチタ スク学習の有効性を示した.
 V&L研究におけるマルチタスク学習の有効性を検証
 
 
 

  • 39. VL-BERT: Pre-training of Generic Visual-Linguistic Representations
 会議 : ICLR 2020
 著者 : Weijie Su, Xizhou Zhu, Yue Cao, Bin Li, Lewei Lu, Furu Wei, Jifeng Dai
 
 ● 説明
 言語+画像の事前学習モデルVL-BERTを提案.言語と画像を独立して処理した後に相互に アテンションを求めるLXMERTやViLBERTと異なり,BERTの構造をそのまま拡張したモデルと なっている.学習データはConceptual Captionsの画像+キャプションペア及びBERTで用いら れている2つの言語コーパス.事前学習では,マスクされたトークンもしくはROIの予測を行い ,他のモデルのようなalignmentは含まない.応用タスクとして挙げているのは,Visual Commonsense Reasoning, Visual Question Answering, Referring Expression Comprehension の3つ.
 BERTの構造を言語+画像に拡張

  • 40. Unified Vision-Language Pre-Training for Image Captioning and VQA
 会議 : AAAI 2020
 著者 : Luowei Zhou, Hamid Palangi, Lei Zhang, Houdong Hu, Jason J. Corso, Jianfeng Gao
 ● 説明
 Vision and Languageタスクのためのモデル,unified Vision-Language Pre-training(VLP)モデ ルを提案.従来のEncoderのみのモデルだけでなく,Decoderも学習することでキャプショニン グなどのタスクへの適用が可能.事前学習は,ランダムに置換されたマスクの予測及びテキ ストを一単語ずつ予測するseq2seqの2つのタスクを考える.データセットは画像とキャプション のペアを使用.応用タスクとして,Image captioningとVQAの2つを提示.
 Decoderを含んだ事前学習モデル

  • 41. 研究機関
 各論文の機関まとめ ● 企業単独もしくは企業と大学の連携による研究が大半 ● 企業が関わっていない研究はLXMERTのみ ● 大規模な実験が必要になるので、リソースのある企業が有利? ○ BERTの場合BASEは4TPU, LARGEは16TPU モデル 研究機関 BERT Google VideoBERT Google B2T2 Google LXMERT UNC Chapell Hill ViLBERT Georgia Institute of Technology, FAIR, Oregon State Univ. VLBERT Univ. of Science and Technology of China, MSRA VLP Univ. of Michigan, MS
  • 42. データセット
 事前学習に用いるデータ ● 既存のデータセットを活用することが多い ● 画像+テキストのセットを主に使用 ● 規模の面でConceptual Captionsが主に採用されてい る(ViLBERT, VL-BERT, B2T2) ● Conceptual Captionsの文は短いものが多いため ,VL-BERTではBERTで用いられているテキストのみの コーパスも併せて利用 ● 学習方法はBERTのものをベースにしていることが多い ● 多タスク学習 ● 12-in-1(Lu+CVPR2020)では,事前学習に加えマルチタ スク学習を実施 

  • 43. 応用タスク
 紹介されているタスク ● 画像+テキスト ● VQA, VCR, image retrieval, referring expressions, multi-modal verification, image captioning ● 動画+テキスト(VideoBERT) ● action prediction, video captioning, text-to-video generation, future forecasting B2T2以外のモデルでは,複数のタスクに適用可能であることを実 験により示している 

  • 45. Deep Modular Co-Attention Networks for Visual Question Answering (CVPR 2019) 
 ● デンスなIntra-モジュール関係をモデリングするSA(self-attention)と Inter-モジュールの関係をモデリングできるGA)(guided-attention)の2つ のattentionメカニズムを設計した ● 更に,SAとGAを組み合わせたModule Co-Attention Layerを提案. MCAをCascadedで積み重ねることでDepthでReasoningを行える

  • 46. GQA: A New Dataset for Real-World Visual Reasoning and Compositional Question Answering (CVPR 2019) 
 ● VQAモデルのconsistency;validity&Plausibility; Distribution;Groundingなどの能力,特にCompositional Reasoning能 力を評価できる新しいベンチマークデータセットGQAの提案 ● VisualGenomeデータセットの画像,デンス物体Regionアノテーション及 びScene Graphを利用してデータセットを構築;質問ごとにFunction Programを定義

  • 47. Towards VQA Models That Can Read (CVPR 2019) 
 ● V画像中に含むTextに関する質問応答のVQA問題設定,データセット及 びフレームワークの提案 

  • 48. Actively Seeking and Learning from Live Data (CVPR 2019) 
 ● 外部知識を参照する(additional Q/AsかImage/Captions)VQA手法を 提案.(なかなか重要な設定だと思います) ● VQA-CPデータセット(train,test集のAnswer分布が異なるデータセット) でSOTAな精度を達成

  • 49. Unsupervised Image Captioning (CVPR 2019) 
 ● UnsupervisedなImage Captioning手法を提案.画像集,センテンス corpus及びVisual concept detectorから学習を行える ● センテンスcorpusからセンテンス生成の学習を行い,画像からVisual conceptを検出し,検出されたconceptが含まれるようにセンテンスを生 成
  • 50. Cycle-Consistency for Robust Visual Question Answering (CVPR 2019) 
 ● 従来のVQA手法は同じ意味を持った異なる質問文の入力から予測する 答えの一致性が低いという問題点がある的VQAモデルに Cycle-Consistencyを導入し,このような問題を緩和する ● VQAモデルの一致性(同じ意味を持った質問文に対し一致した回答をす る)を評価できるVQA-Rephrasingsデータセットを提案
  • 51. Two Body Problem: Collaborative Visual Task Completion (CVPR 2019) 
 ● Collaborative-agentのフレームワークを提案.Agentが異なる位置から スタートし,同じ領域までNavigationを行う;Agent間に自然言語により 情報交換を行う ● 実験結果によりAgent間の情報交換を行うことで,性能が比較的良い
  • 52. Text2Scene: Generating Compositional Scenes From Textual Description (CVPR 2019) 
 ● Textからシーンの画像(scene layout)を生成するSeq2seqモデルを提案 ;画像生成段階ではGANsを用いずに予測モデルを使用 ● GANs手法と匹敵する精度で画像を生成できる.更に,生成のプロセス のInterpretabilityが高い
  • 53. Social-IQ: A Question Answering Benchmark for Artificial Social Intelligence (CVPR 2019) 
 ● unconstrainedなSocial intelligent技術の学習,評価のQuestion AnsweringデータセットSocial-IQを提案. ● Social-IQデータセットは1,250social situationsを含め,7,500質問及び 52,500回答から構成される.social phenomena, mental stateと attribute, multimodal behavior, referencingなどのタイプがある ● Human精度が95.08%と比べ,従来の他のVQAデータセットは Social-IQにおいて精度が低い現状
  • 54. Multi-task Learning of Hierachical Vision-Language Representation (CVPR 2019) 
 ● Image Caption Retrieval,Visual GroundingとVQAの3つのタスクを学 習するMulti-task Learningフレームワークを提案した(左下). ● StackedなDense co-attention Encoderとtask specific decoders構造 を用いる.ICRタスクを浅い構造、VGをICRより深い構造VQAに対し最 も深い構造を用いる ● Multi-task学習を行うことでVQAの性能を向上した
  • 55. Habitat: A Platform for Embodied AI Research (ICCV 2019) 
 ● 新しいAI Platform Habitatを提案.高度リアルの3次元環境で一連の Embodied Agentsの学習ができる. ● 実験により学習ベースがSLAMベースより限定された環境で良い精度を 得られた
  • 56. Robust Change Captioning (ICCV 2019) 
 ● Sceneの変化をCaptioningする手法のタスクの提案.
  • 57. Visual Semantic Reasoning for Image-Text Matching (ICCV 2019) 
 ● GCNを用いてImage Regions間のSemantic Relationshipsを考慮した 特徴抽出を行う. ● 提案手法を実装したImage Captioning手法がMS-COCOとFlicker30K においてSOTAな結果を得られた
  • 58. Learning to Assemble Neural Module Tree Networks for Visual Grounding (ICCV 2019) 
 ● Intuitive, explainable, compositeなvisual groundingモデルNeural Module Tree networkを提案.NodeがNeural Moduleで言語特徴によ り画像に対してAttentionを計算,grouding scoreはBottom-up方向で累 積される
  • 59. What is Wrong With Scene Text Recognition Model Comparisons? Dataset and Model Analysis (ICCV 2019) 
 ● Scene-Text recognitionの従来手法の網羅的調査を行った.①学習と 評価データセットのInconsistencyを検証し,それにより生まれた性能の ギャップを検討した.②従来のSTR手法に埋め込めるunited 4-stage STRを提案しそれにより性能向上させた.③モデルごとに影響を分析し た
  • 60. Taking a HINT: Leveraging Explanations to Make Vision and Language Models More Grounded (ICCV 2019) 
 ● Human importance-aware Network Tuning (HINT)を提案し,有効的 HumanのAttentionをVQAモデルのAttentionをリードする ● データセットの収集プロセスは速い・Scalable・追加の手動Annotation が必要ない.提案のデータセットが従来のデータセットより良い性能を示 した
  • 61. HowTo100M: Learning a Text-Video Embedding by Watching Hundred Million Narrated Video Clips (ICCV 2019) 
 ● Text-video embeddingsのための大規模データセットHowTo100Mを提 案.(136 M videos) ● Human attention mapsとgradient-based network importantsを一致さ せるように最適化する.VQA-CPデータセットにおいて従来の手法を大 幅に向上させた
  • 62. Language-Agnostic Visual-Semantic Embeddings (ICCV 2019) 
 ● Language-invariant cross-modal retrievalのためのフレームワークを 提案.また,新しいcharacter-based word-embedding手法を提案し, 異なる言語の類似単語を同じword-embedding spaceに射影できる