33. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
会議 : NAACL 2019
著者 : Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova
● 説明
Transformerベースの事前学習モデルBERT(Bidirectional Encoder Representations from Transformers)を
提案.事前学習は,maskにより置き換えたトークンを予測するMasked LM及び文章ペアが連続しているか
を予測するNext sentence predictionを考える.学習データには,BooksCorpus(800M words)とEnglish
Wikipedia(2,500M words)を利用.GLUEやMultiNLI, SQuADを含んだ11の自然言語処理のタスクにおいて
SOTAを更新したことで話題に.
NLPにおける事前学習済みモデル流行の火付け役
34. VideoBERT: A Joint Model for Video and Language Representation Learning
会議 : ICCV 2019
著者 : Chen Sun, Austin Myers, Carl Vondrick, Kevin Murphy, Cordelia Schmid
● 説明
動画のフレームをトークンとして扱うことで,BERTをテキストと動画のペアへ拡張したVideoBERTを提案.
学習は,テキストのmask prediction,動画のmask prediction,テキストと動画のalignment predictionの3つ
を考える.学習データとして,料理動画のデータセットであるYou Cook Ⅱの動画2000本(176時間)を用い
ている.応用タスクの例として,zero-shot action prediction, video captioning, text-to-video generation,
future forecastingが挙げられている.
BERTの構造を動画へ拡張
35. Fusion of Detected Objects in Text for Visual Question Answering
会議 : EMNLP 2019
著者 : Chris Alberti, Jeffrey Ling, Michael Collins, David Reitter
● 説明
Visual Commonsense Reasoningのためのネットワーク,B2T2(Bounding Boxes in Text Transformers)を提
案.BERTの構造をベースに,物体のBounding Boxに対応する箇所に画像特徴量を挿入する.事前学習
は,BERTを参考に画像とキャプションのマッチング及びマスクの予測を行う.学習データとして,画像と
キャプションのペア3M組を利用.
BERTへ画像を挿入するモデルを構築
36. LXMERT: Learning Cross-Modality Encoder Representations from Transformers
会議 : EMNLP 2019
著者 : Hao Tan, Mohit Bansal
● 説明
TransformerをベースとしたVision and Languageタスクのための事前学習済みモデルLXMERT (Learning
Cross-Modality Encoder Representations from Transformers)を提案.画像に関しては物体検出器により
得られたROIを1つのトークンとして扱う.画像とテキストをそれぞれ処理するObject-Relashionship
Encoder, Language Encoder及び他のモダリティを参照するCross-Modality Encoderにより構築.事前学習
は言語と画像のmask prediction,2つのモダリティのマッチング,Question Answeringを考える.学習には
MS COCO, Visual Genome, VQA v2.0, GQA balanced version, VQ-GAを利用.VQAとVisual Reasoningで
SOTA.
事前学習済みマルチモーダルTransformer
40. Unified Vision-Language Pre-Training for Image Captioning and VQA
会議 : AAAI 2020
著者 : Luowei Zhou, Hamid Palangi, Lei Zhang, Houdong Hu, Jason J. Corso, Jianfeng Gao
● 説明
Vision and Languageタスクのためのモデル,unified Vision-Language Pre-training(VLP)モデ
ルを提案.従来のEncoderのみのモデルだけでなく,Decoderも学習することでキャプショニン
グなどのタスクへの適用が可能.事前学習は,ランダムに置換されたマスクの予測及びテキ
ストを一単語ずつ予測するseq2seqの2つのタスクを考える.データセットは画像とキャプション
のペアを使用.応用タスクとして,Image captioningとVQAの2つを提示.
Decoderを含んだ事前学習モデル
41. 研究機関
各論文の機関まとめ
● 企業単独もしくは企業と大学の連携による研究が大半
● 企業が関わっていない研究はLXMERTのみ
● 大規模な実験が必要になるので、リソースのある企業が有利?
○ BERTの場合BASEは4TPU, LARGEは16TPU
モデル 研究機関
BERT Google
VideoBERT Google
B2T2 Google
LXMERT UNC Chapell Hill
ViLBERT Georgia Institute of Technology, FAIR, Oregon State Univ.
VLBERT Univ. of Science and Technology of China, MSRA
VLP Univ. of Michigan, MS
45. Deep Modular Co-Attention Networks for Visual Question
Answering (CVPR 2019)
● デンスなIntra-モジュール関係をモデリングするSA(self-attention)と
Inter-モジュールの関係をモデリングできるGA)(guided-attention)の2つ
のattentionメカニズムを設計した
● 更に,SAとGAを組み合わせたModule Co-Attention Layerを提案.
MCAをCascadedで積み重ねることでDepthでReasoningを行える
46. GQA: A New Dataset for Real-World Visual Reasoning and
Compositional Question Answering (CVPR 2019)
● VQAモデルのconsistency;validity&Plausibility;
Distribution;Groundingなどの能力,特にCompositional Reasoning能
力を評価できる新しいベンチマークデータセットGQAの提案
● VisualGenomeデータセットの画像,デンス物体Regionアノテーション及
びScene Graphを利用してデータセットを構築;質問ごとにFunction
Programを定義
47. Towards VQA Models That Can Read (CVPR 2019)
● V画像中に含むTextに関する質問応答のVQA問題設定,データセット及
びフレームワークの提案
48. Actively Seeking and Learning from Live Data (CVPR 2019)
● 外部知識を参照する(additional Q/AsかImage/Captions)VQA手法を
提案.(なかなか重要な設定だと思います)
● VQA-CPデータセット(train,test集のAnswer分布が異なるデータセット)
でSOTAな精度を達成
55. Habitat: A Platform for Embodied AI Research (ICCV 2019)
● 新しいAI Platform Habitatを提案.高度リアルの3次元環境で一連の
Embodied Agentsの学習ができる.
● 実験により学習ベースがSLAMベースより限定された環境で良い精度を
得られた
58. Learning to Assemble Neural Module Tree Networks for Visual
Grounding (ICCV 2019)
● Intuitive, explainable, compositeなvisual groundingモデルNeural
Module Tree networkを提案.NodeがNeural Moduleで言語特徴によ
り画像に対してAttentionを計算,grouding scoreはBottom-up方向で累
積される
59. What is Wrong With Scene Text Recognition Model Comparisons?
Dataset and Model Analysis (ICCV 2019)
● Scene-Text recognitionの従来手法の網羅的調査を行った.①学習と
評価データセットのInconsistencyを検証し,それにより生まれた性能の
ギャップを検討した.②従来のSTR手法に埋め込めるunited 4-stage
STRを提案しそれにより性能向上させた.③モデルごとに影響を分析し
た
60. Taking a HINT: Leveraging Explanations to Make Vision and
Language Models More Grounded (ICCV 2019)
● Human importance-aware Network Tuning (HINT)を提案し,有効的
HumanのAttentionをVQAモデルのAttentionをリードする
● データセットの収集プロセスは速い・Scalable・追加の手動Annotation
が必要ない.提案のデータセットが従来のデータセットより良い性能を示
した
61. HowTo100M: Learning a Text-Video Embedding by Watching
Hundred Million Narrated Video Clips (ICCV 2019)
● Text-video embeddingsのための大規模データセットHowTo100Mを提
案.(136 M videos)
● Human attention mapsとgradient-based network importantsを一致さ
せるように最適化する.VQA-CPデータセットにおいて従来の手法を大
幅に向上させた