SlideShare uma empresa Scribd logo
1 de 39
1
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
Dense Captioning分野のまとめ
Kento Doi, Matsuo Lab
発表内容
• Dense captioningの一連の研究について紹介します
• Dense captioningとは?
• 画像を自然言語により密に説明する技術
• 画像の局所領域と自然言語の対応づけ
• ざっくり言うと物体検出+Image captioning
[Johnson+ CVPR’16]
2
関連研究①:イメージキャプショニング
• 画像の情報を自然言語により説明する
• NNで画像特徴抽出器と言語モデルを繋ぎend2endで学習
• 画像特徴抽出:CNN
• 言語モデル:RNN (LSTMがよく用いられる)
• attention機構を用いて効果的に画像特徴を抽出する手法等が発展
• 研究の歴史や全体像は牛久先生の資料や書籍が詳しい
• 画像キャプションの自動生成 (https://www.slideshare.net/YoshitakaUshiku/ss-57148161)
[Vinyals+ CVPR’15]
[Xu+ ICML’15]
3
関連研究②:物体検出
• 画像中の物体を矩形で検出
• Faster R-CNNやYOLOが代表的な研究
• 精度向上や高速化のためのネットワーク構造等が発展
[Ren+ NIPS’15]
4
関連研究②:物体検出 (Faster R-CNN)
• Faster R-CNNはイメージキャプショニングの研究によく用いられる
• 物体検出結果をアテンションとして使用 [Anderson+ CVPR’18] [Yao+ ECCV’18]
• Dense captioning [Johnson+ CVPR’16]
• Faster R-CNNは二段構えのネットワーク
1. Region Proposal Network (RPN) で候補領域を抽出
2. 後段のネットワーク (RoI Head) でカテゴリの予測bboxのrefineを行う
5
[Ren+ NIPS’15]
[Anderson+ CVPR’18]
Faster R-CNNのアーキテクチャ 物体検出結果をアテンションとして利用したイメージキャプショニング
Dense captioning
• Dense captioningは画像説明文生成と物体検出を組み合わせた技術
1. Faster R-CNNのRPNで候補領域を抽出
2. 各候補領域の特徴からRNNでキャプションを生成
• 以下の研究を紹介します
1. Dense captioningタスクを提案した研究 [Johnson+ CVPR’16]
2. Dense captioningの性能向上のための研究 [Yang+ CVPR’17] [Yin+
CVPR’19]
3. Dense captioningから派生した新たなタスクの提案 [Kim+ CVPR’19]
6
1. DenseCap: Fully Convolutional
Localization Networks for Dense Captioning
7
1. Dense captioningタスクの提案
• 書誌情報
• タイトル: DenseCap: Fully Convolutional Localization Networks for Dense
Captioning
• 著者 : J. Johnson, A. Karpathy, Li Fei-Fei
• CVPR 2015
• 概要
• Dense captioningのタスクをはじめて提案
• Fully Convolutional Localization Network (FCLN) で実現
• FCLNは以下のモジュールを繋げたネットワーク
1. CNN: 画像特徴抽出
2. dense localization layer : キャプション領域の抽出
3. RNN : 言語モデル (キャプション生成)
8
1. 提案手法
• 3つのモジュールからなるモデルを提案
1. CNN : 画像特徴抽出を行う。VGG16を使用。
2. Localization Layer : キャプション生成の候補領域を抽出。
3. RNN : 言語モデル。LSTMを使用。
9
[Johnson+ CVPR’16]
1. 提案手法 : Localization Layer
• キャプション生成の候補領域を生成
• 各領域は矩形で表現される (B x 4 のテンソル)
• 候補領域に対応する特徴 (B x C x X x Y) を、CNNで抽出した特徴
マップから切り出す
10
[Johnson+ CVPR’16]
1. 提案手法 : Localization Layer
Faster R-CNNのRegion Proposal Network (RPN) & RoI Poolingと実質同じ
• RPN : 特徴マップの各ピクセルに異なるサイズ、アスペクト比を持つanchor box
を割り当て、各anchorのconfidenceと物体領域へのoffsetを予測
• RoI Pooling : サンプルされた候補領域に対応する領域をCNNの特徴マップから切
り出し一定のサイズに整形する
• 実装上はMask R-CNNで提案されたRoIAlignと同じことをしてると思います
11Faster R-CNNのRPN [Ren+ NIPS’15] Mask R-CNNのRoI Align [Ren+ NIPS’15]
1. 提案手法 : キャプション生成部
• Fully Convolutional Localization Layerにより抽出した候補領域の特
徴をMLPに通してからLSTMでキャプション生成を行う
• 通常の言語モデルと同様に、一語ずつ出力していく
12
[Johnson+ CVPR’16]
1. 提案手法 : Loss function
• 教師データとして、矩形領域とその説明文が与えられる
• ロス関数は検出のロスとキャプション生成のロス
• 検出のロス
• confidenceに対しては、ロジスティックロス
• 矩形のoffsetに対しては、L1ロス
• キャプション生成のロス
• 各単語に対するクロスエントロピーロス
13
1. 実験 : データセット
• Dataset : Visual Genome dataset [Krishna+ 2016]
• 矩形領域と説明文、シーングラフなどが画像に付属
• 前処理
• 出現頻度が少ない画像を<unknown>とした
• “there is”や”this seems to be”等の語句を削除
• 長すぎる文は無視
• アノテーション数が少なすぎる/多すぎる画像は無視
• 重なりが大きいboxはマージ
14
[Krishna+ 2016]
1. 実験 : Dense captioning 評価指標
• Average Precision (AP)スコアによる評価
• APとは? … 予測結果を信頼度順に並べ順に計算したprecisionの平均 (下図)
• 矩形領域のスコア (IoU) とキャプション生成のスコア (METEOR) でそれぞれ
閾値を定め、両方を上回った場合を正解として計算
• IoU … 正解の矩形と予測した矩形の重なり度合いを表すスコア
• METEOR … 正解のキャプションと予測したキャプションとの合致度合いを表すスコア
15
[転載元] ReNomドキュメントページ
https://www.renom.jp/packages/renomimg3/re
nom_img/45_point_of_model_comparison.html
1. 実験 : Dense captioning 実験結果
• 以下の4つを比較
• Full image RNN : 画像全体のキャプション生成を行う通常のモデル
• Region RNN : 元の画像からcropした矩形領域からキャプションを生成
• FCLN on EB : Localization layerの代わりにEdgeBoxes [Lawrence+
ECCV’14] という輪郭画像から候補領域を抽出する手法を使用
• FCLN : 提案手法
16
[Johnson+ CVPR’16]
1. 実験 : Dense captioning 実験結果
• 1つの画像中の様々な領域の説明文を生成可能
17
[Johnson+ CVPR’16]
1. 実験 : Image retrieval
• 詳細は割愛するが言語を用いた画像検索も行うことができる
18
[Johnson+ CVPR’16]
1. 実験 : Image retrieval
• 詳細は割愛するが言語を用いた画像検索も行うことができる
19
[Johnson+ CVPR’16]
1. DenseCapまとめ
• Dense captioningというタスクを提案
• 画像の局所領域の検出とキャプション生成を同時に行う
• キャプションの領域を検出するLocalization layerを持つネットワーク
を提案
• 候補領域を抽出し、それぞれでキャプション生成を行う
• Visual Genome datasetを用いた実験で有効性を確認
• Dense captioning と image retrievalの両方のタスクに活用可能
20
2. Dense captioningの性能向上に関する研究
21
2. はじめに
• Dense captioningの性能向上を目的とした研究を2件紹介します
• L. Yang et al. Dense Captioning with Joint Inference and Visual Context. CVPR, 2017.
• G. Yin et al. Context and Attribute Grounded Dense Captioning. CVPR, 2019.
• どちらも、対象となる領域の周囲のコンテキストも考慮したキャプション生成を
行う手法
22[Yang+ CVPR’17]
[Yin+ CVPR’19]
2.1 Dense Captioning with Joint Inference and Visual Context
• 概要
• Dense captioningのモデルの2つ問題を指摘
1. 物体の矩形領域が重なりが大きく、抽出したboxが複数の物体を囲ってしま
うこと
2. 矩形領域の周囲の情報も活用しないと、正確なキャプション生成が難しい場
合がある
• それぞれの問題に対し、以下の手法を提案
1. 文の生成と同時に矩形領域をrefine
2. 矩形領域の周囲の情報もキャプション生成に活用するモデルの設計
• 提案手法によりDenseCapの性能を73%の向上させた
23
2.1 提案手法の効果
• (a) : 単語の生成と同時に矩形を修正することで、文の内容と合致した矩形を予測
• (b) : コンテキストを考慮することにより、PCの形をした建物を正確に説明でき
た
24
[Yang+ CVPR’17]
2.1 提案手法
• 詳細は割愛するが、以下のフレームワークを提案
• コンテキスト情報として画像全体の特徴 (オレンジの四角) もLSTMに入力
• LSTMによりキャプションと矩形の同時推定
25
[Yang+ CVPR’17]
2.2 Context and Attribute Grounded Dense Captioning
• 概要
• コンテキスト情報がないと、キャプションが不正確になる場合がある (a)
• Yangらの研究のように、画像全体の特徴をコンテキストとして入力するので
は不十分 (b)
• 特に、小さい物体は無視されやすい
• 対象の領域の周囲の領域を見ることでより正確なキャプションを生成 (c)
26[Yin+ CVPR’19]
2.2 提案手法
• 新しく2つのモジュールを提案
• Contextual Feature Extractor … コンテクストの情報を抽出
• Attribute Grounded Caption Generator … キャプション生成のロスに加えて
単語のattributeのロスを補助的に使うモジュール
27[Yin+ CVPR’19]
2.2 Contextual Feature Extractor
• 対象の矩形領域の周囲の矩形領域の情報を集約するモジュール
1. 全矩形領域のうち、target領域に距離が近い矩形をk個サンプル (IoUで近さ
を定義)
2. target領域の特徴との類似度による重み付け和でk個の領域の特徴を集約
28[Yin+ CVPR’19]
2.2 Attribute Grounded Caption Generator
• キャプション生成ネットワーク
1. 複数のスケールの特徴を階層的に統合する構造
2. キャプション生成のロスに加えて単語のattributeのロスで学習
• attribute lossは語順を気にしない、マルチラベル分類のロスとして計算
29[Yin+ CVPR’19]
2.2 実験結果
• Visual Genome datasetで既存手法との比較を行った
全スコアで勝利 & 定性評価でも既存手法に対する優位性が見られた
30
[Yin+ CVPR’19]
2.2 まとめ
• Dense captioningの性能向上のためには、対象領域のコンテキストの
情報を有効活用する必要がある
• 最新の研究では、画像認識部分と言語モデルの両方が高度化していた
• 一人で同じような研究をするのは大変そう…
31
3. Dense captioningの派生タスク
32
3. Dense Relational Captioning: Triple-Stream Networks for Relationship-
Based Captioning
• 概要
• D. Kim et al. Dense Relational Captioning: Triple-Stream Networks for
Relationship-Based Captioning. CVPR, 2019.
• Dense captioningのタスクを発展させ、2つの矩形領域の関係性を記述するタ
スクを提案
• Dense captioningとRelationship Detectionの融合
• 応用例として、Caption graphという画像
表現も提案している
33
[Kim+ CVPR‘19]
3. 提案手法
• 2つの矩形領域とその共通部分の特徴からキャプションを生成
• 2つの物体は主体(subject)、客体(object)の関係
• 文の単語の予測と単語の品詞予測のマルチタスクで学習
• 入力画像が主体と客体であり、予め関係性がわかっているので、その情報を活かすため
の工夫
34
[Kim+ CVPR‘19]
3. 実験結果
• Visual Genome datasetで実験
• 2つの矩形の関係性を記述する文が生成されていることがわかる
• 画像中の任意の領域のペアに対して文を生成できる
35
[Kim+ CVPR‘19]
3. アプリケーション例 : Caption graph
• Caption graphという画像表現を応用例として提案
• Scene graphの拡張
• Scene graphについては https://www.slideshare.net/DeepLearningJP2016/dlgraph-
rcnn-for-scene-graph-generation 等を参照
36[Kim+ CVPR‘19]
3. まとめ
• Dense captioningの派生タスクであるdense relational captioning
を提案
• 2つの物体領域とその共通部分の特徴から関係性を説明する文を生成
• こちらの研究に関しても、画像認識部分・言語モデルの両者が高度化
しているという印象を受けた
37
全体まとめ
• Dense captioningと呼ばれる、イメージキャプショニングの研究の一
分野を紹介した
• 主に以下の3つの研究を紹介
1. Dense captioningというタスクを提案した研究
2. Dense captioningの性能を向上させる手法を提案した研究
3. 派生タスクであるDense relational captioningを提案した研究
• 感想
• V&Lは両分野の技術にキャッチアップする必要があり大変だと感じた
• 今後も新たな問題設定の派生タスクが出てくるのではと予想しています
• 実装がTorchやcaffeの場合が多いのが難点
38
参考文献
• J. Johnson et al. DenseCap: Fully Convolutional Localization Networks for Dense Captioning.
CVPR, 2016.
• O. Vinyals et al. Show and Tell: A Neural Image Caption Generator. CVPR, 2015.
• K. Xu et al. Show, Attend and Tell: Neural Image Caption Generation with Visual Attention.
ICML, 2015.
• S. Ren et al. Faster R-CNN: Towards Real-Time Object Detection with Region Proposal
Networks. NIPS, 2015.
• P. Anderson et al. Bottom-Up and Top-Down Attention for Image Captioning and Visual
Question Answering. CVPR, 2018.
• T. Yao et al. Exploring Visual Relationship for Image Captioning. ECCV, 2018.
• R. Krishna et al. Visual genome: Connecting language and vision using crowdsourced dense
image annotations. 2016.
• L. Yang et al. Dense Captioning with Joint Inference and Visual Context. CVPR, 2017.
• G. Yin et al. Context and Attribute Grounded Dense Captioning. CVPR, 2019.
• D-J Kim et al. Dense Relational Captioning: Triple-Stream Networks for Relationship-Based
Captioning. CVPR, 2019.
39

Mais conteúdo relacionado

Mais procurados

【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning 画像×言語の大規模基盤モ...
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning   画像×言語の大規模基盤モ...【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning   画像×言語の大規模基盤モ...
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning 画像×言語の大規模基盤モ...Deep Learning JP
 
【メタサーベイ】Vision and Language のトップ研究室/研究者
【メタサーベイ】Vision and Language のトップ研究室/研究者【メタサーベイ】Vision and Language のトップ研究室/研究者
【メタサーベイ】Vision and Language のトップ研究室/研究者cvpaper. challenge
 
これからの Vision & Language ~ Acadexit した4つの理由
これからの Vision & Language ~ Acadexit した4つの理由これからの Vision & Language ~ Acadexit した4つの理由
これからの Vision & Language ~ Acadexit した4つの理由Yoshitaka Ushiku
 
生成モデルの Deep Learning
生成モデルの Deep Learning生成モデルの Deep Learning
生成モデルの Deep LearningSeiya Tokui
 
[DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Und...
[DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Und...[DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Und...
[DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Und...Deep Learning JP
 
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks? 【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks? Deep Learning JP
 
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
[DL輪読会]NVAE: A Deep Hierarchical Variational AutoencoderDeep Learning JP
 
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​SSII
 
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion  for Generation and Editing[DL輪読会]GLIDE: Guided Language to Image Diffusion  for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and EditingDeep Learning JP
 
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Yusuke Uchida
 
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings  (EMNLP 2021)【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings  (EMNLP 2021)
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)Deep Learning JP
 
[DL輪読会]An Image is Worth 16x16 Words: Transformers for Image Recognition at S...
[DL輪読会]An Image is Worth 16x16 Words: Transformers for Image Recognition at S...[DL輪読会]An Image is Worth 16x16 Words: Transformers for Image Recognition at S...
[DL輪読会]An Image is Worth 16x16 Words: Transformers for Image Recognition at S...Deep Learning JP
 
自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)cvpaper. challenge
 
CVPR2019読み会 (Rethinking the Evaluation of Video Summaries)
CVPR2019読み会 (Rethinking the Evaluation of Video Summaries)CVPR2019読み会 (Rethinking the Evaluation of Video Summaries)
CVPR2019読み会 (Rethinking the Evaluation of Video Summaries)Yasunori Ozaki
 
ドメイン適応の原理と応用
ドメイン適応の原理と応用ドメイン適応の原理と応用
ドメイン適応の原理と応用Yoshitaka Ushiku
 
【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised LearningまとめDeep Learning JP
 
【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...
【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...
【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...Deep Learning JP
 
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向SSII
 
【チュートリアル】コンピュータビジョンによる動画認識
【チュートリアル】コンピュータビジョンによる動画認識【チュートリアル】コンピュータビジョンによる動画認識
【チュートリアル】コンピュータビジョンによる動画認識Hirokatsu Kataoka
 

Mais procurados (20)

【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning 画像×言語の大規模基盤モ...
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning   画像×言語の大規模基盤モ...【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning   画像×言語の大規模基盤モ...
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning 画像×言語の大規模基盤モ...
 
【メタサーベイ】Vision and Language のトップ研究室/研究者
【メタサーベイ】Vision and Language のトップ研究室/研究者【メタサーベイ】Vision and Language のトップ研究室/研究者
【メタサーベイ】Vision and Language のトップ研究室/研究者
 
これからの Vision & Language ~ Acadexit した4つの理由
これからの Vision & Language ~ Acadexit した4つの理由これからの Vision & Language ~ Acadexit した4つの理由
これからの Vision & Language ~ Acadexit した4つの理由
 
生成モデルの Deep Learning
生成モデルの Deep Learning生成モデルの Deep Learning
生成モデルの Deep Learning
 
[DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Und...
[DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Und...[DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Und...
[DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Und...
 
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks? 【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
 
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
 
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
 
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion  for Generation and Editing[DL輪読会]GLIDE: Guided Language to Image Diffusion  for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
 
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
 
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings  (EMNLP 2021)【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings  (EMNLP 2021)
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)
 
Semantic segmentation
Semantic segmentationSemantic segmentation
Semantic segmentation
 
[DL輪読会]An Image is Worth 16x16 Words: Transformers for Image Recognition at S...
[DL輪読会]An Image is Worth 16x16 Words: Transformers for Image Recognition at S...[DL輪読会]An Image is Worth 16x16 Words: Transformers for Image Recognition at S...
[DL輪読会]An Image is Worth 16x16 Words: Transformers for Image Recognition at S...
 
自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)
 
CVPR2019読み会 (Rethinking the Evaluation of Video Summaries)
CVPR2019読み会 (Rethinking the Evaluation of Video Summaries)CVPR2019読み会 (Rethinking the Evaluation of Video Summaries)
CVPR2019読み会 (Rethinking the Evaluation of Video Summaries)
 
ドメイン適応の原理と応用
ドメイン適応の原理と応用ドメイン適応の原理と応用
ドメイン適応の原理と応用
 
【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ
 
【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...
【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...
【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...
 
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
 
【チュートリアル】コンピュータビジョンによる動画認識
【チュートリアル】コンピュータビジョンによる動画認識【チュートリアル】コンピュータビジョンによる動画認識
【チュートリアル】コンピュータビジョンによる動画認識
 

Semelhante a [DL輪読会]Dense Captioning分野のまとめ

[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View SynthesisDeep Learning JP
 
[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View SynthesisKento Doi
 
[cvpaper.challenge] 超解像メタサーベイ #meta-study-group勉強会
[cvpaper.challenge] 超解像メタサーベイ #meta-study-group勉強会[cvpaper.challenge] 超解像メタサーベイ #meta-study-group勉強会
[cvpaper.challenge] 超解像メタサーベイ #meta-study-group勉強会S_aiueo32
 
[DL輪読会]FOTS: Fast Oriented Text Spotting with a Unified Network
[DL輪読会]FOTS: Fast Oriented Text Spotting with a Unified Network[DL輪読会]FOTS: Fast Oriented Text Spotting with a Unified Network
[DL輪読会]FOTS: Fast Oriented Text Spotting with a Unified NetworkDeep Learning JP
 
[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...
[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...
[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...Deep Learning JP
 
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...cvpaper. challenge
 
【2016.07】cvpaper.challenge2016
【2016.07】cvpaper.challenge2016【2016.07】cvpaper.challenge2016
【2016.07】cvpaper.challenge2016cvpaper. challenge
 
【チュートリアル】コンピュータビジョンによる動画認識 v2
【チュートリアル】コンピュータビジョンによる動画認識 v2【チュートリアル】コンピュータビジョンによる動画認識 v2
【チュートリアル】コンピュータビジョンによる動画認識 v2Hirokatsu Kataoka
 
大規模画像認識とその周辺
大規模画像認識とその周辺大規模画像認識とその周辺
大規模画像認識とその周辺n_hidekey
 
Learning Spatial Common Sense with Geometry-Aware Recurrent Networks
Learning Spatial Common Sense with Geometry-Aware Recurrent NetworksLearning Spatial Common Sense with Geometry-Aware Recurrent Networks
Learning Spatial Common Sense with Geometry-Aware Recurrent NetworksKento Doi
 
第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)
第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)
第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)kanejaki
 
20110904cvsaisentan(shirasy) 3 4_3
20110904cvsaisentan(shirasy) 3 4_320110904cvsaisentan(shirasy) 3 4_3
20110904cvsaisentan(shirasy) 3 4_3Yoichi Shirasawa
 
[論文紹介] Convolutional Neural Network(CNN)による超解像
[論文紹介] Convolutional Neural Network(CNN)による超解像[論文紹介] Convolutional Neural Network(CNN)による超解像
[論文紹介] Convolutional Neural Network(CNN)による超解像Rei Takami
 
CVPR2017 参加報告 速報版 本会議 4日目
CVPR2017 参加報告 速報版 本会議 4日目CVPR2017 参加報告 速報版 本会議 4日目
CVPR2017 参加報告 速報版 本会議 4日目Atsushi Hashimoto
 
[DL輪読会] Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields
[DL輪読会] Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields [DL輪読会] Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields
[DL輪読会] Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields Deep Learning JP
 
SfM Learner系単眼深度推定手法について
SfM Learner系単眼深度推定手法についてSfM Learner系単眼深度推定手法について
SfM Learner系単眼深度推定手法についてRyutaro Yamauchi
 
「解説資料」Reasoning-RCNN: Unifying Adaptive Global Reasoning into Large-scale Obj...
「解説資料」Reasoning-RCNN: Unifying Adaptive Global Reasoning into Large-scale Obj...「解説資料」Reasoning-RCNN: Unifying Adaptive Global Reasoning into Large-scale Obj...
「解説資料」Reasoning-RCNN: Unifying Adaptive Global Reasoning into Large-scale Obj...Takumi Ohkuma
 
[DL輪読会]Reasoning-RCNN: Unifying Adaptive Global Reasoning into Large-scale Ob...
[DL輪読会]Reasoning-RCNN: Unifying Adaptive Global Reasoning into Large-scale Ob...[DL輪読会]Reasoning-RCNN: Unifying Adaptive Global Reasoning into Large-scale Ob...
[DL輪読会]Reasoning-RCNN: Unifying Adaptive Global Reasoning into Large-scale Ob...Deep Learning JP
 

Semelhante a [DL輪読会]Dense Captioning分野のまとめ (20)

[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
 
[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
 
[cvpaper.challenge] 超解像メタサーベイ #meta-study-group勉強会
[cvpaper.challenge] 超解像メタサーベイ #meta-study-group勉強会[cvpaper.challenge] 超解像メタサーベイ #meta-study-group勉強会
[cvpaper.challenge] 超解像メタサーベイ #meta-study-group勉強会
 
[DL輪読会]FOTS: Fast Oriented Text Spotting with a Unified Network
[DL輪読会]FOTS: Fast Oriented Text Spotting with a Unified Network[DL輪読会]FOTS: Fast Oriented Text Spotting with a Unified Network
[DL輪読会]FOTS: Fast Oriented Text Spotting with a Unified Network
 
[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...
[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...
[DL輪読会]VoxelPose: Towards Multi-Camera 3D Human Pose Estimation in Wild Envir...
 
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
 
【2016.07】cvpaper.challenge2016
【2016.07】cvpaper.challenge2016【2016.07】cvpaper.challenge2016
【2016.07】cvpaper.challenge2016
 
【チュートリアル】コンピュータビジョンによる動画認識 v2
【チュートリアル】コンピュータビジョンによる動画認識 v2【チュートリアル】コンピュータビジョンによる動画認識 v2
【チュートリアル】コンピュータビジョンによる動画認識 v2
 
大規模画像認識とその周辺
大規模画像認識とその周辺大規模画像認識とその周辺
大規模画像認識とその周辺
 
Learning Spatial Common Sense with Geometry-Aware Recurrent Networks
Learning Spatial Common Sense with Geometry-Aware Recurrent NetworksLearning Spatial Common Sense with Geometry-Aware Recurrent Networks
Learning Spatial Common Sense with Geometry-Aware Recurrent Networks
 
第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)
第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)
第18回コンピュータビジョン勉強会@関東「ICCV祭り」発表資料(kanejaki)
 
Eccv2018 report day3
Eccv2018 report day3Eccv2018 report day3
Eccv2018 report day3
 
20110904cvsaisentan(shirasy) 3 4_3
20110904cvsaisentan(shirasy) 3 4_320110904cvsaisentan(shirasy) 3 4_3
20110904cvsaisentan(shirasy) 3 4_3
 
深層学習による自然言語処理の研究動向
深層学習による自然言語処理の研究動向深層学習による自然言語処理の研究動向
深層学習による自然言語処理の研究動向
 
[論文紹介] Convolutional Neural Network(CNN)による超解像
[論文紹介] Convolutional Neural Network(CNN)による超解像[論文紹介] Convolutional Neural Network(CNN)による超解像
[論文紹介] Convolutional Neural Network(CNN)による超解像
 
CVPR2017 参加報告 速報版 本会議 4日目
CVPR2017 参加報告 速報版 本会議 4日目CVPR2017 参加報告 速報版 本会議 4日目
CVPR2017 参加報告 速報版 本会議 4日目
 
[DL輪読会] Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields
[DL輪読会] Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields [DL輪読会] Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields
[DL輪読会] Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields
 
SfM Learner系単眼深度推定手法について
SfM Learner系単眼深度推定手法についてSfM Learner系単眼深度推定手法について
SfM Learner系単眼深度推定手法について
 
「解説資料」Reasoning-RCNN: Unifying Adaptive Global Reasoning into Large-scale Obj...
「解説資料」Reasoning-RCNN: Unifying Adaptive Global Reasoning into Large-scale Obj...「解説資料」Reasoning-RCNN: Unifying Adaptive Global Reasoning into Large-scale Obj...
「解説資料」Reasoning-RCNN: Unifying Adaptive Global Reasoning into Large-scale Obj...
 
[DL輪読会]Reasoning-RCNN: Unifying Adaptive Global Reasoning into Large-scale Ob...
[DL輪読会]Reasoning-RCNN: Unifying Adaptive Global Reasoning into Large-scale Ob...[DL輪読会]Reasoning-RCNN: Unifying Adaptive Global Reasoning into Large-scale Ob...
[DL輪読会]Reasoning-RCNN: Unifying Adaptive Global Reasoning into Large-scale Ob...
 

Mais de Deep Learning JP

【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving PlannersDeep Learning JP
 
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについてDeep Learning JP
 
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...Deep Learning JP
 
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-ResolutionDeep Learning JP
 
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxivDeep Learning JP
 
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLMDeep Learning JP
 
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo... 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...Deep Learning JP
 
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place RecognitionDeep Learning JP
 
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?Deep Learning JP
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究についてDeep Learning JP
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )Deep Learning JP
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...Deep Learning JP
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"Deep Learning JP
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "Deep Learning JP
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat ModelsDeep Learning JP
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"Deep Learning JP
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...Deep Learning JP
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...Deep Learning JP
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...Deep Learning JP
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...Deep Learning JP
 

Mais de Deep Learning JP (20)

【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
 
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて
 
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
 
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
 
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
 
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM
 
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo... 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
 
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
 

Último

論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Gamesatsushi061452
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...Toru Tamaki
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video UnderstandingToru Tamaki
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルCRI Japan, Inc.
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。iPride Co., Ltd.
 
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)Hiroshi Tomioka
 
Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsUtilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsWSO2
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイスCRI Japan, Inc.
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。iPride Co., Ltd.
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。iPride Co., Ltd.
 
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptxsn679259
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NTT DATA Technology & Innovation
 

Último (12)

論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
 
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
 
Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsUtilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native Integrations
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
 
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
 

[DL輪読会]Dense Captioning分野のまとめ

  • 1. 1 DEEP LEARNING JP [DL Papers] http://deeplearning.jp/ Dense Captioning分野のまとめ Kento Doi, Matsuo Lab
  • 2. 発表内容 • Dense captioningの一連の研究について紹介します • Dense captioningとは? • 画像を自然言語により密に説明する技術 • 画像の局所領域と自然言語の対応づけ • ざっくり言うと物体検出+Image captioning [Johnson+ CVPR’16] 2
  • 3. 関連研究①:イメージキャプショニング • 画像の情報を自然言語により説明する • NNで画像特徴抽出器と言語モデルを繋ぎend2endで学習 • 画像特徴抽出:CNN • 言語モデル:RNN (LSTMがよく用いられる) • attention機構を用いて効果的に画像特徴を抽出する手法等が発展 • 研究の歴史や全体像は牛久先生の資料や書籍が詳しい • 画像キャプションの自動生成 (https://www.slideshare.net/YoshitakaUshiku/ss-57148161) [Vinyals+ CVPR’15] [Xu+ ICML’15] 3
  • 4. 関連研究②:物体検出 • 画像中の物体を矩形で検出 • Faster R-CNNやYOLOが代表的な研究 • 精度向上や高速化のためのネットワーク構造等が発展 [Ren+ NIPS’15] 4
  • 5. 関連研究②:物体検出 (Faster R-CNN) • Faster R-CNNはイメージキャプショニングの研究によく用いられる • 物体検出結果をアテンションとして使用 [Anderson+ CVPR’18] [Yao+ ECCV’18] • Dense captioning [Johnson+ CVPR’16] • Faster R-CNNは二段構えのネットワーク 1. Region Proposal Network (RPN) で候補領域を抽出 2. 後段のネットワーク (RoI Head) でカテゴリの予測bboxのrefineを行う 5 [Ren+ NIPS’15] [Anderson+ CVPR’18] Faster R-CNNのアーキテクチャ 物体検出結果をアテンションとして利用したイメージキャプショニング
  • 6. Dense captioning • Dense captioningは画像説明文生成と物体検出を組み合わせた技術 1. Faster R-CNNのRPNで候補領域を抽出 2. 各候補領域の特徴からRNNでキャプションを生成 • 以下の研究を紹介します 1. Dense captioningタスクを提案した研究 [Johnson+ CVPR’16] 2. Dense captioningの性能向上のための研究 [Yang+ CVPR’17] [Yin+ CVPR’19] 3. Dense captioningから派生した新たなタスクの提案 [Kim+ CVPR’19] 6
  • 7. 1. DenseCap: Fully Convolutional Localization Networks for Dense Captioning 7
  • 8. 1. Dense captioningタスクの提案 • 書誌情報 • タイトル: DenseCap: Fully Convolutional Localization Networks for Dense Captioning • 著者 : J. Johnson, A. Karpathy, Li Fei-Fei • CVPR 2015 • 概要 • Dense captioningのタスクをはじめて提案 • Fully Convolutional Localization Network (FCLN) で実現 • FCLNは以下のモジュールを繋げたネットワーク 1. CNN: 画像特徴抽出 2. dense localization layer : キャプション領域の抽出 3. RNN : 言語モデル (キャプション生成) 8
  • 9. 1. 提案手法 • 3つのモジュールからなるモデルを提案 1. CNN : 画像特徴抽出を行う。VGG16を使用。 2. Localization Layer : キャプション生成の候補領域を抽出。 3. RNN : 言語モデル。LSTMを使用。 9 [Johnson+ CVPR’16]
  • 10. 1. 提案手法 : Localization Layer • キャプション生成の候補領域を生成 • 各領域は矩形で表現される (B x 4 のテンソル) • 候補領域に対応する特徴 (B x C x X x Y) を、CNNで抽出した特徴 マップから切り出す 10 [Johnson+ CVPR’16]
  • 11. 1. 提案手法 : Localization Layer Faster R-CNNのRegion Proposal Network (RPN) & RoI Poolingと実質同じ • RPN : 特徴マップの各ピクセルに異なるサイズ、アスペクト比を持つanchor box を割り当て、各anchorのconfidenceと物体領域へのoffsetを予測 • RoI Pooling : サンプルされた候補領域に対応する領域をCNNの特徴マップから切 り出し一定のサイズに整形する • 実装上はMask R-CNNで提案されたRoIAlignと同じことをしてると思います 11Faster R-CNNのRPN [Ren+ NIPS’15] Mask R-CNNのRoI Align [Ren+ NIPS’15]
  • 12. 1. 提案手法 : キャプション生成部 • Fully Convolutional Localization Layerにより抽出した候補領域の特 徴をMLPに通してからLSTMでキャプション生成を行う • 通常の言語モデルと同様に、一語ずつ出力していく 12 [Johnson+ CVPR’16]
  • 13. 1. 提案手法 : Loss function • 教師データとして、矩形領域とその説明文が与えられる • ロス関数は検出のロスとキャプション生成のロス • 検出のロス • confidenceに対しては、ロジスティックロス • 矩形のoffsetに対しては、L1ロス • キャプション生成のロス • 各単語に対するクロスエントロピーロス 13
  • 14. 1. 実験 : データセット • Dataset : Visual Genome dataset [Krishna+ 2016] • 矩形領域と説明文、シーングラフなどが画像に付属 • 前処理 • 出現頻度が少ない画像を<unknown>とした • “there is”や”this seems to be”等の語句を削除 • 長すぎる文は無視 • アノテーション数が少なすぎる/多すぎる画像は無視 • 重なりが大きいboxはマージ 14 [Krishna+ 2016]
  • 15. 1. 実験 : Dense captioning 評価指標 • Average Precision (AP)スコアによる評価 • APとは? … 予測結果を信頼度順に並べ順に計算したprecisionの平均 (下図) • 矩形領域のスコア (IoU) とキャプション生成のスコア (METEOR) でそれぞれ 閾値を定め、両方を上回った場合を正解として計算 • IoU … 正解の矩形と予測した矩形の重なり度合いを表すスコア • METEOR … 正解のキャプションと予測したキャプションとの合致度合いを表すスコア 15 [転載元] ReNomドキュメントページ https://www.renom.jp/packages/renomimg3/re nom_img/45_point_of_model_comparison.html
  • 16. 1. 実験 : Dense captioning 実験結果 • 以下の4つを比較 • Full image RNN : 画像全体のキャプション生成を行う通常のモデル • Region RNN : 元の画像からcropした矩形領域からキャプションを生成 • FCLN on EB : Localization layerの代わりにEdgeBoxes [Lawrence+ ECCV’14] という輪郭画像から候補領域を抽出する手法を使用 • FCLN : 提案手法 16 [Johnson+ CVPR’16]
  • 17. 1. 実験 : Dense captioning 実験結果 • 1つの画像中の様々な領域の説明文を生成可能 17 [Johnson+ CVPR’16]
  • 18. 1. 実験 : Image retrieval • 詳細は割愛するが言語を用いた画像検索も行うことができる 18 [Johnson+ CVPR’16]
  • 19. 1. 実験 : Image retrieval • 詳細は割愛するが言語を用いた画像検索も行うことができる 19 [Johnson+ CVPR’16]
  • 20. 1. DenseCapまとめ • Dense captioningというタスクを提案 • 画像の局所領域の検出とキャプション生成を同時に行う • キャプションの領域を検出するLocalization layerを持つネットワーク を提案 • 候補領域を抽出し、それぞれでキャプション生成を行う • Visual Genome datasetを用いた実験で有効性を確認 • Dense captioning と image retrievalの両方のタスクに活用可能 20
  • 22. 2. はじめに • Dense captioningの性能向上を目的とした研究を2件紹介します • L. Yang et al. Dense Captioning with Joint Inference and Visual Context. CVPR, 2017. • G. Yin et al. Context and Attribute Grounded Dense Captioning. CVPR, 2019. • どちらも、対象となる領域の周囲のコンテキストも考慮したキャプション生成を 行う手法 22[Yang+ CVPR’17] [Yin+ CVPR’19]
  • 23. 2.1 Dense Captioning with Joint Inference and Visual Context • 概要 • Dense captioningのモデルの2つ問題を指摘 1. 物体の矩形領域が重なりが大きく、抽出したboxが複数の物体を囲ってしま うこと 2. 矩形領域の周囲の情報も活用しないと、正確なキャプション生成が難しい場 合がある • それぞれの問題に対し、以下の手法を提案 1. 文の生成と同時に矩形領域をrefine 2. 矩形領域の周囲の情報もキャプション生成に活用するモデルの設計 • 提案手法によりDenseCapの性能を73%の向上させた 23
  • 24. 2.1 提案手法の効果 • (a) : 単語の生成と同時に矩形を修正することで、文の内容と合致した矩形を予測 • (b) : コンテキストを考慮することにより、PCの形をした建物を正確に説明でき た 24 [Yang+ CVPR’17]
  • 25. 2.1 提案手法 • 詳細は割愛するが、以下のフレームワークを提案 • コンテキスト情報として画像全体の特徴 (オレンジの四角) もLSTMに入力 • LSTMによりキャプションと矩形の同時推定 25 [Yang+ CVPR’17]
  • 26. 2.2 Context and Attribute Grounded Dense Captioning • 概要 • コンテキスト情報がないと、キャプションが不正確になる場合がある (a) • Yangらの研究のように、画像全体の特徴をコンテキストとして入力するので は不十分 (b) • 特に、小さい物体は無視されやすい • 対象の領域の周囲の領域を見ることでより正確なキャプションを生成 (c) 26[Yin+ CVPR’19]
  • 27. 2.2 提案手法 • 新しく2つのモジュールを提案 • Contextual Feature Extractor … コンテクストの情報を抽出 • Attribute Grounded Caption Generator … キャプション生成のロスに加えて 単語のattributeのロスを補助的に使うモジュール 27[Yin+ CVPR’19]
  • 28. 2.2 Contextual Feature Extractor • 対象の矩形領域の周囲の矩形領域の情報を集約するモジュール 1. 全矩形領域のうち、target領域に距離が近い矩形をk個サンプル (IoUで近さ を定義) 2. target領域の特徴との類似度による重み付け和でk個の領域の特徴を集約 28[Yin+ CVPR’19]
  • 29. 2.2 Attribute Grounded Caption Generator • キャプション生成ネットワーク 1. 複数のスケールの特徴を階層的に統合する構造 2. キャプション生成のロスに加えて単語のattributeのロスで学習 • attribute lossは語順を気にしない、マルチラベル分類のロスとして計算 29[Yin+ CVPR’19]
  • 30. 2.2 実験結果 • Visual Genome datasetで既存手法との比較を行った 全スコアで勝利 & 定性評価でも既存手法に対する優位性が見られた 30 [Yin+ CVPR’19]
  • 31. 2.2 まとめ • Dense captioningの性能向上のためには、対象領域のコンテキストの 情報を有効活用する必要がある • 最新の研究では、画像認識部分と言語モデルの両方が高度化していた • 一人で同じような研究をするのは大変そう… 31
  • 33. 3. Dense Relational Captioning: Triple-Stream Networks for Relationship- Based Captioning • 概要 • D. Kim et al. Dense Relational Captioning: Triple-Stream Networks for Relationship-Based Captioning. CVPR, 2019. • Dense captioningのタスクを発展させ、2つの矩形領域の関係性を記述するタ スクを提案 • Dense captioningとRelationship Detectionの融合 • 応用例として、Caption graphという画像 表現も提案している 33 [Kim+ CVPR‘19]
  • 34. 3. 提案手法 • 2つの矩形領域とその共通部分の特徴からキャプションを生成 • 2つの物体は主体(subject)、客体(object)の関係 • 文の単語の予測と単語の品詞予測のマルチタスクで学習 • 入力画像が主体と客体であり、予め関係性がわかっているので、その情報を活かすため の工夫 34 [Kim+ CVPR‘19]
  • 35. 3. 実験結果 • Visual Genome datasetで実験 • 2つの矩形の関係性を記述する文が生成されていることがわかる • 画像中の任意の領域のペアに対して文を生成できる 35 [Kim+ CVPR‘19]
  • 36. 3. アプリケーション例 : Caption graph • Caption graphという画像表現を応用例として提案 • Scene graphの拡張 • Scene graphについては https://www.slideshare.net/DeepLearningJP2016/dlgraph- rcnn-for-scene-graph-generation 等を参照 36[Kim+ CVPR‘19]
  • 37. 3. まとめ • Dense captioningの派生タスクであるdense relational captioning を提案 • 2つの物体領域とその共通部分の特徴から関係性を説明する文を生成 • こちらの研究に関しても、画像認識部分・言語モデルの両者が高度化 しているという印象を受けた 37
  • 38. 全体まとめ • Dense captioningと呼ばれる、イメージキャプショニングの研究の一 分野を紹介した • 主に以下の3つの研究を紹介 1. Dense captioningというタスクを提案した研究 2. Dense captioningの性能を向上させる手法を提案した研究 3. 派生タスクであるDense relational captioningを提案した研究 • 感想 • V&Lは両分野の技術にキャッチアップする必要があり大変だと感じた • 今後も新たな問題設定の派生タスクが出てくるのではと予想しています • 実装がTorchやcaffeの場合が多いのが難点 38
  • 39. 参考文献 • J. Johnson et al. DenseCap: Fully Convolutional Localization Networks for Dense Captioning. CVPR, 2016. • O. Vinyals et al. Show and Tell: A Neural Image Caption Generator. CVPR, 2015. • K. Xu et al. Show, Attend and Tell: Neural Image Caption Generation with Visual Attention. ICML, 2015. • S. Ren et al. Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks. NIPS, 2015. • P. Anderson et al. Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering. CVPR, 2018. • T. Yao et al. Exploring Visual Relationship for Image Captioning. ECCV, 2018. • R. Krishna et al. Visual genome: Connecting language and vision using crowdsourced dense image annotations. 2016. • L. Yang et al. Dense Captioning with Joint Inference and Visual Context. CVPR, 2017. • G. Yin et al. Context and Attribute Grounded Dense Captioning. CVPR, 2019. • D-J Kim et al. Dense Relational Captioning: Triple-Stream Networks for Relationship-Based Captioning. CVPR, 2019. 39