O slideshow foi denunciado.
Seu SlideShare está sendo baixado. ×

Transformer メタサーベイ

Anúncio
Anúncio
Anúncio
Anúncio
Anúncio
Anúncio
Anúncio
Anúncio
Anúncio
Anúncio
Anúncio
Anúncio
Carregando em…3
×

Confira estes a seguir

1 de 181 Anúncio

Transformer メタサーベイ

Baixar para ler offline

cvpaper.challenge の メタサーベイ発表スライドです。
cvpaper.challengeはコンピュータビジョン分野の今を映し、トレンドを創り出す挑戦です。論文サマリ作成・アイディア考案・議論・実装・論文投稿に取り組み、凡ゆる知識を共有します。
http://xpaperchallenge.org/cv/

cvpaper.challenge の メタサーベイ発表スライドです。
cvpaper.challengeはコンピュータビジョン分野の今を映し、トレンドを創り出す挑戦です。論文サマリ作成・アイディア考案・議論・実装・論文投稿に取り組み、凡ゆる知識を共有します。
http://xpaperchallenge.org/cv/

Anúncio
Anúncio

Mais Conteúdo rRelacionado

Diapositivos para si (20)

Semelhante a Transformer メタサーベイ (20)

Anúncio

Mais recentes (20)

Transformer メタサーベイ

  1. 1. Transformer メタサーベイ 参加者 品川、村山、山本、邱、鈴木、 釜堀、北村、楢木、金沢 アドバイザ 片岡、牛久 1 http://xpaperchallenge.org/cv
  2. 2. 1. Transformerの躍進 2
  3. 3. いま、Transformerがアツい 3 大規模かつ多様なデータでの学習が盛んに 人間と一見遜色ない言語生成・画像生成の報告も DALL-E (https://openai.com/blog/dall-e/) GPT-3の検索結果 1 Transformer の躍進
  4. 4. NLPからVision and Language、CVへ 4 論文が最初に発表された年月 2017 2018 2019 2020 2021 Transformer 出現 事前学習モデ ルの提案 マルチモーダル化 CVタスクへの 応用 2017/06 Transformer 2018/06 GPT-1 2018/10 BERT 2019/08 ViLBERT LXMERT VLBERT 2020/05 DETR 2020/10 ViT 2021/02 TimeSformer 1 Transformer の躍進
  5. 5. NLPからVision and Language、CVへ 5 最近はCV、Vision and Languageへの応用が激化 サーベイ論文も立て続けに登場 2020/12/23 A Survey on Visual Transformer (2020) https://arxiv.org/abs/2012.12556 2021/01/04 Transformers in Vision: A Survey https://arxiv.org/abs/2101.01169 2021/03/06 Perspectives and Prospects on Transformer Architecture for Cross-Modal Tasks with Language and Vision https://arxiv.org/abs/2103.04037 1 Transformer の躍進
  6. 6. Transformerがいかにして生まれたか 6 1 Transformer の躍進 NLP界隈の悩み:時系列をRNNで扱うのは時間がかか る RNN embedding RNN embedding RNN embedding
  7. 7. Transformerの登場 7 1 Transformer の躍進 Self-attentionで時系列データを一度に処理(学習時) RNN embedding RNN embedding RNN embedding 学習の高速化により大規模データでの学習が可能に →NLP分野での大規模学習時代の到来 Transformer block
  8. 8. CV界隈にとっての嬉しさ 8 1 Transformer の躍進 CNNは局所結合を重ねた構造 大域的な関係性を見るのは苦 手 Self-attentionで大域的な関係性も見られるようにな った Transformer block Transformerは領域同士の 関係性を大域的に見ることが可 能
  9. 9. Self-attentionの適用事例 9 Self-Attention Generative Adversarial Networks [H. Zhang+, ICML2018] • GANによる画像生成にSelf-attentionを適用した例 • 点が示す領域をクエリとしたとき、画像のどの領域が強 く対応しているかを可視化 • 各クエリ点が近くの領域や遠くの領域を見ていることが わかる 1 Transformer の躍進
  10. 10. Transformerは最強? 10 1 Transformer の躍進 Transformerの強み • RNNより処理が速い→大規模学習向き • CNNより大域な特徴も見られる→性能が高くなり そう Transformerの弱み? • まだまだ不明な点が多い点 • ゆえに世界中がいま分析や応用に躍起 この構造がベストなのか? 精度を上げるには学習にどういう工夫がいるのか? データセットのサイズはどのくらいの規模が必要か? これらの疑問を解消するため、 我々はArXivの奥地へと進んだ・・・
  11. 11. 参考文献1 11 参考文献 [H. Zhang+, ICML2018] Zhang, Han, et al. “Self-Attention Generative Adversarial Networks.” Proceedings of the 36th International Conference on Machine Learning (2019).
  12. 12. 2. Transformer解体新書 12
  13. 13. 親の顔より見たかもしれない図 13 2 Transformer 解体新書
  14. 14. 基本構成はそんなに難しくない 14 2 Transformer 解体新書 Transformer block Transformer block Transformer block classification head positional encoding embedding 入力 入力をトークンごとにベクトル化 Self-attentionを中心とし た メインの処理 分類の予測を行う 位置情報の付与
  15. 15. 基本構成はそんなに難しくない 15 2 Transformer 解体新書 Transformer block Transformer block Transformer block classification head positional encoding embedding 入力 入力をトークンごとにベクトル化 位置情報の付与 Self-attentionを中心とし た メインの処理 分類の予測を行う
  16. 16. positional encoding 16 2 Transformer 解体新書 self-attentionには各トークンの位置を考慮する機構が ない→明示的に位置embeddingを与えると性能が向上 大きく分けると3つの観点がある a) position情報をどんな関数で表現するか? b) 絶対位置か?相対位置か? c) どの段階で足し合わせるか? 単純に足し合わせることが多い
  17. 17. a) position情報をどんな関数で表現するか? 17 2 Transformer 解体新書 さらに3種類に分かれる a1) sin関数とcos関数で明示的に与える(学習不要) a2) 学習可能なパラメータとして適当に初期化して学 習する a3) 位相部分のみを学習可能なパラメータとする
  18. 18. a1) sin関数とcos関数で明示的に与える 18 2 Transformer 解体新書 • Sinusoidal positional embeddings (SPEs) [A. Vaswani+, NIPS2017] • Transformerの元論文をはじめとしてよく使われている • 学習不要で使えるのが利点
  19. 19. SPEsの気持ちは時計型embedding? 19 2 Transformer 解体新書 from:https://github.com/jalammar/jalammar.github.io/blob/master/noteboo kes/transformer/transformer_positional_encoding_graph.ipynb 長針 周期短い 短針 周期長い “私” “は” “元気” “です” “。”
  20. 20. 位置embeddingは足すべきか? 20 2 Transformer 解体新書 from:https://github.com/jalammar/jalammar.github.io/blob/master/noteboo kes/transformer/transformer_positional_encoding_graph.ipynb 位置embeddingは入力に足す実装が多い best practiceは不明。concatする方が良い可能性もある Sinusoidal positional embeddingsの場合 • ベクトルの最初の数十次元が位置情報に よって汚染される(学習済みembedding を使うときは注意が必要?) • ソフトにconcatしているともいえる Learnable positional embeddingsの場合 • すべての次元が位置情報によって汚染さ れ得る • が、良い性能が出ているのでたぶん学習 でうまく住みわけがなされている模様
  21. 21. a2) 学習可能なパラメータとして 適当に初期化して学習する 21 2 Transformer 解体新書 • Learnable positional embeddings [J. Gehring+, ICML2017] • BERTやGPT、ViTなどよく使われている https://huggingface.co/transformers/_modules/transfo rmers/models/vit/modeling_vit.html#ViTModel 初期化の方法は様々 HuggingfaceのViTだとゼ ロベクトルで初期化 他にも一様分布や 正規分布などの場合があ る(実装による)
  22. 22. 22 2 Transformer 解体新書 ● Learnable sinusoidal positional embeddings [B. Wang+, ICLR2021] ● Sinusoidalの形だと2つの位置の内積がcosの和で表される
  23. 23. 23 2 Transformer 解体新書 位置embeddingが全てsin、cosだとすると、 ある位置は他の位置の線形結合で表現することができる ちなみに元論文[A. Vaswani+, NIPS2017]の著者らの主張 だから相対位置を学習しやすそう という著者らのお気持ちが込められている
  24. 24. b) 絶対位置か?相対位置か? 24 2 Transformer 解体新書 Sinusoidal型で位置embeddingを定義する場合 絶対位置ではなく相対位置で定義する方法がある 特徴:長文の処理やスパン予測に強い [B. Wang+, ICLR2021] https://openreview.net/forum?id=onxoVA9FxMw 例:訓練データより長い文での機械翻訳で強い [M. Neishi+, CoNNL2019] https://www.aclweb.org/anthology/K19-1031/ 下の2文のように、「突然」が入ると絶対位置では変わるが 、相対位置なら位置embeddingが変わらない。 「猫 が 犬 を 追う 。」 「突然 、 猫 が 犬 を 追う 。」
  25. 25. c) どの段階で足し合わせるか? 25 2 Transformer 解体新書 ● 入力のembeddingに足す(よくある方法) ● Modified Attention Matrix (MAM) 呼び方はPosition Information in Transformers: An Overview [P. Dufter+, arXiv2021]に依拠
  26. 26. Modified Attention Matrix (MAM) 26 2 Transformer 解体新書 位置embeddingをattantion mapのバイアスとして足す Rethinking Positional Encoding in Language Pre-training [G. Ke+, ICLR2021] https://openreview.net/forum?id=09-528y2Fgf (b)のように、素子と位置のembeddingを別々に計算して attention mapで加算する方法をとる 従来の入力で足す方法 MAM
  27. 27. MAMにはどのような利点がある? 27 2 Transformer 解体新書 Rethinking Positional Encoding in Language Pre-training [G. Ke+, ICLR2021] https://openreview.net/forum?id=09-528y2Fgf Attention mapは素子(Unit)と位置(Position)のembeddingからなる BERTの学習済みモデルで素子と位置の相関を見てみると相関がない →わざわざ相関を無くすように学習をしている →MAMによってこの部分を明示的に除去することで、表現力を別の部分に 使えて同じモデルでも性能が向上する
  28. 28. Positional embedding関連でおススメの文献 28 2 Transformer 解体新書 Position Information in Transformers: An Overview [P. Dufter+, arXiv2021] https://arxiv.org/abs/2102.11090 位置embeddingについての網羅的なサーベイ論文 On Position Embeddings in BERT [B. Wang+, ICLR2021] https://openreview.net/forum?id=onxoVA9FxMw 位置embeddingの性質としてSinusoidal型と学習型を様々な条件で比較 タスクごとのおすすめの設定を示唆している ● 絶対位置が分類タスクで優れている(特殊トークンを柔軟に扱えるため?) ● 相対位置がスパンの予測タスクで優れている ● 分類タスクでは対称性は崩れていた方が性能が良い What Do Position Embeddings Learn? An Empirical Study of Pre-Trained Language Model Positional Encoding [Y.A. Wang+, EMNLP2020] https://arxiv.org/abs/2010.04903 BERT、RoBERTa、GPT-2などの位置embeddingの可視化
  29. 29. 基本構成はそんなに難しくない 29 2 Transformer 解体新書 Transformer block Transformer block Transformer block classification head positional encoding embedding 入力 入力をトークンごとにベクトル化 Self-attentionを中心とし た メインの処理 分類の予測を行う 位置情報の付与
  30. 30. Transformer block 30 2 Transformer 解体新書 Transformer block 学習方法やタスクに非依存のTransfomerの基本処理単位
  31. 31. Transformerブロックの中身 31 2 Transformer 解体新書 Transformerブロックを構成している要素 1. Multi-head attention (次元分割型Self-attention) 2. 残差接続(Residual connection) 3. Layer Normalizationによる正規化 4. Position-wise feed forward networks 5. DropOut ややこしい図でいうところの Transformerブロック部分
  32. 32. Self-attention 32 2 Transformer 解体新書 辞書型の非線形処理機構 周りの情報を取り入れて新しいベクトルを作る self-attention
  33. 33. Self-attention 33 + このクエリについ てみると・・・ ベースの料理(Query)に関係する周りの料理を選び(Key) その材料(Value)で新しい料理(ベクトル)をつくる attention map 2 Transformer 解体新書
  34. 34. Multi-head attentionへの拡張 34 次元分割型Self-attention(Multi-head attention) Self-attentionの内積はベクトルの各要素にわたって大 域的な類似度を取っている 高次元にすると、 次元ごとの小さな特徴が無視されやすい attention map • 小さなベクトルに切り分け計算 • トークン間の多様な類似性を 発見できる • 多様性を上げる損失関数を加え ると性能向上[J. Li+, EMNLP2018], [P.Y. Huang+, EMNLP2019] 2 Transformer 解体新書
  35. 35. 残差接続(Residual connection) 35 • 入力からの差分を学習する • 入力からの差分の学習が不要の場合 sublayer部分が0になるように学習が進む • 学習の安定化に寄与 多層での学習性能を上げる工夫 2 Transformer 解体新書
  36. 36. Layer normalization 36 入力系列をトークンごとに正規化する操作 Layernorm Layernorm Layernorm Layernorm 嬉しい特徴 Large batch訓練がbatch accumulationで安心してできる ※batch normalizationだと統計量が変わってしまう 2 Transformer 解体新書
  37. 37. DropOut 37 Transformerでは3種類のDropOutがある ● positional encoding後の入力embedding ● 残差接続&Layernormの直前 ● attention計算時のattention map 訓練時に、ある層の入力(出力)を確率的に0にする ことで汎化性能を上げる工夫 2 Transformer 解体新書
  38. 38. Position-wise feed forward networks 38 2 Transformer 解体新書 言語モデルでは一種のkey-valueメモリ の役割を担っていると報告 [M. Geva+,arXiv2021] https://arxiv.org/abs/2012.14913 2層の線形層を各位置ごとに適用(Layernormと同様) この層はtransformerの2/3の重みを占めるが、どのような役割 や重要性があるのか? 重みで学習された情報(networkに埋め込まれ た情報)をこの部分で引き出しているらしい
  39. 39. 参考文献 39 参考文献 [A. Vaswani+, NIPS2017] Vaswani, Ashish et al. “Attention is All you Need.” Advances in Neural Information Processing Systems 30 (2017). [J. Gehring+, ICML2017] Gehring, Jonas et al. “Convolutional Sequence to Sequence Learning.” Proceedings of the 34th International Conference on Machine Learning (2017). [B. Wang+, ICLR2021] Wang, Benyou, et al. “On Position Embeddings in BERT.” Proceedings of International Conference on Learning Representations (2021). [M. Neishi+, CoNNL2019] Neishi, Masato and Yoshinaga, Naoki “On the Relation between Position Information and Sentence Length in Neural Machine Translation.” Proceedings of the 23rd Conference on Computational Natural Language Learning (2019). [P. Dufter+, arXiv2021] Dufter, Philipp et al. “Position Information in Transformers: An Overview.” arXiv preprint arXiv:2102.11090 (2021). [G. Ke+, ICLR2021] Ke, Guolin, et al. “Rethinking Positional Encoding in Language Pre-training.” Proceedings of International Conference on Learning Representations (2021). [Y.A. Wang+, EMNLP2020] Wang, Yu-An and Chen, Yun-Nung “What Do Position Embeddings Learn? An Empirical Study of Pre-Trained Language Model Positional Encoding.” Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (2021).
  40. 40. 参考文献 40 参考文献 [J. Li+, EMNLP2018] Li, Jian, et al. “Multi-Head Attention with Disagreement Regularization.” Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing (2018). [P.Y. Huang+, EMNLP2019] Huang, Po-Yao, et al. “Multi-Head Attention with Diversity for Learning Grounded Multilingual Multimodal Representations.” Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (2019). [M. Geva+,arXiv2021] Geva, Mor, et al. “Transformer Feed-Forward Layers Are Key- Value Memories.” arXiv preprint arXiv:2012.14913 (2020).
  41. 41. 3. Transformerの学習と推論 41
  42. 42. NLPにおけるTransformerの類型 42 3 Transformerの学習 と推論 大きく分けて2種類のタイプがある • 【Seq2seq】Attention is all you need [A. Vaswani+, NIPS2017] • 【BERT】BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding [J. Devlin+, NAACL2019]
  43. 43. Seq2seq型 43 3 Transformerの学習 と推論 EncoderとDecoderの2種類のTransformerで構成 Encoder Decoder
  44. 44. Seq2seq型 44 3 Transformerの学習 と推論 EncoderとDecoderの2種類のTransformerで構成 Encoder情報はKey, Value情報としてDecoderへ Encoder Decoder Key Value
  45. 45. 自己回帰型と非自己回帰型 45 自己回帰 過去の系列のみを参照(GPT-1,2,3など) 非自己回帰 未来を含め系列全体を参照(BERTなど) ※図は[N. Chen+, arXiv2019](https://arxiv.org/abs/1911.04908)より 3 Transformerの学習 と推論
  46. 46. 自己回帰型と非自己回帰型 46 3 Transformerの学習 と推論 「私 は 元気 です」をデコーダで出力するように学習す る場合 私 は 元気 で す Query Key 「私」に対応するQueryは、未 来の情報である「は」「元気 」「です」のKeyを考慮しない (ちなみに推論時も同様にマ スクされている)
  47. 47. 非自己回帰型のSeq2seq 47 3 Transformerの学習 と推論 トークン の消去 トークン用 穴の作成 穴埋め トークンの消去、トークン穴の作成、穴埋め の操作を通して全系列を段階的に編集する 全系列を一度に予測する。有名なのは Levenshtein Transformer [J. Gu+, NeurIPS2019] https://arxiv.org/abs/1905.11006
  48. 48. BERT型 48 3 Transformerの学習 と推論 非自己回帰のDecoderに似た新しい言語モデルの枠組み 事前学習で以下の2つのタスクを行うことで色々なNLPタスク で効果を発揮(V&LのモデルやViTもこの流れを汲んでいる) • Masked language modeling (MLM) • Next sentence prediction (NSP) BERT [CLS] [SEP] 文A 文B
  49. 49. Masked Language Modeling 49 3 Transformerの学習 と推論 系列の一部を[MASK]トークンで置き換えるなど処理を施してそ のトークンの予測を行うタスク (ViTでもpatch単位で同じことをしている) BERTでは15%を選択して処理 ● 80%は[mask]トークンで置き換え ● 10%はrandomなトークンで置き換え ● 10%はそのままにする 15%
  50. 50. Next sentence prediction 50 3 Transformerの学習 と推論 2つの文AとBが連続しているかを2値で予測するタスク (V&Lのモデルでは画像とテキストがマッチするかで使われて いる) BERT [CLS] [SEP] 文A 文B 連続/不連続 BERTでは50%が連続(IsNext),50%が不連続(NotNext)のデータ RoBERTa[Y. Liu+, arXiv2019]では性能向上に寄与しないとの報 告がある
  51. 51. Segment embeddingsの追加 51 3 Transformerの学習 と推論 どちらの文に所属しているかをより明示的に扱うための embeddingを追加で加算する(複数文の場合はABを繰り返すこ とが多い?)
  52. 52. 参考文献 52 参考文献 [A. Vaswani+, NIPS2017] Vaswani, Ashish et al. “Attention is All you Need.” Advances in Neural Information Processing Systems 30 (2017). [J. Devlin+, NAACL2019] Devlin, Jacob, et al. “BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding.” Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers) (2019). [N. Chen+, arXiv2019] Chen, Nanxin, et al. “Listen and Fill in the Missing Letters: Non-Autoregressive Transformer for Speech Recognition.” arXiv preprint arXiv:1911.04908 (2019). [J. Gu+, NeurIPS2019] Gu, Jiatao, et al. “Levenshtein Transformer” Advances in Neural Information Processing Systems 32 (2019). [Y. Liu+, arXiv2019] Liu, Yinhan, et al. "Roberta: A robustly optimized bert pretraining approach." arXiv preprint arXiv:1907.11692 (2019).
  53. 53. 4. Computer Visionでの展開 53
  54. 54. 画像認識 54 Vision Transformer (ViT)[A. Dosovitskiy+, ICLR2021] シンプルに画像にTransformerを適用させたモデル 画像を区切ったボクセル=単語に対応 4 Computer Visionでの展開 出典:原著 (https://openreview.net/forum?id=YicbFdNTTy) Figure 1 シンプルな適用でも 従来のデファクトの 性能を超える! 同等性能が 15倍短い学習で 達成可能! 出典:原著 (https://openreview.net/forum?id=YicbFdNTTy) Table 2 画像片を単語の ように扱う スライス
  55. 55. 画像認識 55 ViTのさらなる発展系 • DeiT [H.Touvron+, arXiv2021] – ViTを蒸留によって訓練を効率化 – 蒸留Tokenを導入して蒸留の損 失を計算 – データ拡張やLabel smoothing の適用によって訓練を高速化 4 Computer Visionでの展開 Touvron, Hugo, et al. "Training data-efficient image transformers & distillation through attention." arXiv preprint arXiv:2012.12877(2020).
  56. 56. 物体検出 56 DEtection TRansformer (DETR)[N Carion+, ECCV2020] シンプルにTransformerを適用させたモデル 入力画像はスライスせず,Positional Encodingを1枚 画像にして注目場所を扱う 4 Computer Visionでの展開 出典:原著(https://arxiv.org/abs/2005.12872) Fig 2
  57. 57. 動画認識 57 Video Action Transformer Network [R Girdhar+,CVPR2019] 構造には結構工夫あり.画像サイズのPEから空間的注 目領域を見るのはDETRに近い 4 Computer Visionでの展開 出典:原著 (https://arxiv.org/abs/1812.02707) Figure 2
  58. 58. 動画認識 58 Time-Space Transformer (TimeSformer) [G. Bertasius+, arXiv2021] ViTのような画像を均等にパッチ化し, Spatio-Temporal なTransformerを提案.計算コストが異なる5種類の Spatio-TemporalのSelf-attention計算(下図)を検討: 4 Computer Visionでの展開 出典:原著 (https://arxiv.org/abs/2102.05095) Figure 2
  59. 59. 動画認識 59 Video Vision Transformer (ViViT) [A. Arnab+, arXiv2021] TimeSformerと類似し,ViTのように画像を分割し,Spatio- Temporal Transformerを提案.SpatioとTemporalのSelf- attention計算を如何に効率化するかという視点で,3つの Factorisationの方法を提案(下図). 4 Computer Visionでの展開 出典:原著 (https://arxiv.org/abs/2103.15691) Figure 1
  60. 60. CVPR2021における動向 60 ポーズ推定とメッシュ復元 [K. Lin+, CVPR2021](https://arxiv.org/abs/2012.09760)
  61. 61. CVPR2021における動向 61 トラッキング [N. Wang+, CVPR2021](https://arxiv.org/abs/2103.11681)
  62. 62. CVPR2021における動向 62 Semantic Segmentation [S. Zheng+, CVPR2021](https://arxiv.org/abs/2012.15840)
  63. 63. CVPR2021における動向 63 Panoptic Segmentation [H. Wang+, CVPR2021](https://arxiv.org/abs/2012.00759)
  64. 64. CVPR2021における動向 64 Human-Object Interaction (HOI) detection [M. Chen+, CVPR2021](https://arxiv.org/abs/2103.05983)
  65. 65. CVPR2021における動向 65 Image-Based Rendering [Q. Wang+, CVPR2021] (https://arxiv.org/abs/2102.13090)
  66. 66. CVPR2021における動向 66 レイアウト生成 [D.M. Arroyo+, CVPR2021](https://arxiv.org/abs/2104.02416)
  67. 67. 数式ドリブンDBによる超大規模学習 67 数式ベースで学習データを作成することで, ViTの事前学習 [K. Nakashima+, arXiv2021](https://arxiv.org/abs/2103.13023)
  68. 68. 参考文献 68 参考文献 [A. Dosovitskiy+, ICLR2021] Dosovitskiy, Alexey, et al. “An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale.” Proceedings of International Conference on Learning Representations (2021). [H.Touvron+, Arxiv2021] Touvron, Hugo, et al. "Training data-efficient image transformers & distillation through attention." arXiv preprint arXiv:2012.12877(2020). [N Carion+, ECCV2020] Carion, Nicolas et al. “End-to-End Object Detection with Transformers.” European Conference on Computer Vision (2020). [R Girdhar+, CVPR2019] Girdhar, Rohit et al. “Video Action Transformer Network.” Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (2019). [G. Bertasius+, arXiv2021] Bertasius, Gedas, et al. “Is Space-Time Attention All You Need for Video Understanding?” arXiv preprint arXiv:2102.05095 (2021). [A. Arnab+, arXiv2021] Arnab, Anurag et al. “ViViT: A Video Vision Transforme.r” arXiv preprint arXiv:2103.15691 (2021). [K. Lin+, CVPR2021] Lin, Kevin, et al. “End-to-End Human Pose and Mesh Reconstruction with Transformers.” arXiv preprint arXiv:2012.09760 (2021). [N. Wang+, CVPR2021] Wang, Ning et al. “Transformer Meets Tracker: Exploiting Temporal Context for Robust Visual Tracking.” arXiv preprint arXiv:2103.11681(2021).
  69. 69. 参考文献 69 参考文献 [S. Zheng+, CVPR2021] Zheng, Sixiao et al. “Rethinking Semantic Segmentation from a Sequence-to-Sequence Perspective with Transformers.” arXiv preprint arXiv:2012.15840 (2021). [H. Wang+, CVPR2021] Wang, Huiyu, et al. “MaX-DeepLab: End-to-End Panoptic Segmentation with Mask Transformers.” arXiv preprint arXiv:2012.00759 (2021). Mingfei Chen et al. “Reformulating HOI Detection as Adaptive Set Prediction.” arXiv preprint arXiv:2103.05983 (2021). [M. Chen+, CVPR2021] Wang, Qianqian et al. “IBRNet: Learning Multi-View Image- Based Rendering.” arXiv preprint arXiv:2102.13090(2021). [D.M. Arroyo+, CVPR2021] Arroyo, Diego Martin, Janis Postels, and Federico Tombari “Variational Transformer Networks for Layout Generation.” arXiv preprint arXiv:2104.02416 (2021). [K. Nakashima+, arXiv2021] Nakashima, Kodai et al. “Can Vision Transformers Learn without Natural Images?” arXiv preprint arXiv:2103.13023 (2021).
  70. 70. 5. Transformerを使いこなすために 70 【課題と近年の動向】
  71. 71. 各タスクにおける事前学習の必要性 71 5 Transformerを 使いこなすために NLP Task • 大規模言語モデルの開発が盛ん – BERT, RoBERTa, GPT-3 • ドメインごとに適した各言語モデルが開発 – 医療: BioBERT – 科学論文: SPECTER • 個別タスクでは事前学習モデルを活用 – 事前学習から行うことは少ない – 個別タスクのドメインに適した事前学習済みモ デルを利用
  72. 72. 各タスクにおける事前学習の必要性 72 5 Transformerを 使いこなすために NLP Task 最近の大規模言語モデル提案の例: CANINE[J. Clark+, arXiv2021](https://arxiv.org/abs/2103.06874) 分かち書きが必要ない言語モデル – ユニコードレベルで学習 – 長系列を学習可能なようにlocal transformer+ CNNでダウンサンプリング – QAタスクで高い 精度を達成
  73. 73. 各タスクにおける事前学習の必要性 73 5 Transformerを 使いこなすために NLP Task ドメインごとに適した学習済みモデルが開発 医療: BioBERT [J. Lee+, Bioinformatics2020] https://doi.org/10.1093/bioinformatics/btz682 科学論文: SPECTER [A. Cohan+, ACL2020] https://www.aclweb.org/anthology/2020. acl-main.207/
  74. 74. 各タスクにおける事前学習の必要性 74 5 Transformerを 使いこなすために NLP Task 個別タスクでは事前学習モデルを利用 機械翻訳 固有表現抽出 (NER) 引用 (https://www.aclweb.org/anthology/2020.emnlp-main.210) 引用 (https://arxiv.org/abs/1909.07755)
  75. 75. 各タスクにおける事前学習の必要性 75 5 Transformerを 使いこなすために Vision Task • Transformerベースの汎用モデルが最近登場 – iGPT, ViT, TNT... • 個別タスクではTransformerベースのモデル が増加 – 一部タスク以外で学習済みモデルが用いられる ことは(まだ)少ない
  76. 76. 76 Vision Transformer (ViT)[A. Dosovitskiy+,ICLR2021] シンプルに画像にTransformerを適用させたモデル 画像を区切ったボクセル=単語に対応 出典:原著 (https://openreview.net/forum?id=YicbFdNTTy) Figure 1 シンプルな適用でも 従来のデファクトの 性能を超える! 同等性能が 15倍短い学習で 達成可能! 出典:原著 (https://openreview.net/forum?id=YicbFdNTTy) Table 2 各タスクにおける事前学習の必要性 5 Transformerを 使いこなすために Transformerベースの汎用モデルの例:
  77. 77. 各タスクにおける事前学習の必要性 77 5 Transformerを 使いこなすために Vision Task • 個別タスクではTransformerベースのモデル の提案が増加 Semantic Segmentation [D.Zhang+, ECCV2020] https://link.springer.com/chapter/10.1007/978-3- 030-58604-1 Image Generation [F. Yang+, CVPR2020] https://arxiv.org/abs/2006.04139
  78. 78. 各タスクにおける事前学習の必要性 78 5 Transformerを 使いこなすために Vision Task • データ量が少ないタスクなどに学習済みモデ ルの活用事例あり Medical Image Segmentation:ViTの利用 例:ImageNetで事前学習し,医療画像に適応 [C. Jieneng+, arXiv2021] from: https://arxiv.org/abs/2102.04306
  79. 79. 各タスクにおける事前学習の必要性 79 5 Transformerを 使いこなすために Vision Task • 学習済みモデルの活用の少ない理由 – Language TaskのBERTのように,Vision Taskに適し た一般的なアーキテクチャがまだ少ない[K. Han+, arXiv2020] (大半は2020年以降に提案,多くはタスク特化型) from: https://arxiv.org/abs/2012.12556
  80. 80. 各タスクにおける事前学習の必要性 80 5 Transformerを 使いこなすために Vision Task • 学習済みモデル活用が少ない理由 – Vision TaskへのTransformerの適応がまだ初期段階の ため,学習済みモデルの活用例が少ない – ViTは画像分類タスク(CIFAR, VTAB)でSOTAに近い性 能であったが,物体検出などのタスクにViTを活用して もCNNベースのモデルより低い性能という報告も [K. Han+, arXiv2021]https://arxiv.org/abs/2103.0011 – NLPと比較して,TransformerがVision Taskになぜ 適しているかを明確に説明するのは困難
  81. 81. 各タスクにおける事前学習の必要性 81 5 Transformerを 使いこなすために Vision Task • ViTの学習には膨大なデータが必要 – Googleが保有している300Mのデータを利用(未公開) – CNNに存在するinductive biasesが存在しないため, Transformerは学習を通じて獲得しなければならないた め学習に時間がかかる [S.Khan+ arXiv2021] (https://arxiv.org/abs/2101.01169)
  82. 82. 各タスクにおける事前学習の必要性 82 5 Transformerを 使いこなすために Vision Task • 知識蒸留による学習の効率化(DeiT) [H. Touvron+ arXiv2020](https://arxiv.org/abs/2012.12877) – 教師ネットワークとしてCNNを利用 – ImageNetの規模でも事前学習が可能に
  83. 83. 各タスクにおける事前学習の必要性 83 5 Transformerを 使いこなすために Vision and Language Task • Vision Taskと似た状況 – 詳細は後述 • Transformerベースの言語と画像を結びつけ る汎用モデルが近年増加 – ViLBERT, ViLT, OSCAR... • 個別タスクではTransformerベースのモデル の提案が増加 – 個別タスクで事前学習済みモデルを用いること は少ない
  84. 84. 事前学習には何を使うべき? 84 Language • BERT • RoBERTa • XLNet 5 Transformerを 使いこなすために Vision • ViT • ResNet (まだ特徴抽出器として部分的に使うこ とが多い) モデル データセット Language • WebText (GPT-X) • WMT (翻訳) • etc. Vision • ImageNet • OpenImages • JFT300M,IG3.5B →非公開,事前学習モデルのみ Languageではタスク毎にデータが必要そう
  85. 85. 事前学習には何を使うべき? 85 BERT (Language) [J. Devlin+, NAACL2019] (https://www.aclweb.org/anthology/N19-1423/) 事前学習:学習データから教師なしで文脈を考 慮した埋め込み表現を獲得する手法 • Masked Language Model (MLM) 穴が空いた文章から穴の部分の単語(token) を予測 • Next Sentence Prediction (NSP) 2文が渡されて,それが連結するかどうかを 予測 5 Transformerを 使いこなすために
  86. 86. 事前学習には何を使うべき? 86 BERTのMasked Language Model 入力の15%のtoken(単語やsubword)を置き換え候 補として選択.そのうち, • 80%: [Mask] tokenに置き換え – The [Mask] is walking • 10%: 別のランダムな単語に置き換え – The car is walking • 10%: そのまま – The dog is walking *Whole Word Masking: subword区切りの分割 で単語の一部分をmaskingするのではなく,単語全 体をmaskingすることで精度が向上 5 Transformerを 使いこなすために 元単語: philammon (phil ##am ##mon) 従来: phil [Mask] ##mon → 提案: [Mask] [Mask]
  87. 87. 事前学習には何を使うべき? 87 RoBERTa (Language) [Y. Liu+, arXiv2019] (https://arxiv.org/abs/1907.11692) より事前学習のデータを増やし,BERTを改良 いたモデル 事前学習 • Masked Language Model (MLM) BERTの静的なMaskingと異なり,エポック ごとに異なる動的なMaskingを作成し学習 • Next Sentence Prediction (NSP)の効果が ほとんどないことを明らかにし,MLMのみ で事前学習 5 Transformerを 使いこなすために
  88. 88. 事前学習には何を使うべき? 88 XLNet (Language) [Z. Yang+, NeurIPS2019] BERTの学習済みモデルのfine-tuningで[Mask] tokenが出てこない点やMaskされた単語の依存関 係を考慮できない欠点を改良 • BERTの双方向的な学習の利点と, Transfomer-XLのAutoregressiveの[Mask]を 用いない利点を結合 5 Transformerを 使いこなすために • 入力の単語を並び替え Attentionのマスクを 調整することで解決 from: https://papers.nips.cc/paper/2019/hash/dc6a7e655d 7e5840e66733e9ee67cc69-Abstract.html
  89. 89. 事前学習には何を使うべき? 89 ViT (Vision) [A. Dosovitskiy+, ICLR2021](https://arxiv.org/abs/2010.11929) • 画像をパッチ単位に区切ったベクトルを単語の ように扱い入力 • 事前学習のMaskingの手法はBERT準拠 パッチ部分の画素の色を予測するタスクで50% をマスキングの候補として抽出 – 80%: 学習可能な[Mask]に置き換え – 10%: 別のランダムなパッチに置き換え – 10%: そのまま 5 Transformerを 使いこなすために
  90. 90. 事前学習には何を使うべき? 90 UNITER (Vision and Language) [Y. Chen+, ECCV2020] • 画像と言語の事前学習モデルの1つ • 画像特徴量はFaster R-CNNで抽出された領域 • 4つの事前学習タスク – Masked Language Modeling (MLM) – Masked Region Modeling (MRM) • 物体領域のbottom up特徴量を確率0.15でゼロベクト ルで置き換え予測 – Image-Text Matching (ITM) – Word-Region Alignment (WRA) 5 Transformerを 使いこなすために from: https://link.springer.com/chapter/10.1007/978-3-030-58577- 8_7 • imageとword/text のマッチングタスク
  91. 91. 事前学習には何を使うべき? 91 その他のVision and Language modelのMLM • ViLBERT[J. Lu+, arXiv2019] やVILLA[G. Zhe+, NeurIPS2020] (https://arxiv.org/abs/2006.06195)でもUNITERと同様に確 率0.15でゼロベクトルに置き換え予測 5 Transformerを 使いこなすために VILLAフレームワーク
  92. 92. 冗長なheadの存在 • 多くのheadを用いて学習したモデルから,テスト時に headを減らしても精度に影響が少ない [P. Michel+, arXiv2019] (https://arxiv.org/abs/1905.10650) • 多くのheadの貢献度は小さく,一部のheadのみが構 文関係や単語関係の把握に重要な役割を担っている [E. Voita+, ACL2019] (https://www.aclweb.org/anthology/P19-1580/) – BERTでも一部のheadが構文情報を獲得している [K. Clark+, ACLworkshop2019] (https://arxiv.org/abs/1906.04341) ⇒ Multi-headの恩恵を十分に受けれない可能性! Multi-head attentionの工夫 92 5 Transformerを 使いこなすために
  93. 93. Multi-head attentionの工夫 93 Multi-headの多様性の重要性 ImageNetで学習されたViTでは,同様の Attention Mapばかり生成され,深い層では効率 的な表現学習が達成できないという報告 [D. Zhou+, arXiv2021] (https://arxiv.org/abs/2103.11886) 5 Transformerを 使いこなすために
  94. 94. Multi-head attentionの工夫 94 Multi-headの多様性を確保するための工夫 • ヘッド同士の注目位置の類似度などを損失関数の 正則化項として組み込むことで多様性を確保 [J. Li+, EMNLP2018] (https://www.aclweb.org/anthology/D18-1317/) • ViTの深い層での学習するため,Multi-headの注目 マップを再生成する手法を提案 [D. Zhou+, arXiv2021] (https://arxiv.org/abs/2103.11886) 5 Transformerを 使いこなすために • Metric Learningの枠組みを活用 してMulti-modal/lingualのモデ ルの各headが多様性を確保でき るよう損失関数を設定 [P. Huang+, EMNLP-IJCNLP2019] (https://www.aclweb.org/anthology/D19-1154/)
  95. 95. 扱える系列の長さを延ばすには? 95 Transformerの課題:メモリ・計算量 • self-attention の計算量は – n: 入力の長さ,d: 潜在表現次元数 ⇒短いテキストなら問題ないが,長文の入力は 計算量・メモリ共に複雑になるという課題 5 Transformerを 使いこなすために from: https://arxiv.org/abs/1706.03762
  96. 96. 扱える系列の長さを延ばすには? 96 Transformerの課題:メモリ・計算量 Self-attentionの計算量・メモリ量をへらすモデル や,長期文脈を考慮するための仕組みを取り入れ たモデルが増加 5 Transformerを 使いこなすために from: https://arxiv.org/abs/2009.06732
  97. 97. 扱える系列の長さを延ばすには? 97 Transformerの課題:メモリ・計算量 • 文脈情報をメモリに記憶 – Transformer-XL, Compressive Transformer • 固定のマスキング – Sparse Transformer, Longformer, Big Bird • 動的なマスキング – Reformer, ETC, Routing Transformer, Informer • Self-attentionを圧縮 – Logsparse Transformer, Linformer • その他 – Efficient attention mechanism, Adversarial sparse transformer 5 Transformerを 使いこなすために
  98. 98. 扱える系列の長さを延ばすには? 98 Transformer-XL [Z. Dai+, ACL2019] (https://www.aclweb.org/anthology/P19-1285/) • 以前のsegmentの特徴量を用いて,新しい segmentの特徴を計算する再帰的な処理を導入 • 相対的な位置を把握するPositional Encodingを用 いることで以前のsegmentとの関係を把握 • 通常のTransformerよりも1800倍の高速化を実現 5 Transformerを 使いこなすために
  99. 99. 扱える系列の長さを延ばすには? 99 Compressive Transformer [J. Rae+, ICLR2019] (https://arxiv.org/abs/1911.05507) • Transformer-XLの拡張 • 保存可能なメモリサイズを超えた以前のコンテキス トを保存するために,Attentionが再現可能なよう にConvolutionで圧縮し学習 5 Transformerを 使いこなすために
  100. 100. Sparse Transformer [R. Child+, arXiv2019] (https://arxiv.org/abs/1904.10509) • 2種類のAttention maskを提案 – strided attention: 直前と周期的な部分をmask • CIFAR-10などの画像データに効果的 – fixed attention: 直前と特定の部分をmask • Enwiki8などのテキストデータに効果的 • 計算量: 扱える系列の長さを延ばすには? 100 5 Transformerを 使いこなすために
  101. 101. Longformer [I. Beltagy+, arXiv2020] (https://arxiv.org/abs/2004.05150) • Sparse Transformerの発展 • Global + sliding window attentionの提案 周辺の語と[CLS]トークンなどの特定の単語に Attention maskをかける手法 • 計算量を線形オーダーに抑える 扱える系列の長さを延ばすには? 101 5 Transformerを 使いこなすために
  102. 102. Big Bird [M. Zaheer+, arXiv2020] (https://arxiv.org/abs/2007.14062) • Longformerの発展 • window + global + random attention • Global Attentionでは2種類の手法を提案したが実験で はETCが高い性能を達成 – ITC: 各シーケンスでglobal tokenを選択 – ECT: 各シーケンスに[CLS]tokenの役割を果たす toknを追加 扱える系列の長さを延ばすには? 102 5 Transformerを 使いこなすために
  103. 103. 扱える系列の長さを延ばすには? 103 Reformer [N. Kitaev+, ICLR2020] (https://arxiv.org/abs/2001.04451) • LSH Attention Attentionのsoftmax計算でqueryに類似したkeyを容 易に選択するため,類似した単語に同じハッシュを割 り当て,並列処理を実現するための手法 • 計算量: 5 Transformerを 使いこなすために
  104. 104. ETC [J. Ainslie+, EMNLP2020] (https://www.aclweb.org/anthology/2020.emnlp-main.19/) • GlobalにAttentionを取るtokenとLocalにAttention を取るtokenを分ける • attention mapをglobal-global, global-local, local- global, local-localに分割することで計算量を削減 扱える系列の長さを延ばすには? 104 5 Transformerを 使いこなすために
  105. 105. Routing Transformer [A. Roy+, TACL2021] • Self-attentionのqueryとkeyをk-meansクラス タリングを適用したときに同じクラスに属する ものでAttentionを算出するという動的なマス キング方法 扱える系列の長さを延ばすには? 105 5 Transformerを 使いこなすために from:https://direct.mit.edu/tacl/article/doi/10.1162/tacl_a_00353/977 76/Efficient-Content-Based-Sparse-Attention-with
  106. 106. Informer [H. Zhou+, AAAI2021] (https://arxiv.org/abs/2012.07436) • AAAI2021 Best Paper • ProbSparse: self-attention scoreが高い queryのみを利用 • Attention BlockごとにConv1D+MaxPool1Dを 利用して系列長を圧縮し計算量を削減 扱える系列の長さを延ばすには? 106 5 Transformerを 使いこなすために
  107. 107. Logsparse Transformer [S. Li+, NeurIPS2019] (https://arxiv.org/abs/1907.00235) • Convolutionを用いて時系列のパターンを獲得 しTransformerに入力とするモジュールを提案 • 長期的な入力を可能とするため,logごとに Transformerへ入力とする 扱える系列の長さを延ばすには? 107 5 Transformerを 使いこなすために
  108. 108. Linformer [S. Wang+, arXiv2020] (https://arxiv.org/abs/2006.04768) • self-attentionを特異値分解(SVD)をしたときに ,行列の情報のほとんどが最初の数個の最大特 異値から回収できるという特性を生かしてSelf- attentionを低ランクに行列に近似 • 計算量: 扱える系列の長さを延ばすには? 108 5 Transformerを 使いこなすために
  109. 109. Efficient Attention Mechanism [V. Nguyen+, ECCV2020] (https://arxiv.org/abs/1911.11390) • 一つのTransformerに文脈情報を組み込むため、 multi-head attentionのheadごとに対話の文脈 を入れることで多入力のタスクに対応 扱える系列の長さを延ばすには? 109 5 Transformerを 使いこなすために
  110. 110. Adversarial Sparse Transformer [S. Wu+, NeurIPS2020] • Self-attentionの計算のsoftmaxをα-entmax [B. Peters+, ACL2019]に置き換えることで時系列予測に 関連が高い部分のみを計算 • 論文自体は,敵対的学習とTransformerの組み 合わせが肝となっている 扱える系列の長さを延ばすには? 110 5 Transformerを 使いこなすために from: https://proceedings.neurips.cc/paper/2020 /hash/c6b8c8d762da15fa8dbbdfb6baf9e2 60-Abstract.html
  111. 111. PreNormか?PostNormか? 111 PostNorm: (a)にあたる形式で,Multi-head AttentionやFFNなどのサブレイ ヤー後にLayer Normを置く. BERTなどの多くのモデルはこの 形式. PreNorm: (b)にあたる形式で,PostNorm とは異なり,各サブレイヤー前 にLayer Normを置く. 5 Transformerを 使いこなすために from:http://proceedings.mlr.press/v119/xiong20b.html
  112. 112. PreNormか?PostNormか? 112 PreNormによる安定性向上の報告 • 機械翻訳[Q. Wang+, ICLR2019]や言語モデル[A. Baevski+, ACL2019]などの一部タスクにおいてPostNormより もPreNormの方が精度が向上するという報告 • PreNormによって学習初期の勾配爆発が抑えら れ,加えて重みの初期値の標準偏差を小さくす ることで学習のwarm-up数を無くせ,高い学習 率で学習が可能に[T. Nguyen+, arXiv2019, R. Xiong+, ICML2020] 5 Transformerを 使いこなすために [Q. Wang+, ICLR2019] https://arxiv.org/abs/1809.10853 [A. Baevski+, ACL2019] https://arxiv.org/abs/1906.01787 [T. Nguyen+, arXiv2019] https://arxiv.org/abs/1910.05895 [R. Xiong+, ICML2020] http://proceedings.mlr.press/v119/xiong20b.html
  113. 113. PreNormか?PostNormか? 113 PreNormとPostNormの働きの違いの要因は Residual Branchへの依存度 [L. Liu+, EMNLP2020] (https://www.aclweb.org/anthology/2020.emnlp-main.463/) • PreNormでは学習が安定するがモデル能力が制 限される,一方でPostNormでは学習は安定しな いが高い精度は達成 5 Transformerを 使いこなすために
  114. 114. PreNormか?PostNormか? 114 PreNormとPostNormの働きの違いの要因は Residual Branchへの依存度 [L. Liu+, EMNLP2020] (https://www.aclweb.org/anthology/2020.emnlp-main.463/) • PostNormでの勾配爆発の問題は指摘されていたが,こ れが学習が不安定になる主な要因ではないということを 明らかに 5 Transformerを 使いこなすために • PostNormはResidual Branchの依存度が高いこと から学習が不安定になる一方で,PreNormは Residual Branchの依存度が低 いことを示す • 本論文ではAdminというPreと Postの良い所取りを目指したフ レームワークを提案
  115. 115. 効率的なfine-tuningを行うための工夫 115 Training Tips for the Transformer Model [P. Martin+, 2018] (https://arxiv.org/abs/1804.00247) WMTタスクを通じてTransformerのbatch sizeやGPU数につ いて議論 • GPUのメモリ: 少なくとも11GB以上必要 – 16 head, 1024 hidden sizeのモデルを学習可能 • Max Length: 適度に低い長さを設定することで,学習途 中のメモリーエラーを回避 • Batch size: できるだけ大きく設定することで学習速度が 向上 • 学習が発散: Gradient clipやwarmup step数の増加を検討 • 並列学習: 各4GPUで2つのモデルを並行学習するよりも, 8つのGPUで1つのモデルを学習する方が収束効率が高い 5 Transformerを 使いこなすために
  116. 116. 効率的なfine-tuningを行うための工夫 116 Do Transformer Modifications Transfer Across Implementations and Applications? [N. Sharan+, arXiv2021] (https://arxiv.org/abs/2102.11972) Transformerの改善案が性能にどのような影響を与えるか検討 • Transparent attentionやFunnel Transformerなどの多く のアーキテクチャ改善は性能向上につながらず. • 性能向上に結びついた改善 – 活性化関数の変更: GLU系の利用 (GeGLU, ReGLU) – Normalizationの変更: RMS Normなどの利用 – パラメータ数の増加: Switch Transformerなど • ハイパーパラメータの検証を通じて,ハイパーパラメータ のチューニングの難しさを示す 5 Transformerを 使いこなすために
  117. 117. 効率的なfine-tuningを行うための工夫 117 • 各タスクで提案されるTransformer-basedにおけるhead数 ,ブロック数,hidden sizeの多くは固定 – e.g. image captioning task: hidden sizeが512, encoderとdecoderのブロック数は6 or 3つずつが多い • バッチ数を増やすことで学習速度は向上するが,メモリー エラーの問題と相談 – e.g. 大量のバッチ数と適切な最適化手法(LARS)を用い ることでBERTの学習が76分で達成 [Y.Yang+, ICLR2019] (https://arxiv.org/abs/1904.00962) • ハイパーパラメータは初期設定のものをそのまま用いて 実験する例が多い – ハイパーパラメータ調整は精度向上に寄与するが,適切 な調整が難しいことが報告 [N. Sharan+, arXiv2021] (https://arxiv.org/abs/2102.11972) 5 Transformerを 使いこなすために
  118. 118. Transformerをさらに進化させる試み 118 Single Headed Attention RNN [S. Merity, arXiv2019] (https://arxiv.org/abs/1911.11423) 5 Transformerを 使いこなすために モデルの大規模化に疑問を呈し RNNを見直す試み ● Single Headede AttentionとRNNを組 み合わせて当時のTransformerベース のモデルに匹敵する精度を達成 ● 「モデルの大規模化だけでなく他の手 法なども注目することで分野が発展し ていく」という趣旨を論文で言及
  119. 119. Transformerをさらに進化させる試み 119 LambdaNetwork [I. Bello, ICLR2021] (https://arxiv.org/abs/2102.08602) 5 Transformerを 使いこなすために Attentionのメモリ効率を見直す試み ● Key × Queryの掛け合わせでのAttention map生成 は計算効率が悪いため,Queryを直接写像する Lambda層を提案 ● Attention Mapを計算しないため,メモリ効率が高く ,EfficientNets より4.5倍計算速度が 向上
  120. 120. Transformerをさらに進化させる試み 120 Perciever [A. Jaegle, arXiv2021] (https://arxiv.org/abs/2103.03206) 5 Transformerを 使いこなすために 様々なモダリティに汎用性をもたらす試み ● 画像、点群、音声、ビデオ、ビデオ+音声などのモ ダリティの分類タスクにおいて固有のモデルと同等 以上の性能を達成 ● 潜在表現と入力の配列をCross attentionの入力と して学習する汎用的なモジュールを提案 ● 画像: ImageNet, ビデオ+音声: AudioSet, 点群:ModelNet40を用いて学習
  121. 121. Transformerをさらに進化させる試み 121 Frozen Pretrained Transformer [K. Lu, arXiv2021] (https://arxiv.org/abs/2103.05247) 5 Transformerを 使いこなすために 言語で学習したモデルを別モダリティに適用す る試み ● 言語で学習したTransformerをself-attentionと Feed Forwardを固定して別モダリティ・タスク(画 像やビット演算,タンパク質の予測など)に転移可能 かどうかを検証 多くのタスクで,0から 学習したTransformerと 同等の性能
  122. 122. 参考文献 122 [J. Clark+, arXiv2021] Clark, Jonathan H., et al. "CANINE: Pre-training an Efficient Tokenization-Free Encoder for Language Representation." arXiv preprint arXiv:2103.06874 (2021). [J. Lee+, Bioinformatics2020] Lee, Jinhyuk, et al. "BioBERT: a pre-trained biomedical language representation model for biomedical text mining." Bioinformatics 36.4 (2020): 1234-1240. [A. Cohan+, ACL2020] Cohan, Arman, et al. "Specter: Document-level representation learning using citation-informed transformers." Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics. 2020. [A. Dosovitskiy+, ICLR2021] Alexey Dosovitskiy et al. “An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale.” Proceedings of International Conference on Learning Representations (2021). [D.Zhang+, ECCV2020] Zhang, Dong, et al. "Feature pyramid transformer." European Conference on Computer Vision. Springer, Cham, 2020. [F. Yang+, CVPR2020] Yang, Fuzhi, et al. "Learning texture transformer network for image super-resolution." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2020. [C. Jieneng+, arXiv2021] Chen, Jieneng, et al. "Transunet: Transformers make strong encoders for medical image segmentation." arXiv preprint arXiv:2102.04306 (2021).
  123. 123. 参考文献 123 [K. Han+, arXiv2020] Han, Kai, et al. "A Survey on Visual Transformer." arXiv preprint arXiv:2012.12556 (2020). [J. Clark+, arXiv2021] Clark, Jonathan H., et al. "CANINE: Pre-training an Efficient Tokenization-Free Encoder for Language Representation." arXiv preprint arXiv:2103.06874 (2021). [K. Han+, arXiv2021] Han, Kai, et al. "Transformer in transformer." arXiv preprint arXiv:2103.00112 (2021). [S. Khan+ arXiv2021] Khan, Salman, et al. "Transformers in Vision: A Survey." arXiv preprint arXiv:2101.01169 (2021). [H. Touvron+ arXiv2020] Han, Kai, et al. "Transformer in transformer." arXiv preprint arXiv:2103.00112 (2021). [J. Devlin+, NAACL2019] Devlin, Jacob, et al. "BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding." Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers). (2019). [Y. Liu+, arXiv2019] Liu, Yinhan, et al. "Roberta: A robustly optimized bert pretraining approach." arXiv preprint arXiv:1907.11692 (2019)
  124. 124. 参考文献 124 [Z. Yang+, NeurIPS2019] Yang, Zhilin, et al. "XLNet: Generalized Autoregressive Pretraining for Language Understanding." Advances in Neural Information Processing Systems 32 (2019): 5753-5763. [Y. Chen+, ECCV2020] Chen, Yen-Chun, et al. "Uniter: Universal image-text representation learning." European Conference on Computer Vision. Springer, Cham, 2020. [J. Lu+, arXiv2019] Lu, Jiasen, et al. "Vilbert: Pretraining task-agnostic visiolinguistic representations for vision-and-language tasks." arXiv preprint arXiv:1908.02265 (2019). [G. Zhe+, NeurIPS2020] Gan, Zhe, et al. "Large-scale adversarial training for vision- and-language representation learning." arXiv preprint arXiv:2006.06195 (2020). [P. Michel+, arXiv2019] Michel, Paul, Omer Levy, and Graham Neubig. "Are sixteen heads really better than one?." arXiv preprint arXiv:1905.10650 (2019). [E. Voita+, ACL2019] Voita, Elena, et al. "Analyzing Multi-Head Self-Attention: Specialized Heads Do the Heavy Lifting, the Rest Can Be Pruned." Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics. 2019. [K. Clark+, ACLworkshop2019] Clark, Kevin, et al. "What Does BERT Look at? An Analysis of BERT’s Attention." Proceedings of the 2019 ACL Workshop BlackboxNLP: Analyzing and Interpreting Neural Networks for NLP. (2019).
  125. 125. 参考文献 125 [D. Zhou+, arXiv2021] Zhou, Daquan, et al. "DeepViT: Towards Deeper Vision Transformer." arXiv preprint arXiv:2103.11886 (2021). [J. Li+, EMNLP2018] Li, Jian, et al. "Multi-Head Attention with Disagreement Regularization." Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing. (2018). [P. Huang+, EMNLP-IJCNLP2019] Huang, Po-Yao, Xiaojun Chang, and Alexander G. Hauptmann. "Multi-Head Attention with Diversity for Learning Grounded Multilingual Multimodal Representations." Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP). (2019). [Z. Dai+, ACL2019] Dai, Zihang, et al. "Transformer-XL: Attentive Language Models beyond a Fixed-Length Context." Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics. (2019). [J. Rae+, ICLR2019] Rae, Jack W., et al. "Compressive Transformers for Long- Range Sequence Modelling." International Conference on Learning Representations. (2019). [R. Child+, arXiv2019] Child, Rewon, et al. "Generating long sequences with sparse transformers." arXiv preprint arXiv:1904.10509 (2019).
  126. 126. 参考文献 126 [I. Beltagy+, arXiv2020] Beltagy, Iz, Matthew E. Peters, and Arman Cohan. "Longformer: The long-document transformer." arXiv preprint arXiv:2004.05150 (2020). [M. Zaheer+, arXiv2020] Zaheer, Manzil, et al. "Big bird: Transformers for longer sequences." arXiv preprint arXiv:2007.14062 (2020). [N. Kitaev+, ICLR2020] Kitaev, Nikita, Lukasz Kaiser, and Anselm Levskaya. "Reformer: The Efficient Transformer." International Conference on Learning Representations. (2020). [J. Ainslie+, EMNLP2020] Ainslie, Joshua, et al. "ETC: Encoding Long and Structured Inputs in Transformers." Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP). (2020). [A. Roy+, TACL2021] Roy, Aurko, et al. "Efficient content-based sparse attention with routing transformers." Transactions of the Association for Computational Linguistics 9 (2021): 53-68. [H. Zhou+, AAAI2021] Zhou, Haoyi, et al. "Informer: Beyond Efficient Transformer for Long Sequence Time-Series Forecasting." arXiv preprint arXiv:2012.07436 (2020). [S. Li+, NeurIPS2019] Li, Shiyang, et al. "Enhancing the Locality and Breaking the Memory Bottleneck of Transformer on Time Series Forecasting." Advances in Neural Information Processing Systems 32 (2019): 5243-5253
  127. 127. 参考文献 127 [S. Wang+, arXiv2020] Wang, Sinong, et al. "Linformer: Self-attention with linear complexity." arXiv preprint arXiv:2006.04768 (2020). [V. Nguyen+, ECCV2020] Nguyen, V. Q., Suganuma, M., & Okatani, T. (2020). Efficient Attention Mechanism for Visual Dialog that Can Handle All the Interactions Between Multiple Inputs. In ECCV 2020 - 16th European Conference, (2020), Proceedings (pp. 223-240). [S. Wu+, NeurIPS2020] Wu, Sifan, et al. "Adversarial Sparse Transformer for Time Series Forecasting." Advances in Neural Information Processing Systems 33 (2020). [B. Peters+, ACL2019] Peters, Ben, Vlad Niculae, and André FT Martins. "Sparse Sequence-to-Sequence Models." Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics. (2019). [Q. Wang+, ICLR2019] Baevski, Alexei, and Michael Auli. "Adaptive Input Representations for Neural Language Modeling." International Conference on Learning Representations. (2019). [A. Baevski+, ACL2019] Wang, Qiang, et al. "Learning Deep Transformer Models for Machine Translation." Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics. (2019).
  128. 128. 参考文献 128 [T. Nguyen+, arXiv2019] Nguyen, Toan Q., and Julian Salazar. "Transformers without tears: Improving the normalization of self-attention." arXiv preprint arXiv:1910.05895 (2019). [R. Xiong+, ICML2020] Xiong, Ruibin, et al. "On layer normalization in the transformer architecture." International Conference on Machine Learning. PMLR, (2020). [L. Liu+, EMNLP2020] Liu, Liyuan, et al. "Understanding the Difficulty of Training Transformers." Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP). (2020). P. Martin+, 2018] Popel, Martin, and Ondřej Bojar. "Training Tips for the Transformer Model." The Prague Bulletin of Mathematical Linguistics 110 (2018): 43-70. [N. Sharan+, arXiv2021] Narang, Sharan, et al. "Do Transformer Modifications Transfer Across Implementations and Applications?." arXiv preprint arXiv:2102.11972 (2021). [Y.Yang+, ICLR2019] You, Yang, et al. "Large Batch Optimization for Deep Learning: Training BERT in 76 minutes." International Conference on Learning Representations. 2019. [S. Merity, arXiv2019] Merity, Stephen. "Single headed attention rnn: Stop thinking with your head." arXiv preprint arXiv:1911.11423 (2019).
  129. 129. 参考文献 129 [I. Bello, ICLR2021] Bello, Irwan. "LambdaNetworks: Modeling long-range Interactions without Attention." International Conference on Learning Representations. 2021. [A. Jaegle, arXiv2021] Jaegle, Andrew, et al. "Perceiver: General Perception with Iterative Attention." arXiv preprint arXiv:2103.03206 (2021). [K. Lu, arXiv2021] Lu, Kevin, et al. "Pretrained transformers as universal computation engines." arXiv preprint arXiv:2103.05247 (2021).
  130. 130. 6. Vision and Languageにおける Transformer 130
  131. 131. どのようにモダリティを組合わせる? 131 Bottom-up attention [P. Anderson+ CVPR2018](https://arxiv.org/abs/1707.07998) • 画像をグリッド(左)に区切るのではなく,目 立つ領域(右)に注目するという考え • 物体検出によって得られたbounding boxを 利用する 6 Vision and Language におけるTransformer
  132. 132. どのようにモダリティを組合わせる? 132 検出された物体をトークンとして利用 • 各物体から得られる画像特徴量に座標情報等 を加えるものが主流 (図はVLBERT[W. Su+ ICLR2020] (https://arxiv.org/abs/1908.08530)) 6 Vision and Language におけるTransformer
  133. 133. 1-stream型, 2-stream型 133 1-stream: 1つのTransformerで画像と言語を 扱う 6 Vision and Language におけるTransformer VLBERT[W. Su+ ICLR2020] (https://arxiv.org/abs/1911.04908) UNITER[Y.C. Chen+ ECCV2020] (https://arxiv.org/abs/1909.11740)
  134. 134. 1-stream型, 2-stream型 134 2-stream: 画像と言語を別のネットワークで 処理し,2つのモダリティ間の対応を取る 6 Vision and Language におけるTransformer LXMERT[H. Tan+ EMNLP-IJCNLP2019] (https://arxiv.org/abs/1908.07490) ViLBERT[J. Lu+ arXiv2019] (https://arxiv.org/abs/1908.02265)
  135. 135. 事前学習の方法 135 BERTの事前学習を派生させたものが多い • マッチング 入力された画像とテキストのペアが正しいペ アかを判定 • Mask prediction BERT同様に言語側のトークンの一部をマス クし、元のトークンを予測する 画像の場合は,マスクされた領域の特徴量を 回帰する場合や物体のクラスを予測する場合 が存在 6 Vision and Language におけるTransformer
  136. 136. 複数タスク、複数データセットの利用 136 マルチタスク学習による性能向上 [J. Lu+ CVPR2020] (https://arxiv.org/abs/1912.02315) Vision and languageタスクにおいて,複数の タスク・データセットで学習した方が単独で学 習するより性能が向上することを確認 6 Vision and Language におけるTransformer
  137. 137. 複数タスク、複数データセットの利用 137 多段階の学習[A. Majumdar+ ECCV2020] (https://arxiv.org/abs/2004.14973) 目的タスクの学習データが少ない時,(1)言語 のみ(2)画像とキャプションペア(3)目標タスク の順で多段階の学習を提案. 6 Vision and Language におけるTransformer
  138. 138. 参考文献 138 [P. Anderson+ CVPR2018] Anderson, Peter, et al. "Bottom-up and top-down attention for image captioning and visual question answering." Proceedings of the IEEE conference on computer vision and pattern recognition. (2018). [W. Su+ ICLR2020] Su, Weijie, et al. "VL-BERT: Pre-training of Generic Visual- Linguistic Representations." International Conference on Learning Representations. (2020). [Y.C. Chen+ ECCV2020] Chen, Yen-Chun, et al. "Uniter: Universal image-text representation learning." European Conference on Computer Vision. Springer, Cham, (2020). [H. Tan+ EMNLP-IJCNLP2019] Tan, Hao, and Mohit Bansal. "LXMERT: Learning Cross-Modality Encoder Representations from Transformers." Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP). (2019). [J. Lu+, arXiv2019] Lu, Jiasen, et al. "Vilbert: Pretraining task-agnostic visiolinguistic representations for vision-and-language tasks." arXiv preprint arXiv:1908.02265 (2019).
  139. 139. 参考文献 139 [J. Lu+ CVPR2020] Lu, Jiasen, et al. "12-in-1: Multi-task vision and language representation learning." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. (2020). [A. Majumdar+ ECCV2020] Majumdar, Arjun, et al. "Improving vision-and-language navigation with image-text pairs from the web." European Conference on Computer Vision. Springer, Cham, (2020).
  140. 140. 7. Vision and Languageの 近年の動向 140
  141. 141. Image captioning 141 近年の傾向 • 中国による研究(Xiamen University, Chinese Academy of Sciences)が比較的多い • 2019年以降,画像内部のObjectとテキスト内 部のEntityを結びつけるためのモジュール提案 が増加 • 2020年からBlinding peopleに向けてや,実応 用に向けての研究が増加 • 因果推論の枠組みを取り入れた研究[X. Yang+, 2020]や ,一貫性を保った言語生成の枠組みを取り入れ た研究が増加 7 Vision and Language の近年の動向
  142. 142. Image captioning 142 近年の傾向 • Before Transformerの代表例 – Bottom-up Attention, AoANet • After Transformerの代表例 – M2, image transformer, DLCT • 画像とテキストを結びつけるモジュールの提案 – MIA, Concept-guided, EnTangled • 新たな取り組み – Blinding userに向けて – 因果推論の枠組みの導入 – 評価指標の見直し 7 Vision and Language の近年の動向
  143. 143. Image captioning: Before Transformer 143 Bottom-up Attention [P. Anderson+, CVPR2018] (https://arxiv.org/abs/1707.07998) • Before Transformerの代表例1 • Faster R-CNNによって抽出される部分画像 (bottom-up)に対して,Attentionの重み付けを決 定 (Top-down) 7 Vision and Language の近年の動向
  144. 144. Image captioning: Before Transformer 144 AoANet [L. Huang+, ICCV2019] (https://arxiv.org/abs/1908.06954) • Before Transformerの代表例2 • 注目する部分がなくても,Softmaxによって一部 の特徴を注目せざるを得ないという問題を, Attentionの上にゲートを導入することで解決 • Image Captionに限らず様々な分野のAttentionに 対して適用可能なアイデア 7 Vision and Language の近年の動向
  145. 145. Image captioning: After Transformer 145 M2 Transformer [M. Cornia+, CVPR2020] (https://arxiv.org/abs/1912.08226) • Encoder – 画像オブジェクト間のlow-/high- levelの関係を考慮で きるようにmulti-level fashionを活用 – 画像オブジェクト間の関係をmemoryで記憶するために ,情報を符号化して覚えることが可能なmemory (slot) を追加 • Decoder: Mesh-like構造の活用 7 Vision and Language の近年の動向
  146. 146. Image captioning: After Transformer 146 Image transformer [S. He+, ACCV2020] (https://arxiv.org/abs/2004.14231) • 領域同士の関係を明示的に取り入れるために,画像 の領域同士の重なり具合に応じて重みを変更する3 つのゲート (child, parent, neighborhood)を Transformer内部に導入 7 Vision and Language の近年の動向
  147. 147. Image captioning: After Transformer 147 DLCT [Y. Luo+, arXiv2021] (https://arxiv.org/abs/2101.06462) • image regionによる入力と,従来のgrid featureによ る入力の2つの良い所を組み合わせて入力 • 絶対的な位置情報と相対的な位置情報の両方を統合す ることで、入力された特徴の間の複雑な視覚と位置関 係をモデル化 7 Vision and Language の近年の動向 • 特徴同士のアライ ンメントを導くた めcross-attention fusionsを活用
  148. 148. Image captioning: After Transformer 148 画像とテキストの結びつけ MIA module [F. Liu+, NeurIPS2019] (https://arxiv.org/abs/1905.06139) Concept-guided Attention [J. Li+, Applied Science 2019] (https://www.mdpi.com/2076-3417/9/16/3260) 7 Vision and Language の近年の動向 画像とobjectのラベル情報を入力としたmutual attentionを積み重ね,画像の領域情報とラベル 情報のalignmentを取得するモジュールを提案 画像領域のattentionとobjectのラ ベルに対するattentionをかけ合わ せるモジュールを提案
  149. 149. Image captioning: After Transformer 149 画像とテキストの結びつけ EnTangled Attention [G. Li+, ICCV2019] (https://openaccess.thecvf.com/content_ICCV_2019/html/Li_Entangled_Transfor mer_for_Image_Captioning_ICCV_2019_paper.html) 7 Vision and Language の近年の動向 画像の特徴量と画像のオブジェクトのattributeの特徴量を Co-attentionと似た手法で相互に組み合わせる手法を提案
  150. 150. Image captioning: After Transformer 150 Blinding userに向けて Assessing Image Quality Issues for Real- World Problems [TY. Chiu+, CVPR2020] (https://arxiv.org/abs/2003.12511) • Blinding userが撮影した写真に説明のためのキャプ ションをつける時に,どのような課題があるか調査 – 提供される画像の約15%が認識できない – 画像にボケやフレーミングがあるなど 7 Vision and Language の近年の動向
  151. 151. Image captioning: After Transformer 151 Blinding userに向けて Captioning Images Taken by People Who Are Blind [D. Gurari+, ECCV2020] (https://link.springer.com/chapter/10.1007/978-3-030-58520-4_25) • Blinding userのためのデータセット:VizWizを公開 • データセット内の画像が多様であることを示す 7 Vision and Language の近年の動向
  152. 152. Image captioning: After Transformer 152 因果推論の枠組みの導入 Deconfounded image captioning [X. Yanf+, arXiv2020] (https://arxiv.org/abs/2003.03923) • Image Captioningにおける偏りの因果関係につい て調査するためのフレームワークを提案し,調査し たところpre-training用のデータセットに因果関係 が存在することを明らかに 7 Vision and Language の近年の動向
  153. 153. Image captioning: After Transformer 153 評価指標の見直し Novel metric based on BERTScore [Y. Yi+, ACL2020] (https://www.aclweb.org/anthology/2020.acl-main.93/) • Image Captioningの新たな評価指標を提案 • 評価時,正解となるキャプションの中での分散を考 慮しないため,生成されたキャプションと参照文と のミスマッチに強くペナルティを与えてしまう傾向 • BERTScoreをBaseと した新たな手法を提案 7 Vision and Language の近年の動向
  154. 154. Visual question answering (VQA) 154 物体検出を用いた手法が台頭 VinVL[P. Zhang+, CVPR2021] (http://128.84.4.18/abs/2101.00529) • OSCAR[X. Li+, ECCV2020]やVIVO[X. Hu+, 2020]などのアンサ ンブル • Trasformerベースモデルで6.5Mの大規模text- image データセットを masked token lossと contrastive lossの事前学習 • オブジェクトタグを言語,画像のalignに使用 7 Vision and Language の近年の動向
  155. 155. Text-to-image 155 学習済みモデルを用いる方法が発展 7 Vision and Language の近年の動向 Network-to-network [R. Rombach+, NeurIPS2020] https://arxiv.org/abs/2005.13580 flow-basedで異なる2ドメインの特徴量のマッピングを学習End-to- endで最適化せずにできるので効率的
  156. 156. Text-to-image: CLIPによる応用 156 大規模な画像とテキストのペアでcontrastive learningを行うことでzero-shotの認識を実現 7 Vision and Language の近年の動向 Contrastive Language–Image Pre-training [A. Radford+,arXiv2021] https://arxiv.org/abs/2103.00020 4億のデータを収集してクリーニングしたデータセットでContrastive学習 テキストをクラスと見立てて、マッチングスコアでzero-shot画像認識 後述するDALL-Eでは生成画像のリランキングに使っている
  157. 157. Text-to-image: CLIPによる応用 157 CLIPを汎用的な識別器として、生成画像をテ キストに合わせて制御する手法が続々登場 7 Vision and Language の近年の動向 Paint by word [D. Bau+, arXiv2021] https://arxiv.org/abs/2103.10951 CLIP-Guided Generative Latent Space Search [F. Galatolo+, arXiv2021] https://arxiv.org/abs/2102.01645 入力となる目標テキストに対して、進化 的アルゴリズムでCLIPの類似度スコアを 最大化するよう画像の潜在変数を最適化
  158. 158. Text-to-image: DALL-Eの登場 158 汎用的な画像生成が視野に入ってきた? 7 Vision and Language の近年の動向 潜在空間を離散化したVAEによる潜在変数を語彙としてGPT-3で大 規模に学習すると、テキストからゼロショットで画像生成ができる 2.5億の画像テキストペアで学習 Zero-Shot Text-to-Image Generation [A. Ramesh+, arXiv2021] https://arxiv.org/abs/2102.12092
  159. 159. Visual dialogue 159 VQAなど他の関連タスクと融合しつつ発展 7 Vision and Language の近年の動向 Large-scale Pretraining for Visual Dialog: A Simple State-of-the-Art Baseline [V. Murahari+, ECCV2020] https://arxiv.org/abs/1912.02379 別タスクのデータセットで 事前学習を行い性能が向上 ● 言語のみのデータセット ● VQAのデータセット
  160. 160. Visual dialogue 160 BERT系の他にSeq2seq系のモデルも使われる 7 Vision and Language の近年の動向 The Dialogue Dodecathlon [K. Shuster+, ACL2020] https://www.aclweb.org/anthology/2020.acl-main.222/ 複数の対話データセット(画像付きも含む)で訓練 した場合もzero-shot能力を示すことが報告された
  161. 161. Visual dialogue 161 新規タスクに適応できるモデル Dialog without Dialog Data: Learning Visual Dialog Agents from VQA Data [M. Cogswell+, NeurIPS2020] (https://arxiv.org/abs/2007.12750) • 対話的な画像当てゲームに対し,言語レベルでの新たな教 師データは与えず,タスクの成功の可否のみでファインチ ューニングをする 7 Vision and Language の近年の動向
  162. 162. Visual dialogue 162 対話に特化した言語モデル DialoGPT: Large-Scale Generative Pre-training for Conversational Response Generation [Y. Zhang+, ACL2020] (https://arxiv.org/abs/1911.00536) • Redditから収集した対話データをもとに,GPT-2と同様の 手法で学習した言語モデル • ターゲット→ソースの文章を予測する正解率を高めること で,情報のある文章を生成する 7 Vision and Language の近年の動向 https://www.microsoft.com/en-us/research/project/large-scale-pretraining-for-response-generation/
  163. 163. Visual dialogue:対話独特の工夫 163 対話履歴ごとに1つのヘッドをあてて対話履歴 の長さに対応する 7 Vision and Language の近年の動向 [VQ. Nguuyen+, ECCV2020] https://arxiv.org/abs/1911.11390 左の(a)が普通のTransformer 右の(b)が提案手法 対話履歴をそのまま Transformerに入力していく と文長が長くなりすぎる head毎に入力することで対話 履歴の段階的なfusionを行う
  164. 164. Visual Language Navigation (VLN) 164 2020~ VLN BERT からの Transformer化か Before Transformer • Embodied Question Answering (EQA) [E. Wijmans+, CVPR2019] (https://arxiv.org/abs/1904.03461) – D. Batra先生@GeogiaTechのチーム – 入力:画像,出力:前後左右 のLSTM After Transformer • VLN BERT[A. Majumdar+, ECCV2020] – EQAのD. Batra先生@GeogiaTechのチーム – 同チームのViL BERT[NeurIPS2019]を継承 • Recurrent VLN BERT[Y. Hong+, CVRP2021] 7 Vision and Language の近年の動向 抜粋引用:EQA原著 Fig4 出典:VLNBERT原著 Fig3
  165. 165. Referring Expression Comprehension 165 訓練済みV&Lモデルによる飛躍的な性能向上 Before Transformer • 大きく分けて2種類の手法 – 2ステップ:①候補生成→②ランク付け – 1ステップ:画像から直接候補領域を抽出 After Transformer • 多くの大規模訓練モデルで実験が行われ,いずれもTransformer 以前のモデルの性能を大きく上回る – ViLBERT, VLBERT, UNITER, LXMERT, VILLA, etc. • ただしこれらは全て2ステップ手法=②にのみ Transformerが使われている • このタスクに特化したTransformerモデルは(おそらく) まだない 7 Vision and Language の近年の動向
  166. 166. Referring Expression Comprehension 166 頑健性を高める研究 Words aren't enough, their order matters: On the Robustness of Grounding Visual Referring Expressions [A. Akula+, ACL2020] (https://www.aclweb.org/anthology/2020.acl- main.586/) • Referring Expressionのバイアスについて調べた論文 • ViLBERTの頑健性を高めるための学習手法についての提案 がある – 距離学習 – マルチタスク学習 7 Vision and Language の近年の動向
  167. 167. 参考文献 167 [X. Yang+, 2020] Yang, Xu, Hanwang Zhang, and Jianfei Cai. "Deconfounded image captioning: A causal retrospect." arXiv preprint arXiv:2003.03923 (2020). [P. Anderson+, CVPR2018] Anderson, Peter, et al. "Bottom-up and top-down attention for image captioning and visual question answering." Proceedings of the IEEE conference on computer vision and pattern recognition. (2018). [L. Huang+, ICCV2019] Huang, Lun, et al. "Attention on attention for image captioning." Proceedings of the IEEE/CVF International Conference on Computer Vision. (2019). [M. Cornia+, CVPR2020] Cornia, Marcella, et al. "Meshed-memory transformer for image captioning." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. (2020). [S. He+, ACCV2020] He, Sen, et al. "Image captioning through image transformer." Proceedings of the Asian Conference on Computer Vision. (2020). [Y. Luo+, arXiv2021] Luo, Yunpeng, et al. "Dual-Level Collaborative Transformer for Image Captioning." arXiv preprint arXiv:2101.06462 (2021). [F. Liu+, NeurIPS2019] Liu, Fenglin, et al. "Aligning Visual Regions and Textual Concepts for Semantic-Grounded Image Representations." NeurIPS. (2019). [J. Li+, Applied Science2019] Li, Jiangyun, et al. "Boosted transformer for image captioning." Applied Sciences 9.16 (2019): 3260.
  168. 168. 参考文献 168 [G. Li+, ICCV2019] Li, Guang, et al. "Entangled transformer for image captioning." Proceedings of the IEEE/CVF International Conference on Computer Vision. (2019). [TY. Chiu+, CVPR2020] Chiu, Tai-Yin, Yinan Zhao, and Danna Gurari. "Assessing image quality issues for real-world problems." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. (2020). [D. Gurari+, ECCV2020] Gurari, Danna, et al. "Captioning images taken by people who are blind." European Conference on Computer Vision. Springer, Cham, (2020). [Y. Yi+, ACL2020] Yi, Yanzhi, Hangyu Deng, and Jinglu Hu. "Improving image captioning evaluation by considering inter references variance." Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics. (2020). [P. Zhang+, CVPR2021] Zhang, Pengchuan, et al. "VinVL: Revisiting Visual Representations in Vision-Language Models." arXiv preprint arXiv:2101.00529 (2021). [X. Li+, ECCV2020] Li, Xiujun, et al. "Oscar: Object-semantics aligned pre-training for vision-language tasks." European Conference on Computer Vision. Springer, Cham, (2020). [X. Hu+, arXiv2020] Hu, Xiaowei, et al. "Vivo: Surpassing human performance in novel object captioning with visual vocabulary pre-training." arXiv preprint arXiv:2009.13682 (2020).
  169. 169. 参考文献 169 [R. Rombach+, NeurIPS2020] Rombach, Robin, Patrick Esser, and Bjorn Ommer. "Network-to-Network Translation with Conditional Invertible Neural Networks." Advances in Neural Information Processing Systems 33 (2020). [A. Radford+, arXiv2021] Radford, Alec, et al. "Learning transferable visual models from natural language supervision." arXiv preprint arXiv:2103.00020 (2021). [D. Bau+, arXiv2021] Bau, David, et al. "Paint by Word." arXiv preprint arXiv:2103.10951 (2021). [F. Galatolo+, arXiv2021] Galatolo, Federico A., Mario GCA Cimino, and Gigliola Vaglini. "Generating images from caption and vice versa via CLIP-Guided Generative Latent Space Search." arXiv preprint arXiv:2102.01645 (2021). [A. Ramesh+, arXiv2021] Ramesh, Aditya, et al. "Zero-shot text-to-image generation." arXiv preprint arXiv:2102.12092 (2021). [V. Murahari+, ECCV2020] Murahari, Vishvak, et al. "Large-scale pretraining for visual dialog: A simple state-of-the-art baseline." European Conference on Computer Vision. Springer, Cham, (2020). [K. Shuster+, ACL2020] Shuster, Kurt, et al. "The Dialogue Dodecathlon: Open- Domain Knowledge and Image Grounded Conversational Agents." Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics. (2020).
  170. 170. 参考文献 170 [M. Cogswell+, NeurIPS2020] Cogswell, Michael, et al. "Dialog without Dialog Data: Learning Visual Dialog Agents from VQA Data." Advances in Neural Information Processing Systems 33 (2020). [Y. Zhang+, ACL2020] Zhang, Yizhe, et al. "DIALOGPT: Large-Scale Generative Pre-training for Conversational Response Generation." Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics: System Demonstrations.(2020). [VQ. Nguuyen+, ECCV2020] Nguyen, Van-Quang, Masanori Suganuma, and Takayuki Okatani. "Efficient Attention Mechanism for Visual Dialog that can Handle All the Interactions between Multiple Inputs." (2020) [E. Wijmans+, CVPR2019] Wijmans, Erik, et al. "Embodied question answering in photorealistic environments with point cloud perception." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. (2019). [A. Majumdar+, ECCV2020] Majumdar, Arjun, et al. "Improving vision-and-language navigation with image-text pairs from the web." European Conference on Computer Vision. Springer, Cham, (2020). [Y. Hong+, CVRP2021] Hong, Yicong, et al. "A Recurrent Vision-and-Language BERT for Navigation." arXiv preprint arXiv:2011.13922 (2020).
  171. 171. 参考文献 171 [A. Akula+, ACL2020] Akula, Arjun, et al. "Words Aren’t Enough, Their Order Matters: On the Robustness of Grounding Visual Referring Expressions." Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics. (2020).
  172. 172. 8. Vision and Languageのための Transformerおすすめツール 172
  173. 173. PyTorch 173 お馴染みのDLライブラリ Encoder-Decoderモデルに加えてEncoder/Decoder のみの関数も存在 https://pytorch.org/docs/stable/nn.html
  174. 174. PyTorch 174 お馴染みのDLライブラリ Tutorialでは簡単なモデルによる例が提供されている https://pytorch.org/tutorials/beginner/transformer_tutorial.html
  175. 175. PyTorch 175 高速化のテクニック NVIDIA: PyTorch Performance Tuning Guide • 学習を早くするTiPsが大量に記載! スライド: https://nvlabs.github.io/eccv2020-mixed-precision- tutorial/files/szymon_migacz-pytorch-performance-tuning-guide.pdf 動画: https://www.youtube.com/watch?v=9mS1fIYj1So&ab_channel=ArunMallya
  176. 176. Tensorflow 176 こちらもお馴染みDLライブラリ チュートリアルが提供されている(日本語訳有) https://www.tensorflow.org/tutorials/text/transformer?hl=ja
  177. 177. Hugging Face🤗 177 Transformerに特化したフレームワーク • 多数(8k+)の学習済みモデルの公開(次頁) • PyTorchとTensorflowに対応 • NLPメインだが,LXMERTやViTにも対応 推論コード例 超短い! モデル用意1~2行,入出力実 質各1行
  178. 178. Hugging Face🤗 178 コミュニティモデルが充実
  179. 179. AllenNLP 179 NLPに特化したフレームワーク • PyTorchで構築 • 様々なタスクのモデルを利用可能 – 固有表現抽出,感情分析,文章読解など Vision and Language のモデルも追加! JSONファイルで 実験の管理も容易
  180. 180. 可視化ツール 180 Attentionの可視化[H. Chefer+ CVPR2021] https://github.com/hila-chefer/Transformer-Explainability
  181. 181. 参考文献 181 [H. Chefer+ CVPR2021] Chefer, Hila, Shir Gur, and Lior Wolf. "Transformer Interpretability Beyond Attention Visualization." arXiv preprint arXiv:2012.09838 (2020).

×