More Related Content Similar to [DL輪読会]Pay Attention to MLPs (gMLP) (20) More from Deep Learning JP (20) [DL輪読会]Pay Attention to MLPs (gMLP)1. Pay Attention to MLPs (gMLP)
小林 範久 Present Square Co.,Ltd.
DEEPLEARNING JP
[DL Papers]
http://deeplearning.jp/
1
2. 書誌情報
2
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
タイトル: Pay Attention to MLPs (gMLP)
(https://arxiv.org/abs/2105.08050)
著者: Hanxiao Liu, Zihang Dai, David R. So, Quoc V
. Le
(Google Research, Brain Team)
Transformer型アーキテクチャが実際はどの程度不可欠なものかをMLP型アーキテクチャと比較して
確認した研究論文。
• Attention機構はCV(画像処理)ではほぼ必要性がなく、NLP(自然言語処理)でも特定のタスク
以外では必要性が低いことが確認された。
• NLPの特定の分野ではAttention機構の有効性が確認されており、gMLPとAttention機構を組み
合わせたaMLPでBERTを超える精度を記録することが出来た。
概要: •
選定理由: • MLPモデルが再評価されている傾向があり、「結局どういう機構が良いモデルに必要なのか?」を理解
したいと思ったから。
4. 1. 導入
背景
• Transformerは革新的なモデルでNLPのデファクトスタンダートになった。
• 現在ではViT(Vision Transformer)の発表などでCVでもデファクトスタンダートになりつつある。
Q.実際にTransformer、特にAttention機構は本当に必要不可欠なものなのか?
Attention機構が実現しているものの中で特に重要なコンセプトである。
①再帰型ではない(=並列処理できる)。
②トークン間の空間情報を取得する。
ということをほかのアーキテクチャでも表現可能であった場合、
Attention機構を用いる必要性はどこまで存在するのか?
Attention機構が可能にしているコンセプトを表現できるゲート付きMLP(gMLP)と
Transformer型モデルの精度を比較し、MLPの有用性を確認していく。
4
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
5. Copyright (C) Present Square Co., Ltd. All Rights Reserved.
2. 先行研究
Language Modeling with Gated Convolutional Networks
(Dauphin et al. 2016)
• 自然言語処理の分野ではRNNが一般的だが、LSTMのようなゲート機構付きの
CNNを提案。
• RNNに比べわずかに精度は劣るが、並列化できるため大幅な高速化を達成。
• ゲート機構の付いた活性化関数(Gated Linear Unit, GLU)が収束に必
要なエポック数の削減に貢献していることを確認。
5
出典:https://arxiv.org/pdf/1612.08083.pdf
Gated Linear Unit (GLU)
• 1 ブロック内では、入力 を2つに分岐 (コピー) し、それぞれ畳み込み層
𝐴 = 𝐸 ∗ 𝑊 + 𝑏 と 𝐵 = 𝐸 ∗ 𝑉 + 𝑐 で長期依存を捉える。
• GLU 層 𝐻 = 𝐴 ⊙ 𝜎 ( 𝐵 ) でゲーティング (上層へ送る情報を制御)
する。 また、ブロックの入力から出力を残差接続する。
6. Vision Transformer(ViT, Dosovitskiy et al. 2020)
• 画像処理で一般的なCNNなどを利用せずに純粋に
Transformerのみを利用しているモデル。
• 画像を「画像パッチが連なったシーケンスデータ」として
扱うことで画像処理にT
ransformerを適用することに
成功。
• T
ransformerの「計算効率の良さ」と「スケーラビリ
ティ」を画像処理タスクにもたらすことを成功。
• 最先端のCNN型モデルよりも優れた結果(もしくは
同程度)を出したうえで、学習に必要な計算コストを
大幅に減少。
画像パッチ(9つのパッチ)として入力
2. 先行研究
出典:https://arxiv.org/pdf/2105.01601.pdf 6
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
7. MLP-Mixer: An all-MLP Architecture for Vision ( Tolstikhin et al. 2021)
• 畳み込み層やTransformerのような
Attention機構を使わず、MLPだけで高精
度の画像分類を実現。
• 入力画像を画像パッチに分割し、それらの
パッチを、チャンネル方向及び空間方向に関
してMLPで変換する。
• 従来のCNNは、 (1)特定の空間位置での
特徴、(2)異なる空間位置間での特徴、ある
いはその両方を一度に混合する層で構成さ
れている。
• MLP-Mixerの背景にある考え方は、特定の
位置ごとの操作(channel-mixing)と、ロ
ケーションをまたいだ操作(token-
mixing)を明確に分けることにある。
2. 先行研究
出典:https://arxiv.org/pdf/2105.01601.pdf 7
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
9. 3. 手法
gMLPのモデル概要
• Spatial Gating Unit(SGU)を搭載したgMLPアーキテクチャ。
• Attention機構が実現しているコンセプトのうち、特に“トークン間の空間情報を取得する”を獲得するために、
様々な工夫が行われている。
• gGLP-blockをL層積み重ねることで適切な特徴量を獲得している。
Spatial Gating Unit
(SGU)
9
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
10. 3. 手法
gMLPのモデル詳細
• gMLP-blockは、(1) 線形射影と活性化関数を組み合わせて出力した値 に対して、
(2) Spatial Gating Unit(SGU)を用いることで、トークン間の空間情報を取得している。
その後、再び(3) 線形射影 を行うことで必要な特徴量を獲得している。
• Transformerのようにポジションエンベディング層を利用していない点がポイント。Transformerではポジションエン
ベディング層を利用することで、画像や文章のトークンがそれらのどこからきたのかを把握していたが、gMLPではSGU
がそのような情報を取得してくれる。
1
2
3
𝑍 = 𝜎 𝑋𝑈
𝑍
෨= 𝑠 𝑍
𝑌 = 𝑍
෨
𝑉
𝑋 ∈ 𝑅𝑛×𝑑
𝑛:データの長さ
𝑑:データの次元 σ:
GeLU(活性化関数)
U・𝑉:チャネル方向に沿った線形射影
(Transformer のFFNs部分と同じ)
10
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
11. 3. 手法
Spatial Gating Unit
データ長の行列を持つWを用いて線形射影。
𝑠 𝑍 = 𝑍1 ⊙ 𝑓𝑤,𝑏
𝑋 ∈ 𝑅𝑛×𝑑
𝑊 ∈ 𝑅𝑛×𝑛
𝑛:データの長さ
𝑏:バイアス項
⊙ :要素ごとの積(アダマール積)
𝑧1、𝑧2:𝑧をチャネル方向に
沿うように2つにしたもの
𝑓𝑤,𝑏 𝑍 = 𝑊𝑍 + 𝑏 4
上記に、もとの入力(Z)と空間的に転移された入力
(fw,b(Z))同士の要素積を取ることで、より適切な
空間情報を獲得。
𝑠 𝑍 = 𝑍 ⊙ 𝑓𝑤,𝑏 𝑍 5
𝑍2 6
上記にGLUsなどで使われている技法として入力値を
分割して利用する手法を組み込む。
11
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
16. 4. 実験
自然言語処理
スケーラビリティ
• TransfomerとgMLPのモデルサイズを大きくしたときの性能の変化を確認。
• Perplexityに関しては両者はほぼ同じような精度を出していると言える。それだけでなく、あるモデル容量からgMLP
の方が良くなっているとも言える。
• ただし、SST-2ではgMLPの方が精度が良いのにもかかわらず、MNLI-mではTransformerの方がよい結果を出
している。このことから、Attention機構を用いることでNLPの一部のタスクでは有効に働くことが考えられる。
16
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
17. 4. 実験
17
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
【補足】SST-2とMNLI-mについて
SST(Stanford Sentiment Treebank):
感情分析(Sentiment Analysis(SA))タスク
• 文章がどの感情を示しているものかを分類するタスク。
• SSTはRotten Tomatoes の映画レビューから構成した構文解析木のことで、 ツリーの各ノードに
negative(1) 〜 positive(25) までの25段階評価が振られている。なお、SST-2はそれをNegativeと
Positiveの2段階に単純化したもの。
MNLI(Multi-Genre Natural Language Inference):
自然言語理解 (General Language Understanding Evaluation(GLUE))タスク
• 前提文Tが仮説文Hを含意するか否かを判定するタスク。
• MNLIはテキスト含意情報で注釈が付けられた433kの文のペアを含むコーパスのことで、話し言葉や書き言葉
など様々なジャンルをカバーし、SNLIより一般化評価が可能になっている。(MNLI-m はMultiNLI
Matched、 MNLI-mm はMultiNLI Mismatchedを意味している。)
23. 5. まとめ
23
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
結論
• Google Brainから流行しているTransformer型アーキテクチャ(具体的にはAttention機構)が実際はどの程度
不可欠なものかをMLP型アーキテクチャと比較して確認した研究論文。
• Attention機構はCV(画像処理)ではほぼ必要性がなく、NLP(自然言語処理)でも特定のタスク以外では必要
性が低いことが確認された。
• NLPの特定の分野ではAttention機構の有効性が確認されており、gMLPとAttention機構を組み合わせた
aMLPでBERTを超える精度を記録することが出来た。
• ゲート機構備えたMLP(gMLP)はTransformerと同様にスケーラビリティがあるため、精度上の問題はモデル容
量を大きくすることで解決できると考えられる。
• Transformerの研究だけでなく、MLPの研究を推進することを提言している。
所感
• Transformer型アーキテクチャが主流となると思われた中での、MLPの再脚光は興味深い。
• 一方、“スケーラビリティがあるから精度上の問題は解決できる”と言われても、まだAttention機構に頼ることになりそう。
24. Appendix
24
Copyright (C) Present Square Co., Ltd. All Rights Reserved.
参考文献
• [1] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Lukasz Kaiser, and Illia
Polosukhin. Attention is all you need. In Advances in Neural Information Processing Systems, 2017.
• [2] Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. Bert: Pre-training of deep bidirectional
transformers for language understanding. In NAACL, 2018.
• [7] Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai,Thomas Unterthiner,
Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, et al.An image is worth 16x16 words: Transformers
for image recognition at scale. In ICLR, 2021.
• [8] Hugo Touvron, Matthieu Cord, Matthijs Douze, Francisco Massa, Alexandre Sablayrolles, and Hervé Jégou. Training
data-efficient image transformers & distillation through attention. arXiv preprint arXiv:2012.12877, 2020.
• [19] Ilya Tolstikhin, Neil Houlsby, Alexander Kolesnikov, Lucas Beyer, Xiaohua Zhai, Thomas Unterthiner, Jessica Yung,
Daniel Keysers, Jakob Uszkoreit, Mario Lucic, and Alexey Dosovitskiy. Mlp-mixer: An all-mlp architecture for vision.
arXiv preprint arXiv:2105.01601, 2021.
• [24] Yann N Dauphin, Angela Fan, Michael Auli, and David Grangier. Language modeling with gated convolutional
networks. In ICML, 2017.