Anúncio
Anúncio

Mais conteúdo relacionado

Apresentações para você(20)

Similar a 【DL輪読会】AUTOGT: AUTOMATED GRAPH TRANSFORMER ARCHITECTURE SEARCH(20)

Anúncio

Mais de Deep Learning JP(20)

Último(20)

Anúncio

【DL輪読会】AUTOGT: AUTOMATED GRAPH TRANSFORMER ARCHITECTURE SEARCH

  1. DEEP LEARNING JP [DL Papers] http://deeplearning.jp/ AUTOGT: AUTOMATED GRAPH TRANSFORMER ARCHITECTURE SEARCH Kensuke Wakasugi, Panasonic Holdings Corporation. 1
  2. 書誌情報 2  タイトル: AUTOGT: AUTOMATED GRAPH TRANSFORMER ARCHITECTURE SEARCH  著者: Zizhao Zhang1, Xin Wang1,2∗, Chaoyu Guan1, Ziwei Zhang1, Haoyang Li1, Wenwu Zhu1∗ • 1Department of Computer Science and Technology, Tsinghua University • 2THU-Bosch JCML Center, Tsinghua University  URL: https://openreview.net/forum?id=GcM7qfl5zY  選書理由 GNN関連に興味があり、 ICLR2023のNotable-top-5%からGNN論文を選出。 ※特に記載しない限り、本資料の図表は上記論文からの引用です。
  3. イントロ 3 ■Contributions • Graph Transformerのアーキテクチャを自動的に探索するフレームワークを初 めて提案 • 近年のSOTAを含む、統一的な探索空間を設計 • グラフエンコーディングに着目した、探索戦略により、探索コストを低減 • 提案手法により、SOTAを超える性能を複数のベンチマークで達成 ■背景・課題 • Transformerの登場以後、Graph Neural Network(GNN)への応用も進む。 • しかし、グラフ特有の情報の埋め込みは、依然として試行錯誤が必要。
  4. AutoGT 4 Automated Graph Transformer Architecture Search (AUTOGT) • Graph Transformer関連技術を統一的に扱うこ とができる空間を設計 • Graph特有の差分: -Node特徴へのadd -Attention Mapへのadd • 上記差分のあるなしを探索空間に含むことで、 既存手法を統一的に取り扱えるように。 • 各種パーツの他、layer数、各種次元も探索対象。
  5. Transformer Architecture 5 Transformerの内、nodeのembeddingとattention mapにgraph由来の情報を 加算 • Transformer部分は一般的な構造 • Input Embedding:H(l)と、 Multi-Head Attention:“softmaxのカッコ内”に、 Graphからの情報を加算
  6. Graph Encoding Strategy 6 ・・・Input Embeddingへの 加算 ・・・ Multi-Head Attention への 加算 ・・・ Hの更新式 全体 Graph Encodingを二か所で表現。処理変更で既存手法を切り替え
  7. Graph Transformer Search Space 7 最大サイズのNNパラメータから、対象パラメータを抽出して学習を実行 • 最大サイズのNNパラメータを用意 • NASに応じて、対象部分のパラメターのみ学習させ る →レイヤー数変更時は、重複部分を継承。 • 上段は、数に関わる探索(レイヤー数、次元数) • 下段は、使用・不使用の探索
  8. Node Attribution Augmentations 8 グラフGから、node毎の特徴量を算出し、加算 ■nodeへの加算 ■参考 ①Centrality Encoding • 有効グラフの場合における、inとoutのエッジ数(次数)に基づ く特徴量. • 次数毎の埋め込みベクトル(学習対象、nodeと同じ次元数) Ying, C., Cai, T., Luo, S., Zheng, S., Ke, G., He, D., ... & Liu, T. Y. (2021). Do transformers really perform badly for graph representation?. Advances in Neural Information Processing Systems, 34, 28877-28888.
  9. Node Attribution Augmentations 9 グラフGから、node毎の特徴量を算出し、加算 ■nodeへの加算 ■参考 ②Laplacian Eigenvector • グラフラプラシアンから、良い埋め込み表現を算出 Belkin, M., & Niyogi, P. (2003). Laplacian eigenmaps for dimensionality reduction and data representation. Neural computation, 15(6), 1373-1396. i. グラフGのnodeをある空間に埋め込んだ時の座標をyと するとき、 以下を最小化するとよい ii. 式変形すると、グラフラプラシアンLが出てくる。 iii. 良い埋め込み表現は以下を最小化する iv. k次元表現を得たい場合、 固有値が小さい順に、k個の固有ベクトルを使う WはGから得られる node間の関係性
  10. Node Attribution Augmentations 10 グラフGから、node毎の特徴量を算出し、加算 ■nodeへの加算 ③SVD-based Positional Encoding • 隣接行列の特異値分解で得られる行列をnode特徴として利用 • 正負の任意性があるので、学習時はランダムにフリップ。
  11. AutoGT 11 Automated Graph Transformer Architecture Search (AUTOGT) • Graph Transformer関連技術を統一的に扱うこ とができる空間を設計 • Graph特有の差分: -Node特徴へのadd -Attention Mapへのadd • 上記差分のあるなしを探索空間に含むことで、 既存手法を統一的に取り扱えるように。 • 各種パーツの他、layer数、各種次元も探索対象。 再掲
  12. Attention Map Augmentations Space 12 グラフGから、Attention Mapを算出し、加算 ■ Attention Mapへの加算 ■参考 ①Spatial Encoding、②Edge Encoding • Spatial:shortest path lengthに応じた重 み • Edge:経路上のedge特徴の平均 Ying, C., Cai, T., Luo, S., Zheng, S., Ke, G., He, D., ... & Liu, T. Y. (2021). Do transformers really perform badly for graph representation?. Advances in Neural Information Processing Systems, 34, 28877-28888.
  13. Attention Map Augmentations Space 13 グラフGから、Attention Mapを算出し、加算 ■ Attention Mapへの加算 ③Proximity-Enhanced Attention • m個のedgeを経由して、viとvjが接続しているか どうか、あるいは、その場合の数
  14. Attention Map Augmentations Space 14 グラフGから、Attention Mapを算出し、加算 ■ Attention Mapへの加算 ③Attention Mask • m個以下のedgeを経由して、viとvjが接続している場合0、それ以 外-∞
  15. 既存手法との対応関係 15 既存手法を包括した枠組みになっている
  16. Encoding-Aware Supernet Training 16 ■NASの問題として記述すると以下のようになる • アーキテクチャa毎に定義されるWの代わりに、 共通のW(パラメータ数最大のaに対応)を定義し、 aの選択に応じて、Wの一部を学習パラメータとし て採用。 共通の学習パラメータWを用意し、アーキテクチャに応じて部分的に利用
  17. Encoding-Aware Supernet Training 17 • 学習初期は、全パラメータで学習(supernet) • Attention map augmentation部分(左図紫)の有 無 で学習パラメータも8通り用意 • これにより、探索空間が広くてもうまく学習できると のこと • Evolutionary Search • mutation:性能上位のアーキテクチャのchoicesを変更 • cross over:同じレイヤー数のアーキテクチャ間で、 choicesを入れ替え 学習データ数に応じて、パラメータサイズは2通りのいずれ かを選択。 Attention map augmentationの有無で8通りにGNNをスプリットして学習
  18. Experiments 18 2値分類のベンチマークで検証 ■データセット • 主として、2値分類のベンチマークで 検証。 • データ数は303~41,127個。 ■学習パラメータ • ①AutoGT(L = 8, d = 128) ②AutoGTbase(L = 4, d = 32) • バッチサイズ:128 • Optimizer:Adam • lr:3e-4 • iteration(supernet+subnet): ①50 + 150 = 200 ②6 + 44 = 50 ※evoは別。
  19. Experiments 19 いずれの従来法よりも良い精度。Evolutionary Searchも必要 • GT(ours)は、Searchパートなし※おそらく8通りのGNNの mix →探索も必要。
  20. その他解析 20 ■Time Cost • OGBG-MolHIVのデータにおいてGraphormerと比較して“たった“7倍 • GraphormerもAutoGTも、2minutes/1epoch on single GPU • Graphormer:300 epoch • AutoGT:50 + 150×8 + 900(evoにおける2000回評価分)=2150 epoch ■Ablation Studies • PROTEINSデータで比較 ①One-Shot:8subnetを使用しない場合 ②Positional-Aware:node特徴の有無でsubnetを構成 • ①→②の改善幅より、②→AutoGTの方が5倍近い改善なので、 Attention Map Encodingについてsubnetを構成したほうが効果的 Table3から抜 粋 統一的な探索空間を設定するだけでなく、Attention Mapに着目したことが重要
  21. Conclusion 21 • 従来手法を包含する統一的なアーキテクチャ探索空間を提案 • Attention Map Encodingの有無で探索を分けることで、効率的に探索 • 従来法を上回る性能も達成
  22. 所感 22 • Graph由来のnode特徴量や、Attention Mapへの埋め込み方について統一的 に取り扱っていて、比較検討がしやすい • 一方、グラフの情報の使い方・埋め込み方が網羅されているわけではないよ うに思われ、 アーキテクチャの探索には余地がある印象
Anúncio