17. Is Space-Time Attention All You Need for Video Understanding?
● 画像認識で成功したViTを
動画に適用するように拡張した
TimeSformerを提案
● 時間方向と空間方向を分けて
自己注意を計算するDivided
Space-Time Attentionが
最も良い性能を達成
● 3D CNNよりも速く学習可能で
推論時の計算効率も良いという結果
17
著者:Gedas Bertasius, Heng Wang, Lorenzo Torresani
会議名:ICML 2021
動画認識に時空間の自己注意を用いるTransformerを導入
スライド作成者:原
18. ViViT: A Video Vision Transformer
● ViTを動画に適用するためにパッチの切り方や自己注意の計算方法を検討
● パッチは複数フレームにまたがるTubelet Embeddingが有効
● 各フレームで空間方向の自己注意を計算しきってから後で時間方向の自己注意を
計算するFactorised Encoderが性能と効率のバランスが良い
18
著者:Anurag Arnab, Mostafa Dehghani, Georg Heigold, Chen Sun, Mario Lučić, Cordelia Schmid
会議名:ICCV 2021
動画認識に時空間の自己注意を用いるTransformerを導入
スライド作成者:原