SlideShare a Scribd company logo
1 of 17
Download to read offline
Elaborative Rehearsal for
Zero-shot Action Recognition
ICCV2021
Shizhe Chen, Dong Huang
細谷 優(名工大玉木研)
2022/10/14
Zero-shot Action Recognition(ZSAR)
◼Zero-shot Learning(ZSL)
• 学習データ無しでクラスを識別
• 代わりに周辺知識で学習
• ZSARはZSLの動作認識タスク
◼学習
• 動画とクラスラベル等を
埋め込み
• これら特徴を
関連づけるように学習
◼推論
• 動画特徴からクラスラベルを探索
• 学習時に用いていないクラスを識別可能
• 推論で用いるクラスの情報も埋め込むため
Unseen Class Seen Classes Side Information
Step 1: Visual Embedding Step 2: Semantic Label Embedding
Step 3: Training
Visual Feature Extractor Semantic Feature Extractor
f(.)
Google News Wikipedia
ImageNet WordNet
WikiHow
Apply Eye Makeup
New Action
Ice Dancing
Apply Eye Makeup Ice Dancing
Apply Eye
Makeup
Ice
Dancing
New Action
Prototype 1
Horse
Riding
Prototype 2
Playing
Guitar
Figure(1) Schematic representation of aZSL human action recognition framework.
attempting to overcome these limitations.
Thehuman ability torecognizeanaction without ever
having seen it before, that is, associating semantic infor-
mation from several sources to thevisual appearance of
actions, is the inspiration of ZSL approaches [43]. In
Figure 1, we provide an overview of ZSL approaches
considering the application in videos. This general
scheme can also be found in ZSL applied to object and
event recognition in both images and videos [22]. We
introduce the main aspects of the approaches through-
out this text.
before, in addition to extracting visual features, it is
necessary to associate them with a suitable prototype
and assign a label. This is made by learning an f (·)
mapping function between these spaces. As discussed
in Section 3, this mapping function can assume several
ways to be performed directly into the semantic space,
indirectly by creating an intermediate space or directly
into the visual space.
Thus, weconcentrate our investigation in approaches
that address the problem of recognizing human actions,
without having seen them before, in small video clips,
[Estevam+, Neurocomputing](arXiv)
概要
◼映像理解の課題
• クラス数の増加
• 教師あり学習の学習コスト増大
• アクションは複雑で多様
• アクションクラスの説明をどのように表現するか
◼Zero-shot 学習
• 学習したことがない動作の認識を目的とした学習
• クラス増加への対策
◼Elaborative Description(ED)を提案
• web上のテキストを使い,クラスを文章で表現
• GitHub
関連研究
◼初期の手法 (a)
• アクションを列挙して定義
[Liu+, CVPR2011]
◼オブジェクトを検出し埋め込み (b)
• Zero-shot学習 [Xu+, IJCV2017]
• AR最先端のネットワークを採用
[Brattoli+, CVPR2020]
• 過剰適合
◼アクションクラスの埋め込み (c)
• 本手法
• Elaborative Rehearsal(ER),人間の記憶技術
[Benjamin&Bjork, Journal of Experimental Psychology: Learning, Memory, and Cognition, 2000]
Inria, France
shi zhe. chen@
i nr i a. f r
CarnegieMellon University, USA
donghuang@
cm
u. edu
Abstract
The growing number of action classes has posed a new
challenge for video understanding, making Zero-Shot Ac-
tion Recognition (ZSAR) a thriving direction. The ZSAR
task aimsto recognizetarget (unseen) actionswithout train-
ing examples by leveraging semantic representations to
bridge seen and unseen actions. However, due to the com-
plexity and diversity of actions, it remains challenging to
semantically represent action classes and transfer knowl-
edge from seen data. In this work, we propose an ER-
enhanced ZSARmodel inspired by an effectivehuman mem-
ory technique Elaborative Rehearsal (ER), which involves
elaborating a new concept and relating it to known con-
cepts. Specifically, weexpand each action classasan Elab-
orative Description (ED) sentence, which is more discrim-
inative than a class name and less costly than manual-
defined attributes. Besides directly aligning class seman-
tics with videos, we incorporate objects from the video as
ElaborativeConcepts (EC) to improvevideo semantics and
Figure 1: Attributes and word embeddings are insufficient to se-
mantically represent action classes. Our ElaborativeRehearsal ap-
proach defines actions by Elaborative Descriptions (EDs) and as-
sociates videos with Elaborative Concepts (ECs, known concepts
detected from thevideo), which improvevideo semanticsand gen-
eralization video-action association for ZSAR. (I for videos, 4
for seen actions, ◦ for unseen actions, and ⇤ for ECs)
Elaborative Description(ED)
◼クラス名を文で定義
◼作り方
• Web上テキスト,辞書の定義などを収集
• 候補文を分割し,不要な文字を削除
• 適切な候補文を人が判断
• 良い候補文が無ければ作成
最終的なED
不要な文字を削除した候補文
テキストと映像の埋め込み
◼EDの埋め込み
• BERT [Devlin+, NAACL2019]を使用
• 各単語の特徴を平均化
• 全結合でクラス数次元にし,正規化
◼時間的特徴の抽出
• Temporal Shift Module [Lin+, ICCV2019] の最終出力を2048次元,正規化
◼フレームから認識されたオブジェクト名の埋め込み
• BiT [Kolesnikov+, arXiv2019] によるオブジェクト確率の予測,
確率上位のオブジェクトを取得
• 各オブジェクトをEDとして表現し埋め込み
埋め込みの全体像と出力
EDの埋め込み
(ラベル)
時空間的特徴の抽出 各フレームのオブジェクト
確率を予測
ED埋め込み
(オブジェクト)
ED埋め込み(オブジェクト)
学習(Elaborative Rehearsal)とloss
◼類似度計算
◼AR loss(contrastive loss)
◼ER loss
cの添字は.「ラベルではなく,オブジェクトの
埋め込みによって類似度計算した」という意味
名前は違うが計算は同じ
(真値がラベルかオブジェクトかの違い)
実験設定
◼データセット
• Olympic Sports,HMDB51,
UCF101,Kinetics
• Zero-shot学習標準の分割
[Xu+, IJCV2017]を採用
• Kineticsは独自の分割(後述)
◼モデル(引用:6ページ)
• テキスト埋め込み:BERT
• ビデオ埋め込み:TSM
• 事前学習はKinetics400
• オブジェクトの取得:BiT
• 事前学習はImageNet21k
◼損失計算時の係数
• 𝜏 = 0.1, 𝜆 = 1
◼その他パラメータ
• epoch: 10
• Olympic sportsは100
• オプティマイザ:Adam
• 重み減衰:1e-4
• 学習率:1e-4
• スケジューラ:
warm-up + cosine annealing
◼評価
• top-1,top5 acc
実験結果(Olympics,HMDB,UCF)
◼ZSARの標準的なベンチマーク比較による比較
• 平均精度+標準偏差の表記
• 本手法の有効性を実証
実験結果(Kinetics)
◼Kinetics ZSAR Benchmarkを提案
• Kinetics400 のtrainを学習
• Kinetics600 で追加された
220クラスのうち,
60クラスをval,
160クラスをtest
Kinetics ZSAR Benchmark のsplit詳細
valデータセットによる
3分割の平均acc
Ablation study
◼各提案手法の有効性を検証
• ED,BERT,ER loss,
Videoの埋め込み,
object classのEDとしての埋め込み
Few shot 学習との比較
◼ラベル付き動画の数を変えて
few-shot学習を行う
• 特徴量の抽出は同じ
• 線形分類層のみを学習
• 過学習を避ける
◼1つのクラスにつき,2つ以上の
動画を教師とする場合に劣る
Few-shot学習との比較詳細
まとめ
◼Elaborative Descriptionを提案
• Zero-shot学習に用いる
• より良いテキスト表現を得る
◼Elaborative Rehearsalの提案
• AR lossとER lossを用いた学習
• ER loss の採用で精度向上
◼Ablation study
• 各実装の有効性を示す
補足資料
推論
◼アクションクラスは,最も高い類似度スコアによって認識
実験結果(Olympics,HMDB,UCF)
◼ZSARの標準的なベンチマーク比較による比較
• Video
• FV: fisher vector
• BoW: bag of words
• Obj: object
• S: image spatial feature
• Class
• A: attribute
• WN: word embedding
of class name
• WT: word embedding
of class text

More Related Content

What's hot

[DL輪読会]Reinforcement Learning with Deep Energy-Based Policies
[DL輪読会]Reinforcement Learning with Deep Energy-Based Policies[DL輪読会]Reinforcement Learning with Deep Energy-Based Policies
[DL輪読会]Reinforcement Learning with Deep Energy-Based PoliciesDeep Learning JP
 
Neural scene representation and rendering の解説(第3回3D勉強会@関東)
Neural scene representation and rendering の解説(第3回3D勉強会@関東)Neural scene representation and rendering の解説(第3回3D勉強会@関東)
Neural scene representation and rendering の解説(第3回3D勉強会@関東)Masaya Kaneko
 
ConvNetの歴史とResNet亜種、ベストプラクティス
ConvNetの歴史とResNet亜種、ベストプラクティスConvNetの歴史とResNet亜種、ベストプラクティス
ConvNetの歴史とResNet亜種、ベストプラクティスYusuke Uchida
 
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State SpacesDeep Learning JP
 
動画認識サーベイv1(メタサーベイ )
動画認識サーベイv1(メタサーベイ )動画認識サーベイv1(メタサーベイ )
動画認識サーベイv1(メタサーベイ )cvpaper. challenge
 
Skip Connection まとめ(Neural Network)
Skip Connection まとめ(Neural Network)Skip Connection まとめ(Neural Network)
Skip Connection まとめ(Neural Network)Yamato OKAMOTO
 
動作認識の最前線:手法,タスク,データセット
動作認識の最前線:手法,タスク,データセット動作認識の最前線:手法,タスク,データセット
動作認識の最前線:手法,タスク,データセットToru Tamaki
 
【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
【DL輪読会】DINOv2: Learning Robust Visual Features without SupervisionDeep Learning JP
 
Activity-Net Challenge 2021の紹介
Activity-Net Challenge 2021の紹介Activity-Net Challenge 2021の紹介
Activity-Net Challenge 2021の紹介Toru Tamaki
 
[DL輪読会]GQNと関連研究,世界モデルとの関係について
[DL輪読会]GQNと関連研究,世界モデルとの関係について[DL輪読会]GQNと関連研究,世界モデルとの関係について
[DL輪読会]GQNと関連研究,世界モデルとの関係についてDeep Learning JP
 
[DL輪読会]3D Human Pose Estimation @ CVPR’19 / ICCV’19
[DL輪読会]3D Human Pose Estimation @ CVPR’19 / ICCV’19[DL輪読会]3D Human Pose Estimation @ CVPR’19 / ICCV’19
[DL輪読会]3D Human Pose Estimation @ CVPR’19 / ICCV’19Deep Learning JP
 
【DL輪読会】Toward Fast and Stabilized GAN Training for Highfidelity Few-shot Imag...
【DL輪読会】Toward Fast and Stabilized GAN Training for Highfidelity Few-shot Imag...【DL輪読会】Toward Fast and Stabilized GAN Training for Highfidelity Few-shot Imag...
【DL輪読会】Toward Fast and Stabilized GAN Training for Highfidelity Few-shot Imag...Deep Learning JP
 
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...Deep Learning JP
 
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Yusuke Uchida
 
画像生成・生成モデル メタサーベイ
画像生成・生成モデル メタサーベイ画像生成・生成モデル メタサーベイ
画像生成・生成モデル メタサーベイcvpaper. challenge
 
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...Deep Learning JP
 
[DL輪読会]Clebsch–Gordan Nets: a Fully Fourier Space Spherical Convolutional Neu...
[DL輪読会]Clebsch–Gordan Nets: a Fully Fourier Space Spherical Convolutional Neu...[DL輪読会]Clebsch–Gordan Nets: a Fully Fourier Space Spherical Convolutional Neu...
[DL輪読会]Clebsch–Gordan Nets: a Fully Fourier Space Spherical Convolutional Neu...Deep Learning JP
 
ICCV 2019 論文紹介 (26 papers)
ICCV 2019 論文紹介 (26 papers)ICCV 2019 論文紹介 (26 papers)
ICCV 2019 論文紹介 (26 papers)Hideki Okada
 

What's hot (20)

[DL輪読会]Reinforcement Learning with Deep Energy-Based Policies
[DL輪読会]Reinforcement Learning with Deep Energy-Based Policies[DL輪読会]Reinforcement Learning with Deep Energy-Based Policies
[DL輪読会]Reinforcement Learning with Deep Energy-Based Policies
 
実装レベルで学ぶVQVAE
実装レベルで学ぶVQVAE実装レベルで学ぶVQVAE
実装レベルで学ぶVQVAE
 
Neural scene representation and rendering の解説(第3回3D勉強会@関東)
Neural scene representation and rendering の解説(第3回3D勉強会@関東)Neural scene representation and rendering の解説(第3回3D勉強会@関東)
Neural scene representation and rendering の解説(第3回3D勉強会@関東)
 
ConvNetの歴史とResNet亜種、ベストプラクティス
ConvNetの歴史とResNet亜種、ベストプラクティスConvNetの歴史とResNet亜種、ベストプラクティス
ConvNetの歴史とResNet亜種、ベストプラクティス
 
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
 
動画認識サーベイv1(メタサーベイ )
動画認識サーベイv1(メタサーベイ )動画認識サーベイv1(メタサーベイ )
動画認識サーベイv1(メタサーベイ )
 
Skip Connection まとめ(Neural Network)
Skip Connection まとめ(Neural Network)Skip Connection まとめ(Neural Network)
Skip Connection まとめ(Neural Network)
 
動作認識の最前線:手法,タスク,データセット
動作認識の最前線:手法,タスク,データセット動作認識の最前線:手法,タスク,データセット
動作認識の最前線:手法,タスク,データセット
 
【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
【DL輪読会】DINOv2: Learning Robust Visual Features without Supervision
 
Activity-Net Challenge 2021の紹介
Activity-Net Challenge 2021の紹介Activity-Net Challenge 2021の紹介
Activity-Net Challenge 2021の紹介
 
[DL輪読会]GQNと関連研究,世界モデルとの関係について
[DL輪読会]GQNと関連研究,世界モデルとの関係について[DL輪読会]GQNと関連研究,世界モデルとの関係について
[DL輪読会]GQNと関連研究,世界モデルとの関係について
 
[DL輪読会]3D Human Pose Estimation @ CVPR’19 / ICCV’19
[DL輪読会]3D Human Pose Estimation @ CVPR’19 / ICCV’19[DL輪読会]3D Human Pose Estimation @ CVPR’19 / ICCV’19
[DL輪読会]3D Human Pose Estimation @ CVPR’19 / ICCV’19
 
【DL輪読会】Toward Fast and Stabilized GAN Training for Highfidelity Few-shot Imag...
【DL輪読会】Toward Fast and Stabilized GAN Training for Highfidelity Few-shot Imag...【DL輪読会】Toward Fast and Stabilized GAN Training for Highfidelity Few-shot Imag...
【DL輪読会】Toward Fast and Stabilized GAN Training for Highfidelity Few-shot Imag...
 
Group normalization
Group normalizationGroup normalization
Group normalization
 
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
 
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
 
画像生成・生成モデル メタサーベイ
画像生成・生成モデル メタサーベイ画像生成・生成モデル メタサーベイ
画像生成・生成モデル メタサーベイ
 
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
 
[DL輪読会]Clebsch–Gordan Nets: a Fully Fourier Space Spherical Convolutional Neu...
[DL輪読会]Clebsch–Gordan Nets: a Fully Fourier Space Spherical Convolutional Neu...[DL輪読会]Clebsch–Gordan Nets: a Fully Fourier Space Spherical Convolutional Neu...
[DL輪読会]Clebsch–Gordan Nets: a Fully Fourier Space Spherical Convolutional Neu...
 
ICCV 2019 論文紹介 (26 papers)
ICCV 2019 論文紹介 (26 papers)ICCV 2019 論文紹介 (26 papers)
ICCV 2019 論文紹介 (26 papers)
 

Similar to 文献紹介:Elaborative Rehearsal for Zero-Shot Action Recognition

Feature Generationg Networks for Zero-Shot Learning 論文紹介
Feature Generationg Networks for Zero-Shot Learning 論文紹介Feature Generationg Networks for Zero-Shot Learning 論文紹介
Feature Generationg Networks for Zero-Shot Learning 論文紹介YukiK2
 
Vision and Language(メタサーベイ )
Vision and Language(メタサーベイ )Vision and Language(メタサーベイ )
Vision and Language(メタサーベイ )cvpaper. challenge
 
Webリソースを利用したDeep Learning ~地図タイルを例として
Webリソースを利用したDeep Learning  ~地図タイルを例としてWebリソースを利用したDeep Learning  ~地図タイルを例として
Webリソースを利用したDeep Learning ~地図タイルを例としてIWASAKI NOBUSUKE
 
CVPR2017 参加報告 速報版 本会議 1日目
CVPR2017 参加報告 速報版 本会議 1日目CVPR2017 参加報告 速報版 本会議 1日目
CVPR2017 参加報告 速報版 本会議 1日目Atsushi Hashimoto
 
Creating and Using Links between Data Objects
Creating and Using Links between Data ObjectsCreating and Using Links between Data Objects
Creating and Using Links between Data ObjectsMitsuo Yamamoto
 
Vision-and-Language Navigation: Interpreting visually-grounded navigation ins...
Vision-and-Language Navigation: Interpreting visually-grounded navigation ins...Vision-and-Language Navigation: Interpreting visually-grounded navigation ins...
Vision-and-Language Navigation: Interpreting visually-grounded navigation ins...Yoshitaka Ushiku
 
ゲーム体験を支える強化学習の実応用について
ゲーム体験を支える強化学習の実応用についてゲーム体験を支える強化学習の実応用について
ゲーム体験を支える強化学習の実応用についてJun Okumura
 
論文紹介:InternVideo: General Video Foundation Models via Generative and Discrimi...
論文紹介:InternVideo: General Video Foundation Models via Generative and Discrimi...論文紹介:InternVideo: General Video Foundation Models via Generative and Discrimi...
論文紹介:InternVideo: General Video Foundation Models via Generative and Discrimi...Toru Tamaki
 
テストエンジニア版RPG風スキルマップ JaSST'17東北
テストエンジニア版RPG風スキルマップ JaSST'17東北テストエンジニア版RPG風スキルマップ JaSST'17東北
テストエンジニア版RPG風スキルマップ JaSST'17東北Noriyuki Nemoto
 
関西CVPRML勉強会 2012.2.18 (一般物体認識 - データセット)
関西CVPRML勉強会 2012.2.18 (一般物体認識 - データセット)関西CVPRML勉強会 2012.2.18 (一般物体認識 - データセット)
関西CVPRML勉強会 2012.2.18 (一般物体認識 - データセット)Akisato Kimura
 
Stacked Semantic Guided-Attention Model for Fine-Grained Zero-Shot Learning 論文紹介
Stacked Semantic Guided-Attention Model for Fine-Grained Zero-Shot Learning 論文紹介Stacked Semantic Guided-Attention Model for Fine-Grained Zero-Shot Learning 論文紹介
Stacked Semantic Guided-Attention Model for Fine-Grained Zero-Shot Learning 論文紹介YukiK2
 
CVPR2018 参加報告(速報版)2日目
CVPR2018 参加報告(速報版)2日目CVPR2018 参加報告(速報版)2日目
CVPR2018 参加報告(速報版)2日目Atsushi Hashimoto
 
オブジェクト指向の設計と実装の学び方のコツ
オブジェクト指向の設計と実装の学び方のコツオブジェクト指向の設計と実装の学び方のコツ
オブジェクト指向の設計と実装の学び方のコツ増田 亨
 
【2017.01】cvpaper.challenge2017
【2017.01】cvpaper.challenge2017【2017.01】cvpaper.challenge2017
【2017.01】cvpaper.challenge2017cvpaper. challenge
 
Einsteinvision - object detection を試してみよう
Einsteinvision - object detection を試してみようEinsteinvision - object detection を試してみよう
Einsteinvision - object detection を試してみようSalesforce Developers Japan
 
大規模画像認識とその周辺
大規模画像認識とその周辺大規模画像認識とその周辺
大規模画像認識とその周辺n_hidekey
 
DIST.42 クリエイティブコーディングで生み出すWebデザインの世界観「コードでつくる動きと見た目のこだわり」
DIST.42 クリエイティブコーディングで生み出すWebデザインの世界観「コードでつくる動きと見た目のこだわり」DIST.42 クリエイティブコーディングで生み出すWebデザインの世界観「コードでつくる動きと見た目のこだわり」
DIST.42 クリエイティブコーディングで生み出すWebデザインの世界観「コードでつくる動きと見た目のこだわり」Ikeda Ryou
 
アート・オブ・アジャイル デベロップメント 〜テストが駆動するビジネス価値〜
アート・オブ・アジャイル デベロップメント 〜テストが駆動するビジネス価値〜アート・オブ・アジャイル デベロップメント 〜テストが駆動するビジネス価値〜
アート・オブ・アジャイル デベロップメント 〜テストが駆動するビジネス価値〜Fumihiko Kinoshita
 
コンピュータビジョン7章資料_20140830読書会
コンピュータビジョン7章資料_20140830読書会コンピュータビジョン7章資料_20140830読書会
コンピュータビジョン7章資料_20140830読書会Nao Oec
 

Similar to 文献紹介:Elaborative Rehearsal for Zero-Shot Action Recognition (20)

Feature Generationg Networks for Zero-Shot Learning 論文紹介
Feature Generationg Networks for Zero-Shot Learning 論文紹介Feature Generationg Networks for Zero-Shot Learning 論文紹介
Feature Generationg Networks for Zero-Shot Learning 論文紹介
 
Vision and Language(メタサーベイ )
Vision and Language(メタサーベイ )Vision and Language(メタサーベイ )
Vision and Language(メタサーベイ )
 
Webリソースを利用したDeep Learning ~地図タイルを例として
Webリソースを利用したDeep Learning  ~地図タイルを例としてWebリソースを利用したDeep Learning  ~地図タイルを例として
Webリソースを利用したDeep Learning ~地図タイルを例として
 
CVPR2017 参加報告 速報版 本会議 1日目
CVPR2017 参加報告 速報版 本会議 1日目CVPR2017 参加報告 速報版 本会議 1日目
CVPR2017 参加報告 速報版 本会議 1日目
 
Creating and Using Links between Data Objects
Creating and Using Links between Data ObjectsCreating and Using Links between Data Objects
Creating and Using Links between Data Objects
 
Vision-and-Language Navigation: Interpreting visually-grounded navigation ins...
Vision-and-Language Navigation: Interpreting visually-grounded navigation ins...Vision-and-Language Navigation: Interpreting visually-grounded navigation ins...
Vision-and-Language Navigation: Interpreting visually-grounded navigation ins...
 
ゲーム体験を支える強化学習の実応用について
ゲーム体験を支える強化学習の実応用についてゲーム体験を支える強化学習の実応用について
ゲーム体験を支える強化学習の実応用について
 
論文紹介:InternVideo: General Video Foundation Models via Generative and Discrimi...
論文紹介:InternVideo: General Video Foundation Models via Generative and Discrimi...論文紹介:InternVideo: General Video Foundation Models via Generative and Discrimi...
論文紹介:InternVideo: General Video Foundation Models via Generative and Discrimi...
 
テストエンジニア版RPG風スキルマップ JaSST'17東北
テストエンジニア版RPG風スキルマップ JaSST'17東北テストエンジニア版RPG風スキルマップ JaSST'17東北
テストエンジニア版RPG風スキルマップ JaSST'17東北
 
関西CVPRML勉強会 2012.2.18 (一般物体認識 - データセット)
関西CVPRML勉強会 2012.2.18 (一般物体認識 - データセット)関西CVPRML勉強会 2012.2.18 (一般物体認識 - データセット)
関西CVPRML勉強会 2012.2.18 (一般物体認識 - データセット)
 
Stacked Semantic Guided-Attention Model for Fine-Grained Zero-Shot Learning 論文紹介
Stacked Semantic Guided-Attention Model for Fine-Grained Zero-Shot Learning 論文紹介Stacked Semantic Guided-Attention Model for Fine-Grained Zero-Shot Learning 論文紹介
Stacked Semantic Guided-Attention Model for Fine-Grained Zero-Shot Learning 論文紹介
 
CVPR2018 参加報告(速報版)2日目
CVPR2018 参加報告(速報版)2日目CVPR2018 参加報告(速報版)2日目
CVPR2018 参加報告(速報版)2日目
 
オブジェクト指向の設計と実装の学び方のコツ
オブジェクト指向の設計と実装の学び方のコツオブジェクト指向の設計と実装の学び方のコツ
オブジェクト指向の設計と実装の学び方のコツ
 
【2017.01】cvpaper.challenge2017
【2017.01】cvpaper.challenge2017【2017.01】cvpaper.challenge2017
【2017.01】cvpaper.challenge2017
 
Einsteinvision - object detection を試してみよう
Einsteinvision - object detection を試してみようEinsteinvision - object detection を試してみよう
Einsteinvision - object detection を試してみよう
 
大規模画像認識とその周辺
大規模画像認識とその周辺大規模画像認識とその周辺
大規模画像認識とその周辺
 
20201010 personreid
20201010 personreid20201010 personreid
20201010 personreid
 
DIST.42 クリエイティブコーディングで生み出すWebデザインの世界観「コードでつくる動きと見た目のこだわり」
DIST.42 クリエイティブコーディングで生み出すWebデザインの世界観「コードでつくる動きと見た目のこだわり」DIST.42 クリエイティブコーディングで生み出すWebデザインの世界観「コードでつくる動きと見た目のこだわり」
DIST.42 クリエイティブコーディングで生み出すWebデザインの世界観「コードでつくる動きと見た目のこだわり」
 
アート・オブ・アジャイル デベロップメント 〜テストが駆動するビジネス価値〜
アート・オブ・アジャイル デベロップメント 〜テストが駆動するビジネス価値〜アート・オブ・アジャイル デベロップメント 〜テストが駆動するビジネス価値〜
アート・オブ・アジャイル デベロップメント 〜テストが駆動するビジネス価値〜
 
コンピュータビジョン7章資料_20140830読書会
コンピュータビジョン7章資料_20140830読書会コンピュータビジョン7章資料_20140830読書会
コンピュータビジョン7章資料_20140830読書会
 

More from Toru Tamaki

論文紹介:Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video Gene...
論文紹介:Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video Gene...論文紹介:Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video Gene...
論文紹介:Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video Gene...Toru Tamaki
 
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...Toru Tamaki
 
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNetToru Tamaki
 
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A surveyToru Tamaki
 
論文紹介:MOSE: A New Dataset for Video Object Segmentation in Complex Scenes
論文紹介:MOSE: A New Dataset for Video Object Segmentation in Complex Scenes論文紹介:MOSE: A New Dataset for Video Object Segmentation in Complex Scenes
論文紹介:MOSE: A New Dataset for Video Object Segmentation in Complex ScenesToru Tamaki
 
論文紹介:MoLo: Motion-Augmented Long-Short Contrastive Learning for Few-Shot Acti...
論文紹介:MoLo: Motion-Augmented Long-Short Contrastive Learning for Few-Shot Acti...論文紹介:MoLo: Motion-Augmented Long-Short Contrastive Learning for Few-Shot Acti...
論文紹介:MoLo: Motion-Augmented Long-Short Contrastive Learning for Few-Shot Acti...Toru Tamaki
 
論文紹介:Tracking Anything with Decoupled Video Segmentation
論文紹介:Tracking Anything with Decoupled Video Segmentation論文紹介:Tracking Anything with Decoupled Video Segmentation
論文紹介:Tracking Anything with Decoupled Video SegmentationToru Tamaki
 
論文紹介:Real-Time Evaluation in Online Continual Learning: A New Hope
論文紹介:Real-Time Evaluation in Online Continual Learning: A New Hope論文紹介:Real-Time Evaluation in Online Continual Learning: A New Hope
論文紹介:Real-Time Evaluation in Online Continual Learning: A New HopeToru Tamaki
 
論文紹介:PointNet: Deep Learning on Point Sets for 3D Classification and Segmenta...
論文紹介:PointNet: Deep Learning on Point Sets for 3D Classification and Segmenta...論文紹介:PointNet: Deep Learning on Point Sets for 3D Classification and Segmenta...
論文紹介:PointNet: Deep Learning on Point Sets for 3D Classification and Segmenta...Toru Tamaki
 
論文紹介:Multitask Vision-Language Prompt Tuning
論文紹介:Multitask Vision-Language Prompt Tuning論文紹介:Multitask Vision-Language Prompt Tuning
論文紹介:Multitask Vision-Language Prompt TuningToru Tamaki
 
論文紹介:MovieCLIP: Visual Scene Recognition in Movies
論文紹介:MovieCLIP: Visual Scene Recognition in Movies論文紹介:MovieCLIP: Visual Scene Recognition in Movies
論文紹介:MovieCLIP: Visual Scene Recognition in MoviesToru Tamaki
 
論文紹介:Discovering Universal Geometry in Embeddings with ICA
論文紹介:Discovering Universal Geometry in Embeddings with ICA論文紹介:Discovering Universal Geometry in Embeddings with ICA
論文紹介:Discovering Universal Geometry in Embeddings with ICAToru Tamaki
 
論文紹介:Efficient Video Action Detection with Token Dropout and Context Refinement
論文紹介:Efficient Video Action Detection with Token Dropout and Context Refinement論文紹介:Efficient Video Action Detection with Token Dropout and Context Refinement
論文紹介:Efficient Video Action Detection with Token Dropout and Context RefinementToru Tamaki
 
論文紹介:Learning from Noisy Pseudo Labels for Semi-Supervised Temporal Action Lo...
論文紹介:Learning from Noisy Pseudo Labels for Semi-Supervised Temporal Action Lo...論文紹介:Learning from Noisy Pseudo Labels for Semi-Supervised Temporal Action Lo...
論文紹介:Learning from Noisy Pseudo Labels for Semi-Supervised Temporal Action Lo...Toru Tamaki
 
論文紹介:MeMViT: Memory-Augmented Multiscale Vision Transformer for Efficient Lon...
論文紹介:MeMViT: Memory-Augmented Multiscale Vision Transformer for Efficient Lon...論文紹介:MeMViT: Memory-Augmented Multiscale Vision Transformer for Efficient Lon...
論文紹介:MeMViT: Memory-Augmented Multiscale Vision Transformer for Efficient Lon...Toru Tamaki
 
論文紹介:Revealing the unseen: Benchmarking video action recognition under occlusion
論文紹介:Revealing the unseen: Benchmarking video action recognition under occlusion論文紹介:Revealing the unseen: Benchmarking video action recognition under occlusion
論文紹介:Revealing the unseen: Benchmarking video action recognition under occlusionToru Tamaki
 
論文紹介:Video Task Decathlon: Unifying Image and Video Tasks in Autonomous Driving
論文紹介:Video Task Decathlon: Unifying Image and Video Tasks in Autonomous Driving論文紹介:Video Task Decathlon: Unifying Image and Video Tasks in Autonomous Driving
論文紹介:Video Task Decathlon: Unifying Image and Video Tasks in Autonomous DrivingToru Tamaki
 
論文紹介:Spatio-Temporal Action Detection Under Large Motion
論文紹介:Spatio-Temporal Action Detection Under Large Motion論文紹介:Spatio-Temporal Action Detection Under Large Motion
論文紹介:Spatio-Temporal Action Detection Under Large MotionToru Tamaki
 
論文紹介:Vision Transformer Adapter for Dense Predictions
論文紹介:Vision Transformer Adapter for Dense Predictions論文紹介:Vision Transformer Adapter for Dense Predictions
論文紹介:Vision Transformer Adapter for Dense PredictionsToru Tamaki
 
動画像理解のための深層学習アプローチ Deep learning approaches to video understanding
動画像理解のための深層学習アプローチ Deep learning approaches to video understanding動画像理解のための深層学習アプローチ Deep learning approaches to video understanding
動画像理解のための深層学習アプローチ Deep learning approaches to video understandingToru Tamaki
 

More from Toru Tamaki (20)

論文紹介:Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video Gene...
論文紹介:Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video Gene...論文紹介:Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video Gene...
論文紹介:Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video Gene...
 
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
 
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet
 
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey
 
論文紹介:MOSE: A New Dataset for Video Object Segmentation in Complex Scenes
論文紹介:MOSE: A New Dataset for Video Object Segmentation in Complex Scenes論文紹介:MOSE: A New Dataset for Video Object Segmentation in Complex Scenes
論文紹介:MOSE: A New Dataset for Video Object Segmentation in Complex Scenes
 
論文紹介:MoLo: Motion-Augmented Long-Short Contrastive Learning for Few-Shot Acti...
論文紹介:MoLo: Motion-Augmented Long-Short Contrastive Learning for Few-Shot Acti...論文紹介:MoLo: Motion-Augmented Long-Short Contrastive Learning for Few-Shot Acti...
論文紹介:MoLo: Motion-Augmented Long-Short Contrastive Learning for Few-Shot Acti...
 
論文紹介:Tracking Anything with Decoupled Video Segmentation
論文紹介:Tracking Anything with Decoupled Video Segmentation論文紹介:Tracking Anything with Decoupled Video Segmentation
論文紹介:Tracking Anything with Decoupled Video Segmentation
 
論文紹介:Real-Time Evaluation in Online Continual Learning: A New Hope
論文紹介:Real-Time Evaluation in Online Continual Learning: A New Hope論文紹介:Real-Time Evaluation in Online Continual Learning: A New Hope
論文紹介:Real-Time Evaluation in Online Continual Learning: A New Hope
 
論文紹介:PointNet: Deep Learning on Point Sets for 3D Classification and Segmenta...
論文紹介:PointNet: Deep Learning on Point Sets for 3D Classification and Segmenta...論文紹介:PointNet: Deep Learning on Point Sets for 3D Classification and Segmenta...
論文紹介:PointNet: Deep Learning on Point Sets for 3D Classification and Segmenta...
 
論文紹介:Multitask Vision-Language Prompt Tuning
論文紹介:Multitask Vision-Language Prompt Tuning論文紹介:Multitask Vision-Language Prompt Tuning
論文紹介:Multitask Vision-Language Prompt Tuning
 
論文紹介:MovieCLIP: Visual Scene Recognition in Movies
論文紹介:MovieCLIP: Visual Scene Recognition in Movies論文紹介:MovieCLIP: Visual Scene Recognition in Movies
論文紹介:MovieCLIP: Visual Scene Recognition in Movies
 
論文紹介:Discovering Universal Geometry in Embeddings with ICA
論文紹介:Discovering Universal Geometry in Embeddings with ICA論文紹介:Discovering Universal Geometry in Embeddings with ICA
論文紹介:Discovering Universal Geometry in Embeddings with ICA
 
論文紹介:Efficient Video Action Detection with Token Dropout and Context Refinement
論文紹介:Efficient Video Action Detection with Token Dropout and Context Refinement論文紹介:Efficient Video Action Detection with Token Dropout and Context Refinement
論文紹介:Efficient Video Action Detection with Token Dropout and Context Refinement
 
論文紹介:Learning from Noisy Pseudo Labels for Semi-Supervised Temporal Action Lo...
論文紹介:Learning from Noisy Pseudo Labels for Semi-Supervised Temporal Action Lo...論文紹介:Learning from Noisy Pseudo Labels for Semi-Supervised Temporal Action Lo...
論文紹介:Learning from Noisy Pseudo Labels for Semi-Supervised Temporal Action Lo...
 
論文紹介:MeMViT: Memory-Augmented Multiscale Vision Transformer for Efficient Lon...
論文紹介:MeMViT: Memory-Augmented Multiscale Vision Transformer for Efficient Lon...論文紹介:MeMViT: Memory-Augmented Multiscale Vision Transformer for Efficient Lon...
論文紹介:MeMViT: Memory-Augmented Multiscale Vision Transformer for Efficient Lon...
 
論文紹介:Revealing the unseen: Benchmarking video action recognition under occlusion
論文紹介:Revealing the unseen: Benchmarking video action recognition under occlusion論文紹介:Revealing the unseen: Benchmarking video action recognition under occlusion
論文紹介:Revealing the unseen: Benchmarking video action recognition under occlusion
 
論文紹介:Video Task Decathlon: Unifying Image and Video Tasks in Autonomous Driving
論文紹介:Video Task Decathlon: Unifying Image and Video Tasks in Autonomous Driving論文紹介:Video Task Decathlon: Unifying Image and Video Tasks in Autonomous Driving
論文紹介:Video Task Decathlon: Unifying Image and Video Tasks in Autonomous Driving
 
論文紹介:Spatio-Temporal Action Detection Under Large Motion
論文紹介:Spatio-Temporal Action Detection Under Large Motion論文紹介:Spatio-Temporal Action Detection Under Large Motion
論文紹介:Spatio-Temporal Action Detection Under Large Motion
 
論文紹介:Vision Transformer Adapter for Dense Predictions
論文紹介:Vision Transformer Adapter for Dense Predictions論文紹介:Vision Transformer Adapter for Dense Predictions
論文紹介:Vision Transformer Adapter for Dense Predictions
 
動画像理解のための深層学習アプローチ Deep learning approaches to video understanding
動画像理解のための深層学習アプローチ Deep learning approaches to video understanding動画像理解のための深層学習アプローチ Deep learning approaches to video understanding
動画像理解のための深層学習アプローチ Deep learning approaches to video understanding
 

文献紹介:Elaborative Rehearsal for Zero-Shot Action Recognition

  • 1. Elaborative Rehearsal for Zero-shot Action Recognition ICCV2021 Shizhe Chen, Dong Huang 細谷 優(名工大玉木研) 2022/10/14
  • 2. Zero-shot Action Recognition(ZSAR) ◼Zero-shot Learning(ZSL) • 学習データ無しでクラスを識別 • 代わりに周辺知識で学習 • ZSARはZSLの動作認識タスク ◼学習 • 動画とクラスラベル等を 埋め込み • これら特徴を 関連づけるように学習 ◼推論 • 動画特徴からクラスラベルを探索 • 学習時に用いていないクラスを識別可能 • 推論で用いるクラスの情報も埋め込むため Unseen Class Seen Classes Side Information Step 1: Visual Embedding Step 2: Semantic Label Embedding Step 3: Training Visual Feature Extractor Semantic Feature Extractor f(.) Google News Wikipedia ImageNet WordNet WikiHow Apply Eye Makeup New Action Ice Dancing Apply Eye Makeup Ice Dancing Apply Eye Makeup Ice Dancing New Action Prototype 1 Horse Riding Prototype 2 Playing Guitar Figure(1) Schematic representation of aZSL human action recognition framework. attempting to overcome these limitations. Thehuman ability torecognizeanaction without ever having seen it before, that is, associating semantic infor- mation from several sources to thevisual appearance of actions, is the inspiration of ZSL approaches [43]. In Figure 1, we provide an overview of ZSL approaches considering the application in videos. This general scheme can also be found in ZSL applied to object and event recognition in both images and videos [22]. We introduce the main aspects of the approaches through- out this text. before, in addition to extracting visual features, it is necessary to associate them with a suitable prototype and assign a label. This is made by learning an f (·) mapping function between these spaces. As discussed in Section 3, this mapping function can assume several ways to be performed directly into the semantic space, indirectly by creating an intermediate space or directly into the visual space. Thus, weconcentrate our investigation in approaches that address the problem of recognizing human actions, without having seen them before, in small video clips, [Estevam+, Neurocomputing](arXiv)
  • 3. 概要 ◼映像理解の課題 • クラス数の増加 • 教師あり学習の学習コスト増大 • アクションは複雑で多様 • アクションクラスの説明をどのように表現するか ◼Zero-shot 学習 • 学習したことがない動作の認識を目的とした学習 • クラス増加への対策 ◼Elaborative Description(ED)を提案 • web上のテキストを使い,クラスを文章で表現 • GitHub
  • 4. 関連研究 ◼初期の手法 (a) • アクションを列挙して定義 [Liu+, CVPR2011] ◼オブジェクトを検出し埋め込み (b) • Zero-shot学習 [Xu+, IJCV2017] • AR最先端のネットワークを採用 [Brattoli+, CVPR2020] • 過剰適合 ◼アクションクラスの埋め込み (c) • 本手法 • Elaborative Rehearsal(ER),人間の記憶技術 [Benjamin&Bjork, Journal of Experimental Psychology: Learning, Memory, and Cognition, 2000] Inria, France shi zhe. chen@ i nr i a. f r CarnegieMellon University, USA donghuang@ cm u. edu Abstract The growing number of action classes has posed a new challenge for video understanding, making Zero-Shot Ac- tion Recognition (ZSAR) a thriving direction. The ZSAR task aimsto recognizetarget (unseen) actionswithout train- ing examples by leveraging semantic representations to bridge seen and unseen actions. However, due to the com- plexity and diversity of actions, it remains challenging to semantically represent action classes and transfer knowl- edge from seen data. In this work, we propose an ER- enhanced ZSARmodel inspired by an effectivehuman mem- ory technique Elaborative Rehearsal (ER), which involves elaborating a new concept and relating it to known con- cepts. Specifically, weexpand each action classasan Elab- orative Description (ED) sentence, which is more discrim- inative than a class name and less costly than manual- defined attributes. Besides directly aligning class seman- tics with videos, we incorporate objects from the video as ElaborativeConcepts (EC) to improvevideo semantics and Figure 1: Attributes and word embeddings are insufficient to se- mantically represent action classes. Our ElaborativeRehearsal ap- proach defines actions by Elaborative Descriptions (EDs) and as- sociates videos with Elaborative Concepts (ECs, known concepts detected from thevideo), which improvevideo semanticsand gen- eralization video-action association for ZSAR. (I for videos, 4 for seen actions, ◦ for unseen actions, and ⇤ for ECs)
  • 5. Elaborative Description(ED) ◼クラス名を文で定義 ◼作り方 • Web上テキスト,辞書の定義などを収集 • 候補文を分割し,不要な文字を削除 • 適切な候補文を人が判断 • 良い候補文が無ければ作成 最終的なED 不要な文字を削除した候補文
  • 6. テキストと映像の埋め込み ◼EDの埋め込み • BERT [Devlin+, NAACL2019]を使用 • 各単語の特徴を平均化 • 全結合でクラス数次元にし,正規化 ◼時間的特徴の抽出 • Temporal Shift Module [Lin+, ICCV2019] の最終出力を2048次元,正規化 ◼フレームから認識されたオブジェクト名の埋め込み • BiT [Kolesnikov+, arXiv2019] によるオブジェクト確率の予測, 確率上位のオブジェクトを取得 • 各オブジェクトをEDとして表現し埋め込み
  • 8. 学習(Elaborative Rehearsal)とloss ◼類似度計算 ◼AR loss(contrastive loss) ◼ER loss cの添字は.「ラベルではなく,オブジェクトの 埋め込みによって類似度計算した」という意味 名前は違うが計算は同じ (真値がラベルかオブジェクトかの違い)
  • 9. 実験設定 ◼データセット • Olympic Sports,HMDB51, UCF101,Kinetics • Zero-shot学習標準の分割 [Xu+, IJCV2017]を採用 • Kineticsは独自の分割(後述) ◼モデル(引用:6ページ) • テキスト埋め込み:BERT • ビデオ埋め込み:TSM • 事前学習はKinetics400 • オブジェクトの取得:BiT • 事前学習はImageNet21k ◼損失計算時の係数 • 𝜏 = 0.1, 𝜆 = 1 ◼その他パラメータ • epoch: 10 • Olympic sportsは100 • オプティマイザ:Adam • 重み減衰:1e-4 • 学習率:1e-4 • スケジューラ: warm-up + cosine annealing ◼評価 • top-1,top5 acc
  • 11. 実験結果(Kinetics) ◼Kinetics ZSAR Benchmarkを提案 • Kinetics400 のtrainを学習 • Kinetics600 で追加された 220クラスのうち, 60クラスをval, 160クラスをtest Kinetics ZSAR Benchmark のsplit詳細 valデータセットによる 3分割の平均acc
  • 12. Ablation study ◼各提案手法の有効性を検証 • ED,BERT,ER loss, Videoの埋め込み, object classのEDとしての埋め込み
  • 13. Few shot 学習との比較 ◼ラベル付き動画の数を変えて few-shot学習を行う • 特徴量の抽出は同じ • 線形分類層のみを学習 • 過学習を避ける ◼1つのクラスにつき,2つ以上の 動画を教師とする場合に劣る Few-shot学習との比較詳細
  • 14. まとめ ◼Elaborative Descriptionを提案 • Zero-shot学習に用いる • より良いテキスト表現を得る ◼Elaborative Rehearsalの提案 • AR lossとER lossを用いた学習 • ER loss の採用で精度向上 ◼Ablation study • 各実装の有効性を示す
  • 17. 実験結果(Olympics,HMDB,UCF) ◼ZSARの標準的なベンチマーク比較による比較 • Video • FV: fisher vector • BoW: bag of words • Obj: object • S: image spatial feature • Class • A: attribute • WN: word embedding of class name • WT: word embedding of class text