SlideShare a Scribd company logo
Enviar pesquisa
Carregar
Entrar
Cadastre-se
【DL輪読会】Egocentric Video Task Translation (CVPR 2023 Highlight)
Denunciar
Deep Learning JP
Seguir
Deep Learning JP
31 de May de 2023
•
0 gostou
•
488 visualizações
1
de
36
【DL輪読会】Egocentric Video Task Translation (CVPR 2023 Highlight)
31 de May de 2023
•
0 gostou
•
488 visualizações
Baixar agora
Baixar para ler offline
Denunciar
Tecnologia
2023/5/26 Deep Learning JP http://deeplearning.jp/seminar-2/
Deep Learning JP
Seguir
Deep Learning JP
Recomendados
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII
2K visualizações
•
21 slides
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
Deep Learning JP
993 visualizações
•
27 slides
動作認識の最前線:手法,タスク,データセット
Toru Tamaki
2.5K visualizações
•
128 slides
【メタサーベイ】数式ドリブン教師あり学習
cvpaper. challenge
5.3K visualizações
•
33 slides
【DL輪読会】An Image is Worth One Word: Personalizing Text-to-Image Generation usi...
Deep Learning JP
895 visualizações
•
22 slides
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Yusuke Uchida
15.3K visualizações
•
38 slides
Mais conteúdo relacionado
Mais procurados
【DL輪読会】Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Mo...
Deep Learning JP
1.6K visualizações
•
33 slides
【DL輪読会】SDEdit: Guided Image Synthesis and Editing with Stochastic Differentia...
Deep Learning JP
559 visualizações
•
11 slides
近年のHierarchical Vision Transformer
Yusuke Uchida
13.3K visualizações
•
46 slides
全力解説!Transformer
Arithmer Inc.
9K visualizações
•
43 slides
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
Deep Learning JP
3.6K visualizações
•
52 slides
【メタサーベイ】Vision and Language のトップ研究室/研究者
cvpaper. challenge
1.7K visualizações
•
154 slides
Mais procurados
(20)
【DL輪読会】Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Mo...
Deep Learning JP
•
1.6K visualizações
【DL輪読会】SDEdit: Guided Image Synthesis and Editing with Stochastic Differentia...
Deep Learning JP
•
559 visualizações
近年のHierarchical Vision Transformer
Yusuke Uchida
•
13.3K visualizações
全力解説!Transformer
Arithmer Inc.
•
9K visualizações
【DL輪読会】言語以外でのTransformerのまとめ (ViT, Perceiver, Frozen Pretrained Transformer etc)
Deep Learning JP
•
3.6K visualizações
【メタサーベイ】Vision and Language のトップ研究室/研究者
cvpaper. challenge
•
1.7K visualizações
画像生成・生成モデル メタサーベイ
cvpaper. challenge
•
8.1K visualizações
これからの Vision & Language ~ Acadexit した4つの理由
Yoshitaka Ushiku
•
6.4K visualizações
Transformerを雰囲気で理解する
AtsukiYamaguchi1
•
4.7K visualizações
[DL輪読会]相互情報量最大化による表現学習
Deep Learning JP
•
7.4K visualizações
[DL Hacks]Visdomを使ったデータ可視化
Deep Learning JP
•
4.7K visualizações
【DL輪読会】Visual Classification via Description from Large Language Models (ICLR...
Deep Learning JP
•
1.8K visualizações
[DL輪読会]MetaFormer is Actually What You Need for Vision
Deep Learning JP
•
1.3K visualizações
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
Deep Learning JP
•
38.9K visualizações
Image Retrieval Overview (from Traditional Local Features to Recent Deep Lear...
Yusuke Uchida
•
13K visualizações
機械学習と主成分分析
Katsuhiro Morishita
•
13.9K visualizações
[DL輪読会]AutoAugment: LearningAugmentation Strategies from Data & Learning Data...
Deep Learning JP
•
2.8K visualizações
Optimizer入門&最新動向
Motokawa Tetsuya
•
22.7K visualizações
モデル高速化百選
Yusuke Uchida
•
24.5K visualizações
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning 画像×言語の大規模基盤モ...
Deep Learning JP
•
2.1K visualizações
Similar a 【DL輪読会】Egocentric Video Task Translation (CVPR 2023 Highlight)
【DL輪読会】Ego-Exo: Transferring Visual Representations from Third-person to Firs...
Deep Learning JP
172 visualizações
•
24 slides
Creating and Using Links between Data Objects
Mitsuo Yamamoto
2.5K visualizações
•
14 slides
[DL輪読会]Collaborative Deep Metric Learning for Video Understanding(KDD2018)
Deep Learning JP
696 visualizações
•
23 slides
東北大学 先端技術の基礎と実践_深層学習による画像認識とデータの話_菊池悠太
Preferred Networks
895 visualizações
•
78 slides
【DL輪読会】Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Mo...
Deep Learning JP
756 visualizações
•
17 slides
【メタサーベイ】Video Transformer
cvpaper. challenge
2K visualizações
•
42 slides
Similar a 【DL輪読会】Egocentric Video Task Translation (CVPR 2023 Highlight)
(18)
【DL輪読会】Ego-Exo: Transferring Visual Representations from Third-person to Firs...
Deep Learning JP
•
172 visualizações
Creating and Using Links between Data Objects
Mitsuo Yamamoto
•
2.5K visualizações
[DL輪読会]Collaborative Deep Metric Learning for Video Understanding(KDD2018)
Deep Learning JP
•
696 visualizações
東北大学 先端技術の基礎と実践_深層学習による画像認識とデータの話_菊池悠太
Preferred Networks
•
895 visualizações
【DL輪読会】Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Mo...
Deep Learning JP
•
756 visualizações
【メタサーベイ】Video Transformer
cvpaper. challenge
•
2K visualizações
Start rl with_unity_machine_learning_agents
infinite_loop
•
1.7K visualizações
OpenJDKのコミッタってどんなことしたらなったの?解決してきた技術課題の事例から見えてくる必要な知識と技術(JJUG CCC 2023 Spring)
NTT DATA Technology & Innovation
•
340 visualizações
スカイアーチセミナー:[スカイアーチNTTCom共催セミナー]事例で学ぶ賢いクラウド活用法 ~コンテンツ配信編~(事例セッション):150522
株式会社スカイアーチネットワークス
•
922 visualizações
CVPR2019読み会 (Rethinking the Evaluation of Video Summaries)
Yasunori Ozaki
•
2K visualizações
Xtextハンズオン(仮)
You&I
•
672 visualizações
SQiPシンポジウムアブストラクト作成のポイント
ソフトウェア品質シンポジウム
•
141 visualizações
一口で何度もおいしい?DSL
You&I
•
561 visualizações
ChatGPTのデータソースにPostgreSQLを使う[詳細版](オープンデベロッパーズカンファレンス2023 発表資料)
NTT DATA Technology & Innovation
•
137 visualizações
TouchDesigenr Beginners' workshop vol.003
Dan Imagineer
•
641 visualizações
[DL輪読会]StyleNet: Generating Attractive Visual Captions with Styles
Deep Learning JP
•
1.6K visualizações
大規模並列実験を支えるクラウドサービスと基盤技術
RyuichiKanoh
•
1.7K visualizações
勝つための計画づくり 20110415(鈴木)
Atsushi Suzuki
•
699 visualizações
Mais de Deep Learning JP
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
Deep Learning JP
136 visualizações
•
28 slides
【DL輪読会】事前学習用データセットについて
Deep Learning JP
189 visualizações
•
20 slides
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
Deep Learning JP
144 visualizações
•
26 slides
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
Deep Learning JP
188 visualizações
•
30 slides
【DL輪読会】Can Neural Network Memorization Be Localized?
Deep Learning JP
449 visualizações
•
15 slides
【DL輪読会】Hopfield network 関連研究について
Deep Learning JP
887 visualizações
•
29 slides
Mais de Deep Learning JP
(20)
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
Deep Learning JP
•
136 visualizações
【DL輪読会】事前学習用データセットについて
Deep Learning JP
•
189 visualizações
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
Deep Learning JP
•
144 visualizações
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
Deep Learning JP
•
188 visualizações
【DL輪読会】Can Neural Network Memorization Be Localized?
Deep Learning JP
•
449 visualizações
【DL輪読会】Hopfield network 関連研究について
Deep Learning JP
•
887 visualizações
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
Deep Learning JP
•
255 visualizações
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
Deep Learning JP
•
186 visualizações
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
Deep Learning JP
•
561 visualizações
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
Deep Learning JP
•
401 visualizações
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
Deep Learning JP
•
1K visualizações
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
Deep Learning JP
•
370 visualizações
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
Deep Learning JP
•
338 visualizações
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
Deep Learning JP
•
589 visualizações
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
Deep Learning JP
•
685 visualizações
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
Deep Learning JP
•
294 visualizações
【DL輪読会】Deep Transformers without Shortcuts: Modifying Self-attention for Fait...
Deep Learning JP
•
281 visualizações
【DL輪読会】マルチモーダル 基盤モデル
Deep Learning JP
•
823 visualizações
【DL輪読会】TrOCR: Transformer-based Optical Character Recognition with Pre-traine...
Deep Learning JP
•
435 visualizações
【DL輪読会】HyperDiffusion: Generating Implicit Neural Fields withWeight-Space Dif...
Deep Learning JP
•
209 visualizações
Último
CCoE実践者コミュニティ#1_CCoEが進めるセキュリティカイゼンの旅.pptx
Tomoaki Tada
69 visualizações
•
20 slides
20230921_IoTLT_vol103_kitazaki_v1.pdf
Ayachika Kitazaki
170 visualizações
•
16 slides
拡散する画像生成.pdf
NTTDOCOMO-ServiceInnovation
45 visualizações
•
38 slides
CatBoost on GPU のひみつ
Takuji Tahara
780 visualizações
•
30 slides
MLOps Course Slides_JP(配布用).pdf
Yuya Yamamoto
125 visualizações
•
31 slides
インフラチームとCCoEの関係.pptx
ssuser5c7ee4
28 visualizações
•
18 slides
Último
(13)
CCoE実践者コミュニティ#1_CCoEが進めるセキュリティカイゼンの旅.pptx
Tomoaki Tada
•
69 visualizações
20230921_IoTLT_vol103_kitazaki_v1.pdf
Ayachika Kitazaki
•
170 visualizações
拡散する画像生成.pdf
NTTDOCOMO-ServiceInnovation
•
45 visualizações
CatBoost on GPU のひみつ
Takuji Tahara
•
780 visualizações
MLOps Course Slides_JP(配布用).pdf
Yuya Yamamoto
•
125 visualizações
インフラチームとCCoEの関係.pptx
ssuser5c7ee4
•
28 visualizações
ヒアラブルデバイスにおける音漏れ信号を用いた空中ジェスチャ認識
sugiuralab
•
6 visualizações
磁石内臓イヤリングによる磁力変化を利用したジェスチャ識別
sugiuralab
•
7 visualizações
2023情報処理学会関西支部大会-G12.pdf
KoseiShimoda1
•
7 visualizações
GraphQLはどんな時に使うか
Yutaka Tachibana
•
17 visualizações
遠隔お酌IoTLT2309.pptx
Yoshiaki Ito
•
149 visualizações
画像生成AIの問題点
iPride Co., Ltd.
•
13 visualizações
遠征ドルヲタのための便利サイトを作ってみた
Kenta Fujimoto
•
11 visualizações
【DL輪読会】Egocentric Video Task Translation (CVPR 2023 Highlight)
1.
DEEP LEARNING JP [DL
Papers] EgocentricVideoTaskTranslation (CVPR 2023 Highlight) Yoshifumi Seki http://deeplearning.jp/
2.
書誌情報 ● 投稿先 ○ CVPR
2023 Highlight ● 投稿者 ○ テキサス大、Meta ■ First AuthorのMetaでのインターン成果 ● 選定理由 ○ ウェラブルデバイスの会社に務めています ○ 一人称動画からの動作解析系に最近取り組ん でいます https://vision.cs.utexas.edu/projects/egot2/ Codeのリンクはなかった、、、
3.
背景・目的 ● 三人称の動画データセットは特定のタスクに対して注目した短いクリップの集合に なっているが、それ以外の情報が少なくなる ● ウェアラブルカメラによる一人称の動画では装着者のさまざまなオブジェクトとの相 互作用が記録される ○
タスク間にも相互作用がありので予測の助けにもある ● 一方で特定のタスク向けの特化したモデルができてしまう危険性がある ● 個別のタスクを解くのに特化したものでなく、オブジェクト間の相互作用を利用して さまざまなタスクに対する統合的な枠組みを作りたい ● Ego4D Workshop#2 次点におけるEgo4D ChallengeにおいてTalking to Meで1 位、NR keyframe localizationで3位
4.
一つの動画の中にたくさんのタスクが存在する
5.
タスクの関連性を学ぶことで汎用的なモデルを作る
6.
実現に向けた転移学習/マルチタスク学習の課題 ● マルチタスク学習のためには全てのデータに、全てのタスクのラベルが必要である が、それは現実的ではない ● 一人称動画に付与されているラベルの粒度はタスクによって大きく異なるため、統 合モデルを作るのが難しく、特化モデルを作ることを助長している ○
モード(音声、視覚、運動) ○ ラベルの多様性(空間的・時間的・意味的) ○ 時間の粒度(短い時間で完結する行動と、長い時間を見ないといけない行動) ● 一人称視点の既存研究では、一般的な概念の学習のためshared encoderを利用 していることが多いが、これは一人称視点動画の多様性と相性が悪い可能性が高 い ○ 過去のマルチタスク学習の研究で関係が薄いタスクでのパラメータの共有は性能を劣化させること があることが指摘されている
7.
提案手法: Ego Task
Translation (EgoT2) ● 多様な一人称動画に対する統合的な学習フレームワーク ● 複数のタスクを学習できるが、個々のタスクで異なるデータセットを学習することが できる ● タスクが強く関連していない場合の影響を軽減する ● 2つの仕組みを持つ ○ タスク専門モデル: EgoT2-s: 特定のモデルに対して学習されたモデル ○ タスク汎用モデル: EgoT2-g: 異なるタスクへの変換を支援するためのモデル
9.
個別のBackboneを持つ利点 ● それぞれのタスクの特異性(例えば時間の扱いなど)をBackboneが吸収できる ● その上で、各タスクのbackboneを統合する形でTransferを学習するので、タスク間 の類似性が低い場合の影響も軽減ができる ●
過去の全てのパラメータを共有した転移学習と比較して、本手法で提案するtask translatorは不要なパラメータを選択的に非活性にすることができるので、重要な 特徴だけを活用するように学習できる ● さらにその選択を分析することで、タスク間の関連についての解釈を得ることもでき る
10.
EgoT2-s ●
11.
EgoT2-s ● Stage1: Individual Task
Training
12.
Stage1: Individual Task
Training ● 個別のタスクに対する学習をそれぞれのデータセットを用いて行う ● 学習方法に制限はない ● K個のタスクに対して、K個のモデルf_k (k=1…K)を得る
13.
EgoT2-s ● Stage2: Task Specific
Translation
14.
Stage2: Task Specific
Translation
15.
Stage2: Task Specific
Translation 1: Stage1で作ったモデルを用いて動画からの特徴抽出を行う
16.
Stage2: Task Specific
Translation 2: 特徴ベクトルの射影を行う (Projection Layer)
17.
Stage2: Task Specific
Translation 3: 各タスク特化モデルからの出力 (射影したもの)を結合
18.
Stage2: Task Specific
Translation 4: Translationのための共通Encoderに結合ベクトルを入力
19.
Stage2: Task Specific
Translation 5: タスク固有のDecoderによってタスクの出力を得る このEncoder-Decoderは抽象化されていてなんでも良い 実験の中ではEncoderは1層のTransformerを使っている
20.
EgoT2-g
21.
EgoT2-g ● EgoT2-sはDecoderを特定のタスクに向けて出力するため、K個のタスクに対応で きるモデルを作ろうとすると、K個のモデルを作った上で、K回のDecoderの訓練が 必要になる ● EgoT2-gではEgoT2-sを拡張することで、1度にK個のタスクへのtranslateを行うこ とを目指す ●
22.
EgoT2-gでの変更点 ● Stage1はEgoT2-sと同じ ● 1)
デコーダーを汎用的な物に置き換える ● 2) 全てのデータセットを使って学習をする
23.
EgoT2-g: デコーダの置き換え ● さまざまなタスクを汎用的に扱えるデコーダーのために言語モデルを用いる ●
それぞれのタスクの出力をtokenizeし、デコーダーをsequence decoderに置き換 える ● タスクに応じた出力をさせるために、出力の先頭にtask promptを出力するようにす る ● wはj=1の時0でそれ以外の時が1になる。つまりプロンプトは反映しない ● 出力された文字列からarg samplingによってタスクのラベルを復元する
24.
EgoT2-g
25.
EgoT2-g: 全てのデータセットを使った学習 ● 共通のデコーダを持つため、対象となる全てのタスクのデータを用いてデコーダの 学習をしなければならない ●
各タスクからbatchをひとつずつサンプルし、各タスクごとの損失を計算しモデルの 更新を行う
26.
データセットとタスク ● Ego4D: 数百のシナリオで撮影された約3,670時間もの大規模な一人称視点デー タセット ●
5つのベンチマークがある ○ Episodic memory (EM) ○ Hand and Object (HO) ○ Audio Visual Diarization (AV) ○ Social Interaction (Social) ○ Forecasting ● 4つのベンチマークにまたがる7つのタスクを選択した
27.
データセットとタスク ● Ego4D: 数百のシナリオで撮影された約3,670時間もの大規模な一人称視点デー タセット ●
5つのベンチマークがある ○ Episodic memory (EM) ○ Hand and Object (HO) ○ Audio Visual Diarization (AV) ○ Social Interaction (Social) ○ Forecasting ● 4つのベンチマークにまたがる7つのタスクを選択した AR (Action Recognition)だけ存在が確認できていない。 Forecastingカテゴリで、LTA (Long Team Anticipation )ともう一つあ るのはShort Team Anticipationなので、それの別名?
28.
Human-Object InteractionなタスクでのEgoT2-sの結果
29.
Human-Human InteractionなタスクでのEgoT2-sの結果
30.
EgoT2-sのablation study
31.
EgoT2-gの結果
32.
SOTAなモデルとの比較 (1/2) Ego4D
Challengeの4つのカテゴリでSOTA タスクのサイトで現在の LeadersBoardを見ることが できる https://eval.ai/web/challenges/challenge-page/1622/o verview https://eval.ai/web/challenges/challenge-page/1625/l eaderboard/3911
33.
SOTAなモデルとの比較 (2/2) https://eval.ai/web/challenges/challenge-pa ge/1598/leaderboard/3881 https://eval.ai/web/challenges/challenge-p age/1627/leaderboard/3914 Ego4D Challengeの4つのカテゴリでSOTA タスクのサイトで現在の
LeadersBoardを見ることが できる
34.
EgoT2-sでの結果の解釈 AR(STA) は短時間での行動予測、 LTAは(比較的)長時間での行動予測。 上の例は大きくシーンが変わるので、 LTAが早いうちに活性化していて、 AR は直前に活性化している。 下の例はあまり急激に変わらないの で、ARも早いうちから活性化している
35.
EgoT2-gでの結果解釈 出力結果に対して各種タスクプロンプ トを設定した時の結果の比較。
36.
まとめ・感想 ● 複数のタスクのデータを活用して一人称視点タスクにおける予測を統合的に行う研 究 ● Backboneを並列にしてDecoderを単一にするという工夫によって、一人称視点タ スクにおけるデータセットの基準が曖昧であるという課題に対して向き合っている。 ○
アンサンブル学習の考え方に近い物を感じる ● データセット中にあるものしか反映できないものの、Ego4Dという大きなデータセッ トができたことの強みをよく生かしている良い研究だと感じた