SlideShare uma empresa Scribd logo
1 de 54
Baixar para ler offline
cvpaper.challenge videorecog group
cvpaper.challenge 2021 メタサーベイ
ー動画認識における代表的なモデル・データセットー
はじめに
2
● 動画認識の中でも主に3D CNNによる行動認識に


焦点を当てて代表的なモデル・データセットや


研究動向についてサーベイ
● 以下のサーベイ論文で紹介されている内容が主な対象


K. Hara, Recent Advances in Video Action Recognition with 3D Convolutions ,


IEICE Trans. Fundamentals


https://www.jstage.jst.go.jp/article/transfun/advpub/0/advpub_2020IMP0012/_article/-char/ja/
● 引用している文献の詳細は上の論文をご参照ください
● 本サーベイはDeep Learning登場以降の話が対象
Action Recognition
3
● 動画認識における一番基本的な問題設定
● 画像でいうとImageNetなどの画像認識
入力:動画 出力:行動ラベル
投球
一つの行動を含むように時間的に切り出された動画
代表的なモデル
動画認識における主なConvolution
5
● 2D Convolution
● 画像認識と同様のやり方
● 初期のモデルは主に2D Conv
● 3D Convolution
● 時空間を同時にConvで処理
● 最近は3D Convの方が主流
● (2+1)D Convolution
● 3D Convの亜種で高コスパ
初期の代表モデル
6
● Two-stream CNN [7]
● RGBとOptical FlowのTwo-streamで動画認識
● 当時は3D CNNではなく画像認識と同様の2D CNN
● ネットワーク構造は変われどRGB+Flowは今でも良く利用される
Two-stream CNNの発展
7
● その後Two-stream CNNを拡張した様々な研究が登場
● Hand-crafted特徴との組み合わせ


(Trajectory-pooled Deep-convolutional Descriptor) [8]
● Two-streamの結合方法の提案


(Two-stream Network Fusion…) [9-11]
● より長い時間的な構造を捉える手法の提案


(Temporal Segment Networks) [12]
3D CNNによる動画認識の発展
8
● 初期の代表的なモデルであるC3Dの認識性能は


2D CNN系の手法よりもやや低め
● 主に学習データの少なさが問題
● 大規模動画データセットであるKineticsの公開以降


3D CNNの認識性能は大きく向上
● 現在は3D CNNの利用が動画認識の主流
3D CNNの代表的なモデル
9
● C3D
● I3D
● 3D ResNet / R3D
● P3D / R(2+1)D / S3D
● Non-local Neural Network
● SlowFast Networks
● X3D
C3D [20]
10
● 3D CNNの初期の代表的なモデル
● VGG-11の2D Convを3D Convに置き換えた構造
● 実験により時間方向のカーネルサイズは3が良いと実証
I3D [14]
11
● GoogLeNet (inception v1)を
ベースにした3D CNN
● ただI3DのIはInceptionではなく
Inflated
● Kineticsでの学習により


3D CNNのブレイクスルーを実現
● 学習済み2D Convのパラメータを


時間方向に重複コピー (inflation)


する事前学習も提案
3D ResNet [25, 26] / R3D [19]
12
● ResNetをベースにした


3D CNN
● Image Netでの学習と


同様にKineticsで学習する


ことで152層もの構造を持つ
ResNetを学習可能
P3D [32]
13
● (2+1)D Convと同様の


Pseudo 3D Convを導入
● (2+1)D Convよりもこっちが先
● ResNetベースの


ネットワーク構造
● Blockの構造はA, B, Cの


3パターンを比較検討
● 組み合わせが良いという結論
R(2+1)D [19]
14
● P3Dと同様にResNetベースで(2+1)D Convを導入
● 2D/3D Convの組み合わせなども検討した結果


(2+1)Dがベストという結論
S3D [23]
15
● Inceptionベースの


(2+1)D Conv
● 論文中ではSeparable Conv
● Self-attentionのような処理
も導入したS3D-Gにすると
より高い性能を実現可能
Non-local Neural Network [34]
16
● Self-attentionのような処理
をするNon-local operation
をCNNに導入
● ResNetベースのI3Dに


Non-localを追加することで
高い性能を実現
SlowFast Network [35]
17
● 低フレームレートのSlowと高フレームレートのFastのTwo-stream
● 生物学的な知見も参考にしている
● 中のConvは3D/2D/(2+1)Dを組み合わせて利用
X3D [36]
18
● ネットワークの構造や入力動画のサイズなど様々な要素
を少しずつ大きくしていきながら高コスパな構造を探索
● 入力動画の解像度やフレーム数・フレームレートを


上げるのが性能向上に大きく寄与
特に被引用数の多い論文 1
19
● Learning Spatiotemporal Features with 3D
Convolutional Networks
● Du Tran, Lubomir Bourdev, Rob Fergus,


Lorenzo Torresani, Manohar Paluri
● ICCV 2015
● 被引用数:4757
● C3Dの論文
● 3D CNNによる動画認識が定着する以前に


先駆けとして出てきた分高い被引用数を達成している
特に被引用数の多い論文 2
20
● Quo Vadis, Action Recognition?


A New Model and the Kinetics Dataset
● Joao Carreira, Andrew Zisserman
● CVPR 2017
● 被引用数:2685
● I3Dの論文
● 3D CNNの性能を大きく向上させ単純なモデルながらも


従来の複雑なモデルの性能を超えてきたことでインパクトが大きい
● Kineticsという動画認識の定番データセットと共に出てきているのも強い
特に被引用数の多い論文 3
21
● Non-local Neural Networks
● Xiaolong Wang, Ross Girshick,


Abhinav Gupta, Kaiming He
● CVPR 2018
● 被引用数:2684
● 動画認識以外の文脈でも引用されていることが大きい


→ 汎用性のある手法は強い
● 著者が強いのも大きそう
● 動画認識界隈というよりコンピュータビジョン界隈で強い人の論文
モデルの分析や改善に関する研究
3D CNNの分析に関する研究
23
● 入力動画のサイズ
● 各フレームの画素数やフレーム数,フレームレートなど
● モーション情報の表現
● 時空間の畳み込みによってモーション情報の表現が


適切に獲得されているのか
3D CNNの分析に関する研究
24
● 入力動画のサイズ
● 各フレームの画素数やフレーム数,フレームレートなど
● モーション情報の表現
● 時空間の畳み込みによってモーション情報の表現が


適切に獲得されているのか
入力動画のフレーム数に関する分析 [16]
25
● 3D CNNに入力する動画の
フレーム数を変化させた時の
認識精度を分析
● フレーム数が大きい方が


より高精度な認識が可能
● 画素数 (H/L) についても


大きい方が高精度になる
X3Dのモデル構造の探索過程 [36]
26
● 画素数 (γs),フレーム数 (γt),


フレームレート (γτ) を


大きくする変化が選択される
ことが多い
● ネットワーク構造を大きくする
よりも入力動画の時空間解像度
を大きくすることが精度向上に
大きく寄与
3D CNNの分析に関する研究
27
● 入力動画のサイズ
● 各フレームの画素数やフレーム数,フレームレートなど
● モーション情報の表現
● 時空間の畳み込みによってモーション情報の表現が


適切に獲得されているのか
3D CNNでもRGB+Flowが有効 [14, 16, 19]
28
● 3D CNNは時間軸も畳み込むのでOptical Flowを


使わなくてもモーション情報の表現を獲得してほしい
● 実際には3D CNNでもRGB+Flowの


Two-streamを導入した方が高い認識精度
● RGB入力の3D CNNでは


十分にモーション情報が捉えられていない?
3D CNNによる動き情報の分析 [37]
29
● 元の動画から動き情報を


削っても3D CNNによる


認識の精度低下は小さい
● 特徴表現が同じになるように


少数フレームから元動画を生成
● 生成した動画からは動き情報が
ほぼ消えている
● 生成した動画を入力として認識
しても多少の精度低下で済む
3D CNNによるモーション表現の改善
30
● Optical Flowの置き換え
● 内部的にOptical Flowと同等の情報を推定しながら利用
● Optical Flowの学習への利用
● Optical Flowを学習のみに利用して推論時は不要とする
3D CNNによるモーション表現の改善
31
● Optical Flowの置き換え
● 内部的にOptical Flowと同等の情報を推定しながら利用
● Optical Flowの学習への利用
● Optical Flowを学習のみに利用して推論時は不要とする
Flow計算アルゴリズムのCNNへの導入 [43]
32
● Flow計算アルゴリズムの


TV-L1を層として実装
● 微分可能で学習可能な


パラメータを持つ層として


TV-L1を実装
● 特徴マップのFlow計算をCNN
内部に導入することでRGBのみ
からTwo-streamに匹敵する


性能を実現
Flow Layer
Flow推定ネットワークの導入 [47]
33
● RGB入力からFlow推定して


CNNに入力する構造を導入
● RGB入力のみからTwo-stream
構造の認識を実現
● Action Recognitionに最適化
したOptical Flowを利用可能
3D CNNによるモーション表現の改善
34
● Optical Flowの置き換え
● 内部的にOptical Flowと同等の情報を推定しながら利用
● Optical Flowの学習への利用
● Optical Flowを学習のみに利用して推論時は不要とする
知識蒸留の利用 [48]
35
● Flow入力で学習したモデル
を教師としてRGB入力の


生徒モデルを学習
● 普通のRGB入力のモデルと


蒸留で学習した生徒モデルを


組み合わせて利用することで
RGBのみで高精度な認識を実現
マルチタスク学習 [49]
36
● Action Recognitionと


Flow推定を同時に学習
● Flow推定も可能なように学習


することでモーション情報の


表現を強化
代表的なデータセット
動画認識の代表的なデータセット
38
HMDB-51 [55]
39
● 映画やYouTubeから収集


した動画データセット
● 51クラス,約7,000動画
● 2011年に公開されており


Deep以前から使われている
データセット
● ベンチマークとして


定番の一つ
UCF-101 [56]
40
● YouTubeから収集した


動画データセット
● 101クラス,約13,000動画
● HMDB-51同様Deep以前


から今に至るまで


ベンチマークの定番
● I3Dで98%近い精度が出てから


さすがにもう終わり感は強い
Sports-1M [57]
41
● YouTubeから収集した


動画データセット
● 487クラス,100万+動画
● 各動画は1行動を含むように開始・終
了時刻でトリミングされておらず長
い動画
● 行動に関係ないノイズ情報が多い
● 動画数は多いがファイルサイズ的にも
大きすぎる & ノイズも多いので


学習用途としてはやや使いにくい
ActivityNet [58]
42
● YouTubeから収集した


動画データセット
● 200クラス,約28,000動画
● 長い動画の中に


複数の行動が存在
● Sports-1Mと違って開始・


終了時刻のアノテーション付き
● Classificationだけでなく


Action Proposal, Temporal Action
Localizationなど様々なタスクで利用
Charades [59]
43
● クラウドソーシングで


収集した動画データセット
● 指定したスクリプトに沿う


動画を撮影してもらう形で収集
● 各家庭の中の日常動作の動画
● 157クラス,7万弱動画
● ActivityNetと同様に


1動画の中に複数動作 &


開始・終了のアテノーション
YouTube-8M
44
● YouTubeから収集した


動画データセット
● 4,800クラス,約800万動画
● 規模は圧倒的なデータセット
● Sports-1Mと同じように


ノイズも多い
● 巨大すぎてまともに利用している


研究はかなり少ない
Kinetics-400/600/700 [28, 63, 39]
45
● YouTubeから収集した


動画データセット
● 400/600/700クラス,


約30/50/65万動画
● 2018年にKinetics-400が


公開されてから動画認識の


定番データセットとして


よく利用されている
Something-Something [61, 64]
46
● クラウドソーシングで


収集した動画データセット
● 人と物体のインタラクションの動画が対象
● 174クラス,約10万動画
● v2は約20万動画
● 時間情報のモデリングを議論する時に
使われることが多いデータセット
● ものを置く / 取るなど時間的な情報を使わ
ないと認識できないクラス設計がされてい
るため
Moments in Time [40]
47
● YouTubeなどから


収集した動画データセット
● Flickr, Vine, Vimeoからも収集
● 339クラス,100万動画
● データ数も多く使いやすいが


そんなには使われてない印象
● 経験的には事前学習用としても
Kineticsの方が良かったり
STAIR-Actions [62]
48
● クラウドソーシングと
YouTubeから収集した


動画データセット
● Charadesのように


日常的な動作が対象
● クラウドソーシングとYouTube
の比率は大体半々
● 100クラス,約10万動画
HACS [65]
49
● YouTubeから収集した


動画データセット
● 200クラス,150万動画
● 50万動画から切り出したもの
● 14万セグメントを使うHACS
Segmentsという設定も利用可
● 論文では事前学習用のデータと
しての性能もアピール
● Kineticsより少し良さそう
FineGym [66]
50
● YouTubeから収集した


動画データセット
● 体操の動画が対象
● 530クラス,3万動画
● 論文では99クラス,288クラス
の設定で実験
● 階層的にアノテーション


されているのが売り
上位会議
・論文誌に採択されたデータセット
51
● HMDB-51 (ICCV 2011)
● Sports-1M (CVPR 2014)
● 手法が論文のメイン
● ActivityNet (CVPR 2015)
● Charades (ECCV 2016)
● Kinetics (CVPR 2017)
● 手法が論文のメイン
● Something-Something


(ICCV 2017)
● Moments in Time


(TPAMI, 2019)
● HACS (ICCV 2019)
● FineGym (CVPR 2020)
データセット論文の採択について
52
● 上位会議・論文誌に採択されているものもあれば


されていないものもある
● UCF-101などよく使われているものでも


テクニカルレポートとして上がっているだけだったり
● 投稿していないだけ?
● 手法もセットで提案できている方が当然採択されやすそう
● HACSのように何度も挑戦してから採択されたものも
● arXivのv1はCVPR 2018 submission(当時はSLACという名前)
● その後ICCV 2019でついに採択
● 何度も挑戦するのはやはり大事
まとめ
53
● 3D CNNによる行動認識を中心に代表的なモデルや


データセットについてサーベイした結果を紹介
● C3Dを始めとした様々な3D CNNのネットワーク構造
● 3D CNNの分析や改善に関する研究
● 動画認識でよく用いられる動画データセット
参考文献

Mais conteúdo relacionado

Mais procurados

Generative Models(メタサーベイ )
Generative Models(メタサーベイ )Generative Models(メタサーベイ )
Generative Models(メタサーベイ )cvpaper. challenge
 
【チュートリアル】コンピュータビジョンによる動画認識
【チュートリアル】コンピュータビジョンによる動画認識【チュートリアル】コンピュータビジョンによる動画認識
【チュートリアル】コンピュータビジョンによる動画認識Hirokatsu Kataoka
 
文献紹介:VideoCLIP: Contrastive Pre-training for Zero-shot Video-Text Understanding
文献紹介:VideoCLIP: Contrastive Pre-training for Zero-shot Video-Text Understanding文献紹介:VideoCLIP: Contrastive Pre-training for Zero-shot Video-Text Understanding
文献紹介:VideoCLIP: Contrastive Pre-training for Zero-shot Video-Text UnderstandingToru Tamaki
 
【DL輪読会】Visual Classification via Description from Large Language Models (ICLR...
【DL輪読会】Visual Classification via Description from Large Language Models (ICLR...【DL輪読会】Visual Classification via Description from Large Language Models (ICLR...
【DL輪読会】Visual Classification via Description from Large Language Models (ICLR...Deep Learning JP
 
モデル高速化百選
モデル高速化百選モデル高速化百選
モデル高速化百選Yusuke Uchida
 
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Yusuke Uchida
 
[DL輪読会]When Does Label Smoothing Help?
[DL輪読会]When Does Label Smoothing Help?[DL輪読会]When Does Label Smoothing Help?
[DL輪読会]When Does Label Smoothing Help?Deep Learning JP
 
動画認識サーベイv1(メタサーベイ )
動画認識サーベイv1(メタサーベイ )動画認識サーベイv1(メタサーベイ )
動画認識サーベイv1(メタサーベイ )cvpaper. challenge
 
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
【論文読み会】Deep Clustering for Unsupervised Learning of Visual FeaturesARISE analytics
 
【チュートリアル】動的な人物・物体認識技術 -Dense Trajectories-
【チュートリアル】動的な人物・物体認識技術 -Dense Trajectories-【チュートリアル】動的な人物・物体認識技術 -Dense Trajectories-
【チュートリアル】動的な人物・物体認識技術 -Dense Trajectories-Hirokatsu Kataoka
 
近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer近年のHierarchical Vision Transformer
近年のHierarchical Vision TransformerYusuke Uchida
 
StyleGAN解説 CVPR2019読み会@DeNA
StyleGAN解説 CVPR2019読み会@DeNAStyleGAN解説 CVPR2019読み会@DeNA
StyleGAN解説 CVPR2019読み会@DeNAKento Doi
 
画像生成・生成モデル メタサーベイ
画像生成・生成モデル メタサーベイ画像生成・生成モデル メタサーベイ
画像生成・生成モデル メタサーベイcvpaper. challenge
 
Skip Connection まとめ(Neural Network)
Skip Connection まとめ(Neural Network)Skip Connection まとめ(Neural Network)
Skip Connection まとめ(Neural Network)Yamato OKAMOTO
 
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View SynthesisDeep Learning JP
 
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
[DL輪読会]Learning Transferable Visual Models From Natural Language SupervisionDeep Learning JP
 
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted WindowsDeep Learning JP
 
自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)cvpaper. challenge
 

Mais procurados (20)

Generative Models(メタサーベイ )
Generative Models(メタサーベイ )Generative Models(メタサーベイ )
Generative Models(メタサーベイ )
 
【チュートリアル】コンピュータビジョンによる動画認識
【チュートリアル】コンピュータビジョンによる動画認識【チュートリアル】コンピュータビジョンによる動画認識
【チュートリアル】コンピュータビジョンによる動画認識
 
文献紹介:VideoCLIP: Contrastive Pre-training for Zero-shot Video-Text Understanding
文献紹介:VideoCLIP: Contrastive Pre-training for Zero-shot Video-Text Understanding文献紹介:VideoCLIP: Contrastive Pre-training for Zero-shot Video-Text Understanding
文献紹介:VideoCLIP: Contrastive Pre-training for Zero-shot Video-Text Understanding
 
Semantic segmentation
Semantic segmentationSemantic segmentation
Semantic segmentation
 
【DL輪読会】Visual Classification via Description from Large Language Models (ICLR...
【DL輪読会】Visual Classification via Description from Large Language Models (ICLR...【DL輪読会】Visual Classification via Description from Large Language Models (ICLR...
【DL輪読会】Visual Classification via Description from Large Language Models (ICLR...
 
モデル高速化百選
モデル高速化百選モデル高速化百選
モデル高速化百選
 
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
 
[DL輪読会]When Does Label Smoothing Help?
[DL輪読会]When Does Label Smoothing Help?[DL輪読会]When Does Label Smoothing Help?
[DL輪読会]When Does Label Smoothing Help?
 
動画認識サーベイv1(メタサーベイ )
動画認識サーベイv1(メタサーベイ )動画認識サーベイv1(メタサーベイ )
動画認識サーベイv1(メタサーベイ )
 
実装レベルで学ぶVQVAE
実装レベルで学ぶVQVAE実装レベルで学ぶVQVAE
実装レベルで学ぶVQVAE
 
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
 
【チュートリアル】動的な人物・物体認識技術 -Dense Trajectories-
【チュートリアル】動的な人物・物体認識技術 -Dense Trajectories-【チュートリアル】動的な人物・物体認識技術 -Dense Trajectories-
【チュートリアル】動的な人物・物体認識技術 -Dense Trajectories-
 
近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer
 
StyleGAN解説 CVPR2019読み会@DeNA
StyleGAN解説 CVPR2019読み会@DeNAStyleGAN解説 CVPR2019読み会@DeNA
StyleGAN解説 CVPR2019読み会@DeNA
 
画像生成・生成モデル メタサーベイ
画像生成・生成モデル メタサーベイ画像生成・生成モデル メタサーベイ
画像生成・生成モデル メタサーベイ
 
Skip Connection まとめ(Neural Network)
Skip Connection まとめ(Neural Network)Skip Connection まとめ(Neural Network)
Skip Connection まとめ(Neural Network)
 
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[DL輪読会]NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
 
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
 
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
[DL輪読会]Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
 
自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)
 

Semelhante a 動画認識における代表的なモデル・データセット(メタサーベイ)

人が注目する箇所を当てるSaliency Detectionの最新モデル UCNet(CVPR2020)
人が注目する箇所を当てるSaliency Detectionの最新モデル UCNet(CVPR2020)人が注目する箇所を当てるSaliency Detectionの最新モデル UCNet(CVPR2020)
人が注目する箇所を当てるSaliency Detectionの最新モデル UCNet(CVPR2020)Shintaro Yoshida
 
Arithmer Dynamics Introduction
Arithmer Dynamics Introduction Arithmer Dynamics Introduction
Arithmer Dynamics Introduction Arithmer Inc.
 
リクルートにおける画像解析事例紹介
リクルートにおける画像解析事例紹介リクルートにおける画像解析事例紹介
リクルートにおける画像解析事例紹介Recruit Technologies
 
【2017.06】 cvpaper.challenge 2017
【2017.06】 cvpaper.challenge 2017【2017.06】 cvpaper.challenge 2017
【2017.06】 cvpaper.challenge 2017cvpaper. challenge
 
深層学習の新しい応用と、 それを支える計算機の進化 - Preferred Networks CEO 西川徹 (SEMICON Japan 2022 Ke...
深層学習の新しい応用と、 それを支える計算機の進化 - Preferred Networks CEO 西川徹 (SEMICON Japan 2022 Ke...深層学習の新しい応用と、 それを支える計算機の進化 - Preferred Networks CEO 西川徹 (SEMICON Japan 2022 Ke...
深層学習の新しい応用と、 それを支える計算機の進化 - Preferred Networks CEO 西川徹 (SEMICON Japan 2022 Ke...Preferred Networks
 
cvsaisentan20141004 kanezaki
cvsaisentan20141004 kanezakicvsaisentan20141004 kanezaki
cvsaisentan20141004 kanezakikanejaki
 
大規模画像認識とその周辺
大規模画像認識とその周辺大規模画像認識とその周辺
大規模画像認識とその周辺n_hidekey
 
object detection with lidar-camera fusion: survey
object detection with lidar-camera fusion: surveyobject detection with lidar-camera fusion: survey
object detection with lidar-camera fusion: surveyTakuya Minagawa
 
TERAS Conference
TERAS ConferenceTERAS Conference
TERAS ConferenceKeiju Anada
 
(文献紹介)深層学習による動被写体ロバストなカメラの動き推定
(文献紹介)深層学習による動被写体ロバストなカメラの動き推定(文献紹介)深層学習による動被写体ロバストなカメラの動き推定
(文献紹介)深層学習による動被写体ロバストなカメラの動き推定Morpho, Inc.
 
[AI05] 目指せ、最先端 AI 技術の実活用!Deep Learning フレームワーク 「Microsoft Cognitive Toolkit 」...
[AI05] 目指せ、最先端 AI 技術の実活用!Deep Learning フレームワーク 「Microsoft Cognitive Toolkit 」...[AI05] 目指せ、最先端 AI 技術の実活用!Deep Learning フレームワーク 「Microsoft Cognitive Toolkit 」...
[AI05] 目指せ、最先端 AI 技術の実活用!Deep Learning フレームワーク 「Microsoft Cognitive Toolkit 」...de:code 2017
 
WebDB Forum 2016 gunosy
WebDB Forum 2016 gunosyWebDB Forum 2016 gunosy
WebDB Forum 2016 gunosyHiroaki Kudo
 
ディープラーニングでラーメン二郎(全店舗)を識別してみた
ディープラーニングでラーメン二郎(全店舗)を識別してみたディープラーニングでラーメン二郎(全店舗)を識別してみた
ディープラーニングでラーメン二郎(全店舗)を識別してみたknjcode
 
[DL輪読会]Transframer: Arbitrary Frame Prediction with Generative Models
[DL輪読会]Transframer: Arbitrary Frame Prediction with Generative Models[DL輪読会]Transframer: Arbitrary Frame Prediction with Generative Models
[DL輪読会]Transframer: Arbitrary Frame Prediction with Generative ModelsDeep Learning JP
 
リクルートにおける画像解析事例紹介と周辺技術紹介
リクルートにおける画像解析事例紹介と周辺技術紹介リクルートにおける画像解析事例紹介と周辺技術紹介
リクルートにおける画像解析事例紹介と周辺技術紹介Recruit Technologies
 
ADVENTUREの他のモジュール・関連プロジェクトの紹介
ADVENTUREの他のモジュール・関連プロジェクトの紹介ADVENTUREの他のモジュール・関連プロジェクトの紹介
ADVENTUREの他のモジュール・関連プロジェクトの紹介ADVENTURE Project
 
ディープラーニングによるラーメン二郎全店舗識別と生成
ディープラーニングによるラーメン二郎全店舗識別と生成ディープラーニングによるラーメン二郎全店舗識別と生成
ディープラーニングによるラーメン二郎全店舗識別と生成knjcode
 
【SSII2015】人を観る技術の先端的研究
【SSII2015】人を観る技術の先端的研究【SSII2015】人を観る技術の先端的研究
【SSII2015】人を観る技術の先端的研究Hirokatsu Kataoka
 

Semelhante a 動画認識における代表的なモデル・データセット(メタサーベイ) (20)

人が注目する箇所を当てるSaliency Detectionの最新モデル UCNet(CVPR2020)
人が注目する箇所を当てるSaliency Detectionの最新モデル UCNet(CVPR2020)人が注目する箇所を当てるSaliency Detectionの最新モデル UCNet(CVPR2020)
人が注目する箇所を当てるSaliency Detectionの最新モデル UCNet(CVPR2020)
 
Arithmer Dynamics Introduction
Arithmer Dynamics Introduction Arithmer Dynamics Introduction
Arithmer Dynamics Introduction
 
リクルートにおける画像解析事例紹介
リクルートにおける画像解析事例紹介リクルートにおける画像解析事例紹介
リクルートにおける画像解析事例紹介
 
【2017.06】 cvpaper.challenge 2017
【2017.06】 cvpaper.challenge 2017【2017.06】 cvpaper.challenge 2017
【2017.06】 cvpaper.challenge 2017
 
CNTK deep dive
CNTK deep diveCNTK deep dive
CNTK deep dive
 
深層学習の新しい応用と、 それを支える計算機の進化 - Preferred Networks CEO 西川徹 (SEMICON Japan 2022 Ke...
深層学習の新しい応用と、 それを支える計算機の進化 - Preferred Networks CEO 西川徹 (SEMICON Japan 2022 Ke...深層学習の新しい応用と、 それを支える計算機の進化 - Preferred Networks CEO 西川徹 (SEMICON Japan 2022 Ke...
深層学習の新しい応用と、 それを支える計算機の進化 - Preferred Networks CEO 西川徹 (SEMICON Japan 2022 Ke...
 
cvsaisentan20141004 kanezaki
cvsaisentan20141004 kanezakicvsaisentan20141004 kanezaki
cvsaisentan20141004 kanezaki
 
大規模画像認識とその周辺
大規模画像認識とその周辺大規模画像認識とその周辺
大規模画像認識とその周辺
 
画像処理応用
画像処理応用画像処理応用
画像処理応用
 
object detection with lidar-camera fusion: survey
object detection with lidar-camera fusion: surveyobject detection with lidar-camera fusion: survey
object detection with lidar-camera fusion: survey
 
TERAS Conference
TERAS ConferenceTERAS Conference
TERAS Conference
 
(文献紹介)深層学習による動被写体ロバストなカメラの動き推定
(文献紹介)深層学習による動被写体ロバストなカメラの動き推定(文献紹介)深層学習による動被写体ロバストなカメラの動き推定
(文献紹介)深層学習による動被写体ロバストなカメラの動き推定
 
[AI05] 目指せ、最先端 AI 技術の実活用!Deep Learning フレームワーク 「Microsoft Cognitive Toolkit 」...
[AI05] 目指せ、最先端 AI 技術の実活用!Deep Learning フレームワーク 「Microsoft Cognitive Toolkit 」...[AI05] 目指せ、最先端 AI 技術の実活用!Deep Learning フレームワーク 「Microsoft Cognitive Toolkit 」...
[AI05] 目指せ、最先端 AI 技術の実活用!Deep Learning フレームワーク 「Microsoft Cognitive Toolkit 」...
 
WebDB Forum 2016 gunosy
WebDB Forum 2016 gunosyWebDB Forum 2016 gunosy
WebDB Forum 2016 gunosy
 
ディープラーニングでラーメン二郎(全店舗)を識別してみた
ディープラーニングでラーメン二郎(全店舗)を識別してみたディープラーニングでラーメン二郎(全店舗)を識別してみた
ディープラーニングでラーメン二郎(全店舗)を識別してみた
 
[DL輪読会]Transframer: Arbitrary Frame Prediction with Generative Models
[DL輪読会]Transframer: Arbitrary Frame Prediction with Generative Models[DL輪読会]Transframer: Arbitrary Frame Prediction with Generative Models
[DL輪読会]Transframer: Arbitrary Frame Prediction with Generative Models
 
リクルートにおける画像解析事例紹介と周辺技術紹介
リクルートにおける画像解析事例紹介と周辺技術紹介リクルートにおける画像解析事例紹介と周辺技術紹介
リクルートにおける画像解析事例紹介と周辺技術紹介
 
ADVENTUREの他のモジュール・関連プロジェクトの紹介
ADVENTUREの他のモジュール・関連プロジェクトの紹介ADVENTUREの他のモジュール・関連プロジェクトの紹介
ADVENTUREの他のモジュール・関連プロジェクトの紹介
 
ディープラーニングによるラーメン二郎全店舗識別と生成
ディープラーニングによるラーメン二郎全店舗識別と生成ディープラーニングによるラーメン二郎全店舗識別と生成
ディープラーニングによるラーメン二郎全店舗識別と生成
 
【SSII2015】人を観る技術の先端的研究
【SSII2015】人を観る技術の先端的研究【SSII2015】人を観る技術の先端的研究
【SSII2015】人を観る技術の先端的研究
 

Último

デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)UEHARA, Tetsutaro
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)Hiroshi Tomioka
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?akihisamiyanaga1
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfFumieNakayama
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...博三 太田
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NTT DATA Technology & Innovation
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfFumieNakayama
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineerYuki Kikuchi
 

Último (8)

デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
 

動画認識における代表的なモデル・データセット(メタサーベイ)