SlideShare uma empresa Scribd logo
1 de 12
Baixar para ler offline
cvpaper.challenge
	
Twitter@CVPaperChalleng
http://www.slideshare.net/cvpaperchallenge
MAILTO: cvpaper.challenge[at]gmail[dot]com
Will Kay, Joao Carreira, Karen Simonyan, Brian Zhang, Chloe Hillier, Sudheendra
Vijayanarasimhan, Fabio Viola, Tim Green, Trevor Back, Paul Natsev, Mustafa Suleyman, “The
Kinetics Human Action Video Dataset”, in arXiv 1705.05950, 2017.
【1】
Keywords: Kinetics Human Action Video Dataset, Action Recognition
新規性・差分
概要
⼈物⾏動認識に関して⼤規模かつ(クロスチェックにより)クリーンな
データセットであるKinetics Human Action Video Datasetを提案し
た。ビデオ数は30万、各カテゴリ最低でも400動画(~最⼤1000動画)
を含んでいる。右の各データセットとの⽐較表では⾏動カテゴリ数の増
加やビデオ数の増加が確認できる。データセットはStep1: YouTubeか
らワード検索により抽出、Step2: 時系列位置を指定、Step3: AMTによ
りラベリング(ラベル付けについては右図参照)、Step4: ノイズやあ
いまい性を除去。ベンチマークとして、データセットに対してCNN
+LSTM, Two-Stream CNN, 3D ConvNetを実⾏した。
・動画像認識版のImageNetを⽬指して⼤規模・校正され
たデータセットを提案した
・3D Conv.のPre-trainedモデルとしても効果を発揮する
Links
論⽂
https://arxiv.org/
pdf/1705.06950.pdf
プロジェクト
https://
deepmind.com/
research/open-
source/open-source-
datasets/kinetics/
2
Joao Carreira, Andrew Zisserman, “Quo Vadis, Action Recognition? A New Model and the
Kinetics Dataset”, in CVPR, 2017.
【2】
Keywords: Kinetics Human Dataset
新規性・差分
概要
Kinetics Human Datasetを⽤いた⾏動認識の研究。同時
にRGBやOpticalFlowの2つのモダリティを⼊⼒とする
Two-Stream C3Dを提案して、xytの3Dカーネルの学習
もより⾼いレベルで実現させている。
2Dカーネルから3Dカーネルへの膨張(Inflated
Inception-v1)、Two-Streamへの拡張(e, Two-
stream 3D-convnet)は右図に⽰されている。
・3DConvolutionの学習を成功させるためにImageNetの
2Dカーネルのパラメータを適⽤、Two-StreamCNNのモ
デルを採⽤した
・Kinetics Datasetを⽤いた学習済みモデルは転移学習に
も有効であることが判明した
Links
論⽂ https://arxiv.org/pdf/1705.07750.pdf
プロジェクト
3
Kevin Matzen, Kavita Bala, Noah Snavely, “StreetStyle: Exploring world-wide clothing styles
from millions of photos”, in arXiv 1706.01869, 2017.
【3】
Keywords: Fashion Snap, World-wide Image Search
新規性・差分
概要
世界的なファッションスナップを検索するための研究である。検索のため、
ファッション属性を推定し、スタイルの特徴を学習する。
(1)画像はSocial Mediaから抽出した
(2)ファッション属性に関するラベルが付与されたStreetStyle-27Kを新
規に提案、27,000枚の画像を含む
(3)DNNの⼿法として提案データセットにて属性を学習、教師なし学習
により視覚的相関を学習。
・ファッション属性を推定するためのStreetStyle27K
データセットを提案
・膨⼤な(Millions of photos)画像から特徴を学習でき
る
・例えばスカーフの仕様についての解析が時系列で可能と
なる
Links
論⽂ https://arxiv.org/pdf/1706.01869.pdf
プロジェクト
4
Hong Liu, Juanhui Tu, Mengyuan Liu, “Two-Stream 3D Convolutional Neural Network for
Human Skeleton-Based Action Recognition”, in arXiv 1705.08106, 2017.
【4】
Keywords: Two-Stream 3D ConvNet, Skeleton
新規性・差分
概要
Links
論⽂
https://arxiv.org/ftp/arxiv/
papers/1705/1705.08106.pdf
プロジェクト
Two-Stream 3D Convolutional Networks をスケルトン
の⼊⼒に対して⾏った。最初にスケルトンを3Dにマッピ
ングして⼊⼒とする、次に3D CNNを⽤いてふたるのモダ
リティから特徴を抽出、スケルトン間のグローバルな位置
関係を記述する。SmartHome/ NTU RGB-D datasetに
てRNNをベースとした⼿法と⽐較した。右図はSpatial/
Temporalのモダリティであり、下図はネットワーク構
成。
・姿勢を⼊⼒としたTwo-Stream 3D
CNNを提案した
・NTU RGBD, SmartHomeにて良好な結
果を実現
5
Oluwatobi Olabiyi, Eric Martinson, Vijay Chintalapudi, Rui Guo, “Driver Action Prediction Using
Deep (Bidirectional) Recurrent Neural Network”, in ITSC, 2017.
【5】
Keywords: ADAS, Driver Action Prediction, RNN
新規性・差分
概要
マルチモーダルなセンサの⼊⼒からBi-directional
なRNN(DBRN)によりドライバーの⾏動を予測
した。加速、ブレーキ、レーンチャンジ、ターン
などのドライバ⾏動を5秒前から予測することに成
功した。
右図はシステム構成図。マルチセンサ(Face/
Hand/Outiside Camera, GPS, CAN)から特徴抽
出、Bi-directional Recurrent Netにより⾏動予
測。
・DBRNによりマルチセンサの情報を解析してドラ
イバーの⾏動を約5秒前に予測可能とした
・従来の予測モデルよりも素早く、⾼精度な予測を
実現した(右図によるとDBRNを⽤いて5秒前に約
80%の確率で予測可能)
Links
論⽂
https://arxiv.org/ftp/arxiv/papers/1706/1706.02257.pdf
プロジェクト
6
Charles R. Qi, Hao Su, Kaichun Mo, Lenidas J. Guibas, “PointNet: Deep Learning on Point Sets
for 3D Classification and Segmentation”, in CVPR, 2017. (oral)
【6】
Keywords: PointCloud, PointNet
新規性・差分
概要
点群(PointCloud)を直接畳み込むことができるPointNetを提案。PointNetでは
3次元認識、特に識別・パーツ分割・セマンティックセグメンテーションを⾏うこ
とができる。(右下図)アーキテクチャのキーとなるのはMaxPoolにおける
Symmetric Functionであり、重要もしくは情報を多く含んでいる点群情報を選択
して学習を⾏った。識別やセグメンテーションと⽤途に合わせてアーキテクチャ
の出⼒(や途中処理)を変更した。Input/Feature Transformationを⾏い、
MaxPoolingにより効果的に点群を表現する特徴を取得する。Multi-layer
perception (mlp)の数字は層の数を表現している。全層のReLUにはBatchNorm
が⾏われている。
・点群を直接的に処理可能なPointNetをを提案し、識別・
パーツ分割・セマンティックセグメンテーションに応⽤可
能とした
Links
論⽂ https://arxiv.org/pdf/1612.00593.pdf
プロジェクト http://stanford.edu/~rqi/pointnet/
コード https://github.com/charlesq34/pointnet
7
Jiawei He, Mostafa S. Ibrahim, Zhiwei Deng, Greg Mori, “Generic Tubelet Proposals for Action
Localization”, in arXiv, 2017.
【7】
Keywords: Tubelet Proposal, Action Localization
新規性・差分
概要
動画の中でいかに対象となる⼈物⾏動の時間幅・位置・⾏動ラベル
(t_start, t_end, x, y, action)を推定するかというTubelet
Proposalsに関する論⽂。⼿法(右下図)はRGBやFlow画像のTwo-
Streamの⼊⼒からFaster R-CNN (Region Proposal Net)により候
補領域を抽出、RGB/Flowの情報を統合して判断するためにLinking
Layerを提案、ProposalからはMulti-LSTMや統合により総合的に判
断してTubeletを推定する。
・Tubelet (Proposal)を推定する課題においてstate-
of-the-artな性能を出す⼿法TUN, TPNを提案した
・Two-Stream, RPN, LSTMを統合したアーキテク
チャになっていて、シンプルな実装が可能?
Links
論⽂ https://arxiv.org/pdf/1705.10861.pdf
プロジェクト
8
Johann, Abhilash, “Weakly Supervisd Affordance Detection”, in CVPR, 2017.
【8】
Keywords: weakly supervised, object affordance
新規性・差分
概要
・object affordance推定のデータセットと弱教師あり学習によ
る推定⼿法の提案
・周囲とのコンテキストを考慮したaffordanceの教師を得るた
めにCAD120データセットの⼀部の画像にピクセルごとのアノ
テーションをし、新たなデータセットを提案
・そのデータセットにおいてキーポイント(画像内のある1ピク
セル)のみのアノテーションを⽤いて画像全体の1ピクセルごと
のマルチクラスなアフォーダンス推定を⾏う
・CAD120における9916の物体についてアフォーダンスを付与
したデータセットの提案
・最初にキーポイントによって学習したCNNの訓練データに対
する出⼒にGrab-cutを施してよりrefineし、それを訓練データ
として再度⽤いて学習を⾏う
・F値, IoUの評価によって、Grab-cutを⽤いたデータによる再
学習を⾏った⽅が良い結果となった。
Links
論⽂
http://pages.iai.uni-bonn.de/gall_juergen/
download/jgall_affordancedetection_cvpr17.pdf
プロジェクト
9
David Bau, Bolei Zhou, Aditya Khosla, Aude Oliva, Antonio Torralba, “Network Dissection:
Quantifying Interpretability of Deep Visual Representations”, in CVPR, 2017. (oral)
【9】
Keywords: Network Dissection, Latent Representation
新規性・差分
概要
Network Dissectionと呼ばれる、CNNの隠れ層の特徴評価や意味的概念を学習するためのネッ
トワークを提案する。それぞれ異なるデータセットからどのような概念(e.g. objects, parts,
scenes, textures, materials, colors)を学習したのかを知ることで深層学習を理解すること
に挑戦した。教師あり/なし学習、学習回数、初期値の違い、層の深さや幅、ドロップアウトや
バッチ正規化などについても詳細に検討した。この疑問を明確にするためにBroadly and
Densely Labeled Dataset (Broaden)を提案した。BroadenはADE, Open-Surfaces, Pascal-
Context, Pascal-Partなどから構成される。テストを⾏ったネットワークは右の通りであり、
学習なし/教師あり/教師なしによりテストを⾏った。
・CNNの解釈可能性について評価した。
・教師あり/なし学習、学習回数、初期値の違
い、層の深さや幅、ドロップアウトやバッチ
正規化などについて詳細な実験によりCNNが
学習でどのような⾒えを学習するかを明らか
にした。
Links
論⽂
http://netdissect.csail.mit.edu/
final-network-dissection.pdf
プロジェクト
http://netdissect.csail.mit.edu/
コード
https://github.com/CSAILVision/
NetDissect
Yusuf Aytar, Carl Vndric, Antonio Torralba, “See, Hear, and Read: Deep Aligned
Representations”, in arxiv, 2017.
【10】
Keywords: Cross-modal, Aligned Representations
新規性・差分
概要
画像, ⾳声, テキストを⽤いたcross-modalなCNNの提案。モデルと
しては, それぞれのmodalを⼊⼒とするseparateなCNNとそれらの
出⼒を⼊⼒とするshared NN(modalに関わらず共有)を組み合わせ
たものである。学習では, imagenet学習済みモデルを教師モデルと
してその出⼒とのKLダイバージェンスとshared NNの特徴のmodal
間におけるcosine similarity の最⼩化が⾏われる。データとしては,
画像と⾳声, 画像とテキストで対応付けられたものを既存のデータ
セットに⼿を加えて作成している。
・各modalのcosine similarityを元にcross modal retribal を⾏い既存
⼿法と⽐較して⾼い精度を達成した。
・学習後の提案モデルから得られる特徴量(aligned representation)を
⼊⼒とするSVMを⽤いてカテゴリ分類のタスクを⾏った。この際, train
とtestで異なるmodalを⼊⼒としても既存⼿法と⽐較して良好な結果が
得られた。これから, modal間で関連の深いものを結びつけるように特
徴量が学習されているという考察をしている。
・shared NNの最終層の出⼒を可視化した結果, modal間で連想される
⼊⼒を得たときは, 同じようなニューロンに強い反応が出ていることが
か確認できた
Links
論⽂
http://netdissect.csail.mit.edu/
final-network-dissection.pdf
ご質問・コメント等ありましたら,cvpaper.challenge@gmail.com / Twitter@CVPaperChallengまでお願いします.

Mais conteúdo relacionado

Mais procurados

これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...cvpaper. challenge
 
【チュートリアル】コンピュータビジョンによる動画認識
【チュートリアル】コンピュータビジョンによる動画認識【チュートリアル】コンピュータビジョンによる動画認識
【チュートリアル】コンピュータビジョンによる動画認識Hirokatsu Kataoka
 
[サーベイ論文] Deep Learningを用いた歩行者検出の研究動向
[サーベイ論文] Deep Learningを用いた歩行者検出の研究動向[サーベイ論文] Deep Learningを用いた歩行者検出の研究動向
[サーベイ論文] Deep Learningを用いた歩行者検出の研究動向Hiroshi Fukui
 
【2015.08】(2/5)cvpaper.challenge@CVPR2015
【2015.08】(2/5)cvpaper.challenge@CVPR2015【2015.08】(2/5)cvpaper.challenge@CVPR2015
【2015.08】(2/5)cvpaper.challenge@CVPR2015cvpaper. challenge
 
【2016.09】cvpaper.challenge2016
【2016.09】cvpaper.challenge2016【2016.09】cvpaper.challenge2016
【2016.09】cvpaper.challenge2016cvpaper. challenge
 
【2015.07】(1/2)cvpaper.challenge@CVPR2015
【2015.07】(1/2)cvpaper.challenge@CVPR2015【2015.07】(1/2)cvpaper.challenge@CVPR2015
【2015.07】(1/2)cvpaper.challenge@CVPR2015cvpaper. challenge
 
【チュートリアル】コンピュータビジョンによる動画認識 v2
【チュートリアル】コンピュータビジョンによる動画認識 v2【チュートリアル】コンピュータビジョンによる動画認識 v2
【チュートリアル】コンピュータビジョンによる動画認識 v2Hirokatsu Kataoka
 
【2016.05】cvpaper.challenge2016
【2016.05】cvpaper.challenge2016【2016.05】cvpaper.challenge2016
【2016.05】cvpaper.challenge2016cvpaper. challenge
 
【2016.01】(3/3)cvpaper.challenge2016
【2016.01】(3/3)cvpaper.challenge2016【2016.01】(3/3)cvpaper.challenge2016
【2016.01】(3/3)cvpaper.challenge2016cvpaper. challenge
 
【2016.03】cvpaper.challenge2016
【2016.03】cvpaper.challenge2016【2016.03】cvpaper.challenge2016
【2016.03】cvpaper.challenge2016cvpaper. challenge
 
【2016.12】cvpaper.challenge2016
【2016.12】cvpaper.challenge2016【2016.12】cvpaper.challenge2016
【2016.12】cvpaper.challenge2016cvpaper. challenge
 
【2016.01】(1/3)cvpaper.challenge2016
【2016.01】(1/3)cvpaper.challenge2016【2016.01】(1/3)cvpaper.challenge2016
【2016.01】(1/3)cvpaper.challenge2016cvpaper. challenge
 
動画認識サーベイv1(メタサーベイ )
動画認識サーベイv1(メタサーベイ )動画認識サーベイv1(メタサーベイ )
動画認識サーベイv1(メタサーベイ )cvpaper. challenge
 
【2016.08】cvpaper.challenge2016
【2016.08】cvpaper.challenge2016【2016.08】cvpaper.challenge2016
【2016.08】cvpaper.challenge2016cvpaper. challenge
 
2016/4/16 名古屋CVPRML 発表資料
2016/4/16 名古屋CVPRML 発表資料2016/4/16 名古屋CVPRML 発表資料
2016/4/16 名古屋CVPRML 発表資料Hiroshi Fukui
 
【2016.01】(2/3)cvpaper.challenge2016
【2016.01】(2/3)cvpaper.challenge2016【2016.01】(2/3)cvpaper.challenge2016
【2016.01】(2/3)cvpaper.challenge2016cvpaper. challenge
 
画像認識における幾何学的不変性の扱い
画像認識における幾何学的不変性の扱い画像認識における幾何学的不変性の扱い
画像認識における幾何学的不変性の扱いSeiji Hotta
 
関西CVPRML勉強会 2012.2.18 (一般物体認識 - データセット)
関西CVPRML勉強会 2012.2.18 (一般物体認識 - データセット)関西CVPRML勉強会 2012.2.18 (一般物体認識 - データセット)
関西CVPRML勉強会 2012.2.18 (一般物体認識 - データセット)Akisato Kimura
 

Mais procurados (20)

これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
 
【チュートリアル】コンピュータビジョンによる動画認識
【チュートリアル】コンピュータビジョンによる動画認識【チュートリアル】コンピュータビジョンによる動画認識
【チュートリアル】コンピュータビジョンによる動画認識
 
[サーベイ論文] Deep Learningを用いた歩行者検出の研究動向
[サーベイ論文] Deep Learningを用いた歩行者検出の研究動向[サーベイ論文] Deep Learningを用いた歩行者検出の研究動向
[サーベイ論文] Deep Learningを用いた歩行者検出の研究動向
 
【2015.08】(2/5)cvpaper.challenge@CVPR2015
【2015.08】(2/5)cvpaper.challenge@CVPR2015【2015.08】(2/5)cvpaper.challenge@CVPR2015
【2015.08】(2/5)cvpaper.challenge@CVPR2015
 
【2016.09】cvpaper.challenge2016
【2016.09】cvpaper.challenge2016【2016.09】cvpaper.challenge2016
【2016.09】cvpaper.challenge2016
 
【2015.07】(1/2)cvpaper.challenge@CVPR2015
【2015.07】(1/2)cvpaper.challenge@CVPR2015【2015.07】(1/2)cvpaper.challenge@CVPR2015
【2015.07】(1/2)cvpaper.challenge@CVPR2015
 
【チュートリアル】コンピュータビジョンによる動画認識 v2
【チュートリアル】コンピュータビジョンによる動画認識 v2【チュートリアル】コンピュータビジョンによる動画認識 v2
【チュートリアル】コンピュータビジョンによる動画認識 v2
 
MIRU2018 tutorial
MIRU2018 tutorialMIRU2018 tutorial
MIRU2018 tutorial
 
【2016.05】cvpaper.challenge2016
【2016.05】cvpaper.challenge2016【2016.05】cvpaper.challenge2016
【2016.05】cvpaper.challenge2016
 
【2016.01】(3/3)cvpaper.challenge2016
【2016.01】(3/3)cvpaper.challenge2016【2016.01】(3/3)cvpaper.challenge2016
【2016.01】(3/3)cvpaper.challenge2016
 
【2016.03】cvpaper.challenge2016
【2016.03】cvpaper.challenge2016【2016.03】cvpaper.challenge2016
【2016.03】cvpaper.challenge2016
 
【2016.12】cvpaper.challenge2016
【2016.12】cvpaper.challenge2016【2016.12】cvpaper.challenge2016
【2016.12】cvpaper.challenge2016
 
【2016.01】(1/3)cvpaper.challenge2016
【2016.01】(1/3)cvpaper.challenge2016【2016.01】(1/3)cvpaper.challenge2016
【2016.01】(1/3)cvpaper.challenge2016
 
動画認識サーベイv1(メタサーベイ )
動画認識サーベイv1(メタサーベイ )動画認識サーベイv1(メタサーベイ )
動画認識サーベイv1(メタサーベイ )
 
【2016.08】cvpaper.challenge2016
【2016.08】cvpaper.challenge2016【2016.08】cvpaper.challenge2016
【2016.08】cvpaper.challenge2016
 
DeepLearningDay2016Summer
DeepLearningDay2016SummerDeepLearningDay2016Summer
DeepLearningDay2016Summer
 
2016/4/16 名古屋CVPRML 発表資料
2016/4/16 名古屋CVPRML 発表資料2016/4/16 名古屋CVPRML 発表資料
2016/4/16 名古屋CVPRML 発表資料
 
【2016.01】(2/3)cvpaper.challenge2016
【2016.01】(2/3)cvpaper.challenge2016【2016.01】(2/3)cvpaper.challenge2016
【2016.01】(2/3)cvpaper.challenge2016
 
画像認識における幾何学的不変性の扱い
画像認識における幾何学的不変性の扱い画像認識における幾何学的不変性の扱い
画像認識における幾何学的不変性の扱い
 
関西CVPRML勉強会 2012.2.18 (一般物体認識 - データセット)
関西CVPRML勉強会 2012.2.18 (一般物体認識 - データセット)関西CVPRML勉強会 2012.2.18 (一般物体認識 - データセット)
関西CVPRML勉強会 2012.2.18 (一般物体認識 - データセット)
 

Destaque

コンピュータビジョンの今を映す-CVPR 2017 速報より- (夏のトップカンファレンス論文読み会)
コンピュータビジョンの今を映す-CVPR 2017 速報より- (夏のトップカンファレンス論文読み会)コンピュータビジョンの今を映す-CVPR 2017 速報より- (夏のトップカンファレンス論文読み会)
コンピュータビジョンの今を映す-CVPR 2017 速報より- (夏のトップカンファレンス論文読み会)cvpaper. challenge
 
2017年の研究戦略 -cvpaper.challenge 2017-
2017年の研究戦略 -cvpaper.challenge 2017-2017年の研究戦略 -cvpaper.challenge 2017-
2017年の研究戦略 -cvpaper.challenge 2017-cvpaper. challenge
 
【2016.11】cvpaper.challenge2016
【2016.11】cvpaper.challenge2016 【2016.11】cvpaper.challenge2016
【2016.11】cvpaper.challenge2016 cvpaper. challenge
 
AI and Machine Learning Demystified by Carol Smith at Midwest UX 2017
AI and Machine Learning Demystified by Carol Smith at Midwest UX 2017AI and Machine Learning Demystified by Carol Smith at Midwest UX 2017
AI and Machine Learning Demystified by Carol Smith at Midwest UX 2017Carol Smith
 

Destaque (6)

コンピュータビジョンの今を映す-CVPR 2017 速報より- (夏のトップカンファレンス論文読み会)
コンピュータビジョンの今を映す-CVPR 2017 速報より- (夏のトップカンファレンス論文読み会)コンピュータビジョンの今を映す-CVPR 2017 速報より- (夏のトップカンファレンス論文読み会)
コンピュータビジョンの今を映す-CVPR 2017 速報より- (夏のトップカンファレンス論文読み会)
 
CVPR 2017 速報
CVPR 2017 速報CVPR 2017 速報
CVPR 2017 速報
 
ICCV 2017 速報
ICCV 2017 速報 ICCV 2017 速報
ICCV 2017 速報
 
2017年の研究戦略 -cvpaper.challenge 2017-
2017年の研究戦略 -cvpaper.challenge 2017-2017年の研究戦略 -cvpaper.challenge 2017-
2017年の研究戦略 -cvpaper.challenge 2017-
 
【2016.11】cvpaper.challenge2016
【2016.11】cvpaper.challenge2016 【2016.11】cvpaper.challenge2016
【2016.11】cvpaper.challenge2016
 
AI and Machine Learning Demystified by Carol Smith at Midwest UX 2017
AI and Machine Learning Demystified by Carol Smith at Midwest UX 2017AI and Machine Learning Demystified by Carol Smith at Midwest UX 2017
AI and Machine Learning Demystified by Carol Smith at Midwest UX 2017
 

Semelhante a 【2017.06】 cvpaper.challenge 2017

3D CNNによる人物行動認識の動向
3D CNNによる人物行動認識の動向3D CNNによる人物行動認識の動向
3D CNNによる人物行動認識の動向Kensho Hara
 
動画認識における代表的なモデル・データセット(メタサーベイ)
動画認識における代表的なモデル・データセット(メタサーベイ)動画認識における代表的なモデル・データセット(メタサーベイ)
動画認識における代表的なモデル・データセット(メタサーベイ)cvpaper. challenge
 
「解説資料」VideoMix: Rethinking Data Augmentation for Video Classification
「解説資料」VideoMix: Rethinking Data Augmentation for  Video Classification「解説資料」VideoMix: Rethinking Data Augmentation for  Video Classification
「解説資料」VideoMix: Rethinking Data Augmentation for Video ClassificationTakumi Ohkuma
 
動画像理解のための深層学習アプローチ
動画像理解のための深層学習アプローチ動画像理解のための深層学習アプローチ
動画像理解のための深層学習アプローチToru Tamaki
 
AV 画像認識とその周辺 - UT Startup Gym 講演資料
AV 画像認識とその周辺 - UT Startup Gym 講演資料AV 画像認識とその周辺 - UT Startup Gym 講演資料
AV 画像認識とその周辺 - UT Startup Gym 講演資料ぱろすけ
 
201209 Biopackathon 12th
201209 Biopackathon 12th201209 Biopackathon 12th
201209 Biopackathon 12thSatoshi Kume
 
ディープラーニングでおそ松さんの6つ子は見分けられるのか? FIT2016
ディープラーニングでおそ松さんの6つ子は見分けられるのか? FIT2016ディープラーニングでおそ松さんの6つ子は見分けられるのか? FIT2016
ディープラーニングでおそ松さんの6つ子は見分けられるのか? FIT2016Yota Ishida
 
object detection with lidar-camera fusion: survey
object detection with lidar-camera fusion: surveyobject detection with lidar-camera fusion: survey
object detection with lidar-camera fusion: surveyTakuya Minagawa
 
TERAS Conference
TERAS ConferenceTERAS Conference
TERAS ConferenceKeiju Anada
 
ヘルスケア領域でのDeep Learnigの動向
ヘルスケア領域でのDeep Learnigの動向ヘルスケア領域でのDeep Learnigの動向
ヘルスケア領域でのDeep Learnigの動向Naoji Taniguchi
 
文献紹介:Selective Feature Compression for Efficient Activity Recognition Inference
文献紹介:Selective Feature Compression for Efficient Activity Recognition Inference文献紹介:Selective Feature Compression for Efficient Activity Recognition Inference
文献紹介:Selective Feature Compression for Efficient Activity Recognition InferenceToru Tamaki
 
実社会・実環境におけるロボットの機械学習 ver. 2
実社会・実環境におけるロボットの機械学習 ver. 2実社会・実環境におけるロボットの機械学習 ver. 2
実社会・実環境におけるロボットの機械学習 ver. 2Kuniyuki Takahashi
 
【CVPR 2019】Learning spatio temporal representation with local and global diff...
【CVPR 2019】Learning spatio temporal representation with local and global diff...【CVPR 2019】Learning spatio temporal representation with local and global diff...
【CVPR 2019】Learning spatio temporal representation with local and global diff...cvpaper. challenge
 
B3スタートアップ コンピュータビジョンの現在と未来にやるべきこと(東京電機大学講演)
B3スタートアップ コンピュータビジョンの現在と未来にやるべきこと(東京電機大学講演)B3スタートアップ コンピュータビジョンの現在と未来にやるべきこと(東京電機大学講演)
B3スタートアップ コンピュータビジョンの現在と未来にやるべきこと(東京電機大学講演)cvpaper. challenge
 
211104 Bioc Asia workshop
211104 Bioc Asia workshop211104 Bioc Asia workshop
211104 Bioc Asia workshopSatoshi Kume
 
データ駆動型実世界計測における最適センサ配置提示システムの開発(SIG-DeMO研究会)
データ駆動型実世界計測における最適センサ配置提示システムの開発(SIG-DeMO研究会)データ駆動型実世界計測における最適センサ配置提示システムの開発(SIG-DeMO研究会)
データ駆動型実世界計測における最適センサ配置提示システムの開発(SIG-DeMO研究会)sugiuralab
 
機械学習応用システムの開発技術 (機械学習工学) の現状と今後の展望
機械学習応用システムの開発技術(機械学習工学)の現状と今後の展望機械学習応用システムの開発技術(機械学習工学)の現状と今後の展望
機械学習応用システムの開発技術 (機械学習工学) の現状と今後の展望 Nobukazu Yoshioka
 

Semelhante a 【2017.06】 cvpaper.challenge 2017 (20)

3D CNNによる人物行動認識の動向
3D CNNによる人物行動認識の動向3D CNNによる人物行動認識の動向
3D CNNによる人物行動認識の動向
 
動画認識における代表的なモデル・データセット(メタサーベイ)
動画認識における代表的なモデル・データセット(メタサーベイ)動画認識における代表的なモデル・データセット(メタサーベイ)
動画認識における代表的なモデル・データセット(メタサーベイ)
 
「解説資料」VideoMix: Rethinking Data Augmentation for Video Classification
「解説資料」VideoMix: Rethinking Data Augmentation for  Video Classification「解説資料」VideoMix: Rethinking Data Augmentation for  Video Classification
「解説資料」VideoMix: Rethinking Data Augmentation for Video Classification
 
動画像理解のための深層学習アプローチ
動画像理解のための深層学習アプローチ動画像理解のための深層学習アプローチ
動画像理解のための深層学習アプローチ
 
AV 画像認識とその周辺 - UT Startup Gym 講演資料
AV 画像認識とその周辺 - UT Startup Gym 講演資料AV 画像認識とその周辺 - UT Startup Gym 講演資料
AV 画像認識とその周辺 - UT Startup Gym 講演資料
 
Semantic segmentation2
Semantic segmentation2Semantic segmentation2
Semantic segmentation2
 
201209 Biopackathon 12th
201209 Biopackathon 12th201209 Biopackathon 12th
201209 Biopackathon 12th
 
20201010 personreid
20201010 personreid20201010 personreid
20201010 personreid
 
ディープラーニングでおそ松さんの6つ子は見分けられるのか? FIT2016
ディープラーニングでおそ松さんの6つ子は見分けられるのか? FIT2016ディープラーニングでおそ松さんの6つ子は見分けられるのか? FIT2016
ディープラーニングでおそ松さんの6つ子は見分けられるのか? FIT2016
 
object detection with lidar-camera fusion: survey
object detection with lidar-camera fusion: surveyobject detection with lidar-camera fusion: survey
object detection with lidar-camera fusion: survey
 
TERAS Conference
TERAS ConferenceTERAS Conference
TERAS Conference
 
ヘルスケア領域でのDeep Learnigの動向
ヘルスケア領域でのDeep Learnigの動向ヘルスケア領域でのDeep Learnigの動向
ヘルスケア領域でのDeep Learnigの動向
 
CNTK deep dive
CNTK deep diveCNTK deep dive
CNTK deep dive
 
文献紹介:Selective Feature Compression for Efficient Activity Recognition Inference
文献紹介:Selective Feature Compression for Efficient Activity Recognition Inference文献紹介:Selective Feature Compression for Efficient Activity Recognition Inference
文献紹介:Selective Feature Compression for Efficient Activity Recognition Inference
 
実社会・実環境におけるロボットの機械学習 ver. 2
実社会・実環境におけるロボットの機械学習 ver. 2実社会・実環境におけるロボットの機械学習 ver. 2
実社会・実環境におけるロボットの機械学習 ver. 2
 
【CVPR 2019】Learning spatio temporal representation with local and global diff...
【CVPR 2019】Learning spatio temporal representation with local and global diff...【CVPR 2019】Learning spatio temporal representation with local and global diff...
【CVPR 2019】Learning spatio temporal representation with local and global diff...
 
B3スタートアップ コンピュータビジョンの現在と未来にやるべきこと(東京電機大学講演)
B3スタートアップ コンピュータビジョンの現在と未来にやるべきこと(東京電機大学講演)B3スタートアップ コンピュータビジョンの現在と未来にやるべきこと(東京電機大学講演)
B3スタートアップ コンピュータビジョンの現在と未来にやるべきこと(東京電機大学講演)
 
211104 Bioc Asia workshop
211104 Bioc Asia workshop211104 Bioc Asia workshop
211104 Bioc Asia workshop
 
データ駆動型実世界計測における最適センサ配置提示システムの開発(SIG-DeMO研究会)
データ駆動型実世界計測における最適センサ配置提示システムの開発(SIG-DeMO研究会)データ駆動型実世界計測における最適センサ配置提示システムの開発(SIG-DeMO研究会)
データ駆動型実世界計測における最適センサ配置提示システムの開発(SIG-DeMO研究会)
 
機械学習応用システムの開発技術 (機械学習工学) の現状と今後の展望
機械学習応用システムの開発技術(機械学習工学)の現状と今後の展望機械学習応用システムの開発技術(機械学習工学)の現状と今後の展望
機械学習応用システムの開発技術 (機械学習工学) の現状と今後の展望
 

【2017.06】 cvpaper.challenge 2017

  • 2. Will Kay, Joao Carreira, Karen Simonyan, Brian Zhang, Chloe Hillier, Sudheendra Vijayanarasimhan, Fabio Viola, Tim Green, Trevor Back, Paul Natsev, Mustafa Suleyman, “The Kinetics Human Action Video Dataset”, in arXiv 1705.05950, 2017. 【1】 Keywords: Kinetics Human Action Video Dataset, Action Recognition 新規性・差分 概要 ⼈物⾏動認識に関して⼤規模かつ(クロスチェックにより)クリーンな データセットであるKinetics Human Action Video Datasetを提案し た。ビデオ数は30万、各カテゴリ最低でも400動画(~最⼤1000動画) を含んでいる。右の各データセットとの⽐較表では⾏動カテゴリ数の増 加やビデオ数の増加が確認できる。データセットはStep1: YouTubeか らワード検索により抽出、Step2: 時系列位置を指定、Step3: AMTによ りラベリング(ラベル付けについては右図参照)、Step4: ノイズやあ いまい性を除去。ベンチマークとして、データセットに対してCNN +LSTM, Two-Stream CNN, 3D ConvNetを実⾏した。 ・動画像認識版のImageNetを⽬指して⼤規模・校正され たデータセットを提案した ・3D Conv.のPre-trainedモデルとしても効果を発揮する Links 論⽂ https://arxiv.org/ pdf/1705.06950.pdf プロジェクト https:// deepmind.com/ research/open- source/open-source- datasets/kinetics/ 2
  • 3. Joao Carreira, Andrew Zisserman, “Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset”, in CVPR, 2017. 【2】 Keywords: Kinetics Human Dataset 新規性・差分 概要 Kinetics Human Datasetを⽤いた⾏動認識の研究。同時 にRGBやOpticalFlowの2つのモダリティを⼊⼒とする Two-Stream C3Dを提案して、xytの3Dカーネルの学習 もより⾼いレベルで実現させている。 2Dカーネルから3Dカーネルへの膨張(Inflated Inception-v1)、Two-Streamへの拡張(e, Two- stream 3D-convnet)は右図に⽰されている。 ・3DConvolutionの学習を成功させるためにImageNetの 2Dカーネルのパラメータを適⽤、Two-StreamCNNのモ デルを採⽤した ・Kinetics Datasetを⽤いた学習済みモデルは転移学習に も有効であることが判明した Links 論⽂ https://arxiv.org/pdf/1705.07750.pdf プロジェクト 3
  • 4. Kevin Matzen, Kavita Bala, Noah Snavely, “StreetStyle: Exploring world-wide clothing styles from millions of photos”, in arXiv 1706.01869, 2017. 【3】 Keywords: Fashion Snap, World-wide Image Search 新規性・差分 概要 世界的なファッションスナップを検索するための研究である。検索のため、 ファッション属性を推定し、スタイルの特徴を学習する。 (1)画像はSocial Mediaから抽出した (2)ファッション属性に関するラベルが付与されたStreetStyle-27Kを新 規に提案、27,000枚の画像を含む (3)DNNの⼿法として提案データセットにて属性を学習、教師なし学習 により視覚的相関を学習。 ・ファッション属性を推定するためのStreetStyle27K データセットを提案 ・膨⼤な(Millions of photos)画像から特徴を学習でき る ・例えばスカーフの仕様についての解析が時系列で可能と なる Links 論⽂ https://arxiv.org/pdf/1706.01869.pdf プロジェクト 4
  • 5. Hong Liu, Juanhui Tu, Mengyuan Liu, “Two-Stream 3D Convolutional Neural Network for Human Skeleton-Based Action Recognition”, in arXiv 1705.08106, 2017. 【4】 Keywords: Two-Stream 3D ConvNet, Skeleton 新規性・差分 概要 Links 論⽂ https://arxiv.org/ftp/arxiv/ papers/1705/1705.08106.pdf プロジェクト Two-Stream 3D Convolutional Networks をスケルトン の⼊⼒に対して⾏った。最初にスケルトンを3Dにマッピ ングして⼊⼒とする、次に3D CNNを⽤いてふたるのモダ リティから特徴を抽出、スケルトン間のグローバルな位置 関係を記述する。SmartHome/ NTU RGB-D datasetに てRNNをベースとした⼿法と⽐較した。右図はSpatial/ Temporalのモダリティであり、下図はネットワーク構 成。 ・姿勢を⼊⼒としたTwo-Stream 3D CNNを提案した ・NTU RGBD, SmartHomeにて良好な結 果を実現 5
  • 6. Oluwatobi Olabiyi, Eric Martinson, Vijay Chintalapudi, Rui Guo, “Driver Action Prediction Using Deep (Bidirectional) Recurrent Neural Network”, in ITSC, 2017. 【5】 Keywords: ADAS, Driver Action Prediction, RNN 新規性・差分 概要 マルチモーダルなセンサの⼊⼒からBi-directional なRNN(DBRN)によりドライバーの⾏動を予測 した。加速、ブレーキ、レーンチャンジ、ターン などのドライバ⾏動を5秒前から予測することに成 功した。 右図はシステム構成図。マルチセンサ(Face/ Hand/Outiside Camera, GPS, CAN)から特徴抽 出、Bi-directional Recurrent Netにより⾏動予 測。 ・DBRNによりマルチセンサの情報を解析してドラ イバーの⾏動を約5秒前に予測可能とした ・従来の予測モデルよりも素早く、⾼精度な予測を 実現した(右図によるとDBRNを⽤いて5秒前に約 80%の確率で予測可能) Links 論⽂ https://arxiv.org/ftp/arxiv/papers/1706/1706.02257.pdf プロジェクト 6
  • 7. Charles R. Qi, Hao Su, Kaichun Mo, Lenidas J. Guibas, “PointNet: Deep Learning on Point Sets for 3D Classification and Segmentation”, in CVPR, 2017. (oral) 【6】 Keywords: PointCloud, PointNet 新規性・差分 概要 点群(PointCloud)を直接畳み込むことができるPointNetを提案。PointNetでは 3次元認識、特に識別・パーツ分割・セマンティックセグメンテーションを⾏うこ とができる。(右下図)アーキテクチャのキーとなるのはMaxPoolにおける Symmetric Functionであり、重要もしくは情報を多く含んでいる点群情報を選択 して学習を⾏った。識別やセグメンテーションと⽤途に合わせてアーキテクチャ の出⼒(や途中処理)を変更した。Input/Feature Transformationを⾏い、 MaxPoolingにより効果的に点群を表現する特徴を取得する。Multi-layer perception (mlp)の数字は層の数を表現している。全層のReLUにはBatchNorm が⾏われている。 ・点群を直接的に処理可能なPointNetをを提案し、識別・ パーツ分割・セマンティックセグメンテーションに応⽤可 能とした Links 論⽂ https://arxiv.org/pdf/1612.00593.pdf プロジェクト http://stanford.edu/~rqi/pointnet/ コード https://github.com/charlesq34/pointnet 7
  • 8. Jiawei He, Mostafa S. Ibrahim, Zhiwei Deng, Greg Mori, “Generic Tubelet Proposals for Action Localization”, in arXiv, 2017. 【7】 Keywords: Tubelet Proposal, Action Localization 新規性・差分 概要 動画の中でいかに対象となる⼈物⾏動の時間幅・位置・⾏動ラベル (t_start, t_end, x, y, action)を推定するかというTubelet Proposalsに関する論⽂。⼿法(右下図)はRGBやFlow画像のTwo- Streamの⼊⼒からFaster R-CNN (Region Proposal Net)により候 補領域を抽出、RGB/Flowの情報を統合して判断するためにLinking Layerを提案、ProposalからはMulti-LSTMや統合により総合的に判 断してTubeletを推定する。 ・Tubelet (Proposal)を推定する課題においてstate- of-the-artな性能を出す⼿法TUN, TPNを提案した ・Two-Stream, RPN, LSTMを統合したアーキテク チャになっていて、シンプルな実装が可能? Links 論⽂ https://arxiv.org/pdf/1705.10861.pdf プロジェクト 8
  • 9. Johann, Abhilash, “Weakly Supervisd Affordance Detection”, in CVPR, 2017. 【8】 Keywords: weakly supervised, object affordance 新規性・差分 概要 ・object affordance推定のデータセットと弱教師あり学習によ る推定⼿法の提案 ・周囲とのコンテキストを考慮したaffordanceの教師を得るた めにCAD120データセットの⼀部の画像にピクセルごとのアノ テーションをし、新たなデータセットを提案 ・そのデータセットにおいてキーポイント(画像内のある1ピク セル)のみのアノテーションを⽤いて画像全体の1ピクセルごと のマルチクラスなアフォーダンス推定を⾏う ・CAD120における9916の物体についてアフォーダンスを付与 したデータセットの提案 ・最初にキーポイントによって学習したCNNの訓練データに対 する出⼒にGrab-cutを施してよりrefineし、それを訓練データ として再度⽤いて学習を⾏う ・F値, IoUの評価によって、Grab-cutを⽤いたデータによる再 学習を⾏った⽅が良い結果となった。 Links 論⽂ http://pages.iai.uni-bonn.de/gall_juergen/ download/jgall_affordancedetection_cvpr17.pdf プロジェクト 9
  • 10. David Bau, Bolei Zhou, Aditya Khosla, Aude Oliva, Antonio Torralba, “Network Dissection: Quantifying Interpretability of Deep Visual Representations”, in CVPR, 2017. (oral) 【9】 Keywords: Network Dissection, Latent Representation 新規性・差分 概要 Network Dissectionと呼ばれる、CNNの隠れ層の特徴評価や意味的概念を学習するためのネッ トワークを提案する。それぞれ異なるデータセットからどのような概念(e.g. objects, parts, scenes, textures, materials, colors)を学習したのかを知ることで深層学習を理解すること に挑戦した。教師あり/なし学習、学習回数、初期値の違い、層の深さや幅、ドロップアウトや バッチ正規化などについても詳細に検討した。この疑問を明確にするためにBroadly and Densely Labeled Dataset (Broaden)を提案した。BroadenはADE, Open-Surfaces, Pascal- Context, Pascal-Partなどから構成される。テストを⾏ったネットワークは右の通りであり、 学習なし/教師あり/教師なしによりテストを⾏った。 ・CNNの解釈可能性について評価した。 ・教師あり/なし学習、学習回数、初期値の違 い、層の深さや幅、ドロップアウトやバッチ 正規化などについて詳細な実験によりCNNが 学習でどのような⾒えを学習するかを明らか にした。 Links 論⽂ http://netdissect.csail.mit.edu/ final-network-dissection.pdf プロジェクト http://netdissect.csail.mit.edu/ コード https://github.com/CSAILVision/ NetDissect
  • 11. Yusuf Aytar, Carl Vndric, Antonio Torralba, “See, Hear, and Read: Deep Aligned Representations”, in arxiv, 2017. 【10】 Keywords: Cross-modal, Aligned Representations 新規性・差分 概要 画像, ⾳声, テキストを⽤いたcross-modalなCNNの提案。モデルと しては, それぞれのmodalを⼊⼒とするseparateなCNNとそれらの 出⼒を⼊⼒とするshared NN(modalに関わらず共有)を組み合わせ たものである。学習では, imagenet学習済みモデルを教師モデルと してその出⼒とのKLダイバージェンスとshared NNの特徴のmodal 間におけるcosine similarity の最⼩化が⾏われる。データとしては, 画像と⾳声, 画像とテキストで対応付けられたものを既存のデータ セットに⼿を加えて作成している。 ・各modalのcosine similarityを元にcross modal retribal を⾏い既存 ⼿法と⽐較して⾼い精度を達成した。 ・学習後の提案モデルから得られる特徴量(aligned representation)を ⼊⼒とするSVMを⽤いてカテゴリ分類のタスクを⾏った。この際, train とtestで異なるmodalを⼊⼒としても既存⼿法と⽐較して良好な結果が 得られた。これから, modal間で関連の深いものを結びつけるように特 徴量が学習されているという考察をしている。 ・shared NNの最終層の出⼒を可視化した結果, modal間で連想される ⼊⼒を得たときは, 同じようなニューロンに強い反応が出ていることが か確認できた Links 論⽂ http://netdissect.csail.mit.edu/ final-network-dissection.pdf