【2017.06】 cvpaper.challenge 2017

cvpaper.challenge

Twitter@CVPaperChalleng
http://www.slideshare.net/cvpaperchallenge
MAILTO: cvpaper.challenge[at]gmail[dot]com

Will Kay, Joao Carreira, Karen Simonyan, Brian Zhang, Chloe Hillier, Sudheendra
Vijayanarasimhan, Fabio Viola, Tim Green, Trevor Back, Paul Natsev, Mustafa Suleyman, “The
Kinetics Human Action Video Dataset”, in arXiv 1705.05950, 2017.
【1】
Keywords: Kinetics Human Action Video Dataset, Action Recognition
新規性・差分
概要
⼈物⾏動認識に関して⼤規模かつ（クロスチェックにより）クリーンな
データセットであるKinetics Human Action Video Datasetを提案し
た。ビデオ数は30万、各カテゴリ最低でも400動画（~最⼤1000動画）
を含んでいる。右の各データセットとの⽐較表では⾏動カテゴリ数の増
加やビデオ数の増加が確認できる。データセットはStep1: YouTubeか
らワード検索により抽出、Step2: 時系列位置を指定、Step3: AMTによ
りラベリング（ラベル付けについては右図参照）、Step4: ノイズやあ
いまい性を除去。ベンチマークとして、データセットに対してCNN
+LSTM, Two-Stream CNN, 3D ConvNetを実⾏した。
・動画像認識版のImageNetを⽬指して⼤規模・校正され
たデータセットを提案した
・3D Conv.のPre-trainedモデルとしても効果を発揮する
Links
論⽂
https://arxiv.org/
pdf/1705.06950.pdf
プロジェクト
https://
deepmind.com/
research/open-
source/open-source-
datasets/kinetics/
2

Joao Carreira, Andrew Zisserman, “Quo Vadis, Action Recognition? A New Model and the
Kinetics Dataset”, in CVPR, 2017.
【2】
Keywords: Kinetics Human Dataset
新規性・差分
概要
Kinetics Human Datasetを⽤いた⾏動認識の研究。同時
にRGBやOpticalFlowの２つのモダリティを⼊⼒とする
Two-Stream C3Dを提案して、xytの3Dカーネルの学習
もより⾼いレベルで実現させている。
2Dカーネルから3Dカーネルへの膨張（Inﬂated
Inception-v1）、Two-Streamへの拡張（e, Two-
stream 3D-convnet）は右図に⽰されている。
・3DConvolutionの学習を成功させるためにImageNetの
2Dカーネルのパラメータを適⽤、Two-StreamCNNのモ
デルを採⽤した
・Kinetics Datasetを⽤いた学習済みモデルは転移学習に
も有効であることが判明した
Links
論⽂ https://arxiv.org/pdf/1705.07750.pdf
プロジェクト
3

Kevin Matzen, Kavita Bala, Noah Snavely, “StreetStyle: Exploring world-wide clothing styles
from millions of photos”, in arXiv 1706.01869, 2017.
【3】
Keywords: Fashion Snap, World-wide Image Search
新規性・差分
概要
世界的なファッションスナップを検索するための研究である。検索のため、
ファッション属性を推定し、スタイルの特徴を学習する。
（１）画像はSocial Mediaから抽出した
（２）ファッション属性に関するラベルが付与されたStreetStyle-27Kを新
規に提案、27,000枚の画像を含む
（３）DNNの⼿法として提案データセットにて属性を学習、教師なし学習
により視覚的相関を学習。
・ファッション属性を推定するためのStreetStyle27K
データセットを提案
・膨⼤な（Millions of photos）画像から特徴を学習でき
る
・例えばスカーフの仕様についての解析が時系列で可能と
なる
Links
プロジェクト
4

Hong Liu, Juanhui Tu, Mengyuan Liu, “Two-Stream 3D Convolutional Neural Network for
Human Skeleton-Based Action Recognition”, in arXiv 1705.08106, 2017.
【4】
Keywords: Two-Stream 3D ConvNet, Skeleton
新規性・差分
概要
Links
論⽂
https://arxiv.org/ftp/arxiv/
papers/1705/1705.08106.pdf
プロジェクト
Two-Stream 3D Convolutional Networks をスケルトン
の⼊⼒に対して⾏った。最初にスケルトンを3Dにマッピ
ングして⼊⼒とする、次に3D CNNを⽤いてふたるのモダ
リティから特徴を抽出、スケルトン間のグローバルな位置
関係を記述する。SmartHome/ NTU RGB-D datasetに
てRNNをベースとした⼿法と⽐較した。右図はSpatial/
Temporalのモダリティであり、下図はネットワーク構
成。
・姿勢を⼊⼒としたTwo-Stream 3D
CNNを提案した
・NTU RGBD, SmartHomeにて良好な結
果を実現
5

Oluwatobi Olabiyi, Eric Martinson, Vijay Chintalapudi, Rui Guo, “Driver Action Prediction Using
Deep (Bidirectional) Recurrent Neural Network”, in ITSC, 2017.
【5】
Keywords: ADAS, Driver Action Prediction, RNN
新規性・差分
概要
マルチモーダルなセンサの⼊⼒からBi-directional
なRNN（DBRN）によりドライバーの⾏動を予測
した。加速、ブレーキ、レーンチャンジ、ターン
などのドライバ⾏動を5秒前から予測することに成
功した。
右図はシステム構成図。マルチセンサ（Face/
Hand/Outiside Camera, GPS, CAN）から特徴抽
出、Bi-directional Recurrent Netにより⾏動予
測。
・DBRNによりマルチセンサの情報を解析してドラ
イバーの⾏動を約5秒前に予測可能とした
・従来の予測モデルよりも素早く、⾼精度な予測を
実現した（右図によるとDBRNを⽤いて５秒前に約
80%の確率で予測可能）
Links
論⽂
https://arxiv.org/ftp/arxiv/papers/1706/1706.02257.pdf
プロジェクト
6

Charles R. Qi, Hao Su, Kaichun Mo, Lenidas J. Guibas, “PointNet: Deep Learning on Point Sets
for 3D Classiﬁcation and Segmentation”, in CVPR, 2017. (oral)
【6】
Keywords: PointCloud, PointNet
新規性・差分
概要
点群（PointCloud）を直接畳み込むことができるPointNetを提案。PointNetでは
3次元認識、特に識別・パーツ分割・セマンティックセグメンテーションを⾏うこ
とができる。（右下図）アーキテクチャのキーとなるのはMaxPoolにおける
Symmetric Functionであり、重要もしくは情報を多く含んでいる点群情報を選択
して学習を⾏った。識別やセグメンテーションと⽤途に合わせてアーキテクチャ
の出⼒（や途中処理）を変更した。Input/Feature Transformationを⾏い、
MaxPoolingにより効果的に点群を表現する特徴を取得する。Multi-layer
perception (mlp)の数字は層の数を表現している。全層のReLUにはBatchNorm
が⾏われている。
・点群を直接的に処理可能なPointNetをを提案し、識別・
パーツ分割・セマンティックセグメンテーションに応⽤可
能とした
Links
プロジェクト http://stanford.edu/~rqi/pointnet/
コード https://github.com/charlesq34/pointnet
7

Jiawei He, Mostafa S. Ibrahim, Zhiwei Deng, Greg Mori, “Generic Tubelet Proposals for Action
Localization”, in arXiv, 2017.
【7】
Keywords: Tubelet Proposal, Action Localization
新規性・差分
概要
動画の中でいかに対象となる⼈物⾏動の時間幅・位置・⾏動ラベル
（t_start, t_end, x, y, action）を推定するかというTubelet
Proposalsに関する論⽂。⼿法（右下図）はRGBやFlow画像のTwo-
Streamの⼊⼒からFaster R-CNN (Region Proposal Net)により候
補領域を抽出、RGB/Flowの情報を統合して判断するためにLinking
Layerを提案、ProposalからはMulti-LSTMや統合により総合的に判
断してTubeletを推定する。
・Tubelet (Proposal)を推定する課題においてstate-
of-the-artな性能を出す⼿法TUN, TPNを提案した
・Two-Stream, RPN, LSTMを統合したアーキテク
チャになっていて、シンプルな実装が可能？
Links
プロジェクト
8

Johann, Abhilash, “Weakly Supervisd Affordance Detection”, in CVPR, 2017.
【8】
Keywords: weakly supervised, object affordance
新規性・差分
概要
・object affordance推定のデータセットと弱教師あり学習によ
る推定⼿法の提案
・周囲とのコンテキストを考慮したaffordanceの教師を得るた
めにCAD120データセットの⼀部の画像にピクセルごとのアノ
テーションをし、新たなデータセットを提案
・そのデータセットにおいてキーポイント(画像内のある1ピク
セル)のみのアノテーションを⽤いて画像全体の1ピクセルごと
のマルチクラスなアフォーダンス推定を⾏う
・CAD120における9916の物体についてアフォーダンスを付与
したデータセットの提案
・最初にキーポイントによって学習したCNNの訓練データに対
する出⼒にGrab-cutを施してよりrefineし、それを訓練データ
として再度⽤いて学習を⾏う
・F値, IoUの評価によって、Grab-cutを⽤いたデータによる再
学習を⾏った⽅が良い結果となった。
Links
論⽂
http://pages.iai.uni-bonn.de/gall_juergen/
download/jgall_affordancedetection_cvpr17.pdf
プロジェクト
9

David Bau, Bolei Zhou, Aditya Khosla, Aude Oliva, Antonio Torralba, “Network Dissection:
Quantifying Interpretability of Deep Visual Representations”, in CVPR, 2017. (oral)
【9】
Keywords: Network Dissection, Latent Representation
新規性・差分
概要
Network Dissectionと呼ばれる、CNNの隠れ層の特徴評価や意味的概念を学習するためのネッ
トワークを提案する。それぞれ異なるデータセットからどのような概念（e.g. objects, parts,
scenes, textures, materials, colors）を学習したのかを知ることで深層学習を理解すること
に挑戦した。教師あり/なし学習、学習回数、初期値の違い、層の深さや幅、ドロップアウトや
バッチ正規化などについても詳細に検討した。この疑問を明確にするためにBroadly and
Densely Labeled Dataset (Broaden)を提案した。BroadenはADE, Open-Surfaces, Pascal-
Context, Pascal-Partなどから構成される。テストを⾏ったネットワークは右の通りであり、
学習なし/教師あり/教師なしによりテストを⾏った。
・CNNの解釈可能性について評価した。
・教師あり/なし学習、学習回数、初期値の違
い、層の深さや幅、ドロップアウトやバッチ
正規化などについて詳細な実験によりCNNが
学習でどのような⾒えを学習するかを明らか
にした。
Links
論⽂
http://netdissect.csail.mit.edu/
ﬁnal-network-dissection.pdf
プロジェクト
コード
https://github.com/CSAILVision/
NetDissect

Yusuf Aytar, Carl Vndric, Antonio Torralba, “See, Hear, and Read: Deep Aligned
Representations”, in arxiv, 2017.
【10】
Keywords: Cross-modal, Aligned Representations
新規性・差分
概要
画像, ⾳声, テキストを⽤いたcross-modalなCNNの提案。モデルと
しては, それぞれのmodalを⼊⼒とするseparateなCNNとそれらの
出⼒を⼊⼒とするshared NN(modalに関わらず共有)を組み合わせ
たものである。学習では, imagenet学習済みモデルを教師モデルと
してその出⼒とのKLダイバージェンスとshared NNの特徴のmodal
間におけるcosine similarity の最⼩化が⾏われる。データとしては,
画像と⾳声, 画像とテキストで対応付けられたものを既存のデータ
セットに⼿を加えて作成している。
・各modalのcosine similarityを元にcross modal retribal を⾏い既存
⼿法と⽐較して⾼い精度を達成した。
・学習後の提案モデルから得られる特徴量(aligned representation)を
⼊⼒とするSVMを⽤いてカテゴリ分類のタスクを⾏った。この際, train
とtestで異なるmodalを⼊⼒としても既存⼿法と⽐較して良好な結果が
得られた。これから, modal間で関連の深いものを結びつけるように特
徴量が学習されているという考察をしている。
・shared NNの最終層の出⼒を可視化した結果, modal間で連想される
⼊⼒を得たときは, 同じようなニューロンに強い反応が出ていることが
か確認できた
Links
論⽂
ﬁnal-network-dissection.pdf

ご質問・コメント等ありましたら，cvpaper.challenge@gmail.com / Twitter@CVPaperChallengまでお願いします．

【2017.06】 cvpaper.challenge 2017

Recomendados

Recomendados

Mais conteúdo relacionado

Mais procurados

Mais procurados (20)

Destaque

Destaque (6)

Semelhante a 【2017.06】 cvpaper.challenge 2017

Semelhante a 【2017.06】 cvpaper.challenge 2017 (20)

【2017.06】 cvpaper.challenge 2017