【2016.01】(3/3)cvpaper.challenge2016

cvpaper.challenge
Twitter@CVPaperChalleng
http://www.slideshare.net/cvpaperchallenge
MAILTO: cvpaper.challenge[at]gmail[dot]com

Matteo Ruggero Ronchi, Pietro Perona, “Describing Common Human Visual Actions in Images”, in BMVC,
2015.
【91】
Keywords: Human Action, MS COCO-a dataset, Image Description
新規性・差分
手法
結果
概要
マイクロソフトが提供する画像説明文のMS COCO dataset，特
に行動に特化したCOCO-a (action)として人物の行動が表現で
きるように改善した．
・収集したデータから，行動がどのように起きたのか
を推定できる．Visual VerbNet (VVN)も提案して140の
行動を検出できるようにした
・大規模かつアノテーションが付加された行動データ
セットを提案
(1)  VerbNetによる行動をMS COCO内にて解析する．
(2)  画像内にてどの人物がその行動を行っているかを解析する．サイズによ
らず，すべての人物，物体とのインタラクションを含めて検出可能であ
る．
(3)  Amazon Mechanical Turkによりコンセンサスが取れたものをアノテーショ
ン結果として採用．
(4)  感情や姿勢，空間的な関係性や距離などを考慮し，各行動や物体との
インタラクションを記述する．
データセットには行動とそれに関
連する要素を含んでいる．例えば
communication，contact，
nutrition，perception，social，
objects．また，位置関係において
もin-front-of, behind, right of,
aboveなど詳細なタグ付けに成功
した．
Links
論文 http://arxiv.org/pdf/1506.02203v1.pdf
プロジェクト(データセットあり)
http://www.vision.caltech.edu/~mronchi/projects/
Cocoa/

Varun K. Nagaraja, Vlad I. Morariu, Larry S. Davis, “Searching for Objects using Structure in Indoor Scenes”, in
BMVC, 2015.
【92】
Keywords: Object Search, Indoor scenes, Region Proposal
新規性・差分
手法
結果
概要
屋内環境において，物体検索を効率化する研究．屋内環境の
構造から，物体の候補領域を提案する．
ベッドやソファなどの候補に対して20-25%の処理で高精度な領
域推定を実行した．
物体候補領域からのランク付けにより探索領域を決定する．探索にはMarkov
Decision Process (MDP)を用いる．
Links
http://www.umiacs.umd.edu/~morariu/publications/
NagarajaObjectSearchingBMVC15_Supplementary.pdf

Vincent Lui, Dinesh Gamage, Tom Drummond, “Fast Inverse Compositional Image Alignment with Missing Data
and Re-weighting”, in BMVC, 2015.
【93】
Keywords: Image Alignment, Inverse Compositional (IC), Efficient Second-order Minimization (ESM)
新規性・差分
手法
結果
概要
Inverse Compositional (IC)やEfficient Second-order
Minimization (ESM)の手法を，さらに外れ値に頑健な画像復元
を行うことが目的である．特に，重み付けの値を更新することで
欠損に頑健な復元手法を考案する．
・従来のICアルゴリズムは繰り返しのたびにJacobianやHessian
行列の計算が必要である．これを，再計算が必要ないアルゴリ
ズムにすることで効率化を図る
・画像のノイズやアライメントなどに対応している
下図に手法を示す．欠損データがある場合にも重み付け値の更新をする．Factor
QからMatrix hat(Q)にすることで欠損領域を把握する．P^{-1}hat(Q^{T})hat(Q)をで
きる限り参照画像Iに近づけることにより復元の精度を高くする．
Links
論文
http://www.bmva.org/bmvc/2015/papers/paper054/index.html
プロジェクト(コードあり) https://bitbucket.org/whvlui/fast_ic/

【94】
新規性・差分
手法
結果
概要
顔画像から正確な年齢や年齢域を推定する論文．3層構成の
DeepRank+を用いて人物の顔画像から年齢を推定する．
・ランキングベースの方法は簡易的に構成可能でスケールアッ
プが自由である
・Deep Ranking Modelは一般化されており，表情変動があった
としても推定が可能
・大規模なデータベースから学習されていて，High-levelな顔表
現が可能である
提案のDeepRanki+はScatNetをベースとした3段構成(下図)であり，Principal
Component Analysis (PCA)を用いて次元圧縮を行い全結合層へ接続する．なお，
ScatNetは3層，全結合層も3層である．
ここでは，入力画像からScatNetへ，さらには特徴をPCAにより圧縮，最後に全結
合層を通り抜ける．全結合層の要素数は500-1024-N (=年齢のクラス数)である．
表は年齢推定の結果であ
る．正確な年齢推定の誤差と
レンジの推定率が示されてい
る．また，年齢だけでなく感情
推定においても高精度な推
定を実現した．
Links
論文
http://www.iis.sinica.edu.tw/pages/song/
publications_en.html
ポスター
http://www.iis.sinica.edu.tw/~kuangyu/
BMVC2015_Poster.pdf
プロジェクト
Keywords: Age Estimation, Face Recognition, Deep Ranking+
Huei-Fang Yang, Bo-Yao Lin, Kuang-Yu Chang, Chu-Song Chen, “Automatic Age Estimation from Face Images
via Deep Ranking”, in BMVC, 2015.

Federico A. Limberger, Richard C. Wilson, “Feature Encoding of Spectral Signatures for 3D Non-Rigid Shape
Retrieval”, in BMVC, 2015.
【95】
Keywords: Encoding,
新規性・差分
手法
結果
概要
スペクトラル特徴エンコード + Fisher Vector (FV)/Super
Vectorの手法を3次元形状解析に用い，Wave Kernel Signature
(WKS)の効率的な計算を提案した．
・WKSに対して複数の改良を施している．スケーリング問題に
対してはLaplace-Beltramiオペレータを，また曲率の効率的な
再現に対してもアップデートした．
1.  Isometry-invariant (長さの変化に対して頑健)な特徴記述であり，多少の
形状変化や傾きがあった場合でもマッチングが可能
2.  Multi-level signature (複数のレベルに対して有効)．Fisher Vectorや記述
方法の使用により高次特徴もカバー．

WKSに対して2つの拡張，つながりの考慮やLaplacian Matrix Propertyによるゼロ
値の除去があげられる．
SHREC’11/’15のデータセットに対して処理を行い，提案手法が最高性能を達成し
たと主張．表は’15に対しての数値．
Links
論文
https://www.researchgate.net/publication/
282287389_Feature_Encoding_of_Spectral_Signatures_for_3D_Non-
Rigid_Shape_Retrieval

Keywords: Change Detection, CNN Feature, Superpixel, Geometry Context
新規性・差分
手法
結果
概要
東日本大震災時の建物の変化を捉えるチャレンジ．CNN特徴
も導入した．
CNNによる自動学習特徴のみならず，superpixelやグリッド毎
の評価により詳細に変化を捉えることに成功した．
下図はCNN特徴，superpixelとGeometric Contextによる変化検出．グリッド毎
のCNN特徴量評価だけでなく，superpixelの評価により密に変化を捉える．さら
には幾何的な変化度合いも考慮することにより空の変化やその他変動が激し
い部分においても抑制し，意図した変化を捉えることに成功した．
データセットTSUNAMIにて，VGGNetのpool5特徴が0.75(F1-score)で理解
しており，比較に用いたDense SIFTの0.24を大きく上回った．
Ken Sakurada, Takayuki Okatani, “Change Detection from a Street Image Pair using CNN Features and
Superpixel Segmentation”, in BMVC, 2015.
【96】
Links
論文 http://bmvc2015.swansea.ac.uk/proceedings/papers/paper061/paper061.pdf
概要 http://bmvc2015.swansea.ac.uk/proceedings/papers/paper061/abstract061.pdf
データセット
http://www.vision.is.tohoku.ac.jp/us/research/4d_city_modeling/chg_dataset/

Keywords: Tennis Description, Dense Trajectories
新規性・差分
手法
結果
概要
テニスの試合動画の説明文生成．ドメイン特化により，詳細な
説明文を生成できると主張．
単なる説明ではなく，解説風に生成文を与えることができてい
る．
与えられたビデオから，背景差分+HOGにより選手の検出，dense trajectoires
により2人の選手の行動を認識して動詞に変換する．動詞が認識されると，ス
ライディングウィンドウにより画像全体を評価するが，NMSにより重要度が低い
と思われるものは除去される．Markov Random Field (MRF)によりフレーズの依
存関係を探り生成文作成に寄与する．さらにはLatent Semantic Indexing (LSI)
によりマッチングも行う．
BLEUのスコア値について，従来手法よりも高い性能を示した．表は比較
結果である．
Mohak Sukhwani, CV Jawahar, “TennisVid2Text: Fine-grained Descriptors for Domain Specific Videos”, in
BMVC, 2015.
【97】
Links
論文
http://bmvc2015.swansea.ac.uk/proceedings/papers/
paper117/index.html
プロジェクト

Max Jaderberg, Karen Simonyan, Andrea Vedaldi, Andrew Zisserman, “Reading Text in the Wild with
Convolutional Neural Networks”, in IJCV, 2015.
【98】
Keywords: Text Detection, R-CNN
新規性・差分
手法
概要
物体検出R-CNNの文字検出版．文字の候補領域を抽出した
後にCNN特徴により文字検出を実行する．自然なシーンからの
文字検出は背景の複雑さやフォントのバリエーションなどから
非常に難しい課題である．
文字検出の最先端のモデルを構築したことが新規性として挙
げられる．辞書に登録されている単語の数は90Kを超える．ラ
ベル付けの労力を減らしたことも．
システム構成は左下図に示されている通りである．(a)最初に文字の候補領域を抽
出する (b)候補領域をフィルタリング (c) (DPMやR-CNNにも適用されてい
る)BoundingBox Regressionにより，位置を微調整 (d)CNNにより認識 (e)複数の認
識結果を統合とランク付け，(f)最終的な検出結果を得る．文字とその領域を抽出
可能．
・文字候補領域の抽出はEdgeBoxes [Zitnick+, ECCV2014]という手法やAggregate
Channel Feature (ACF) [Dollar+, PAMI2014]によるが，領域に対してスケールやア
スペクト比を評価．(ちなみにObjectnessのBINGではオーバーラップに対するRecall
率が良くなかった)EdgeBoxesとACFの組み合わせによりRecallが98%となった．
・フィルタリングにはRandomForest+HOG識別器により，文字か非文字かを2値判
定．
・トレーニングデータはICDAR，Street View Text (SVT)，IIIT-5kなど複数データ
セットを統合して学習した．さらには，フォントの種類や各種の変換など(フォント，
影，カラーリング，投影変換，自然データ混合，ノイズ)を行いデータ拡張した．
・下図がCNNアーキテクチャである．
・最後にNMSにより位置を調整する．
・結果は次ページに示す．
Links
プロジェクト http://www.robots.ox.ac.uk/~vgg/research/text/
デモ http://zeus.robots.ox.ac.uk/textsearch/#/search/
コード https://bitbucket.org/jaderberg/eccv2014_textspotting

結果
クリッピングされた画像に対する識別結果(上表)と自然画像からの文字検出結果
(下表)．右は検出結果の一例である．

Jordi Pont-Tuset, Luc Van Gool, “Boosting Object Proposals: From Pascal to COCO”, in ICCV, 2015.
【99】
Keywords: Object Proposal
新規性・差分
手法
結果
概要
物体候補領域はPascal VOCのような物体検出データセットに
て取り組まれていたが，MS COCOデータセットのようなより大
規模なデータセットに処理するための方法を検討する．主に比
較して知見を得るための論文．
物体候補領域の手法において，MS COCOデータセットにて
+5.2%の精度向上が見られた．COCOデータセットとSBDや
PascalVOCデータセットとの比較により，データサイズと候補領
域の算出方法を検討する．下は各データセットのアノテーション
の違い．MS COCOは右．
・SegVOC12，Berkeley Semantic Boundaries Dataset (SBD)，MS COCOの解析を
行う．各データセットの統計的な情報やそれに従った候補領域抽出の戦略を立て
る．
下記は各データセットに対して，各手法を試した結果である．
Links
論文
http://www.vision.ee.ethz.ch/~biwiproposals/boosting-coco/data/
PontTusetVanGool-Boosting-ICCV2015.pdf
プロジェクト
http://www.vision.ee.ethz.ch/~biwiproposals/boosting-coco/
サンプルコード https://github.com/jponttuset/BOP

Bin Yang, Junjie Yan, Zhen Lei, Stan Z. Li, “Convolutional Channel Features”, in ICCV, 2015. 【100】
Keywords: Low-level CNN Feature, Boosted Random Forests
新規性・差分
手法
結果
概要
Low-levelなCNN特徴を取り出し，Boosted Random Forestsに
て識別を実行する．Convolutional Channel Features (CCF)とし
て提案．
・CCFは従来のIntegral Channel Features (ICF)の拡張版で
HOG+LUVのチャネルからのIntegral特徴ではなく，畳み込みの
特徴マップに対して同様の処理を行えるようにした．
・畳み込みや全結合を含むCNNの構造から特徴量を取り出し，
Boosted Random Forestsに挿入することで異なるタスクの検出
に適用する．Low-level特徴は他のタスクに転用しやすい．
・大体のタスクにおいて最高性能を達成した．
まずはLow-level特徴の比較のみをCaltech Pedestrian Benchmarkにて実施した．
従来法のAggregatedCFやLocally DecorrelatedCFではそれぞれエラー率が41.22,
38.66%であったが，AlexNetではconv3で43.73%，VGG-16ではConv4-3にて27.66%，
GoogLeNetではInception2にて31.66%であった．さらにはFeature Pyramid の計算
やPatchworkも導入した．モデルは歩行者だけでなく，顔検出，エッジ検出，候補領
域生成のタスクにて作成した．
実験ではForestのトップ-10, 40, 128を選択するCCF-10, CCF-40, CCF-128を実装
した．CCFは約18%のエラー率で歩行者を検出でき，さらには従来手法であるHOG
+LUVのRandomForests (CF)を統合することにより，さらなる性能向上に寄与した．
その他，物体候補領域においても良好な性能を達成した．
Links
論文
http://www.cv-foundation.org/openaccess/content_iccv_2015/
papers/Yang_Convolutional_Channel_Features_ICCV_2015_paper.pdf
プロジェクト https://bitbucket.org/binyangderek/ccf

Jamie Shotton, John Winn, Carsten Rother, Antonio Criminisi, “TextonBoost for Image Understanding: Multi-
Class Object Recognition and Segmentation by Jointly Modeling Texture, Layout, and Context”, in IJCV, 2009.
【101】
Keywords: Texton, Random Forests
新規性・差分
手法
結果
概要
画像の理解のための，セマンティックセグメンテーションを実
行．Texton特徴など複数種の特徴量を，Conditional Random
Fields (CRF)にて総合的に判断する．21クラスの分類を行う．
セマンティックセグメンテーションという問題設定を定義した論
文．
各ラベルのセグメンテーションのためにCRFを用いる．Shape/Texture, Color,
Location, Edgeを用意してそれぞれの項として，最適化を行う．なお，正規化項も
CRF内に含まれている．
・Shape/Textureの特徴にはTexton特徴を用いる．Texton特徴はガウシアン，
LoG，エッジフィルタの方向，サイズなどパラメータの応答を特徴をするものであ
る．
・Colorには混合ガウス分布を用いる
・Locationには，位置とクラスの関係性を確率として表現しておく

下の表が各ラベルのConf. Matrixである．
Links
論文 http://research.microsoft.com/pubs/117885/ijcv07a.pdf
プロジェクト

Chenxia Wu, Jiemi Zhang, Bart Selman, Silvio Savarese, Ashutosh Saxena, “Watch-Bot: Unsupervised Learning
for Reminding Humans of Forgotten Actions”, in arXiv 1512.04208v1, 2015.
【102】
Keywords: RGB-D,
新規性・差分
手法
結果
概要
行動忘れが無いか，リマインドしてくれるロボット．手法は行動
間や物体の共起性や行動の時系列の関係性に着目した教師
無し学習である．Watch-n-Patch [Wu+, CVPR2015]の拡張であ
る．
行動間の共起性をモデリングするだけでなく，統計値から忘れ
ている行動を検出することが可能である．
Watch-Botのシステムを左下図に示す．センサはKinect v2によりRGB-D画像を取
得する．LaptopPCにより欠落した行動(forgotten action)や関連する物体(related
object)を検出する．ここで，同時にPan/Tiltカメラが作動しレーザーポインタにより
検出位置を指示する．ビデオ表現(右下図)として，Kinectから取得した人体関節の
動線(human-skeleton-trajectories)や物体とインタラクションする動線(interactive-
object-trajectories)をそれぞれコードワード化する．それからはWatch-n-Patchと
同様にトピックとしてそれぞれの要素を扱う．特徴としては25の関節点を用いるだ
けでなく，SIFT/RANSACも用いてbounding box内の対応付けも行う．bb内では6つ
のカーネル記述子(gradient, color, LBP, depth gradient, spin, surface normals,
KPCA/self-similarity)を適用する．
Watch-n-Patch datasetを用いる．データセットにはofficeやkitchenシーンが含まれ
る．下の表はFogotten action/objectsの検出結果である．なお，ベースラインには
HMM，LDA(トピックモデル)，Causal Topic Model (CaTM)を用いた．提案はWatch-
Bot Topic Model (WBTM)．ロボットによる実験では，60％の確率で行動の欠落
(forgotten action)を検知した．
Links
プロジェクト(Watch-n-Patch)
http://watchnpatch.cs.cornell.edu/

Lu Xia, Chia-Chih Chen, J. K. Aggarwal, “View Invariant Human Action Recognition Using Histograms of 3D
Joints”, in CVPR Workshop, 2012.
【103】
Keywords: HOJ3D, LDA, Kinect, Action
新規性・差分
手法
結果
概要
姿勢ベースの人物行動認識の手法である．関節用の特徴量
HOJ3Dや新規のデータセットであるUTKinect Action
dataset(下図)を提案した．
Kinectを用いた姿勢ベース行動認識のための特徴量HOJ3Dや
初期のデータセットであるUTKinect Actionデータセットを提案．
主に，下図のHOJ3D (Histograms of 3D joint locations)を提案した．HOJ3Dでは人
体から抽出した関節を3次元的に量子化したヒストグラムに格納することで特徴量
とする．さらに，LDAによる次元圧縮やコードワード化を実現した後にHMMにより識
別を実行する．
各行動に対する識別率は右の表の
通りである．
Links
論文 http://cvrc.ece.utexas.edu/Publications/Xia_HAU3D12.pdf
プロジェクト
http://cvrc.ece.utexas.edu/KinectDatasets/HOJ3D.html

Hussein, M. E. and Torki, M. and Gowayyed, M. A. and El-Saban, M., “Human Action Recognition Using a
Temporal Hierarchy of Covariance Descriptors of 3D Joint Locations”, in International Joint Conference on
Artificial Intelligence (IJCAI), 2013.
【104】
Keywords: Covariance Matrix, 3D Joint
新規性・差分
手法
結果
概要
3次元の人物関節情報から，時系列の共分散行列(Cov3DJ)を
構成して行動認識を実現した．
時系列かつ階層的な共分散行列による表現を提案．
Cov3DJではフレーム毎の関節情報を保持し，共分散の情報を特徴量とするため，
例えばpushとpullなど同様の姿勢による動作を識別しやすくなる．さらには，時系列
的に階層構造化することにより，大きな変化や小さな変化を同時に捉えることが可
能になる．
MSR-Action3D(左)やHDM05(右)による比較．
Links
論文 http://ijcai.org/papers13/Papers/IJCAI13-363.pdf

Chunyu Wang, Yizhou Wang, Alan L. Yuille, “An approach to pose-based action recognition”, in CVPR, 2013.
【105】
Keywords: K-best estimation,
新規性・差分
手法
結果
概要
Spatial-Temporalな構造にて姿勢ベースの行動認識を表現す
る．特徴選択の枠組みも導入して時系列的・空間的に有効な
特徴を選択する．
(i) 人体を5つのパーツに分割するので，人間がより理解しやす
い特徴量になり，誤識別の際の解析が容易にできる
(ii) 14箇所の関節位置のみで構成されるため，コンパクトな特
徴である
(iii) 関節情報を取得しているので，行動バリエーションに対して
ロバストである
Spatial-Temporalな構造にて姿勢ベースの行動認識を表現する．K-best
estimationにより時系列の姿勢情報からベストな特徴を選択する．そのために，人
体を手足など5つのパーツに分割し，行動の識別に有効なパーツを優先的に用い
ることとする．
MSR-Action 3D(左)とUCFSports, Keck Gesture (右)
Links
論文
http://www.cv-foundation.org/openaccess/content_cvpr_2013/
papers/Wang_An_Approach_to_2013_CVPR_paper.pdf

Yu Zhu, Wenbin Chen, Guodong Guo, “Fusing Spatiotemporal Features and Joints for 3D Action Recognition”,
in CVPRW, 2013.
【106】
Keywords: Skeleton, Feature description
新規性・差分
手法
結果
概要
3次元の人体関節情報と局所特徴量の統合による人物行動認
識の実現．特徴量が相補的に動作し，行動認識を適応的に捉
えることができる．
関節情報を用いることで，アピアランスベースの特徴と姿勢
ベースの特徴を効果的に組み合わせることに成功した．
4つのステップに分けられる．ひとつめは関節を距離画像から取得すること，ふた
つめは関節情報を計算すること，3つめに行動識別の特徴量へと変換する最後に
特徴レベルでの統合と行動識別の実行

具体的には，取得した関節位置を特徴点とみなしてHOG/HOF特徴量により記述
する．同時に関節自体も特徴化して両者を統合する．識別にはRandom Forestsを
用いることにより，識別に有効な成分を選択する．
右の表が結果である．
それぞれMSR Action3D (94.3%)
UTKinect-Action (91.9%)
CAD-60 (87.5%)
Links
論文
http://www.cv-foundation.org/openaccess/
content_cvpr_workshops_2013/W12/papers/
Zhu_Fusing_Spatiotemporal_Features_2013_CVPR_paper.pdf

Xiaodong Yang, YingLi Tian, “Effective 3D action recognition using EigenJoints”, in JVCIR, 2013.
【107】
Keywords: EigenJoints, Accumulated Motion Energy (AME), Naive Bayes Nearest Neighbor (NBNN)
新規性・差分
手法
結果
概要
EigenJointsと呼ばれる，関節情報の特徴化を提案した．キーフ
レーム選択法としてのAMEや識別器にはNBNNを採用．
姿勢を識別する効果的な特徴量EigenJointsを提案．
特徴量は同じフレーム内から2点間距離を取得，またフレーム間での移動を記録
する(下式)．計算した特徴は正規化(normalization)，主成分分析(PCA)ののち，
EigenJointsとして特徴ベクトル化．
・
Links
論文
http://yangxd.org/publications/papers/EigenJoints_JVCIR.pdf

Guilhem Cheron, Ivan Laptev, Cordelia Schmid, “P-CNN: Pose-based CNN Features for Action Recognition”,
in ICCV, 2015.
【108】
Keywords: Pose-based CNN (P-CNN)
新規性・差分
手法
結果
概要
モーションとアピアランスから姿勢推定や行動認識を実行する
P-CNNを提案する．
CNNの枠組みの中で姿勢ベースの行動認識を実現した．
Improved Dense Trajectories (IDT) + Fisher Vector (FV)と組み
合わせることで詳細行動認識に対して高い精度での識別を実
現した．
ビデオの各フレームから姿勢推定を実行する．姿勢情報はパーツごとに分割して
周辺の画像をパッチとして取得し，CNNへの入力として用いる．CNNではRGBとオ
プティカルフロー画像の畳み込み特徴量を抽出することで行動認識を実行する．
人体部位はright hand, left hand, upper body, full body, full imageに分けられる．各
部位から取得した特徴はそれぞれ動的/静的，min/maxの成分に分割して蓄積さ
れる．
JHMDBやMPII cookingに対して比較実験を実施した．P-CNNとIDT+FVを組み合わ
せることでさらに精度が向上する．(いずれのデータに対してもIDTの方が精度が良
い．)
Links
論文 http://www.di.ens.fr/willow/pdfscurrent/cheron2015.pdf
プロジェクト http://www.di.ens.fr/willow/research/p-cnn/
コード https://github.com/gcheron/P-CNN

Zhixin Shu, Kiwon Yun, Dimitris Samaras, “Action Detection with Improved Dense Trajectories and Sliding
Window”, in ECCVW, 2014.
【109】
Keywords: Improved Dense Trajectoires (IDT)
新規性・差分
手法
結果
概要
ChaLearn Looking at People Challenge 2014の課題に対して，
IDTとSliding Windowにより行動検出を実行．同チャレンジでは
11種類の行動を235の試行，17人の演者から構成されたデータ
セット内でいかに行動やインタラクションしたかを認識する．
IDTは行動の識別に特化しているが，ここでは検出のために
sliding windowのアプローチをとっている．チャレンジ全体の3位
になった．
画像全体からSliding Windowにより局所的な領域を評価する．各領域においてIDT
特徴を取得し，学習済みのBinary SVMとの比較により，検出領域か否かを判断す
る．
11種類の行動検出の結果，0.4226の精度であった(下図)．
Links
論文
http://www3.cs.stonybrook.edu/~kyun/papers/
zhixin_kiwon_chalearnLAP2014.pdf
プロジェクト http://gesture.chalearn.org/

Xiaojiang Peng, Limin Wang, Zhuowei Cai, Yu Qiao, “Action and Gesture Temporal Spotting with Super Vector
Representation”, in ECCVW, 2014.
【110】
Keywords: Super Vector, Fisher Vector, Action Detection
新規性・差分
手法
結果
概要
ChaLearn Challenge2014の行動検出．時系列のセグメント化，
識別，後処理により構成される．Fisher Vector + IDTにより行
動を記述．
IDT+Fisher Vectorによる行動識別に対し，前処理や後処理が
行動検出に有効であることを示した．
時系列のセグメントでは，5フレーム間隔で精査し15フレームから時系列特徴を取得
する．高速化のためにフローや局所特徴量を抽出する．
識別にはIDT+Fisher Vectorによる特徴表現やSVMにより識別器を構成する．
誤識別を避けるための後処理では，あらかじめ誤りやすい背景を学習する．
他のチームとの比較は下表の通りである．
Links
論文 http://wanglimin.github.io/contests/PengWCQ_LAP14.pdf
プロジェクト http://gesture.chalearn.org/

Jan C. van Gemert, Mihir Jain, Ella Gati, Cees G. M. Snoek, “APT: Action Localization Proposals from Dense
Trajectories”, inBMVC, 2015.
【111】
Keywords: Action Proposal, APT, Dense Trajectories (DT)
新規性・差分
手法
結果
概要
DTからいかに候補領域を生成するかについて検討．行動検出
ではなく，行動の候補領域の抽出である．
・DTの枠組みを適用する
・多数の動線を効率的にクラスタリングする手法を提案
・従来法よりも高速な行動候補領域抽出
繰り返し処理によりベストなペアをつないでいくSLINKアルゴリズムをベースとして，
階層的クラスタリングを実行する．SLINKは教師なしであり，計算のオーダーは
O(n^2)である．SLINKの中でもpointer representationを採用した．動線の数が50未
満のクラスタは削除した．近傍探索としてはYael Libraryに搭載されているk-best
NNを適用した．
DTの特徴量として，HOG/HOF/MBH/TRAJだけでなく時系列の位置であるSPAT
を導入する．
UCF Sports，UCF101，MSR-IIをデータセットとして採用，比較手法として
[Jain+, CVPR2014]や[Oneata+, ECCV2014]を挙げた．
オーバーラップ率は0.62(ground truthと比較して)を達成．IoUとRecallの関係性は
下図を参照．
Links
論文
http://jvgemert.github.io/pub/
gemertBMVC15APTactionProposals.pdf
コード https://github.com/jvgemert/apt

Philippe Weinzaepfel, Zaid Harchaoui, Cordelia Schmid, “Learning to track for spatio-temporal action
localization”, in ICCV, 2015.
【112】
Keywords: Action Detection
手法
結果
概要
行動検出の論文．物体候補領域からアピアランスやフロー特
徴を評価することで行動検出を実行．また，インスタンスレベ
ル・クラスレベルの分類をTracking-by-detectionの枠組みで行
動検出を実装．
前処理としてフレームレベルでの物体候補を抽出．行動として尤度が高い候補を
フレーム間で追跡することで時系列の候補領域となる．さらに，CNN + STMHによ
る識別器により識別を行う．物体候補領域の抽出にはEdgeBox，CNNはFinding
Action Tubes，SMTHはIDTを適用する．
UCF-sportsにおいて，行動検出の精度が90.5%であった．(従来法のFinding Action
Tubesは75.8%)
Links
論文
papers/Weinzaepfel_Learning_to_Track_ICCV_2015_paper.pdf
著者 https://lear.inrialpes.fr/people/pweinzae/

Sergey Zagoruyko, Tsung‐Yi Lin, Pedro Pinheiro, Adam Lerer, Sam Gross, Soumith Chintala, Piotr Dollár, FAIR
(Facebook AI Research), in ILSVRC, 2015.
【113】
手法
Links
ポスター http://image-net.org/challenges/talks/COCO-ICCV15-clean.pdf

結果
・FacebookはCOCO Object Detectionにフォーカスしていた
・DeepMask[Pinheiro+, NIPS2015]による候補領域とFast R-CNNに対して複数の改善
・Iterative Localization (+1.0AP)やTop-down refinement (+0.7AP)などのテクニックも有効
・パッチを分解して特徴評価・BBox回帰するFoveal structure[Gidaris+, ICCV2015]により+2.0AP
・複数の重なり率による誤差Multi-threshold lossにより+1.5AP
・トレーニングは4Maxwell GPUを用いて4日間，8x4 Kepler/Elastic Averaging SGD[Zhang+, NIPS2015]により2.5日
・Base Modelにより30.1AP，Horizontal flipにより31.1AP，ROI Pooling '2 crop'により32.1AP，7-model ensembleにより33.5AP
・SegmentationはDeepMask (Proposal BBoxes) - Fast RCNN (Scored BBoxed) - DeepMask (Scored Segments)により実行
・将来展望として背景との混同や微小領域の高精度化，コンテキストの活用，fast/proposal-freeな検出が挙げられる

・MS COCO datasetの検出にて第2位
・Fast R-CNNが19.7%の検出率に対して33.5%(約66%の向上, MSRAは37.3%)

CUImage (Chinese Univ. of Hong Kong) "CUImage-poster.pdf", Cascaded Networks for Object Detection with
Multi-Context Modeling and Hierarchical Fine-Tuning, in ILSVRC, 2015.
【114】
手法
Links
ポスター http://image-net.org/challenges/posters/CUimage_poster.pdf
[1] X. Zeng, et al. Window-Object Relationship Guided Representation Learning for Generic Object Detections , axiv preprint.
[2] W. Ouyang, et al. Factors in Finetuning Deep Model for object detection, axiv preprint.
[3] J. Yan, et al. CRAFT Objects from Images, axiv preprint.
[4] W. Ouyang, et al. Deepid-net: Deformable deep convolutional neural networks for object detection. CVPR, 2015.
[5] J. Yan, et al. Object detection by labeling superpixels. CVPR, 2015.

結果
・Multi-context[1]: 複数のパッチサイズ/複数のコンテキストを含む画像を評価，特徴を連結させてSVMによりスコアリング
・Cascaded hierarchical feature learning[2]: クラスごとに異なる有効な特徴を評価するために階層的カスケード特徴学習を実行，階層的クラスタリン
グが物体のグルーピングに適用されそれぞれのモデルをfine-tuning
・Cascade Region-Proposal-Network and Fast RCNN (CRAFT)[3]: RPNの候補領域を再評価(IoU>0.7をposi, IoU<0.3をnega)して候補領域をさらに絞
り込み，Cascade識別器により識別

・ImageNet Detectionにおいて52.7%, ImageNet Detectionにて3位 (MSRAは62.1%)
・CRAFTにより候補領域の精度が94+%

WM (Univ. of Chinese Academy of Sciences, Peking Univ.) Li Shen, Zhouchen Lin, in ILSVRC, 2015. 【115】
手法
Links
ポスター http://image-net.org/challenges/talks/WM_presentation.pdf
[1] K. He, X. Zhang, S. Ren and J. Sun. Spatial pyramid pooling in deep
convolutional networks for visual recognition. In ECCV 2014.
結果
・VGG-likeアーキテクチャ
・Model Aは22層構成，最後のMaxプーリング層をSPP層[1]に置き換え
・Model Bはmulti-scaleの統合，サンプルの非一様分布によるバランスサンプリング
・Relay Back-Propagation(右図)による勾配消失の防止

・Place2にて優勝, Classification errorが16.87%

ION, (Cornell University, Microsoft Research), Sean Bell, Kavita Bala, Larry Zitnick, Ross Girshick, “Inside-
OutSide Net: Detecting Objects in Context with Skip Pooling and Recurrent Neural Networks”, in ILSVRC,
2015.
【116】
手法
Links
論文 http://arxiv.org/pdf/1512.04143.pdf
ポスター http://image-net.org/challenges/talks/ion-coco-talk-bell2015.pdf

結果
・Fast R-CNNをベースにする
・FRCNNのROI poolingは必要部の局所領域のみしか識別に用いないが，提案ではconv3/conv4/conv5を統合，次元圧縮して全結合層へ入力
・さらにNormalization，Rescaleの処理も加える
・4方向に走査可能なRNNを2つ積み上げることですべての特徴マップに対して表現可能
・ION Detectorにより+5.1mAP
・さらにデータの追加により+3.9mAP
・Faster R-CNNのRPNを用いてデータ数を増やす
・RPNは9 anchorから22 anchorに変更，7 scales x 3 aspect ratios, 32x32
・トレーニングにより+4.1mAP
・No dropout, longer with larger mini-batches, セグメンテーションによる正規化
・MR-CNN (PASCALデータ追加，閾値の設定，左右反転画像など)
・MS COCO detectionにて第3位 (学生トップ)
・31.0% (test-competition), runtime 2.7s
・33.1% (post-competition)

CUvideo Team, Kai Kang (Chinese Univ. of Hong Kong), “Object Detection in Videos with Tubelets and Multi-
context Cues”, in ILSVRC, 2015.
【117】
手法
Links
ポスター http://image-net.org/challenges/talks/Object%20Detection%20in%20Videos%20with%20Tubelets%20and%20Multi-context%20Cues%20-%20Final.pdf
[1] Wang, Lijun et al. Visual Tracking with Fully Convolutional Networks. ICCV 2015.
[2] J. Yan, et al. CRAFT Objects from Images, axiv preprint.
[3]W. Ouyang, et al. Deepid-net: Deformable deep convolutional neural networks for object detection. CVPR, 2015.
結果
・ビデオによる物体検出
・初期値として静止画により検出
・(1) 時系列の候補領域(Temporal Tubelet Re-scoring)のスコア値算出
・静止画による検出はフレーム間で不安定なため，領域の時系列評価を行うのがTubelet
・信頼度の高い領域の追跡[1]，空間的なMax-pooling，時間軸でのスコア再計算
・空間的なMax-poolingにより，最大値領域のみを残す (Kalman filterによるbbox推定)
・(2) Multi-context suppression (MCS) & Motion Guided Propagation (MGP)
・MCSはすべてのbboxのスコア値をソート，時系列でハイスコアのクラスが変化しないものは検出結果として残す
・MGPは検出結果をより時間的に後のフレームに伝播させ，前に検出されたものを後のフレームでも探索，NMSしやすい
・(1), (2)のモデル統合
・候補領域はCRAFT[2]
・識別はDeepID-Net[3]
・ILSVRC2015 VIDにて67.8%の検出率

Jiankang Deng, (Amax), “Cascade Region Regression for Robust Object Detection”, in ILSVRC, 2015.
【118】
手法
Links
論文 http://image-net.org/challenges/talks/JiankangDeng_UTS&NUIST-R.pdf

結果
・ベースラインはVGG-16 (45.6)
・アップデートとして，RPN 12 anchors (+0.72), Cascade Region Regression (+2.93), Learn to Combine (+1.75), Learn to Rank (+1.94), Additional Data
(+2.64), VGG-16 ensemble, Multimodels ensemble (+2.87%)
・最終的な検出率は58.98まで上昇(@validation2セット)
・各畳み込みの工程毎にbbox regressionを行うCascade Region Regressionが効果的であり，2.93%も検出率が上昇した
・Model EnsembleはVGG-16, GoogLeNetやその他アーキテクチャから取り出した特徴マップを統合
・ILSVRC2015 VID (External)にて73.1%の検出率

Jie Shao, Xiaoteng Zhang, Jianying Zhou, Zhengyan Ding, (Trimps), in ILSVRC, 2015.
【119】
手法
Links
ポスター http://image-net.org/challenges/talks/Trimps_ilsvrc2015.pdf
結果
・複数のモデルを統合，スコア値により統合(+1.07%), ラベルによる統合(+1.17%)
・7 x BN-Inception (GoogLeNet-like; 32layers)
・2 x MSRA-Net (PReLU; 22layers)
・データ拡張あり
・LocalizationはFast-R-CNNをベースラインとした
・候補領域はEdgeBoxes
・ILSVRC2015 object localizatioin 12.29%で2位 (追加データOK-extra dataでは1位)
・ILSVRC2015 object VID 46.1%で4位 (extra dataでは3位)
・Scene classification 17.98%のエラー率で4位
・ILSVRC2015 object detectionでは44.6%で7位

MIL-UT, Masataka Yamaguchi, Qishen Ha, Katsunori Ohnishi, Masatoshi Hidaka, Yusuke Mukuta, Tatsuya
Harada, in ILSVRC, 2015.
【120】
手法
Links
ポスター http://image-net.org/challenges/posters/MILUT.pdf
結果
・Fast R-CNN + VGG-16をベースラインとする
・FC7(softmaxの前の層)を特徴として使用
・第4のmax-pooling層をRoI pooling layerに置き換える
・RoI poolingによる特徴と画像全体のCNN特徴を組み合わせる
・Bbox regressionも適用する
・Bayesian optimizationによるモデルの統合
・ILSVRC2015 DET with external dataにて47.0%, 第3位

Aditya Khosla, Akhil S. Raju, Antonio Torralba, Aude Oliva, “Understanding and Predicting Image Memorability
at a Large Scale”, in ICCV, 2015.
【121】
Keywords: LaMem, CNN,
新規性・差分
手法
結果
概要
人間の印象に残りやすい画像や位置をヒートマップ表示．Caffe
モデルやデータセット，デモやコード，データセットなども公開さ
れていて．簡易的に結果を見ることや追実験やモデルの拡張
ができるようになっている．
記憶を定量的に扱うためのデータセットアノテーションや定量化
手法なども優れている．
データセットへのアノテーションは記憶のゲーム[Isola+, CVPR2011/PAMI2014]に
よるものである．Amazon Mechanical Turk (AMT)により60,000の画像に対してアノ
テーションをしてもらうわけであるが，4.5分間の時間で66分割された186の画像を
覚えて記憶の度合いを定量化する．ニューラルネットのアーキテクチャにはHybrid-
CNNを用い，ImageNet 2012やPlaces データセットによりPre-trained学習，さらに今
回のデータセットを使用しfine-tuningしたネットワークをMemNetと呼ぶ．
下表は各手法によるconsistency (一貫性)の数値である．ニューラルネットによる
MemNetでは0.64を記録．人間のconsistencyは0.67であったことから，それに迫る
数値である．
Links
論文
http://people.csail.mit.edu/khosla/papers/iccv2015_khosla.pdf
プロジェクト http://memorability.csail.mit.edu/index.html
デモ http://memorability.csail.mit.edu/demo.html
コード・データセット
http://memorability.csail.mit.edu/download.html

Joseph Paul Cohen, Henry Z. Lo, Tingting Lu, Wei Ding, “Crater Detection via Convolutional Neural Networks”,
in arXiv, 1601.00978, 2016.
【122】
Keywords: Crater Detection, CNN, Deep Learning
新規性・差分
手法
結果
概要
CNNを用いた月のクレーター検出．
クレーター検出の従来研究ではガボールフィルタやHaar-like特
徴などが主流であったが，より高度な特徴表現としてCNNを用
い，精度を向上させた．
下図がニューラルネットのアーキテクチャである．入力は15x15pixel，第1,2層では
filter 4x4で20チャネル，ストライドは1ピクセルである．全結合層では500，softmax
層では2つのニューロンを持つ．
下は各データにおける手法の比較である．データは2022のクレーター，2888の非ク
レーター画像を学習させている．10-fold cross validationにより評価し，結果はF値
を算出．提案手法がもっとも高い90.29を記録した．
Links
関連研究 Automatic Crater Detection Using Convex Grouping and
Convolutional Neural Networks, iSVC2015
http://www.cse.unr.edu/~bebis/ISVC15.pdf

Dan Oneata, Jerome Revaud, Jakob Verbeek, and Cordelia Schmid, “Spatio-Temporal Object Detection
Proposals”, in ECCV, 2014.
【123】
Keywords: 3D (XYT) Action Proposal, Action Detection
新規性・差分
手法
結果
概要
行動認識のための候補領域抽出．Supervoxelのセグメンテー
ションに対して効率的な探索を提案して時系列の候補領域抽
出に貢献する．また，この問題に対して効果的なSupervoxel抽
出法を考案した．
物体候補領域では2次元の静止画に対して物体候補領域が付
加されるが，行動検出のための候補領域においては時系列情
報も含めて候補領域を抽出する．
簡単には[Manen+, ICCV2013]らの手法に対する時系列拡張である．
・時系列の探索については，Supervoxelを適用した．空間的・時間的のみならず時
空間のpairwise特徴を考案した．
空間的(2D)なSuperpixelにはSLICを用いている．色空間はLabを適用，フローヒスト
グラムを用いることで動状態のsuperpixelを判別可能．二つのsuperpixel (n,m)の判
断は単純な距離，色空間，フロー，エッジ，セントロイドのgeodesic距離などから判
断して近傍をつなげる．さらに，空間的な候補は2次(second-order)のつながりも考
慮する．
時系列的なつながりは単純なオプティカルフローを用いて近隣のフレーム間での
対応付けを行う．
階層的クラスタリングは同物体による時系列のつながりを考慮したペナルティの付
加による．
時空間の候補領域の効果的な削減には[Manen+, ICCV2013]のRandomized
Supervoxels Agglomerationにより枝刈りする．Supervoxel内で評価する特徴として
はColor, Flow, Size, Fill, Spatial Size, Spatial Fill, Temporal Size, Temporal Overlap
の8種である．
右表．3D segmentation
accuracy, 3D undersegm.
error, timeで評価．
Links
論文 https://hal.inria.fr/hal-01021902/PDF/proof.pdf
プロジェクト http://lear.inrialpes.fr/~oneata/3Dproposals/
コード https://bitbucket.org/doneata/proposals
関連研究 http://www.vision.ee.ethz.ch/~smanenfr/rp/index.html
行動候補領域 [Yuan+, CVPR2009]
http://www3.ntu.edu.sg/home/JSYUAN/index_files/papers/
Yuan_Liu_Wu_CVPR09.pdf
行動候補領域 [Tran+, CVPR2011]
http://www.cs.dartmouth.edu/~dutran/papers/cvpr11.pdf

Zhiwei Deng, Mengyao Zhai, Lei Chen, Yuhao Liu, Srikanth Muralidharan, Mehrsan Javan Roshtkhari, Greg Mori,
“Deep Structured Models For Group Activity Recognition”, in BMVC, 2015.
【124】
Keywords: Group Activity Recognition, Deep Structured Model
新規性・差分
手法
結果
概要
介護施設内の転倒シーン(fall)検出のためのニューラルネット
アーキテクチャ構築．個人の行動や姿勢，複数人の相互関係
からグループ行動認識を実行する．
下図のような構造的なCNNを学習することが優れた点である．
下図はmessage passing CNNフレームワークの概略図である．画像や人物周辺の
bboxを入力として行動やグループ行動を認識する問題である．推定されたラベル
はbelief propagation-likeなニューラルネットによりリファインされる．本ネットワーク
は個人の行動や，姿勢，グループ行動の相互関係により記述される．学習の際に
はmessage passingパラメータや誤差逆伝播法により学習される．
Links
論文
http://bmvc2015.swansea.ac.uk/proceedings/papers/paper179/
abstract179.pdf
ビデオ
http://bmvc2015.swansea.ac.uk/proceedings/papers/paper179/
index.html
2-stepのmessage passingが精度向上に寄与した．また，SVM+DL特徴により精度
がさらに向上した．

Mihir Jain, Jan van Gemert, Herve Jegou, Patrick Bouthemy, Cees G. M. Snoek, “Action localization with
tubelets from motion”, in CVPR, 2014.
【125】
Keywords: Action Localization, Action Proposal, Objectness
新規性・差分
手法
結果
概要
行動検出のための候補領域のために，通常のobjectnessから
2D+tのbboxデータを補足する．この2D+tのbboxフレームワーク
を”tubelets”と呼ぶ．Supervoxelから候補領域を抽出するため
の枠組みを提案．
行動検出のための候補領域tubeletsは時系列情報の探索によ
り，候補の数を削減することが可能．
下図：基本的にはsupervoxelを時空間的に統合していく．
直感的にはSelective Searchの時系列拡張版である．Superpixelの代わりに
supervoxelの領域を統合していくことにより候補領域を生成していく．
1.  SupervoxelによるセグメンテーションはGBHを用いる．
2.  繰り返し処理によりtubeletsを追加する．(ボクセル数n-1の繰り返しによ
り)2つのsupervoxelをつなげて新しい候補領域としていく．
3.  特徴の評価．Bag-of-words (BoW)表現により各tubeletsを評価．
4.  BoWベクトルにより識別，各領域に割り当てる．
統合処理は色，テクスチャ，モーションの評価値(具体的にはhistogram
intersection)により判断する．
さらに，優位なモーションによる候補領域を判定するための動作特徴も判断するこ
とにより，候補領域を削減する．Independent Motion Evidence (IME)によりモーショ
ンの手がかりも追加して候補領域を判断する．
実験はUCF-sportsやMSR-IIデータセットに対して行う．評価にはMean Average
Best Overlap (MABO)やMaximum Possible Recall (MR)を採用．
下記は結果の一部である．
Links
論文 http://jvgemert.github.io/pub/jain-tubelets-cvpr2014.pdf
プロジェクト
GBH(supervoxel segment.)
http://www.cse.buffalo.edu/~jcorso/pubs/
jcorso_CVPR2012_svx.pdf

Yang Li, Ziyan Wu, Srikrishna Karanam, Richard J. Radke, “Multi-Shot Human Re-Identification Using Adaptive
Fisher Discriminant Analysis”, in BMVC, 2015.
【126】
Keywords: Multi-Shot, Re-ID
新規性・差分
手法
結果
概要
Adaptive Fisher Discriminant Analysis (AFDA)アルゴリズムに
よる人物再同定の研究．
下図に従来法と比較したCMCのグラフを示す．
カメラ間の変化に対応するための部分空間の学習としてAFDAを用い，個人間の
誤差を最大に，個人内の誤差を最小にするための部分空間を探索．Fisher条件
(criterion)に従いデータを階層的クラスタリングして部分空間を探索．繰り返し処理
により識別のための効果的な部分空間を生成可能である．AFDAのフローチャート
と階層的クラスタリングの例を下図に示す．
実験はPRID2011, iLIDS-VID, SAIVT-SoftBioデータセットに対して行う．提案手法
はrank-1: 43.0%, rank-5: 91.9%@PRID2011, r1:37.5%, r5: 81.8%@iLIDS-VID, r1: 44.4,
r5: 95.9%@SAIVT-SoftBioであった．
Links
論文
http://www.bmva.org/bmvc/2015/papers/paper073/paper073.pdf

Aryana Tavanai, Muralikrishna Sridhar, Eris Chinellato, Anthony G. Cohn, David C. Hogg, “Joint Tracking and
Event Analysis for Carried Object Detection”, in BMVC, 2015.
【127】
Keywords:
新規性・差分
手法
結果
概要
イベント検出と物体検出の関連性を記述する論文．物体の検
出や追跡によりイベント検出の精度を向上させるというもの．
トラッキングの手かがりか
らイベント認識を高精度化
していく研究．
Trackletsが与えられた際に時空間のイベント構造を解析する．より詳細には，その
イベントに関連する物体のトラッカーを構成して動線を抽出する．左図のように繰り
返し処理によりイベント検出とトラッキングを実行する．Iteration nではHMMによる
トラッキングとイベントの結果とTrackletsが与えられており，Iteration n+1にて
putdown=>”static”=>pickupと”static”状態が更新されている．イベント検出例は下
図に示すとおりである．
MINDS-EYE2015データセットに対して実験を実行した．下図がデータセットに対す
る結果である．
Links
論文
http://www.bmva.org/bmvc/2015/papers/paper079/
abstract079.pdf
プロジェクト http://www.personal.leeds.ac.uk/~fy06at/JTEA/
コード
https://github.com/AryanaTavanai/Geometric-Carried-Object-
Detector
データセット http://archive.researchdata.leeds.ac.uk/7/

Wei Chen, Jason J. Corso, “Action Detectio by Implicit Intentional Motion Clustering”, in ICCV, 2015.
【128】
Keywords: Action Detection,
新規性・差分
手法
結果
概要
行動検出の問題を解くためにIntentional Motion Clusteringuを
実装した．この問題を解決するためにまずはDense
Trajectoires (DT)を使用し，密な記述から意図的なモーションを
検出する．また，DTのクラスタリングから意味のある統合結果
を行動検出に使用する．
[Raptis+, CVPR2012]ではDTの階層的クラ
スタリングをするに止まっているが，提案法
でグラフ構造を用いることで動線から行動
候補を取り出すに至っている．
下図は提案法のフレームワークである．与えられた動線群からspatio-temporal
trajectory graphを生成する．このグラフを用いて候補領域を生成する．候補領域
内を識別器により識別することで行動検出を実行．
Spectral Clusteringによりクラスタリングを行う．具体的にはChenらの類似度Sの正
規化ラプラシアンによるeigen-decompositionのSpectral Clusteringを採用した．
実験はUCR-Sports, Sub-J-HMDB, MSR-IIデータセットに対して行った．下図は
UCF-sportsやsub-J-HMDBに対する結果であり，IoUが0.1の時にはいずれも90%
の精度を超えていた．(赤線が提案法)
Links
論文
papers/Chen_Action_Detection_by_ICCV_2015_paper.pdf
ポスター
http://web.eecs.umich.edu/~jjcorso/pubs/
jcorso_ICCV2015_implicitmotion_poster.pdf

Shichao Zhao, Yanbin Liu, Yahong Han, Rihang Hong, “Pooling the Convolutional Layers in Deep ConvNets for
Action Recognition”, in arXiv, 1511.02126v1, 2015.
【129】
Keywords: Trajectory Pooling, CNN, Action Recognition
新規性・差分
手法
結果
概要
行動認識のためにVGGNetやTwo-Stream ConvNetsを組み合
わせる．動画に対するCNNは比較的浅く，構造自体を深くする
ことが行動認識の精度向上に寄与すると主張．
大規模行動認識の問題について最先端の精度を達成．
Frame-diff layerと呼ばれる，動線や直線をプーリングする仕組みを考案．ベクトル
表現にはVLADのエンコーディングを行う．
　左図が提案のフレームワークであり，VGGNetからt, t-1フレームの差分(frame-
diff layer)，空間的な特徴(conv layer)，さらにTwo-Stream ConvNetの要領でオプ
ティカルフロー蓄積画像から畳み込み特徴を取得する．さらに，特徴マップを次の
行程への入力として動線に対応する特徴マップ位置から特徴を抽出する．この
際，Trajectory PoolingとLine Poolingの2種類のプーリング法を用意する．最後に
VLADのエンコーディングによりベクトル化して最終的な特徴量を得る．識別器には
SVMを採用．
　
93.78%@UCF101，
65.62%@HMDB51と非常に高い
精度で行動の認識を実現し
た．Fisher VectorとVLADを比
較した結果，VLADが優位で
あった．
Links
プロジェクト

Raffaella Bernardi, Ruket Cakici, Desmond Elliott, Aykut Erdem, Erkut Erdem, Nazli Ikizler-Cinbis, Frank
Muscat, Barbara Plank, “Automatic Description Generation from Images: A Survey of Models, Datasets, and
Evaluation Measures”, in arXiv, 1601.03896, 2016.
【130】
Keywords: Image Description, Survey
概要
画像説明文のサーベイ論文．モデルやデータセット，評価方法
に至るまで記述されている．
Links
論文 http://arxiv.org/pdf/1601.03896.pdf
関連(牛久さんのSlideShare)
http://www.slideshare.net/
YoshitakaUshiku/ss-57148161
有名手法とアプローチ，使用したデータと評価法
データセットの詳細(画像数，テキスト数，物体の状
態等)
MS COCOの結果例

Herve Jegou, Matthijs Douze, Cordelia Schmid, Patrick Perez, “Aggregating local descriptors into a compact
image representation”, in CVPR, 2010.
【131】
Keywords: VLAD, BoF, Fisher Vector
新規性・差分
手法
結果
概要
ベクトル量子化手法の一種であるVLADの提案．表現能力・処
理時間・メモリ使用量のトレードオフを考慮したベクトル量子化
であると主張している．
VLADの位置付けとしては，BoFよりも表現能力が高く，Fisher
Vectorよりもコンパクトなベクトル量子化である．
特徴ベクトルにはSIFTを採用し，事前にk-meansクラスタリングによりkクラスに分
類しておく．各SIFTベクトルを最近傍のクラスに割り当て，各クラスにてベクトルの
蓄積と正規化を行う．この正規化ベクトルを特徴量として扱い，最終的な次元数は
(正規化ベクトル次元数) N x (セントロイド数) k で扱われるが，最終的にPCAで圧
縮したものが識別に用いられるベクトルとなる．．下図がベクトル化の詳細である．
表がINRIA Holidays datasetに
対する精度である．セントロイド
数，次元数，圧縮次元数との
関係性も示している．
Links
論文
https://lear.inrialpes.fr/pubs/2010/JDSP10/
jegou_compactimagerepresentation.pdf
プロジェクト(コードあり)
http://people.rennes.inria.fr/Herve.Jegou/projects/
aggregating.html
スライド
http://people.rennes.inria.fr/Herve.Jegou/_static/papers/
cvpr2010_jegou_talk.pdf

Georgia Gkioxari, Bharath Hariharan, Ross Girshick, Jitendra Malik, “R-CNNs for Pose Estimation and Action
Detection”, in arXiv, 1406.5212v1, 2014.
【132】
Keywords: Action Detection, Pose Estimation
新規性・差分
手法
結果
概要
Regions with CNN (R-CNN)を姿勢推定や行動検出に用いた論
文．タスクに応じて誤差関数(loss function)を学習することによ
り精度を向上させる．さらに，行動検出のデータセットも提案す
る．
Single Convolutional Neural Network for Multiple Tasksを提案
した．単一のCNNアーキテクチャで複数のタスクに対する出力
を用意できたことが新規性である．
下図のようなネットワーク構成である．1つのCNNで複数の出力を行う．畳み込み
による特徴抽出部は共通であるが，タスクにより出力や誤差関数を柔軟に変更し
ている点が優れている点である．CNNの出力として人物検出，姿勢推定，行動識
別のための識別器を与えている．候補領域抽出は[Arbelaez+, CVPR2014]により
行った．下記の数式の損失関数を最小化する．核問題のλを1.0として最適化を行
う．
PASCAL VOCデータセットにて検証を行うが，行動に特化してPASCAL VOC
actionを構成した．同データセットにて行動検出70.5%を達成．姿勢推定は従来と比
較して相対的に19.7%向上した．
Links
プロジェクト(コード・データセットあり)
http://www.cs.berkeley.edu/~gkioxari/PersonNet/
候補領域
http://www.cs.berkeley.edu/~barron/ArbelaezCVPR2014.pdf

Georgia Gkioxari, Ross Girshick, Jitendra Malik, “Contextual Action Recognition with R*CNN”, in ICCV, 2015.
【133】
Keywords: R-CNN, Action Recognition, Context
新規性・差分
手法
結果
概要
行動を認識するためのコンテキストを抽出する．行動位置を特
製するためにR-CNNを用いるが，さらに行動ごとのモデルや特
徴マップは同時に学習する．この仕組みをR*CNNと称する．
R*CNNではまず人物の存在する領域を候補とし，次にコンテキ
ストの手がかりとなる領域(Secondary Region)を次なる候補とし
て抽出する．
人物行動の手がかりとなる領域(Secondary Region)を抽出するためにMultiple
Instance Learning (MIL)やLatent SVMなど弱教師あり学習を参考にした．スコアα
やsoftmax関数を下記のように定義(I: image, r: region, Wp: primary weight, Ws:
secondary weight)した．また，処理の概要は下図のとおりであり，赤枠のPrimary
候補から関連する緑枠のSecondary候補を抽出する．Secondary候補のスコア最
大領域とPrimary候補の特徴を統合してsoftmax関数により行動の識別を実行す
る．
PASCAL VOC Action datasetに対して90.2%の行動検出精度を達成．最適化には
SGD，CNNはVGGNetを採用．
Links
論文
http://www.cs.berkeley.edu/~gkioxari/
rstarcnn_camera_ready.pdf
コード https://github.com/gkioxari/RstarCNN

Limin Wang, Yuanjun Xiong, Zhe Wang, Yu Qiao, “Towards Good Practices for Very Deep Two-Stream
ConvNets”, in arXiv, 1507.02159v1, 2015.
【134】
Keywords: Two-Stream ConvNets, CNN, VGG
新規性・差分
手法
結果
概要
行動認識のためのTwo-stream ConvNetsの弱点を解決するた
めに，よりCNNの構造をDeepに，さらには行動のデータセットを
拡張した．
Two-Stream ConvNetsの構造はAlexNetレベルであったため，
VGG-16を用いてより構造を深くした．オリジナルの手法に比べ
て+3.4%の向上が見られた．
ネットワークのアーキテクチャにはVGG-16を適用した．フロー特徴には10フレーム
のオプティカルフロー蓄積画像を作成して使用．
検討項目としては，
(1)  Pre-trainedモデルに対してのTwo-Stream
(2)  さらなるデータ拡張
(3)  Dropout率の変更
フロー特徴を取り出すCNNはLearning rateは0.005から始め，10,000回繰り返すご
とに1/10にして30,000回繰り返し時に中断する．
空間特徴を取り出すCNNはLearning rateは0.001から始め，4,000回繰り返すごとに
1/10にして10,000回繰り返し時に中断する．
UCF101データセットにて91.4%にまで
向上した．オリジナルのTwo-Stream
では88.0%，Two-stream+LSTMと組み
合わせによる手法では88.6%であっ
た．
Links
プロジェクト
関連(Two-Stream ConvNets) http://arxiv.org/abs/1406.2199

Ali Sharif Razavian, Hossein Azizpour, Josephine Sullivan, Stefan Carlsson, “CNN Features off-the-shelf: an
Astounding Baseline for Recognition”, in CVPRWorkshop, 2014.
【135】
Keywords: CNN Activation Feature, OverFeat
新規性・差分
手法
結果
概要
CNNの活性化特徴量を用いた物体認識への応用．OverFeatモ
デルをILSVRC2013の学習データを用いて学習した．タスクとし
ては画像識別，シーン認識，詳細画像認識へと適用．
論文自体はCNNの活性化特徴(中間層から特徴を取り出す)を
用いてSVMで認識することなので，DeCAF論文と類似する．
CNN特徴+SVMによる認識．画像識別，シーン認識，詳細画像認識において実験
を行った．
CNNはAlexNetをアーキテクチャとして用いており，最初の全結合層(FC6，4096次
元)を用いている．画像サイズは221x221pixelsに設定．
SVMはL2ノルムを採用．
データセットにはPascal VOC 2007, MIT-67 indoor scenes, Caltech-UCSD Birds
(CUB) 200-2011, Oxford 102 flowers, UIUC64 object attributesなどを採用した．
Links
論文
http://www.csc.kth.se/~azizpour/papers/
ha_cvpr14w.pdf
OverFeat
http://cilvr.nyu.edu/doku.php?
id=software:overfeat:start
プロジェクト http://www.csc.kth.se/cvap/cvg/DL/ots/
DeCAF http://arxiv.org/abs/1310.1531

ご質問・コメント等ありましたら，cvpaper.challenge@gmail.com / Twitter@CVPaperChallengまでお願いします．

【2016.01】(3/3)cvpaper.challenge2016

Recomendados

Recomendados

Mais conteúdo relacionado

Mais procurados

Mais procurados (20)

Destaque

Destaque (20)

【2016.01】(3/3)cvpaper.challenge2016