【2015.05】cvpaper.challenge@CVPR2015

cvpaper.challenge
Twitter@CVPaperChalleng
http://www.slideshare.net/cvpaperchallenge

【1】
K. Matsuo, Y. Aoki, “Depth Image Enhancement Using Local Tangent Plane Approximations”, in CVPR2015.
低解像の距離画像と高解像の画像を組み合わせて距離画像(特に，平面を)をなめらかにする．
JBU により superpixel を得る，主成分を取得した superpixel に対して tangent 平面を計算する．計算された tangent 平面に対してレイトレーシン
グをかけることにより，空間的な関係性を評価する．類似性を持つ tangent 平面に対して superpixel をつなげる．
空間的な平滑化により距離画像をなめらかにする．
Link(s) 論文ページ:
https://ki4ma20.sakura.ne.jp/research/reconstruction/paper/local_tangent_enhancement_cvpr2015.pdf

【2】
Y. Tian, P. Luo, X. Wang, X. Tang, “Pedestrian Detection aided by Deep Learning Semantic Tasks”, in CVPR2015.
CNN の派生系である task-assistant CNN (TA-CNN)を用いた歩行者検出．TA-CNN では，トレーニングに歩行者と背景ラベル以外にも，attribute
のラベルを与える．人物 attribute は帽子，バッグ，性別，オクルージョンなど，シーン attribute は空，木，建物，道路，など．ニューラルネッ
トの構造は 6 層であり，1 から 4 層までが畳込みとプーリング層，5,6 層が全結合層である．出力の 200 次元には歩行者や歩行者 attribute，さら
には背景の attribute が含まれる．SPV(structural projection vector)では，トップダウンで positive/negative の特徴を与え，第 6 層へと結合してい
る．
実験では Caltech dataset による歩行者検出を行っており，従来手法群([Benenson+, ECCVWorkshop2014]参照)よりも良いことを示している．具体
的には Error: 22.49%の katamari，Error: 21.89%の SpatialPooling+よりも高い Error: 20.86%を達成．元々TA-CNN は 31.45%であったが，歩行者
attribute や環境 attribute，そして SPV を実装することにより精度が上がっていく．また，クロスデータセット問題においても，INRIA person
dataset の学習で ETH dataset にてテストして 34.99%のエラー率を達成．
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Tian_Pedestrian_Detection_Aided_2015_CVPR_paper.pdf
プロジェクトページ:
http://mmlab.ie.cuhk.edu.hk/projects/TA-CNN/

【3】
S. Zhang, R. Benenson, B. Schiele, “Filtered Channel Features for Pedestrian Detection”, in CVPR2015.
Decision forests のフレームワーク中に ICF，ACF, SquareChnFtrs, LDCF, InformedHaar と，複数の特徴量を組合わせる．HOG と colour の特徴空間
のみで，Caltech dataset においてトップレベルの検出率を達成．
あらかじめ用意したフィルタ(下右図)により，たたみ込みを行い，プーリングする．入力画像をたたみ込み，応答値を tree-base の弱識別器に通
す．全ての特徴量を同時に識別に適用した場合，識別エラー率が 17.1%@Caltech dataset であると報告している．
Link(s) 論文ページ：
http://arxiv.org/abs/1501.05759
著者ページ：
https://www.mpi-inf.mpg.de/departments/computer-vision-and-multimodal-computing/people/shanshan-zhang/

【4】
Y. Li, Z. Ye, J. Rehg, “Delving into egocentric actions”, in CVPR2015.
Dense Traj.によるモーション特徴量だけでなく，物体の情報を用いることで一人称ビジョンにおいて行動認識の精度を高めることに成功した．また，
システマティックに行動と物体を組合わせる手法を提案したと説明している．
画像特徴量には HOG, HOF, MBH, Traj.を，物体特徴としては物体から抽出した HOG やカラー，一人称の特徴としては手領域，頭部動作，視線を入
力としている．
取得した特徴量は Fisher Vector によりベクトル化され，SVM によって識別される．
主張として，動作特徴の組み合わせが効果的であること，物体の特徴量は重要であること，注意点と手領域の連携が必要であることを述べている．
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Tian_Pedestrian_Detection_Aided_2015_CVPR_paper.pdf
著者ページ：
https://sites.google.com/site/zhefanyeinfo/research

【5】
F. Schroff, D. Kalenichenko, J. Philbin, “FaceNet: A Unified Embedding for Face Recognition and Clustering”, in
CVPR2015.
Google の FaceNet はほぼ 100%の確率で顔を認識できるらしい．(99.6%)
FaceNet は 128 次元のベクトルを，LMNN の手法に基づいて計算する．
さらに，この手法は Zeiler&Fergus や，GoogLeNet に基づいて Deep Convolutinal Network を構成する．
流れとしては，Deep Convolutional Network により特徴抽出，L2 ノルム計算，Triplet による損失関数を計算することで認識を実行する．
各層のデータ入力と出力の様子．第 1 から第 6 層までがたたみ込みとプーリング層，第 7,8 層が全結合層．その後，L2 ノルムによる正則化
を行う．
http://www.cv-
foundation.org/openaccess/content_cvpr_2015/papers/Schroff_FaceNet_A_Unified_2015_CVPR_paper.pdf
ニュース記事：
http://www.dailymail.co.uk/sciencetech/article-3003053/Google-claims-FaceNet-perfected-recognising-human-faces-
accurate-99-96-time.html

【6】
M. Jain, J. C. Gemert, C. G. M. Snoek, “What do 15,000 object categories tell us about classifying and localizing actions?”, in CVPR2015.
物体情報はいかに行動認識・行動検出のタスクに使えるかを実験した論文．6 種のデータセットにおける 200 時間，180 クラス以上もの行動カ
テゴリを識別するために物体情報を事前確率として持っておく．
物体の表現としては Deep Convolutionanl Neural Networks (DCNN; ここでは AlexNet)を用いる．
Motion 特徴には, Improved Dense Trajectories (IDT) + Fisher Vectors(FVs)を適用する．パラメータとして GMM の混合数は 256，Fisher Vector の
高次特徴表現は扱いづらいため PCA により圧縮するものとする．
物体情報を挿入することで，Motion 特徴のみの場合に比べて，UCF101: 84.2%=>88.1%, THUMOS14 val: 56.9%=>66.8%, KTH: 94.9% =>95.4%の
精度となった．UCF101 や THUMOS14 はスポーツ映像解析であり，道具を使う場面も多かったため，物体情報が有効に働いたと思われる．
物体のみとモーション特徴を含めた精度の推移．どちらも含めたほうが精度が上がることが判明した．
著者の Mihir Jain は，THUMOS14 の優勝者であり，Improved DT+FisherVectors, ConvNet を組み合わせた特徴量を用いている．
Link(s) 著者ページ：
https://www.irisa.fr/texmex/people/jain/index_en.php
THUMOS 14, Univ. of Amsterdam
http://crcv.ucf.edu/THUMOS14/papers/University%20of%20Amesterdam.pdf

【7】
J. Hur, H. Lim, C. Park, S. C. Ahn, “Generalized Deformable Spatial Pyramid”, in CVPR2015.
2D 画像の幾何的な位置関係を考慮した変換を施す．2 枚の類似した画像(e.g. 猫や花のペア)を入力し，source image から destination image への幾何
的な変化(回転，拡大縮小などのアピアランスの変化)を考慮して，まずはブロック単位，次にピクセル単位でマッチングしていく．手法には
Deformable Spatial Pyramid (DSP)と呼称される，MRF ベースのブロックレベル=>ピクセルレベルと徐々に詳細に解析していく処理を適用した．
2 枚の画像(左・中央画像)を入力とする．中央画像から右図への画像的な投影問題を考える．ブロック単位で類似する位置をマッチングし，さら
にブロックの拡大縮小や回転を考慮して投影していく．最終的な結果が右画像であり，左画像の矩形ブロックと，中央画像の変換されたブロッ
クがひとつずつ対応している．
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Hur_Generalized_Deformable_Spatial_2015_CVPR_paper.pdf
プロジェクトページ：
https://sites.google.com/site/hurjunhwa/research/gdsp

【8】
T. Shu, D. Xie, B. Rothrock, S. Todorovic, S.-C. Zhu, “Joint Inference of Groups, Events, and Human Roles in Aerial Videos”, in CVPR2015.
ドローンを用いた，航空動画像からのグループ・役割・イベント認識を行う．ドローンを用いた航空動画像イベント認識では，低解像・カメラ
モーション有り・影領域・時系列の変化など，困難な問題を含んでいる．
Ego-motion を取得した registration，クルマや人物の trajectories，グループ行動認識，グループ内でのインタラクションなど，多数のエッセンスが
含まれている論文である．
前処理として，registration を用いたパノラマ画像作成を行う．前景領域抽出と動線の抽出を同時に行う．イベント認識には Space-time And-Or-
Graph (ST-AOG)を適用する．グラフの学習には，MCMC ベースのサンプリングを行う．
http://web.engr.oregonstate.edu/~sinisa/
Youtube:
https://www.youtube.com/watch?v=nKzwfLa2lvc

【9】
B. Fernando, E. Gavves, J. Oramas, A. Ghodrati, T. Tuytelaars, “Modeling Video Evolution for Action Recognition”, in CVPR2015.
長時間行動のアピアランスは時系列ごとに変化(進化：Evolution)する．そういった変化度合いを適応的に捉えるフレームワークを提案する．
時系列のオーダー(順番)をランク付け学習することにより，行動認識へと応用する．
http://homes.esat.kuleuven.be/~bfernand/papers/CVPR2015_Fernando.pdf
著者ページ：
https://sites.google.com/site/basuraf/Home/research

【10】
K. Tanaka, Y. Mukaigawa, H. Kubo, Y. Matsushita, Y. Yagi, “Rcovering Inner Slices of Translucent Objects by Multi-frequency
Illumination”, in CVPR2015.
大阪大学八木研・奈良先端科学技術大学院大学の研究で，複数のレイヤにて構成される絵画などを分解する．これにより，より下の層にあ
る成分を抽出することも可能である．
赤外線のみだと分解することができないので，プロジェクタを設置，しかもパターンが異なる成分で光を取得することにより，異なる成分
が分解でき，複数レイヤに分けることが可能である．詳細はプロジェクトページのビデオを参照．
Link(s) プロジェクトページ：
http://www.am.sanken.osaka-u.ac.jp/~tanaka/projects/multi-freq.html

【11】
Shugao Ma, Leonid Sigal, Stan Sclaoff, “Space-Time Tree Ensenmble for Action Recognition, ” in CVPR2015
キーフレームに近い概念で行動認識している．人間の動作は手を振る，脚を上げる，などの基本的な動作を認識し，それらの動作の移動をグラ
フ理論に基づいて解析している．
例えば，腕を挙げる→脚を上げる→腕を回転させる＝投球，のように基本動作を組み合わせて行動認識している．
実験を UCF Sports Dataset で行った結果，89.4[%]の認識精度となった．手法など詳細は YouTube 動画参照．
http://cs-people.bu.edu/shugaoma/STTree/space-time-tree.pdf
Youtube：
https://www.youtube.com/watch?v=fLcUJAyGEhk

【12】
Heng Yang and Ioannis Patras, “Mirror, mirror on the wall, tell me, is the error small? , “ in CVPR2015.
最先端の手法で顔のアライメントや人の姿勢推定などを，ミラー画像(y 軸対称に反転した画像)で試したらエラー率は少なくなるのか？といっ
た疑問に取り組む．(mirror ability)
顔のアライメントや人の姿勢推定の最先端の手法で実験した結果，以下のような知見が得られた．
(1)最先端手法のほとんどが，ミラー画像で元画像のような性能を発揮するのが困難であった．
(2)それは，学習サンプルの偏りによって起こるのではなく．すべてのアルゴリズムは元画像とミラー画像の両方で学習されている．
(3)ミラー誤差は位置合わせの誤差に強い相関がある．
Link(s) 論文リンク：
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Yang_Mirror_Mirror_on_2015_CVPR_paper.pdf

【13】
Christopher Bongsoo Choy , Michael Stark , Sam Corbett-Davies and Silvio Savarese, “Enriching Object Detection with 2D-3D
Registration and Continuous Viewpoint Estimation , “ in CVPR2015.
従来の物体の位置姿勢推定は，離散化された視点での 3D モデルをテンプレートデータとし，それに最も近いデータを推定結果として扱っ
てきた．しかし，視点を離散化しているため，正確な推定結果は得られなかった．そこで，本手法では視点をその場で推定することで，より
正確な推定にチャレンジする．
クエリ画像から CNN や DPM を用いて対象物体を検出し，NZ-WHO を用いて姿勢の初期値を与える．並行して，3D モデルから HOG 特徴を
抽出し，NZ-WHO で視点を推定する．以上の初期値と視点をマージすることで微調整を行い，正確な推定を可能にする．
http://chrischoy.github.io/blog/external/cvpr15/choy_cvpr15.pdf
Youtube：
https://www.youtube.com/watch?v=YKtioOXY8yQ

【14】
Zhiyuan Shi, Timothy M. Hospedales, Tao Xiang, “Transferring a Semantic Representation for Person Re-Identification and Search, ”
CVPR2015.
人の再認識手法として，記述子ベースの手法と意味属性ベースの手法がある．意味属性の方は，最先端の記述子ベースの手法を上回ることが
できなかった．しかし，意味属性は監視対象人物の強力な情報を提供し，適合することができる．さらに，意味属性は記述子ベースの手法と組
み合わせることで性能を向上することができる．本論文では，人の Re-ID のための新しい意味属性学習手法を提案する．
パッチレベルで意味属性を推定し，人の Re-ID 性能を実験した結果，有効な結果が得られた．
手法のイメージ図実験結果
http://www.eecs.qmul.ac.uk/~tmh/papers/shi2015transferRep.pdf

【15】
Edgar Simo-Serra, et al., “Neuroaesthetics in Fashion: Modeling the Perception of Fashionability”, in CVPR2015.
大規模ソーシャル web からファッション解析する．服の画像を学習して推薦するシステムに応用する．Conditional Random Field を用いて，装飾
品・ユーザタイプ・写真の背景・服のスコア(データとの類似度？)を学習する．ユーザへのフィードバックを行い，ファッションの改善を試み
た．144,169 のサンプルデータが含まれるデータセットを学習した結果，CRF を用いたモデルは従来の方法を凌駕した．詳細なファッション画像
の解析により，6 年間のファッションのトレンドやそのスコアについて表示することに成功した．
http://www.iri.upc.edu/people/esimo/publications/SimoSerraCVPR2015.pdf
著者ページ:
http://www.iri.upc.edu/people/esimo/
前回論文@ACCV2014
http://www.iri.upc.edu/people/esimo/publications/SimoSerraACCV2014.pdf

【16】
S. Sridhar, F. Mueller, A. Oulasvirta, C. Theobalt, “Fast and Robust Hand Tracking Using Detection-Guided Optimization”, in CVPR2015.
Depth を入力として Quadtree Encoding により，手の分岐点やエッジ位置の重要度を高くし，2.5D 画像における Gaussian Mixture モデルを生成．Depth
のみを使用してエネルギー最適化するよりも，検出情報を事前情報として加えた方が精度が高くなりリアルタイムで手の追跡が可能となる．GPU を使
うことなく 50FPS で動作する．
Randomized decision forests が手の検出を行う．
http://handtracker.mpi-inf.mpg.de/projects/FastHandTracker/content/FastHandTracker_CVPR2015.pdf
Project ページ:
http://handtracker.mpi-inf.mpg.de/projects/FastHandTracker/

【17】
C. Wu, j. Zhang, S. Savarese, A. Saxena,, “Watch-n-Patch: Unsupervised Understanding of Actions and Relations”, in CVPR2015
高次な人物行動の共起性や時系列の関係性を unsupervised に見極める．行動をワードとトピックとして扱い，その時系列の関係性を記述す
ることにより，長期の行動行動認識を可能とする．入力デバイスには Kinect v2 を適用している．
Action co-occurrence: 「ミルクを取り出す」，と「ミルクを入れる」は密接な共起性がある．
Actinon temporal relations: 行動に準じて生じる行動があると説明している．
上図では RGB-D の映像を入力として，ミルクを冷蔵庫に入れ忘れていることを理解している．
http://www.cs.cornell.edu/~chenxiawu/papers/wpatch_wu_cvpr2015.pdf
著者ページ:
http://www.cs.cornell.edu/~chenxiawu/

【18】
C.-H. Huang, E. Boyer, B. C. Angonese, N. Navab, S. Ilic, “Toward User-specific Tracking by Detection of Human Shapes in Multi-
Cameras”, in CVPR2015
現在の人物形状トラッキングは生成的アプローチであり，繰り返しでヒューリスティックにデータの結合を行っている．しかし，この手法で
は左図(FAILS)のように結合のエラーが大きくなってしまう．提案手法では，識別的・生成的のハイブリッド手法を提案することで，one-shot
で対応点を求め，tracking-by-detection のように人物形状トラッキングを実現する．ここでは use-specific な regression forests を学習して毎フレ
ームアソシエーションを行う．与えられたアソシエーション結果から表面形状を変化させて形状と姿勢を同時に最適化する．Visual hulls(荒い
3D の表面モデル)を入力として，身体の姿勢を参照して対応点を求めた上で形状と姿勢を計算する．
3D の人物形状トラッキングの推定結果は YouTube 動画参照．
http://campar.in.tum.de/Chair/PublicationDetail?pub=huangc2015cvpr
YouTube：
https://www.youtube.com/watch?v=nYZ8f8z6Kiw

【19】
X. Zhang, Y. Sugano, M. Fritz, A. Bulling, “Appearance-Based Gaze Estimation in the Wild”, in CVPR2015.
MPII (元東大佐藤洋一研)の Sugano さん連名の論文．視線推定を非拘束の状況(in the Wild)で解くという問題．ラップトップ PC から撮影された
人物のデータセット(MPIIGaze dataset)を提案するが，他のデータと異なるのは 1 日で撮影し終わるのではなく，約 45 日間もの間撮影し続ける
というもの．照明や姿勢の変動等困難な場面において顔認識や視線推定を実行しなければならない．これを，Multimodal Convolutional Neural
Network を用いて目領域を検出し，姿勢推定を効率よく推定できている．
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Zhang_Appearance-Based_Gaze_Estimation_2015_CVPR_paper.pdf
https://www.mpi-inf.mpg.de/departments/computer-vision-and-multimodal-computing/research/gaze-based-human-computer-
interaction/appearance-based-gaze-estimation-in-the-wild/
著者ページ 2：
http://www.yusuke-sugano.info/ja/

【20】
A. Nguyen, J. Yosinski, J. Clune, “Deep Neural Networks are Easily Fooled : High Confidence Predictions for Unrecognizable Images”, in
CVPR2015.
CNN の認識方法では，そもそも人間と違うため簡単に間違えてしまうという提案．画像を入力して何かしらのクラスを出力しなければいけな
いという設計なので間違える．認識の最悪のパターンも生成的に生み出して，CNN の出力結果が容易に間違うことを示した上で，認識しづら
い画像をどのように推定するかという実験を与えている．CPPN(compositional pattern-producing network)は画像をエンコードするネットワークで
ある．
http://www.evolvingai.org/fooling
論文ページ：
http://www.evolvingai.org/files/DNNsEasilyFooled_cvpr15.pdf

【21】
H. Hattori, V. N. Boddeti, K. Kitani, T. Kanade, “Learning Scene-Specific Pedestrian Detectors without Real Data”, in CVPR2015.
シーンを自動で認識し，背景も含めた状態で CG で歩行者の学習データを大量に生成し，歩行者検出の精度を上げる論文．幾何的に平面推定，障
害物・壁認識をして，36 種類の歩行者，数種類の歩き方，オクルージョンパターンなどを学習することにより DPM よりも精度が上がることがわ
かった．学習画像を幾何的に CG を駆使して生成する．カメラ位置に対して 10 万箇所，4,000 種類の歩行者のテクスチャを配置することにより，4
億パターンもの歩行者サンプルを生成することに成功した．
識別器にはアンサンブル学習を用いており，難しい検出器を使わなくても安定した検出器を学習できることが判明した．検出が安定しているがゆ
えに，3D に投影しても軌跡が安定することがわかった．検出例は YouTube 動画参照．
http://www.cs.cmu.edu/~kkitani/pdf/HBKK-CVPR15.pdf
youtube ページ：
https://www.youtube.com/watch?v=2Jf7faozHUs

【22】
Shuran Song, Samuel P. Lichtenberg, Jianxiong Xiao, ”SUN RGB-D: A RGB-D Scene Understanding Benchmark Suite”, in CVPR2015.
SUN dataset(シーン認識のデータセット)の RGB-D 版．contains 10,335 RGB-D images, at a similar scale as PASCAL VOC. The whole dataset is densely
annotated and includes 146,617 2D polygons and 64,595 3D bounding boxes with accurate object orientations, as well as a 3D room layout and scene category
for each image という RGB-D のサンプルがデータセット中に含まれる．
主に屋内環境において，Kinect v2 を用いて撮影を行っている．R-CNN など最先端の手法を用いて物体検出を行っており，検出のプロトコル(ア
ノテーションや正解率の算出方法)も紹介している．
http://rgbd.cs.princeton.edu/paper.pdf
YouTube 動画：
https://www.youtube.com/watch?v=fOQdC7aeIr8
http://rgbd.cs.princeton.edu/

【23】
Richard Newcombe, Dieter Fox, Steve Seitz,”DynamicFusion: Reconstruction and Tracking of Non-rigid Scenes in Real-Time” in CVPR
2015
Kinect/Xtion/Primesense の RGBD センサを入力とし，人体のような 3 次元の非剛体をリアルタイムに合成する．
入力から RGB 画像と 3 次元のモデルを抽出し，3D=>2D の射影や 3 次元モデル合成，そして 3 次元の空間にてリアルタイムに表示する．
http://grail.cs.washington.edu/projects/dynamicfusion/papers/DynamicFusion.pdf
YouTube 動画：
https://www.youtube.com/watch?v=i1eZekcc_lM&feature=youtu.be
http://grail.cs.washington.edu/projects/dynamicfusion/

【24】
C. Szegedy, W. Liu, Y. Jia, P. Sermanet, S. Reed, “Going Deeper with Convolutions”, in CVPR 2015
2014 年 ImageNet チャレンジ勝者，GoogLeNet に関する論文．エラー率は top-5 で 6.67%．
全 22 層，CPU にて並列計算する構成になっており，全結合層を持たない．最終層の平均値プーリングを取り，そのまま soft max へ入力する．
全結合層を省略することにより，パラメータ数を AlexNet の 1/10 以下に減らした．
最近では，Deep Learning オープンソースである Caffe にも GoogLeNet が搭載され，配布されている．
赤：プーリング層，青：たたみ込み層，黄色：ソフトマックス(出力)，緑：その他の処理
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Szegedy_Going_Deeper_With_2015_CVPR_paper.pdf
poster：
http://www.cs.unc.edu/~wliu/papers/GoogLeNet_poster.pdf

【25】 F. C. Heilbron, V. Escorcia, B. Ghanem, J. C. Niebles, “ActivityNet: A Large-Scale Video Benchmark for Human Activity Understanding”,
in CVPR 2015
In spite of many dataset efforts for human action recognition, current computer vision algorithms are still severely limited in terms of the variability and
complexity of the actions that they can recognize. This is in part due to the simplicity of current benchmarks, which mostly focus on simple actions and
movements occurring on manually trimmed videos. In this paper we introduce ActivityNet, a new large- scale video benchmark for human activity
understanding. Our benchmark aims at covering a wide range of complex human activities that are of interest to people in their daily living. In its current
version, ActivityNet 1.0 provides samples from 203 activity classes with an average of 137 untrimmed videos per class and 1.41 activity instances per video,
for a total of 849 video hours. We illustrate three scenarios in which ActivityNet can be used to compare algorithms for human activity understanding:
untrimmed video classification, trimmed activity classification and activity detection.
https://dl.dropboxusercontent.com/u/18955644/website_files/ActivityNet/ActivityNet_CVPR2015.pdf
http://activity-net.org/
youtube：
https://www.youtube.com/watch?v=5DfDlOppNNE

【26】
Y. Li, L. Liu, C. Shen, A. Hengel, “Mid-level Deep Pattern Mining” in CVPR 2015
CNN の畳み込みとプーリングにより生成された特徴量を用いて特徴のマイニングを実行する論文．
ソフトは Caffe，モデルは AlexNet を使い，特徴は最初の全結合層である第 6 層を用いる．マイニング手法には Association Rules を，探索のため
のトランザクションは上位 N 次元の数値を用いる(association rules では次元数が高いと探索が困難になるため上位 N 次元と限定していると思わ
れる)．同クラスの物体であれば特徴の強度分布も類似するという戦略でサブセットを取る．
http://cs.adelaide.edu.au/~yaoli/wp-content/publications/cvpr15_MDPM.pdf
github:
https://github.com/yaoliUoA/MDPM

【27】
Tu-Hoa Pham, Abderrahmane Kheddar, Ammar Qammaz, Antonis A. Argyros, “Towards Force Sensing From Vision: Observing Hand-
Object Interactions to Infer Manipulation Forces” in CVPR 2015
ハンドモデル，物体モデルから，力のモーメントを算出して 3 次元的に可視化する研究．入力は RGBD センサ，モデルベースのトラッキン
グにより手や物体の markerless tracking を実現した．触れている手と物体の位置から，法線を抽出して力のかかり具合を推定．
Link(s) youtube リンク：
https://www.youtube.com/watch?v=C4k-FPWM1t0

【28】
A. Milan, L. Leal-Taixe, K. Shindler, I. Reid, “Joint Tracking and Segmentation of Multiple Targets”, in CVPR 2015.
superpixel と CRF を用いて時系列でセグメンテーションとトラッキングをするという内容．detection も事前情報として使っていると思われ
る．
CRF の手法について改善があり，人物や物体の検出結果を high-level に，low-level な情報として superpixel を仮説として扱う．この二つを情
報として(人数が unknown な)複数人物間でセグメンテーションとトラッキングを同時にこなす．時系列的にオクルージョン対策をしながら
追跡している．
CRF によるトラッキングなので，superpixel と検出による unary 項と，両者の関係性を記述する pairwise 項からなるエネルギー式を最小化す
る問題に落とし込める．
Link(s) Project page:
http://www.milanton.de/segtracking/index.html
youtube リンク：
https://www.youtube.com/watch?v=_0WrLy641F0

【29】
H. Feng, et al., “From Captions to Visual Concepts and Back”, in CVPR2015.
Microsoft Research の画像(映像)説明文の生成に関する論文．
画像識別により抽出されたワードを次のステップで(複数の)センテンス生成，そして最後にランク付けして上位のものを評価するという構成で
画像を説明する文章を生成する．
画像認識の研究者だけでなく，自然言語処理の研究者が集結して出された成果である．
ちなみに，現在 Microsoft Research には Deep Learning Technology Center という研究グループが存在する．
http://research.microsoft.com/apps/pubs/default.aspx?id=241127

【30】
S. Tang, B. Andres, M. Andriluka, B. Schiele., “Subgraph Decomposition for Multi-Target Tracking”, in CVPR2015.
混雑状況下でのトラッキングを，subgraph の分解により解決する．
複数人物追跡を”Minimum Cost Subgraph Multicut Problem”を解いている．
過検出した後に，時系列で検出の尤度を，ベイジアンネットワークを用いて求めている．それにより，オクルージョンなどに対しても頑健なト
ラッキングを可能にしている．
https://www.d2.mpi-inf.mpg.de/user/44

【31】
Y. Xiang, W. Choi, Y. Lin, S. Savarese, “Data-Driven 3D Voxel Patterns for Object Category Recognition”, in CVPR2015.
2 次元の検出はビジョンの研究によりかなり進んでいるが，3 次元的な検出は(2 次元の検出ほどは)未だ進んでいない．3D Voxel Pattern (3DVP)を
用いて，3 次元的な検出に取り組み，オクルージョンや欠けが生じた物体に対しても検出を行えるようにする．モデルベースで隠れの裏側も認識
できるようにする．
30%までのオクルージョンなら 90.0%, 30-60%のオクルージョンなら 76.5%, 60%以上のオクルージョンなら 62.1%の認識率である．
http://cvgl.stanford.edu/projects/3DVP/

【32】
Dapeng Chen, Zejian Yuan, Gang Hua , Nanning Zheng and Jingdong Wang, “Similarity Learning on an Explicit Polynomial Kernel Feature
Map for Person Re-Identification”, in CVPR2015.
Person Re-identification における，画像間の類似度を計測する段階に焦点を当て，新しい類似関数を提案する．従来の類似関数は，検索人物画
像との類似度を単純に計算し，距離を計測していた．それに対し，本手法では，多項式カーネル特徴マップに基づき，画像ペアの連結された記
述子を用いる．
このように，ペアで学習することにより性能を向上することが可能となった．
Link(s) http://research.microsoft.com/en-us/um/people/jingdw/pubs%5CCVPR15-PersonReID.pdf

【33】
Liang Zheng, Shengjin Wang, Lu Tian, Fei He, Ziqiong Liu, and Qi Tian, “Query-Adaptive Late Fusion for Image Search and Person Re-
identification , “ in CVPR2015.
画像検索や Person Re-ID のための有効な特徴の組み合わせ法の提案．
特徴の組み合わせは画像検索において有効であることが証明されている．クエリ画像において特徴の融合が効果的に機能していると仮定す
る．しかし，実際の環境で，特定のクエリにおいて効果的かどうかはわかっていない．そのため，クエリにおいて特徴の有効性を識別すること
は非常に重要である．
この目標に向かって，本論文ではシンプルで効果的な特徴の統合法を提案している．良い特徴でソートされたスコア曲線は L 字形状を示すこ
とがあるが，悪い特徴では徐々に下降する．無関係なデータを収集し，スコア曲線の尾を近似することにより，特徴の有効性は正規化されたス
コア曲線下の面積の負の関係として推定することができる．
実験は 2 つの画像検索データセットと 1 つの Re-ID データセットで行う．特に悪い特徴に対して，パラメータ変化に頑健であり，2 つの有効
な統合方式よりも優れていることを示している．
http://www.liangzheng.org/CVPR15_query.pdf

【34】
Anna Rohrbach, Marcus Rohrbach, Niket Tandon, Bernt Schiele, “A Dataset for Movie Description”, in CVPR2015.
MPII から，映画シーンの動画説明文を構築するためのデータセット構築．
音声文と動画説明文を比較して誤りを訂正することも可能である．誤りは下図の赤文字で示されている．
特徴量としては，Dense Traj.(Trajectory, HOG, HOF, MBH), CNN によりクラスわけされた 7604 種の物体クラスと 205 種の place クラスである．
https://www.mpi-inf.mpg.de/departments/computer-vision-and-multimodal-computing/research/vision-and-language/mpii-movie-description-
dataset/
論文ページ：

【35】
Shengcai Liao, Yang Hu, Xiangyu Zhu and Stan Z. Li, “Person Re-idenification by Local Maximal Occurrence Representation and Metric
Learning”, CVPR 2015.
Person Re-identification には，大きく分けて
1) ロバストな特徴表現
2) metric learning
の課題がある．本論文では，特徴表現として LOcal Macimal Occurence (LOMO)，metric learning として Cross-view Quadratic Discriminant
Analysis(XQDA)を提案する．LOMO は水平方向の局所特徴の発生頻度を解析することで，視点の変化に対して頑健な特徴である．また，照明変動
を抑えるために，Retinex 変換を使い，スケール変化にはテクスチャ特徴を用いた．以上の手法を 4 つのデータセット(VIPeR, QMUL GRID, CUHK
Campus, and CUHK03)で実験した．
LOMO の処理概要図 VIPeR での実験結果
http://arxiv.org/pdf/1406.4216.pdf

【36】
Bharath Hariharan, Pablo Arbelaez and Ross Girshick, “Hypercolumns for Ogject Segmentation and Fine-grained Localizetion”, CVPR 2015.
Fine-grained な物体のセグメンテーションと位置合わせに取り組む．畳み込みニューラルネットワーク(Convolutional network: CNN)に基づく認識ア
ルゴリズムは，基本的に最後の層を特徴として出力する．しかし，この層の中の情報は，正確な位置を抽出するためには粗すぎる場合がある．逆
に，その前の層は，位置は正確かもしれないが，属性情報は取得できない．両方の長所を取得するため，私達はすべての CNN の活性化のベクト
ルとしてピクセルでハイパー列を定義する．ピクセル記述子としてハイパー列を使用して， Fine-grained なローカライゼーションタスクに取り組
む．
ハイパー列概念図セグメンテーション結果
(上：従来手法，下：提案手法)
http://www.cs.berkeley.edu/~bharath2/
論文ページ：
http://arxiv.org/pdf/1411.5752.pdf

【37】
Afshin Dehghan, Yicong Tian, Philip.H.S.Tori and Mubarak Shah, “Target Identity-aware Network Flow for Online Multiple Target
Tracking”, in CVPR 2015.
複数の物体を追跡する手法について検討する．本手法は，ネットワークのノードを確率的に符号化するターゲットの識別を意識したネットワ
ークフロー(Target Identity-aware Network Flow:TINF)を通して構造的に学習される．最適なネットワークをグラフ理論に基づいたラグランジュ
最適化によって見つける．
http://www.robots.ox.ac.uk/~tvg/publications/2015/MOT_SSVM_CVPR15_V7_CamReady.pdf
Youtube：
https://www.youtube.com/watch?v=sd3dI9uL4Bg

【38】
G. Gkioxari, J. Malik, “Finding Action Tubes”, in CVPR2015.
行動検出問題解決のために可視画像に CNN 特徴学習した形状特徴(spatial-CNN)やモーション空間に CNN 特徴学習を適用したモーション特徴
(motion-CNN)を適用して，行動中の人物の位置を特定する．主に人物行動を特徴として学習するが，必要に応じて物体やシーンの特徴も取得し
てくる．
フレーム内で検出された人物行動の矩形を時系列フレーム間でつなぎ合わせる表現を”Action Tubes”と定義して問題に取り組んでいる．
具体的な方法としては Spatial-CNN と Motion-CNN をそれぞれ画像空間やそれを変換したモーション空間中から取得し，第 7 層のベクトルをつな
ぎ合わせ，Linear SVM により識別して行動タグやその位置を取得する．
従来モデルである R-CNN(CVPR2014)では 100 フレーム処理するために 18 分もの時間を要したが，今回のモデルは極めて単純であり高速かつ良
好な結果をもたらした．
例として，UCF sports における frame-AP は 68.1%であり，映像単位でタグ付けする video-AP では 75.8%の精度で行動検出に成功した．
http://www.cs.berkeley.edu/~gkioxari/ActionTubes/

【39】
X. Sun, Y. Wei, S. Liang, “Cascaded Hand Pose Regression”, in CVPR2015.
従来型の 2 次元画像における回帰モデルを用いた手部姿勢推定を拡張して，3 次元での手部姿勢推定を実現した．2D の特徴量を 3D 特徴量に一般化
して 3 次元の幾何変化に対して頑健にした．階層的に回帰モデルを構成することにして精度を向上させている．
HandModel は 21 次元の関節で構成されている．
ニュートラル状態から HandModel をフィッティングさせていき，前状態から適宜更新することで徐々に主部推定を行なっていく．
3 次元特徴では，ランダムの 3D オフセットを作成して，3 次元的なカメラの変化に対応しつつ(Kinect の姿勢推定のような)距離画像でのピクセル差
分特徴量を取得する．
http://research.microsoft.com/en-US/people/yichenw/cvpr15_handposeregression.pdf

【40】
T. Xiao, Y. Xu, K. Yang, J. Zhang, Y. Peng, Z. Zhang, “The Application of Two-level Attention Models in Deep Convolutional Neural Network
for Fine-graiend Image Classification”, in CVPR2015.
従来の fine-grained 認識では背景除去や DPM などによる部位検出を行い，特定部位から特徴抽出することにより分類しやすい特徴構成としてきた
が，ここでは CNN を用いて候補となるパッチを自動抽出，そのなかで特徴選択し，最終的に識別に必要なベクトルを抽出する．つまり，従来の
fine-grained 認識の工程をすべて CNN 内部に収めるという戦略をとる．
FilterNet では，例として ImageNet の各ラベルに投票していき，多数用意されている bird クラス群の尤度が高い場合にはひとつ上の階層の bird とラ
ベル付けする．DomainNet では，bird クラスと判別されたパッチからより細かいパーツを取り出す．
モデルは Oxford の VGG を用いて，two-level attention を適用した結果は ImageNet2012 の dog カテゴリに対して error: 28.1%，bird クラスに対しては
error: 11.0%を達成した．
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Xiao_The_Application_of_2015_CVPR_paper.pdf

【41】
M. Dou, J. Taylor, H. Fuchs, A. Fitzgibbon, S. Izadi, “3D Scanning Deformable Objects With a Single RGB Sensor”, in CVPR2015.
RGBD センサにより 3D スキャンしたモデルを構成する．
センサから動画として距離画像を読み込み，partial scan を行い，非剛体の物体においても滑らかに処理が可能とし，角度合わせ(alignment)ができ
るようになった．最初の alignment ではノイズを多く含む 3D モデルであるが，Loop-closed scan によりノイズ除去，volumetrically fused surface によ
り表面を滑らかにする．最終的には Bundle Adjustment によりパラメータ推定，詳細な位置合わせにより 3 次元のメッシュを生成する．
従来手法である 3D Self-Portraits よりも，より細部まで 3 次元のモデリングが成功している．
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Dou_3D_Scanning_Deformable_2015_CVPR_paper.pdf
youtube ページ：
https://www.youtube.com/watch?v=t9BP8Z1xZsA

【42】
C. Käding, A. Freytag, E. Rodner, P. Bodesheim, J. Denzler, "Active Learning and Discovery of Object Categories in the Presence of
Unnameable Instances" in CVPR2015.
データセット構築におけるラベル付の自動化手法．
画像から物体を検出する際，不正解の検出に対して頑健性を向上させる．Active Learning によって未知のクラスもクラスタリングで発見し，逐次
的にラベルを付与する．この Active Learning において，この研究では Expected model Output Changes(EMOS)の主成分を用いて精度を向上させてい
る．
http://hera.inf-cv.uni-jena.de:6680/pdf/Kaeding15:ALD.pdf
Youtube：
https://www.youtube.com/watch?v=AEIrYqMHH74

【43】
Patrick Snape, Yannis Panagakis, Stefanos Zafeiriou, “Automatic Construction Of Robust Spherical Harmonic Subspaces”, in CVPR2015.
本稿は非拘束(in-the-wild)の顔画像データセットから，低次元の球体調和に基づいて自動的に固有クラス特定する方法を提案する．ロバストに形
状と同一結合モデルを復元するために，校正されてない照度差ステレオの既存技術と低ランクの行列分解を組み合わせる．これにより 3 次元モ
デルを用いることなく，高密度の 3 次元顔形状復元のための効率的な疎な顔特徴量と組み合わせることができる．この手法は，2000 以上のイメ
ージモデルを構築するための時間はわずか数分であり，訓練の時間としては早いオーダーのため非常に効率的．さらに，リアルタイムでの顔形
状の復元に使用できる．
Figure 4: Person specific model fitting for Tom Hanks. Images of Tom Hanks coarsely aligned by a fa- cial alignment method. Our algorithm improves the fa-
cial alignment and simultaneously recovers depth. Im- ages shown are from a YouTube video of Tom Hanks.
http://www.iai.uni-bonn.de/~frintrop/paper/frintrop-etal-cvpr2015.pdf

【44】
B. Allain, J.-S. Franco, E. Boyer, “An Efficient Volumetric Framework for Shape Tracking”, in CVPR2015.
現在の CV においては表面形状をトラッキングする手法が数多く存在する．しかし，表面形状の 3D トラッキングにおいては内的な変化や，物体そ
のものの変化をとらえて追跡しているわけではないということを念頭において研究を行った．
この研究においては 3 次元物体そのものの，体積まで含めてトラッキングする手法を提案する．ボロノイ分割を用いた体積推定により，高速な処理
を実現した．
下図の(a)はグリッド分割して等間隔の 3D 空間内に格納する．(b)は三角メッシュ(2D 画像)のように三角錐で表現，(c)ではランダムな centroid に格
納，(d)は提案手法であり，ほぼ等間隔ではあるが，ボロノイ分割により体積推定まで可能とする．
https://hal.archives-ouvertes.fr/hal-01141207v1

【45】
Jianyu Wang and Alan Yuille, “Semantic Part Segmentation using Compositional Model combining Shape and Appearance ”, in CVPR2015
動物の部分セグメンテーションの課題に取り組む．
これは通常の物体検出よりもチャレンジングであり，物体セグメンテーションや姿勢推定は，非常に多くの形状や似たような外観を有しているので
困難なタスクである．これらのチャレンジに取り組むため，物体の境界や意味のある部位の境界といった組織の混合モデルを構築する．そして，組
織モデルの中の意味のある部分手がかりとして外観情報であるエッジを組み込む．部分レベルのセグメンテーションの注釈を与え，一定の動物のク
ラスのための様々な姿勢や視点の下で，組織の混合モデルを学習する新しいアルゴリズムを開発する．その上，線形で複雑なアルゴリズムは動的プ
ログラムを用いて組織モデルの効率的な推論のために提供される． Pascal VOC2010 を用いて評価した．実験の結果，手法の有効性を示した．
http://arxiv.org/pdf/1412.6124v1.pdf

【46】
Yao Qin, Huchuan Lu, Yiqun Xu, He Wang, “Saliency Detection via Cellular Automata”, in CVPR2015.
本稿では，直感的に顕著な物体を検出するためのセル・オートマトン動的進化モデルを紹介する．まず，クラスタ化された境界のシードとともにグローバ
ルカラーと空間距離行列を用いて背景をベースとしたマップを構築する．この時，セル・オートマトンに依存した伝搬メカニズムが近傍のセルと相互作用
して類似領域固有の関連性を持つことを利用する．Impact factor 行列と coherence 行列は各セルの次の状態との影響力のバランスがとれるように構成する．
これによりすべてのセルの顕著性のボリュームが提案する更新規則に従って改善される．最後に，複数の顕著性マップを利用するためのマルチレイヤセル
オートマトンと名付けたベイズ推定を基にした統合方法を提案する．これは，顕著性マップの優位性を利用するものであり，高い精度と高い再現率を実現
する．
実験では 6 つのパブリックデータセットを用いて行い，提案する手法が最先端の手法より優れていることを示した．
Figure 1. Integration of global color distinction (GCD) maps in
Eqn 1 and global spatial distance (GSD) maps in Eqn 2 .
【追記】
セルオートマトンのプロパゲートメカニズムの枠組みにより，(感覚的に)Saliency のような類似する領域の統合が計算できるという研究．また，ベイズの枠
組みを統合することにより，Saliency を計算するフレームワークが拡張できる．
まず，画像中を領域で分けるために k-means アルゴリズムを実装する．色特徴は，スーパーピクセル SLIC 内 CIE LAB 表色系の平均色を用いている．スー
パーピクセルを一つのセルと見た場合のセルオートマトンによりつながりや物体間の境界線を適切に決定していく．色情報のユークリッド距離値を計算す
ることにより，ある物体内のピクセルなのか，物体間のピクセルなのかをスーパーピクセル単位で決定する．
下図のように，複数の階層により異なる指標で距離計算してセルオートマトンにより境界を決定し，それらの結果を統合することによりセグメンテーショ
ンが完成する．
下はセグメンテーションの結果である．一番左の図が入力画像，一番右が ground truth であり，右から二番目が提案手法(multi-layer cellular automata)．
http://202.118.75.4/lu/Paper/CVPR2015/qinyao/2015CVPR_Cellular%20Automata.pdf

【47】
G. Papandreou, I. Kokkinos, P.-A. Savalle, “Untangling Local and Global Deformations in Deep Convolutional Networks for Image
Classification and Sliding Window Detection”, in CVPR2015.
スケール変動に対応するための max-pooling(MP)手法を検討し，mini-epitomic deep networks として提案．epitome とは，例えば下図のように，あ
る図形を構成するためにより小さな図形を組み合わせて構成する仕組みのようなことを言う．このために CNN のパラメータを共有し，かつスケ
ール変動に対応するために DeepNet アーキテクチャを改善する．この仕組みを取り入れた mini-epitomic deep networks は入力画像よりも少し大き
くかつその入力画像に対応する画像を用意し，位置ズレやスケール変動に対応する．この上で検出窓を統合する際の学習方法には Multiple
Instance Learning(MIL)を適用する．
Mini-epitomic deep networks を適用後，baseline である CNN が error 率 13.0%であるのに対して 11.9%，さらに MIL により sliding window 位置ズレ
やスケール変動に対して統合する処理を加えたところ 10.0%の error 率を達成した．
https://scholar.google.com/citations?user=6GdwHssAAAAJ
参考資料：
http://cvn.ecp.fr/personnel/iasonas/slides/FCNNs.pdf

【48】
J. Heinly, et al., "Reconstructing the World in Six Days", in CVPR2015.
世界を 6 日間で作った．Yahoo flicker に存在する 100million の画像を用いて，世界中のランドマークの 3 次元構成をするという提案．また，それら
の画像をデータセットとして公開している．
この手の話は ICCV09 の Building Rome in a day が有名で，Structure from motion(SfM)を使い，3 次元モデルを構成しているが，その際よりもさらにデ
ータ数が増えている．にも関わらず，コンピュータ単体を 6 日間回すことで復元できる．
http://jheinly.web.unc.edu/research/reconstructing-the-world-in-six-days/

【49】
Y. Zhang, K. Sohn, R. Villegas, H. Lee, "Improving Object Detection with Deep Convolutional Networks via Bayesian Optimization and
Structured Prediction", in CVPR2015.
CNN を用いた物体検出システムに関する研究．ベイズ最適化を適用して候補領域を最適に決定する問題を解決する．構造化された損失関数を解く
ことで，識別だけでなく検出位置に関しても精度を良くするという内容．
R-CNN の物体検出においては，最初に検出した枠にとらわれて，最適な検出枠に最適化することができない，またその問題を解決するために構造
化学習の枠組みを取り入れて識別と位置特定を同時に解決していく．
貢献としては，(1)ベイズ最適化を用いることで，検出枠の統合を精度良く行う (2)CNN を用いた物体検出のために構造化学習を取り入れる (3)ベイ
ズ最適化や構造化学習は汎用的に他の CNN モデルでも適用できるようにする (4)PASCAL VOC2007 や 2012 のデータセットにおいて R-CNN よりも
精度が向上している様子を実証する．
下図は実際の物体検出の様子を示した図である．最初に selective search により「荒く」検出枠を出力する．各工程で CNN の識別により出力値を出
していき，適応的に引き出して最適な位置関係に検出枠が来るようにする．

【50】
Afshin Dehghan, Shayan Modiri Assari and Mubarak Shah, “GMMCP Tracker: Globally Optimal Generalized Maximum Multi Clique Problem
for Multiple Object Tracking”, in CVPR2015
データアソシエーションは多くの複数物体の追跡手法で用いられている．本稿では，私達は Generalized Maximum Multi Clique Problem (GMMCP)と
してデータアソシエーションを策定する．フレームの注目バッチの間のすべての関係性を，実世界で追跡する．従来研究は，問題の定式化や最適
化のいずれかに焦点をあてており，追跡の簡易版を前提としている．しかし，私達はいずれかの段階で簡素化されていないと仮定された
GMMCP を用いた解法を提案する．効率的に発見することができる中小 MOT 問題の解法である Binary Integer Program を通して定式化することが
できる GMMCP の困難な課題を示す．高速化するため，経験則によらないグラフのサイズを削減し，閉塞や誤検出に強い Aggregated Dummy
Nodes を採用する．
私達の手法は高速化処理を施して，どのような用途においてもリアルタイム実装に適していることを示す．私達の追跡手法をチャレンジングな連
続画像 Town Center，TUD-Crossing，TUD-Stabmitte，Parking-lot 1，Parking-lot 2，Parking-lot pizza で実験し，最先端の結果を示した
http://crcv.ucf.edu/people/phd_students/afshin/Afshin_Dehghan_GMMCP_CVPR15.pdf
Youtube：
https://www.youtube.com/watch?v=pLPcAgldMrE

【51】
K. Lenc, A. Vedaldi, “Understanding image representations by measuring their equivariance and equivalence”, in CVPR2015.
画像の表現について調査した．その 3 つとは equivariance, invariance, equivalence である．equivariance は画像の変化による表現の変化であり，
invariance はその特殊な例で，画像の変化によらず(画像特徴などの)表現が一定である．equivalence はその二つの特性を保有する．
oxford 大学の CNN アーキテクチャである，VGG(16-layer)を適用して，畳込まれた特徴を幾何変換して，画像の変動に頑健にする．変換行列は非常
に簡単であり，図のように画素値や，特徴空間上での対応関係が取得できるようにする．transformation layer により，CNN アーキテクチャの mid-
level，high-level な特徴を，回転フリーにする．さらには stitching layer を準備することにより線形フィルタによる特徴蓄積表現を実現する．画像の
幾何的な変換にも頑健に対応し，それら mid-level, high-level な特徴量の組み合わせにより物体を検出可能である．
http://www.robots.ox.ac.uk/~vedaldi/assets/pubs/lenc15understanding.pdf

【52】
J. Straub, et al., “Small-Variance Nonparametric Clustering on the Hypersphere”, in CVPR2015.
新しい k-means ベースのクラスタリング手法を提案し，平面などの形状に対して法線推定を適用する．フォン・ミーゼス分布により確率分布を
円周上の連続値であると仮定し，ディリクレ過程でノンパラメトリックにクラスタを推定する．特徴空間を適応的に分割し，3 次元平面推定に
役立てることにより RGB-D 空間の 3 次元空間の状態を適切にセグメンテーションする．
時系列的な表現を用いた DDP-vMF-means においては，効果的な人工平面検出を実現した．従来では分けることが困難であった小さな分散も考
慮し，クラスタリングの分離性能を高めたことにより，詳細な人工の平面分割性能を高めたと言える．
https://www.youtube.com/watch?v=wLP18q80oAE

【53】
Bruce Xiaohan Nie, Caiming Xiong and Song-Chun Zhu, “Joint Action Recognition and Pose Estimation From Video”, in CVPR2015.
ビデオからの行動認識と姿勢推定は人間の行動を理解するという意味で関連したタスクである．しかしほとんどの手法はモデルを分解し，連続
して組み合わせて学習している．本稿では，私達は 2 つのタスクの試行と学習を統合するための枠組みを提案する．時空間の And –Or グラフモ
デルは 3 つのスケールで行動を表現することを導入する．具体的には，行動を，中間レベルの ST-Parts でポーズに分解する．私達のモデルの階
層的な構造は，各フレームの姿勢の外観や幾何学情報を取得し，特定行動のモーション情報を取得する隣接フレームで ST-parts 間の側面を接続
する．3 つのスケールのモデルのパラメータは差別的に学習され，行動ラベルや姿勢は動的なプログラミングによって効率的に推測される．実
験は私達の手法が行動認識で最も最先端な精度となることを示した．
http://www.stat.ucla.edu/~sczhu/papers/Conf_2015/pose_action_CVPR2015.pdf

【54】
R. Yonetani, K. M. Kitani, Y. Sato, “Ego-Surfing First Person Videos”, in CVPR2015.
一人称カメラで日常を撮影したときに自分の映像を編集する際の認識．顔認識を対象として，オクルージョンの激しい顔，遠くにいて画像のサイ
ズが小さい顔の認識問題を解決すべく研究を進めた．ここでは，いかに顔を supervoxel 表現の中でセグメンテーションするかを検討する．
人物の候補領域から取得したモーションを local-motion，対象映像全体の領域を global-motion と位置付けてこれら二つの相関を計算する．候補領
域取得のために[Poleg, ACCV2014]の人物検出方法を適用し，さらには supervoxel[Xu, ECCV2012]の表現を取り入れる．
下図では，候補領域から取得するモーションの相関性をグラフ化している．n に比べて，観測側と local-motion a は非常に相関性が高い．お互いに
同期していることがわかる．
FisherFace + Haar-like が 51% (Univ of Tokyo dataset), 53% (CMU dataset)である中，提案手法はそれぞれ 79%，79%を達成．
http://www.cs.cmu.edu/~kkitani/pdf/YKS-CVPR15.pdf

【55】
M. Cimpoi, Subhransu Maji, Andrea Vedaldi, “Deep filter banks for texture recognition and segmentation”, in CVPR2015.
材質とテクスチャの関係性を解析する研究．Fisher Vector によりプーリングされた特徴量を CNN のたたみ込みにより特徴抽出することを提案する
(FV-CNN)．FV-CNN では，Flickr material dataset において 79.8%，MIT indoor scenes において 81%を達成しており，従来法よりも約 10%高い結果と
なった．材質とテクスチャの大規模解析は今回の提案が初めてであり，attribute 認識やセグメンテーション問題を解いている．
FV により抽出されたベクトルにはテクスチャの周期性や模様などの位置不変な特徴を捉え，さらにはマルチスケールに特徴抽出ができる，さらに
は CNN により画像サイズを気にせずに入力ができ，さらには簡易的に fine-tuning をせずとも全結合層に移行できることが利点となる．
http://cmp.felk.cvut.cz/~matas/papers/chum-clustering-tr08.pdf
Describable Textures Dataset (DTD)
http://www.robots.ox.ac.uk/~vgg/data/dtd/

【56】
G.Yu, J.Yuan, “Fast Action Proposals for Human Action Detection and Search”, in CVPR2015.
Junsong Yuan 先生による行動検出に関する論文．
Dense Trajetories 特徴を抽出し，actionness 得点という時空間パッチを抽出する．そして，そのパッチを組み合わせることで，1 つの行動を検出
している．
MSRII と UCF101 で行動検出の性能を評価した．
http://eeeweba.ntu.edu.sg/computervision/Research%20Papers/2015/Fast%20Action%20Proposals%20for%20Human%20Action%20Detec
tion%20and%20Search.pdf

【57】
Y. Jiang, J. Ma, “Combination Features and Models for Human Detection”, in CVPR2015.
1 次の形状特徴である HOG 特徴量と，その前段階の 0 次特徴量，さらにもう一段階微分した 2 次特徴量を組み合わせて高次特徴量とする．0 次で
はエッジを取得する以前のカラー特徴(Histograms of Color)，1 次は HOG 特徴量(Histograms of Oriented Gradients)を，2 次特徴はさらにもう一段階微
分し，直線や曲線を近似した特徴良である HoB(Histograms of Bar-shape)を提案し，それら統合特徴量である HOG-III により人物や物体を検出す
る．
Non-Maximum Supression(NMS)は例えば，検出枠 A と検出枠 B がほぼオーバーラップしている際に統合する処理である．普通の NMS はオーバー
ラップ部分が大部分の時には枠を統合してしまうが，提案の weighted-NMS は重み付けをしてオクルージョンが激しい状況でも複数の人物を検出
できるようにした．
DeepNet を適用した手法 R-CNN を適用し，さらに bounding-box に回帰モデルを導入して選別すると提案手法よりも若干良くなる．VOC2010 の人
物検出において，提案手法 57.2%，R-CNN58.1%という関係性である．
検出例．(a)Grammar のみのモデルや(b)poselet model においては誤検出が生じているが，(c)Grammar や HOG-III と口調良を使った例では，オクルー
ジョンが発生しても適応的に枠の操作を行い，また高次特徴量により適切に画像内での特徴表現を行うことができた．
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Jiang_Combination_Features_and_2015_CVPR_paper.pdf

【58】
De-An Huang, Minghuang Ma, Wei-Chiu Ma, and Kris M. Kitani, “How Do We Use Our Hands? Discovering a Diverse Set of Common Grasps ”,
in CVPR2015.
1 人称視点映像の中で，自分の手がどのようなタスクを行っているかを判別する手法の提案．て領域をセグメンテーションし，その領域内で HOG
特徴を抽出する．その特徴を Determinantal Point Process に基づく高速なクラスタリングアルゴリズムを用いて判別する．
http://www.cs.cmu.edu/~kkitani/pdf/HMMK-CVPR15.pdf

【59】
Ejaz Ahmed, Michael Jones and Tim K.Marks, “An Improved Deep Learning Architecture for Person Re-Identification”, in CVPR2015.
Peron Re-ID のために同時に学習する特徴や対応する類似メトリックの手法の提案．Person Re-ID の問題に対処するために設計された層との深い畳み
込みアーキテクチャを提示する．入力として画像のペアを与え，ネットワークは 2 つの画像が同じ人物かどうかを示す類似度を出力する．本アーキ
テクチャの新しい要素は，それぞれの画像からの mid-level 特徴に基づく 2 つの画像間の局所的な関係性を取得する交差入力近傍誤差を計算する層
を含む．この層の出力の High-level のサマリーは，続く層で空間的に累積するパッチサマリー特徴の層によって計算される．2 つのデータセット
(CUHK03, CUHK01)で最先端の結果を示した．
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Ahmed_An_Improved_Deep_2015_CVPR_paper.pdf

【60】
H. S. Park, J. Shi, “Social Saliency Prediction”, in CVPR2015.
Social Saliency とは，複数人物の視線や体向きの延長戦の結合部分と定義して，一人称ビジョンにより推定する研究．貢献として，スケールや観測位
置に不変で解析が可能となる，屋内外や公共空間やスポーツシーンなど関係なく複数人物が集まっていれば解析が可能，さらにデータの欠落にも対
応できることが挙げられる．
人物の位置関係やその視線向きからヒートマップを計算して空間上に投影する．
http://www.seas.upenn.edu/~hypar/SocialSaliencyPrediction_cameraready.pdf
Youtube ページ：
https://www.youtube.com/watch?v=dQSobApwt6g

【61】
H.-C. Shin, L. Lu, L. Kim, A. Seff, J. Yao, R. M. Summers, “Interleaved Text/Image Deep Mining on a Large-Scale Radiology Database”, in
CVPR2015.
医用画像を入力として，画像説明文を生成する研究．Latent Dirichlet Allocation(LDA)によりカテゴリ分けするドキュメント・センテンスの種類を
780K のテキストデータと放射線画像からマイニングして単語群を抽出する．perplexity により最適化をした結果，ドキュメントは 80，センテンス
は 1000 が良好な数字を示すことがわかった．CNN による学習により，画像からドキュメント中のトピックをマッピングする．実装面では
AlexNet や VGG の適用しているが，より深いモデルである 19 層の VGG の方が精度が良いことが判明した．(Sequence to Sequence Learning with
Neural Networks, in NIPS2014)を用いて，image-to-text(画像からテキスト)への機械翻訳問題を解いている．
生成した文章から，最も有益であると思われるものを抽出している．
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Shin_Interleaved_TextImage_Deep_2015_CVPR_paper.pdf

【62】
Guangcong Zhang and Patricio A. Vela, “Good Features to Track for Visual SLAM” in CVPR2015.
Visual SLAM における特徴選択手法の提案．
数フレームに渡って，増分特異値分解を用いて算出した観測スコアが高い特徴を”良い特徴”として選択する．そして，良い特徴群をグループとし
て検出することで，位置合わせの精度を向上している．
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Zhang_Good_Features_to_2015_CVPR_paper.pdf

【63】
Shubham Tulsiani and Jitendra Malik, “Viewpoints and Keypoints” in CVPR2015.
視点推定・特徴点検出を組み合わせた物体の位置姿勢推定手法．これは，人は物体の位置姿勢を推定する際，細かい局所的な特徴を見るのではな
く，まず初めに全体的な特徴に着目するセオリーに動機づけられている．
視点を CNN によって推定し，外観特徴をマッチングする．
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Tulsiani_Viewpoints_and_Keypoints_2015_CVPR_paper.pdf

【64】
Jeong-Kyun Lee and Kuk-Jin Yoon “Real-Time Joint Estimation of Camera Orientation and Vanishing Points” in CVPR2015.
ベイジアンフィルタリングに基づいた，消失点とカメラ方向を共に推定する手法の提案．案手法はマンハッタン世界の前提をする必要がなく，
実世界で正確なカメラ方向の推定をすることができる．加えて，接合部推定の頑健さを向上するため，私達は新しく検出するラインやラインクラ
スタの疑陽性を除く特徴管理手法を提案する．実験の結果，最先端の性能を示した．
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Lee_Real-Time_Joint_Estimation_2015_CVPR_paper.pdf
Youtube：
https://www.youtube.com/watch?v=MrX8Xu7H7FE

【65】
Johannes L. Schonberger, Filip Radenovic, Ondrej Chum and Jan-Michael Frahm, “From Single Image Query to Detailed 3D Reconstruction”, in
CVPR2015.
無秩序な画像コレクションでの Structure from Motion はここ 10 年間で規模が大幅に拡大している．この印象的な進歩は効率的な検索手法の導入の
ために用いることができる．規模が拡大する一方で，大規模な再構成システムが生成することができる詳細な量を制限する．本稿では，私達はシー
ンの詳細な再構成するのに必要な失われた能力を回復しながら，関節再構成や大規模な Structure from Motion システムの規模を維持する検索システ
ムを提案する．私達はインターネットからダウンロードした 740 万枚の大規模なデータセットで提案手法を実証する．
http://cs.unc.edu/~jsch/projects/schoenberger2015detail/index.html
Youtube：
https://www.youtube.com/watch?v=DIv1aGKqSIk

ご質問・コメント等ありましたら，cvpaper.challenge@gmail.com / Twitter@CVPaperChalleng までお願いします．

【2015.05】cvpaper.challenge@CVPR2015

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to 【2015.05】cvpaper.challenge@CVPR2015

Similar to 【2015.05】cvpaper.challenge@CVPR2015 (20)

【2015.05】cvpaper.challenge@CVPR2015