SlideShare uma empresa Scribd logo
1 de 87
Baixar para ler offline
cvpaper.challenge
Twitter@CVPaperChalleng
http://www.slideshare.net/cvpaperchallenge
【1】
A. Henge, C. Russel, J. Bastian, D. Pooley, A. Dick, L. Fleming, L. Agapito, “Part-based modeling of compound scenes from
images”, in CVPR2015.
複数画像から取得されたシルエットを用いて 3 次元形状を復元する問題.さらに,3 次元モデルは複数のパーツから構成されているという前提で,分解
できるようにした.意味的に分解できる 3 次元モデリングにより,メッシュやボリュームの復元よりも意味のあるモデリングとなることは自明である.そこで,与
えられた 3 次元モデルからいかにパーツ毎に分解するのかを考える必要がある.内的な構造と,スパース性を取得し,大規模な(3 次元としての)パーツの
辞書を構築する.
3 次元の構造は block world[Gupta+, ECCV2010]と呼ばれる,3 次元空間をブロック状に再現した表現方法を用いる.最終的には,3 次元パーツに対し
て「車のタイヤの部分で動くことができる」といった感じで意味付けすることができる.
Link(s) 論文ページ:
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Hengel_Part-Based_Modelling_of_2015_CVPR_paper.pdf
【2】
S. Frintrop, T. Werner, G. M. Garcia, “Traditional Saliency Reloaded: A Good Old Model in New Shape”, in CVPR2015.
	
  Itti らの Saliency モデルをさらに改良するための提案.複数のチャネルに分解(Intensity, Red/Green, Bue/Yellow)して Saliency を取得する部分は同様
に処理するが,2 段階構造にして DoG(difference of Gaussian)を処理する部分が Itti らのモデルとは異なる.scale-space(画像サイズを多段階にする)表現
によりガウスフィルタリングを施し,最終的には各チャネルの顕著性を統合する.高速に,pixel-level の顕著性を取得することに成功している.
さらに,位置による事前分布や MeanShift によるセグメンテーションも考慮してモデルを生成することも可能である.
実験では MSRA-10k,SED1/SED2,ESCCS, PASCAL-S データセットを用いて,セグメンテーションができているかどうかを precision-recall の指標を示し
ている.さらには,セグメンテーションされた領域に重み付けを施した手法である weighted f-measure も示している.結果は,提案モデルである VOCUS2 が
最も高い精度を示した.
一番左の図が input,二番目が ground truth,三番目が提案手法,以下従来法
Link(s) プロジェクトページ:
http://www.iai.uni-bonn.de/~frintrop/vocus2.html
【3】
Qian-Yi Zhou Vladlen Koltun, “Depth Camera Tracking with Contour Cues ” in CVPR2015.
距離画像において輪郭を追跡したカメラトラッキング手法の提案.既存のアルゴリズムは幾何学的な位置合わせの不安定さから,なめらかな表面でドリフ
トしてしまう.それに対し,輪郭特徴を用いることで,ノイズが多く不完全な距離データにおいてもカメラトラッキングを実現した.既存の Kinect Fusion や
Bylow らの手法と比較した結果が以下の通りである.
Link(s) 論文ページ:
http://vladlen.info/papers/contours.pdf
【4】
Chao Ma , Xiaokang Yang, Chongyang Zhang, and Ming-Hsuan Yang, “Long-term Correlation Tracking ” in CVPR2015.
動きやオクルージョン,視界からの外れといった様々な悪影響の中で物体を長時間追跡する手法の提案.物体の追跡とスケール変化の推定の 2 つのタ
スクに分類し,その関連性を用いて追跡している.スケール変化の推定は,追跡対象の HOG 特徴量を用いて推定している.対象は,その周辺領域のフ
ーリエ変換特徴を用いて追跡している.さらに Random Ferns を用いて,物体を見失った際にも再検出するアルゴリズムを組み込むことで,オクルージョン
にも対応している.
Link(s) 論文ページ:
http://faculty.ucmerced.edu/mhyang/papers/cvpr15_long_term_tracking.pdf
【5】
Chao Ma , Xiaokang Yang, Chongyang Zhang, and Ming-Hsuan Yang, “Long-term Correlation Tracking” in CVPR2015.
車の画像データセットの提案.2 つのシナリオを考慮しており,1 つが Web 画像,もう 1 つが監視カメラからの画像である.Web 画像では,検索する際に
使用するような画像が用意されており,監視カメラ画像では一般的な環境から撮影されたものとなっている.
条件 画像枚数
車の全体 136,727
車の部分 27,618
監視カメラ 50,000
また,撮影された画像は以下の制約を含んでいる.
(1)階層:製造年,モデル,メーカー
(2)属性:最高速度,距離,ドアの下図,種類
(3)視点:正面,背面,側面,正面側面,背面側面
(4)部分:外装,内装
これら様々な撮影条件の中で,CNN を用いて Fine-Grained な識別をした.
データセットの一部:
Link(s) 論文ページ:
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Yang_A_Large-Scale_Car_2015_CVPR_paper.pdf
データセット:
http://mmlab.ie.cuhk.edu.hk/datasets/comp_cars/index.html
【6】
Maxime Oquab, Léon Bottou, Ivan Laptev, Josef Sivic, “Is Object Localization for Free? - Weakly-Supervised Learning With
Convolutional Neural Networks”, in CVPR2015.
現在の物体認識では画像のラベルに依存しているが,複数オブジェクトを含む複雑なシーンにおいても識別結果を出力できるようにする.畳み込みニュ
ーラルネットワーク(CNN)の記述をするが,以下のような工夫点も加えている.
・正確なイメージレベルの出力
・物体のおおよその位置の予測
・トレーニングのために object bounding box を使用して,教師と対応させる.
アーキテクチャの統合のために次の 3 点を適用する.
・畳み込みとして接続された層を利用することで入力と同様のサイズの画像を扱う.
・global max-pooling の層を追加することによって画像中のオブジェクト位置を検索する.
・明示的に画像内に存在する複数の物体をモデル化ができるコスト関数を使用する.
物体のクラス分類,物体の位置予測の性能を定量的に評価するため,Pascal VOC 2012(20 オブジェクトクラス)と,Microsoft COCO(80 オブジェクトクラス)
をデータセットとする.その結果、詳細なオブジェクトレベルのラベル付けを必要とせずに 86.3%でオブジェクトの分類をした.
Link(s) プロジェクトページ:
http://www.di.ens.fr/willow/research/weakcnn/
【7】
Y. Gong, M. Pawlowski, F. Yang, L. Brandy, L. Boundev, R. Fergus, “Web Scale Photo Hash Clustering on A Single Machine”,
in CVPR2015.
写真を共有するサイト(Facebook,Instagram, Flicker など)は現在一般的に普及しているが,いかに検索し,構造化するかは依然としてチャレンジングな問
題である.この研究では,日々数億枚と増加する大規模な写真のコレクションを想定してクラスタリングを実行する.ここでは,いかに類似する画像をまとめ
るための画像ハッシュコードするかを考案する.
例えば,Gong らのハッシュコード化をもちいて,画像をバイナリ列に変換する.その上で,k-means をバイナリ空間で実行する Binary k-means (Bk-
means)を提案.この Bk-means を用いることで,multi-index hash table の利点である,効率的なセントロイドへの対応付けを可能とし,計算時間の複雑性を
O(nk)から O(n)に削減した.これは,バイナリハッシュにより k の探索回数を 1 にしたことで得られる効果である.
ILSVRC のデータセットに対して試した処理速度の計測では k-means,Bk-means,k-medoids,KDk-means を比較して下図のようになった.
Link(s) プロジェクトページ:
http://www.cv-foundation.org/openaccess/content_cvpr_2015/html/Gong_Web_Scale_Photo_2015_CVPR_paper.html
【8】
T. Zhang, S. Liu, C. Xu, S. Yan, B. Ghanem, N. Ahuja, M.-H. Yang, “Structural Sparse Tracking”, in CVPR2015.
多くの sparse 表現では,local(部分的に物体を見る)か holistic(全体的に物体を評価する)かに偏っていて,物体内部の表現方法に欠点があったが,い
ずれの特性も持つトラッキング方法 Structural Sparse Tracking (SST)を提案する.
提案手法は(d)であり,(a)(b)(c)いずれの特性も持ち合わせている.(a)ではランダムサンプリングされた位置において,全体的なモデルをフィッティングさ
せているが,モデルから取得した部分的な位置を対応付けている.(c)においても(a)と同様に物体の形状を全体的にモデルフィッティングさせるが,複数の
モデルを統合させて評価している.(d)においてはこれらすべてのモデルを兼ね備えており,部分的かつ全体的に評価をするが,それらの統合も許容する
.
特徴取得する際にはパッチを 1x1,2x2,3x3 に区切った複数種類のサンプリング画像で評価する.これらの特徴群を,サンプリング点や部分毎に評価し
て各ブロックや画像全体などから取得した,またサンプリング点をまたいだ相関値を計算する.
結果は,各データセットに関して従来法との比較により有効性を検証した.
Link(s) 論文ページ:
http://ivul.kaust.edu.sa/Pages/Pub-Sparse-Tracking.aspx
【9】
Kuang-Jui Hsu , Yen-Yu Lin , Yung-Yu Chuang, “Robust Image Alignment with Multiple Feature Descriptors and Matching-
Guided Neighborhoods”, in CVPR2015.
画像の位置合わせは CV において基礎的な課題であり,解決する必要がある.これができれば,顔の位置合わせなどに役立つことができる.逆に,これ
が出来ないと正確なオプティカルフローの算出も困難となる.提案手法では位置合わせにおいて,
1:最適な記述子の選択
2:最近傍法の最適化
に取り組む.
Link(s) 論文ページ:
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Hsu_Robust_Image_Alignment_2015_CVPR_paper.pdf
【10】
C. Fang, H. Jin, J. Yang, Z. Lin, “Collaborative Feature Learning from Social Media”, in CVPR2015.
カテゴリレベルのラベル付けのみが特徴学習に必要なのかを基本的な問題設定にして,良好な特徴量を設定するために研究した.Pinterest のような写
真の切り抜きを集めたようなサービスでは,あるユーザの集める写真は似ているし,似たようなユーザもまた,似たような写真を集めてくると見ている.もし,こ
れらユーザの写真を集める振る舞いを取得することができれば,その特徴の傾向がつかめるかもしれない.
ここで,特徴学習の手法として Collaborative Feature Learning を提案し,ソーシャルメディアのユーザ行動から特徴学習を行ってしまう.Latent factor
analysis と convolutional neural network (CNN)により特徴を学習する.
Collaborative フィルタも導入することにより,効果的な特徴量を取得するためのデータの選別も行っている.CNN の学習により,特徴量を自動学習する.
データセットには Behance.net から取得した 190 万枚の画像を用いており,3 億 2600 万の閲覧履歴も保持している.
Link(s) 論文ページ:
http://www.cv-
foundation.org/openaccess/content_cvpr_2015/papers/Fang_Collaborative_Feature_Learning_2015_CVPR_paper.pdf
著者ページ:
http://www.cs.dartmouth.edu/~chenfang/
【11】
M. Shi, Y. Avrithis, H. Jegou, “Early burst detection for memory-efficient image retrieval”, in CVPR2015.
画像の「burst」について考察している論文である.例えば,下の図はビルの窓が写っている画像である.キーポイント検出と特徴量取得,コードワードを取
得した場合には特徴量が非常に似通っているパッチが多数発生する.しかしこの,同じような位置にあるにも関わらず,複数のワードに所属してしまうことが
burst であると主張した.burst が発生してしまうと,物体やシーン認識でクラス分類ができないなど不都合が起こってしまうため,これを解決する.
与えられた 2 つの画像に対して,3 つのカーネルを設定して特徴を取得した.ひとつは記述子に関してのカーネル Ku,スケールのカーネル Ks,オリエン
テーションのカーネル Kθ を設定する.記述子,スケール,オリエンテーションそれぞれの視点で類似度を計算することにより,パッチ同士の位置特定の性
能を高めたといえる.
Link(s) 論文ページ:
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Shi_Early_Burst_Detection_2015_CVPR_paper.pdf
【12】
Y.-H. Tsai, O. C. Hamsici, M.-H. Yang, “Adaptive Region Pooilng for Object Detection”, in CVPR2015.
物体検出の問題の難しさのひとつとして,物体の内的な変化やバリエーションの多様性を挙げている.これを,特徴プーリングを用いることで相殺しようと
した.プーリングと同時に,セグメンテーションも行い,より特徴抽出のフレームワークを拡張する.さらには,角度や物体の種類を考慮した exemplar ベース
の特徴抽出や,分離性が高い物体内部のパーツを発見しながら特徴を取得する.
Exemplar の概念により角度や見え方を揃えたソース画像をあらかじめセグメンテーションしてパーツごとに分離し,ターゲット画像(例えば違う車の同じ角
度から撮影された画像)に合わせてリサイズする.その上でターゲット画像から特徴を抽出してプーリングすることでソース画像と似通った特徴量が取得でき
る.感覚的には,同じような見え方周辺の画像を集めて,特徴空間を埋めていく.
精度比較の図では,多くの場合 DPM や CNN の特徴抽出よりも高い精度を示すことがわかった.exemplar を取り出し,その周辺の特徴量をプーリング
することにより特徴空間において網羅性を高めることにつながり,的確にマッチングすることができる.
Link(s) 論文ページ:
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Tsai_Adaptive_Region_Pooling_2015_CVPR_paper.pdf
【13】
Jonathan Krause, Hailin Jin, Jianchao Yang, Li Fei-Fei, “Fine-Grained Recognition without Part Annotations” in CVPR2015
Fine-Grained Recognition を用いた物体認識の研究.Fine-Grained Recognition では,画像中のキーポイントの数を増加させラベル付けすることが認識精
度の向上につながるが,それは同時に識別に必要な計算のコストが増大することになる.当研究では,ラベル付けを用いずに Fine-Grained な物体認識の
実現を提案している.複数画像からの類似特徴量の抽出を混合識別モデルを用いて行っている.
識別精度の評価には Cub-2011,cars-196 データセットを使用しており,.は学習に注釈を用いた場合と比較しても高い精度を誇っている.Cars-196 の場
合の識別精度を Fig.2,Cub-2011 の場合の識別精度を Fig.3 に示す.
Fig.2 Cars-196 dataset Fig.3 Cub-2011 dataset
この研究によって,コストの高い Fine-Grained Recognition のスケールアップを図れると提言している.
Link(s) 論文ページ:
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Krause_Fine-
Grained_Recognition_Without_2015_CVPR_paper.pdf
【14】
Jiaolong Yang, Hongdong Li, ”Dense, Accurate Optical Flow Estimation with Piecewise Parametric Model”, in CVPR2015
「区分パラメトリックモデルを用いた高精度なオプティカルフロー推定」
様々なパラメトリックモデルが各部分の領域(領域の形状,位置とサイズ)に適応的に決定されるフィールドの流れに合わせる.それと同時に連続的な制限
があるグローバルな部分的流れを維持する.
提案手法ではエネルギー最小化を介して適合している複数モデル方式でこれを達成する.提案手法のエネルギーはパラメトリックモデルと連続的な制限
がある部分的流れの両方を取り.単純な動作や複雑な動作の両方を効果的に処理するために提案された方法である.3 つのパブリックオプティカルフロー
のベンチマーク( KITTI、MPI Sintel、およびミドル)の実験では、従来の技術と比較して提案手法の優位性を示している.それはすべての 3 つのベンチマ
ークでトップクラスの性能を実現している.
Link(s) 論文ページ:
http://www.cv-foundation.org/openaccess/content_cvpr_2015/ext/1A_111_ext.pdf
【15】
I.Akhter, M. J. Black, “Pose-Conditioned Joint Angle Limits for 3D Human Pose Reconstruction”, in CVPR2015.
2 次元の関節角度から人間の 3 次元姿勢推定を行っている。従来手法では、不可能なポーズも推定してしまっている。これらを取り除くために、関節角
の限界を学習する必要がある。このため、限界関節角を学習させるのためデータセットを用意する。データセット例を Fig1 に示す。
Fig1 データセット例 Fig2 比較結果
従来手法である Ramakrishna らの手法と Fan らの手法と提案手法を CMU mocap dataset を用いて比較を行う。この結果を Fig2 に示す。
Link(s) 論文ページ:
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Akhter_Pose-
Conditioned_Joint_Angle_2015_CVPR_paper.pdf
https://www.youtube.com/watch?v=dz2Mq9L54pQ
【16】
Limin Wang, Yu Qiao, Xiaoou Tang, “Action Recognition With Trajectory-Pooled Deep-Convolutional Descriptors”, in CVPR
2015
本論文では,ビデオから人間の行動を理解するための新しい記述子 trajectory-pooled deep-convolutional descriptor(以下 TDD)を提案して
いる.TDD の特徴は Deep Learned 特徴と HandCrafted 特徴の両方のメリットを共有している事である.以下の Fig.1 に TDD の概要を示す.
Fig1. TDD の概要図
TDDs のロバスト性を高めるために畳み込み特徴マップ、すなわち正規化と時空間チャネルの正規化を変換するために、2 つの正規化方法
を設計している.
この特徴の利点は,
(i)TDDs が自動的に学習し、Hand-Crafted と比較して高い判別能力がある
(ii)TDDs は、時間次元の固有の特性を考慮する事で、軌跡にサンプリングとプールの制約戦略を導入し、Deep-Learned 機能を集約している
実験は HMDB51 と UCF101 のデータセットで実験を行っている.
実験と実験結果を以下に示す.
Link(s) 論文ページ:
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Wang_Action_Recognition_With_2015_CVPR_paper.pdf
著者ページ:
http://wanglimin.github.io/
【17】
Yukitoshi Watanabe, Fumihiko Sakaue, Jun Sato.”Time-to-Contact from Image Intensity”, in CVPR2015
物体が衝突するまでの時間は,物体の見え方や主にサイズの変化でかなり正確に認知することができると知られている.この時私達は,カメラパラメータ
や物体の追跡情報を認知しなくても,衝突までの時間を推定することができている.しかし,カメラから物体の衝突時間を推定するためには,コーナー検出
やエッジ抽出などの画像の幾何学的な情報に基づいている.そのため,画像から幾何学的な情報を取得することができない場合は,物体の衝突時間を正
確に推定することができない.当論文では,画像中の測光情報から物体が衝突する時間を推定する新しい手法を提案している.物体に光を当てた時の測
光情報の変化のモデルを作成し,それに当てはめることで画像の光強度の変化のみから物体の衝突時間を推定している.Fig.1 にモデル作成時の光強
度変化の例,Fig.2 に各条件における物体までの距離と衝突までの時間推定結果を示す.
Fig.1 光源と物体の位置による測光量の変化 Fig.2 距離と衝突予測時間の精度評価
本手法では,物体の向きや形状など幾何学的な情報を必要とすることがないため,運転支援などに用いることが可能であると提言している.
Link(s) 論文ページ:
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Watanabe_Time-to-
Contact_From_Image_2015_CVPR_paper.pdf
【18】
Kuan-Chuan Peng, Tsuhan Chen, Amir Sadovnik, Andrew Gallagher.”A Mixed Bag of Emotions: Model, Predict, and Transfer
Emotion Distributions”, in CVPR2015
写真から得られる人間の感情の新たな2つの側面を提案しており,感情推定の新たな基準として6Emotinon Dataset を提案している.一つ目は,人間は同
じ画像に対しても異なる感情を持つことを検証している.その中でも,ひとつの画像に対して最も強く発現する感情である「distributions」を推定することで,
様々な応用が期待できると述べている.2つ目に,我々は多くの場合,画像の色調や形状のみから感情を誘発しているわけではないため,選択する画像を操
作することで任意の感情ベクトルを画像から誘発することが可能であると述べている.実験では,心理学者から代表的な感情として挙げられている感情であ
る,怒り、嫌悪、喜び、恐怖、悲しみ、驚きの6種類を対象としている.この6種類の感情をランダムにトレーニングし,SVR CNN,CNNR の3種類の手法で評価
している.CNNR は畳み込みニューラルネットワークを使用した感情推定手法に,各感情の回帰トレーニングを加えたものである.実験の結果,当論文で提案
した CNNR 手法が最も高い感情推定精度を示している.
Link(s) 論文ページ:
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Peng_A_Mixed_Bag_2015_CVPR_paper.pdf
【19】
Yonggang Qi, Yi-Zhe Song, Tao Xiang, Honggang Zhang, Timothy Hospedales, Yi Li, Jun Guo.”Making Better Use of Edges via
Perceptual Grouping,” in CVPR2015
Perceptual grouping framework を提案する.これは,画像に対して objectness の処理を施し,画像中の物体を識別する.次に,物体と認識した箇所に関
してエッジ処理を施し,意味のある構造として識別する.
絵に描いた,物体を認識しエッジ処理を施した画像との照合を行い類似度が高い順に,RankSVM を用いることでランキングする.これにより画像検索を
行うことができる.結果を以下に示す.
Link(s) 論文ページ:
http://www.cv-foundation.org/openaccess/content_cvpr_2015/ext/1B_081_ext.pdf
【20】
G. Bourmaud, R. Megret, “Guillaume Bourmaud, Rémi Mégret ”Robust Large Scale Monocular Visual SLAM”, in CVPR2015.
新しい単眼の Visual SLAM アルゴリズムを提案する.このアルゴリズムは 4 つのモジュール(キーフレーム選択,サブマップ再構成,ペア類似度推定,
関係性の平均化)である.
私達の貢献は以下の通りである.
1. Known Rotation Problem と呼ばれるサブマップを頑健に推定する新しい Visual オドメトリ手法を提案した.
2. 誤ったループクタスタから関連する 3D 類似性の外れ値を除去する単純で効果的な外れ値アルゴリズムの提案.
3. 非常に効率的にサブマップを位置合わせすることができるアルゴリズムの提案
Link(s) 論文ページ:
http://www.cv-foundation.org/openaccess/content_cvpr_2015/ext/1B_058_ext.pdf
【21】
Qiang Chen, Junshi Huang, Rogerio Feris, Lisa M Brown, Jian Dong, Shuicheng Yan, “Deep Domain Adaptation for Describing
People Based on Fine-Grained Clothing Attributes”, The IEEE Conference on Computer Vision and Pattern Recognition (CVPR),
pp. 5315-5324, 2015
Fine-graind な衣服属性をもつ人々の記述問題についての研究である.記述方法としてオブジェクト由来の複数のラベルを生成する Deep Domain
Adaptation Network を提案している.人物領域の取得には RCNN(Region with CNN features:畳み込みニューラルネットワークを用いて取得した特徴を用
いて物体を検出する手法)を用いている.
Link(s) 論文ページ:
http://www.cv-foundation.org/openaccess/content_cvpr_2015/html/Chen_Deep_Domain_Adaptation_2015_CVPR_paper.html
【22】
Jen-Hao Rick Chang, Yu-Chiang Frank Wang, “Propagated Image Filtering” inCVPR
新しいフィルターとして、propagation filter を提案する.このフィルターは明示的な空間カーネル関数を適用することなく,画像特性を観察し,保存するこ
とができる.ピクセル間の測光距離に基づいて画素の関係を決定し,ベイズの定理を用いて propagation filter の定式化を行う.このフィルターを使用する
ことで,画像の横方向エッジ情報を防止し,クロス領域の混合問題を軽減することが可能である.BIlateral-Cut Filter や Geodesic Filter、Recursive Bilateral
と提案したフィルターを比較するその結果を Fig1 に示す.
Fig1 従来のフィルターとの比較
Link(s) 論文ページ:
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Chang_Propagated_Image_Filtering_2015_CVPR_paper.pdf
【23】
Min-Gyu Park and Kuk-Jin Yoon, “Leveraging Stereo Matching with Learning-based Confidence Measures” in CVPR2015.
ステレオマッチングの頑健性を向上するため,学習ベースの確信度を予測するアプローチを導入する.4 つの学習画像から複数の確信度を抽出し,木
構造の回帰モデルを生成する.そのモデルに基づき,マッチングコストを算出し,Semi-Global Matching によってステレオ画像を生成する.
Link(s) 論文ページ:
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Park_Leveraging_Stereo_Matching_2015_CVPR_paper.pdf
【24】
Deqing Sun, Erik B. Sudderth, Hanspeter Pfister, “Layered RGBD Scene Flow Estimation”, in CVPR2015.
私たちはシーンを移動層に分割し,RGBD 映像から 3D 運動を推定する.本稿におけるチャレンジングな点は RGBD によるシーンフロー推定はノイズの
多い性質があることである.
RGB 画像配列からオクルージョンをモデル化するための手法として階層化モデルがあるが,計算コストが高い点,層の深さの順序を検索する必要がある
点で障害となる.そのためのアプローチとして階層化モデルのための奥行順序の問題を RGBD データを用いることで解決し,これによって 3D 回転や平
行移動の推定を容易にする.得られた 3D の剛体の運動はレイヤ単位の動きを制約する機能がある.画像から与えられる高い層のフィールドモーションの
解決にはベイジアンを使用する.
Middlebury のデータセットを用いた実験の結果,二乗(RMS)誤差と平均角度誤差(AAE)が最先端の SRSF 法の半分以下となった.
Link(s) 著者ページ:
http://people.seas.harvard.edu/~dqsun/
論文ページ:
http://people.seas.harvard.edu/~dqsun/publication/2015/CVPR2015_RGBD.pdf
【25】
Shaoxin Li, Junliang Xing, Zhiheng Niu, Shiguang Shan, Shuicheng Yan,“Shape Driven Kernel Adaptation in Convolutional
Neural Network for Robust Facial Trait Recognition “in CVPR2015.
本論文では顔の形質変化の問題点である視点や表情の変化で起こりうる非剛性変化に対し CNN アーキテクチャに展開する事で顔のランドマークを探
索する手法を提案している,
本手法は固定されたカーネルを用いて,顔のランドマーク空間分布を考慮した動的にたたみ込みカーネルを決定するカーネル適応手法を提案している
.以下の Fig1 にカーネル適応方法の概略図を示す.
Fig1 カーネル適応を施した CNN フレームワーク
Fig1 のようにカーネルを設定する事でより多くの局所特徴を抽出する事ができる.また,異なる局所顔領域が異なる適応機能を要求できる事を理由とし
て階層的に複数の CNN の局所適応サブネットワークを融合する為にツリー構造のたたみ込みアーキテクチャを提案している.提案したたたみ込みアーキ
テクチャを以下の Fig2 に示す.
Fig2 提案した畳み込みアーキテクチャの概略図
実験は WebFace, MorphII, WultiPIE データベースを用いて行っている.それぞれに案して年齢や性別識別など多くの顔認識において有用性を示して
いる.以下の Table に実験結果を示す.
Link(s) 論文ページ:
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Li_Shape_Driven_Kernel_2015_CVPR_paper.pdf
【26】
Hui, Wu, Richard Souvenir, ”Robust Regression on Image Manifolds for Ordered Label Denoising”, CVPR2015,1-10,2015.
我々の目的は、注文したラベルの画像セットの誤ったラベルの例を修正することです。我々は、画像の多様体上のロバスト回帰アルゴリズムを提示し、自
然画像セットの注文ラベルノイズ除去の問題に適用しました.
(b)から(i)の図は 2D 座標多様体を使用してプロットしている.
各プロット内の色は多様体関数値を示している.
各画像は,8(濁った)に 0(クリア)の範囲で白濁ラベルを示している.
各方法での予測値が示されている.明らかに間違っているものは赤文字で示される.
画像に対する角度の予測値が左上側の数字で提起される.
明らかに誤ったラベルの例は、赤枠で強調されています.
Link(s) 論文ページ:
http://www.cv-foundation.org/openaccess/content_cvpr_2015/ext/1A_034_ext.pdf
【27】
J. Wulff, M. J. Black, “Efficient Sparse-to-Dense Optical Flow Estimation using a Learned Basis and Layers”, in CVPR2015.
従来の dense optical flow は,フレームごとに数秒から数分かかってしまい,実利用化には程遠い手法になっていた.オプティカルフローだけで GPU な
どの高速化に頼ることはナンセンスなので,PCA-Flow と呼ばれるスパースなマッチングを導入した dense flow 方法を提案する.
PCA-Flow:フロー空間の重み付けと近似方法により表現する.重みと,基底の線形和により空間を設定しているという仮定をおいており,robust PCA によ
る固有空間(eigenvector)を基底として取り扱う.この重みと基底によるフロー空間の近似により,(固有空間は決定されているので?)重みの計算により近似
できる.
PCA-Layer では,より境界線を際立たせる処理を施している.EM アルゴリズムや MRF によりフローのノイズのようなものを省いている.
(a)入力画像,(b)ground truth (c)PCA-Flow (d)PCA-Layers
Link(s) 論文ページ:
http://ps.is.tue.mpg.de/show_publication?id=483&title=Efficient_Sparse-to-
Dense_Optical_Flow_Estimation_using_a_Learned_Basis_and_Layers
ポスター:
http://files.is.tue.mpg.de/black/posters/PCAflowPosterCVPR2015.jpg
【28】
Soonmin Hwang, Jaesik Park, Namil Kim, Yukyung Choi, In So Kweon, “Multispectral Pedestrian Detection: Benchmark Dataset
and Baseline”, inCVPR2015
歩行者検出に色情報と別情報を組み合わせて歩行者検出の精度を向上する.組み合わせう別情報は熱である.
本研究では色と熱のペアを提供する配列された多重スペクトル画像の歩行者データセットを提案している(Fig.1)。人体の放射熱の波長から,遠赤外線セ
ンサを利用する.
Fig.1 Fig.2
波長分割器を用いたハードウェア(Fig.2)から物理的に,色画像と熱画像の位置合わせを行うことで事後処理用の画像のアルゴリズムを必要としない.ま
た色-熱のマルチスペクトル画像を処理し、性能を解析するためのいくつかのベースラインを提案している.色-熱のマルチスペクトル画像の歩行者データ
セットにおいて,本研究のベースラインの 1 つは誤検出率の平均を 15%低下できた.色のみの歩行者検出より,色-熱のマルチスペクトル画像による歩行
者検出の方が性能良かった(Fig.3)
Fig.3
Link(s) 論文ページ:
http://www.cv-
foundation.org/openaccess/content_cvpr_2015/html/Hwang_Multispectral_Pedestrian_Detection_2015_CVPR_paper.html
データセットページ:
https://sites.google.com/site/pedestrianbenchmark/home
【29】
Y. Zhou, B. Ni, R. Hong, M. Wang, Q. Tian, “Interaction Part Mining: A Mid-level Approach for Fine-grained Action
Recognition”, in CVPR2015.
人物行動特徴と物体のインタラクションから取得した Middel レベル特徴量により,詳細行動認識をするという研究.
人物行動特徴には Dense Trajectories (DT)+Fisher Vector を用いるが,その他に物体情報やインタラクション特徴も取得する.物体の取得には前処理で
ある Objectness--BING を用いて,候補領域を抽出して,行動特徴と合わせて実際のインタラクション領域を絞り込んでいく.また,人物領域からも,領域ご
とに特徴量を評価することで,「姿勢」や「物体とのインタラクション」を表現することにつながり,DT のみによる Low-level な特徴からより高次な Mid-level
特徴量へと拡張している.インタラクションの候補領域が複数抽出できるが,[Juneja+, CVPR2013]によりマイニングして,候補領域の絞り込みを行う.
BING により物体や姿勢の候補領域を抽出し,DT により詳細特徴を把握することにより,MPII cooking dataset を用いた実験では最大で 72.4%もの識別
率を達成した.
Link(s) 論文ページ:
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Zhou_Interaction_Part_Mining_2015_CVPR_paper.pdf
【30】
J. Lu, R. Xu, J. J. Conso, “Human Action Segmentation with Hierarchical Supervoxel Consistency”, in CVPR2015.
Hierarchical MRF(hMRF)を用いた,人物行動領域の抽出を human action segmentation と題して行っている研究.
PASCAL VOC 2007 により学習済みの Deformable Part Model (DPM)により人物領域かどうかの尤度を返却値として保持しておく.それらの返却値を参
考にして,今度は hMRF によりセグメンテーションを行う.セグメンテーションの手法は[M. Han, CVPR2010]を適用している.また,時系列のノードのつなが
りに関してはオプティカルフローや人物のアピアランス情報を参考にして領域をカッティングする.MRF では unary 項と pairwise 項があるが,その他にそ
れらを総合的に把握する高次な項(higher order potential)も追加した.unary 項では動作や人物存在確率をベースにカッティングし,pairwise 項では時間
方向への拡張として追加している.さらに,higher order potential では,階層的に unary 項や pairwise 項を把握していると見られる(下図参照).
表は UCF sports で行動領域を抽出した結果.従来法よりもセグメンテーション手法がうまくいっている.また,セグメンテーション領域内で Dense
Trajectories (DT)により特徴抽出した結果は,UCF-sport (93.6%),JHMDB (58.6%),Penn Action (95.4%)と非常に高い精度で認識できることがわかった.
Link(s) 論文ページ:
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Lu_Human_Action_Segmentation_2015_CVPR_paper.pdf
著者ページ:
http://www.acsu.buffalo.edu/~jiasenlu/
Youtube:
https://www.youtube.com/watch?v=WnncICvdEDw&feature=youtu.be
【31】
B. Ni, P. Moulin, X. Yang, S. Yan, “Motion Part Regularization: Improving Action Recognition via Trajectory Group Selection”,
in CVPR2015.
Dense Trajectories + Fisher Vector の改良に関する研究.[Yogatama+, ICML2014]を参考にして,識別に有効な Fisher Vector の部分を取り出す方法に
ついて提案する.行動間の識別に必要なベクトルは,パーツごとの少数のベクトルであるとして行動要素のグループごとに重み付けして特徴を表現する.
識別にはロジスティック回帰を適用する.
局所的に trajectory をグループ分けして特徴評価する. これら trajectory グループのベクトルはパーツ間のつながりにおいて激しくオーバーラップしてい
るが,それぞれの words は身体パーツの多くの部位に生起する.このとき group lasso により特徴量を正則化して記述する.一方で,オーバーラップを解消
するような仕組みも考案している.これが各要素への重み付けであり,すべての学習用の映像から重みを計算する.
最終的な特徴評価式では 4 つの項--判別性(discriminativeness),sparsity,グループとしての重み付けされた sparsity,global-local agreement を判断して
特徴ベクトルを生成する.
下図は重み付けの結果,上位 1%のグループを表示している.行動を識別する際の”discriminative”な部分が表示されている.特徴評価の結果,提案手法
Motion Part Regularization は Hollywood2, HMDB51, Olympic Sports データセットにおいてそれぞれ 66.7%, 65.5%, 92.3%と,state-of-the-art な精度を達
成した.(HMDB51 に関しては,[Peng+, ECCV2014]らの Stacked Fisher Vector が 66.8%と最高精度)
Link(s) 論文ページ:
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Ni_Motion_Part_Regularization_2015_CVPR_paper.pdf
【32】
R. Girshick, F. Iandola, T. Darrell, J. Malik, “Deformable Part Models are Convolutional Neural Networks”, in CVPR2015.
DPM, CNN ともに成功した識別モデルであるといえる.これらは,別々の表現方法 --DPM はグラフィカルモデルとして,CNN はブラックボックスではある
ものの,非線形識別器であるということはわかっている.ここで,DPM を CNN のような表現に組み入れることはできるのかどうかということがモチベーション
になっている.ここでは,Max-pooling の一般化として distance transform pooling を提案する.また,ブラックボックスのモデル CNN を使うのでなく,うまくい
くことが分かっている設計の特徴量を使うことで全結合層を入れ替える.これを DeepPyramid DPM と名付けている.
下の図は HOG と CNN の第 5 層の特徴可視化である.HOG と比べると,CNN 特徴量の方がより領域を選択的に特徴学習している.この,特徴生成能
力のために CNN 特徴量,物体検出の制度でも R-CNN の方が DeepPyramid DPM よりも精度よく認識することが判明した.この論文では,distance
transform pooling や object geometryfilters, maxout units の仕組みを導入することで,HOG ベースの特徴量で CNN のような特徴抽出ができることがわか
った.精度こそ CNN には及ばないが,まだまだ解明されておらずブラックボックスである deep learning の学習方法の解明に近づいたと言える.
Link(s) プロジェクトページ:
http://www.cs.berkeley.edu/~rbg/papers/cvpr15/dpdpm.pdf
github ページ:
https://github.com/rbgirshick/DeepPyramid
【33】
S. R. Richter, S. Roth, “Discriminative Shape from Shading in Uncalibrated Illumination”, in CVPR2015.
Shape from Shading を識別的に解いた研究である.
拘束されている環境下では意味がないという論点から,Shape from Shading の研究をより一般化して考えられないかを実験した.非拘束(uncalibrated
illumination)の環境において形状を復元する際に予めトレーニングセットから形状を復元するための特徴を取得して regression forests に学習しておく.形
状復元の際には[Shotton+, CVPR2008]の texton,そしてシルエットを入力とすることで形状復元を実現している.識別的な枠組みにすることにより,複数の
特徴,ここでは texton やシルエットによる特徴を regression forest により組み合わせる利点があると述べている.
Link(s) 論文ページ:
http://www.gris.informatik.tu-darmstadt.de/~sroth/papers/2015/richter-cvpr-preprint.pdf
【34】
B. Li, C. Shen, Y. Dai, A. van den Hengel, M. He, “Depth and surface normal estimation from monocular images using regression
on deep features and hierarchical CRFs”, in CVPR2015.
単眼の RGB カメラから距離画像(や表面形状)を求める課題はチャレンジングである.この論文では,Deep CNN の特徴量と回帰モデルを構築し,階層
的 CRF による refinement により単眼からの距離画像推定の実現に挑戦する.ここでは,superpixel-level と pixel-level の精度での距離画像推定にチャレ
ンジする.
まずは DCNN の特徴学習により複数スケールの距離画像や表面形状のマッピングに取り組む.基本的には Caffe の AlexNet を用いて特徴抽出する.
CRF では unary 項にて DCNN 特徴を参照して距離画像を生成する仕組みが導入されているが,その他にも superpixel のスムージングをする項や auto-
regression model により位置による相関性を用いて距離画像を滑らかにする項が含まれる.
下の図は RGB の入力のみから距離画像や表面形状を推定した結果.直接 depth を取得する方法に比べると精度は落ちるが,RGB の入力のみでも大
きさが確保できている部分に関しては復元ができている.
Link(s) 論文ページ:
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Li_Depth_and_Surface_2015_CVPR_paper.pdf
【35】
Samuel Schulter, Christian Leistner, Horst Bischof, “Fast and Accurate Image Upscaling with Super-Resolution Forests”, in
CVPR2015.
Single Image Super-Resolition(SISR)は CV で非常に重要なタスクである.SISR のタスクは,入力画像の一枚の低解像度から高解像度の画像を出力す
ることである.バイキュービックサンプリングなど様々な手法があり,とくロバストな手法は統計的画像の事前分布や,高解像度パッチを低解像度から学習す
る手法などである.近年で最も高い成果を挙げている手法はスパースコーディングを用いた機械学習手法である.
本稿では,自然画像を局所的な線形多変量回帰問題として効率的に超解像を生成する.その問題を Random Forests を用いて解く.
Link(s) 論文ページ:
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Schulter_Fast_and_Accurate_2015_CVPR_paper.pdf
【36】
Qi Qian1 Rong Jin, Shenghuo Zhu, Yuanqing Lin “Fine-Grained Visual Categorization via Multi-stage Metric Learning”, in
CVPR2015.
Fine Grained Visual Categorization(FGVC)において,特徴の抽出ではなく距離学習(Distance Metric Learning:DML)に焦点を当てている.本稿では,
DML における 3 つの課題に取り組んでいる.なお,特徴抽出は Deep Learning を用いている.
○高次元 DML を用いて多数の制約を扱うため,私達は複数の段階で問題を最適化する.各段階で,学習されたメトリックによって分類困難なサブセットの
みを適用的にサンプリングし,メトリックを改善する.適切に正則化することにより,私達はすべての制約を最適化することができた.
○計算課題を解決するために,私達は線形クラス分類のために開発されたランダムプロジェクションの理論を DML のために拡張した.提案手法はランダム
プロジェクションの効率を向上し,一方でサイズ d×d の距離を学習する.これは最も次元削減することができる.
○ストレージ問題に対処するため,私達は低いランクの行列の近似値のためのランダムアルゴリズムによってメトリックを学習する.これは,一方的な学習処
理だけでなくオーバーフィッティングも防ぐことができる.
手法のフレームワークと実験結果
Link(s) 論文ページ:
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Qian_Fine-
Grained_Visual_Categorization_2015_CVPR_paper.pdf
【37】
W. Ouyang, X. Wang, X. Zeng, S. Qiu, P. Luo, Y. Tian, H. Li, S. Yang, Z. Wang, C.-C. Loy, X. Tang, “DeepID-Net: Deformable
Deep Convolutional Neural Networks for Object Detection”, in CVPR2015.
The Chinese Univ. of Hong Kong (CUHK)の研究グループが ILSVRC2014 にチャレンジした時の手法を説明している.R-CNN(Regions with CNN)をベ
ースにしているが,さらに前処理として box rejection,image や object レベルのアノテーションによるパラメータ調整(pretrain),をする.次に,deformation
constrained pooling (def-pooling)の適用により,DPM のようにカメラに対する写り方,配置や姿勢の変動に頑健に物体の特徴取得ができる.この def-
pooling は max-pooling にとって変えることができる.
下の表は種々の改良を施した結果である.bounding box の除去,DeepLearning モデルの変更,pretrain の導入,def-pooling の導入などにより,RCNN
から大幅な改善を実現した.
Link(s) 論文ページ:
http://mmlab.ie.cuhk.edu.hk/projects/ImageNet2014.html
【38】
Philippe Weinzaepfel, Jerome Revaud, Zaid Harchaoui, Cordelia Schmid “Learning to Detect Motion Boundaries”, in CVPR2015.
動画で動作の境界を予測するためにエッジ検出のためのランダムフォレストを構築する.それぞれの画像パッチにおけるバイナリ動作境界を予測するい
くつかのランダムな木の学習に依存している.異なる木の出漁は最終的な境界検出を生成するために平均化される.学習の間, MPI-Sintel ベンチマーク
からの画像とグランドトゥルースのオプティカルフローを使用する.私達の手法は以下の特徴を用いる.
・外観(RGB)
・オプティカルフロー
・オプティカルフローのエラー
・背景のオプティカルフローとそのエラー
Link(s) 論文ページ:
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Weinzaepfel_Learning_to_Detect_2015_CVPR_paper.pdf
【39】
Jiajun Lu, David Forsyth, “Sparse Depth Super Resolution”,.in CVPR2015.
HCI(Human-Computer Interaction)におけるアプリケーション開発は,深度センサを用いて様々な提案がなされている.しかし,現在の深度センサの深
度解像度は比較的低く,消費電力も高いため,提案されたアプリケーションを実現することは難しいと言える.これをハード面で解決しようとすると,高解像
度の RGB 画像が比較的に安価に入手できる現状に対して,深度センサの解像度を向上させることは,割にあわないコストがかかってしまう.当論文では,
Fig.1 に示すような荒いサンプルデータから,正確に高解像度の深度情報を取得する方法について提案している.提案手法では,深度画像と同時に得ら
れた画像データを使用.
高解像度の深度情報の取得を実現している.取得した画像の深度領域をツリー形式で分割し,領域の最小面積で分割された数の分割ツリーを構築する
ことで空間再現モデルを実現し,高解像度の深度情報の取得を実現している.
Fig.1 深度画像の超解像
Link(s) 論文ページ:
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Lu_Sparse_Depth_Super_2015_CVPR_paper.pdf
【40】
Ching-Hui Chen, Vishal M. Patel and Rama Chellappa, “Matrix Completion for Resolving Label Ambiguity”, in CVPR2015.
画像のタグ付けに関する論文.通常,画像にタグ付けする際は人手で行われるが,多大な労力からそれを自動化する技術が求められている.この研究
では,曖昧なタグ付けに対して,low-level の特徴を用いることで曖昧さを低減している(Matrix Completiton for Ambiguity Resolvinf : MCar).
Link(s) 論文ページ:
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Chen_Matrix_Completion_for_2015_CVPR_paper.pdf
【41】
Yan Xia, Kaiming He, Pushmeet Kohli, Jian Sun, “Sparse Projections for High-Dimensional Binary Codes,” in CVPR2015.
本稿では、高次元データから長いバイナリーコードを学習する方法を述べている。高次元マッピングのための効果的な規則性の欠如と、長いバイナリー
コードを計算する際に生じる高い計算コストが問題となっている。これらの問題を解決するために、スパース性を導入する。スパース性を導入することにより
、劇的な計算コストの削減とオーバフィッティングの減少させることができた。提案手法の有効性の確認として、最近傍探索、画像検索、画像探索問題につ
いて分析を行う。従来よりも高速かつ正確な符号化計算(バイナリーコード化)が可能になった。提案手法と他の手法の符号化時間の比較を Fig1 に示す。
Fig1 提案手法と他の手法の符号化時間
Link(s) 論文ページ:
http://research.microsoft.com/en-us/um/people/kahe/publications/cvpr15spbe.pdf
【42】
F. Perronnnin, D. Laulus, “Fisher Vectors Meet Neural Networks: a Hybrid Classification Architecture”, in CVPR2015.
物体認識の分野で一世を風靡した Fisher Vectors (FVs)と Convolutional Neural Network (CNN)の適切な組み合わせによる手法を提案.現在,CNN が
優位であるが,Fine-grained challenge においては FVs の方が精度良く分類できるという事例もあり,両側面のメリットを活かす方向でニューラルネットのア
ーキテクチャを考案する.
FVs+CNN のアーキテクチャは,unsupervised layers (FVs の取得と後段への引き渡し)と supervised layers (Fully connected layers)からなる.FVs に関して
は PCA により圧縮したものとする.誤差逆伝播法を用いる.この統合型のニューラルネットにより mid-level な特徴量を取得できるという.
結果は,ILSVRC12 の優勝者 AlexNet が 17.0%のエラー率であったのに対して FVs+CNN は 17.6%のエラー率である.
Link(s) 著者ページ:
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Perronnin_Fisher_Vectors_Meet_2015_CVPR_paper.pdf
【43】
A.Deza, D. Parikh, “Understanding Image Virality”, in CVPR2015.
Virality とは,画像の人気度のことであり,ソーシャルネットワークなどでいかに拡散度が高いかを示す指標である.データは Reddit(アメリカの 2ch のよう
なもの)から画像データを取得して,学習や評価に適用する.Relative virality という概念は 2 枚の画像のペアを比較して,人気度を定めていくことであり,
この仕組みによりすべての画像の人気度を決定する.
Relative-attribute のように画像を比較して,SVM+Deep Relative Attributes により推定した結果,68.10%と人間の 60.12%を上回った.正解はあらかじめ
取得した social network の画像とその評価を参考にした.
Link(s) 著者ページ:
http://arturodeza.github.io/virality/
【44】
Tali Dekel, Shaul Oron, Michael Rubinstein, Shai Avidan, William T. Freeman, “Best-Buddies Similarity for Robust Template
Matching”, CVPR, 2015.
本論文では,Best Buddies Similarity という,ある人もしくは動物とベストな関係(バディー)にある共起性の高い人もしくは動物を検出する.これに制約の
ない環境下でのテンプレートマッチング手法の提案を行っている.本手法で基本的に用いる類似度指標は Best Buddies Similarity(以下 BBS)である.
BBS とは BBPs の個数に基づく類似度指標である.本研究は BBS を実世界のデータセットに用いた良きの有用生の評価を行っている.
以下に BBS を用いたテンプレートマッチングの例を示す.
本論文では BBS の他に SSD, SAD, NCC, HM, EMD, BDS の手法で同じ画像に対し実験を行い他のマッチング手法との差別化を図っている.以下の
図の左はテンプレート矩形,右にそれぞれでの手法を用いたテンプレートマッチング結果を示している.
以下の結果では画像が時間変化した場合でも BBS が有用なテンプレートマッチング手法であることがわかる.
Link(s) 論文ページ:
http://people.csail.mit.edu/talidekel/papers/BBS_CVPR15.pdf
【45】
N. Khan, M. Algarni, A. Yezzi, G. Sundaramoorthi, “Shape-Tailored Local Descriptors and their Application to Segmentation and
Tracking”, in CVPR2015.
エッジの境界線上に限らず探索をすることにより,例えば影領域や複数の境界線を含んでいる場合にも適切にセグメンテーションを行える手法.既存の
方法では勾配を判断する際に隣接画素の類似性により判断するが,それでは曖昧性を含んでしまう.この研究においてはデンに局所領域を判断するアル
ゴリズムである Shape-Tailored Local Descriptors (STLD)を用いて,その問題を解決した.この手法は隣接画素の判断ではなく,より形状を判断することに
特化してセグメンテーション処理を行う.
Poisson-like partial differential equations (PDE)により形状をより表現するモデルへ拡張している.次に,エネルギー空間を Mumford-Shah energy モデル
に落とし込んで Shape-Tailored Descriptors を適用している.このエネルギー最適化により形状のセグメンテーションをうまく設定している.
下図が元画像(左), ground truth (左から二番目),STLD(提案手法; 右)である.困難な場面におけるセグメンテーション結果を載せているため,完全には復
元できていないが,従来法と比べるとその差は明らかである.
Link(s) 論文ページ:
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Khan_Shape-
Tailored_Local_Descriptors_2015_CVPR_paper.pdf
【46】
Brendan F. Klare, Ben Klein, Emma Taborsky, Austin Blanton, Jordan Cheney, Kristen Allen, Patrick Grother, Alan Mah, Mark
Burge, Anil K. Jain“Pushing the Frontiers of Unconstrained Face Detection and Recognition: IARPA Janus Benchmark A” , in
CVPR2015.
顔の領域が隠れていたり,低画質であったりする場合,パソコンの処理上では同じ人であっても,別の人物として捉えてしまう.この問題を解決するには,
制約の無い顔認識のための注釈つき画像データセットが必要とされている.本論文では,IARPA Janus program の主要な目標である制約のない顔検出お
よび認識の最前線を駆り立てるのに役立つ.可能な限りのバリエーションを持った幅の広い顔キャプチャ認識用データセットが必要である.本論文では,ダ
ウンロードすることができる IARPA Janus Benchmark A (IJB-A)を紹介する.IJB-A は,自然体でのキャプチャ 500 被写体の画像や動画が含まれている.
標識されたすべての被験者は、手動で顔のためのバウンディングボックスでローカライズされている.
500 人分のデータセットとなっている.全体で画像は 5712 枚,動画は 2.085 本である.よって一人当たり,画像は 11.4 枚,動画は 4.2 本となっている.
Link(s) 論文ページ:
http://www.cv-foundation.org/openaccess/content_cvpr_2015/ext/1B_089_ext.pdf
【47】
J. Zhang, S. Ma, M. Sameki, S. Sclaroff, M. Betke, Z. Lin, X. Shen, B. Price, R. Mech, “Salient Object Subitizing”, in
CVPR2015.
Salient な物体が画像中にいくつあるのか,数える問題設定(SOS).なお,数値は(0, 1, 2, 3, 4+)で表現することとし,ローカライゼーションまでは情報を含
まない.これは,例えばロボットビジョンからの顕著性判断や,一人称ビジョンのライフログ,画像のサムネイルに適用できる.タグ付けは Amazon
Mechanical Turk (AMT)により 7,000 枚以上の画像に情報をつけてもらう.特徴量としては,CNN の他に GIST や HOG, SIFT+FVs を適用している.結果
として,salient な物体が存在するかどうかを 94%の精度で判断できた.また,1-4+の数に関しては 42 - 82%の精度で確認できた.
下の図は結果の一部である.salient な物体を見つける際に fine-tune な CNN 特徴を用いることにより,物体が小さくても分離でき,カウントに成功してい
る.また,表を確認すると,正解との比較により CNN による SOS がもっとも精度が高いことがわかった.また,fine-tune ありとなしではなしが 59%,ありの場
合が 69%とパラメータ fine-tune の有効性もわかる.
Link(s) プロジェクトページ:
http://cs-people.bu.edu/jmzhang/sos.html
論文ページ:
http://cs-people.bu.edu/jmzhang/SOS/SOS_preprint.pdf
【48】
Y. Du, W. Wang, L. Wang, “Hierarchical Recurrent Neural Network for Skeleton Based Action Recognition”, in CVPR2015.
人物の姿勢から関節情報を入力とし,Recurrent Neural Network を用いることにより行動認識する問題.まず姿勢から取得したスケルトンを 5 分割して入
力とする.ニューラルネットの層が進んでいくたびにパーツごとに時系列情報を強化していく.第 1, 3, 5, 7 層に bidirectional recurrently connected subnets
(BRNNs)を用いて隣接する関節の情報を統合していく.5 層により上半身・下半身,7 層により全身の特徴を抽出できる.最後に全結合層を経て,ソフトマ
ックス関数により識別する.
精度は MSR Action 3D にて 94.49%と非常に高い結果を示した.
Link(s) 論文ページ:
http://www.cv-foundation.org/openaccess/content_cvpr_2015/html/Du_Hierarchical_Recurrent_Neural_2015_CVPR_paper.html
【49】
Saurabh Singh, Derek Hoiem, David Forsyth “Learning a Sequential Search for Landmarks ”, in CVPR2015.
ランドマーク探索において,外観情報と位置情報を追加することで精度を向上している.
初めに,パッチで探索していき,最もスコアの高い身体部位を検出する.次のステップでは,最初に検出した部位の位置関係に基いて探索していき,次々
と身体部位を検出していく.
実験の結果,CNN には及ばないものの,それと同等の精度で姿勢推定が可能となっている.
Link(s) 論文ページ:
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Singh_Learning_a_Sequential_2015_CVPR_paper.pdf
【50】
Shuai Yi, Hongsheng Li, Xiaogang Wang, “Understanding Pedestrian Behaviors From Stationary Crowd Groups”, CVPR, 2015.
監視カメラから取得した動画像から群衆の歩行者モデルの解析を行う研究.その中で歩行者間の相互作用を分析している.群衆ない歩行者の行動モデ
ルは静的な集団が出現することで大きな影響を受ける.よって研究者らはまず混雑の激しい空間での静的な群衆とその分散を可視化している.以下に動
的な歩行者,静的な群衆から受けるエネルギーマップを示す.
混雑環境下において静的な群衆から受ける影響をモデル化することにより以下のことが行えた.
・単調な歩行者の歩行経路予測
・歩行目的地の予測
・歩行者としての属性の推定及び分析.
・経路予測,目的地の予測,歩行者属性に基づいた異常行動検知.
以下に簡単な図を示す.
経路予測 目的地予測 歩行者属性予測
Link(s) 論文ページ:
http://www.cv-
foundation.org/openaccess/content_cvpr_2015/papers/Yi_Understanding_Pedestrian_Behaviors_2015_CVPR_paper.pdf
動画
https://www.youtube.com/watch?v=Xr9mtbJdcvc
【51】
João Carreira, Abhishek Kar, Shubham Tulsiani, Jitendra Malik, “Virtual View Networks for Object Reconstruction”,
inCVPR2015.
単一物体は映る画像の再構築についての研究である.対象物の単一の画像から SfM を用いて複数視点からみた対象物体の仮想ビューを作成する.
(a)可能性が高い対象物体に関連するイメージの情報を強調することによるドメイン知識
(b)得られた再構成の特異性の増加量を使用して合成し,外れ値を外挿する
これらによって多数のロバスト性を高めるための方法の導入を提案している.
Link(s) 論文ページ:
http://arxiv.org/abs/1411.6091
【52】
Junlin Hu, Jiwen Lu “Deep Transfer Metric Learning”, in CVPR2015.
Metric Learning において,Deep Neural Network を用いた Deep Transfer Metric Learning(DTML)という手法の提案.特徴同士の距離計算だけでなく,
特徴空間の設計も取り入れている.特徴空間の設計では,入力特徴を識別するクラス間分散を最大化し,クラス内分散を最小化する問題に落とし込み,最
適化している.
Link(s) 論文ページ:
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Hu_Deep_Transfer_Metric_2015_CVPR_paper.pdf
【53】
Zheng Ma, Lei Yu, Antoni B. Chan “Small Instance Detection by Integer Programming on Object Density Maps ”, in CVPR2015.
Object Density Map を用いた小物体検出.入力画像から Object Density Map を求め,それに基づいて 2 次元整数計画法によって Bounding Box を推
定する.本論文の貢献は以下の通り.
1) 物体密度マップから 2 次元オブジェクトの位置を回帰し,2 次元整数計画法を開発する.私達のフレームワークは検出閾値の設定や非最大抑制が
ない.
2) 文献[2]からの正確なカウント結果の優位性を活用するため,整数計画法にグローバルカウント制約を追加する.この制約は false positive エラーを抑
制し,激しいオクルージョンのときに recall を増加することで検出結果を安定化する.
3) 検出物体の位置が与えられると,私達は密度マップを用いて物体のバウンディングボックスを推定する.
4) 最後に提案した検出手法は最先端の結果を示した.
Link(s) 論文ページ:
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Ma_Small_Instance_Detection_2015_CVPR_paper.pdf
【54】
A.Kuznetsova, S. J. Hwang, B. Rosenhahn, L. Sigal, “Expanding Object Detector’s HORIZON: Incremental Learning Framework
for Object Detection in Videos”, in CVPR2015.
静止画への domain adaptation による物体検知の方法は多く提案されているが,動画に対するそれは少ないため,動画による物体検知方法について提
案する.Large Margin Embedding (LME)による domain adaptation の方法を適用[Weinberger+, NIPS2008]しているが,さらにここでは Incremental
Learning の概念も導入して,新しくサンプルを追加する方法についても提案した.
下図が学習のフレームワーク(左)と処理した結果(右)である.右の図では,LME(左上)と提案手法(右下)では,誤検出が低減できていて手法として
Incremental Learning の追加処理が効果的であることがわかる.
Link(s) 論文ページ:
http://www.disneyresearch.com/wp-content/uploads/Expanding-Object-Detector%E2%80%99s-HORIZON-Incremental-
Learning-Framework-for-Object-Detection-in-Videos-Paper.pdf
プロジェクトページ:
http://www.disneyresearch.com/publication/expanding-object-detectors-horizon/
Youtube:
https://www.youtube.com/watch?v=-zrH2bI5p8A
【55】
F. Shen, C. Shen, W. Liu, T. Shen, “Supervised Discrete Hashing”, in CVPR2015.
Iterative Quantization (ITQ) [Gong+, CVPR2011]は PCA をベースとして,直交する軸に対して識別的にバイナリハッシングする手法であるが,量子化誤
差を最小にするために特徴空間を回転させる.しかし,ITQ は PCA 空間や特徴空間内にて回転(orthogonal rotation)させる必要があるため,事前に
PCA+CCA によるマッピングが必要である.この手間を省くために,直接的なハッシング方法を提案する.教師ありではあるものの,識別的なアプローチに
よりこのバイナリハッシングを実現する.手法としては,binary embedding と線形識別器の統合により実装する.学習サンプルとの誤差を示す loss function
L(・)と,ハッシュ関数である F(xi)を同時に学習する.下記,CIFAR データセットに対するバイナリハッシングの結果である.
Link(s) 論文ページ:
http://www.cv-foundation.org/openaccess/content_cvpr_2015/html/Shen_Supervised_Discrete_Hashing_2015_CVPR_paper.html
Matlab コード:
https://github.com/chhshen/Hashing-on-Nonlinear-Manifolds
【56】
Z. Lan, M. Lin, X. Li, A. G. Hauptmann, B. Raj, “Beyond Gaussian Pyramid: Multi-skip Feature Stacking for Action
Recognition”, in CVPR2015.
Multi-skip Feature Stacking (MIFS)を提案 .時系列的に複数の階調を準備して特徴抽出する.時間的にもマルチスケール化していると考えられる.複数
種類の時間的スケールで特徴取得しているが,時間的なギャップが L=0 (オリジナル)よりも,L=1, 2, 3, 4, 5 と情報量を進めていくごとに精度が上がってい
く.これは,処理時間とのトレードオフにもなるので,兼ね合いを考慮して L=3 の時を提案法としている.下図のように時間的なスケールにより周波数が異
なるため,情報量が増えることで特徴をさらに高次にできていると考える.精度は L=3 前後の時がもっとも性能が良くなることがわかる.
Link(s) 論文ページ:
http://arxiv.org/pdf/1411.6660.pdf
著者ページ:
http://www.cs.cmu.edu/~lanzhzh/
【57】
L. Wen+, “JOTS: Joint Online Tracking and Segmentation”, in CVPR2015.
追跡とセグメンテーションを統合して同時に解く.物体内の複数の領域をセグメントして,同時に追跡する,その際にエネルギー最適化により領域を統合
した追跡を実現.繰り返しによりヒューリスティックに領域追跡を行う手法として,RANSAC のような最適化を行っていく.下の図はトラッキングとセグメンテー
ションを同時に行っている様子であり,最初に複数領域をあげておき,時系列の Spectral Matching を行う.その後に繰り返しにより領域の分割数を最適化
していく.最終的なつながりを考慮してセグメンテーションとする.
最適化する項として,ピクセルラベルをいかに部位に割り当てるかのデータ項,隣接するピクセルを平滑化する項,オーバーフィッティングを避けるための
正規化項である.
Link(s) 論文ページ:
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Wen_JOTS_Joint_Online_2015_CVPR_paper.pdf
【58】
J. Xu, L. Mukherjee, Y. Li, J. Warner, J. M. Rehg, V. Singh, “Gaze-enabled Egocentric Video Summarization via Constrained
Submodular Maximization”, in CVPR2015.
劣モジュラ最適化を用いた一人称ビデオのサマライズ.視線情報ありの一人称ビデオを入力として,まずはシーンの変わり目などをサブショットとして切り
抜く.R-CNN による特徴抽出,サブショット間の共分散行列計算,サブショットの固定などを施したあとに,劣もジュラ最適化により映像をサマライズ.
Link(s) プロジェクトページ:
http://pages.cs.wisc.edu/~jiaxu/projects/ego-video-sum/
ポスター:
http://pages.cs.wisc.edu/~jiaxu/projects/ego-video-sum/poster.pdf
【59】
C. Xu, S.-H. Hsieh, C. Xiong, J. J. Corso, “Can Humans Fly? Action Understanding with Multiple Classes of Actors”, in
CVPR2015.
人は飛べるだろうか?否.車は食べるのだろうか?否.というように,行動をするもの(Actor)と行動(Action)に要素を対応づけておくことが必要と提案した
論文.同時にデータセット Actor-Action Dataset (A2D)も提案しており,3782 の動画が含まれている.Actor は 7 種(adult, baby, ball, bird, car, cat, dog),
Action は 8 種(climb, crawl, eat, fly, jump, roll, run, walk)がある.従来の行動認識手法で処理をかけると誤りを含んでしまうが,supervoxel によるセグメン
テーションを行う.その上で,グラフ構造を解くことにより,actor-action の設定を行う.
Link(s) 論文ページ:
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Xu_Can_Humans_Fly_2015_CVPR_paper.pdf
著者ページ:
http://www-personal.umich.edu/~cliangxu/
youtube:
https://www.youtube.com/watch?v=2p6ZdQtEXGU
【60】
Moritz Menze, Andreas Geiger, “Object Scene Flow for Autonomous Vehicles”, in CVPR2015.
自立走行する車からの3次元シーン認識のためのモデル及びデータセットの提案.屋外環境に置いては,多くの場合独立して運動する小さなオブジェク
トに分解できるという事実を利用して,各物体のパラメータによってシーン内の要素と,対応するオブジェクトへの指標付けを行う.このように分解可能な極
小領域毎の表現は,シーン認識におけるデータの堅牢性の向上が見込める.また, Superpixels とオブジェクト間の離散連続 Conditional Random Fields
につながる.
データセットの提案では,シーンの流れに ground truth を設定した新たな3次元シーン認識を述べている.移動中の全ての認識可能な車両の詳細な
CAD データを用いて 400 種類の動的なシーンを注釈している.
Link(s) 論文ページ:
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Menze_Object_Scene_Flow_2015_CVPR_paper.pdf
youtube:
https://www.youtube.com/watch?v=DBJmR6hx2UE
【61】
Y. Sun, X. Wang, X. Tang, “Deeply learned face representations are sparse, selective, and robust”, in CVPR2015.
従来型の顔認識 DeepNet [Sun+, NIPS2014]を改良した論文.潜在的な情報を含めたり,早期の畳み込み層から取り出した特徴量を適用することで顔認
識の精度が向上することが判明した.この体系化された手法は DeepID2+と呼んでおり,LFW データセットにおいて 99.47%, YouTube Faces dataset にお
いて 93.2%を達成するなど,各データセットで state-of-the-art となる精度を達成した.
下の図はブッシュ,ブッシュの部分遮蔽(オクルージョンへの対応),ブッシュの横顔(横顔への対応),パウエル(別人へ対応)の場面における活性化の様
子.オクルージョンや横顔であっても,本人への対応度が良いことがわかる.
DeepID2+ nets では,max-pooling で特徴を取得しており,55x47, 47x47 次元(pixels)の特徴を入力とすることにより畳み込みを行っている.その畳み込
みは 4 層から行っており,最終層では,512 次元の特徴取得を行っている.DeepNet の学習には CelebFaces+ dataset, WDRef dataset や LFW に含まれて
いるデータの統合を用いている.
Link(s) 論文ページ:
http://www.ee.cuhk.edu.hk/~xgwang/papers/sunWTcvpr15.pdf
【62】
A.Shrivastava, M. Rastegari, S. Shekhar, R. Chellappa, L. S. Davis, “Class Consistent Multi-Modal Fusion with Binary Features”,
in CVPR2015.
Multi-modal に関する特徴表現の研究である.既存の認識アルゴリズムにおける multi-modal では学習時の特徴学習を行った後の,テスト時の環境変化
によるノイズを考慮していない.提案手法では,Class Consistent Multi-Modal (CCMM) Fusion を用いることにより,道ノイズによる混乱を最小限にすること
を目指す.具体的には Quadratic Program (QP)を時系列特徴に適用し,Mixed Integer Program (MIP)をバイナリ特徴に適用する.
下の図はマルチモーダル,ここでは動画データと距離画像においていかに混乱(perturb)を抑えてクラスの一致性を保存するかを考える.
入力は RGB-D センサ,バイナリ特徴の最適化はグリーディアルゴリズムで行っている.
Link(s) 論文ページ:
http://www.umiacs.umd.edu/~ashish/files/CCMM_final.pdf
【63】
C. Albl, Z. Kukelova, T. Pajdla, “R6P: Rolling Shutter Absolute Pose Problem”, in CVPR2015.
カメラキャリブレーションに対する Perspective-n-point problem (PnP)問題はカメラの回転や並進を取得するための 2D から 3D の特徴点マッチングに必要
な問題である.SfM やカメラ位置推定,物体位置推定や visual odometry に必要な技術とされている.ここで,PnP においてはグローバルシャッターの仕組
みにおいては非常にうまく動作してきたが,ロールシャッターにおいてもうまく動作する仕組みを考える.ここで,グローバルシャッターの仕組みは全てが一
度光を当てることにより像を結ぶが,ロールシャッターにおいては微小に異なる時間軸で記録される.このため,異なる歪みを取り除く必要がある.提案は,
従来型である P3P を改良する non-iterative minimal solution to the rolling shutter absolute pose (RnP)を提案すること.複数のロールシャッターモデルにつ
いて多項式を解くことによりその対応点マッチング問題を解決する.また,回転行列が arbitrary であるという問題点があったので,提案法ではさらに,密に
回転行列を計算する手法 R6P を提案した.
Link(s) 論文ページ:
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Albl_R6P_-_Rolling_2015_CVPR_paper.pdf
【64】
K.-F. Yang, S.-B. Gao, Y.-J. Li, “Efficient Illuminant Estimation for Color Constancy Using Grey Pixels”, in CVPR2015.
色の恒常性を適用した色特徴は非常に重要な課題である.従来の問題においては光源からこの恒常性を推定する研究が多かった.ここで,提案手法で
は異なる仮説をベースとしたシンプルな色の恒常モデルを考える.それは自然色に多く含まれているグレー色(もしくはグレーに近い色)であり,イルミネー
ションの推定を高精度にする手がかりになる.
下図は処理フローであり,画像入力から Log RGB チャネルへの分解(画素値や表面反射を log で取得),Illuminant-invariant measure (IIM)の適用,最
後には Grey インデックスの推定.
Link(s) 論文ページ:
http://www.cv-
foundation.org/openaccess/content_cvpr_2015/papers/Yang_Efficient_Illuminant_Estimation_2015_CVPR_paper.pdf
【65】
Y. Fang, J. Xie, G. Dai, M. Wang, F. Zhu, T. Xu, E. Wong, “3D Deep Shape Descriptor”, in CVPR2015.
3D 物体認識のための Deep 特徴量,3D Deep Shape Descriptor を提案する.構造的に分散がある場合やノイズ,3 次元的に欠損を含む形状であっても
ロバストな 3 次元特徴量を提案する.ここで,アイディアとして 3 次元点群ベースの heat kernel signature(HKS)と,eigen-shape descriptor (ESD) & fisher-
shape descriptor (FSD)の組み合わせ特徴を提案している.
下図の処理は(1) Heat kernel signatures による表現,(2) Heat kernel descriptor による表現,(3) ニューラルネットの中間の層から取得した特徴を連結する
.
Link(s) 論文ページ:
http://www.cv-foundation.org/openaccess/content_cvpr_2015/html/Fang_3D_Deep_Shape_2015_CVPR_paper.html
【66】
S. Schraml, A. N. Belbachir, H. Bischof, “Event-Driven Stereo Matching for Real-Time 3D Panoramic Vision”, in CVPR2015.
Event-driven のステレオマッチングのためのコスト最小化問題の解法.イベントデータに対して,従来法よりもステレオによる構成能力を高めることができ
た.Non-zero distance (NZD)関数によりイベントのマッピングを表現する.ここで,コストを最小にするわけなのだが,パノラマ画像を想定しているため,x 軸
方向にウインドウサイズを変動させて評価し最適なイベントポジション(視差?)を求めていく.
その結果,画像サイズが大きくなってもマッチング率を損なわずに精度を保つことができている.
Link(s) 論文ページ:
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Schraml_Event-
Driven_Stereo_Matching_2015_CVPR_paper.pdf
【67】
X. Chen, C. L. Zitnick, “Mind’s Eye: A Recurrent Visual Representation for Image Caption Generation”, in CVPR2015.
画像と言語,双方に変換するチャレンジ.この処理を RNNs を用いて実現している.ここで,RNNs の問題点として,再帰的な繰り返しの後に概念を覚え
て置けるかどうかというところにある.例えば,RNN の言語モデルは長期にわたる関係性を記述するのが苦手である.これを,動的に視覚表現を更新する
ことにより long-term memory となり,すでに言及された文章を再度記述することがないようにする.
この手法は PASCAL sentence dataset,Flickr 8K, Flickr 30K,Microsoft COCO dataset など複数のデータセットに関して評価を行っている.
Link(s) 論文ページ:
http://www.cs.cmu.edu/~xinleic/papers/cvpr15_rnn.pdf
著者ページ:
http://research.microsoft.com/en-us/people/larryz/
【68】
C. Gan, N. Wang, Y. Yang, D.-Y. Yeung, A. G. Hauptmann, “DevNet: A Deep Event Network for Multimedia Event Detection
and Evidence Recounting”, in CVPR2015.
イベント検出用の DeepNet アーキテクチャ.TRECVID のチャレンジ MEDTest14 に対してイベント認識を行っている.DeepNet 中で時間的かつ空間的
な手がかりを取得することでイベント検出を行う.ImageNet の Pre-trained モデルを適用しているが,イベント検出用のデータセットに Fine-tuning している.
MED14 のデータセットに対して,improved DT+FVs が 32.88%の検出率だったのに対して,DevNet は 33.29%と向上した.
Link(s) 論文ページ:
http://winsty.net/papers/devnet.pdf
【69】
V. E. Liong, J. Lu, G. Wang, P. Moulin, J. Zhou, “Deep Hashing for Compact Binary Codes Learning”, in CVPR2015.
バイナリハッシングにディープラーニングを適用した Deep Hashing(DH).バイナリハッシングでは似たような画像が同じハッシング値になることが理想だが
,畳み込みの原理を用いて画像の主要な成分を取り出して類似度の高いハッシング値にしようというトライ.各畳み込み層では Projectoin matrix とバイアス
ベクトルを表現して,最終層を取り出してバイナリ出力.
また ,DH は unsupervised なバイナリハッシングであったが,supervised deep hashing(SDH)も同時に提案する.各画像から特徴抽出してペアを作成し,
positive(同クラス)は距離が近くなるように,negative(異クラス)は距離が遠くなるようにハッシングする.
Unsupervised, supervised に評価した結果が下の表である.データには CIFAR-10 を用いており,unsupervised な手法においてスタンダードな手法である
PCA-ITQ [Gong+, CVPR2011]からの精度向上が見られる.supervised な手法においてはいずれも最高性能を実現した.
Link(s) 論文ページ:
http://www.cv-foundation.org/openaccess/content_cvpr_2015/html/Liong_Deep_Hashing_for_2015_CVPR_paper.html
【70】
P. Li, X. Lu, Q. Wang, “From Dictionary of Visual Words to Subspace: Locality-constrained Affine Subspace Coding”, in
CVPR2015.
BoW の辞書は多様体表現を行うことで低次元空間にて表現が可能である.Locality-constrained Linear coding (LLC) [Canas+, NIPS2012]を用いることで
特徴空間の幾何的な配置を多様体として表現可能である.この論文では,Locality-constrained Affine Subspace Coding (LASC)を提案して,LLC では考
慮されていなかった辞書内での周辺ワードとの位置関係を考慮した特徴表現方法とする.これにより特徴の高次化を行っており,subspace との距離により
1 次の特徴表現を,Fisher information metric(FIM) [Sanchez+, IJCV2013]をベースにして 2 次の特徴表現を行っている.
この高次特徴表現により,各データセットにおいて Fisher Vector(FV)よりも高精度な識別を実現できることがわかった.VOC2007: 63.6% (LASC) 61.8%
(FV), Caltech256(30): 52.1% (LASC), 47.4% (FV), MIT Indoor 67: 62.9% (LASC), 61.3% (FV), SUN397(20): 35.6% (LASC), 34.2% (FV).
Link(s) 論文ページ:
http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Li_From_Dictionary_of_2015_CVPR_paper.pdf
著者ページ:
http://www.peihuali.org/Publications.htm
【71】
H. Rahmani, A. Mian, “Learning a Non-linear Knowledge Transfer Model for Cross-View Action Recognition”, in CVPR2015.
ある視点の行動を別視点の行動を学習サンプルとして識別する Cross-view 行動認識問題.これを,Non-linear Knowledge Transfer Model(NKTM)により
解く.
NKTM を学習する Learning Phase,識別器を生成する Training Phase,行動を識別する Testing Phase から構成されている.Learning では,mocap data
や可視画像から Dense Trajectories を抽出して NKTM を学習.Training では学習した NKTM を用いて,特徴ベクトルを取得かつ SVM により識別器を生
成.Testing では NKTM や SVM により行動を識別.
Link(s) 論文ページ:
http://www.csse.uwa.edu.au/~ajmal/papers/hossein-NKTM-cvpr15.pdf
著者ページ:
http://www.csse.uwa.edu.au/~ajmal/
【72】
S. Ardeshir, K. M. Collins-Sibley, M. Shah, “Geo-semantic Segmentation”, in CVPR2015.
幾何的に意味のあるセグメンテーション方法を提案.建物や道路など.
画像からは superpixel を取得するが,GIS データを追加で用いる.撮影されたカメラの位置やパラメータを考慮して,P=C[R|T]として,内部パラメータ(C)
と回転行列(R),カメラ位置(T)から.内部パラメータはあらかじめ計算しておき,カメラ位置は GPS から取得する.回転行列はロール/ピッチ/ヨーに分解され
るが,ロール/ピッチは撮影環境から 0 に設定,ヨーは方位から定める.カメラ行列 P から 2 次元画像を推定でき,さらには geo タグを割り振ることができる.
さらに,投影(projection)や色類似度(segmentation)の信頼性からその共起による信頼性の評価指標を用いた.これにより,例えば画像内に複数の建物が
ある場合にも分離性能が高められることが判明した.
Link(s) 論文ページ:
http://crcv.ucf.edu/papers/cvpr2015/Geo-semantic_Segmentation.pdf
youtube ページ:
https://www.youtube.com/watch?v=jf5U3gdF5yE
プロジェクトページ:
http://crcv.ucf.edu/projects/Geosemantic/
【73】
F. Yu, J. Xiao, T. Funkhouser, “Semantic Alignment of LiDAR Data at City Scale”, in CVPR2015.
LiDAR データを City-level で取得したデータから,alignment をいかに行うかを扱う.LiDAR など 3D のポイントクラウドはスキャンするラインによっては誤
差などから alignment がずれて位置推定の精度が落ちることがあるが,これを解決する.特徴としては Pole,Facades & Roads,Vehicles,Segments,Lines
などの semantic feature と,ICP による multiscale 最適化をおこなっている.Alignment の補正も全体に対して処理.
Link(s) 論文ページ:
http://yf.io/p/gsv/gsv_align.pdf
著者ページ:
http://yf.io/
プロジェクトページ:
http://gsv.yf.io/
【74】
J. Shao, K. Kang, C. C. Loy, X. Wang, “Deeply Learned Attributes for Crowded Scene Understanding”, in CVPR2015.
Deep Learning により混雑状況下における Attribute を返却する仕組みを考案した.また,混雑状況下における解析では最大となる WWW Crowd
Dataset を作成した.WWW Crowd Dataset 中には 8257 シーンから取得した 10,000 の動画,94 の混雑状況下に関する attribute(outdoor, indoor, walking,
pedestrian, standing など)が含まれている.attribute は環境や動作,人物の種類に関するものが多く含まれている.つまり,どんな環境でどんなヒトが何をし
ている,くらいはわかる問題設定である.Deep Learning のモデルに関しては multi-task learning deep model であり,アピアランスと動作特徴により特徴表
現,最終層により両者の特徴を統合している.結果は動画参照.
Link(s) 論文ページ:
http://www.ee.cuhk.edu.hk/~jshao/papers_jshao/jshao_cvpr15_www.pdf
プロジェクトページ:
http://www.ee.cuhk.edu.hk/~jshao/WWWCrowdDataset.html
【75】
L. Xiao, F. Heide, M. O’Toole, A. Kolb, M. B. Hullin, K. Lutulakos, W. Heidrich, “Defocus Deblurring and Superresolution for
Time-of-Flight Depth Cameras”, in CVPR2015.
Time-of-Flight(ToF)センサでのデブラリングや超解像を同時に行う問題設定.ToF センサはその映像取得方式からブラーが発生し,解像度もあまり高く
はないが,それを改善すべく事前情報としてブラーカーネルを適用する.sparse regularizes を用いて,潜在的なパラメータになっている振幅や距離値,ブ
ラーを推定する.
下図はベースライン(naive)と提案手法におけるデブラリングと距離値の計算である.提案手法ではブラーが発生し,や距離画像にノイズを含んでいるが,
提案手法による推定ではそれらの除去に成功している.
Link(s) 論文ページ:
www.cs.ubc.ca/labs/imager/tr/2015/DefocusToF/DefocusToF_Xiao2015.pdf
プロジェクトページ:
http://www.cs.ubc.ca/labs/imager/tr/2015/DefocusToF/
著者ページ:
http://www.cs.ubc.ca/~leixiao/
【76】
R. Goplan, “Hierarchical Sparse Coding with Geometric Prior For Visual Geo-location”, in CVPR2015.
画像情報からの位置推定問題.画像におけるアピアランス特徴と物理的な位置を,多様体によりマッピングする.また,Geometric prior を階層的スパー
スコーディングにより表現する.位置による事前情報はスパースコーディングにより表現されている.最終的には SVM により物理的な位置推定結果を返却
する.
im2gps dataset や San Francisco dataset, MediaEval2010 dataset を用いた実験ではそれぞれ state-of-the-art な精度を算出した.
Link(s) 論文ページ:
http://www.cv-foundation.org/openaccess/content_cvpr_2015/html/Gopalan_Hierarchical_Sparse_Coding_2015_CVPR_paper.html
著者ページ:
https://sites.google.com/site/raghuramana/Home/learning
【77】
H. Y. Jung, S. Lee, Y. S. Heo, I. D. Yun, “Random Tree Walk toward Instantaneous 3D Human Pose Estimation”, in CVPR2015.
高性能 PC でなくても(single core, 3.20GHz の PC を使用時)1000FPS で動作する距離画像からの姿勢推定手法を提案.Random walk sub-sampling を
木構造探索に適用した Random Tree Walk (RTW)を用いることにより,従来よりも高速かつ高精度な姿勢推定を実現した.
従来の方法では距離画像からピクセルの探索により人体領域を評価していたが,RTW ではランダムウォークによる探索を実装しているため,計算コストを
削減しつつ精度を保証できている.
処理は背景差分などでセグメントされた人物領域を入力とする.また,ランダムサンプリングする位置やその位置において正解の関節位置までの方向ベ
クトル(direction vector toward the true joint position)を学習する.探索は身体の中心から開始し,ステップ幅をもたせ,サンプリング点上では方向ベクトルを
頼りに正解位置を目指す.Regression tree により評価を行い,k-means によりあらかじめクラスタリングされたクラスをリーフノードに対応づけ,進むべき方向
ベクトルを計算する.この繰り返しにより正解の関節位置まで到達することができる.
実験では EVAL dataset において精度 92.6%の際に 1262fps,SMMC-10 dataset では約 96%の際に 999fps を記録した.
Link(s) 論文ページ:
http://www.cv-foundation.org/openaccess/content_cvpr_2015/html/Jung_Random_Tree_Walk_2015_CVPR_paper.html
【78】
C. Feichtenhofer, A. Pinz, R. P. Wildes, “Dynamically Encoded Actions based on Spacetime Saliency”, in CVPR2015.
行動認識の映像を学習して,頻発する行動特徴の部分を強調する.これが action based on spacetime saliency である.この研究の特徴表現には Bag-of-
visual-words (BoW)を用いており,従来の BoW では(i) primitive feature extraction (ii) feature encoding (iii) feature pooling であるが,コントリビューション
は(ii)と(iii)にあるとしている.この部分に関して spacetime saliency の尤度を重みとして積算することで行動認識に有効な特徴量を取得する.ここで,
spacetime saliency には motion constrast や motion variance が重要な要素であるとして特徴抽出を行う.superpixel も用いて領域の評価を行っている.行
動を記述する特徴としては improved dense trajectories (IDT)や spatiotemporal oriented energy (SOE)を用いる.
Link(s) 論文ページ:
http://www.cv-
foundation.org/openaccess/content_cvpr_2015/html/Feichtenhofer_Dynamically_Encoded_Actions_2015_CVPR_paper.html
プロジェクトページ:
http://www.cse.yorku.ca/vision/research/salient-actions.shtml
【79】
Z. Zhang, W. Shen, C. Yao, X. Bai, “Symmetry-Based Text Line Detection in Natural Scenes”, in CVPR2015.
対称性ベースの自然な(unconstrained な)シーンからの文字列検出.対称性が見られる位置をヒートマップで表示し,候補領域とする.候補領域の中から
文字列を密に判断して最終的な検出結果として抽出.
従来ではこの手の問題に Maximally Stable Extreme Regions (MSER)や Stroke Width Transform (SWT)が用いられていたが,提案手法では self-
similarity=>対称性ベースの手法にする.基本的な流れは下図の通りだが,false positives は CNN ベースの特徴量により除去する.
Link(s) 論文ページ:
http://www.cv-foundation.org/openaccess/content_cvpr_2015/html/Zhang_Symmetry-Based_Text_Line_2015_CVPR_paper.html
【80】
F. Pittaluga, S. J. Koppal, “Privacy Preserving Optics for Miniature Vision Sensors”, in CVPR2015.
次世代のカメラでは,プライバシー保護やセキュリティのため解像度を低くしつつも人物の認識を行う必要性が出てくる.ここで,提案手法においては光
源の変化に頑健かつ低解像で認識できるような仕組みを考案し,トレードオフの関係にあるプライバシー保護と認識性能をバランスできるようにする.この
研究においては depth センサを用いることで関節トラッキング,人物カウント,領域検出や顔がはっきりと見えない状態で顔追跡を行う.下記(1)は K-
anonymity であり顔を保護する仕組み,(2)は Kinect と 3D プリントで作成したプライバシー保護用のレンズである.フィルタを通してもなお,関節トラッキン
グを行うことができている.また,温度センサによる人物追跡や低解像度センサによる追跡も実践している.
Link(s) 論文ページ:
http://www.cv-
foundation.org/openaccess/content_cvpr_2015/papers/Pittaluga_Privacy_Preserving_Optics_2015_CVPR_paper.pdf
プロジェクトページ:
http://focus.ece.ufl.edu/precaptureprivacy/
YouTube:
https://www.youtube.com/watch?v=jcTpBqYDNZQ
【81】
T. Mauthner, H. Possegger, G. Walter H. Bischof,“Encoding based Saliency Detection for Videos and Images”, in CVPR2015.
エンコーディングベースの顕著性マップ計算.あらかじめ各チャンネルから近隣の画素との相関値を算出しておき,sliding window にてヒストグラムを評
価する.オプティカルフローも算出してエンコーディングする.ここで,各 σ のスケールにおける前景の尤度マップ,セグメンテーション,ガウスブラーにおけ
るチャンネルから統合的に顕著性マップを決定する.結果的に Global/Local のフローや色情報を参照していることになる.
UCFsports にて実験した画像では提案手法がもっとも所望のセグメンテーションに近い結果を算出した.
Link(s) 論文ページ:
http://www.cv-
foundation.org/openaccess/content_cvpr_2015/papers/Mauthner_Encoding_Based_Saliency_2015_CVPR_paper.pdf
著者ページ:
http://lrs.icg.tugraz.at/members/mauthner
Vimeo:
https://vimeo.com/123386676
ご質問・コメント等ありましたら,cvpaper.challenge@gmail.com / Twitter@CVPaperChalleng までお願いします.

Mais conteúdo relacionado

Mais procurados

【2016.04】cvpaper.challenge2016
【2016.04】cvpaper.challenge2016【2016.04】cvpaper.challenge2016
【2016.04】cvpaper.challenge2016cvpaper. challenge
 
【2015.08】(2/5)cvpaper.challenge@CVPR2015
【2015.08】(2/5)cvpaper.challenge@CVPR2015【2015.08】(2/5)cvpaper.challenge@CVPR2015
【2015.08】(2/5)cvpaper.challenge@CVPR2015cvpaper. challenge
 
【2016.01】(2/3)cvpaper.challenge2016
【2016.01】(2/3)cvpaper.challenge2016【2016.01】(2/3)cvpaper.challenge2016
【2016.01】(2/3)cvpaper.challenge2016cvpaper. challenge
 
【2016.03】cvpaper.challenge2016
【2016.03】cvpaper.challenge2016【2016.03】cvpaper.challenge2016
【2016.03】cvpaper.challenge2016cvpaper. challenge
 
【2016.08】cvpaper.challenge2016
【2016.08】cvpaper.challenge2016【2016.08】cvpaper.challenge2016
【2016.08】cvpaper.challenge2016cvpaper. challenge
 
【2016.02】cvpaper.challenge2016
【2016.02】cvpaper.challenge2016【2016.02】cvpaper.challenge2016
【2016.02】cvpaper.challenge2016cvpaper. challenge
 
【2016.01】(3/3)cvpaper.challenge2016
【2016.01】(3/3)cvpaper.challenge2016【2016.01】(3/3)cvpaper.challenge2016
【2016.01】(3/3)cvpaper.challenge2016cvpaper. challenge
 
【2016.12】cvpaper.challenge2016
【2016.12】cvpaper.challenge2016【2016.12】cvpaper.challenge2016
【2016.12】cvpaper.challenge2016cvpaper. challenge
 
cvpaper.challenge@CVPR2015(Dataset)
cvpaper.challenge@CVPR2015(Dataset)cvpaper.challenge@CVPR2015(Dataset)
cvpaper.challenge@CVPR2015(Dataset)cvpaper. challenge
 
SfM Learner系単眼深度推定手法について
SfM Learner系単眼深度推定手法についてSfM Learner系単眼深度推定手法について
SfM Learner系単眼深度推定手法についてRyutaro Yamauchi
 
カメラ間人物照合サーベイ
カメラ間人物照合サーベイカメラ間人物照合サーベイ
カメラ間人物照合サーベイYoshihisa Ijiri
 
20180929 sfm learner&vid2_depth_print
20180929 sfm learner&vid2_depth_print20180929 sfm learner&vid2_depth_print
20180929 sfm learner&vid2_depth_printKUMIKO Suzuki
 

Mais procurados (13)

ECCV 2016 まとめ
ECCV 2016 まとめECCV 2016 まとめ
ECCV 2016 まとめ
 
【2016.04】cvpaper.challenge2016
【2016.04】cvpaper.challenge2016【2016.04】cvpaper.challenge2016
【2016.04】cvpaper.challenge2016
 
【2015.08】(2/5)cvpaper.challenge@CVPR2015
【2015.08】(2/5)cvpaper.challenge@CVPR2015【2015.08】(2/5)cvpaper.challenge@CVPR2015
【2015.08】(2/5)cvpaper.challenge@CVPR2015
 
【2016.01】(2/3)cvpaper.challenge2016
【2016.01】(2/3)cvpaper.challenge2016【2016.01】(2/3)cvpaper.challenge2016
【2016.01】(2/3)cvpaper.challenge2016
 
【2016.03】cvpaper.challenge2016
【2016.03】cvpaper.challenge2016【2016.03】cvpaper.challenge2016
【2016.03】cvpaper.challenge2016
 
【2016.08】cvpaper.challenge2016
【2016.08】cvpaper.challenge2016【2016.08】cvpaper.challenge2016
【2016.08】cvpaper.challenge2016
 
【2016.02】cvpaper.challenge2016
【2016.02】cvpaper.challenge2016【2016.02】cvpaper.challenge2016
【2016.02】cvpaper.challenge2016
 
【2016.01】(3/3)cvpaper.challenge2016
【2016.01】(3/3)cvpaper.challenge2016【2016.01】(3/3)cvpaper.challenge2016
【2016.01】(3/3)cvpaper.challenge2016
 
【2016.12】cvpaper.challenge2016
【2016.12】cvpaper.challenge2016【2016.12】cvpaper.challenge2016
【2016.12】cvpaper.challenge2016
 
cvpaper.challenge@CVPR2015(Dataset)
cvpaper.challenge@CVPR2015(Dataset)cvpaper.challenge@CVPR2015(Dataset)
cvpaper.challenge@CVPR2015(Dataset)
 
SfM Learner系単眼深度推定手法について
SfM Learner系単眼深度推定手法についてSfM Learner系単眼深度推定手法について
SfM Learner系単眼深度推定手法について
 
カメラ間人物照合サーベイ
カメラ間人物照合サーベイカメラ間人物照合サーベイ
カメラ間人物照合サーベイ
 
20180929 sfm learner&vid2_depth_print
20180929 sfm learner&vid2_depth_print20180929 sfm learner&vid2_depth_print
20180929 sfm learner&vid2_depth_print
 

【2015.06】cvpaper.challenge@CVPR2015

  • 2. 【1】 A. Henge, C. Russel, J. Bastian, D. Pooley, A. Dick, L. Fleming, L. Agapito, “Part-based modeling of compound scenes from images”, in CVPR2015. 複数画像から取得されたシルエットを用いて 3 次元形状を復元する問題.さらに,3 次元モデルは複数のパーツから構成されているという前提で,分解 できるようにした.意味的に分解できる 3 次元モデリングにより,メッシュやボリュームの復元よりも意味のあるモデリングとなることは自明である.そこで,与 えられた 3 次元モデルからいかにパーツ毎に分解するのかを考える必要がある.内的な構造と,スパース性を取得し,大規模な(3 次元としての)パーツの 辞書を構築する. 3 次元の構造は block world[Gupta+, ECCV2010]と呼ばれる,3 次元空間をブロック状に再現した表現方法を用いる.最終的には,3 次元パーツに対し て「車のタイヤの部分で動くことができる」といった感じで意味付けすることができる. Link(s) 論文ページ: http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Hengel_Part-Based_Modelling_of_2015_CVPR_paper.pdf
  • 3. 【2】 S. Frintrop, T. Werner, G. M. Garcia, “Traditional Saliency Reloaded: A Good Old Model in New Shape”, in CVPR2015. Itti らの Saliency モデルをさらに改良するための提案.複数のチャネルに分解(Intensity, Red/Green, Bue/Yellow)して Saliency を取得する部分は同様 に処理するが,2 段階構造にして DoG(difference of Gaussian)を処理する部分が Itti らのモデルとは異なる.scale-space(画像サイズを多段階にする)表現 によりガウスフィルタリングを施し,最終的には各チャネルの顕著性を統合する.高速に,pixel-level の顕著性を取得することに成功している. さらに,位置による事前分布や MeanShift によるセグメンテーションも考慮してモデルを生成することも可能である. 実験では MSRA-10k,SED1/SED2,ESCCS, PASCAL-S データセットを用いて,セグメンテーションができているかどうかを precision-recall の指標を示し ている.さらには,セグメンテーションされた領域に重み付けを施した手法である weighted f-measure も示している.結果は,提案モデルである VOCUS2 が 最も高い精度を示した. 一番左の図が input,二番目が ground truth,三番目が提案手法,以下従来法 Link(s) プロジェクトページ: http://www.iai.uni-bonn.de/~frintrop/vocus2.html
  • 4. 【3】 Qian-Yi Zhou Vladlen Koltun, “Depth Camera Tracking with Contour Cues ” in CVPR2015. 距離画像において輪郭を追跡したカメラトラッキング手法の提案.既存のアルゴリズムは幾何学的な位置合わせの不安定さから,なめらかな表面でドリフ トしてしまう.それに対し,輪郭特徴を用いることで,ノイズが多く不完全な距離データにおいてもカメラトラッキングを実現した.既存の Kinect Fusion や Bylow らの手法と比較した結果が以下の通りである. Link(s) 論文ページ: http://vladlen.info/papers/contours.pdf
  • 5. 【4】 Chao Ma , Xiaokang Yang, Chongyang Zhang, and Ming-Hsuan Yang, “Long-term Correlation Tracking ” in CVPR2015. 動きやオクルージョン,視界からの外れといった様々な悪影響の中で物体を長時間追跡する手法の提案.物体の追跡とスケール変化の推定の 2 つのタ スクに分類し,その関連性を用いて追跡している.スケール変化の推定は,追跡対象の HOG 特徴量を用いて推定している.対象は,その周辺領域のフ ーリエ変換特徴を用いて追跡している.さらに Random Ferns を用いて,物体を見失った際にも再検出するアルゴリズムを組み込むことで,オクルージョン にも対応している. Link(s) 論文ページ: http://faculty.ucmerced.edu/mhyang/papers/cvpr15_long_term_tracking.pdf
  • 6. 【5】 Chao Ma , Xiaokang Yang, Chongyang Zhang, and Ming-Hsuan Yang, “Long-term Correlation Tracking” in CVPR2015. 車の画像データセットの提案.2 つのシナリオを考慮しており,1 つが Web 画像,もう 1 つが監視カメラからの画像である.Web 画像では,検索する際に 使用するような画像が用意されており,監視カメラ画像では一般的な環境から撮影されたものとなっている. 条件 画像枚数 車の全体 136,727 車の部分 27,618 監視カメラ 50,000 また,撮影された画像は以下の制約を含んでいる. (1)階層:製造年,モデル,メーカー (2)属性:最高速度,距離,ドアの下図,種類 (3)視点:正面,背面,側面,正面側面,背面側面 (4)部分:外装,内装 これら様々な撮影条件の中で,CNN を用いて Fine-Grained な識別をした. データセットの一部:
  • 8. 【6】 Maxime Oquab, Léon Bottou, Ivan Laptev, Josef Sivic, “Is Object Localization for Free? - Weakly-Supervised Learning With Convolutional Neural Networks”, in CVPR2015. 現在の物体認識では画像のラベルに依存しているが,複数オブジェクトを含む複雑なシーンにおいても識別結果を出力できるようにする.畳み込みニュ ーラルネットワーク(CNN)の記述をするが,以下のような工夫点も加えている. ・正確なイメージレベルの出力 ・物体のおおよその位置の予測 ・トレーニングのために object bounding box を使用して,教師と対応させる. アーキテクチャの統合のために次の 3 点を適用する. ・畳み込みとして接続された層を利用することで入力と同様のサイズの画像を扱う. ・global max-pooling の層を追加することによって画像中のオブジェクト位置を検索する. ・明示的に画像内に存在する複数の物体をモデル化ができるコスト関数を使用する. 物体のクラス分類,物体の位置予測の性能を定量的に評価するため,Pascal VOC 2012(20 オブジェクトクラス)と,Microsoft COCO(80 オブジェクトクラス) をデータセットとする.その結果、詳細なオブジェクトレベルのラベル付けを必要とせずに 86.3%でオブジェクトの分類をした. Link(s) プロジェクトページ: http://www.di.ens.fr/willow/research/weakcnn/
  • 9. 【7】 Y. Gong, M. Pawlowski, F. Yang, L. Brandy, L. Boundev, R. Fergus, “Web Scale Photo Hash Clustering on A Single Machine”, in CVPR2015. 写真を共有するサイト(Facebook,Instagram, Flicker など)は現在一般的に普及しているが,いかに検索し,構造化するかは依然としてチャレンジングな問 題である.この研究では,日々数億枚と増加する大規模な写真のコレクションを想定してクラスタリングを実行する.ここでは,いかに類似する画像をまとめ るための画像ハッシュコードするかを考案する. 例えば,Gong らのハッシュコード化をもちいて,画像をバイナリ列に変換する.その上で,k-means をバイナリ空間で実行する Binary k-means (Bk- means)を提案.この Bk-means を用いることで,multi-index hash table の利点である,効率的なセントロイドへの対応付けを可能とし,計算時間の複雑性を O(nk)から O(n)に削減した.これは,バイナリハッシュにより k の探索回数を 1 にしたことで得られる効果である. ILSVRC のデータセットに対して試した処理速度の計測では k-means,Bk-means,k-medoids,KDk-means を比較して下図のようになった. Link(s) プロジェクトページ: http://www.cv-foundation.org/openaccess/content_cvpr_2015/html/Gong_Web_Scale_Photo_2015_CVPR_paper.html
  • 10. 【8】 T. Zhang, S. Liu, C. Xu, S. Yan, B. Ghanem, N. Ahuja, M.-H. Yang, “Structural Sparse Tracking”, in CVPR2015. 多くの sparse 表現では,local(部分的に物体を見る)か holistic(全体的に物体を評価する)かに偏っていて,物体内部の表現方法に欠点があったが,い ずれの特性も持つトラッキング方法 Structural Sparse Tracking (SST)を提案する. 提案手法は(d)であり,(a)(b)(c)いずれの特性も持ち合わせている.(a)ではランダムサンプリングされた位置において,全体的なモデルをフィッティングさ せているが,モデルから取得した部分的な位置を対応付けている.(c)においても(a)と同様に物体の形状を全体的にモデルフィッティングさせるが,複数の モデルを統合させて評価している.(d)においてはこれらすべてのモデルを兼ね備えており,部分的かつ全体的に評価をするが,それらの統合も許容する . 特徴取得する際にはパッチを 1x1,2x2,3x3 に区切った複数種類のサンプリング画像で評価する.これらの特徴群を,サンプリング点や部分毎に評価し て各ブロックや画像全体などから取得した,またサンプリング点をまたいだ相関値を計算する. 結果は,各データセットに関して従来法との比較により有効性を検証した. Link(s) 論文ページ: http://ivul.kaust.edu.sa/Pages/Pub-Sparse-Tracking.aspx
  • 11. 【9】 Kuang-Jui Hsu , Yen-Yu Lin , Yung-Yu Chuang, “Robust Image Alignment with Multiple Feature Descriptors and Matching- Guided Neighborhoods”, in CVPR2015. 画像の位置合わせは CV において基礎的な課題であり,解決する必要がある.これができれば,顔の位置合わせなどに役立つことができる.逆に,これ が出来ないと正確なオプティカルフローの算出も困難となる.提案手法では位置合わせにおいて, 1:最適な記述子の選択 2:最近傍法の最適化 に取り組む. Link(s) 論文ページ: http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Hsu_Robust_Image_Alignment_2015_CVPR_paper.pdf
  • 12. 【10】 C. Fang, H. Jin, J. Yang, Z. Lin, “Collaborative Feature Learning from Social Media”, in CVPR2015. カテゴリレベルのラベル付けのみが特徴学習に必要なのかを基本的な問題設定にして,良好な特徴量を設定するために研究した.Pinterest のような写 真の切り抜きを集めたようなサービスでは,あるユーザの集める写真は似ているし,似たようなユーザもまた,似たような写真を集めてくると見ている.もし,こ れらユーザの写真を集める振る舞いを取得することができれば,その特徴の傾向がつかめるかもしれない. ここで,特徴学習の手法として Collaborative Feature Learning を提案し,ソーシャルメディアのユーザ行動から特徴学習を行ってしまう.Latent factor analysis と convolutional neural network (CNN)により特徴を学習する. Collaborative フィルタも導入することにより,効果的な特徴量を取得するためのデータの選別も行っている.CNN の学習により,特徴量を自動学習する. データセットには Behance.net から取得した 190 万枚の画像を用いており,3 億 2600 万の閲覧履歴も保持している. Link(s) 論文ページ: http://www.cv- foundation.org/openaccess/content_cvpr_2015/papers/Fang_Collaborative_Feature_Learning_2015_CVPR_paper.pdf 著者ページ: http://www.cs.dartmouth.edu/~chenfang/
  • 13. 【11】 M. Shi, Y. Avrithis, H. Jegou, “Early burst detection for memory-efficient image retrieval”, in CVPR2015. 画像の「burst」について考察している論文である.例えば,下の図はビルの窓が写っている画像である.キーポイント検出と特徴量取得,コードワードを取 得した場合には特徴量が非常に似通っているパッチが多数発生する.しかしこの,同じような位置にあるにも関わらず,複数のワードに所属してしまうことが burst であると主張した.burst が発生してしまうと,物体やシーン認識でクラス分類ができないなど不都合が起こってしまうため,これを解決する. 与えられた 2 つの画像に対して,3 つのカーネルを設定して特徴を取得した.ひとつは記述子に関してのカーネル Ku,スケールのカーネル Ks,オリエン テーションのカーネル Kθ を設定する.記述子,スケール,オリエンテーションそれぞれの視点で類似度を計算することにより,パッチ同士の位置特定の性 能を高めたといえる. Link(s) 論文ページ: http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Shi_Early_Burst_Detection_2015_CVPR_paper.pdf
  • 14. 【12】 Y.-H. Tsai, O. C. Hamsici, M.-H. Yang, “Adaptive Region Pooilng for Object Detection”, in CVPR2015. 物体検出の問題の難しさのひとつとして,物体の内的な変化やバリエーションの多様性を挙げている.これを,特徴プーリングを用いることで相殺しようと した.プーリングと同時に,セグメンテーションも行い,より特徴抽出のフレームワークを拡張する.さらには,角度や物体の種類を考慮した exemplar ベース の特徴抽出や,分離性が高い物体内部のパーツを発見しながら特徴を取得する. Exemplar の概念により角度や見え方を揃えたソース画像をあらかじめセグメンテーションしてパーツごとに分離し,ターゲット画像(例えば違う車の同じ角 度から撮影された画像)に合わせてリサイズする.その上でターゲット画像から特徴を抽出してプーリングすることでソース画像と似通った特徴量が取得でき る.感覚的には,同じような見え方周辺の画像を集めて,特徴空間を埋めていく. 精度比較の図では,多くの場合 DPM や CNN の特徴抽出よりも高い精度を示すことがわかった.exemplar を取り出し,その周辺の特徴量をプーリング することにより特徴空間において網羅性を高めることにつながり,的確にマッチングすることができる. Link(s) 論文ページ: http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Tsai_Adaptive_Region_Pooling_2015_CVPR_paper.pdf
  • 15. 【13】 Jonathan Krause, Hailin Jin, Jianchao Yang, Li Fei-Fei, “Fine-Grained Recognition without Part Annotations” in CVPR2015 Fine-Grained Recognition を用いた物体認識の研究.Fine-Grained Recognition では,画像中のキーポイントの数を増加させラベル付けすることが認識精 度の向上につながるが,それは同時に識別に必要な計算のコストが増大することになる.当研究では,ラベル付けを用いずに Fine-Grained な物体認識の 実現を提案している.複数画像からの類似特徴量の抽出を混合識別モデルを用いて行っている. 識別精度の評価には Cub-2011,cars-196 データセットを使用しており,.は学習に注釈を用いた場合と比較しても高い精度を誇っている.Cars-196 の場 合の識別精度を Fig.2,Cub-2011 の場合の識別精度を Fig.3 に示す. Fig.2 Cars-196 dataset Fig.3 Cub-2011 dataset この研究によって,コストの高い Fine-Grained Recognition のスケールアップを図れると提言している. Link(s) 論文ページ: http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Krause_Fine- Grained_Recognition_Without_2015_CVPR_paper.pdf
  • 16. 【14】 Jiaolong Yang, Hongdong Li, ”Dense, Accurate Optical Flow Estimation with Piecewise Parametric Model”, in CVPR2015 「区分パラメトリックモデルを用いた高精度なオプティカルフロー推定」 様々なパラメトリックモデルが各部分の領域(領域の形状,位置とサイズ)に適応的に決定されるフィールドの流れに合わせる.それと同時に連続的な制限 があるグローバルな部分的流れを維持する. 提案手法ではエネルギー最小化を介して適合している複数モデル方式でこれを達成する.提案手法のエネルギーはパラメトリックモデルと連続的な制限 がある部分的流れの両方を取り.単純な動作や複雑な動作の両方を効果的に処理するために提案された方法である.3 つのパブリックオプティカルフロー のベンチマーク( KITTI、MPI Sintel、およびミドル)の実験では、従来の技術と比較して提案手法の優位性を示している.それはすべての 3 つのベンチマ ークでトップクラスの性能を実現している. Link(s) 論文ページ: http://www.cv-foundation.org/openaccess/content_cvpr_2015/ext/1A_111_ext.pdf
  • 17. 【15】 I.Akhter, M. J. Black, “Pose-Conditioned Joint Angle Limits for 3D Human Pose Reconstruction”, in CVPR2015. 2 次元の関節角度から人間の 3 次元姿勢推定を行っている。従来手法では、不可能なポーズも推定してしまっている。これらを取り除くために、関節角 の限界を学習する必要がある。このため、限界関節角を学習させるのためデータセットを用意する。データセット例を Fig1 に示す。 Fig1 データセット例 Fig2 比較結果 従来手法である Ramakrishna らの手法と Fan らの手法と提案手法を CMU mocap dataset を用いて比較を行う。この結果を Fig2 に示す。 Link(s) 論文ページ: http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Akhter_Pose- Conditioned_Joint_Angle_2015_CVPR_paper.pdf https://www.youtube.com/watch?v=dz2Mq9L54pQ
  • 18. 【16】 Limin Wang, Yu Qiao, Xiaoou Tang, “Action Recognition With Trajectory-Pooled Deep-Convolutional Descriptors”, in CVPR 2015 本論文では,ビデオから人間の行動を理解するための新しい記述子 trajectory-pooled deep-convolutional descriptor(以下 TDD)を提案して いる.TDD の特徴は Deep Learned 特徴と HandCrafted 特徴の両方のメリットを共有している事である.以下の Fig.1 に TDD の概要を示す. Fig1. TDD の概要図 TDDs のロバスト性を高めるために畳み込み特徴マップ、すなわち正規化と時空間チャネルの正規化を変換するために、2 つの正規化方法 を設計している. この特徴の利点は, (i)TDDs が自動的に学習し、Hand-Crafted と比較して高い判別能力がある (ii)TDDs は、時間次元の固有の特性を考慮する事で、軌跡にサンプリングとプールの制約戦略を導入し、Deep-Learned 機能を集約している 実験は HMDB51 と UCF101 のデータセットで実験を行っている. 実験と実験結果を以下に示す.
  • 20. 【17】 Yukitoshi Watanabe, Fumihiko Sakaue, Jun Sato.”Time-to-Contact from Image Intensity”, in CVPR2015 物体が衝突するまでの時間は,物体の見え方や主にサイズの変化でかなり正確に認知することができると知られている.この時私達は,カメラパラメータ や物体の追跡情報を認知しなくても,衝突までの時間を推定することができている.しかし,カメラから物体の衝突時間を推定するためには,コーナー検出 やエッジ抽出などの画像の幾何学的な情報に基づいている.そのため,画像から幾何学的な情報を取得することができない場合は,物体の衝突時間を正 確に推定することができない.当論文では,画像中の測光情報から物体が衝突する時間を推定する新しい手法を提案している.物体に光を当てた時の測 光情報の変化のモデルを作成し,それに当てはめることで画像の光強度の変化のみから物体の衝突時間を推定している.Fig.1 にモデル作成時の光強 度変化の例,Fig.2 に各条件における物体までの距離と衝突までの時間推定結果を示す. Fig.1 光源と物体の位置による測光量の変化 Fig.2 距離と衝突予測時間の精度評価 本手法では,物体の向きや形状など幾何学的な情報を必要とすることがないため,運転支援などに用いることが可能であると提言している. Link(s) 論文ページ: http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Watanabe_Time-to- Contact_From_Image_2015_CVPR_paper.pdf
  • 21. 【18】 Kuan-Chuan Peng, Tsuhan Chen, Amir Sadovnik, Andrew Gallagher.”A Mixed Bag of Emotions: Model, Predict, and Transfer Emotion Distributions”, in CVPR2015 写真から得られる人間の感情の新たな2つの側面を提案しており,感情推定の新たな基準として6Emotinon Dataset を提案している.一つ目は,人間は同 じ画像に対しても異なる感情を持つことを検証している.その中でも,ひとつの画像に対して最も強く発現する感情である「distributions」を推定することで, 様々な応用が期待できると述べている.2つ目に,我々は多くの場合,画像の色調や形状のみから感情を誘発しているわけではないため,選択する画像を操 作することで任意の感情ベクトルを画像から誘発することが可能であると述べている.実験では,心理学者から代表的な感情として挙げられている感情であ る,怒り、嫌悪、喜び、恐怖、悲しみ、驚きの6種類を対象としている.この6種類の感情をランダムにトレーニングし,SVR CNN,CNNR の3種類の手法で評価 している.CNNR は畳み込みニューラルネットワークを使用した感情推定手法に,各感情の回帰トレーニングを加えたものである.実験の結果,当論文で提案 した CNNR 手法が最も高い感情推定精度を示している. Link(s) 論文ページ: http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Peng_A_Mixed_Bag_2015_CVPR_paper.pdf
  • 22. 【19】 Yonggang Qi, Yi-Zhe Song, Tao Xiang, Honggang Zhang, Timothy Hospedales, Yi Li, Jun Guo.”Making Better Use of Edges via Perceptual Grouping,” in CVPR2015 Perceptual grouping framework を提案する.これは,画像に対して objectness の処理を施し,画像中の物体を識別する.次に,物体と認識した箇所に関 してエッジ処理を施し,意味のある構造として識別する. 絵に描いた,物体を認識しエッジ処理を施した画像との照合を行い類似度が高い順に,RankSVM を用いることでランキングする.これにより画像検索を 行うことができる.結果を以下に示す. Link(s) 論文ページ: http://www.cv-foundation.org/openaccess/content_cvpr_2015/ext/1B_081_ext.pdf
  • 23. 【20】 G. Bourmaud, R. Megret, “Guillaume Bourmaud, Rémi Mégret ”Robust Large Scale Monocular Visual SLAM”, in CVPR2015. 新しい単眼の Visual SLAM アルゴリズムを提案する.このアルゴリズムは 4 つのモジュール(キーフレーム選択,サブマップ再構成,ペア類似度推定, 関係性の平均化)である. 私達の貢献は以下の通りである. 1. Known Rotation Problem と呼ばれるサブマップを頑健に推定する新しい Visual オドメトリ手法を提案した. 2. 誤ったループクタスタから関連する 3D 類似性の外れ値を除去する単純で効果的な外れ値アルゴリズムの提案. 3. 非常に効率的にサブマップを位置合わせすることができるアルゴリズムの提案 Link(s) 論文ページ: http://www.cv-foundation.org/openaccess/content_cvpr_2015/ext/1B_058_ext.pdf
  • 24. 【21】 Qiang Chen, Junshi Huang, Rogerio Feris, Lisa M Brown, Jian Dong, Shuicheng Yan, “Deep Domain Adaptation for Describing People Based on Fine-Grained Clothing Attributes”, The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp. 5315-5324, 2015 Fine-graind な衣服属性をもつ人々の記述問題についての研究である.記述方法としてオブジェクト由来の複数のラベルを生成する Deep Domain Adaptation Network を提案している.人物領域の取得には RCNN(Region with CNN features:畳み込みニューラルネットワークを用いて取得した特徴を用 いて物体を検出する手法)を用いている. Link(s) 論文ページ: http://www.cv-foundation.org/openaccess/content_cvpr_2015/html/Chen_Deep_Domain_Adaptation_2015_CVPR_paper.html
  • 25. 【22】 Jen-Hao Rick Chang, Yu-Chiang Frank Wang, “Propagated Image Filtering” inCVPR 新しいフィルターとして、propagation filter を提案する.このフィルターは明示的な空間カーネル関数を適用することなく,画像特性を観察し,保存するこ とができる.ピクセル間の測光距離に基づいて画素の関係を決定し,ベイズの定理を用いて propagation filter の定式化を行う.このフィルターを使用する ことで,画像の横方向エッジ情報を防止し,クロス領域の混合問題を軽減することが可能である.BIlateral-Cut Filter や Geodesic Filter、Recursive Bilateral と提案したフィルターを比較するその結果を Fig1 に示す. Fig1 従来のフィルターとの比較 Link(s) 論文ページ: http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Chang_Propagated_Image_Filtering_2015_CVPR_paper.pdf
  • 26. 【23】 Min-Gyu Park and Kuk-Jin Yoon, “Leveraging Stereo Matching with Learning-based Confidence Measures” in CVPR2015. ステレオマッチングの頑健性を向上するため,学習ベースの確信度を予測するアプローチを導入する.4 つの学習画像から複数の確信度を抽出し,木 構造の回帰モデルを生成する.そのモデルに基づき,マッチングコストを算出し,Semi-Global Matching によってステレオ画像を生成する. Link(s) 論文ページ: http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Park_Leveraging_Stereo_Matching_2015_CVPR_paper.pdf
  • 27. 【24】 Deqing Sun, Erik B. Sudderth, Hanspeter Pfister, “Layered RGBD Scene Flow Estimation”, in CVPR2015. 私たちはシーンを移動層に分割し,RGBD 映像から 3D 運動を推定する.本稿におけるチャレンジングな点は RGBD によるシーンフロー推定はノイズの 多い性質があることである. RGB 画像配列からオクルージョンをモデル化するための手法として階層化モデルがあるが,計算コストが高い点,層の深さの順序を検索する必要がある 点で障害となる.そのためのアプローチとして階層化モデルのための奥行順序の問題を RGBD データを用いることで解決し,これによって 3D 回転や平 行移動の推定を容易にする.得られた 3D の剛体の運動はレイヤ単位の動きを制約する機能がある.画像から与えられる高い層のフィールドモーションの 解決にはベイジアンを使用する. Middlebury のデータセットを用いた実験の結果,二乗(RMS)誤差と平均角度誤差(AAE)が最先端の SRSF 法の半分以下となった. Link(s) 著者ページ: http://people.seas.harvard.edu/~dqsun/ 論文ページ: http://people.seas.harvard.edu/~dqsun/publication/2015/CVPR2015_RGBD.pdf
  • 28. 【25】 Shaoxin Li, Junliang Xing, Zhiheng Niu, Shiguang Shan, Shuicheng Yan,“Shape Driven Kernel Adaptation in Convolutional Neural Network for Robust Facial Trait Recognition “in CVPR2015. 本論文では顔の形質変化の問題点である視点や表情の変化で起こりうる非剛性変化に対し CNN アーキテクチャに展開する事で顔のランドマークを探 索する手法を提案している, 本手法は固定されたカーネルを用いて,顔のランドマーク空間分布を考慮した動的にたたみ込みカーネルを決定するカーネル適応手法を提案している .以下の Fig1 にカーネル適応方法の概略図を示す. Fig1 カーネル適応を施した CNN フレームワーク Fig1 のようにカーネルを設定する事でより多くの局所特徴を抽出する事ができる.また,異なる局所顔領域が異なる適応機能を要求できる事を理由とし て階層的に複数の CNN の局所適応サブネットワークを融合する為にツリー構造のたたみ込みアーキテクチャを提案している.提案したたたみ込みアーキ テクチャを以下の Fig2 に示す.
  • 29. Fig2 提案した畳み込みアーキテクチャの概略図 実験は WebFace, MorphII, WultiPIE データベースを用いて行っている.それぞれに案して年齢や性別識別など多くの顔認識において有用性を示して いる.以下の Table に実験結果を示す. Link(s) 論文ページ: http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Li_Shape_Driven_Kernel_2015_CVPR_paper.pdf
  • 30. 【26】 Hui, Wu, Richard Souvenir, ”Robust Regression on Image Manifolds for Ordered Label Denoising”, CVPR2015,1-10,2015. 我々の目的は、注文したラベルの画像セットの誤ったラベルの例を修正することです。我々は、画像の多様体上のロバスト回帰アルゴリズムを提示し、自 然画像セットの注文ラベルノイズ除去の問題に適用しました. (b)から(i)の図は 2D 座標多様体を使用してプロットしている. 各プロット内の色は多様体関数値を示している. 各画像は,8(濁った)に 0(クリア)の範囲で白濁ラベルを示している. 各方法での予測値が示されている.明らかに間違っているものは赤文字で示される.
  • 32. 【27】 J. Wulff, M. J. Black, “Efficient Sparse-to-Dense Optical Flow Estimation using a Learned Basis and Layers”, in CVPR2015. 従来の dense optical flow は,フレームごとに数秒から数分かかってしまい,実利用化には程遠い手法になっていた.オプティカルフローだけで GPU な どの高速化に頼ることはナンセンスなので,PCA-Flow と呼ばれるスパースなマッチングを導入した dense flow 方法を提案する. PCA-Flow:フロー空間の重み付けと近似方法により表現する.重みと,基底の線形和により空間を設定しているという仮定をおいており,robust PCA によ る固有空間(eigenvector)を基底として取り扱う.この重みと基底によるフロー空間の近似により,(固有空間は決定されているので?)重みの計算により近似 できる. PCA-Layer では,より境界線を際立たせる処理を施している.EM アルゴリズムや MRF によりフローのノイズのようなものを省いている. (a)入力画像,(b)ground truth (c)PCA-Flow (d)PCA-Layers Link(s) 論文ページ: http://ps.is.tue.mpg.de/show_publication?id=483&title=Efficient_Sparse-to- Dense_Optical_Flow_Estimation_using_a_Learned_Basis_and_Layers ポスター: http://files.is.tue.mpg.de/black/posters/PCAflowPosterCVPR2015.jpg
  • 33. 【28】 Soonmin Hwang, Jaesik Park, Namil Kim, Yukyung Choi, In So Kweon, “Multispectral Pedestrian Detection: Benchmark Dataset and Baseline”, inCVPR2015 歩行者検出に色情報と別情報を組み合わせて歩行者検出の精度を向上する.組み合わせう別情報は熱である. 本研究では色と熱のペアを提供する配列された多重スペクトル画像の歩行者データセットを提案している(Fig.1)。人体の放射熱の波長から,遠赤外線セ ンサを利用する. Fig.1 Fig.2 波長分割器を用いたハードウェア(Fig.2)から物理的に,色画像と熱画像の位置合わせを行うことで事後処理用の画像のアルゴリズムを必要としない.ま た色-熱のマルチスペクトル画像を処理し、性能を解析するためのいくつかのベースラインを提案している.色-熱のマルチスペクトル画像の歩行者データ セットにおいて,本研究のベースラインの 1 つは誤検出率の平均を 15%低下できた.色のみの歩行者検出より,色-熱のマルチスペクトル画像による歩行 者検出の方が性能良かった(Fig.3) Fig.3 Link(s) 論文ページ: http://www.cv- foundation.org/openaccess/content_cvpr_2015/html/Hwang_Multispectral_Pedestrian_Detection_2015_CVPR_paper.html データセットページ: https://sites.google.com/site/pedestrianbenchmark/home
  • 34. 【29】 Y. Zhou, B. Ni, R. Hong, M. Wang, Q. Tian, “Interaction Part Mining: A Mid-level Approach for Fine-grained Action Recognition”, in CVPR2015. 人物行動特徴と物体のインタラクションから取得した Middel レベル特徴量により,詳細行動認識をするという研究. 人物行動特徴には Dense Trajectories (DT)+Fisher Vector を用いるが,その他に物体情報やインタラクション特徴も取得する.物体の取得には前処理で ある Objectness--BING を用いて,候補領域を抽出して,行動特徴と合わせて実際のインタラクション領域を絞り込んでいく.また,人物領域からも,領域ご とに特徴量を評価することで,「姿勢」や「物体とのインタラクション」を表現することにつながり,DT のみによる Low-level な特徴からより高次な Mid-level 特徴量へと拡張している.インタラクションの候補領域が複数抽出できるが,[Juneja+, CVPR2013]によりマイニングして,候補領域の絞り込みを行う. BING により物体や姿勢の候補領域を抽出し,DT により詳細特徴を把握することにより,MPII cooking dataset を用いた実験では最大で 72.4%もの識別 率を達成した. Link(s) 論文ページ: http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Zhou_Interaction_Part_Mining_2015_CVPR_paper.pdf
  • 35. 【30】 J. Lu, R. Xu, J. J. Conso, “Human Action Segmentation with Hierarchical Supervoxel Consistency”, in CVPR2015. Hierarchical MRF(hMRF)を用いた,人物行動領域の抽出を human action segmentation と題して行っている研究. PASCAL VOC 2007 により学習済みの Deformable Part Model (DPM)により人物領域かどうかの尤度を返却値として保持しておく.それらの返却値を参 考にして,今度は hMRF によりセグメンテーションを行う.セグメンテーションの手法は[M. Han, CVPR2010]を適用している.また,時系列のノードのつなが りに関してはオプティカルフローや人物のアピアランス情報を参考にして領域をカッティングする.MRF では unary 項と pairwise 項があるが,その他にそ れらを総合的に把握する高次な項(higher order potential)も追加した.unary 項では動作や人物存在確率をベースにカッティングし,pairwise 項では時間 方向への拡張として追加している.さらに,higher order potential では,階層的に unary 項や pairwise 項を把握していると見られる(下図参照). 表は UCF sports で行動領域を抽出した結果.従来法よりもセグメンテーション手法がうまくいっている.また,セグメンテーション領域内で Dense Trajectories (DT)により特徴抽出した結果は,UCF-sport (93.6%),JHMDB (58.6%),Penn Action (95.4%)と非常に高い精度で認識できることがわかった. Link(s) 論文ページ: http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Lu_Human_Action_Segmentation_2015_CVPR_paper.pdf 著者ページ: http://www.acsu.buffalo.edu/~jiasenlu/ Youtube: https://www.youtube.com/watch?v=WnncICvdEDw&feature=youtu.be
  • 36. 【31】 B. Ni, P. Moulin, X. Yang, S. Yan, “Motion Part Regularization: Improving Action Recognition via Trajectory Group Selection”, in CVPR2015. Dense Trajectories + Fisher Vector の改良に関する研究.[Yogatama+, ICML2014]を参考にして,識別に有効な Fisher Vector の部分を取り出す方法に ついて提案する.行動間の識別に必要なベクトルは,パーツごとの少数のベクトルであるとして行動要素のグループごとに重み付けして特徴を表現する. 識別にはロジスティック回帰を適用する. 局所的に trajectory をグループ分けして特徴評価する. これら trajectory グループのベクトルはパーツ間のつながりにおいて激しくオーバーラップしてい るが,それぞれの words は身体パーツの多くの部位に生起する.このとき group lasso により特徴量を正則化して記述する.一方で,オーバーラップを解消 するような仕組みも考案している.これが各要素への重み付けであり,すべての学習用の映像から重みを計算する. 最終的な特徴評価式では 4 つの項--判別性(discriminativeness),sparsity,グループとしての重み付けされた sparsity,global-local agreement を判断して 特徴ベクトルを生成する. 下図は重み付けの結果,上位 1%のグループを表示している.行動を識別する際の”discriminative”な部分が表示されている.特徴評価の結果,提案手法 Motion Part Regularization は Hollywood2, HMDB51, Olympic Sports データセットにおいてそれぞれ 66.7%, 65.5%, 92.3%と,state-of-the-art な精度を達 成した.(HMDB51 に関しては,[Peng+, ECCV2014]らの Stacked Fisher Vector が 66.8%と最高精度) Link(s) 論文ページ: http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Ni_Motion_Part_Regularization_2015_CVPR_paper.pdf
  • 37. 【32】 R. Girshick, F. Iandola, T. Darrell, J. Malik, “Deformable Part Models are Convolutional Neural Networks”, in CVPR2015. DPM, CNN ともに成功した識別モデルであるといえる.これらは,別々の表現方法 --DPM はグラフィカルモデルとして,CNN はブラックボックスではある ものの,非線形識別器であるということはわかっている.ここで,DPM を CNN のような表現に組み入れることはできるのかどうかということがモチベーション になっている.ここでは,Max-pooling の一般化として distance transform pooling を提案する.また,ブラックボックスのモデル CNN を使うのでなく,うまくい くことが分かっている設計の特徴量を使うことで全結合層を入れ替える.これを DeepPyramid DPM と名付けている. 下の図は HOG と CNN の第 5 層の特徴可視化である.HOG と比べると,CNN 特徴量の方がより領域を選択的に特徴学習している.この,特徴生成能 力のために CNN 特徴量,物体検出の制度でも R-CNN の方が DeepPyramid DPM よりも精度よく認識することが判明した.この論文では,distance transform pooling や object geometryfilters, maxout units の仕組みを導入することで,HOG ベースの特徴量で CNN のような特徴抽出ができることがわか った.精度こそ CNN には及ばないが,まだまだ解明されておらずブラックボックスである deep learning の学習方法の解明に近づいたと言える. Link(s) プロジェクトページ: http://www.cs.berkeley.edu/~rbg/papers/cvpr15/dpdpm.pdf github ページ: https://github.com/rbgirshick/DeepPyramid
  • 38. 【33】 S. R. Richter, S. Roth, “Discriminative Shape from Shading in Uncalibrated Illumination”, in CVPR2015. Shape from Shading を識別的に解いた研究である. 拘束されている環境下では意味がないという論点から,Shape from Shading の研究をより一般化して考えられないかを実験した.非拘束(uncalibrated illumination)の環境において形状を復元する際に予めトレーニングセットから形状を復元するための特徴を取得して regression forests に学習しておく.形 状復元の際には[Shotton+, CVPR2008]の texton,そしてシルエットを入力とすることで形状復元を実現している.識別的な枠組みにすることにより,複数の 特徴,ここでは texton やシルエットによる特徴を regression forest により組み合わせる利点があると述べている. Link(s) 論文ページ: http://www.gris.informatik.tu-darmstadt.de/~sroth/papers/2015/richter-cvpr-preprint.pdf
  • 39. 【34】 B. Li, C. Shen, Y. Dai, A. van den Hengel, M. He, “Depth and surface normal estimation from monocular images using regression on deep features and hierarchical CRFs”, in CVPR2015. 単眼の RGB カメラから距離画像(や表面形状)を求める課題はチャレンジングである.この論文では,Deep CNN の特徴量と回帰モデルを構築し,階層 的 CRF による refinement により単眼からの距離画像推定の実現に挑戦する.ここでは,superpixel-level と pixel-level の精度での距離画像推定にチャレ ンジする. まずは DCNN の特徴学習により複数スケールの距離画像や表面形状のマッピングに取り組む.基本的には Caffe の AlexNet を用いて特徴抽出する. CRF では unary 項にて DCNN 特徴を参照して距離画像を生成する仕組みが導入されているが,その他にも superpixel のスムージングをする項や auto- regression model により位置による相関性を用いて距離画像を滑らかにする項が含まれる. 下の図は RGB の入力のみから距離画像や表面形状を推定した結果.直接 depth を取得する方法に比べると精度は落ちるが,RGB の入力のみでも大 きさが確保できている部分に関しては復元ができている. Link(s) 論文ページ: http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Li_Depth_and_Surface_2015_CVPR_paper.pdf
  • 40. 【35】 Samuel Schulter, Christian Leistner, Horst Bischof, “Fast and Accurate Image Upscaling with Super-Resolution Forests”, in CVPR2015. Single Image Super-Resolition(SISR)は CV で非常に重要なタスクである.SISR のタスクは,入力画像の一枚の低解像度から高解像度の画像を出力す ることである.バイキュービックサンプリングなど様々な手法があり,とくロバストな手法は統計的画像の事前分布や,高解像度パッチを低解像度から学習す る手法などである.近年で最も高い成果を挙げている手法はスパースコーディングを用いた機械学習手法である. 本稿では,自然画像を局所的な線形多変量回帰問題として効率的に超解像を生成する.その問題を Random Forests を用いて解く. Link(s) 論文ページ: http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Schulter_Fast_and_Accurate_2015_CVPR_paper.pdf
  • 41. 【36】 Qi Qian1 Rong Jin, Shenghuo Zhu, Yuanqing Lin “Fine-Grained Visual Categorization via Multi-stage Metric Learning”, in CVPR2015. Fine Grained Visual Categorization(FGVC)において,特徴の抽出ではなく距離学習(Distance Metric Learning:DML)に焦点を当てている.本稿では, DML における 3 つの課題に取り組んでいる.なお,特徴抽出は Deep Learning を用いている. ○高次元 DML を用いて多数の制約を扱うため,私達は複数の段階で問題を最適化する.各段階で,学習されたメトリックによって分類困難なサブセットの みを適用的にサンプリングし,メトリックを改善する.適切に正則化することにより,私達はすべての制約を最適化することができた. ○計算課題を解決するために,私達は線形クラス分類のために開発されたランダムプロジェクションの理論を DML のために拡張した.提案手法はランダム プロジェクションの効率を向上し,一方でサイズ d×d の距離を学習する.これは最も次元削減することができる. ○ストレージ問題に対処するため,私達は低いランクの行列の近似値のためのランダムアルゴリズムによってメトリックを学習する.これは,一方的な学習処 理だけでなくオーバーフィッティングも防ぐことができる. 手法のフレームワークと実験結果 Link(s) 論文ページ: http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Qian_Fine- Grained_Visual_Categorization_2015_CVPR_paper.pdf
  • 42. 【37】 W. Ouyang, X. Wang, X. Zeng, S. Qiu, P. Luo, Y. Tian, H. Li, S. Yang, Z. Wang, C.-C. Loy, X. Tang, “DeepID-Net: Deformable Deep Convolutional Neural Networks for Object Detection”, in CVPR2015. The Chinese Univ. of Hong Kong (CUHK)の研究グループが ILSVRC2014 にチャレンジした時の手法を説明している.R-CNN(Regions with CNN)をベ ースにしているが,さらに前処理として box rejection,image や object レベルのアノテーションによるパラメータ調整(pretrain),をする.次に,deformation constrained pooling (def-pooling)の適用により,DPM のようにカメラに対する写り方,配置や姿勢の変動に頑健に物体の特徴取得ができる.この def- pooling は max-pooling にとって変えることができる. 下の表は種々の改良を施した結果である.bounding box の除去,DeepLearning モデルの変更,pretrain の導入,def-pooling の導入などにより,RCNN から大幅な改善を実現した. Link(s) 論文ページ: http://mmlab.ie.cuhk.edu.hk/projects/ImageNet2014.html
  • 43. 【38】 Philippe Weinzaepfel, Jerome Revaud, Zaid Harchaoui, Cordelia Schmid “Learning to Detect Motion Boundaries”, in CVPR2015. 動画で動作の境界を予測するためにエッジ検出のためのランダムフォレストを構築する.それぞれの画像パッチにおけるバイナリ動作境界を予測するい くつかのランダムな木の学習に依存している.異なる木の出漁は最終的な境界検出を生成するために平均化される.学習の間, MPI-Sintel ベンチマーク からの画像とグランドトゥルースのオプティカルフローを使用する.私達の手法は以下の特徴を用いる. ・外観(RGB) ・オプティカルフロー ・オプティカルフローのエラー ・背景のオプティカルフローとそのエラー Link(s) 論文ページ: http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Weinzaepfel_Learning_to_Detect_2015_CVPR_paper.pdf
  • 44. 【39】 Jiajun Lu, David Forsyth, “Sparse Depth Super Resolution”,.in CVPR2015. HCI(Human-Computer Interaction)におけるアプリケーション開発は,深度センサを用いて様々な提案がなされている.しかし,現在の深度センサの深 度解像度は比較的低く,消費電力も高いため,提案されたアプリケーションを実現することは難しいと言える.これをハード面で解決しようとすると,高解像 度の RGB 画像が比較的に安価に入手できる現状に対して,深度センサの解像度を向上させることは,割にあわないコストがかかってしまう.当論文では, Fig.1 に示すような荒いサンプルデータから,正確に高解像度の深度情報を取得する方法について提案している.提案手法では,深度画像と同時に得ら れた画像データを使用. 高解像度の深度情報の取得を実現している.取得した画像の深度領域をツリー形式で分割し,領域の最小面積で分割された数の分割ツリーを構築する ことで空間再現モデルを実現し,高解像度の深度情報の取得を実現している. Fig.1 深度画像の超解像 Link(s) 論文ページ: http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Lu_Sparse_Depth_Super_2015_CVPR_paper.pdf
  • 45. 【40】 Ching-Hui Chen, Vishal M. Patel and Rama Chellappa, “Matrix Completion for Resolving Label Ambiguity”, in CVPR2015. 画像のタグ付けに関する論文.通常,画像にタグ付けする際は人手で行われるが,多大な労力からそれを自動化する技術が求められている.この研究 では,曖昧なタグ付けに対して,low-level の特徴を用いることで曖昧さを低減している(Matrix Completiton for Ambiguity Resolvinf : MCar). Link(s) 論文ページ: http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Chen_Matrix_Completion_for_2015_CVPR_paper.pdf
  • 46. 【41】 Yan Xia, Kaiming He, Pushmeet Kohli, Jian Sun, “Sparse Projections for High-Dimensional Binary Codes,” in CVPR2015. 本稿では、高次元データから長いバイナリーコードを学習する方法を述べている。高次元マッピングのための効果的な規則性の欠如と、長いバイナリー コードを計算する際に生じる高い計算コストが問題となっている。これらの問題を解決するために、スパース性を導入する。スパース性を導入することにより 、劇的な計算コストの削減とオーバフィッティングの減少させることができた。提案手法の有効性の確認として、最近傍探索、画像検索、画像探索問題につ いて分析を行う。従来よりも高速かつ正確な符号化計算(バイナリーコード化)が可能になった。提案手法と他の手法の符号化時間の比較を Fig1 に示す。 Fig1 提案手法と他の手法の符号化時間 Link(s) 論文ページ: http://research.microsoft.com/en-us/um/people/kahe/publications/cvpr15spbe.pdf
  • 47. 【42】 F. Perronnnin, D. Laulus, “Fisher Vectors Meet Neural Networks: a Hybrid Classification Architecture”, in CVPR2015. 物体認識の分野で一世を風靡した Fisher Vectors (FVs)と Convolutional Neural Network (CNN)の適切な組み合わせによる手法を提案.現在,CNN が 優位であるが,Fine-grained challenge においては FVs の方が精度良く分類できるという事例もあり,両側面のメリットを活かす方向でニューラルネットのア ーキテクチャを考案する. FVs+CNN のアーキテクチャは,unsupervised layers (FVs の取得と後段への引き渡し)と supervised layers (Fully connected layers)からなる.FVs に関して は PCA により圧縮したものとする.誤差逆伝播法を用いる.この統合型のニューラルネットにより mid-level な特徴量を取得できるという. 結果は,ILSVRC12 の優勝者 AlexNet が 17.0%のエラー率であったのに対して FVs+CNN は 17.6%のエラー率である. Link(s) 著者ページ: http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Perronnin_Fisher_Vectors_Meet_2015_CVPR_paper.pdf
  • 48. 【43】 A.Deza, D. Parikh, “Understanding Image Virality”, in CVPR2015. Virality とは,画像の人気度のことであり,ソーシャルネットワークなどでいかに拡散度が高いかを示す指標である.データは Reddit(アメリカの 2ch のよう なもの)から画像データを取得して,学習や評価に適用する.Relative virality という概念は 2 枚の画像のペアを比較して,人気度を定めていくことであり, この仕組みによりすべての画像の人気度を決定する. Relative-attribute のように画像を比較して,SVM+Deep Relative Attributes により推定した結果,68.10%と人間の 60.12%を上回った.正解はあらかじめ 取得した social network の画像とその評価を参考にした. Link(s) 著者ページ: http://arturodeza.github.io/virality/
  • 49. 【44】 Tali Dekel, Shaul Oron, Michael Rubinstein, Shai Avidan, William T. Freeman, “Best-Buddies Similarity for Robust Template Matching”, CVPR, 2015. 本論文では,Best Buddies Similarity という,ある人もしくは動物とベストな関係(バディー)にある共起性の高い人もしくは動物を検出する.これに制約の ない環境下でのテンプレートマッチング手法の提案を行っている.本手法で基本的に用いる類似度指標は Best Buddies Similarity(以下 BBS)である. BBS とは BBPs の個数に基づく類似度指標である.本研究は BBS を実世界のデータセットに用いた良きの有用生の評価を行っている. 以下に BBS を用いたテンプレートマッチングの例を示す. 本論文では BBS の他に SSD, SAD, NCC, HM, EMD, BDS の手法で同じ画像に対し実験を行い他のマッチング手法との差別化を図っている.以下の 図の左はテンプレート矩形,右にそれぞれでの手法を用いたテンプレートマッチング結果を示している. 以下の結果では画像が時間変化した場合でも BBS が有用なテンプレートマッチング手法であることがわかる. Link(s) 論文ページ: http://people.csail.mit.edu/talidekel/papers/BBS_CVPR15.pdf
  • 50. 【45】 N. Khan, M. Algarni, A. Yezzi, G. Sundaramoorthi, “Shape-Tailored Local Descriptors and their Application to Segmentation and Tracking”, in CVPR2015. エッジの境界線上に限らず探索をすることにより,例えば影領域や複数の境界線を含んでいる場合にも適切にセグメンテーションを行える手法.既存の 方法では勾配を判断する際に隣接画素の類似性により判断するが,それでは曖昧性を含んでしまう.この研究においてはデンに局所領域を判断するアル ゴリズムである Shape-Tailored Local Descriptors (STLD)を用いて,その問題を解決した.この手法は隣接画素の判断ではなく,より形状を判断することに 特化してセグメンテーション処理を行う. Poisson-like partial differential equations (PDE)により形状をより表現するモデルへ拡張している.次に,エネルギー空間を Mumford-Shah energy モデル に落とし込んで Shape-Tailored Descriptors を適用している.このエネルギー最適化により形状のセグメンテーションをうまく設定している. 下図が元画像(左), ground truth (左から二番目),STLD(提案手法; 右)である.困難な場面におけるセグメンテーション結果を載せているため,完全には復 元できていないが,従来法と比べるとその差は明らかである. Link(s) 論文ページ: http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Khan_Shape- Tailored_Local_Descriptors_2015_CVPR_paper.pdf
  • 51. 【46】 Brendan F. Klare, Ben Klein, Emma Taborsky, Austin Blanton, Jordan Cheney, Kristen Allen, Patrick Grother, Alan Mah, Mark Burge, Anil K. Jain“Pushing the Frontiers of Unconstrained Face Detection and Recognition: IARPA Janus Benchmark A” , in CVPR2015. 顔の領域が隠れていたり,低画質であったりする場合,パソコンの処理上では同じ人であっても,別の人物として捉えてしまう.この問題を解決するには, 制約の無い顔認識のための注釈つき画像データセットが必要とされている.本論文では,IARPA Janus program の主要な目標である制約のない顔検出お よび認識の最前線を駆り立てるのに役立つ.可能な限りのバリエーションを持った幅の広い顔キャプチャ認識用データセットが必要である.本論文では,ダ ウンロードすることができる IARPA Janus Benchmark A (IJB-A)を紹介する.IJB-A は,自然体でのキャプチャ 500 被写体の画像や動画が含まれている. 標識されたすべての被験者は、手動で顔のためのバウンディングボックスでローカライズされている. 500 人分のデータセットとなっている.全体で画像は 5712 枚,動画は 2.085 本である.よって一人当たり,画像は 11.4 枚,動画は 4.2 本となっている. Link(s) 論文ページ: http://www.cv-foundation.org/openaccess/content_cvpr_2015/ext/1B_089_ext.pdf
  • 52. 【47】 J. Zhang, S. Ma, M. Sameki, S. Sclaroff, M. Betke, Z. Lin, X. Shen, B. Price, R. Mech, “Salient Object Subitizing”, in CVPR2015. Salient な物体が画像中にいくつあるのか,数える問題設定(SOS).なお,数値は(0, 1, 2, 3, 4+)で表現することとし,ローカライゼーションまでは情報を含 まない.これは,例えばロボットビジョンからの顕著性判断や,一人称ビジョンのライフログ,画像のサムネイルに適用できる.タグ付けは Amazon Mechanical Turk (AMT)により 7,000 枚以上の画像に情報をつけてもらう.特徴量としては,CNN の他に GIST や HOG, SIFT+FVs を適用している.結果 として,salient な物体が存在するかどうかを 94%の精度で判断できた.また,1-4+の数に関しては 42 - 82%の精度で確認できた. 下の図は結果の一部である.salient な物体を見つける際に fine-tune な CNN 特徴を用いることにより,物体が小さくても分離でき,カウントに成功してい る.また,表を確認すると,正解との比較により CNN による SOS がもっとも精度が高いことがわかった.また,fine-tune ありとなしではなしが 59%,ありの場 合が 69%とパラメータ fine-tune の有効性もわかる. Link(s) プロジェクトページ: http://cs-people.bu.edu/jmzhang/sos.html 論文ページ: http://cs-people.bu.edu/jmzhang/SOS/SOS_preprint.pdf
  • 53. 【48】 Y. Du, W. Wang, L. Wang, “Hierarchical Recurrent Neural Network for Skeleton Based Action Recognition”, in CVPR2015. 人物の姿勢から関節情報を入力とし,Recurrent Neural Network を用いることにより行動認識する問題.まず姿勢から取得したスケルトンを 5 分割して入 力とする.ニューラルネットの層が進んでいくたびにパーツごとに時系列情報を強化していく.第 1, 3, 5, 7 層に bidirectional recurrently connected subnets (BRNNs)を用いて隣接する関節の情報を統合していく.5 層により上半身・下半身,7 層により全身の特徴を抽出できる.最後に全結合層を経て,ソフトマ ックス関数により識別する. 精度は MSR Action 3D にて 94.49%と非常に高い結果を示した. Link(s) 論文ページ: http://www.cv-foundation.org/openaccess/content_cvpr_2015/html/Du_Hierarchical_Recurrent_Neural_2015_CVPR_paper.html
  • 54. 【49】 Saurabh Singh, Derek Hoiem, David Forsyth “Learning a Sequential Search for Landmarks ”, in CVPR2015. ランドマーク探索において,外観情報と位置情報を追加することで精度を向上している. 初めに,パッチで探索していき,最もスコアの高い身体部位を検出する.次のステップでは,最初に検出した部位の位置関係に基いて探索していき,次々 と身体部位を検出していく. 実験の結果,CNN には及ばないものの,それと同等の精度で姿勢推定が可能となっている. Link(s) 論文ページ: http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Singh_Learning_a_Sequential_2015_CVPR_paper.pdf
  • 55. 【50】 Shuai Yi, Hongsheng Li, Xiaogang Wang, “Understanding Pedestrian Behaviors From Stationary Crowd Groups”, CVPR, 2015. 監視カメラから取得した動画像から群衆の歩行者モデルの解析を行う研究.その中で歩行者間の相互作用を分析している.群衆ない歩行者の行動モデ ルは静的な集団が出現することで大きな影響を受ける.よって研究者らはまず混雑の激しい空間での静的な群衆とその分散を可視化している.以下に動 的な歩行者,静的な群衆から受けるエネルギーマップを示す. 混雑環境下において静的な群衆から受ける影響をモデル化することにより以下のことが行えた. ・単調な歩行者の歩行経路予測 ・歩行目的地の予測 ・歩行者としての属性の推定及び分析. ・経路予測,目的地の予測,歩行者属性に基づいた異常行動検知. 以下に簡単な図を示す. 経路予測 目的地予測 歩行者属性予測 Link(s) 論文ページ: http://www.cv- foundation.org/openaccess/content_cvpr_2015/papers/Yi_Understanding_Pedestrian_Behaviors_2015_CVPR_paper.pdf 動画 https://www.youtube.com/watch?v=Xr9mtbJdcvc
  • 56. 【51】 João Carreira, Abhishek Kar, Shubham Tulsiani, Jitendra Malik, “Virtual View Networks for Object Reconstruction”, inCVPR2015. 単一物体は映る画像の再構築についての研究である.対象物の単一の画像から SfM を用いて複数視点からみた対象物体の仮想ビューを作成する. (a)可能性が高い対象物体に関連するイメージの情報を強調することによるドメイン知識 (b)得られた再構成の特異性の増加量を使用して合成し,外れ値を外挿する これらによって多数のロバスト性を高めるための方法の導入を提案している. Link(s) 論文ページ: http://arxiv.org/abs/1411.6091
  • 57. 【52】 Junlin Hu, Jiwen Lu “Deep Transfer Metric Learning”, in CVPR2015. Metric Learning において,Deep Neural Network を用いた Deep Transfer Metric Learning(DTML)という手法の提案.特徴同士の距離計算だけでなく, 特徴空間の設計も取り入れている.特徴空間の設計では,入力特徴を識別するクラス間分散を最大化し,クラス内分散を最小化する問題に落とし込み,最 適化している. Link(s) 論文ページ: http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Hu_Deep_Transfer_Metric_2015_CVPR_paper.pdf
  • 58. 【53】 Zheng Ma, Lei Yu, Antoni B. Chan “Small Instance Detection by Integer Programming on Object Density Maps ”, in CVPR2015. Object Density Map を用いた小物体検出.入力画像から Object Density Map を求め,それに基づいて 2 次元整数計画法によって Bounding Box を推 定する.本論文の貢献は以下の通り. 1) 物体密度マップから 2 次元オブジェクトの位置を回帰し,2 次元整数計画法を開発する.私達のフレームワークは検出閾値の設定や非最大抑制が ない. 2) 文献[2]からの正確なカウント結果の優位性を活用するため,整数計画法にグローバルカウント制約を追加する.この制約は false positive エラーを抑 制し,激しいオクルージョンのときに recall を増加することで検出結果を安定化する. 3) 検出物体の位置が与えられると,私達は密度マップを用いて物体のバウンディングボックスを推定する. 4) 最後に提案した検出手法は最先端の結果を示した. Link(s) 論文ページ: http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Ma_Small_Instance_Detection_2015_CVPR_paper.pdf
  • 59. 【54】 A.Kuznetsova, S. J. Hwang, B. Rosenhahn, L. Sigal, “Expanding Object Detector’s HORIZON: Incremental Learning Framework for Object Detection in Videos”, in CVPR2015. 静止画への domain adaptation による物体検知の方法は多く提案されているが,動画に対するそれは少ないため,動画による物体検知方法について提 案する.Large Margin Embedding (LME)による domain adaptation の方法を適用[Weinberger+, NIPS2008]しているが,さらにここでは Incremental Learning の概念も導入して,新しくサンプルを追加する方法についても提案した. 下図が学習のフレームワーク(左)と処理した結果(右)である.右の図では,LME(左上)と提案手法(右下)では,誤検出が低減できていて手法として Incremental Learning の追加処理が効果的であることがわかる. Link(s) 論文ページ: http://www.disneyresearch.com/wp-content/uploads/Expanding-Object-Detector%E2%80%99s-HORIZON-Incremental- Learning-Framework-for-Object-Detection-in-Videos-Paper.pdf プロジェクトページ: http://www.disneyresearch.com/publication/expanding-object-detectors-horizon/ Youtube: https://www.youtube.com/watch?v=-zrH2bI5p8A
  • 60. 【55】 F. Shen, C. Shen, W. Liu, T. Shen, “Supervised Discrete Hashing”, in CVPR2015. Iterative Quantization (ITQ) [Gong+, CVPR2011]は PCA をベースとして,直交する軸に対して識別的にバイナリハッシングする手法であるが,量子化誤 差を最小にするために特徴空間を回転させる.しかし,ITQ は PCA 空間や特徴空間内にて回転(orthogonal rotation)させる必要があるため,事前に PCA+CCA によるマッピングが必要である.この手間を省くために,直接的なハッシング方法を提案する.教師ありではあるものの,識別的なアプローチに よりこのバイナリハッシングを実現する.手法としては,binary embedding と線形識別器の統合により実装する.学習サンプルとの誤差を示す loss function L(・)と,ハッシュ関数である F(xi)を同時に学習する.下記,CIFAR データセットに対するバイナリハッシングの結果である. Link(s) 論文ページ: http://www.cv-foundation.org/openaccess/content_cvpr_2015/html/Shen_Supervised_Discrete_Hashing_2015_CVPR_paper.html Matlab コード: https://github.com/chhshen/Hashing-on-Nonlinear-Manifolds
  • 61. 【56】 Z. Lan, M. Lin, X. Li, A. G. Hauptmann, B. Raj, “Beyond Gaussian Pyramid: Multi-skip Feature Stacking for Action Recognition”, in CVPR2015. Multi-skip Feature Stacking (MIFS)を提案 .時系列的に複数の階調を準備して特徴抽出する.時間的にもマルチスケール化していると考えられる.複数 種類の時間的スケールで特徴取得しているが,時間的なギャップが L=0 (オリジナル)よりも,L=1, 2, 3, 4, 5 と情報量を進めていくごとに精度が上がってい く.これは,処理時間とのトレードオフにもなるので,兼ね合いを考慮して L=3 の時を提案法としている.下図のように時間的なスケールにより周波数が異 なるため,情報量が増えることで特徴をさらに高次にできていると考える.精度は L=3 前後の時がもっとも性能が良くなることがわかる. Link(s) 論文ページ: http://arxiv.org/pdf/1411.6660.pdf 著者ページ: http://www.cs.cmu.edu/~lanzhzh/
  • 62. 【57】 L. Wen+, “JOTS: Joint Online Tracking and Segmentation”, in CVPR2015. 追跡とセグメンテーションを統合して同時に解く.物体内の複数の領域をセグメントして,同時に追跡する,その際にエネルギー最適化により領域を統合 した追跡を実現.繰り返しによりヒューリスティックに領域追跡を行う手法として,RANSAC のような最適化を行っていく.下の図はトラッキングとセグメンテー ションを同時に行っている様子であり,最初に複数領域をあげておき,時系列の Spectral Matching を行う.その後に繰り返しにより領域の分割数を最適化 していく.最終的なつながりを考慮してセグメンテーションとする. 最適化する項として,ピクセルラベルをいかに部位に割り当てるかのデータ項,隣接するピクセルを平滑化する項,オーバーフィッティングを避けるための 正規化項である. Link(s) 論文ページ: http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Wen_JOTS_Joint_Online_2015_CVPR_paper.pdf
  • 63. 【58】 J. Xu, L. Mukherjee, Y. Li, J. Warner, J. M. Rehg, V. Singh, “Gaze-enabled Egocentric Video Summarization via Constrained Submodular Maximization”, in CVPR2015. 劣モジュラ最適化を用いた一人称ビデオのサマライズ.視線情報ありの一人称ビデオを入力として,まずはシーンの変わり目などをサブショットとして切り 抜く.R-CNN による特徴抽出,サブショット間の共分散行列計算,サブショットの固定などを施したあとに,劣もジュラ最適化により映像をサマライズ. Link(s) プロジェクトページ: http://pages.cs.wisc.edu/~jiaxu/projects/ego-video-sum/ ポスター: http://pages.cs.wisc.edu/~jiaxu/projects/ego-video-sum/poster.pdf
  • 64. 【59】 C. Xu, S.-H. Hsieh, C. Xiong, J. J. Corso, “Can Humans Fly? Action Understanding with Multiple Classes of Actors”, in CVPR2015. 人は飛べるだろうか?否.車は食べるのだろうか?否.というように,行動をするもの(Actor)と行動(Action)に要素を対応づけておくことが必要と提案した 論文.同時にデータセット Actor-Action Dataset (A2D)も提案しており,3782 の動画が含まれている.Actor は 7 種(adult, baby, ball, bird, car, cat, dog), Action は 8 種(climb, crawl, eat, fly, jump, roll, run, walk)がある.従来の行動認識手法で処理をかけると誤りを含んでしまうが,supervoxel によるセグメン テーションを行う.その上で,グラフ構造を解くことにより,actor-action の設定を行う. Link(s) 論文ページ: http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Xu_Can_Humans_Fly_2015_CVPR_paper.pdf 著者ページ: http://www-personal.umich.edu/~cliangxu/ youtube: https://www.youtube.com/watch?v=2p6ZdQtEXGU
  • 65. 【60】 Moritz Menze, Andreas Geiger, “Object Scene Flow for Autonomous Vehicles”, in CVPR2015. 自立走行する車からの3次元シーン認識のためのモデル及びデータセットの提案.屋外環境に置いては,多くの場合独立して運動する小さなオブジェク トに分解できるという事実を利用して,各物体のパラメータによってシーン内の要素と,対応するオブジェクトへの指標付けを行う.このように分解可能な極 小領域毎の表現は,シーン認識におけるデータの堅牢性の向上が見込める.また, Superpixels とオブジェクト間の離散連続 Conditional Random Fields につながる. データセットの提案では,シーンの流れに ground truth を設定した新たな3次元シーン認識を述べている.移動中の全ての認識可能な車両の詳細な CAD データを用いて 400 種類の動的なシーンを注釈している. Link(s) 論文ページ: http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Menze_Object_Scene_Flow_2015_CVPR_paper.pdf youtube: https://www.youtube.com/watch?v=DBJmR6hx2UE
  • 66. 【61】 Y. Sun, X. Wang, X. Tang, “Deeply learned face representations are sparse, selective, and robust”, in CVPR2015. 従来型の顔認識 DeepNet [Sun+, NIPS2014]を改良した論文.潜在的な情報を含めたり,早期の畳み込み層から取り出した特徴量を適用することで顔認 識の精度が向上することが判明した.この体系化された手法は DeepID2+と呼んでおり,LFW データセットにおいて 99.47%, YouTube Faces dataset にお いて 93.2%を達成するなど,各データセットで state-of-the-art となる精度を達成した. 下の図はブッシュ,ブッシュの部分遮蔽(オクルージョンへの対応),ブッシュの横顔(横顔への対応),パウエル(別人へ対応)の場面における活性化の様 子.オクルージョンや横顔であっても,本人への対応度が良いことがわかる. DeepID2+ nets では,max-pooling で特徴を取得しており,55x47, 47x47 次元(pixels)の特徴を入力とすることにより畳み込みを行っている.その畳み込 みは 4 層から行っており,最終層では,512 次元の特徴取得を行っている.DeepNet の学習には CelebFaces+ dataset, WDRef dataset や LFW に含まれて いるデータの統合を用いている. Link(s) 論文ページ: http://www.ee.cuhk.edu.hk/~xgwang/papers/sunWTcvpr15.pdf
  • 67. 【62】 A.Shrivastava, M. Rastegari, S. Shekhar, R. Chellappa, L. S. Davis, “Class Consistent Multi-Modal Fusion with Binary Features”, in CVPR2015. Multi-modal に関する特徴表現の研究である.既存の認識アルゴリズムにおける multi-modal では学習時の特徴学習を行った後の,テスト時の環境変化 によるノイズを考慮していない.提案手法では,Class Consistent Multi-Modal (CCMM) Fusion を用いることにより,道ノイズによる混乱を最小限にすること を目指す.具体的には Quadratic Program (QP)を時系列特徴に適用し,Mixed Integer Program (MIP)をバイナリ特徴に適用する. 下の図はマルチモーダル,ここでは動画データと距離画像においていかに混乱(perturb)を抑えてクラスの一致性を保存するかを考える. 入力は RGB-D センサ,バイナリ特徴の最適化はグリーディアルゴリズムで行っている. Link(s) 論文ページ: http://www.umiacs.umd.edu/~ashish/files/CCMM_final.pdf
  • 68. 【63】 C. Albl, Z. Kukelova, T. Pajdla, “R6P: Rolling Shutter Absolute Pose Problem”, in CVPR2015. カメラキャリブレーションに対する Perspective-n-point problem (PnP)問題はカメラの回転や並進を取得するための 2D から 3D の特徴点マッチングに必要 な問題である.SfM やカメラ位置推定,物体位置推定や visual odometry に必要な技術とされている.ここで,PnP においてはグローバルシャッターの仕組 みにおいては非常にうまく動作してきたが,ロールシャッターにおいてもうまく動作する仕組みを考える.ここで,グローバルシャッターの仕組みは全てが一 度光を当てることにより像を結ぶが,ロールシャッターにおいては微小に異なる時間軸で記録される.このため,異なる歪みを取り除く必要がある.提案は, 従来型である P3P を改良する non-iterative minimal solution to the rolling shutter absolute pose (RnP)を提案すること.複数のロールシャッターモデルにつ いて多項式を解くことによりその対応点マッチング問題を解決する.また,回転行列が arbitrary であるという問題点があったので,提案法ではさらに,密に 回転行列を計算する手法 R6P を提案した. Link(s) 論文ページ: http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Albl_R6P_-_Rolling_2015_CVPR_paper.pdf
  • 69. 【64】 K.-F. Yang, S.-B. Gao, Y.-J. Li, “Efficient Illuminant Estimation for Color Constancy Using Grey Pixels”, in CVPR2015. 色の恒常性を適用した色特徴は非常に重要な課題である.従来の問題においては光源からこの恒常性を推定する研究が多かった.ここで,提案手法で は異なる仮説をベースとしたシンプルな色の恒常モデルを考える.それは自然色に多く含まれているグレー色(もしくはグレーに近い色)であり,イルミネー ションの推定を高精度にする手がかりになる. 下図は処理フローであり,画像入力から Log RGB チャネルへの分解(画素値や表面反射を log で取得),Illuminant-invariant measure (IIM)の適用,最 後には Grey インデックスの推定. Link(s) 論文ページ: http://www.cv- foundation.org/openaccess/content_cvpr_2015/papers/Yang_Efficient_Illuminant_Estimation_2015_CVPR_paper.pdf
  • 70. 【65】 Y. Fang, J. Xie, G. Dai, M. Wang, F. Zhu, T. Xu, E. Wong, “3D Deep Shape Descriptor”, in CVPR2015. 3D 物体認識のための Deep 特徴量,3D Deep Shape Descriptor を提案する.構造的に分散がある場合やノイズ,3 次元的に欠損を含む形状であっても ロバストな 3 次元特徴量を提案する.ここで,アイディアとして 3 次元点群ベースの heat kernel signature(HKS)と,eigen-shape descriptor (ESD) & fisher- shape descriptor (FSD)の組み合わせ特徴を提案している. 下図の処理は(1) Heat kernel signatures による表現,(2) Heat kernel descriptor による表現,(3) ニューラルネットの中間の層から取得した特徴を連結する . Link(s) 論文ページ: http://www.cv-foundation.org/openaccess/content_cvpr_2015/html/Fang_3D_Deep_Shape_2015_CVPR_paper.html
  • 71. 【66】 S. Schraml, A. N. Belbachir, H. Bischof, “Event-Driven Stereo Matching for Real-Time 3D Panoramic Vision”, in CVPR2015. Event-driven のステレオマッチングのためのコスト最小化問題の解法.イベントデータに対して,従来法よりもステレオによる構成能力を高めることができ た.Non-zero distance (NZD)関数によりイベントのマッピングを表現する.ここで,コストを最小にするわけなのだが,パノラマ画像を想定しているため,x 軸 方向にウインドウサイズを変動させて評価し最適なイベントポジション(視差?)を求めていく. その結果,画像サイズが大きくなってもマッチング率を損なわずに精度を保つことができている. Link(s) 論文ページ: http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Schraml_Event- Driven_Stereo_Matching_2015_CVPR_paper.pdf
  • 72. 【67】 X. Chen, C. L. Zitnick, “Mind’s Eye: A Recurrent Visual Representation for Image Caption Generation”, in CVPR2015. 画像と言語,双方に変換するチャレンジ.この処理を RNNs を用いて実現している.ここで,RNNs の問題点として,再帰的な繰り返しの後に概念を覚え て置けるかどうかというところにある.例えば,RNN の言語モデルは長期にわたる関係性を記述するのが苦手である.これを,動的に視覚表現を更新する ことにより long-term memory となり,すでに言及された文章を再度記述することがないようにする. この手法は PASCAL sentence dataset,Flickr 8K, Flickr 30K,Microsoft COCO dataset など複数のデータセットに関して評価を行っている. Link(s) 論文ページ: http://www.cs.cmu.edu/~xinleic/papers/cvpr15_rnn.pdf 著者ページ: http://research.microsoft.com/en-us/people/larryz/
  • 73. 【68】 C. Gan, N. Wang, Y. Yang, D.-Y. Yeung, A. G. Hauptmann, “DevNet: A Deep Event Network for Multimedia Event Detection and Evidence Recounting”, in CVPR2015. イベント検出用の DeepNet アーキテクチャ.TRECVID のチャレンジ MEDTest14 に対してイベント認識を行っている.DeepNet 中で時間的かつ空間的 な手がかりを取得することでイベント検出を行う.ImageNet の Pre-trained モデルを適用しているが,イベント検出用のデータセットに Fine-tuning している. MED14 のデータセットに対して,improved DT+FVs が 32.88%の検出率だったのに対して,DevNet は 33.29%と向上した. Link(s) 論文ページ: http://winsty.net/papers/devnet.pdf
  • 74. 【69】 V. E. Liong, J. Lu, G. Wang, P. Moulin, J. Zhou, “Deep Hashing for Compact Binary Codes Learning”, in CVPR2015. バイナリハッシングにディープラーニングを適用した Deep Hashing(DH).バイナリハッシングでは似たような画像が同じハッシング値になることが理想だが ,畳み込みの原理を用いて画像の主要な成分を取り出して類似度の高いハッシング値にしようというトライ.各畳み込み層では Projectoin matrix とバイアス ベクトルを表現して,最終層を取り出してバイナリ出力. また ,DH は unsupervised なバイナリハッシングであったが,supervised deep hashing(SDH)も同時に提案する.各画像から特徴抽出してペアを作成し, positive(同クラス)は距離が近くなるように,negative(異クラス)は距離が遠くなるようにハッシングする. Unsupervised, supervised に評価した結果が下の表である.データには CIFAR-10 を用いており,unsupervised な手法においてスタンダードな手法である PCA-ITQ [Gong+, CVPR2011]からの精度向上が見られる.supervised な手法においてはいずれも最高性能を実現した. Link(s) 論文ページ: http://www.cv-foundation.org/openaccess/content_cvpr_2015/html/Liong_Deep_Hashing_for_2015_CVPR_paper.html
  • 75. 【70】 P. Li, X. Lu, Q. Wang, “From Dictionary of Visual Words to Subspace: Locality-constrained Affine Subspace Coding”, in CVPR2015. BoW の辞書は多様体表現を行うことで低次元空間にて表現が可能である.Locality-constrained Linear coding (LLC) [Canas+, NIPS2012]を用いることで 特徴空間の幾何的な配置を多様体として表現可能である.この論文では,Locality-constrained Affine Subspace Coding (LASC)を提案して,LLC では考 慮されていなかった辞書内での周辺ワードとの位置関係を考慮した特徴表現方法とする.これにより特徴の高次化を行っており,subspace との距離により 1 次の特徴表現を,Fisher information metric(FIM) [Sanchez+, IJCV2013]をベースにして 2 次の特徴表現を行っている. この高次特徴表現により,各データセットにおいて Fisher Vector(FV)よりも高精度な識別を実現できることがわかった.VOC2007: 63.6% (LASC) 61.8% (FV), Caltech256(30): 52.1% (LASC), 47.4% (FV), MIT Indoor 67: 62.9% (LASC), 61.3% (FV), SUN397(20): 35.6% (LASC), 34.2% (FV). Link(s) 論文ページ: http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Li_From_Dictionary_of_2015_CVPR_paper.pdf 著者ページ: http://www.peihuali.org/Publications.htm
  • 76. 【71】 H. Rahmani, A. Mian, “Learning a Non-linear Knowledge Transfer Model for Cross-View Action Recognition”, in CVPR2015. ある視点の行動を別視点の行動を学習サンプルとして識別する Cross-view 行動認識問題.これを,Non-linear Knowledge Transfer Model(NKTM)により 解く. NKTM を学習する Learning Phase,識別器を生成する Training Phase,行動を識別する Testing Phase から構成されている.Learning では,mocap data や可視画像から Dense Trajectories を抽出して NKTM を学習.Training では学習した NKTM を用いて,特徴ベクトルを取得かつ SVM により識別器を生 成.Testing では NKTM や SVM により行動を識別. Link(s) 論文ページ: http://www.csse.uwa.edu.au/~ajmal/papers/hossein-NKTM-cvpr15.pdf 著者ページ: http://www.csse.uwa.edu.au/~ajmal/
  • 77. 【72】 S. Ardeshir, K. M. Collins-Sibley, M. Shah, “Geo-semantic Segmentation”, in CVPR2015. 幾何的に意味のあるセグメンテーション方法を提案.建物や道路など. 画像からは superpixel を取得するが,GIS データを追加で用いる.撮影されたカメラの位置やパラメータを考慮して,P=C[R|T]として,内部パラメータ(C) と回転行列(R),カメラ位置(T)から.内部パラメータはあらかじめ計算しておき,カメラ位置は GPS から取得する.回転行列はロール/ピッチ/ヨーに分解され るが,ロール/ピッチは撮影環境から 0 に設定,ヨーは方位から定める.カメラ行列 P から 2 次元画像を推定でき,さらには geo タグを割り振ることができる. さらに,投影(projection)や色類似度(segmentation)の信頼性からその共起による信頼性の評価指標を用いた.これにより,例えば画像内に複数の建物が ある場合にも分離性能が高められることが判明した. Link(s) 論文ページ: http://crcv.ucf.edu/papers/cvpr2015/Geo-semantic_Segmentation.pdf youtube ページ: https://www.youtube.com/watch?v=jf5U3gdF5yE プロジェクトページ: http://crcv.ucf.edu/projects/Geosemantic/
  • 78. 【73】 F. Yu, J. Xiao, T. Funkhouser, “Semantic Alignment of LiDAR Data at City Scale”, in CVPR2015. LiDAR データを City-level で取得したデータから,alignment をいかに行うかを扱う.LiDAR など 3D のポイントクラウドはスキャンするラインによっては誤 差などから alignment がずれて位置推定の精度が落ちることがあるが,これを解決する.特徴としては Pole,Facades & Roads,Vehicles,Segments,Lines などの semantic feature と,ICP による multiscale 最適化をおこなっている.Alignment の補正も全体に対して処理. Link(s) 論文ページ: http://yf.io/p/gsv/gsv_align.pdf 著者ページ: http://yf.io/ プロジェクトページ: http://gsv.yf.io/
  • 79. 【74】 J. Shao, K. Kang, C. C. Loy, X. Wang, “Deeply Learned Attributes for Crowded Scene Understanding”, in CVPR2015. Deep Learning により混雑状況下における Attribute を返却する仕組みを考案した.また,混雑状況下における解析では最大となる WWW Crowd Dataset を作成した.WWW Crowd Dataset 中には 8257 シーンから取得した 10,000 の動画,94 の混雑状況下に関する attribute(outdoor, indoor, walking, pedestrian, standing など)が含まれている.attribute は環境や動作,人物の種類に関するものが多く含まれている.つまり,どんな環境でどんなヒトが何をし ている,くらいはわかる問題設定である.Deep Learning のモデルに関しては multi-task learning deep model であり,アピアランスと動作特徴により特徴表 現,最終層により両者の特徴を統合している.結果は動画参照. Link(s) 論文ページ: http://www.ee.cuhk.edu.hk/~jshao/papers_jshao/jshao_cvpr15_www.pdf プロジェクトページ: http://www.ee.cuhk.edu.hk/~jshao/WWWCrowdDataset.html
  • 80. 【75】 L. Xiao, F. Heide, M. O’Toole, A. Kolb, M. B. Hullin, K. Lutulakos, W. Heidrich, “Defocus Deblurring and Superresolution for Time-of-Flight Depth Cameras”, in CVPR2015. Time-of-Flight(ToF)センサでのデブラリングや超解像を同時に行う問題設定.ToF センサはその映像取得方式からブラーが発生し,解像度もあまり高く はないが,それを改善すべく事前情報としてブラーカーネルを適用する.sparse regularizes を用いて,潜在的なパラメータになっている振幅や距離値,ブ ラーを推定する. 下図はベースライン(naive)と提案手法におけるデブラリングと距離値の計算である.提案手法ではブラーが発生し,や距離画像にノイズを含んでいるが, 提案手法による推定ではそれらの除去に成功している. Link(s) 論文ページ: www.cs.ubc.ca/labs/imager/tr/2015/DefocusToF/DefocusToF_Xiao2015.pdf プロジェクトページ: http://www.cs.ubc.ca/labs/imager/tr/2015/DefocusToF/ 著者ページ: http://www.cs.ubc.ca/~leixiao/
  • 81. 【76】 R. Goplan, “Hierarchical Sparse Coding with Geometric Prior For Visual Geo-location”, in CVPR2015. 画像情報からの位置推定問題.画像におけるアピアランス特徴と物理的な位置を,多様体によりマッピングする.また,Geometric prior を階層的スパー スコーディングにより表現する.位置による事前情報はスパースコーディングにより表現されている.最終的には SVM により物理的な位置推定結果を返却 する. im2gps dataset や San Francisco dataset, MediaEval2010 dataset を用いた実験ではそれぞれ state-of-the-art な精度を算出した. Link(s) 論文ページ: http://www.cv-foundation.org/openaccess/content_cvpr_2015/html/Gopalan_Hierarchical_Sparse_Coding_2015_CVPR_paper.html 著者ページ: https://sites.google.com/site/raghuramana/Home/learning
  • 82. 【77】 H. Y. Jung, S. Lee, Y. S. Heo, I. D. Yun, “Random Tree Walk toward Instantaneous 3D Human Pose Estimation”, in CVPR2015. 高性能 PC でなくても(single core, 3.20GHz の PC を使用時)1000FPS で動作する距離画像からの姿勢推定手法を提案.Random walk sub-sampling を 木構造探索に適用した Random Tree Walk (RTW)を用いることにより,従来よりも高速かつ高精度な姿勢推定を実現した. 従来の方法では距離画像からピクセルの探索により人体領域を評価していたが,RTW ではランダムウォークによる探索を実装しているため,計算コストを 削減しつつ精度を保証できている. 処理は背景差分などでセグメントされた人物領域を入力とする.また,ランダムサンプリングする位置やその位置において正解の関節位置までの方向ベ クトル(direction vector toward the true joint position)を学習する.探索は身体の中心から開始し,ステップ幅をもたせ,サンプリング点上では方向ベクトルを 頼りに正解位置を目指す.Regression tree により評価を行い,k-means によりあらかじめクラスタリングされたクラスをリーフノードに対応づけ,進むべき方向 ベクトルを計算する.この繰り返しにより正解の関節位置まで到達することができる. 実験では EVAL dataset において精度 92.6%の際に 1262fps,SMMC-10 dataset では約 96%の際に 999fps を記録した. Link(s) 論文ページ: http://www.cv-foundation.org/openaccess/content_cvpr_2015/html/Jung_Random_Tree_Walk_2015_CVPR_paper.html
  • 83. 【78】 C. Feichtenhofer, A. Pinz, R. P. Wildes, “Dynamically Encoded Actions based on Spacetime Saliency”, in CVPR2015. 行動認識の映像を学習して,頻発する行動特徴の部分を強調する.これが action based on spacetime saliency である.この研究の特徴表現には Bag-of- visual-words (BoW)を用いており,従来の BoW では(i) primitive feature extraction (ii) feature encoding (iii) feature pooling であるが,コントリビューション は(ii)と(iii)にあるとしている.この部分に関して spacetime saliency の尤度を重みとして積算することで行動認識に有効な特徴量を取得する.ここで, spacetime saliency には motion constrast や motion variance が重要な要素であるとして特徴抽出を行う.superpixel も用いて領域の評価を行っている.行 動を記述する特徴としては improved dense trajectories (IDT)や spatiotemporal oriented energy (SOE)を用いる. Link(s) 論文ページ: http://www.cv- foundation.org/openaccess/content_cvpr_2015/html/Feichtenhofer_Dynamically_Encoded_Actions_2015_CVPR_paper.html プロジェクトページ: http://www.cse.yorku.ca/vision/research/salient-actions.shtml
  • 84. 【79】 Z. Zhang, W. Shen, C. Yao, X. Bai, “Symmetry-Based Text Line Detection in Natural Scenes”, in CVPR2015. 対称性ベースの自然な(unconstrained な)シーンからの文字列検出.対称性が見られる位置をヒートマップで表示し,候補領域とする.候補領域の中から 文字列を密に判断して最終的な検出結果として抽出. 従来ではこの手の問題に Maximally Stable Extreme Regions (MSER)や Stroke Width Transform (SWT)が用いられていたが,提案手法では self- similarity=>対称性ベースの手法にする.基本的な流れは下図の通りだが,false positives は CNN ベースの特徴量により除去する. Link(s) 論文ページ: http://www.cv-foundation.org/openaccess/content_cvpr_2015/html/Zhang_Symmetry-Based_Text_Line_2015_CVPR_paper.html
  • 85. 【80】 F. Pittaluga, S. J. Koppal, “Privacy Preserving Optics for Miniature Vision Sensors”, in CVPR2015. 次世代のカメラでは,プライバシー保護やセキュリティのため解像度を低くしつつも人物の認識を行う必要性が出てくる.ここで,提案手法においては光 源の変化に頑健かつ低解像で認識できるような仕組みを考案し,トレードオフの関係にあるプライバシー保護と認識性能をバランスできるようにする.この 研究においては depth センサを用いることで関節トラッキング,人物カウント,領域検出や顔がはっきりと見えない状態で顔追跡を行う.下記(1)は K- anonymity であり顔を保護する仕組み,(2)は Kinect と 3D プリントで作成したプライバシー保護用のレンズである.フィルタを通してもなお,関節トラッキン グを行うことができている.また,温度センサによる人物追跡や低解像度センサによる追跡も実践している. Link(s) 論文ページ: http://www.cv- foundation.org/openaccess/content_cvpr_2015/papers/Pittaluga_Privacy_Preserving_Optics_2015_CVPR_paper.pdf プロジェクトページ: http://focus.ece.ufl.edu/precaptureprivacy/ YouTube: https://www.youtube.com/watch?v=jcTpBqYDNZQ
  • 86. 【81】 T. Mauthner, H. Possegger, G. Walter H. Bischof,“Encoding based Saliency Detection for Videos and Images”, in CVPR2015. エンコーディングベースの顕著性マップ計算.あらかじめ各チャンネルから近隣の画素との相関値を算出しておき,sliding window にてヒストグラムを評 価する.オプティカルフローも算出してエンコーディングする.ここで,各 σ のスケールにおける前景の尤度マップ,セグメンテーション,ガウスブラーにおけ るチャンネルから統合的に顕著性マップを決定する.結果的に Global/Local のフローや色情報を参照していることになる. UCFsports にて実験した画像では提案手法がもっとも所望のセグメンテーションに近い結果を算出した. Link(s) 論文ページ: http://www.cv- foundation.org/openaccess/content_cvpr_2015/papers/Mauthner_Encoding_Based_Saliency_2015_CVPR_paper.pdf 著者ページ: http://lrs.icg.tugraz.at/members/mauthner Vimeo: https://vimeo.com/123386676