2. Matteo Ruggero Ronchi, Pietro Perona, “Describing Common Human Visual Actions in Images”, in BMVC,
2015.
【91】
Keywords: Human Action, MS COCO-a dataset, Image Description
新規性・差分
手法
結果
概要
マイクロソフトが提供する画像説明文のMS COCO dataset,特
に行動に特化したCOCO-a (action)として人物の行動が表現で
きるように改善した.
・収集したデータから,行動がどのように起きたのか
を推定できる.Visual VerbNet (VVN)も提案して140の
行動を検出できるようにした
・大規模かつアノテーションが付加された行動データ
セットを提案
(1) VerbNetによる行動をMS COCO内にて解析する.
(2) 画像内にてどの人物がその行動を行っているかを解析する.サイズによ
らず,すべての人物,物体とのインタラクションを含めて検出可能であ
る.
(3) Amazon Mechanical Turkによりコンセンサスが取れたものをアノテーショ
ン結果として採用.
(4) 感情や姿勢,空間的な関係性や距離などを考慮し,各行動や物体との
インタラクションを記述する.
データセットには行動とそれに関
連する要素を含んでいる.例えば
communication,contact,
nutrition,perception,social,
objects.また,位置関係において
もin-front-of, behind, right of,
aboveなど詳細なタグ付けに成功
した.
Links
論文 http://arxiv.org/pdf/1506.02203v1.pdf
プロジェクト(データセットあり)
http://www.vision.caltech.edu/~mronchi/projects/
Cocoa/
3. Varun K. Nagaraja, Vlad I. Morariu, Larry S. Davis, “Searching for Objects using Structure in Indoor Scenes”, in
BMVC, 2015.
【92】
Keywords: Object Search, Indoor scenes, Region Proposal
新規性・差分
手法
結果
概要
屋内環境において,物体検索を効率化する研究.屋内環境の
構造から,物体の候補領域を提案する.
ベッドやソファなどの候補に対して20-25%の処理で高精度な領
域推定を実行した.
物体候補領域からのランク付けにより探索領域を決定する.探索にはMarkov
Decision Process (MDP)を用いる.
Links
論文 http://arxiv.org/pdf/1511.07710v1.pdf
http://www.umiacs.umd.edu/~morariu/publications/
NagarajaObjectSearchingBMVC15_Supplementary.pdf
4. Vincent Lui, Dinesh Gamage, Tom Drummond, “Fast Inverse Compositional Image Alignment with Missing Data
and Re-weighting”, in BMVC, 2015.
【93】
Keywords: Image Alignment, Inverse Compositional (IC), Efficient Second-order Minimization (ESM)
新規性・差分
手法
結果
概要
Inverse Compositional (IC)やEfficient Second-order
Minimization (ESM)の手法を,さらに外れ値に頑健な画像復元
を行うことが目的である.特に,重み付けの値を更新することで
欠損に頑健な復元手法を考案する.
・従来のICアルゴリズムは繰り返しのたびにJacobianやHessian
行列の計算が必要である.これを,再計算が必要ないアルゴリ
ズムにすることで効率化を図る
・画像のノイズやアライメントなどに対応している
下図に手法を示す.欠損データがある場合にも重み付け値の更新をする.Factor
QからMatrix hat(Q)にすることで欠損領域を把握する.P^{-1}hat(Q^{T})hat(Q)をで
きる限り参照画像Iに近づけることにより復元の精度を高くする.
Links
論文
http://www.bmva.org/bmvc/2015/papers/paper054/index.html
プロジェクト(コードあり) https://bitbucket.org/whvlui/fast_ic/
15. Lu Xia, Chia-Chih Chen, J. K. Aggarwal, “View Invariant Human Action Recognition Using Histograms of 3D
Joints”, in CVPR Workshop, 2012.
【103】
Keywords: HOJ3D, LDA, Kinect, Action
新規性・差分
手法
結果
概要
姿勢ベースの人物行動認識の手法である.関節用の特徴量
HOJ3Dや新規のデータセットであるUTKinect Action
dataset(下図)を提案した.
Kinectを用いた姿勢ベース行動認識のための特徴量HOJ3Dや
初期のデータセットであるUTKinect Actionデータセットを提案.
主に,下図のHOJ3D (Histograms of 3D joint locations)を提案した.HOJ3Dでは人
体から抽出した関節を3次元的に量子化したヒストグラムに格納することで特徴量
とする.さらに,LDAによる次元圧縮やコードワード化を実現した後にHMMにより識
別を実行する.
各行動に対する識別率は右の表の
通りである.
Links
論文 http://cvrc.ece.utexas.edu/Publications/Xia_HAU3D12.pdf
プロジェクト
http://cvrc.ece.utexas.edu/KinectDatasets/HOJ3D.html
16. Hussein, M. E. and Torki, M. and Gowayyed, M. A. and El-Saban, M., “Human Action Recognition Using a
Temporal Hierarchy of Covariance Descriptors of 3D Joint Locations”, in International Joint Conference on
Artificial Intelligence (IJCAI), 2013.
【104】
Keywords: Covariance Matrix, 3D Joint
新規性・差分
手法
結果
概要
3次元の人物関節情報から,時系列の共分散行列(Cov3DJ)を
構成して行動認識を実現した.
時系列かつ階層的な共分散行列による表現を提案.
Cov3DJではフレーム毎の関節情報を保持し,共分散の情報を特徴量とするため,
例えばpushとpullなど同様の姿勢による動作を識別しやすくなる.さらには,時系列
的に階層構造化することにより,大きな変化や小さな変化を同時に捉えることが可
能になる.
MSR-Action3D(左)やHDM05(右)による比較.
Links
論文 http://ijcai.org/papers13/Papers/IJCAI13-363.pdf
17. Chunyu Wang, Yizhou Wang, Alan L. Yuille, “An approach to pose-based action recognition”, in CVPR, 2013.
【105】
Keywords: K-best estimation,
新規性・差分
手法
結果
概要
Spatial-Temporalな構造にて姿勢ベースの行動認識を表現す
る.特徴選択の枠組みも導入して時系列的・空間的に有効な
特徴を選択する.
(i) 人体を5つのパーツに分割するので,人間がより理解しやす
い特徴量になり,誤識別の際の解析が容易にできる
(ii) 14箇所の関節位置のみで構成されるため,コンパクトな特
徴である
(iii) 関節情報を取得しているので,行動バリエーションに対して
ロバストである
Spatial-Temporalな構造にて姿勢ベースの行動認識を表現する.K-best
estimationにより時系列の姿勢情報からベストな特徴を選択する.そのために,人
体を手足など5つのパーツに分割し,行動の識別に有効なパーツを優先的に用い
ることとする.
MSR-Action 3D(左)とUCFSports, Keck Gesture (右)
Links
論文
http://www.cv-foundation.org/openaccess/content_cvpr_2013/
papers/Wang_An_Approach_to_2013_CVPR_paper.pdf
26. CUImage (Chinese Univ. of Hong Kong) "CUImage-poster.pdf", Cascaded Networks for Object Detection with
Multi-Context Modeling and Hierarchical Fine-Tuning, in ILSVRC, 2015.
【114】
手法
Links
ポスター http://image-net.org/challenges/posters/CUimage_poster.pdf
[1] X. Zeng, et al. Window-Object Relationship Guided Representation Learning for Generic Object Detections , axiv preprint.
[2] W. Ouyang, et al. Factors in Finetuning Deep Model for object detection, axiv preprint.
[3] J. Yan, et al. CRAFT Objects from Images, axiv preprint.
[4] W. Ouyang, et al. Deepid-net: Deformable deep convolutional neural networks for object detection. CVPR, 2015.
[5] J. Yan, et al. Object detection by labeling superpixels. CVPR, 2015.
結果
・Multi-context[1]: 複数のパッチサイズ/複数のコンテキストを含む画像を評価,特徴を連結させてSVMによりスコアリング
・Cascaded hierarchical feature learning[2]: クラスごとに異なる有効な特徴を評価するために階層的カスケード特徴学習を実行,階層的クラスタリン
グが物体のグルーピングに適用されそれぞれのモデルをfine-tuning
・Cascade Region-Proposal-Network and Fast RCNN (CRAFT)[3]: RPNの候補領域を再評価(IoU>0.7をposi, IoU<0.3をnega)して候補領域をさらに絞
り込み,Cascade識別器により識別
・ImageNet Detectionにおいて52.7%, ImageNet Detectionにて3位 (MSRAは62.1%)
・CRAFTにより候補領域の精度が94+%
27. WM (Univ. of Chinese Academy of Sciences, Peking Univ.) Li Shen, Zhouchen Lin, in ILSVRC, 2015. 【115】
手法
Links
ポスター http://image-net.org/challenges/talks/WM_presentation.pdf
[1] K. He, X. Zhang, S. Ren and J. Sun. Spatial pyramid pooling in deep
convolutional networks for visual recognition. In ECCV 2014.
結果
・VGG-likeアーキテクチャ
・Model Aは22層構成,最後のMaxプーリング層をSPP層[1]に置き換え
・Model Bはmulti-scaleの統合,サンプルの非一様分布によるバランスサンプリング
・Relay Back-Propagation(右図)による勾配消失の防止
・Place2にて優勝, Classification errorが16.87%
28. ION, (Cornell University, Microsoft Research), Sean Bell, Kavita Bala, Larry Zitnick, Ross Girshick, “Inside-
OutSide Net: Detecting Objects in Context with Skip Pooling and Recurrent Neural Networks”, in ILSVRC,
2015.
【116】
手法
Links
論文 http://arxiv.org/pdf/1512.04143.pdf
ポスター http://image-net.org/challenges/talks/ion-coco-talk-bell2015.pdf
結果
・Fast R-CNNをベースにする
・FRCNNのROI poolingは必要部の局所領域のみしか識別に用いないが,提案ではconv3/conv4/conv5を統合,次元圧縮して全結合層へ入力
・さらにNormalization,Rescaleの処理も加える
・4方向に走査可能なRNNを2つ積み上げることですべての特徴マップに対して表現可能
・ION Detectorにより+5.1mAP
・さらにデータの追加により+3.9mAP
・Faster R-CNNのRPNを用いてデータ数を増やす
・RPNは9 anchorから22 anchorに変更,7 scales x 3 aspect ratios, 32x32
・トレーニングにより+4.1mAP
・No dropout, longer with larger mini-batches, セグメンテーションによる正規化
・MR-CNN (PASCALデータ追加,閾値の設定,左右反転画像など)
・MS COCO detectionにて第3位 (学生トップ)
・31.0% (test-competition), runtime 2.7s
・33.1% (post-competition)
29. CUvideo Team, Kai Kang (Chinese Univ. of Hong Kong), “Object Detection in Videos with Tubelets and Multi-
context Cues”, in ILSVRC, 2015.
【117】
手法
Links
ポスター http://image-net.org/challenges/talks/Object%20Detection%20in%20Videos%20with%20Tubelets%20and%20Multi-context%20Cues%20-%20Final.pdf
[1] Wang, Lijun et al. Visual Tracking with Fully Convolutional Networks. ICCV 2015.
[2] J. Yan, et al. CRAFT Objects from Images, axiv preprint.
[3]W. Ouyang, et al. Deepid-net: Deformable deep convolutional neural networks for object detection. CVPR, 2015.
結果
・ビデオによる物体検出
・初期値として静止画により検出
・(1) 時系列の候補領域(Temporal Tubelet Re-scoring)のスコア値算出
・静止画による検出はフレーム間で不安定なため,領域の時系列評価を行うのがTubelet
・信頼度の高い領域の追跡[1],空間的なMax-pooling,時間軸でのスコア再計算
・空間的なMax-poolingにより,最大値領域のみを残す (Kalman filterによるbbox推定)
・(2) Multi-context suppression (MCS) & Motion Guided Propagation (MGP)
・MCSはすべてのbboxのスコア値をソート,時系列でハイスコアのクラスが変化しないものは検出結果として残す
・MGPは検出結果をより時間的に後のフレームに伝播させ,前に検出されたものを後のフレームでも探索,NMSしやすい
・(1), (2)のモデル統合
・候補領域はCRAFT[2]
・識別はDeepID-Net[3]
・ILSVRC2015 VIDにて67.8%の検出率
30. Jiankang Deng, (Amax), “Cascade Region Regression for Robust Object Detection”, in ILSVRC, 2015.
【118】
手法
Links
論文 http://image-net.org/challenges/talks/JiankangDeng_UTS&NUIST-R.pdf
結果
・ベースラインはVGG-16 (45.6)
・アップデートとして,RPN 12 anchors (+0.72), Cascade Region Regression (+2.93), Learn to Combine (+1.75), Learn to Rank (+1.94), Additional Data
(+2.64), VGG-16 ensemble, Multimodels ensemble (+2.87%)
・最終的な検出率は58.98まで上昇(@validation2セット)
・各畳み込みの工程毎にbbox regressionを行うCascade Region Regressionが効果的であり,2.93%も検出率が上昇した
・Model EnsembleはVGG-16, GoogLeNetやその他アーキテクチャから取り出した特徴マップを統合
・ILSVRC2015 VID (External)にて73.1%の検出率