Anúncio

【2017.06】 cvpaper.challenge 2017

Researchers, Graduate Students em Collective Genius, Tokyo
7 de Jul de 2017
Anúncio

Mais conteúdo relacionado

Apresentações para você(20)

Anúncio

Similar a 【2017.06】 cvpaper.challenge 2017(20)

Último(20)

Anúncio

【2017.06】 cvpaper.challenge 2017

  1. cvpaper.challenge Twitter@CVPaperChalleng http://www.slideshare.net/cvpaperchallenge MAILTO: cvpaper.challenge[at]gmail[dot]com
  2. Will Kay, Joao Carreira, Karen Simonyan, Brian Zhang, Chloe Hillier, Sudheendra Vijayanarasimhan, Fabio Viola, Tim Green, Trevor Back, Paul Natsev, Mustafa Suleyman, “The Kinetics Human Action Video Dataset”, in arXiv 1705.05950, 2017. 【1】 Keywords: Kinetics Human Action Video Dataset, Action Recognition 新規性・差分 概要 ⼈物⾏動認識に関して⼤規模かつ(クロスチェックにより)クリーンな データセットであるKinetics Human Action Video Datasetを提案し た。ビデオ数は30万、各カテゴリ最低でも400動画(~最⼤1000動画) を含んでいる。右の各データセットとの⽐較表では⾏動カテゴリ数の増 加やビデオ数の増加が確認できる。データセットはStep1: YouTubeか らワード検索により抽出、Step2: 時系列位置を指定、Step3: AMTによ りラベリング(ラベル付けについては右図参照)、Step4: ノイズやあ いまい性を除去。ベンチマークとして、データセットに対してCNN +LSTM, Two-Stream CNN, 3D ConvNetを実⾏した。 ・動画像認識版のImageNetを⽬指して⼤規模・校正され たデータセットを提案した ・3D Conv.のPre-trainedモデルとしても効果を発揮する Links 論⽂ https://arxiv.org/ pdf/1705.06950.pdf プロジェクト https:// deepmind.com/ research/open- source/open-source- datasets/kinetics/ 2
  3. Joao Carreira, Andrew Zisserman, “Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset”, in CVPR, 2017. 【2】 Keywords: Kinetics Human Dataset 新規性・差分 概要 Kinetics Human Datasetを⽤いた⾏動認識の研究。同時 にRGBやOpticalFlowの2つのモダリティを⼊⼒とする Two-Stream C3Dを提案して、xytの3Dカーネルの学習 もより⾼いレベルで実現させている。 2Dカーネルから3Dカーネルへの膨張(Inflated Inception-v1)、Two-Streamへの拡張(e, Two- stream 3D-convnet)は右図に⽰されている。 ・3DConvolutionの学習を成功させるためにImageNetの 2Dカーネルのパラメータを適⽤、Two-StreamCNNのモ デルを採⽤した ・Kinetics Datasetを⽤いた学習済みモデルは転移学習に も有効であることが判明した Links 論⽂ https://arxiv.org/pdf/1705.07750.pdf プロジェクト 3
  4. Kevin Matzen, Kavita Bala, Noah Snavely, “StreetStyle: Exploring world-wide clothing styles from millions of photos”, in arXiv 1706.01869, 2017. 【3】 Keywords: Fashion Snap, World-wide Image Search 新規性・差分 概要 世界的なファッションスナップを検索するための研究である。検索のため、 ファッション属性を推定し、スタイルの特徴を学習する。 (1)画像はSocial Mediaから抽出した (2)ファッション属性に関するラベルが付与されたStreetStyle-27Kを新 規に提案、27,000枚の画像を含む (3)DNNの⼿法として提案データセットにて属性を学習、教師なし学習 により視覚的相関を学習。 ・ファッション属性を推定するためのStreetStyle27K データセットを提案 ・膨⼤な(Millions of photos)画像から特徴を学習でき る ・例えばスカーフの仕様についての解析が時系列で可能と なる Links 論⽂ https://arxiv.org/pdf/1706.01869.pdf プロジェクト 4
  5. Hong Liu, Juanhui Tu, Mengyuan Liu, “Two-Stream 3D Convolutional Neural Network for Human Skeleton-Based Action Recognition”, in arXiv 1705.08106, 2017. 【4】 Keywords: Two-Stream 3D ConvNet, Skeleton 新規性・差分 概要 Links 論⽂ https://arxiv.org/ftp/arxiv/ papers/1705/1705.08106.pdf プロジェクト Two-Stream 3D Convolutional Networks をスケルトン の⼊⼒に対して⾏った。最初にスケルトンを3Dにマッピ ングして⼊⼒とする、次に3D CNNを⽤いてふたるのモダ リティから特徴を抽出、スケルトン間のグローバルな位置 関係を記述する。SmartHome/ NTU RGB-D datasetに てRNNをベースとした⼿法と⽐較した。右図はSpatial/ Temporalのモダリティであり、下図はネットワーク構 成。 ・姿勢を⼊⼒としたTwo-Stream 3D CNNを提案した ・NTU RGBD, SmartHomeにて良好な結 果を実現 5
  6. Oluwatobi Olabiyi, Eric Martinson, Vijay Chintalapudi, Rui Guo, “Driver Action Prediction Using Deep (Bidirectional) Recurrent Neural Network”, in ITSC, 2017. 【5】 Keywords: ADAS, Driver Action Prediction, RNN 新規性・差分 概要 マルチモーダルなセンサの⼊⼒からBi-directional なRNN(DBRN)によりドライバーの⾏動を予測 した。加速、ブレーキ、レーンチャンジ、ターン などのドライバ⾏動を5秒前から予測することに成 功した。 右図はシステム構成図。マルチセンサ(Face/ Hand/Outiside Camera, GPS, CAN)から特徴抽 出、Bi-directional Recurrent Netにより⾏動予 測。 ・DBRNによりマルチセンサの情報を解析してドラ イバーの⾏動を約5秒前に予測可能とした ・従来の予測モデルよりも素早く、⾼精度な予測を 実現した(右図によるとDBRNを⽤いて5秒前に約 80%の確率で予測可能) Links 論⽂ https://arxiv.org/ftp/arxiv/papers/1706/1706.02257.pdf プロジェクト 6
  7. Charles R. Qi, Hao Su, Kaichun Mo, Lenidas J. Guibas, “PointNet: Deep Learning on Point Sets for 3D Classification and Segmentation”, in CVPR, 2017. (oral) 【6】 Keywords: PointCloud, PointNet 新規性・差分 概要 点群(PointCloud)を直接畳み込むことができるPointNetを提案。PointNetでは 3次元認識、特に識別・パーツ分割・セマンティックセグメンテーションを⾏うこ とができる。(右下図)アーキテクチャのキーとなるのはMaxPoolにおける Symmetric Functionであり、重要もしくは情報を多く含んでいる点群情報を選択 して学習を⾏った。識別やセグメンテーションと⽤途に合わせてアーキテクチャ の出⼒(や途中処理)を変更した。Input/Feature Transformationを⾏い、 MaxPoolingにより効果的に点群を表現する特徴を取得する。Multi-layer perception (mlp)の数字は層の数を表現している。全層のReLUにはBatchNorm が⾏われている。 ・点群を直接的に処理可能なPointNetをを提案し、識別・ パーツ分割・セマンティックセグメンテーションに応⽤可 能とした Links 論⽂ https://arxiv.org/pdf/1612.00593.pdf プロジェクト http://stanford.edu/~rqi/pointnet/ コード https://github.com/charlesq34/pointnet 7
  8. Jiawei He, Mostafa S. Ibrahim, Zhiwei Deng, Greg Mori, “Generic Tubelet Proposals for Action Localization”, in arXiv, 2017. 【7】 Keywords: Tubelet Proposal, Action Localization 新規性・差分 概要 動画の中でいかに対象となる⼈物⾏動の時間幅・位置・⾏動ラベル (t_start, t_end, x, y, action)を推定するかというTubelet Proposalsに関する論⽂。⼿法(右下図)はRGBやFlow画像のTwo- Streamの⼊⼒からFaster R-CNN (Region Proposal Net)により候 補領域を抽出、RGB/Flowの情報を統合して判断するためにLinking Layerを提案、ProposalからはMulti-LSTMや統合により総合的に判 断してTubeletを推定する。 ・Tubelet (Proposal)を推定する課題においてstate- of-the-artな性能を出す⼿法TUN, TPNを提案した ・Two-Stream, RPN, LSTMを統合したアーキテク チャになっていて、シンプルな実装が可能? Links 論⽂ https://arxiv.org/pdf/1705.10861.pdf プロジェクト 8
  9. Johann, Abhilash, “Weakly Supervisd Affordance Detection”, in CVPR, 2017. 【8】 Keywords: weakly supervised, object affordance 新規性・差分 概要 ・object affordance推定のデータセットと弱教師あり学習によ る推定⼿法の提案 ・周囲とのコンテキストを考慮したaffordanceの教師を得るた めにCAD120データセットの⼀部の画像にピクセルごとのアノ テーションをし、新たなデータセットを提案 ・そのデータセットにおいてキーポイント(画像内のある1ピク セル)のみのアノテーションを⽤いて画像全体の1ピクセルごと のマルチクラスなアフォーダンス推定を⾏う ・CAD120における9916の物体についてアフォーダンスを付与 したデータセットの提案 ・最初にキーポイントによって学習したCNNの訓練データに対 する出⼒にGrab-cutを施してよりrefineし、それを訓練データ として再度⽤いて学習を⾏う ・F値, IoUの評価によって、Grab-cutを⽤いたデータによる再 学習を⾏った⽅が良い結果となった。 Links 論⽂ http://pages.iai.uni-bonn.de/gall_juergen/ download/jgall_affordancedetection_cvpr17.pdf プロジェクト 9
  10. David Bau, Bolei Zhou, Aditya Khosla, Aude Oliva, Antonio Torralba, “Network Dissection: Quantifying Interpretability of Deep Visual Representations”, in CVPR, 2017. (oral) 【9】 Keywords: Network Dissection, Latent Representation 新規性・差分 概要 Network Dissectionと呼ばれる、CNNの隠れ層の特徴評価や意味的概念を学習するためのネッ トワークを提案する。それぞれ異なるデータセットからどのような概念(e.g. objects, parts, scenes, textures, materials, colors)を学習したのかを知ることで深層学習を理解すること に挑戦した。教師あり/なし学習、学習回数、初期値の違い、層の深さや幅、ドロップアウトや バッチ正規化などについても詳細に検討した。この疑問を明確にするためにBroadly and Densely Labeled Dataset (Broaden)を提案した。BroadenはADE, Open-Surfaces, Pascal- Context, Pascal-Partなどから構成される。テストを⾏ったネットワークは右の通りであり、 学習なし/教師あり/教師なしによりテストを⾏った。 ・CNNの解釈可能性について評価した。 ・教師あり/なし学習、学習回数、初期値の違 い、層の深さや幅、ドロップアウトやバッチ 正規化などについて詳細な実験によりCNNが 学習でどのような⾒えを学習するかを明らか にした。 Links 論⽂ http://netdissect.csail.mit.edu/ final-network-dissection.pdf プロジェクト http://netdissect.csail.mit.edu/ コード https://github.com/CSAILVision/ NetDissect
  11. Yusuf Aytar, Carl Vndric, Antonio Torralba, “See, Hear, and Read: Deep Aligned Representations”, in arxiv, 2017. 【10】 Keywords: Cross-modal, Aligned Representations 新規性・差分 概要 画像, ⾳声, テキストを⽤いたcross-modalなCNNの提案。モデルと しては, それぞれのmodalを⼊⼒とするseparateなCNNとそれらの 出⼒を⼊⼒とするshared NN(modalに関わらず共有)を組み合わせ たものである。学習では, imagenet学習済みモデルを教師モデルと してその出⼒とのKLダイバージェンスとshared NNの特徴のmodal 間におけるcosine similarity の最⼩化が⾏われる。データとしては, 画像と⾳声, 画像とテキストで対応付けられたものを既存のデータ セットに⼿を加えて作成している。 ・各modalのcosine similarityを元にcross modal retribal を⾏い既存 ⼿法と⽐較して⾼い精度を達成した。 ・学習後の提案モデルから得られる特徴量(aligned representation)を ⼊⼒とするSVMを⽤いてカテゴリ分類のタスクを⾏った。この際, train とtestで異なるmodalを⼊⼒としても既存⼿法と⽐較して良好な結果が 得られた。これから, modal間で関連の深いものを結びつけるように特 徴量が学習されているという考察をしている。 ・shared NNの最終層の出⼒を可視化した結果, modal間で連想される ⼊⼒を得たときは, 同じようなニューロンに強い反応が出ていることが か確認できた Links 論⽂ http://netdissect.csail.mit.edu/ final-network-dissection.pdf
  12. ご質問・コメント等ありましたら,cvpaper.challenge@gmail.com / Twitter@CVPaperChallengまでお願いします.
Anúncio