SlideShare uma empresa Scribd logo
1 de 35
Baixar para ler offline
Copyright © TIS Inc. All rights reserved.
「画像認識」7章解説
戦略技術センター
久保隆宏
Object Detection
Copyright © TIS Inc. All rights reserved. 2
◼ 画像認識: 7章の概要
◼ 物体検出のアーキテクチャ
◼ 物体検出の評価
◼ 領域提案の手法
◼ 領域統合: 選択的検索法(Selective Search)
◼ 領域選択: 分枝限定法(Branch and Bound)
◼ 物体認識の手法
◼ 画像特徴量ベース
◼ HOG, DPM, 矩形特徴
◼ 学習機
◼ 学習・推論のTrick
◼ CNNベース
◼ R-CNN/Fast R-CNN, Faster R-CNN, YOLO/SSD, その後(M2Det)
◼ おわりに
目次
Copyright © TIS Inc. All rights reserved. 3
久保隆宏
TIS株式会社 戦略技術センター
◼ 化学系メーカーの業務コンサルタント出身
◼ 既存の技術では業務改善を行える範囲に限界があるとの実感から、戦
略技術センターへと異動
◼ 現在は会計/投資の現場で使える要約の実現を目指し、まとめる観点を
指定した要約の作成に関する研究を行う。
自己紹介
kintoneアプリ内にたまった
データを簡単に学習・活用
(@Cybozu Days 2016)
チュートリアル講演:深層学習
の判断根拠を理解するための研
究とその意義(@PRMU 2017)
機械学習をシステムに組み込む
際の依存性管理について
(@MANABIYA 2018)
Copyright © TIS Inc. All rights reserved. 4
7章は「物体検出」について書かれている。
◼ 物体検出は、以下2つのフェーズに分けることができる
◼ 領域提案: 物体が含まれる領域を提案する
◼ 物体認識: 物体のクラス(人・車etc)を予測する
◼ 本書は各フェーズについてDNN以前/以後の手法について解説している
◼ DNN以後は2つを統合的に行う手法がある(Faster-RCNN~)
本日の発表では、DNN以後についてはあまり詳細な解説はしません(時間
の都合&良い資料がたくさんあるため)。詳細が気になる方は、参考資料の
方をご参照ください。
画像認識: 7章の概要
Copyright © TIS Inc. All rights reserved. 5
領域提案
物体検出のアーキテクチャ (1/4)
image from Ryan
領域分割
領域選択
物体認識
画像を適当なサイズに分割する
例: スライディングウィンドウ法
領域統合
Copyright © TIS Inc. All rights reserved. 6
領域提案
物体検出のアーキテクチャ (2/4)
領域分割
領域選択
物体認識
似ている領域を統合し数を減らす
例: 選択的検索法
(Selective Search)
領域統合
image from Ryan
Copyright © TIS Inc. All rights reserved. 7
領域提案
物体検出のアーキテクチャ (3/4)
領域分割
領域選択
物体認識
物体ぽさが高い領域を選択する
例: 分枝限定法
(Branch and Bound)
領域統合
image from Ryan
Copyright © TIS Inc. All rights reserved. 8
領域提案
物体検出のアーキテクチャ (4/4)
領域分割
領域選択
物体認識
物体のクラスを認識する
例: Linear SVM/CNN
領域統合
DOG
DOG DOG
TREE
image from Ryan
Copyright © TIS Inc. All rights reserved. 9
物体検出は、検出領域と真の領域との一致度合いで評価される。
◼ 領域提案の精度: IoU(Intersection over Union)
◼ 真の領域との重なり具合を計測する手法(0.5を超えるとGOOD)
物体検出の評価 (1/2)
予測した領域
真の領域
IoU =
Union
over
Intersection
Copyright © TIS Inc. All rights reserved. 10
◼ クラスごとの平均適合率: AP(Average Precition)
物体検出の評価 (2/2)
検出領域 ・・・
真の領域
信頼度が高い順にソート
IoUが閾値
以上(TP)
・・・
精度
再現率
検出: 1
適合: 1
再現: 1/N
検出: 2
適合: 2
再現: 2/N
検出: 3
適合: 2
再現: 2/N
検出: 4
適合: 3
再現: 3/N
N個
より高い再現率
の精度で補完
・・・
◼ PR曲線の下の面積=AP
◼ 全クラスのAPの平均=mAP
手法の解説
Copyright © TIS Inc. All rights reserved. 12
領域提案における課題
「必要十分な領域だけ選びたい」
◼ 必要: 検出漏れは防ぎたい
◼ 十分: とはいえ、提案領域が多すぎるのは避けたい
基本的には、細かい領域を統合していく手法(領域統合)と、大量の領域か
らそれらしいものを採用していく手法(領域選択)の2つがある。
(領域分割はスライディングウィンドウが鉄板)
領域提案の手法
領域提案
領域分割
領域選択
物体認識
領域統合
Copyright © TIS Inc. All rights reserved. 13
領域統合の手法: 選択的検索法(Selective Search)
◼ 画像を適当な領域に分割し、似ている領域をマージしていく
◼ 似ている物体の領域は似ているはず
領域提案の手法: 領域統合 (1/2)
from Selective Search for Object Recognition
Copyright © TIS Inc. All rights reserved. 14
領域統合の手法: 選択的検索法(Selective Search)
領域提案の手法: 領域統合 (2/2)
領域統合に際しては、事前に素となる領域を作成しておく。これは、ピク
セルのままだと情報量が少なすぎるため。
◼ ピクセル=>領域: Efficient Graph-Based Image Segmentation
◼ 領域=>物体候補領域: Selective Search for Object Recognition
Pixels to Segment
from An Efficient Parallel Multi-Scale Segmentation
Method for Remote Sensing Imagery
Segments to Region (再掲)
Copyright © TIS Inc. All rights reserved. 15
領域選択の手法: 分枝限定法 (Branch and Bound)
◼ 考えられる領域のうち、物体を含む可能性が高いものを選択する
◼ 領域集合を分割し(=分枝)、可能性の高い集合を残していく(=限定)こ
とで探索を行う
◼ 領域: 上下左右の座標: 𝜃(𝑡, 𝑏, 𝑙, 𝑟)
◼ 領域集合: 座標の上限/下限:
Θ 𝑇, 𝐵, 𝐿, 𝑅 = [ 𝑡𝑙𝑜𝑤, 𝑡ℎ𝑖𝑔ℎ , 𝑏𝑙𝑜𝑤, 𝑏ℎ𝑖𝑔ℎ , 𝑙𝑙𝑜𝑤, 𝑙ℎ𝑖𝑔ℎ , 𝑟𝑙𝑜𝑤, 𝑟ℎ𝑖𝑔ℎ ]
領域提案の手法: 領域選択 (1/3)
Θ
Θ1 Θ2
Θ11 Θ12 Θ21 Θ22
Copyright © TIS Inc. All rights reserved. 16
領域選択の手法: 分枝限定法 (Branch and Bound)
領域提案の手法: 領域選択 (2/3)
最大領域
最小領域
𝑇 = [𝑡𝑙𝑜, 𝑡ℎ𝑖𝑔ℎ]
𝐵 = [𝑏𝑙𝑜, 𝑏ℎ𝑖𝑔ℎ]
𝐿 = [𝑙𝑙𝑜, 𝑙ℎ𝑖𝑔ℎ] 𝑅 = [𝑟𝑙𝑜, 𝑟ℎ𝑖𝑔ℎ]
𝑅1 = [𝑟𝑙𝑜,
𝑟𝑙𝑜 + 𝑟ℎ𝑖𝑔ℎ
2
]
パラメーター空間を分割
(=分枝)
𝑅2 = [
𝑟𝑙𝑜 + 𝑟ℎ𝑖𝑔ℎ
2
+ 1, 𝑟ℎ𝑖𝑔ℎ]
分割したうち、スコア上限が
最大のものを残し他は捨てる
(=限定)
例: scoreが2.0vs5.0なので、2.0
からの分岐は考慮しない
max
𝑏𝑜𝑥∈[𝑇,𝐵.𝐿,𝑅1]
𝑠𝑐𝑜𝑟𝑒(𝑏𝑜𝑥) = 𝟐. 𝟎 max
𝑏𝑜𝑥∈[𝑇,𝐵.𝐿,𝑅2]
𝑠𝑐𝑜𝑟𝑒(𝑏𝑜𝑥) = 𝟓. 𝟎
Copyright © TIS Inc. All rights reserved. 17
スコアの上限値( መ𝑓(Θ) ) は、パラメーター空間内のありとあらゆるBoxに
ついてスコアを計算しなくても、導出することができる。
領域提案の手法: 領域選択 (3/3)
𝑇 = [𝑡𝑙𝑜, 𝑡ℎ𝑖𝑔ℎ]
𝐵 = [𝑏𝑙𝑜, 𝑏ℎ𝑖𝑔ℎ]
𝐿 = [𝑙𝑙𝑜, 𝑙ℎ𝑖𝑔ℎ] 𝑅 = [𝑟𝑙𝑜, 𝑟ℎ𝑖𝑔ℎ]
評価が+の特徴点
評価がーの特徴点
መ𝑓 Θ = 𝑓+ boxmax + 𝑓− boxm𝑖𝑛
最適なBoxは不明だが、それは最大領域よりは●を含んでいなくて、最小
領域よりは●を含んでいるはず。よって መ𝑓 Θ よりは必ず低い値になる。
= መ𝑓 Θ が上界となる。 参考: Efficient Subwindow Search: A Branch
and Bound Framework for Object Localization
Copyright © TIS Inc. All rights reserved. 18
物体認識における課題
「物体の変化に対し頑健な認識を行いたい」
◼ 物体の変化: スライド、回転、拡大縮小etc
◼ 例: どこにいても、どんな姿勢でも、どんな大きさでも検知したい
◼ DNN以前: 画像特徴量ベース(HOG/DPM etc)
◼ DNN以後: CNN
物体認識の手法
領域提案
領域分割
領域選択
物体認識
領域統合
Copyright © TIS Inc. All rights reserved. 19
物体認識の手法: 画像特徴量ベース/HOG
◼ HOG特徴 (Histograms of Oriented Gradients)
◼ 局所領域(パッチ)の特徴としてよく使われる
◼ 中心セルの特徴を、3x3の周辺ブロックから作成する。各セルの特
徴は9方向の輝度変化(勾配)で表され、ブロック内で正規化を行う
◼ 9方向x(3x3)のため、1セルの特徴は81次元のベクトルで表現される
from 局所画像特徴量 - 映像情報メディア学会
ただ、SIFTなどのように回転不変、スケール不変ではない。
参考: Gradient ベースの特徴抽出 -SIFT と HOG
Copyright © TIS Inc. All rights reserved. 20
物体認識の手法: 画像特徴量ベース/DPM (1/4)
◼ DPM(Deformable Part Models)
◼ 物体における、構成パートの特徴を加味する
◼ 人に対する、手と足など
◼ 物体らしさ、パートらしさは事前に学習したフィルタで計測する
◼ 物体全体らしさを検出するためのフィルタがルートフィルタ
◼ パートらしさを検出するためのフィルタがパートフィルタ
◼ ルートフィルタに対する反応に加えパートフィルタの反応を加味する
ルートフィルタ パートフィルタ
(足) 参考: The DPM Detector
Copyright © TIS Inc. All rights reserved. 21
物体認識の手法: 画像特徴量ベース/DPM (2/4)
◼ DPM(Deformable Part Models)
◼ 基本は、ルートフィルタのスコア+SUM(パートフィルタのスコア)
で値を計算する
◼ ただ、パートフィルタの反応が高い位置が、事前の想定通りの位置と
は限らない
●: ルートフィルタの反応位置
■: 想定しているパートフィルタの位置
■: パートフィルタの反応が高い位置
(手・足)
パートフィルタの位置を固定してしまうと、変形により反応位置がずれた場合
にそのスコアを採用できない(上図の場合、実際の手足でなく股下にある海のス
コアが使われてしまう)。
image from brookpeterson
Copyright © TIS Inc. All rights reserved. 22
物体認識の手法: 画像特徴量ベース/DPM (3/4)
◼ DPM(Deformable Part Models)
◼ こうした物体の変形(Deformation)に対応するため、位置ずれにつ
いてペナルティをいれつつスコアを計算する
◼ このペナルティは事前に学習する
想定位置から離れるほど、
ペナルティが高くなる
これにより、ある程度のずれは許容しつつ、大きすぎるずれは省けるよう似て
いる。
Copyright © TIS Inc. All rights reserved. 23
物体認識の手法: 画像特徴量ベース/DPM (4/4)
◼ DPM(Deformable Part Models)
ルートフィルタに対する
反応を計算
各パートフィルタに対す
る反応を計算
パートフィルタは、解像度を2
倍に上げた空間で適用する
(パートが小さいため)
位置ずれに対するペナル
ティを考慮
合算
参考: Object Detection with Deformable Part Models (DPM)
Copyright © TIS Inc. All rights reserved. 24
物体認識の手法: 画像特徴量ベース/矩形特徴
◼ 矩形特徴 (Haar-Like特徴)
◼ 矩形内の輝度変化に着目し、エッジや線、四角などを抽出するため
のフィルタ
垂直方向のエッジに
反応する
水平方向のエッジに
反応する
境界線(ライン)に反
応する
斜め線に反応する
人の顔についても輝度変化が顕著な個所があるため(目の周りと周辺など)、顔
検出にも用いられる。
Copyright © TIS Inc. All rights reserved. 25
物体認識の手法: 画像特徴量ベース/学習機
画像特徴を学習させる学習機としては、以下のようなものがある。
◼ 線形分類機(LinearSVM)
◼ HOG特徴を入力として判定、など
◼ DPMではスコアの計算にパーツ位置(z)が必要だが、実際には観測
できない(学習データに含まれない)。そのためパーツ位置を潜在変
数とし、重みと交互に学習する(Latent SVM: こちらの資料参考)
◼ AdaBoost
◼ Haar-cascade: 有用な矩形特徴(Harr-feature)を絞り込むために、
AdaBoostを使用。さらに事前に顔/顔以外の判定を行う分類機を連
結(Cascade of Classifiers)
◼ 最近傍法
◼ 正例との距離によって、物体検出を行う手法
◼ Exemplar-SVM: 各正例について、正例+負例のペアごとに識別機
(SVM)を用意するという力強い方法
Copyright © TIS Inc. All rights reserved. 26
物体認識の手法: 画像特徴量ベース/学習・推論のTrick (1/2)
◼ 学習
◼ 適切な負例の選別: hard negative mining
◼ 分類困難な負例で学習を行う手法
◼ 物体認識では、認識したいもの以外はすべて負例にすることができる。
◼ このままでは識別特徴を明確にすることができないので、分類困難な
データを負例として使いたい
◼ 手法として、分類困難なデータをキャッシュに記録し、最終的にはす
べての分類困難データを使ったうえで学習するようにする
Copyright © TIS Inc. All rights reserved. 27
物体認識の手法: 画像特徴量ベース/学習・推論のTrick (2/2)
◼ 推論
◼ 判定対象の絞り込み: attentional cascade
◼ 提案領域が無数にある場合、判定対象を絞り込みたい
◼ 動物かどうか>動物なら牛を検出、というように分類機を連結させ判
定対象を絞り込む
◼ 提案領域の絞り込み: non-maximal suppression (NMS)
◼ 同一物体に複数のBounding Boxが出ないよう抑制する
◼ 最もスコアの高い領域をマークし、その領域と重なりが一定以上の場
合非表示としてマークする。マークされていない領域の中で最もスコ
アが高いものを・・・という処理を、すべての領域がマークされるま
で行う
Copyright © TIS Inc. All rights reserved. 28
物体認識の手法: CNNベース (1/5)
from グルンヴァルトの戦いの後
CNN
画像特徴量達
分類機達
Copyright © TIS Inc. All rights reserved. 29
◼ R-CNN/Fast R-CNN
◼ 領域提案は選択的検索法で、物体認識はCNN
物体認識の手法: CNNベース (2/5)
領域提案
領域分割
領域選択
物体認識
領域統合
◼ Faster R-CNN
◼ 領域提案もCNN(Region Proposal Network)
領域提案 物体認識
Copyright © TIS Inc. All rights reserved. 30
◼ YOLO/SSD
◼ 領域提案と物体認識を同時に行い高速化する
物体認識の手法: CNNベース (3/5)
領域提案
物体認識
画像をグリッドで分割し、グリッド内のセルごとにクラス・領域を予測す
る。グリッドが𝑆 × 𝑆、クラス数がC、領域をオフセット∆(𝑥, 𝑦, 𝑤, ℎ)で表す
場合、最終的な出力は𝑆 × 𝑆 × (𝐶 + 4)となる。SSDの場合はスケールごと
に出力するため、これに出力スケール数が乗じられる。
Copyright © TIS Inc. All rights reserved. 31
物体認識の手法: CNNベース (4/5)
その後
from hoya012/deep_learning_object_detection
Copyright © TIS Inc. All rights reserved. 32
物体認識の手法: CNNベース (5/5)
2019年時点最高精度のM2Detの構成
◼ 1. Base feature: 低層/高層の特徴マップを使用
◼ 基礎的な特徴と、高次の特徴両方をとらえるため
◼ 2. TUM: スケールごとに特徴を作成+低スケールの情報を統合
◼ 低スケール(=解像度が低い)ほどメタな情報が残る。低スケールの
特徴マップからUpsamplingを行うことで、メタな情報を各スケー
ルの特徴マップにフィードバックする
◼ 3. TUMを多段にかける
◼ 2+3で、Multi scale/Multi levelの特徴が得られる
Copyright © TIS Inc. All rights reserved. 33
おわりに
◼ DNN(CNN)の登場は手法的に大きなパラダイムシフトだったが、扱う
課題時代はそう変わっていない
◼ 領域提案の課題: 必要十分な領域だけ選びたい
◼ 物体認識の課題: 物体の変化に対し頑健な認識を行いたい
◼ 最新のM2Detであっても、古来からの「マルチスケール」「マルチレ
ベル(階層)」という文脈から外れていない
◼ ただ、汎用性の高いDNNの登場により、領域提案と物体認識を統合的
に扱えるようになった
◼ 領域提案と物体認識の学習を一本化できる(End-to-End)
◼ 今後革新的な技術が出てくるとすれば、現在の文脈からは外れたとこ
ろにあるのかもしれない
◼ 古来からあり、今もある「フィルタ」という概念の外
◼ スケール・特徴階層に加わる第三の軸
◼ なお、実社会での応用段階に入ったことによる課題も有り
◼ Adversarial Exampleなど
Copyright © TIS Inc. All rights reserved. 34
参考資料
◼ 領域提案
◼ Selective Search for Object Recognition
◼ Efficient Graph-Based Image Segmentation
◼ An Efficient Parallel Multi-Scale Segmentation Method for Remote Sensing Imagery
◼ Efficient Subwindow Search: A Branch and Bound Framework for Object Localization
◼ 物体認識
◼ 局所画像特徴量 - 映像情報メディア学会
◼ Gradient ベースの特徴抽出 -SIFT と HOG-
◼ The DPM Detector
◼ Object Detection with Deformable Part Models (DPM)
◼ 2011/07/16 名古屋CV・PRML勉強会発表資料
◼ Haar Cascadesを使った顔検出
◼ SSD: Single Shot MultiBox Detector (ECCV2016)
◼ Deep Learningによる一般物体検出アルゴリズムの紹介
◼ 最近のSingle Shot系の物体検出のアーキテクチャまとめ
◼ hoya012/deep_learning_object_detection
◼ M2Det: A Single-Shot Object Detector based on Multi-Level Feature Pyramid Network
◼ 物体認識モデルYOLOv3に完全勝利したM2Detの紹介
~SSDまでの歴史が概
観できる
SSD~の歴史が概観で
きる
THANK YOU

Mais conteúdo relacionado

Mais procurados

SSII2012 2D&3Dレジストレーション ~画像と3次元点群の合わせ方~ 第1部
SSII2012 2D&3Dレジストレーション ~画像と3次元点群の合わせ方~ 第1部SSII2012 2D&3Dレジストレーション ~画像と3次元点群の合わせ方~ 第1部
SSII2012 2D&3Dレジストレーション ~画像と3次元点群の合わせ方~ 第1部Toru Tamaki
 
半教師あり学習
半教師あり学習半教師あり学習
半教師あり学習syou6162
 
生成モデルの Deep Learning
生成モデルの Deep Learning生成モデルの Deep Learning
生成モデルの Deep LearningSeiya Tokui
 
[DL輪読会]End-to-end Recovery of Human Shape and Pose
[DL輪読会]End-to-end Recovery of Human Shape and Pose[DL輪読会]End-to-end Recovery of Human Shape and Pose
[DL輪読会]End-to-end Recovery of Human Shape and PoseDeep Learning JP
 
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​SSII
 
[DL輪読会]Neural Radiance Flow for 4D View Synthesis and Video Processing (NeRF...
[DL輪読会]Neural Radiance Flow for 4D View Synthesis and Video  Processing (NeRF...[DL輪読会]Neural Radiance Flow for 4D View Synthesis and Video  Processing (NeRF...
[DL輪読会]Neural Radiance Flow for 4D View Synthesis and Video Processing (NeRF...Deep Learning JP
 
SSII2019企画: 点群深層学習の研究動向
SSII2019企画: 点群深層学習の研究動向SSII2019企画: 点群深層学習の研究動向
SSII2019企画: 点群深層学習の研究動向SSII
 
Soft Rasterizer: A Differentiable Renderer for Image-based 3D Reasoning
Soft Rasterizer: A Differentiable Renderer for Image-based 3D ReasoningSoft Rasterizer: A Differentiable Renderer for Image-based 3D Reasoning
Soft Rasterizer: A Differentiable Renderer for Image-based 3D ReasoningKohei Nishimura
 
動画認識サーベイv1(メタサーベイ )
動画認識サーベイv1(メタサーベイ )動画認識サーベイv1(メタサーベイ )
動画認識サーベイv1(メタサーベイ )cvpaper. challenge
 
[DL輪読会]AutoAugment: LearningAugmentation Strategies from Data & Learning Data...
[DL輪読会]AutoAugment: LearningAugmentation Strategies from Data & Learning Data...[DL輪読会]AutoAugment: LearningAugmentation Strategies from Data & Learning Data...
[DL輪読会]AutoAugment: LearningAugmentation Strategies from Data & Learning Data...Deep Learning JP
 
深層学習による非滑らかな関数の推定
深層学習による非滑らかな関数の推定深層学習による非滑らかな関数の推定
深層学習による非滑らかな関数の推定Masaaki Imaizumi
 
機械学習モデルの判断根拠の説明(Ver.2)
機械学習モデルの判断根拠の説明(Ver.2)機械学習モデルの判断根拠の説明(Ver.2)
機械学習モデルの判断根拠の説明(Ver.2)Satoshi Hara
 
PCAの最終形態GPLVMの解説
PCAの最終形態GPLVMの解説PCAの最終形態GPLVMの解説
PCAの最終形態GPLVMの解説弘毅 露崎
 
深層学習によるHuman Pose Estimationの基礎
深層学習によるHuman Pose Estimationの基礎深層学習によるHuman Pose Estimationの基礎
深層学習によるHuman Pose Estimationの基礎Takumi Ohkuma
 
大域的探索から局所的探索へデータ拡張 (Data Augmentation)を用いた学習の探索テクニック
大域的探索から局所的探索へデータ拡張 (Data Augmentation)を用いた学習の探索テクニック 大域的探索から局所的探索へデータ拡張 (Data Augmentation)を用いた学習の探索テクニック
大域的探索から局所的探索へデータ拡張 (Data Augmentation)を用いた学習の探索テクニック 西岡 賢一郎
 
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -tmtm otm
 
IIBMP2016 深層生成モデルによる表現学習
IIBMP2016 深層生成モデルによる表現学習IIBMP2016 深層生成モデルによる表現学習
IIBMP2016 深層生成モデルによる表現学習Preferred Networks
 
マハラノビス距離とユークリッド距離の違い
マハラノビス距離とユークリッド距離の違いマハラノビス距離とユークリッド距離の違い
マハラノビス距離とユークリッド距離の違いwada, kazumi
 
【DL輪読会】"A Generalist Agent"
【DL輪読会】"A Generalist Agent"【DL輪読会】"A Generalist Agent"
【DL輪読会】"A Generalist Agent"Deep Learning JP
 
FineDiving: A Fine-grained Dataset for Procedure-aware Action Quality Assessm...
FineDiving: A Fine-grained Dataset for Procedure-aware Action Quality Assessm...FineDiving: A Fine-grained Dataset for Procedure-aware Action Quality Assessm...
FineDiving: A Fine-grained Dataset for Procedure-aware Action Quality Assessm...Shoki Miyagawa
 

Mais procurados (20)

SSII2012 2D&3Dレジストレーション ~画像と3次元点群の合わせ方~ 第1部
SSII2012 2D&3Dレジストレーション ~画像と3次元点群の合わせ方~ 第1部SSII2012 2D&3Dレジストレーション ~画像と3次元点群の合わせ方~ 第1部
SSII2012 2D&3Dレジストレーション ~画像と3次元点群の合わせ方~ 第1部
 
半教師あり学習
半教師あり学習半教師あり学習
半教師あり学習
 
生成モデルの Deep Learning
生成モデルの Deep Learning生成モデルの Deep Learning
生成モデルの Deep Learning
 
[DL輪読会]End-to-end Recovery of Human Shape and Pose
[DL輪読会]End-to-end Recovery of Human Shape and Pose[DL輪読会]End-to-end Recovery of Human Shape and Pose
[DL輪読会]End-to-end Recovery of Human Shape and Pose
 
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
 
[DL輪読会]Neural Radiance Flow for 4D View Synthesis and Video Processing (NeRF...
[DL輪読会]Neural Radiance Flow for 4D View Synthesis and Video  Processing (NeRF...[DL輪読会]Neural Radiance Flow for 4D View Synthesis and Video  Processing (NeRF...
[DL輪読会]Neural Radiance Flow for 4D View Synthesis and Video Processing (NeRF...
 
SSII2019企画: 点群深層学習の研究動向
SSII2019企画: 点群深層学習の研究動向SSII2019企画: 点群深層学習の研究動向
SSII2019企画: 点群深層学習の研究動向
 
Soft Rasterizer: A Differentiable Renderer for Image-based 3D Reasoning
Soft Rasterizer: A Differentiable Renderer for Image-based 3D ReasoningSoft Rasterizer: A Differentiable Renderer for Image-based 3D Reasoning
Soft Rasterizer: A Differentiable Renderer for Image-based 3D Reasoning
 
動画認識サーベイv1(メタサーベイ )
動画認識サーベイv1(メタサーベイ )動画認識サーベイv1(メタサーベイ )
動画認識サーベイv1(メタサーベイ )
 
[DL輪読会]AutoAugment: LearningAugmentation Strategies from Data & Learning Data...
[DL輪読会]AutoAugment: LearningAugmentation Strategies from Data & Learning Data...[DL輪読会]AutoAugment: LearningAugmentation Strategies from Data & Learning Data...
[DL輪読会]AutoAugment: LearningAugmentation Strategies from Data & Learning Data...
 
深層学習による非滑らかな関数の推定
深層学習による非滑らかな関数の推定深層学習による非滑らかな関数の推定
深層学習による非滑らかな関数の推定
 
機械学習モデルの判断根拠の説明(Ver.2)
機械学習モデルの判断根拠の説明(Ver.2)機械学習モデルの判断根拠の説明(Ver.2)
機械学習モデルの判断根拠の説明(Ver.2)
 
PCAの最終形態GPLVMの解説
PCAの最終形態GPLVMの解説PCAの最終形態GPLVMの解説
PCAの最終形態GPLVMの解説
 
深層学習によるHuman Pose Estimationの基礎
深層学習によるHuman Pose Estimationの基礎深層学習によるHuman Pose Estimationの基礎
深層学習によるHuman Pose Estimationの基礎
 
大域的探索から局所的探索へデータ拡張 (Data Augmentation)を用いた学習の探索テクニック
大域的探索から局所的探索へデータ拡張 (Data Augmentation)を用いた学習の探索テクニック 大域的探索から局所的探索へデータ拡張 (Data Augmentation)を用いた学習の探索テクニック
大域的探索から局所的探索へデータ拡張 (Data Augmentation)を用いた学習の探索テクニック
 
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
 
IIBMP2016 深層生成モデルによる表現学習
IIBMP2016 深層生成モデルによる表現学習IIBMP2016 深層生成モデルによる表現学習
IIBMP2016 深層生成モデルによる表現学習
 
マハラノビス距離とユークリッド距離の違い
マハラノビス距離とユークリッド距離の違いマハラノビス距離とユークリッド距離の違い
マハラノビス距離とユークリッド距離の違い
 
【DL輪読会】"A Generalist Agent"
【DL輪読会】"A Generalist Agent"【DL輪読会】"A Generalist Agent"
【DL輪読会】"A Generalist Agent"
 
FineDiving: A Fine-grained Dataset for Procedure-aware Action Quality Assessm...
FineDiving: A Fine-grained Dataset for Procedure-aware Action Quality Assessm...FineDiving: A Fine-grained Dataset for Procedure-aware Action Quality Assessm...
FineDiving: A Fine-grained Dataset for Procedure-aware Action Quality Assessm...
 

Semelhante a nlpaper.challenge NLP/CV交流勉強会 画像認識 7章

エンジニアのための機械学習の基礎
エンジニアのための機械学習の基礎エンジニアのための機械学習の基礎
エンジニアのための機械学習の基礎Daiyu Hatakeyama
 
ソーシャルデザインパターン -評判と情報収集-
ソーシャルデザインパターン -評判と情報収集-ソーシャルデザインパターン -評判と情報収集-
ソーシャルデザインパターン -評判と情報収集-Koichi Hamada
 
2020/07/04 BSP-Net (CVPR2020)
2020/07/04 BSP-Net (CVPR2020)2020/07/04 BSP-Net (CVPR2020)
2020/07/04 BSP-Net (CVPR2020)Takuya Minagawa
 
Hazop and triz by/of/for the children(3/3)
Hazop and triz by/of/for the children(3/3)Hazop and triz by/of/for the children(3/3)
Hazop and triz by/of/for the children(3/3)Kiyoshi Ogawa
 
Mahout Canopy Clustering - #TokyoWebmining 9
Mahout Canopy Clustering - #TokyoWebmining 9Mahout Canopy Clustering - #TokyoWebmining 9
Mahout Canopy Clustering - #TokyoWebmining 9Koichi Hamada
 
Big data解析ビジネス
Big data解析ビジネスBig data解析ビジネス
Big data解析ビジネスMie Mori
 
公平性を保証したAI/機械学習
アルゴリズムの最新理論
公平性を保証したAI/機械学習
アルゴリズムの最新理論公平性を保証したAI/機械学習
アルゴリズムの最新理論
公平性を保証したAI/機械学習
アルゴリズムの最新理論Kazuto Fukuchi
 
(文献紹介)深層学習による動被写体ロバストなカメラの動き推定
(文献紹介)深層学習による動被写体ロバストなカメラの動き推定(文献紹介)深層学習による動被写体ロバストなカメラの動き推定
(文献紹介)深層学習による動被写体ロバストなカメラの動き推定Morpho, Inc.
 
Visual SLAM: Why Bundle Adjust?の解説(第4回3D勉強会@関東)
Visual SLAM: Why Bundle Adjust?の解説(第4回3D勉強会@関東)Visual SLAM: Why Bundle Adjust?の解説(第4回3D勉強会@関東)
Visual SLAM: Why Bundle Adjust?の解説(第4回3D勉強会@関東)Masaya Kaneko
 
画像認識で物を見分ける
画像認識で物を見分ける画像認識で物を見分ける
画像認識で物を見分けるKazuaki Tanida
 
モデル最適化指標・評価指標の選び方
モデル最適化指標・評価指標の選び方モデル最適化指標・評価指標の選び方
モデル最適化指標・評価指標の選び方幹雄 小川
 
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII
 
200730material fujita
200730material fujita200730material fujita
200730material fujitaRCCSRENKEI
 
Hive/Pigを使ったKDD'12 track2の広告クリック率予測
Hive/Pigを使ったKDD'12 track2の広告クリック率予測Hive/Pigを使ったKDD'12 track2の広告クリック率予測
Hive/Pigを使ったKDD'12 track2の広告クリック率予測Makoto Yui
 
ICCV2019読み会「Learning Meshes for Dense Visual SLAM」
ICCV2019読み会「Learning Meshes for Dense Visual SLAM」ICCV2019読み会「Learning Meshes for Dense Visual SLAM」
ICCV2019読み会「Learning Meshes for Dense Visual SLAM」Sho Kagami
 
Jubatusの特徴変換と線形分類器の仕組み
Jubatusの特徴変換と線形分類器の仕組みJubatusの特徴変換と線形分類器の仕組み
Jubatusの特徴変換と線形分類器の仕組みJubatusOfficial
 

Semelhante a nlpaper.challenge NLP/CV交流勉強会 画像認識 7章 (20)

判別分析
判別分析判別分析
判別分析
 
エンジニアのための機械学習の基礎
エンジニアのための機械学習の基礎エンジニアのための機械学習の基礎
エンジニアのための機械学習の基礎
 
ソーシャルデザインパターン -評判と情報収集-
ソーシャルデザインパターン -評判と情報収集-ソーシャルデザインパターン -評判と情報収集-
ソーシャルデザインパターン -評判と情報収集-
 
2020/07/04 BSP-Net (CVPR2020)
2020/07/04 BSP-Net (CVPR2020)2020/07/04 BSP-Net (CVPR2020)
2020/07/04 BSP-Net (CVPR2020)
 
Overview and Roadmap
Overview and RoadmapOverview and Roadmap
Overview and Roadmap
 
Hazop and triz by/of/for the children(3/3)
Hazop and triz by/of/for the children(3/3)Hazop and triz by/of/for the children(3/3)
Hazop and triz by/of/for the children(3/3)
 
How good is my GAN?
How good is my GAN?How good is my GAN?
How good is my GAN?
 
Mahout Canopy Clustering - #TokyoWebmining 9
Mahout Canopy Clustering - #TokyoWebmining 9Mahout Canopy Clustering - #TokyoWebmining 9
Mahout Canopy Clustering - #TokyoWebmining 9
 
Big data解析ビジネス
Big data解析ビジネスBig data解析ビジネス
Big data解析ビジネス
 
公平性を保証したAI/機械学習
アルゴリズムの最新理論
公平性を保証したAI/機械学習
アルゴリズムの最新理論公平性を保証したAI/機械学習
アルゴリズムの最新理論
公平性を保証したAI/機械学習
アルゴリズムの最新理論
 
20200704 bsp net
20200704 bsp net20200704 bsp net
20200704 bsp net
 
(文献紹介)深層学習による動被写体ロバストなカメラの動き推定
(文献紹介)深層学習による動被写体ロバストなカメラの動き推定(文献紹介)深層学習による動被写体ロバストなカメラの動き推定
(文献紹介)深層学習による動被写体ロバストなカメラの動き推定
 
Visual SLAM: Why Bundle Adjust?の解説(第4回3D勉強会@関東)
Visual SLAM: Why Bundle Adjust?の解説(第4回3D勉強会@関東)Visual SLAM: Why Bundle Adjust?の解説(第4回3D勉強会@関東)
Visual SLAM: Why Bundle Adjust?の解説(第4回3D勉強会@関東)
 
画像認識で物を見分ける
画像認識で物を見分ける画像認識で物を見分ける
画像認識で物を見分ける
 
モデル最適化指標・評価指標の選び方
モデル最適化指標・評価指標の選び方モデル最適化指標・評価指標の選び方
モデル最適化指標・評価指標の選び方
 
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
 
200730material fujita
200730material fujita200730material fujita
200730material fujita
 
Hive/Pigを使ったKDD'12 track2の広告クリック率予測
Hive/Pigを使ったKDD'12 track2の広告クリック率予測Hive/Pigを使ったKDD'12 track2の広告クリック率予測
Hive/Pigを使ったKDD'12 track2の広告クリック率予測
 
ICCV2019読み会「Learning Meshes for Dense Visual SLAM」
ICCV2019読み会「Learning Meshes for Dense Visual SLAM」ICCV2019読み会「Learning Meshes for Dense Visual SLAM」
ICCV2019読み会「Learning Meshes for Dense Visual SLAM」
 
Jubatusの特徴変換と線形分類器の仕組み
Jubatusの特徴変換と線形分類器の仕組みJubatusの特徴変換と線形分類器の仕組み
Jubatusの特徴変換と線形分類器の仕組み
 

Mais de Takahiro Kubo

自然言語処理による企業の気候変動対策分析
自然言語処理による企業の気候変動対策分析自然言語処理による企業の気候変動対策分析
自然言語処理による企業の気候変動対策分析Takahiro Kubo
 
国際会計基準(IFRS)適用企業の財務評価方法
国際会計基準(IFRS)適用企業の財務評価方法国際会計基準(IFRS)適用企業の財務評価方法
国際会計基準(IFRS)適用企業の財務評価方法Takahiro Kubo
 
自然言語処理で新型コロナウィルスに立ち向かう
自然言語処理で新型コロナウィルスに立ち向かう自然言語処理で新型コロナウィルスに立ち向かう
自然言語処理で新型コロナウィルスに立ち向かうTakahiro Kubo
 
財務・非財務一体型の企業分析に向けて
財務・非財務一体型の企業分析に向けて財務・非財務一体型の企業分析に向けて
財務・非財務一体型の企業分析に向けてTakahiro Kubo
 
自然言語処理で読み解く金融文書
自然言語処理で読み解く金融文書自然言語処理で読み解く金融文書
自然言語処理で読み解く金融文書Takahiro Kubo
 
arXivTimes Review: 2019年前半で印象に残った論文を振り返る
arXivTimes Review: 2019年前半で印象に残った論文を振り返るarXivTimes Review: 2019年前半で印象に残った論文を振り返る
arXivTimes Review: 2019年前半で印象に残った論文を振り返るTakahiro Kubo
 
ESG評価を支える自然言語処理基盤の構築
ESG評価を支える自然言語処理基盤の構築ESG評価を支える自然言語処理基盤の構築
ESG評価を支える自然言語処理基盤の構築Takahiro Kubo
 
Expressing Visual Relationships via Language: 自然言語による画像編集を目指して
Expressing Visual Relationships via Language: 自然言語による画像編集を目指してExpressing Visual Relationships via Language: 自然言語による画像編集を目指して
Expressing Visual Relationships via Language: 自然言語による画像編集を目指してTakahiro Kubo
 
Reinforcement Learning Inside Business
Reinforcement Learning Inside BusinessReinforcement Learning Inside Business
Reinforcement Learning Inside BusinessTakahiro Kubo
 
あるべきESG投資の評価に向けた、自然言語処理の活用
あるべきESG投資の評価に向けた、自然言語処理の活用あるべきESG投資の評価に向けた、自然言語処理の活用
あるべきESG投資の評価に向けた、自然言語処理の活用Takahiro Kubo
 
Curiosity may drives your output routine.
Curiosity may drives  your output routine.Curiosity may drives  your output routine.
Curiosity may drives your output routine.Takahiro Kubo
 
モデルではなく、データセットを蒸留する
モデルではなく、データセットを蒸留するモデルではなく、データセットを蒸留する
モデルではなく、データセットを蒸留するTakahiro Kubo
 
2018年12月4日までに『呪術廻戦』を読む理由
2018年12月4日までに『呪術廻戦』を読む理由2018年12月4日までに『呪術廻戦』を読む理由
2018年12月4日までに『呪術廻戦』を読む理由Takahiro Kubo
 
Graph Attention Network
Graph Attention NetworkGraph Attention Network
Graph Attention NetworkTakahiro Kubo
 
ACL2018の歩き方
 ACL2018の歩き方 ACL2018の歩き方
ACL2018の歩き方Takahiro Kubo
 
機械学習で泣かないためのコード設計 2018
機械学習で泣かないためのコード設計 2018機械学習で泣かないためのコード設計 2018
機械学習で泣かないためのコード設計 2018Takahiro Kubo
 
TISにおける、研究開発の方針とメソッド 2018
TISにおける、研究開発の方針とメソッド 2018TISにおける、研究開発の方針とメソッド 2018
TISにおける、研究開発の方針とメソッド 2018Takahiro Kubo
 
感情の出どころを探る、一歩進んだ感情解析
感情の出どころを探る、一歩進んだ感情解析感情の出どころを探る、一歩進んだ感情解析
感情の出どころを探る、一歩進んだ感情解析Takahiro Kubo
 
機械学習の力を引き出すための依存性管理
機械学習の力を引き出すための依存性管理機械学習の力を引き出すための依存性管理
機械学習の力を引き出すための依存性管理Takahiro Kubo
 

Mais de Takahiro Kubo (20)

自然言語処理による企業の気候変動対策分析
自然言語処理による企業の気候変動対策分析自然言語処理による企業の気候変動対策分析
自然言語処理による企業の気候変動対策分析
 
国際会計基準(IFRS)適用企業の財務評価方法
国際会計基準(IFRS)適用企業の財務評価方法国際会計基準(IFRS)適用企業の財務評価方法
国際会計基準(IFRS)適用企業の財務評価方法
 
自然言語処理で新型コロナウィルスに立ち向かう
自然言語処理で新型コロナウィルスに立ち向かう自然言語処理で新型コロナウィルスに立ち向かう
自然言語処理で新型コロナウィルスに立ち向かう
 
財務・非財務一体型の企業分析に向けて
財務・非財務一体型の企業分析に向けて財務・非財務一体型の企業分析に向けて
財務・非財務一体型の企業分析に向けて
 
自然言語処理で読み解く金融文書
自然言語処理で読み解く金融文書自然言語処理で読み解く金融文書
自然言語処理で読み解く金融文書
 
arXivTimes Review: 2019年前半で印象に残った論文を振り返る
arXivTimes Review: 2019年前半で印象に残った論文を振り返るarXivTimes Review: 2019年前半で印象に残った論文を振り返る
arXivTimes Review: 2019年前半で印象に残った論文を振り返る
 
ESG評価を支える自然言語処理基盤の構築
ESG評価を支える自然言語処理基盤の構築ESG評価を支える自然言語処理基盤の構築
ESG評価を支える自然言語処理基盤の構築
 
Expressing Visual Relationships via Language: 自然言語による画像編集を目指して
Expressing Visual Relationships via Language: 自然言語による画像編集を目指してExpressing Visual Relationships via Language: 自然言語による画像編集を目指して
Expressing Visual Relationships via Language: 自然言語による画像編集を目指して
 
Reinforcement Learning Inside Business
Reinforcement Learning Inside BusinessReinforcement Learning Inside Business
Reinforcement Learning Inside Business
 
あるべきESG投資の評価に向けた、自然言語処理の活用
あるべきESG投資の評価に向けた、自然言語処理の活用あるべきESG投資の評価に向けた、自然言語処理の活用
あるべきESG投資の評価に向けた、自然言語処理の活用
 
Curiosity may drives your output routine.
Curiosity may drives  your output routine.Curiosity may drives  your output routine.
Curiosity may drives your output routine.
 
モデルではなく、データセットを蒸留する
モデルではなく、データセットを蒸留するモデルではなく、データセットを蒸留する
モデルではなく、データセットを蒸留する
 
EMNLP2018 Overview
EMNLP2018 OverviewEMNLP2018 Overview
EMNLP2018 Overview
 
2018年12月4日までに『呪術廻戦』を読む理由
2018年12月4日までに『呪術廻戦』を読む理由2018年12月4日までに『呪術廻戦』を読む理由
2018年12月4日までに『呪術廻戦』を読む理由
 
Graph Attention Network
Graph Attention NetworkGraph Attention Network
Graph Attention Network
 
ACL2018の歩き方
 ACL2018の歩き方 ACL2018の歩き方
ACL2018の歩き方
 
機械学習で泣かないためのコード設計 2018
機械学習で泣かないためのコード設計 2018機械学習で泣かないためのコード設計 2018
機械学習で泣かないためのコード設計 2018
 
TISにおける、研究開発の方針とメソッド 2018
TISにおける、研究開発の方針とメソッド 2018TISにおける、研究開発の方針とメソッド 2018
TISにおける、研究開発の方針とメソッド 2018
 
感情の出どころを探る、一歩進んだ感情解析
感情の出どころを探る、一歩進んだ感情解析感情の出どころを探る、一歩進んだ感情解析
感情の出どころを探る、一歩進んだ感情解析
 
機械学習の力を引き出すための依存性管理
機械学習の力を引き出すための依存性管理機械学習の力を引き出すための依存性管理
機械学習の力を引き出すための依存性管理
 

nlpaper.challenge NLP/CV交流勉強会 画像認識 7章

  • 1. Copyright © TIS Inc. All rights reserved. 「画像認識」7章解説 戦略技術センター 久保隆宏 Object Detection
  • 2. Copyright © TIS Inc. All rights reserved. 2 ◼ 画像認識: 7章の概要 ◼ 物体検出のアーキテクチャ ◼ 物体検出の評価 ◼ 領域提案の手法 ◼ 領域統合: 選択的検索法(Selective Search) ◼ 領域選択: 分枝限定法(Branch and Bound) ◼ 物体認識の手法 ◼ 画像特徴量ベース ◼ HOG, DPM, 矩形特徴 ◼ 学習機 ◼ 学習・推論のTrick ◼ CNNベース ◼ R-CNN/Fast R-CNN, Faster R-CNN, YOLO/SSD, その後(M2Det) ◼ おわりに 目次
  • 3. Copyright © TIS Inc. All rights reserved. 3 久保隆宏 TIS株式会社 戦略技術センター ◼ 化学系メーカーの業務コンサルタント出身 ◼ 既存の技術では業務改善を行える範囲に限界があるとの実感から、戦 略技術センターへと異動 ◼ 現在は会計/投資の現場で使える要約の実現を目指し、まとめる観点を 指定した要約の作成に関する研究を行う。 自己紹介 kintoneアプリ内にたまった データを簡単に学習・活用 (@Cybozu Days 2016) チュートリアル講演:深層学習 の判断根拠を理解するための研 究とその意義(@PRMU 2017) 機械学習をシステムに組み込む 際の依存性管理について (@MANABIYA 2018)
  • 4. Copyright © TIS Inc. All rights reserved. 4 7章は「物体検出」について書かれている。 ◼ 物体検出は、以下2つのフェーズに分けることができる ◼ 領域提案: 物体が含まれる領域を提案する ◼ 物体認識: 物体のクラス(人・車etc)を予測する ◼ 本書は各フェーズについてDNN以前/以後の手法について解説している ◼ DNN以後は2つを統合的に行う手法がある(Faster-RCNN~) 本日の発表では、DNN以後についてはあまり詳細な解説はしません(時間 の都合&良い資料がたくさんあるため)。詳細が気になる方は、参考資料の 方をご参照ください。 画像認識: 7章の概要
  • 5. Copyright © TIS Inc. All rights reserved. 5 領域提案 物体検出のアーキテクチャ (1/4) image from Ryan 領域分割 領域選択 物体認識 画像を適当なサイズに分割する 例: スライディングウィンドウ法 領域統合
  • 6. Copyright © TIS Inc. All rights reserved. 6 領域提案 物体検出のアーキテクチャ (2/4) 領域分割 領域選択 物体認識 似ている領域を統合し数を減らす 例: 選択的検索法 (Selective Search) 領域統合 image from Ryan
  • 7. Copyright © TIS Inc. All rights reserved. 7 領域提案 物体検出のアーキテクチャ (3/4) 領域分割 領域選択 物体認識 物体ぽさが高い領域を選択する 例: 分枝限定法 (Branch and Bound) 領域統合 image from Ryan
  • 8. Copyright © TIS Inc. All rights reserved. 8 領域提案 物体検出のアーキテクチャ (4/4) 領域分割 領域選択 物体認識 物体のクラスを認識する 例: Linear SVM/CNN 領域統合 DOG DOG DOG TREE image from Ryan
  • 9. Copyright © TIS Inc. All rights reserved. 9 物体検出は、検出領域と真の領域との一致度合いで評価される。 ◼ 領域提案の精度: IoU(Intersection over Union) ◼ 真の領域との重なり具合を計測する手法(0.5を超えるとGOOD) 物体検出の評価 (1/2) 予測した領域 真の領域 IoU = Union over Intersection
  • 10. Copyright © TIS Inc. All rights reserved. 10 ◼ クラスごとの平均適合率: AP(Average Precition) 物体検出の評価 (2/2) 検出領域 ・・・ 真の領域 信頼度が高い順にソート IoUが閾値 以上(TP) ・・・ 精度 再現率 検出: 1 適合: 1 再現: 1/N 検出: 2 適合: 2 再現: 2/N 検出: 3 適合: 2 再現: 2/N 検出: 4 適合: 3 再現: 3/N N個 より高い再現率 の精度で補完 ・・・ ◼ PR曲線の下の面積=AP ◼ 全クラスのAPの平均=mAP
  • 12. Copyright © TIS Inc. All rights reserved. 12 領域提案における課題 「必要十分な領域だけ選びたい」 ◼ 必要: 検出漏れは防ぎたい ◼ 十分: とはいえ、提案領域が多すぎるのは避けたい 基本的には、細かい領域を統合していく手法(領域統合)と、大量の領域か らそれらしいものを採用していく手法(領域選択)の2つがある。 (領域分割はスライディングウィンドウが鉄板) 領域提案の手法 領域提案 領域分割 領域選択 物体認識 領域統合
  • 13. Copyright © TIS Inc. All rights reserved. 13 領域統合の手法: 選択的検索法(Selective Search) ◼ 画像を適当な領域に分割し、似ている領域をマージしていく ◼ 似ている物体の領域は似ているはず 領域提案の手法: 領域統合 (1/2) from Selective Search for Object Recognition
  • 14. Copyright © TIS Inc. All rights reserved. 14 領域統合の手法: 選択的検索法(Selective Search) 領域提案の手法: 領域統合 (2/2) 領域統合に際しては、事前に素となる領域を作成しておく。これは、ピク セルのままだと情報量が少なすぎるため。 ◼ ピクセル=>領域: Efficient Graph-Based Image Segmentation ◼ 領域=>物体候補領域: Selective Search for Object Recognition Pixels to Segment from An Efficient Parallel Multi-Scale Segmentation Method for Remote Sensing Imagery Segments to Region (再掲)
  • 15. Copyright © TIS Inc. All rights reserved. 15 領域選択の手法: 分枝限定法 (Branch and Bound) ◼ 考えられる領域のうち、物体を含む可能性が高いものを選択する ◼ 領域集合を分割し(=分枝)、可能性の高い集合を残していく(=限定)こ とで探索を行う ◼ 領域: 上下左右の座標: 𝜃(𝑡, 𝑏, 𝑙, 𝑟) ◼ 領域集合: 座標の上限/下限: Θ 𝑇, 𝐵, 𝐿, 𝑅 = [ 𝑡𝑙𝑜𝑤, 𝑡ℎ𝑖𝑔ℎ , 𝑏𝑙𝑜𝑤, 𝑏ℎ𝑖𝑔ℎ , 𝑙𝑙𝑜𝑤, 𝑙ℎ𝑖𝑔ℎ , 𝑟𝑙𝑜𝑤, 𝑟ℎ𝑖𝑔ℎ ] 領域提案の手法: 領域選択 (1/3) Θ Θ1 Θ2 Θ11 Θ12 Θ21 Θ22
  • 16. Copyright © TIS Inc. All rights reserved. 16 領域選択の手法: 分枝限定法 (Branch and Bound) 領域提案の手法: 領域選択 (2/3) 最大領域 最小領域 𝑇 = [𝑡𝑙𝑜, 𝑡ℎ𝑖𝑔ℎ] 𝐵 = [𝑏𝑙𝑜, 𝑏ℎ𝑖𝑔ℎ] 𝐿 = [𝑙𝑙𝑜, 𝑙ℎ𝑖𝑔ℎ] 𝑅 = [𝑟𝑙𝑜, 𝑟ℎ𝑖𝑔ℎ] 𝑅1 = [𝑟𝑙𝑜, 𝑟𝑙𝑜 + 𝑟ℎ𝑖𝑔ℎ 2 ] パラメーター空間を分割 (=分枝) 𝑅2 = [ 𝑟𝑙𝑜 + 𝑟ℎ𝑖𝑔ℎ 2 + 1, 𝑟ℎ𝑖𝑔ℎ] 分割したうち、スコア上限が 最大のものを残し他は捨てる (=限定) 例: scoreが2.0vs5.0なので、2.0 からの分岐は考慮しない max 𝑏𝑜𝑥∈[𝑇,𝐵.𝐿,𝑅1] 𝑠𝑐𝑜𝑟𝑒(𝑏𝑜𝑥) = 𝟐. 𝟎 max 𝑏𝑜𝑥∈[𝑇,𝐵.𝐿,𝑅2] 𝑠𝑐𝑜𝑟𝑒(𝑏𝑜𝑥) = 𝟓. 𝟎
  • 17. Copyright © TIS Inc. All rights reserved. 17 スコアの上限値( መ𝑓(Θ) ) は、パラメーター空間内のありとあらゆるBoxに ついてスコアを計算しなくても、導出することができる。 領域提案の手法: 領域選択 (3/3) 𝑇 = [𝑡𝑙𝑜, 𝑡ℎ𝑖𝑔ℎ] 𝐵 = [𝑏𝑙𝑜, 𝑏ℎ𝑖𝑔ℎ] 𝐿 = [𝑙𝑙𝑜, 𝑙ℎ𝑖𝑔ℎ] 𝑅 = [𝑟𝑙𝑜, 𝑟ℎ𝑖𝑔ℎ] 評価が+の特徴点 評価がーの特徴点 መ𝑓 Θ = 𝑓+ boxmax + 𝑓− boxm𝑖𝑛 最適なBoxは不明だが、それは最大領域よりは●を含んでいなくて、最小 領域よりは●を含んでいるはず。よって መ𝑓 Θ よりは必ず低い値になる。 = መ𝑓 Θ が上界となる。 参考: Efficient Subwindow Search: A Branch and Bound Framework for Object Localization
  • 18. Copyright © TIS Inc. All rights reserved. 18 物体認識における課題 「物体の変化に対し頑健な認識を行いたい」 ◼ 物体の変化: スライド、回転、拡大縮小etc ◼ 例: どこにいても、どんな姿勢でも、どんな大きさでも検知したい ◼ DNN以前: 画像特徴量ベース(HOG/DPM etc) ◼ DNN以後: CNN 物体認識の手法 領域提案 領域分割 領域選択 物体認識 領域統合
  • 19. Copyright © TIS Inc. All rights reserved. 19 物体認識の手法: 画像特徴量ベース/HOG ◼ HOG特徴 (Histograms of Oriented Gradients) ◼ 局所領域(パッチ)の特徴としてよく使われる ◼ 中心セルの特徴を、3x3の周辺ブロックから作成する。各セルの特 徴は9方向の輝度変化(勾配)で表され、ブロック内で正規化を行う ◼ 9方向x(3x3)のため、1セルの特徴は81次元のベクトルで表現される from 局所画像特徴量 - 映像情報メディア学会 ただ、SIFTなどのように回転不変、スケール不変ではない。 参考: Gradient ベースの特徴抽出 -SIFT と HOG
  • 20. Copyright © TIS Inc. All rights reserved. 20 物体認識の手法: 画像特徴量ベース/DPM (1/4) ◼ DPM(Deformable Part Models) ◼ 物体における、構成パートの特徴を加味する ◼ 人に対する、手と足など ◼ 物体らしさ、パートらしさは事前に学習したフィルタで計測する ◼ 物体全体らしさを検出するためのフィルタがルートフィルタ ◼ パートらしさを検出するためのフィルタがパートフィルタ ◼ ルートフィルタに対する反応に加えパートフィルタの反応を加味する ルートフィルタ パートフィルタ (足) 参考: The DPM Detector
  • 21. Copyright © TIS Inc. All rights reserved. 21 物体認識の手法: 画像特徴量ベース/DPM (2/4) ◼ DPM(Deformable Part Models) ◼ 基本は、ルートフィルタのスコア+SUM(パートフィルタのスコア) で値を計算する ◼ ただ、パートフィルタの反応が高い位置が、事前の想定通りの位置と は限らない ●: ルートフィルタの反応位置 ■: 想定しているパートフィルタの位置 ■: パートフィルタの反応が高い位置 (手・足) パートフィルタの位置を固定してしまうと、変形により反応位置がずれた場合 にそのスコアを採用できない(上図の場合、実際の手足でなく股下にある海のス コアが使われてしまう)。 image from brookpeterson
  • 22. Copyright © TIS Inc. All rights reserved. 22 物体認識の手法: 画像特徴量ベース/DPM (3/4) ◼ DPM(Deformable Part Models) ◼ こうした物体の変形(Deformation)に対応するため、位置ずれにつ いてペナルティをいれつつスコアを計算する ◼ このペナルティは事前に学習する 想定位置から離れるほど、 ペナルティが高くなる これにより、ある程度のずれは許容しつつ、大きすぎるずれは省けるよう似て いる。
  • 23. Copyright © TIS Inc. All rights reserved. 23 物体認識の手法: 画像特徴量ベース/DPM (4/4) ◼ DPM(Deformable Part Models) ルートフィルタに対する 反応を計算 各パートフィルタに対す る反応を計算 パートフィルタは、解像度を2 倍に上げた空間で適用する (パートが小さいため) 位置ずれに対するペナル ティを考慮 合算 参考: Object Detection with Deformable Part Models (DPM)
  • 24. Copyright © TIS Inc. All rights reserved. 24 物体認識の手法: 画像特徴量ベース/矩形特徴 ◼ 矩形特徴 (Haar-Like特徴) ◼ 矩形内の輝度変化に着目し、エッジや線、四角などを抽出するため のフィルタ 垂直方向のエッジに 反応する 水平方向のエッジに 反応する 境界線(ライン)に反 応する 斜め線に反応する 人の顔についても輝度変化が顕著な個所があるため(目の周りと周辺など)、顔 検出にも用いられる。
  • 25. Copyright © TIS Inc. All rights reserved. 25 物体認識の手法: 画像特徴量ベース/学習機 画像特徴を学習させる学習機としては、以下のようなものがある。 ◼ 線形分類機(LinearSVM) ◼ HOG特徴を入力として判定、など ◼ DPMではスコアの計算にパーツ位置(z)が必要だが、実際には観測 できない(学習データに含まれない)。そのためパーツ位置を潜在変 数とし、重みと交互に学習する(Latent SVM: こちらの資料参考) ◼ AdaBoost ◼ Haar-cascade: 有用な矩形特徴(Harr-feature)を絞り込むために、 AdaBoostを使用。さらに事前に顔/顔以外の判定を行う分類機を連 結(Cascade of Classifiers) ◼ 最近傍法 ◼ 正例との距離によって、物体検出を行う手法 ◼ Exemplar-SVM: 各正例について、正例+負例のペアごとに識別機 (SVM)を用意するという力強い方法
  • 26. Copyright © TIS Inc. All rights reserved. 26 物体認識の手法: 画像特徴量ベース/学習・推論のTrick (1/2) ◼ 学習 ◼ 適切な負例の選別: hard negative mining ◼ 分類困難な負例で学習を行う手法 ◼ 物体認識では、認識したいもの以外はすべて負例にすることができる。 ◼ このままでは識別特徴を明確にすることができないので、分類困難な データを負例として使いたい ◼ 手法として、分類困難なデータをキャッシュに記録し、最終的にはす べての分類困難データを使ったうえで学習するようにする
  • 27. Copyright © TIS Inc. All rights reserved. 27 物体認識の手法: 画像特徴量ベース/学習・推論のTrick (2/2) ◼ 推論 ◼ 判定対象の絞り込み: attentional cascade ◼ 提案領域が無数にある場合、判定対象を絞り込みたい ◼ 動物かどうか>動物なら牛を検出、というように分類機を連結させ判 定対象を絞り込む ◼ 提案領域の絞り込み: non-maximal suppression (NMS) ◼ 同一物体に複数のBounding Boxが出ないよう抑制する ◼ 最もスコアの高い領域をマークし、その領域と重なりが一定以上の場 合非表示としてマークする。マークされていない領域の中で最もスコ アが高いものを・・・という処理を、すべての領域がマークされるま で行う
  • 28. Copyright © TIS Inc. All rights reserved. 28 物体認識の手法: CNNベース (1/5) from グルンヴァルトの戦いの後 CNN 画像特徴量達 分類機達
  • 29. Copyright © TIS Inc. All rights reserved. 29 ◼ R-CNN/Fast R-CNN ◼ 領域提案は選択的検索法で、物体認識はCNN 物体認識の手法: CNNベース (2/5) 領域提案 領域分割 領域選択 物体認識 領域統合 ◼ Faster R-CNN ◼ 領域提案もCNN(Region Proposal Network) 領域提案 物体認識
  • 30. Copyright © TIS Inc. All rights reserved. 30 ◼ YOLO/SSD ◼ 領域提案と物体認識を同時に行い高速化する 物体認識の手法: CNNベース (3/5) 領域提案 物体認識 画像をグリッドで分割し、グリッド内のセルごとにクラス・領域を予測す る。グリッドが𝑆 × 𝑆、クラス数がC、領域をオフセット∆(𝑥, 𝑦, 𝑤, ℎ)で表す 場合、最終的な出力は𝑆 × 𝑆 × (𝐶 + 4)となる。SSDの場合はスケールごと に出力するため、これに出力スケール数が乗じられる。
  • 31. Copyright © TIS Inc. All rights reserved. 31 物体認識の手法: CNNベース (4/5) その後 from hoya012/deep_learning_object_detection
  • 32. Copyright © TIS Inc. All rights reserved. 32 物体認識の手法: CNNベース (5/5) 2019年時点最高精度のM2Detの構成 ◼ 1. Base feature: 低層/高層の特徴マップを使用 ◼ 基礎的な特徴と、高次の特徴両方をとらえるため ◼ 2. TUM: スケールごとに特徴を作成+低スケールの情報を統合 ◼ 低スケール(=解像度が低い)ほどメタな情報が残る。低スケールの 特徴マップからUpsamplingを行うことで、メタな情報を各スケー ルの特徴マップにフィードバックする ◼ 3. TUMを多段にかける ◼ 2+3で、Multi scale/Multi levelの特徴が得られる
  • 33. Copyright © TIS Inc. All rights reserved. 33 おわりに ◼ DNN(CNN)の登場は手法的に大きなパラダイムシフトだったが、扱う 課題時代はそう変わっていない ◼ 領域提案の課題: 必要十分な領域だけ選びたい ◼ 物体認識の課題: 物体の変化に対し頑健な認識を行いたい ◼ 最新のM2Detであっても、古来からの「マルチスケール」「マルチレ ベル(階層)」という文脈から外れていない ◼ ただ、汎用性の高いDNNの登場により、領域提案と物体認識を統合的 に扱えるようになった ◼ 領域提案と物体認識の学習を一本化できる(End-to-End) ◼ 今後革新的な技術が出てくるとすれば、現在の文脈からは外れたとこ ろにあるのかもしれない ◼ 古来からあり、今もある「フィルタ」という概念の外 ◼ スケール・特徴階層に加わる第三の軸 ◼ なお、実社会での応用段階に入ったことによる課題も有り ◼ Adversarial Exampleなど
  • 34. Copyright © TIS Inc. All rights reserved. 34 参考資料 ◼ 領域提案 ◼ Selective Search for Object Recognition ◼ Efficient Graph-Based Image Segmentation ◼ An Efficient Parallel Multi-Scale Segmentation Method for Remote Sensing Imagery ◼ Efficient Subwindow Search: A Branch and Bound Framework for Object Localization ◼ 物体認識 ◼ 局所画像特徴量 - 映像情報メディア学会 ◼ Gradient ベースの特徴抽出 -SIFT と HOG- ◼ The DPM Detector ◼ Object Detection with Deformable Part Models (DPM) ◼ 2011/07/16 名古屋CV・PRML勉強会発表資料 ◼ Haar Cascadesを使った顔検出 ◼ SSD: Single Shot MultiBox Detector (ECCV2016) ◼ Deep Learningによる一般物体検出アルゴリズムの紹介 ◼ 最近のSingle Shot系の物体検出のアーキテクチャまとめ ◼ hoya012/deep_learning_object_detection ◼ M2Det: A Single-Shot Object Detector based on Multi-Level Feature Pyramid Network ◼ 物体認識モデルYOLOv3に完全勝利したM2Detの紹介 ~SSDまでの歴史が概 観できる SSD~の歴史が概観で きる