SlideShare uma empresa Scribd logo
1 de 20
Baixar para ler offline
MOTS: Multi-Object Tracking and
Segmentation
Paul Voigtlaender1 Michael Krause1 Aljos ̆a Os ̆ep1 Jonathon Luiten1
Berin Balachandar Gnana Sekar1 Andreas Geiger2 Bastian Leibe1
1RWTH Aachen University 2MPI for Intelligent Systems and University of Tu ̈bingen
資料作成者: 尾崎安範
尾崎安範 (@alfredplpl)
• 例によって⾃⼰紹介
サイバーエージェント 研究員 兼
⼤阪⼤学 招聘研究員 兼
⼤阪⼤学 ⽯⿊研究室 社会⼈博⼠1年⽣
← NTT研(開発寄り) 研究員
← 東⼤ 情報理⼯ 佐藤洋⼀研究室
最近やっていること
ロボット接客における通⾏⼈認識の研究開発
通⾏⼈追跡したい
TL; DR
• これまでは⼈物を含む物体追跡タスクとして、バウンディン
グボックス単位の Multi-Object Tracking (MOT) というタスクが
あったが、ピクセル単位で追跡したほうが⾃然
• そこで Multi-Object Tracking and Segmentation (MOTS) という
タスクを提案し、そのタスク⽤にデータセットを構築
• そのタスクを解くベースライン⼿法TrackR-CNNを提案し、従
来⼿法の組み合わせより、提案した評価指標において向上し
たことを提⽰
←なにこれ意味深だね︕︖
背景
• コンピュータビジョンのタスクは年々難しくなっていってい
るし、それでもどんどん解決できている
• 物体追跡のタスクもバウンディングボックス単位だと飽和し
ているし、ピクセル単位で追跡するような難しいタスクに挑
戦したほうが良い
• そういうわけで、ピクセル単位で物体追跡をするタスク
「Mul<-Object Tracking and Segmenta<on (MOTS) 」について
考えてみることにした
学術的貢献
• MOTSタスクに関する新しい2つのデータセットを作成した
1つはKITTIデータセットに、もう1つはMOTデータセットにアノテー
ションを追加した
• MOTSタスク⽤の評価指標 soft Multi-Object Tracking and
Segmentation Accuracy (sMOTSA) を提案した
• MOTSタスクを解く⼿法 Track R-CNN を提案した
関連研究
• Multi-Object Tracking のデータセット
⾃動⾞から⾒える景⾊に映っている物体を追跡する KITTI tracking dataset
いろんな⾓度から映っている歩⾏者を追跡する MOTChallenge datasets
→そのままではピクセル単位の追跡というMOTSの要件を満たさない
• MOTSタスクに関する⼿法
CAMOT: KITTI datasetをステレオ情報を使って追跡する⼿法
→今回は基本的に単眼カメラ映像を想定しているため、
そのままでは使えない
←スマホでも読み込めるよ︕
データセット
• MOTSタスクを解くために半⾃動アノテーションを使って
既存のデータセットを拡張した
半⾃動アノテーションの⼿順
すでにあるバウンディングボックスをもとに
セグメンテーションを⾏う
半⾃動アノテーションの結果
KITTI tracking dataset → KITTI MOTS
MOTChallenge datasets → MOTSChallenge
データセットの映像例
• YouTubeより引⽤: https://youtu.be/K38_pZw_P9s
評価指標
• MOTSタスクが解けているか判定するため、
sMOTSAという評価指標を定義した
マスクにふわっと⼊っている
ピクセルの数
( 弱いTrue Positiveっぽい)
マスクに⼊っていない
ピクセルの数
(False Positiveっぽい)
物体のidを付与した
ときに間違えた
ピクセルの数
マスクを表すピクセルの総数
提案⼿法の概要
• バウンディングボックス予測とクラス分類、マスク⽣成、
Association Embeddingをマルチタスクする時空間CNN、 Track
R-CNNを提案した
基本的にはMask R-CNN[1]というセグメンテーション⼿法がベース
[1] K. He, G. Gkioxari, P. Dollar, and R. Girshick. “Mask RCNN.”, In ICCV, 2017
提案⼿法の詳細(1/3)
• 時空間統合部分
ResNet-101により各フレームから特徴抽出を⾏う
抽出された特徴量を時間⽅向に結合する
縦×横×時間の三次元の畳込みを⾏い、時空間特徴量を抽出する
提案⼿法の詳細(2/3)
• Region Proposal Network
物体があるっぽいところを提案してくれるネットワーク
Mask R-CNNを具体的には参照してください
• Associa<on Embedding
Person Re-idenBficaBonでよく使われるTriplet lossを使って、それぞれの領
域 (Region) を低次元に埋め込み、 AssociaBonベクトルを取得する
提案⼿法の詳細(3/3)
• トラッキング
AssociaBonベクトルに基づいて、前フレームの検出結果と今回の検出結
果とのマッチングをHungarian algorithm[2]で⾏う
Hungarian algorithmはマッチングの組み合わせ最適を⾏うアルゴリズム
[2] https://en.wikipedia.org/wiki/Hungarian_algorithm
評価実験
• 実験条件
特徴抽出のバックボーン︓ ResNet-101
バックボーンの事前学習のデータセット︓ COCO, Mapillary
ハイパーパラメータチューニングの⽅法︓ ランダム
評価に使うデータセット︓ KITTI MOTS, MOTSChallenge
実験結果: 定量評価
• 歩⾏者のMOTSにおいて既存⼿法よりもsMOTSAが⾼かった。
KITTI MOTSでもMOTSChallengeでも。
KITTI MOTSでの結果 MOTSChallengeでの結果
実験結果: 定性評価
• オクルージョンをきっかけにうまくいかなくなるらしい
うまくいった例
うまくいかない例
まとめ
• これまでは⼈物を含む物体追跡タスクとして、バウンディン
グボックス単位の Multi-Object Tracking (MOT) というタスクが
あったが、ピクセル単位で追跡したほうが⾃然
• そこで Multi-Object Tracking and Segmentation (MOTS) という
タスクを提案し、そのタスク⽤にデータセットを構築
• そのタスクを解くベースライン⼿法TrackR-CNNを提案し、従
来⼿法の組み合わせより、提案した評価指標において向上し
たことを提⽰
発表者による感想
• インスタンスが分裂する細胞トラッキングは
どうなるんだろうか
どこからどこまでがインスタンスと⾔えるのか
• 提案⼿法がわかりづらい
細々とした説明の分岐(maskpropなど)が多く、わかりづらい
Mask R-CNNとの差分しか基本的に述べられていないため、全体の流れが
よくわかりづらい
おまけ
• 実はCVPR2020でMOTSのコンペが開かれていた[3]
今回の提案⼿法より⼤幅に改善されたようである
1位のsMOTSAは提案⼿法の40.6よりも⾼い69.9らしい[4]
[3] h&ps://motchallenge.net/results/CVPR_2020_MOTS_Challenge/
[4] Fan Yang and Xin Chang and Chenyu Dang and Ziqiang Zheng and Sakriani SakM and Satoshi
Nakamura and Yang Wu, “ReMOTS: Self-Supervised Refining MulM-Object Tracking and
SegmentaMon”, 2020
理研とNAISTに所属している⼈が作ったSOTAの⼿法([2]より引⽤)
最後に
• 弊部署AI LabではCVやHCI領域の機械学習エンジニアを
募集しています
本研究のようなことに興味がある⽅はぜひ
• 詳しくはWebで︕
機械学習エンジニア
https://cyberagent.ai/careers/
https://hrmos.co/pages/cyberagent-group/jobs/0000458
←実はカジュアル⾯談へのリンクでした(⼆度⽬)

Mais conteúdo relacionado

Mais procurados

画像認識の初歩、SIFT,SURF特徴量
画像認識の初歩、SIFT,SURF特徴量画像認識の初歩、SIFT,SURF特徴量
画像認識の初歩、SIFT,SURF特徴量
takaya imai
 

Mais procurados (20)

全力解説!Transformer
全力解説!Transformer全力解説!Transformer
全力解説!Transformer
 
[DL輪読会]MetaFormer is Actually What You Need for Vision
[DL輪読会]MetaFormer is Actually What You Need for Vision[DL輪読会]MetaFormer is Actually What You Need for Vision
[DL輪読会]MetaFormer is Actually What You Need for Vision
 
ドメイン適応の原理と応用
ドメイン適応の原理と応用ドメイン適応の原理と応用
ドメイン適応の原理と応用
 
SSII2020SS: グラフデータでも深層学習 〜 Graph Neural Networks 入門 〜
SSII2020SS: グラフデータでも深層学習 〜 Graph Neural Networks 入門 〜SSII2020SS: グラフデータでも深層学習 〜 Graph Neural Networks 入門 〜
SSII2020SS: グラフデータでも深層学習 〜 Graph Neural Networks 入門 〜
 
画像認識の初歩、SIFT,SURF特徴量
画像認識の初歩、SIFT,SURF特徴量画像認識の初歩、SIFT,SURF特徴量
画像認識の初歩、SIFT,SURF特徴量
 
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
 
Active Learning の基礎と最近の研究
Active Learning の基礎と最近の研究Active Learning の基礎と最近の研究
Active Learning の基礎と最近の研究
 
[DL輪読会]Geometric Unsupervised Domain Adaptation for Semantic Segmentation
[DL輪読会]Geometric Unsupervised Domain Adaptation for Semantic Segmentation[DL輪読会]Geometric Unsupervised Domain Adaptation for Semantic Segmentation
[DL輪読会]Geometric Unsupervised Domain Adaptation for Semantic Segmentation
 
Graph Neural Networks
Graph Neural NetworksGraph Neural Networks
Graph Neural Networks
 
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
 
How Much Position Information Do Convolutional Neural Networks Encode?
How Much Position Information Do Convolutional Neural Networks Encode?How Much Position Information Do Convolutional Neural Networks Encode?
How Much Position Information Do Convolutional Neural Networks Encode?
 
近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer
 
Matrix Factorizationを使った評価予測
Matrix Factorizationを使った評価予測Matrix Factorizationを使った評価予測
Matrix Factorizationを使った評価予測
 
SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習
SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習
SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習
 
【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models
 
機械学習モデルの判断根拠の説明
機械学習モデルの判断根拠の説明機械学習モデルの判断根拠の説明
機械学習モデルの判断根拠の説明
 
【論文紹介】How Powerful are Graph Neural Networks?
【論文紹介】How Powerful are Graph Neural Networks?【論文紹介】How Powerful are Graph Neural Networks?
【論文紹介】How Powerful are Graph Neural Networks?
 
Deep Learningと画像認識   ~歴史・理論・実践~
Deep Learningと画像認識 ~歴史・理論・実践~Deep Learningと画像認識 ~歴史・理論・実践~
Deep Learningと画像認識   ~歴史・理論・実践~
 
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
 
CV分野におけるサーベイ方法
CV分野におけるサーベイ方法CV分野におけるサーベイ方法
CV分野におけるサーベイ方法
 

Semelhante a 第四回 全日本CV勉強会スライド(MOTS: Multi-Object Tracking and Segmentation)

ユニットテストと始める始める安全なPythonライブラリ開発
ユニットテストと始める始める安全なPythonライブラリ開発ユニットテストと始める始める安全なPythonライブラリ開発
ユニットテストと始める始める安全なPythonライブラリ開発
Yuya Oka
 

Semelhante a 第四回 全日本CV勉強会スライド(MOTS: Multi-Object Tracking and Segmentation) (12)

Detecting attended visual targets in video の勉強会用資料
Detecting attended visual targets in video の勉強会用資料Detecting attended visual targets in video の勉強会用資料
Detecting attended visual targets in video の勉強会用資料
 
マイニング探検会#12
マイニング探検会#12マイニング探検会#12
マイニング探検会#12
 
人生の意思決定を支える社会インフラとしての図書館
人生の意思決定を支える社会インフラとしての図書館人生の意思決定を支える社会インフラとしての図書館
人生の意思決定を支える社会インフラとしての図書館
 
第六回全日本コンピュータビジョン勉強会資料 UniT (旧題: Transformer is all you need)
第六回全日本コンピュータビジョン勉強会資料 UniT (旧題: Transformer is all you need)第六回全日本コンピュータビジョン勉強会資料 UniT (旧題: Transformer is all you need)
第六回全日本コンピュータビジョン勉強会資料 UniT (旧題: Transformer is all you need)
 
Jupyterで手順再現!Elasticsearch構築・運用を実行可能ドキュメントで機械化してみた
Jupyterで手順再現!Elasticsearch構築・運用を実行可能ドキュメントで機械化してみたJupyterで手順再現!Elasticsearch構築・運用を実行可能ドキュメントで機械化してみた
Jupyterで手順再現!Elasticsearch構築・運用を実行可能ドキュメントで機械化してみた
 
[DL Hacks] Objects as Points
[DL Hacks] Objects as Points[DL Hacks] Objects as Points
[DL Hacks] Objects as Points
 
2017-09-03 c4ljp-教科書LOD
2017-09-03 c4ljp-教科書LOD2017-09-03 c4ljp-教科書LOD
2017-09-03 c4ljp-教科書LOD
 
誰もが研究する時代の到来 〜これからの未来をつくる「野生の研究者」の生態に迫る〜 #smips湯村
誰もが研究する時代の到来 〜これからの未来をつくる「野生の研究者」の生態に迫る〜 #smips湯村誰もが研究する時代の到来 〜これからの未来をつくる「野生の研究者」の生態に迫る〜 #smips湯村
誰もが研究する時代の到来 〜これからの未来をつくる「野生の研究者」の生態に迫る〜 #smips湯村
 
20161003 takaku lab-intro
20161003 takaku lab-intro20161003 takaku lab-intro
20161003 takaku lab-intro
 
ユニットテストと始める始める安全なPythonライブラリ開発
ユニットテストと始める始める安全なPythonライブラリ開発ユニットテストと始める始める安全なPythonライブラリ開発
ユニットテストと始める始める安全なPythonライブラリ開発
 
運用で泣かないアーキテクチャで動く原稿作成支援システム ~リクルートにおけるDeepLearning活用事例~
運用で泣かないアーキテクチャで動く原稿作成支援システム ~リクルートにおけるDeepLearning活用事例~運用で泣かないアーキテクチャで動く原稿作成支援システム ~リクルートにおけるDeepLearning活用事例~
運用で泣かないアーキテクチャで動く原稿作成支援システム ~リクルートにおけるDeepLearning活用事例~
 
オープンデータとは何か ~その概要と科学との関わり~
オープンデータとは何か ~その概要と科学との関わり~オープンデータとは何か ~その概要と科学との関わり~
オープンデータとは何か ~その概要と科学との関わり~
 

Mais de Yasunori Ozaki

Introduction of my works
Introduction of my worksIntroduction of my works
Introduction of my works
Yasunori Ozaki
 

Mais de Yasunori Ozaki (15)

インタラクションのためのコンピュータビジョンのお仕事
インタラクションのためのコンピュータビジョンのお仕事インタラクションのためのコンピュータビジョンのお仕事
インタラクションのためのコンピュータビジョンのお仕事
 
Decision Transformer: Reinforcement Learning via Sequence Modeling
Decision Transformer: Reinforcement Learning via Sequence ModelingDecision Transformer: Reinforcement Learning via Sequence Modeling
Decision Transformer: Reinforcement Learning via Sequence Modeling
 
CHI 2021 Human, ML & AI のまとめ
CHI 2021 Human, ML & AI のまとめCHI 2021 Human, ML & AI のまとめ
CHI 2021 Human, ML & AI のまとめ
 
POMDP下での強化学習の基礎と応用
POMDP下での強化学習の基礎と応用POMDP下での強化学習の基礎と応用
POMDP下での強化学習の基礎と応用
 
Reinforcement Learning: An Introduction 輪読会第1回資料
Reinforcement Learning: An Introduction 輪読会第1回資料Reinforcement Learning: An Introduction 輪読会第1回資料
Reinforcement Learning: An Introduction 輪読会第1回資料
 
IROS 2019 参加報告詳細版
IROS 2019 参加報告詳細版IROS 2019 参加報告詳細版
IROS 2019 参加報告詳細版
 
Interact with AI (CHI 2019)
Interact with AI (CHI 2019)Interact with AI (CHI 2019)
Interact with AI (CHI 2019)
 
CVPR2019読み会 (Rethinking the Evaluation of Video Summaries)
CVPR2019読み会 (Rethinking the Evaluation of Video Summaries)CVPR2019読み会 (Rethinking the Evaluation of Video Summaries)
CVPR2019読み会 (Rethinking the Evaluation of Video Summaries)
 
ビジョンとロボットの強化学習(更新版) Reinforcement Learning in Computer Vision and Robotics.
ビジョンとロボットの強化学習(更新版) Reinforcement Learning in Computer Vision and Robotics.ビジョンとロボットの強化学習(更新版) Reinforcement Learning in Computer Vision and Robotics.
ビジョンとロボットの強化学習(更新版) Reinforcement Learning in Computer Vision and Robotics.
 
ビジョンとロボットの強化学習
ビジョンとロボットの強化学習ビジョンとロボットの強化学習
ビジョンとロボットの強化学習
 
Kaggleのテクニック
KaggleのテクニックKaggleのテクニック
Kaggleのテクニック
 
10分でわかるRandom forest
10分でわかるRandom forest10分でわかるRandom forest
10分でわかるRandom forest
 
PRMLの線形回帰モデル(線形基底関数モデル)
PRMLの線形回帰モデル(線形基底関数モデル)PRMLの線形回帰モデル(線形基底関数モデル)
PRMLの線形回帰モデル(線形基底関数モデル)
 
Japanese Summary; Domain Adaptation for Object Recognition: An Unsupervised A...
Japanese Summary; Domain Adaptation for Object Recognition: An Unsupervised A...Japanese Summary; Domain Adaptation for Object Recognition: An Unsupervised A...
Japanese Summary; Domain Adaptation for Object Recognition: An Unsupervised A...
 
Introduction of my works
Introduction of my worksIntroduction of my works
Introduction of my works
 

第四回 全日本CV勉強会スライド(MOTS: Multi-Object Tracking and Segmentation)