第四回　全日本CV勉強会スライド（MOTS: Multi-Object Tracking and Segmentation）

MOTS: Multi-Object Tracking and
Segmentation
Paul Voigtlaender1 Michael Krause1 Aljos ̆a Os ̆ep1 Jonathon Luiten1
Berin Balachandar Gnana Sekar1 Andreas Geiger2 Bastian Leibe1
1RWTH Aachen University 2MPI for Intelligent Systems and University of Tu ̈bingen
資料作成者: 尾崎安範

尾崎安範 (@alfredplpl)
• 例によって⾃⼰紹介
サイバーエージェント研究員兼
⼤阪⼤学招聘研究員兼
⼤阪⼤学⽯⿊研究室社会⼈博⼠１年⽣
← NTT研（開発寄り）研究員
← 東⼤情報理⼯佐藤洋⼀研究室
最近やっていること
ロボット接客における通⾏⼈認識の研究開発
通⾏⼈追跡したい

TL; DR
• これまでは⼈物を含む物体追跡タスクとして、バウンディン
グボックス単位の Multi-Object Tracking (MOT) というタスクが
あったが、ピクセル単位で追跡したほうが⾃然
• そこで Multi-Object Tracking and Segmentation (MOTS) という
タスクを提案し、そのタスク⽤にデータセットを構築
• そのタスクを解くベースライン⼿法TrackR-CNNを提案し、従
来⼿法の組み合わせより、提案した評価指標において向上し
たことを提⽰
←なにこれ意味深だね︕︖

背景
• コンピュータビジョンのタスクは年々難しくなっていってい
るし、それでもどんどん解決できている
• 物体追跡のタスクもバウンディングボックス単位だと飽和し
ているし、ピクセル単位で追跡するような難しいタスクに挑
戦したほうが良い
• そういうわけで、ピクセル単位で物体追跡をするタスク
「Mul<-Object Tracking and Segmenta<on (MOTS) 」について
考えてみることにした

学術的貢献
• MOTSタスクに関する新しい２つのデータセットを作成した
１つはKITTIデータセットに、もう１つはMOTデータセットにアノテー
ションを追加した
• MOTSタスク⽤の評価指標 soft Multi-Object Tracking and
Segmentation Accuracy (sMOTSA) を提案した
• MOTSタスクを解く⼿法 Track R-CNN を提案した

関連研究
• Multi-Object Tracking のデータセット
⾃動⾞から⾒える景⾊に映っている物体を追跡する KITTI tracking dataset
いろんな⾓度から映っている歩⾏者を追跡する MOTChallenge datasets
→そのままではピクセル単位の追跡というMOTSの要件を満たさない
• MOTSタスクに関する⼿法
CAMOT: KITTI datasetをステレオ情報を使って追跡する⼿法
→今回は基本的に単眼カメラ映像を想定しているため、
そのままでは使えない
←スマホでも読み込めるよ︕

データセット
• MOTSタスクを解くために半⾃動アノテーションを使って
既存のデータセットを拡張した
半⾃動アノテーションの⼿順
すでにあるバウンディングボックスをもとに
セグメンテーションを⾏う
半⾃動アノテーションの結果
KITTI tracking dataset → KITTI MOTS
MOTChallenge datasets → MOTSChallenge

データセットの映像例
• YouTubeより引⽤: https://youtu.be/K38_pZw_P9s

評価指標
• MOTSタスクが解けているか判定するため、
sMOTSAという評価指標を定義した
マスクにふわっと⼊っている
ピクセルの数
（弱いTrue Positiveっぽい）
マスクに⼊っていない
ピクセルの数
（False Positiveっぽい）
物体のidを付与した
ときに間違えた
ピクセルの数
マスクを表すピクセルの総数

提案⼿法の概要
• バウンディングボックス予測とクラス分類、マスク⽣成、
Association Embeddingをマルチタスクする時空間CNN、 Track
R-CNNを提案した
基本的にはMask R-CNN[1]というセグメンテーション⼿法がベース
[1] K. He, G. Gkioxari, P. Dollar, and R. Girshick. “Mask RCNN.”, In ICCV, 2017

提案⼿法の詳細(1/3)
• 時空間統合部分
ResNet-101により各フレームから特徴抽出を⾏う
抽出された特徴量を時間⽅向に結合する
縦×横×時間の三次元の畳込みを⾏い、時空間特徴量を抽出する

• Region Proposal Network
物体があるっぽいところを提案してくれるネットワーク
Mask R-CNNを具体的には参照してください
• Associa<on Embedding
Person Re-idenBﬁcaBonでよく使われるTriplet lossを使って、それぞれの領
域 (Region) を低次元に埋め込み、 AssociaBonベクトルを取得する

• トラッキング
AssociaBonベクトルに基づいて、前フレームの検出結果と今回の検出結
果とのマッチングをHungarian algorithm[2]で⾏う
Hungarian algorithmはマッチングの組み合わせ最適を⾏うアルゴリズム
[2] https://en.wikipedia.org/wiki/Hungarian_algorithm

評価実験
• 実験条件
特徴抽出のバックボーン︓ ResNet-101
バックボーンの事前学習のデータセット︓ COCO, Mapillary
ハイパーパラメータチューニングの⽅法︓ ランダム
評価に使うデータセット︓ KITTI MOTS, MOTSChallenge

実験結果: 定量評価
• 歩⾏者のMOTSにおいて既存⼿法よりもsMOTSAが⾼かった。
KITTI MOTSでもMOTSChallengeでも。
KITTI MOTSでの結果 MOTSChallengeでの結果

実験結果: 定性評価
• オクルージョンをきっかけにうまくいかなくなるらしい
うまくいった例
うまくいかない例

まとめ
• これまでは⼈物を含む物体追跡タスクとして、バウンディン
グボックス単位の Multi-Object Tracking (MOT) というタスクが
あったが、ピクセル単位で追跡したほうが⾃然
• そこで Multi-Object Tracking and Segmentation (MOTS) という
タスクを提案し、そのタスク⽤にデータセットを構築
• そのタスクを解くベースライン⼿法TrackR-CNNを提案し、従
来⼿法の組み合わせより、提案した評価指標において向上し
たことを提⽰

発表者による感想
• インスタンスが分裂する細胞トラッキングは
どうなるんだろうか
どこからどこまでがインスタンスと⾔えるのか
• 提案⼿法がわかりづらい
細々とした説明の分岐（maskpropなど）が多く、わかりづらい
Mask R-CNNとの差分しか基本的に述べられていないため、全体の流れが
よくわかりづらい

おまけ
• 実はCVPR2020でMOTSのコンペが開かれていた[3]
今回の提案⼿法より⼤幅に改善されたようである
１位のsMOTSAは提案⼿法の40.6よりも⾼い69.9らしい[4]
[3] h&ps://motchallenge.net/results/CVPR_2020_MOTS_Challenge/
[4] Fan Yang and Xin Chang and Chenyu Dang and Ziqiang Zheng and Sakriani SakM and Satoshi
Nakamura and Yang Wu, “ReMOTS: Self-Supervised Reﬁning MulM-Object Tracking and
SegmentaMon”, 2020
理研とNAISTに所属している⼈が作ったSOTAの⼿法（[2]より引⽤）

最後に
• 弊部署AI LabではCVやHCI領域の機械学習エンジニアを
募集しています
本研究のようなことに興味がある⽅はぜひ
• 詳しくはWebで︕
機械学習エンジニア
https://cyberagent.ai/careers/
https://hrmos.co/pages/cyberagent-group/jobs/0000458
←実はカジュアル⾯談へのリンクでした（⼆度⽬）

第四回　全日本CV勉強会スライド（MOTS: Multi-Object Tracking and Segmentation）

Recomendados

Recomendados

Mais conteúdo relacionado

Mais procurados

Mais procurados (20)

Semelhante a 第四回　全日本CV勉強会スライド（MOTS: Multi-Object Tracking and Segmentation）

Semelhante a 第四回　全日本CV勉強会スライド（MOTS: Multi-Object Tracking and Segmentation） (12)

Mais de Yasunori Ozaki

Mais de Yasunori Ozaki (15)