CVPR2019読み会 (Rethinking the Evaluation of Video Summaries)

Rethinking the Evaluation of Video
Summaries
Mayu Otani1, Yuta Nakashima, Esa Rahtu, Janne Heikkilä
1CyberAgent, Inc. Tampere University University of Oulu
資料作成者: 尾崎安範
株式会社サイバーエージェント AI Lab

TL; DR
1. 世の中には動画要約という研究課題があり、解決
するアプローチに機械学習がよく⽤いられる
2. しかし、映像要約を機械学習を⽤いずにランダム
にやってみたところ、最新の⼿法とあまり差がな
いことが判明した
3. この差が起きない原因は映像区間を選んで映像を
ひっつけて⽣成するところに問題があるためであ
ると筆者は分析した

尾崎安範 (@alfredplpl)
• 例によって⾃⼰紹介
サイバーエージェント
リサーチサイエンティスト兼
⼤阪⼤学⽯⿊研究室
招聘研究員 (いわゆるVisitor)
← NTT研（開発寄り）研究員
← 東京⼤学佐藤洋⼀研究室
← 名古屋⼤学村瀬洋研究室
• 最近やっていること
広告宣伝を⽬的とした
画像認識技術を⽤いた
ロボットインタラクションの強化学習[1]
[1] AI Lab、⼤阪南港の複合商業施設ATCでロ
ボットによる接客・広告の実証実験を実施
https://www.cyberagent.co.jp/news/detail/id=2342
0

なぜ映像要約の話するのか
• その昔、映像推薦システムを作るための映像興味推定システ
ムを佐藤洋⼀研究室時代に開発していた。
• どんなシステムかというと、テレビの前にいる視聴者が映像
を⾒ているときに視聴者が興味があると思われる区間を視聴
者の視線情報と映像の内容から推定するものだった。
• この興味のある区間っていうのが、実は映像要約にも関わっ
てくる要因でもあり、そこの根幹を考え直してみようと⾔う
ことで、とにかく読んでみたのが動機

そもそも映像要約とは
• 映像要約とは映像を編集していい感じに短くするタスク
⼀般的には３つのステップに分かれて⾏われる（右図参照）
重要度予測 (Importance Score Prediction)
映像の区間切り分け (Video Segmentation)
映像の区間選択 (Segment Selection)
何を持って「いい感じ」とするのか︖[1]
ハイライトを含んでいる
要約後の映像が元の映像の特徴を表している
映像が多様である（冗⻑なところがない）
[1] Michael Gygli, “Video Summarization objectives
during training and testing”,
CVPR 2019 Tutorial

そんな映像要約⼿法たち
• 正直たくさんあるが、アプローチを区分するとだいたいこん
な感じ
1. 映像の視覚特徴から重要そうな区間を求める
2. 冗⻑そうな区間を省く
3. ディープ・ニューラル・ネットワーク (DNN) で直接求める
←いちばんナウい
LSTMベースのものが多く、強化学習ベースのものもある。
技術勉強会なので、このあと話題に出てくるDNN
ベースの⼿法であるdppLSTMとDR-DSNについて概要
を説明

既存⼿法dppLSTM[1]の説明
• LSTMを単純に使うだけではなく、 determinantal point
process (DPP) という多様な部分集合を選択するための⼿法を
使って、重要度予測の精度を上げている⼿法
• 今回のフレームワークで処理を分類すると以下の通り。
重要度予測︓ dppLSTM
映像の区間切り分け: (KTS)
映像の区間選択: (動的計画法)
[1] Ke Zhang et al., “Video Summarization with Long Short-term
Memory”

映像区間を区切る⽅法であるKTSって
なんぞい
• KTS [1] (Segment video with Kernel Temporal Segmentation) と
は噛み砕いて書くと、各フレームの画像特徴量を抽出されて
いることが前提として、その画像特徴量で⼤きな変化が出て
たフレームで映像を区切る⼿法である。
[1] D. Potapov, M. Douze, Z. Harchaoui, and C. Schmid.
Category-specific video summarization. In European Conference
on Computer Vision (ECCV), pages 540–555, 2014.

既存⼿法DR-DSNの概要
• 映像要約を強化学習問題として捉え、エージェントの⽅針を
CNNとLSTMで関数近似して、要約に選ぶべきフレームを学習
させ、エージェントに映像要約させる⼿法[1]
重要度予測︓ DR-DSN
映像の区間切り分け: KTS
映像の区間選択: 動的計画法
[1] Kaiyang Zhou, “Deep Reinforcement Learning for Unsupervised Video
Summarization with Diversity-Representativeness Reward”,AAAI 2018

問題の⼿法（ Randomized KTS ）の説明
• ここで映像の中⾝にほぼ関係ないランダムな⼿法
(Randomized KTS) を試しに作ってみる
Randomized KTSとは、KTSで映像区間の切り分けしたあと、その区間の
幅を維持したまま、区間の順番を⼊れ替える。この結果、映像を無視し
た区間の切り分けが⾏われる
重要度予測︓ （ランダム）
映像区間の切り分け: Randomized KTS
映像区間の選択: 動的計画法

映像要約⼿法を評価する指標
• 映像要約は、あるフレームを要約に含めるか含めないかとい
う⼆値分類問題とみなすことができる。
• そのため、⼆値分類問題でよく使われる評価指標F値を⽤い
る。実際多くの研究で⽤いられている。
F値 (F1 score) は再現率 (recall) と適合率 (precision) の調和平均である。

評価するためのデータセット
• 映像要約のデータセットは複数あるが、
メジャーなのはSumMe[1]らしい。
SumMeとは、YouTubeからとってきた25個の個⼈的な映像に、それぞれ
15⼈分以上⼈⼿による映像要約のアノテーションが付けられている。
[1] M. Gygli, H. Grabner, H. Riemenschneider, and L. van Gool.
Creating summaries from user videos. In European Conference
on Computer Vision (ECCV), pages 505–520, 2014.

本題︓各⼿法を評価してみる
• そこで、SumMeを使い、各⼿法をF値で評価したところ、
なぜかランダムが健闘し始める

⼀体何が問題だったのか (1/2)
• 映像区間⽣成に動的計画法を⽤いていることと
映像区間の重要度の計算⽅法に原因
1. 先程の各⼿法を精査すると、共通項として、映像区間⽣成に動的計画
法を⽤いている
2. なぜ動的計画法を⽤いるかというと、重要度を最⼤とするように特定
の⻑さの動画を映像区間をひっつけて⽣成する必要がある、つまり
ナップサック問題を解く必要があるから。
3. ⼀⽅、映像区間の重要度は区間内の重要度を平均した値が使われる。
⻑い映像区間は映像が⻑くても、重要度の最⼤値は短い映像区間と同
じ
4. とすると、重要度が⾼く短い映像区間を選択されやすくなる
5. そもそも短い映像区間を⼈間は映像要約に選びがちである。
6. 結果、重要度にかかわらず、短めな区間を選べば、それなりのF値が出
てしまう。

⼀体何が問題だったのか (2/2)
• F値を評価指標として評価するとわかったこと
現状、映像区間の選択が⼀番⽀配的になってしまう
重要度予測はあまり関係ないっぽい
• 以上より、F値は映像要約の評価指標として不適切ではない
のだろうかという分析結果が得られた

あとは時間の都合で以下の内容を割愛
• 重要度予測の評価検討（第５章）

結論
• 映像要約とは映像を編集していい感じに短くするタスクであ
る。
• 映像要約を達成するアプローチに機械学習がよく⽤いられる
• しかし、映像要約を機械学習を⽤いずにランダムにやってみ
たところ、最新の⼿法とあまり差がないことが判明した
• この差が起きない原因は映像区間を選んで映像をひっつけて
⽣成するところに問題があるためであると筆者は分析した

感想
• 「その研究の⽬的を定量化できる評価指標を使ってますか︖」
と実験計画を⽴てるときによく考えるべきだなと改めて思わされ
た
• ランダムは意外に「強い」
遺伝的アルゴリズムもランダムに⽑が⽣えた⼿法のようなもの
ベースラインにランダムに⽑の⽣えた⼿法も⼊れてみることをおすすめ
• 細かい話だが、本論⽂ではランダムの⼿法と既存⼿法のF値が同等
であることを統計的に⽰していない。もし、統計的に⽰したいの
であれば、同等性の検定、もしくは⾮劣勢の検定を⾏うべきだっ
たかもしれない。
同等性の検定: AとBの効果がある⼀定範囲内で同等であることを⽰す⽅法
⾮劣勢の検定: Aの効果はBの効果に少なくても劣らないことを⽰す⽅法

お詫び
• 実は⼤⾕さん本⼈がMIRUで本内容を招待講演するらしいと
のことを後で聞きました。
（資料作る意味あったのか・・・︖
• 正しいことは招待講演にて理解してもらえると、
僕の論⽂読解能⼒と⽐較できておもしろいかなと思いました。

CVPR2019読み会 (Rethinking the Evaluation of Video Summaries)

Recomendados

Recomendados

Mais conteúdo relacionado

Mais procurados

Mais procurados (20)

Semelhante a CVPR2019読み会 (Rethinking the Evaluation of Video Summaries)

Semelhante a CVPR2019読み会 (Rethinking the Evaluation of Video Summaries) (20)

Mais de Yasunori Ozaki

Mais de Yasunori Ozaki (15)

CVPR2019読み会 (Rethinking the Evaluation of Video Summaries)