computer visionen 勉強会

論文発表:On Regularized Losses
for Weakly-supervised CNN Segmentation
第 54 回コンピュータビジョン勉強会＠関東
Shu Woody Nakamura
京都大学２年生
August 25, 2019
Shu Woody Nakamura (Kyoto Univ) 有名論文読み会 August 25, 2019 1 / 42

目次
1 自己紹介
2 イントロダクション
3 既存手法
4 正則化項の導入
5 正則化項を用いた訓練
6 結果
7 まとめ
8 謝辞

自己紹介
自己紹介
1 自己紹介
3 既存手法
6 結果
7 まとめ
8 謝辞

自己紹介
Shu Woody Nakamura (Twitter:@woody egg)
• 京都大学電気電子工学科２年生
• 電気電子せずにプログラミングばっかやってる
• カナダ・ウォータールー大に留学してました。冬は寒かったです
• いまは株式会社 METRICA で開発インターンしてます

自己紹介
この論文にした経緯
• おっ、#kantocv の有名論文読み会がある！行きたい！
• でももう満員だ……
• 発表枠で申し込めば入れるじゃん！

自己紹介
この論文にした経緯
• おっ、#kantocv の有名論文読み会がある！行きたい！
• でももう満員だ……
• 発表枠で申し込めば入れるじゃん！
• 有名な論文を知らない、終了

自己紹介
それじゃあまずいので

自己紹介
• よく読むと別に有名じゃなくてもいいっ
て書いてあった
• 持つべきは友

自己紹介
• よく読むと別に有名じゃなくてもいいっ
て書いてあった
• 持つべきは友
• というわけでこの論文は「とても素晴ら
しいのにイマイチ知られていない」枠
です
• この分野に詳しくない人にもわかっても
らえるように頑張ってスライド作りま
した

イントロダクション
1 自己紹介
3 既存手法
6 結果
7 まとめ
8 謝辞

今回読む論文の概要
• Image segmentation の Weakly-supervised
training の手法を提案
• Deep 以前の weakly-supervised
segmentation で使われていたエネルギー
関数を正則化項として損失に組み込んだ
• 訓練時・推論時ともに計算も高速
• Weakly-supervised segmentation で SOTA
• ECCV 2018 採択
• arxiv link

課題
Weakly-supervised image segmentation
• 基本的には画像の Semantic Segmentation（塗り絵）問題

課題
Weakly-supervised image segmentation
• 基本的には画像の Semantic Segmentation（塗り絵）問題
• しかし、しっかりとした訓練データセットがない
• 具体的には、scribble とよばれる、適当に領域に線を引いたものしか与えられない

既存手法
1 自己紹介
3 既存手法
6 結果
7 まとめ
8 謝辞

既存手法
既存手法
大きく、深層学習以前と以後に分けられる

既存手法
既存手法
深層学習以前 Conditional/Markov random ﬁeld をつかって訓練・推論
（画像は Eﬃcient Inference in Fully Connected CRFs with Gaussian Edge Potentials より）

既存手法
既存手法
セグメンテーションに対してエネルギー関数を定義→最小化
セグメンテーションというより k-means のようなクラスタリングに近いか

既存手法
既存手法
深層学習以後 Scribble を CRF/MRF にいれて手に入れた「ニセモノの」結果に基づいて訓練

既存手法
既存手法
• しかし、結果が間違っていれば当然訓練もうまく行かない
• 交互に訓練すれば精度が上がるものの、誤差は増強していってしまう

既存手法
既存手法
• しかし、結果が間違っていれば当然訓練もうまく行かない
• 交互に訓練すれば精度が上がるものの、誤差は増強していってしまう
CRF を利用して精度をあげようとする試み自体は full supervised なモデルにも見られる
有名どころでは DeepLab(Chen, George, et al., 2016)
• 画素数の低い CNN の出力結果を CRF に突っ込んで reﬁne

正則化項の導入
1 自己紹介
3 既存手法
6 結果
7 まとめ
8 謝辞

問題の定式化
• 画像 I, スパースな正解ラベル Y , S = fθ(I) がパラメータ θ の色塗り器の出力
min
θ
ℓ (fθ(I), Y ) + λ · R (fθ(I))
の最適化問題。R が正則化項。

問題の定式化
min
θ
ℓ (fθ(I), Y ) + λ · R (fθ(I))
• 例えば第 1 項にクロスエントロピーを採用すると
p∈ΩL
H (Yp, Sp) + λ · R(S)
ただし、ΩL ∈ Ω はラベルされたピクセルの集合、H (Yp, Sp) = − k −Y k
p log Sk
p はク
ロスエントロピー

問題の定式化
min
θ
ℓ (fθ(I), Y ) + λ · R (fθ(I))
p∈ΩL
H (Yp, Sp) + λ · R(S)
p log Sk
p はク
• では、R として何が良いのか？

問題の定式化
min
θ
ℓ (fθ(I), Y ) + λ · R (fθ(I))
p∈ΩL
H (Yp, Sp) + λ · R(S)
p log Sk
p はク
• では、R として何が良いのか？
• そうだ、CRF で使われてたエネルギー関数を使おう

閑話
なんでエネルギー関数を正則化項と呼ぶの？

閑話
• 正則化：正解を無理に求めようとさせないこと

閑話
• 本当に嬉しい正解ラベルはキレイに塗られた絵
• しかし今回の正解ラベルはスパース→正解を求めるのは難
• でも出力はいい感じにしたい→正則化項がほしい

閑話
• 本当に嬉しい正解ラベルはキレイに塗られた絵
• しかし今回の正解ラベルはスパース→正解を求めるのは難
• でも出力はいい感じにしたい→正則化項がほしい
• →エネルギー関数＝クラスタリングさせる効果
• エネルギー関数がいい感じにしてくれる＝正則化項

閑話休題
論文で使われたエネルギー関数＝正則化項は以下の３つ
CRF Loss = RCRF
Normalized Cut Loss = RNC
Kernel Cut Loss = RKC

Potts Model/CRF Loss
• 画像の p ∈ Ω 番目のピクセルに対するセグメンテーションを Sp とする
Potts のモデル:
p,q∈Ω
Wpq [Sp ̸= Sq] where [P] =
1 if P is true
0 if P is false

• 画像の p ∈ Ω 番目のピクセルに対するセグメンテーションを Sp とする
Potts のモデル:
p,q∈Ω
Wpq [Sp ̸= Sq] where [P] =
1 if P is true
0 if P is false
• W = [Wpq] はペアが非連続だったときの損失
aﬃnity matrix:（ペアの）類似度行列とも
W の例
セグメンテーションにおいては、ペア間の距離が遠いほど小さいのが自然なので、i 番目の
ピクセルの場所 pi に対して (pp − pq)−2 や exp −
(pp−pq)2
2θ2 などが考えられる
本論文では後者

• この Potts のモデルはちょっと激しすぎ
S が実数を取るときには等式はほぼ成立しないので扱いづらい
• これを下から抑える緩和項 (relaxation) が使われる

• この Potts のモデルはちょっと激しすぎ
S が実数を取るときには等式はほぼ成立しないので扱いづらい
• これを下から抑える緩和項 (relaxation) が使われる
•
RCRF =
p,q∈Ω
Wpq ∥Sp − Sq∥2
や
RCRF =
k
Sk′
W 1 − Sk
where Sk
= Sk
i
for i∈Ω
が考えられる（1 − Sk はラベル k でないものに対して 1）
論文では後者

Normalized Cut Loss
•
RNC(S) =
k
Sk′
ˆW 1 − Sk
d′Sk
• もともとはグラフカットの損失関数として使われていた
• ただし、d = ˆW1 はノードの次数と呼ばれる
「ラベル k に含まれるノードの量」で割ることでクラスが偏るのを防いでいる
日本語のスライドとしてこれがわかりやすそう
• 直感的には「よくつながっているノード同士が別のクラスに割り振られていると大きく
なる損失」

Kernel Cut Loss
これらを単純に線形結合して Kernel Cut Loss を得る
RKC(S) =
k
Sk′
W 1 − Sk
RCRF
+γ
k
Sk′
ˆW 1 − Sk
d′Sk
RNC
これらの損失を両方入れたモデルが一番性能が良くなった
損失全体の再掲：
p∈ΩL
H (Yp, Sp) + λ · R(S)

正則化項を用いた訓練
1 自己紹介
3 既存手法
6 結果
7 まとめ
8 謝辞

損失全体の議論に戻る：
p∈ΩL
H (Yp, Sp) + λ · R(S)

損失全体の議論に戻る：
p∈ΩL
H (Yp, Sp) + λ · R(S)
既存手法では、この損失を使ってネットワークの訓練と正解ラベルの提案の更新を交互に
行っていた
• ネットワークの訓練は
arg min
θ
p∈ΩL
H (Yp, Sp) +
p∈ΩU
H ˜Xp, Sp for S ≡ fθ(I)
• 提案の更新は
min
X∈[0,1]|Ω|×K
p∈ΩU
H Xp, ˜Sp + λR(X)

なお、提案の更新
min
X∈[0,1]|Ω|×K
p∈ΩU
H Xp, ˜Sp + λR(X)
は、Appendix A の計算により次の式と同一視できる
min
X∈[0,1]|Ω|×K
p∈ΩU
H Xp, ˜Sp + λR(X) −
p∈ΩU
H (Xp)

min
θ,X∈[0,1]|Ω|×K
p∈ΩL
p∈ΩU
KL (Xp|Sp)
を最初の方に出てきた損失関数
p∈ΩL
H (Yp, Sp) + λ · R(S)
と比べてみよう。

min
θ,X∈[0,1]|Ω|×K
p∈ΩL
p∈ΩU
KL (Xp|Sp)
p∈ΩL
H (Yp, Sp) + λ · R(S)
• R の引数が S から X になっている
• 代わりに S と X の間の KL ダイバージェンスが加わっており、「S と X を近づけろよ」
という圧力をかけている
（片方を固定した状態での）θ（ひいてはそれによる S）の更新と X の更新というサブタスク
に分けて解いている

min
θ,X∈[0,1]|Ω|×K
p∈ΩL
p∈ΩU
KL (Xp|Sp)
p∈ΩL
H (Yp, Sp) + λ · R(S)
• R の引数が S から X になっている
• 代わりに S と X の間の KL ダイバージェンスが加わっており、「S と X を近づけろよ」
という圧力をかけている
（片方を固定した状態での）θ（ひいてはそれによる S）の更新と X の更新というサブタスク
に分けて解いている
• Alternating Direction Method の考え方によく似ている
• SEC[13] は同じような手法を用いているが、X と S の更新が完全には分離されていな
い。これは性能にわずかに悪影響（後述、Fig.3）
これに対し、提案手法では正則化項を損失に組み込んで直接最適化

計算時間の問題
単純に R の順伝播・逆伝播を計算すると、ピクセル数 |Ω| に対し O(|Ω|2
) かかってしまいめ
ちゃ遅い可能性がある
例
RCRF の勾配は
∂RCRF (S)
∂Sk = −2WSk になり、これの掛け算の回数は |Ω|2

計算時間の問題
単純に R の順伝播・逆伝播を計算すると、ピクセル数 |Ω| に対し O(|Ω|2
) かかってしまいめ
ちゃ遅い可能性がある
例
RCRF の勾配は
∂RCRF (S)
∂Sk = −2WSk になり、これの掛け算の回数は |Ω|2
今回 W はピクセルの座標および色（RGBXY の 5 次元）の Gaussian → Bilateral ﬁltering.
Bilateral Filtering は効率的に計算する方法が見つかっており、線形時間で解ける
Kernel Cut 全体の勾配を書き下すと
∂RKC(S)
∂Sk
= −2WSk
+ γ
Sk′
ˆWSkd
(d′Sk)
2 − γ
2 ˆWSk
d′Sk
これも線形時間で計算可能

結果
1 自己紹介
3 既存手法
6 結果
7 まとめ
8 謝辞

結果
結果
PASCAL VOC2012 の mIOU で SOTA
“Our result with scribbles approaches 97.6% of the quality of that with full supervision, yet
only 3% of all pixels are scribbled.”

結果
正則化項の効果
• 右３つが正則化項の傾き
• 傾きが小さい＝黒い＝「その物体がある」
• とくに物体の端で効果を発揮している

結果
既存手法との比較
Grabcut Deep 以前。グラフカットを用いる
ScribleSup CNN の訓練結果でデータセットを更新＝ oﬄine
SEC online だが損失を直接組み込まず

結果
比較実験
損失を直接組み込む代わりに交互に更新して訓練した場合との比較
同じような訓練の方向性を持つはずだが、性能は下がる

結果
可視化
• 既存手法 SEC と同じような結果
• CRF は正則化に使われているだけで推論
時には不要→早い

結果
SEC との詳細な比較
• Constrain-to-boundary loss と CRF loss は中身が同一
• 逆伝播をやめたほう (*) がむしろ性能が上がった
• 推論時間に大きなアドバンテージ

結果
Shorter scribble

結果
Shorter scribble
性能は下がるが、どれにおいても提案手法が
トップ

結果
Full supervised に使うと……
• RNC を境界の明瞭なデータセットに使った
• 流石に下がる、答えを知っているならそれを使ったほうがいい

結果
Semi supervised に使うと……
• 答えあり・なし画像の数を変えて比較
• 答えありが減るとベースラインモデルは性能低下
• 提案モデルは結構耐えてる
• この結果は preliminary なので過信はダメ

まとめ
1 自己紹介
3 既存手法
6 結果
7 まとめ
8 謝辞

まとめ
まとめ
• エネルギー関数を損失に取り込んで学習時に正則化項として働かせる手法を提案
• Weakly supervised segmentation で SOTA
• これまでの「交互に訓練する」手法は提案手法を ADM したものと解釈することもでき、
同じ最適化問題を解いている
提案手法のほうが原理的・本質的に解いている
• 学習時に explicit に CRF を使わないので速い
（誤差微分だけを計算している、O(Ω)）
• 推論時にも CRF を使わないので速い

謝辞
1 自己紹介
3 既存手法
6 結果
7 まとめ
8 謝辞

謝辞
謝辞
図は
• arxiv の論文 pdf
• 著者による実装レポジトリ
から持ってきました

謝辞
謝辞
図は
• arxiv の論文 pdf
• 著者による実装レポジトリ
から持ってきました
また、この論文を紹介し、発表準備に協力してくれた友人の永遠希くん (@yongyuanxi) に感
謝します

謝辞
ご清聴ありがとうございました
質問があればどうぞ

computer visionen 勉強会

Recomendados

Recomendados

Mais conteúdo relacionado

Semelhante a computer visionen 勉強会

Semelhante a computer visionen 勉強会 (6)

computer visionen 勉強会