23. 正則化項の導入
問題の定式化
• 画像 I, スパースな正解ラベル Y , S = fθ(I) がパラメータ θ の色塗り器の出力
min
θ
ℓ (fθ(I), Y ) + λ · R (fθ(I))
の最適化問題。R が正則化項。
Shu Woody Nakamura (Kyoto Univ) 有名論文読み会 August 25, 2019 14 / 42
24. 正則化項の導入
問題の定式化
• 画像 I, スパースな正解ラベル Y , S = fθ(I) がパラメータ θ の色塗り器の出力
min
θ
ℓ (fθ(I), Y ) + λ · R (fθ(I))
の最適化問題。R が正則化項。
• 例えば第 1 項にクロスエントロピーを採用すると
p∈ΩL
H (Yp, Sp) + λ · R(S)
ただし、ΩL ∈ Ω はラベルされたピクセルの集合、H (Yp, Sp) = − k −Y k
p log Sk
p はク
ロスエントロピー
Shu Woody Nakamura (Kyoto Univ) 有名論文読み会 August 25, 2019 14 / 42
25. 正則化項の導入
問題の定式化
• 画像 I, スパースな正解ラベル Y , S = fθ(I) がパラメータ θ の色塗り器の出力
min
θ
ℓ (fθ(I), Y ) + λ · R (fθ(I))
の最適化問題。R が正則化項。
• 例えば第 1 項にクロスエントロピーを採用すると
p∈ΩL
H (Yp, Sp) + λ · R(S)
ただし、ΩL ∈ Ω はラベルされたピクセルの集合、H (Yp, Sp) = − k −Y k
p log Sk
p はク
ロスエントロピー
• では、R として何が良いのか?
Shu Woody Nakamura (Kyoto Univ) 有名論文読み会 August 25, 2019 14 / 42
26. 正則化項の導入
問題の定式化
• 画像 I, スパースな正解ラベル Y , S = fθ(I) がパラメータ θ の色塗り器の出力
min
θ
ℓ (fθ(I), Y ) + λ · R (fθ(I))
の最適化問題。R が正則化項。
• 例えば第 1 項にクロスエントロピーを採用すると
p∈ΩL
H (Yp, Sp) + λ · R(S)
ただし、ΩL ∈ Ω はラベルされたピクセルの集合、H (Yp, Sp) = − k −Y k
p log Sk
p はク
ロスエントロピー
• では、R として何が良いのか?
• そうだ、CRF で使われてたエネルギー関数を使おう
Shu Woody Nakamura (Kyoto Univ) 有名論文読み会 August 25, 2019 14 / 42
32. 正則化項の導入
Potts Model/CRF Loss
• 画像の p ∈ Ω 番目のピクセルに対するセグメンテーションを Sp とする
Potts のモデル:
p,q∈Ω
Wpq [Sp ̸= Sq] where [P] =
1 if P is true
0 if P is false
Shu Woody Nakamura (Kyoto Univ) 有名論文読み会 August 25, 2019 17 / 42
33. 正則化項の導入
Potts Model/CRF Loss
• 画像の p ∈ Ω 番目のピクセルに対するセグメンテーションを Sp とする
Potts のモデル:
p,q∈Ω
Wpq [Sp ̸= Sq] where [P] =
1 if P is true
0 if P is false
• W = [Wpq] はペアが非連続だったときの損失
affinity matrix:(ペアの)類似度行列とも
W の例
セグメンテーションにおいては、ペア間の距離が遠いほど小さいのが自然なので、i 番目の
ピクセルの場所 pi に対して (pp − pq)−2 や exp −
(pp−pq)2
2θ2 などが考えられる
本論文では後者
Shu Woody Nakamura (Kyoto Univ) 有名論文読み会 August 25, 2019 17 / 42
34. 正則化項の導入
Potts Model/CRF Loss
• この Potts のモデルはちょっと激しすぎ
S が実数を取るときには等式はほぼ成立しないので扱いづらい
• これを下から抑える緩和項 (relaxation) が使われる
Shu Woody Nakamura (Kyoto Univ) 有名論文読み会 August 25, 2019 18 / 42
35. 正則化項の導入
Potts Model/CRF Loss
• この Potts のモデルはちょっと激しすぎ
S が実数を取るときには等式はほぼ成立しないので扱いづらい
• これを下から抑える緩和項 (relaxation) が使われる
•
RCRF =
p,q∈Ω
Wpq ∥Sp − Sq∥2
や
RCRF =
k
Sk′
W 1 − Sk
where Sk
= Sk
i
for i∈Ω
が考えられる(1 − Sk はラベル k でないものに対して 1)
論文では後者
Shu Woody Nakamura (Kyoto Univ) 有名論文読み会 August 25, 2019 18 / 42
36. 正則化項の導入
Normalized Cut Loss
•
RNC(S) =
k
Sk′
ˆW 1 − Sk
d′Sk
• もともとはグラフカットの損失関数として使われていた
• ただし、d = ˆW1 はノードの次数と呼ばれる
「ラベル k に含まれるノードの量」で割ることでクラスが偏るのを防いでいる
日本語のスライドとしてこれがわかりやすそう
• 直感的には「よくつながっているノード同士が別のクラスに割り振られていると大きく
なる損失」
Shu Woody Nakamura (Kyoto Univ) 有名論文読み会 August 25, 2019 19 / 42
37. 正則化項の導入
Kernel Cut Loss
これらを単純に線形結合して Kernel Cut Loss を得る
RKC(S) =
k
Sk′
W 1 − Sk
RCRF
+γ
k
Sk′
ˆW 1 − Sk
d′Sk
RNC
これらの損失を両方入れたモデルが一番性能が良くなった
損失全体の再掲:
p∈ΩL
H (Yp, Sp) + λ · R(S)
Shu Woody Nakamura (Kyoto Univ) 有名論文読み会 August 25, 2019 20 / 42
40. 正則化項を用いた訓練
損失全体の議論に戻る:
p∈ΩL
H (Yp, Sp) + λ · R(S)
既存手法では、この損失を使ってネットワークの訓練と正解ラベルの提案の更新を交互に
行っていた
• ネットワークの訓練は
arg min
θ
p∈ΩL
H (Yp, Sp) +
p∈ΩU
H ˜Xp, Sp for S ≡ fθ(I)
• 提案の更新は
min
X∈[0,1]|Ω|×K
p∈ΩU
H Xp, ˜Sp + λR(X)
Shu Woody Nakamura (Kyoto Univ) 有名論文読み会 August 25, 2019 22 / 42
41. 正則化項を用いた訓練
なお、提案の更新
min
X∈[0,1]|Ω|×K
p∈ΩU
H Xp, ˜Sp + λR(X)
は、Appendix A の計算により次の式と同一視できる
min
X∈[0,1]|Ω|×K
p∈ΩU
H Xp, ˜Sp + λR(X) −
p∈ΩU
H (Xp)
Shu Woody Nakamura (Kyoto Univ) 有名論文読み会 August 25, 2019 23 / 42
42. 正則化項を用いた訓練
まとめると、ネットワークの更新、正解ラベルの提案の更新がそれぞれ以下
arg min
θ
p∈ΩL
H (Yp, Sp) +
p∈ΩU
H ˜Xp, Sp
min
X∈[0,1]|Ω|×K
p∈ΩU
H Xp, ˜Sp + λR(X) −
p∈ΩU
H (Xp)
で表される
これは
min
θ,X∈[0,1]|Ω|×K
p∈ΩL
H (Yp, Sp) + λR(X) +
p∈ΩU
KL (Xp|Sp)
を交互に更新しているものと理解できる(KL (Xp|Sp) = H (Xp, Sp) − H (Xp) なので)
Shu Woody Nakamura (Kyoto Univ) 有名論文読み会 August 25, 2019 24 / 42
43. 正則化項を用いた訓練
min
θ,X∈[0,1]|Ω|×K
p∈ΩL
H (Yp, Sp) + λR(X) +
p∈ΩU
KL (Xp|Sp)
を最初の方に出てきた損失関数
p∈ΩL
H (Yp, Sp) + λ · R(S)
と比べてみよう。
Shu Woody Nakamura (Kyoto Univ) 有名論文読み会 August 25, 2019 25 / 42
44. 正則化項を用いた訓練
min
θ,X∈[0,1]|Ω|×K
p∈ΩL
H (Yp, Sp) + λR(X) +
p∈ΩU
KL (Xp|Sp)
を最初の方に出てきた損失関数
p∈ΩL
H (Yp, Sp) + λ · R(S)
と比べてみよう。
• R の引数が S から X になっている
• 代わりに S と X の間の KL ダイバージェンスが加わっており、「S と X を近づけろよ」
という圧力をかけている
(片方を固定した状態での)θ(ひいてはそれによる S)の更新と X の更新というサブタスク
に分けて解いている
Shu Woody Nakamura (Kyoto Univ) 有名論文読み会 August 25, 2019 25 / 42
45. 正則化項を用いた訓練
min
θ,X∈[0,1]|Ω|×K
p∈ΩL
H (Yp, Sp) + λR(X) +
p∈ΩU
KL (Xp|Sp)
を最初の方に出てきた損失関数
p∈ΩL
H (Yp, Sp) + λ · R(S)
と比べてみよう。
• R の引数が S から X になっている
• 代わりに S と X の間の KL ダイバージェンスが加わっており、「S と X を近づけろよ」
という圧力をかけている
(片方を固定した状態での)θ(ひいてはそれによる S)の更新と X の更新というサブタスク
に分けて解いている
• Alternating Direction Method の考え方によく似ている
• SEC[13] は同じような手法を用いているが、X と S の更新が完全には分離されていな
い。これは性能にわずかに悪影響(後述、Fig.3)
これに対し、提案手法では正則化項を損失に組み込んで直接最適化
Shu Woody Nakamura (Kyoto Univ) 有名論文読み会 August 25, 2019 25 / 42
46. 正則化項を用いた訓練
計算時間の問題
単純に R の順伝播・逆伝播を計算すると、ピクセル数 |Ω| に対し O(|Ω|2
) かかってしまいめ
ちゃ遅い可能性がある
例
RCRF の勾配は
∂RCRF (S)
∂Sk = −2WSk になり、これの掛け算の回数は |Ω|2
Shu Woody Nakamura (Kyoto Univ) 有名論文読み会 August 25, 2019 26 / 42
49. 結果
結果
PASCAL VOC2012 の mIOU で SOTA
“Our result with scribbles approaches 97.6% of the quality of that with full supervision, yet
only 3% of all pixels are scribbled.”
Shu Woody Nakamura (Kyoto Univ) 有名論文読み会 August 25, 2019 28 / 42