Learning with a Wasserstein Loss (NIPS2015)

(NIPS2015)
Learning with a Wasserstein Loss
先進理工学研究科電気・情報生命専攻
村田研究室（情報学習システム研究室）
修士1年渡邊隼人
ワッサースタイン
2015/Dec/18
機械学習トップカンファレンス読み会 vol.1

マルチラベル予測
あなたならこの写真にどんなラベル(タグ)をつけますか？
やりたいこと 2
Flickrユーザによる
ラベル(タグ)
l  water
l  boat
l  reﬂection

マルチラベル予測
あなたならこの写真にどんなラベル(タグ)をつけますか？
やりたいこと 3
Flickrユーザによる
ラベル(タグ)
l  water
l  boat
l  reﬂection
写真から複数のラベルを予測したい

問題設定 4
画像全ラベルのベクトルラベル
water
boat
reﬂection
education
weather
cow
spring
race
training
agriculture
…

問題設定 5
画像全ラベルのベクトル
ラベルを
符号化したもの
…

問題設定 6
画像
ラベルに
属する確率全ラベルのベクトル
…
…

問題設定 7
画像
…
ラベルに
属する確率
…

を求めよ
問題設定 8
画像
写像(判別器)
…
ラベルに
属する確率
…

を求めよ
普通のアプローチ 9
画像
多クラス
ロジスティック回帰
…
ラベルに
属する確率
…

より良い予測とは？ 10
画像
判別器1
ラベルに属する
確率(予測)
判別器2
確率(正解)
KL損失:1.58
KL損失:1.58
l  KL損失としては同じだが，真のラベルに関連するラベルを
予測する判別器1の方が良い予測をしているのでは？
l  "boat"を"lake"と間違えるより，"club"と間違えることの
方がひどい．後者の場合に，より強い罰則を課したい
l  ラベルの類似度を考慮することで，上記の罰則を実現できる

キーワードで検索して，
左の画像を探したい
ラベルの類似度を考慮するメリット 11
真のラベル
l  spring
l  race
l  training
l  良い判別器の予測結果を利用
l  悪い判別器の予測結果を利用
u 真のラベルとは異なっている
かもしれないが，似ている
ラベルは予測できるかも
u 人間のラベル付けより良い
ラベル付けができるかも
(キーワード検索の意味で)
(山道)

を求めよ
問題設定(再掲) 12
画像
写像(判別器)
…
ラベルに
属する確率
…

を求めよ
問題設定(改) 13
画像
写像(判別器)
…
ラベルに
属する確率
…
water boat reﬂection …
water 0 0.5 0.4 …
boat 0.5 0 0.2 …
reﬂection 0.4 0.2 0 …
⋮ ⋮ ⋮ ⋮ …
ラベル間の類似度(距離)もわかっている

を求めよ
問題設定(改) 14
画像
写像(判別器)
…
ラベルに
属する確率
…
water 0 0.5 0.4 …
boat 0.5 0 0.2 …
⋮ ⋮ ⋮ ⋮ …
ラベルの類似度を考慮して
いない
Wasserstein損失

2つとも分布の違いを計る尺度
KL損失とWasserstein損失 15
確率の分布(正解)
確率の分布(予測)
KL
各次元の関係を考慮していない
（次元ごとに割り算，掛け算してその和を取ってるから）
water
boat
reflection
river
lake
club
0.000.20
water
boat
reflection
river
lake
club
0.000.20
water
boat
reflection
river
lake
club
0.000.20

boat
lakewater
reflection
river
club
boat
lakewater
reflection
river
club
Wasserstein
boat
water
reflection
river
lake
club
同じ状態にするのに，
必要な最小コストは？

Wasserstein
boat
water
reﬂection
river
lake
club
boat
lakewater
reﬂection
river
club
最小

Wasserstein
boat
water
reflection
river
lake
club
boat
lakewater
reflection
river
club
輸送距離
water boat
reflec
tion
river lake club
water 0 0.4 0.5 0.2 0.3 0.4
boat 0.4 0 0.4 0.3 0.1 0.8
reflec
tion
0.5 0.4 0 0.3 0.3 0.6
river 0.2 0.3 0.3 0 0.1 0.5
lake 0.3 0.1 0.3 0.1 0 0.6
club 0.4 0.8 0.4 0.5 0.6 0

Wasserstein
boat
water
reflection
river
lake
club
boat
lakewater
reflection
river
club
輸送量
water boat
reflec
tion
river lake club
water 6 0 0 0 0 0
boat 0 1 0 4 1 0
reflec
tion
0 0 1 1 0 4
river 0 0 0 0 0 0
lake 0 0 0 0 0 0
club 0 0 0 0 0 0

Wasserstein
boat
water
reflection
river
lake
club
boat
lakewater
reflection
river
club
water boat
reflec
tion
river lake club
water 6 0 0 0 0 0
boat 0 1 0 4 1 0
reflec
tion
0 0 1 1 0 4
river 0 0 0 0 0 0
lake 0 0 0 0 0 0
club 0 0 0 0 0 0

Wasserstein
boat
water
reflection
river
lake
club
boat
lakewater
reflection
river
club
water boat
reflec
tion
river lake club
water 6 0 0 0 0 0
boat 0 1 0 4 1 0
reflec
tion
0 0 1 1 0 4
river 0 0 0 0 0 0
lake 0 0 0 0 0 0
club 0 0 0 0 0 0
輸送量と輸送距離の
要素ごとの積の和
water boat
reflec
tion
river lake club
water 0 0.4 0.5 0.2 0.3 0.4
boat 0.4 0 0.4 0.3 0.1 0.8
reflec
tion
0.5 0.4 0 0.3 0.3 0.6
river 0.2 0.3 0.3 0 0.1 0.5
lake 0.3 0.1 0.3 0.1 0 0.6
club 0.4 0.8 0.4 0.5 0.6 0

Wasserstein
boat
water
reﬂection
river
lake
club
boat
lakewater
reﬂection
river
club
何でこんな損失考えてたんだっけ？

KLの場合
パラメータで偏微分して勾配求める→勾配法
最適化 26
Wassersteinの場合
(劣)勾配求めるのに計算時間がかかりすぎる…
凸問題にした．ラベル数の影響がほぼなくなる

Flickrのタグ付き画像データ
l  訓練, 確認, テスト各1万画像，1千タグ
特徴抽出
l  Convolutional Neural Networks (CNNs)
ラベル(タグ)間の距離
l  word2vecで単位ベクトルに変換して，ユークリッド距離
実験設定 28

を求めよ
問題設定(改)(再掲) 29
画像
写像(判別器)
…
ラベルに
属する確率
…
water 0 0.5 0.4 …
boat 0.5 0 0.2 …
⋮ ⋮ ⋮ ⋮ …

特徴抽出
評価指標
l  top-K cost
実験設定 30
water boat
reﬂec
tion
river lake club
water 0 0.4 0.5 0.2 0.3 0.4
boat 0.4 0 0.4 0.3 0.1 0.8
reﬂec
tion
0.5 0.4 0 0.3 0.3 0.6
river 0.2 0.3 0.3 0 0.1 0.5
lake 0.3 0.1 0.3 0.1 0 0.6
club 0.4 0.8 0.4 0.5 0.6 0
正解
予測
1 2

特徴抽出
評価指標
l  top-K cost (ラベルの意味が近いものが予測できてれば◎)
l  AUC (正解ラベルがなるべく上位に予測できてれば◎)
実験設定 31

実験結果｜top-K cost 32
5 10 15 20
K (# of proposed tags)
0.70
0.75
0.80
0.85
0.90
0.95
1.00
top-KCost
Loss Function
Divergence
Wasserstein (↵=0.5)
(a) Original Flickr tags dataset.
0.70
0.75
0.80
0.85
0.90
0.95
1.00
top-KCost
(b) R
Figure 5: Top-K cost comparison of the proposed loss (Was
悪
良
損失関数にKL使った普通のロジスティックより良い

実験結果｜top-K cost & AUC 33
悪
良
Wasserstein + αKL として，αを動かしてみる
0.0 0.5 1.0 1.5 2.0
0.65
0.70
0.75
0.80
0.85
0.90
0.95
Top-Kcost
K = 1 K = 2 K = 3 K = 4
0.0 0.5 1.0 1.5 2.0
↵
0.54
0.56
0.58
0.60
0.62
0.64
AUC
Wasserstein AUC
Divergence AUC
(a) Original Flickr tags dataset.
0.0
0.65
0.70
0.75
0.80
0.85
0.90
0.95
Top-Kcost
K =
0.0
0.54
0.56
0.58
0.60
0.62
0.64
AUC
(b) Reduced-r
Figure 6: Trade-off between semantic smoothness and m
悪
良
意味的に近いラベルを予測したいなら，
Wassersteinの重みを強く

実験結果｜実際のラベル(タグ)予測の結果 34
正解: zoo, run, mark
提案: running, summer, fun
ベース: running, country, lake
正解: travel, architecture, tourism
提案: sky, roof, building
ベース: art, sky, beach

l  教師あり学習に初めてWasserstein損失を用いた
l  マルチラベル予測問題に適用し，正解ラベルとは一致しない
かもしれないが，意味的に近いものが予測できた
l  そのままでは時間のかかるWassersteinの計算を高速な手法
を使ってうまく計算した(手法自体は既存のもの)
まとめ (contributions) 35

Learning with a Wasserstein Loss (NIPS2015)

Recomendados

Recomendados

Mais conteúdo relacionado

Mais procurados

Mais procurados (20)

Destaque

Destaque (20)

Learning with a Wasserstein Loss (NIPS2015)