Prml07

PRML 第7章
疎な解を持つカーネルマシン

東京大学大学院情報生命科学専攻
修士二年福永津嵩

カーネル法のおさらい
•  有効なカーネル関数を設計することで、特
徴空間への写像を明示的に構成する必要
がなくなる。(カーネルトリック)

•  ナイーブな適用では、訓練データの全てを
保持する必要があるため、メモリ量を多
く必要とする。また、学習には時間がか
からないが予測に時間がかかる。

本セクションの目標

カーネル法を利用しながら、訓練データの
一部だけ(疎)を用いて良い予測をする手法に
ついてSVMとRVMの2つを身につける

7.1 最大マージン分類器
(SVM)

パーセプトロンの復習(4.1.7)
識別関数の１つ
y(x) = f (wT φ(x))

f(x)はステップ関数

以下のパーセプトロン基準を最急降下アル
ゴリズムで最小化する。(Mは誤分類された
パターンの集合)
Ep (w) = − w T φ n tn
n∈M

パーセプトロンの問題点と
マックスマージン
全てのパターンを正しく分類している場合、
それらの識別関数の間に優劣はない(3つの
線は全てパーセプトロン基準が0となる)

直感的には
まぁ真ん中が良いよね
(マックスマージン)

サポートベクターマシン
分類境界は、分類境界近くの一部のデータ
点(サポートベクター)によって決まる。

カーネル法の枠組みでは、サポートベク
ターのデータのみ予測に使えば良い

改めて問題を定式化
次の線形モデルで二値分類問題を解く
y(x) = wT φ(x) + b tn ∈ {−1, +1}

訓練データが線形分離可能と(ひとまず)する
よって、分類境界からデータ点までの距離は以下
の通り tn y(xn ) tn (wφ(xn ) + b))
=
||w|| ||w||

解は次の問題を解けば良い

1
argmaxw,b minn [tn (wT φ(x))]
||w||

スケーリングを行う
パラメータを定数倍しても、距離は変化し
ないので、適当なスケーリングにより、境
界に最も近い点について以下の式を成立さ
argmaxw,b
1
1
minn [tn (wT φ(x))]
||w||
minn [tn (wT φ(x))]
せる事が出来る。
argmaxw,b
||w||
tn (wT φ(xn ) + b) = 1
tn (wT φ(xn ) + b) = 1
すなわち、全点において
T
tn (w φ(xn ) + b) ≥ 1
tn (wT φ(xn ) + b) ≥ 1

すなわち、以下の二次最適化問題
tn (wT φ(xn ) + b) = 1

T を解けば良い
t (w φ(x ) + b) ≥ 1
n n
1
目的関数: minn [tn (wT φ(x))]
argmaxw,b
||w||
1
argminw,b ||w||2
2
T
tn (w φ(xn ) + b) = 1
制約条件:
argminf (x)
tn (wT φ(xn ) + b) ≥ 1
gi (x) > 0

この問題の解は、KKT条件を満たす。
m
f (x) + λi gi (x) = 0
i=1

λi ≤ 0

||w|| (wTn
tn
n
φ(x ) + b) ≥ 1
tn (wT φ(xn ) + b) ≥ n 1 1
argminw,b ||w||
1b) = 1 2
KKT条件とは？
argmin ) + argminw,b 1 ||w||
T
tn (w φ(xnw,b ||w||
1
1 2 w,b ||w||
argmin 2
argminw,b ||w|| argminf (x)2
2
tn (wT φ(xn ) +(x)≥ 1
argminf b) argminf (x)
目的関数argminf (x)
argminf (x)
制約条件1 gi (x) ≤ 0
argminw,b≤ ||w|| gi (x) = 0
gi (x) 0
とし、目的関数及び制約条件が全て凸関数であ
2 g (x) ≤ 0
gi (x) ≤ 0 i
るならば、以下の条件を満たす事が必要充分で
m

m
f (x) + λi gi (x) = 0
ある。 λif (x)(x)i=1 0λ g (x) = 0
argminf (x)
f (x) +
m
gi + = i i
m
m
(1) f λi +i (x) =ii=1≤(x) = 0
f (x) +
(x)
i=1
g
λ gi
0
λi 0
i=1
(2) i=1(x) ≤ 0
gi
λi
≤0
λi ≤ 0
≤
(3) λi ≤ 0 λi λi g0i (x) = 0
m
(4)
f (x) +λi gi (x) =i0 λi gi0 = 0
λi g (x) = (x)
i=1 λ g (x) = 0
λi gi (x) = 0i i
λi ≤ 0

T
n (w φ(xn ) + b) ≥ 1

1
KKT条件についての注意
argminw,b ||w||
2
関数が凸関数でなかったときは、局所的最適解に
おける必要条件だけを満たす
argminf (x)

を満たす制約を無効な制約、満たさない制
gi (x) > 0
約を有効な制約と呼ぶ
m
(x) + λi gi (x) = 0
証明や詳しい解説は『非線形最適化の基礎』(福島
i=1

雅夫 0著)など
λi ≤

λi gi (x) = 0
大学の数学に慣れてない人は少し大変かも。。

i=1
λiλi (x) = = 0
g i gi (x) 0
m
λi ≤ 0
f (x) ≤ 0
λi + λi gi (x) = 0
SVMにおけるKKT条件
i=1 N

w=
N
a t φ(x )
w= n n tn φ(xn ) i gi (x) = 0
an n λ
λi gi (x) = i0≤ 0
λ n=1n=1

SVMの目的関数及び制約条件は凸性を満た
NN N
すので、目的解はKKT条件を満たす
N
λi gi (x) nan0 = = w =
a = ntn 0 0
t an tn φ(xn )
w= an tn φ(xn )
n=1 n=1 n=1
SVMのKKT条件は以下の通り
n=1
N an ≥ 0 N
an ≥ 0
(1)N w = = 0 n tn φ(xn )
an tn
a an tn = 0
n=1 n=1
(2) tnt(wT φ(xn )n+ + b) − ≥ ≥ 0
n=1
T
n (w φ(x )
b) − 1 1 0
N
an ≥ 0
(3) an ≥ 0 an tn = 0
n=1
anann (wT φ(xn )n+ + b) − 1) = 0
(4) (t (tn (wT φ(x ) b) − 1) = 0
tn (wT φ(xn ) + b) − 1 ≥ 0
tn (wT φ(xn ) + b)n− 10≥ 0
a ≥

an (tn (wT φ(xn ) + b) − 1) = 0
T (wT
an (tn (wtnφ(xn φ(xn ) − 1) − 1 ≥ 0
) + b) + b) = 0

an ≥ 0

SVMの双対表現とKKT条件の解釈
T
tn (wT φ(xn ) + b) tn (w 0 n ) + b) − 1 ≥ 0
− 1 ≥ φ(x

an (tn (wT φ(xn ) + n (tn (wT φ(xn ) + b) − 1) = 0
a b) − 1) = 0
KKT条件(1)を線形モデルに代入すると、以
下の式が得られるN N
y(x) = an tn k(x, xn ) + b
n=1
y(x) = an tn k(x, xn ) + b
n=1

この時、となるデータベクトルのみ保
a =0 n
an = 0
持しておけば良いことがわかる。これをサ
ポートベクトルと呼ぶ。
1
1

bはKKT条件(2)から求める

7.1.1 重なりのあるクラス分
布

an ≥ 0

完全に分離する識別器の汎化性能
T
n
T
t (w φ(x ) + b) − 1 ≥ 0 n
t (w φ(x ) + b) − 1 ≥ 0
が高いとは限らない
n n

an (tn (wT φ(xn ) + b) − 1) = 0
an (tn (wT φ(xn ) + b) − 1) = 0
汎化性能を高めるために、訓練データの誤
分類を認める→スラック変数の導入
N y(x) =
N
an tn k(x, xn ) + b
y(x) = an tn k(x, xnn=1 b
)+
n=1
an = 0
スラック変数n = 0
a
1.データが正しく分類され、マージン境界ξn = 0
外に存在→ ξn = 0
2.そうではない→ ξ)| = |tn − y(xn )|
ξ = |t − y(x
n
n n n

1
1

ξn = 0

制約条件の緩和
ξn = |tn − y(xn )|
ξn = 0

スラック変数を用いて制約条件をソフト
0 ≤ an ≤ C

マージンに緩和する
ξn = |tn − y(xn )|

tn y(xn ) ≥ 1 − ξn
0 ≤ an ≤ C
また、目的関数を以下のように定義する
N
1
C ξn + ||w||2
(Cは正則化パラメーターでありCVで決定す
tn y(xn ) ≥ 12− ξn
n=1

る)
N
1
C ξn + ||w||2
n=1
2

二次凸計画問題になっているの
で・・
ハードマージンSVMと同様、
1.KKT条件を考察
2.線形モデルを双対化
3.bを求める ξ =0 n

違い ξn = |tn − y(xn )|
1.制約条件が複数存在する
2.矩形制約が現れる( 0 ≤ an ≤ C )

n n n
0 ≤ an ≤ C

ν-SVMは伊達じゃない！
N
1 2
ξ + ||w||
tn y(xn ) ≥ 1 − ξn C n
2 n=1

制約条件C(C-SVM)の代わりに以下のように
C
N
1
ξn + ||w||2
0 ≤ an ≤
1
N
νを用いる
n=1
2
N
1
0 ≤ an ≤ an ≥ ν
N n=1

νはサポートベクトルの割合の下限と解釈
N
an ≥ ν
する事が出来る(数式的には、C-SVMと等
n=1

価)

実装上の注意
チャンキング
保護共役勾配法
分解法
逐次最小問題最適化法

説明する気がないだろ。。
詳しく知りたい方は『サポートベクターマ
シン入門』(大北剛訳)など

ところで実装しなくても

お気軽ツールが既に存在するのでこれを使えば良い
(ただし、CVはきちんとしなければいけない)

7.1.2 ロジスティック回帰との関
係
SVMの誤差関数(青)は、ロジスティック回帰(赤)と
似た形状。ただし、平坦な部分があるため疎性が
存在する。

真の誤差関数(黒)の連続関数による近似。この図か
らわかる通り、SVMは外れ値に弱い。

二乗和誤差(緑)は正しい分類にも
ペナルティを課す

7.1.3 多クラスSVM
1対1方式、1対多方式、DAGSVM、誤り訂
正出力符号を利用した定式化・・・

『多クラス分類問題へのSVMの適用は未解
決の問題である』

単一クラスSVM→教師なし学習問題、外れ
値検出等に利用

C C + 2 ||w|| ||w||2
ξn ξn + N
2 1
n=1 a ≤ 1
n=1
0 ≤ an ≤
誤差関数を以下のように書き換え
0≤ n
1
N N
N
0 ≤ an ≤ a ≤ 1
a ≥ν
る 0≤N
N
n
N N
n=1
n

an ≥ ν an ≥ ν
二乗和誤差関数の代わりにε許容誤差関数
N
n=1
N
an ≥ ν ≥ ν C
N n=1
1
E (y(xn ) − tn ) + ||w||2
an
を用いる
Nn=1
n=1 1
N
n=1
2
1 2
C 2
E (y(xn ) − tn ) + ||w|| C E (y(xn ) − tn ) + ||w||
N 2 n=1
2
n=1
N 1 1 E (y(x) − t) = 0
C E (y(xn ) − tn ) + t ||w||2 ||w||2
C E (y(xn ) − 2n ) +
n=1
n=1 E (y(x) − t) = 0
2 (y(x) − <
E|y(x) − t|t) = 0

E (y(x) − t) −− t) = 0
E|y(x) = t| <
(y(x) 0 E (y(x)|y(x) = t| < − t| −
− t) − |y(x)

E |y(x) − t| <− |y(x) − t| − E (y(x) − t) = |y(x) − t| −
− t)
(y(x) |y(x)= t| < otherwise

E (y(x) − t) =otherwise −− t| − otherwise
E (y(x) − t) = − t|
|y(x) |y(x)

otherwise
otherwise

n=1
2
N
1
C E (y(xn ) − tn ) + ||w||2
スラック変数の導入
E (y(x) − t) = 0
n=1
2

|y(x) − t| <
E (y(x) − t) = 0
識別問題と同様に、スラック変数を導入し、
E (y(x) − t) = |y(x) − t| −
|y(x) − t| <
チューブの外側にデータ点が存在する事を
otherwise
E (y(x) − t) = |y(x) − t| −
許す制約条件とする。
otherwise
tn ≥ y(xn ) + + ξn

tn ≤ y(xn ) − − ξn
tn ≥ y(xn ) + + ξn

この時、誤差関数は下のようになる。
tn ≤ y(xn ) − − ξn
N
C ˆn ) + 1 ||w||2
(ξn + ξ
n=1
2

後はSVMと同様の議論
1.KKT条件を考察

2.線形モデルを双対化(CとεはCVで決める)

3.bを求める

4.ν-SVRの定式化

7.1.5 計算機論的学習理論
PAC学習
VC次元
PAC-ベイズ定理

説明する気が(ry

詳しく知りたい方は『サポートベクターマ
シン入門』(大北剛訳)など

バイオインフォマティクスとSVM
簡単に高い性能を得られるため、ソフトウェア
の一部としても、検証実験としても極めて多く
用いられている

予測性能は高いが、確率を出力しないためなど、
生物学的な解釈に困るケースも多い

個人的な感想としては、主結果としてSVMを用
いる論文は、カーネルを開発した場合を除き、
興味深い論文である事はほぼない

バイオインフォマティクスとSVR
微生物ゲノムを扱う時に使われる事があるら
しい？

非線形性を導入すると線形回帰よりフィットしたとしても、
それに生物学的解釈を与えるのは難しい

7.2 関連ベクトルマシン
(RVM)

SVMとRVMの関係
モデルとしては、解が疎になる事を除き(多
分)関係はない
SVM RVM

事後確率計算出来ない計算出来る

多クラス分類拡張が難しい拡張が簡単

交差検定必要不要(エビデンス近似)

カーネル関数正定値性が必要正定値性は不要

汎化性能及び疎性どちらも高いどちらもSVMより高い

学習速度凸関数のため、高速非凸関数のため、遅い

tn ≥ y(xn ) + + ξn

ベイズ線形回帰の復習
tn ≤ y(xn ) − − ξn
N
ˆ 1
C (ξn + ξn ) + ||w||2
2
•  パラメーターに事前分布を設定する
n=1

p(w|α) = N (w|0, α−1 I)

•  超パラメーターは、エビデンス近似を用い
る事で、モデルエビデンスから自動的に決
定される
•  推定した超パラメーターを用いてパラメー
ターの事後分布や予測分布を評価する
2

tn ≥otherwise + ξn
y(xn ) +

tn
RVM独自の部分
tn ≤ y(xn ) − − ξn
≥ y(x ) + + ξ
n n
N
C ˆn ) + 1 ||w||2
(ξn + ξ
tn ≤ y(xn ) − − ξn
2
•  RVM回帰はベイズ線形回帰とほぼ同じ
n=1
N
C ˆn ) + 1α−1 I)
•  事前分布を重みパラメーターそれぞれに採
p(w|α)n= N (w|0, ||w||
(ξ + ξ 2
2
用する
n=1

p(w|α) = M (w|0, α−1 I)
N −1
p(w|α) = N (wi |0, αi )
i=1
M
−1
p(w|α) = N (wi |0, αi )
•  線形モデルをカーネル化する
i=1

N
y(x) = wn k(x, xn ) + b
n=1 2

関連度自動決定
RVMでは、エビデンスを最大化すると超パラメー
ターが無限大に発散する

→パラメーターの事後分布が零一点となり、モデ
ルから取り除けるため、疎なモデルが得られる(6
章で議論した関連度自動決定)

p(t|α, β) = N (t|0, C)
1 1
C = I + p(t|α, β) = N (t|0, C) N (t|0, C)1
ψψ T p(t|α, β) =
αi
1
β α C = I + ψψ T
p(t|α, β) = N (t|0, C)
1
数理的な解析
C = I + ψψ
β
1 T
α 1 C = 1 I + 1 ψψ T T −1
β α
αi 1
lnN (t|0, C) = −I + 1ln(2π) + ln|C| + t C t}
C = 2 {N ψψ T
1 1 Tβ α β α
αi
p(t|α, β) = N+ ψψ
C = I (t|0, C)
尤度関数をで微分して停留点を求める
1
β α αi
−1 T
C = C T + αiα
|0, C) = − {N ln(2π) + ln|C| +i t−iC−1 t} iψi ψi 1
α
対数尤度関数は lnN (t|0, C) = − 2 {N ln(2π) + ln|C| + tT C−1 t}
2 1
C = I +1
1
αi ψψ T
lnN (t|0, C) β − α ln(2π) + ln|C| + tT C−1 t}
= {N 1
2α−1 ψ 1L(α) = L(α−iln(2π) +Tln|C| + tT C−1 t}
T = − {N ) + λ(α ) −1
C = (t|0, C) =(t|0,{N ln(2π) + ln|C| + t C t}
lnN C−i + i − i ψC)
lnN i
2T −1
i
1 2 −1
C = C−i + αi ψi ψi T
Cからを陽に書き下すと
(t|0, C) = − {N i
2
αln(2π) + ln|C| + t C t}
2
1 )
L(α) = L(α−ii )+ = Ci−i + α ln(αi + si ) + qi
λ(α )C λ(α lnαi −i ψi ψi
= −1 T
1= −1 2 α +s
0, C) = − C {NC−i + αi ln|C|i + tT C−1 t} L(α) =i L(αi−i ) + λ(αi )
ln(2π) + ψi ψ T
よって、対数尤度関数は
1
2
2
qi T −1
αi ) = lnαi − ln(αi + si ) + si = ψi C−i ψ1 i 2
qi
2 L(α) = L(α ) + λ(α αi + λ(α ) = si lnαi − ln(αi + si ) +
−i i) i
2 αi + s i
T −1 T −1
si = ψi C−i ψi qi = ψi C−i t
2
1 qi T −1
si = ψi C−i ψi
(αi ) = lnαi − ln(αi + si ) +
2 αi + s i

lnN (t|0,2 = − {N ln(2π) + ln|C| + t C t}
−1 C)
dλ(α−1 t αi T 2 − (qi − si ) 2
T i)
qi = ψi C−i si = ψ C ψi si −1
= i −i
Tdα−1 q = ψ2(α−1 t si )2
i T i+
si = ψi C−i ψii
1 i C−i

=
α−1 i
(αi ) 2 i s2 − (qi − inf −1
+
微分する
C) = − {N ln(2π) 2 ln|C| + tT C−1C = C−i + αi ψi ψi
si )
T
qi = ψi C−i t
t} −1 T

dλ(αi )
T + )2−1 i
αi q = ψ2(α−1 t si αi s2 − (qi − si )
C−i =
2
i i
dαi −1 T
C = C−i + αi ψi ψi i + si )2 L(α) = L(α−i ) + λ(αi )

dλ(αi ) qαi−1 ss2 − (qi2 − si )
2
2(α
inf = i < ii
(αi )
αi sdαi (qi − si2(αi + si )2
−1 2
i −
2
)
= inf 2
αi L(α) = L(αi + si )λ(αi )
2(α−i ) + 2 1 qi
λ(αi ) = lnαi − ln(αi + si ) +
よって、解は 2
qi < si
2
s2
i 2 αi + s i
q2 − si
i <s
1 inf qi i q2
i T −1
= lnαi −2ln(αi + si ) + si = ψi C−i ψi
2 si α + si
qi > si i
2
2
i −s
q2 < si
qi s2
i
i
T −1 q 2
を疎性パラメータ、を品質パラメータと呼
si = ψi C−i ψii − si T −1
qi = ψi C−i t
2
qi > si
ぶ s2 i 2
T −1 qi > si
q2 − s
qii = ψi C−i t

2
qi > si

疎性を利用した学習の高速化
各基底ベクトルに対し、他の基底ベクトル
を固定した状態(初期状態ではほとんどのα
を無限大に固定)で疎性の判定をし、モデル
に含まれる基底ベクトルを選ぶ

計算に必要なのは関連ベクトルをMとする
と、O(M3)であり、MはNに比べて非常に小
さい

7.2.3 分類問題に対するRVM
４章におけるモデルで、事前分布としてARD事前
分布を用いる。解析的な積分が出来ないのでラプ
ラス近似(登場４回目)

多クラスへの拡張は、シグモイド関数ではなくソ
フトマックス関数を用いる事で、簡単に拡張可能
(４章参照)

3から7章のざっくりまとめ
3・4章:ベイズ線形回帰、ベイズ線形識別
回帰は積分が解析的に解けるが識別は解け
ないため、ラプラス近似を用いる

5∼7章:回帰・識別問題で非線形性を扱う
5章:基底関数そのものを学習させる(ニューラル
ネットワーク)
6・7章:基底関数をデータ点から選択する(カー
ネル法)

Prml07

Recomendados

Recomendados

Mais conteúdo relacionado

Mais procurados

Mais procurados (20)

Semelhante a Prml07

Semelhante a Prml07 (20)

Mais de Tsukasa Fukunaga

Mais de Tsukasa Fukunaga (9)

Prml07