はじめてのパターン認識第8章サポートベクトルマシン

第8章
サポートベクトルマシン（前半）
@「はじめてのパターン認識」読書会
2013/11/19

自己紹介
twitterID：wwacky
もうすぐ引っ越し＆同棲します
 そのせいでテンパっている・・・。もうネタを挟む余裕もない

最近Python熱が再燃したついでに、動作が軽いPython
用のIDE探してます（Eclipse重すぎィ！！！）

おことわり
パワポの数式ツールで行列を太字にす
る方法がわからなかったので、行列だ
けど太字になってない箇所があります。
まあ、ちゃんと本を見てってことで。
図表の引用元
 はじめてのパターン認識

 言語処理のための機械学習入門
 パターン認識と機械学習(上)(下)

あと、間違ってる箇所があるかも
しれないので自己責任でヨロシク

サポートベクトルマシンといえば？
識別の定番
響きがかっこいい
でもよく分からず使ってる人も割りと居たりする
 Cとかγが何ってパターンとか・・・

中の数式・・・？ってよくなる

SVMの特徴
線形識別関数で分離・判別するという意味では一緒
サポートベクトルと呼ばれる一部のデータで識別境界が
決定されるので、疎なデータに強い
カーネルトリックを使って非線形写像を行うと、上手く
分離できることがある

サポートベクトルマシンの識別方法
とりあえず２クラス分類の場
合で

t = +1

t = -1

合で

t = +1

データを上手く分割する識別
境界を引く
t = -1

合で

t = +1

境界を引く
識別境界

データを分離可能な識別境界
はたくさん存在する

t = -1
どれでも識別可！

合で

t = +1

境界を引く

マージン

識別境界

データを分離可能な識別境界
はたくさん存在する
→マージンが最大になるように
決める

t = -1
汎化性能が高くなるように

最適識別超平面
まずは超平面で完全に識別できる状況のことを考える

識別境界：ω T x + b = 0
 ω：識別境界の係数ベクトル（学習データから求める）
 x：d次元入力ベクトル
 b：バイアス項（学習データから求める）

ω
t = +1

線形識別関数
ωTx + b = 0
t = -1

ω 0 T x + b 0 が何をしようとしているかというと、ωの1次元
ベクトルに写像してるだけ

ω

ωに写像

ω
t = +1

t=1
線形識別関数
ωTx + b = 0
t = -1

t = -1

マージンをкとすると・・・

ω

-к

ωに写像

ω
t = +1

+к
線形識別関数
ωTx + b = 0
t = -1

マージンをкとすると、全ての学習データx(1,,,N)で以下
が |ω T x i +b| ≧ к が成り立つ
ω

ωに写像

ω
t = +1

ωTx + b ≧к

線形識別関数
ωTx + b = 0

ωTx + b ≦-к

t = -1

分かりやすくするために？кで割って正規化する

|ω T x i +b| ≧ к
↓

кで割って、ωとbを置き直す

|ω T x i +b| ≧ 1
ω

ωに写像

ω
t = +1

ωTx + b ≧1

線形識別関数
ωTx + b = 0

ωTx + b ≦-1

t = -1

さらにクラスを定義するt i ={+1, -1}を用いる

|ω T x i +b| ≧ к
↓

ti={+1, -1}でクラスの定義をする

→

|ω T x i +b| ≧ 1
ω0

t i (ω T x i +b) ≧ 1

ω0に写像

ω
t = +1

1(ωTx + b) ≧1

線形識別関数
ωTx + b = 0

-1(ωTx + b) ≧1

t = -1

最適識別超平面：クラス間マージン
マージンを最大化させる超平面を決定するために、クラ
ス間マージンを定義する
クラス間マージン

T x
T x
  , b   min
 max
xC
 xC

y 1




1 b



y 1



1  b

ω0



tT= +1

min

2

xC y 1



 x


1

マージン 

T x
max = -1
t
xC

y  1

最適識別超平面：学習
クラス間マージンを最大化する超平面をt i (ω 0 T x i +b 0 )≧ 1と
すると
 0 , b0   max   , b 


 max


2



となる
というわけで、最適識別超平面はt i (ω T x i +b) ≧ 1という制
約のもとω 0 =min||ω||を求めればよい
ω 0 が求められれば、b 0 は t i (ω T x i +b)=0から求めれば良い


というわけで、ω 0=min||ω||を求める
t i(ω Tx i+b) ≧ 1の制約付きで。

制約条件付きの凸計画問題を解く場合、ラグランジュの
未定乗数法を用いる
 SVMの場合は制約条件が不等式となる

主問題
 評価関数(最小化)：L p (ω) = ½･ω T ω

←マージンの最小化

 不等式制約条件：t i (ω T x i +b) ≧ 1

←判別

ラグランジュ関数（これで制約付き凸計画を解く）



 

N
1 T
~
L p  , b,         i ti  T xi  b  1
2
i 1

α i はラグランジュ未定定数
α=(α 1 ,･･･, α N )

制約条件付きの凸計画問題を解く場合、ラグランジュの
未定乗数法を用いる
 ラグランジュ未定定数法で問題設定すると、ωとαは
L p (ω,α 0 )≦ L p (ω 0 ,α 0 ) ≦ L p (ω 0 ,α) になる

 つまり、凸計画問題においては鞍点が最適解を与えることになる
鞍点が最適解となる証明は省略。
知りたい人は「言語処理のための機械学習入門」を
読んで欲しい。

鞍点を求めようとする場合、
xの最大化問題と、
λの最小化問題がイコール

ωをそのまま求めるより、
αを求める方が簡単になるので
問題を置き換える

αから鞍点を探す

ωからじゃなく、

(双対問題を設定する)
はじパタに合わせるとλ→α、x→ω

ラグランジュ未定乗数法で不等式制約の問題を解く場合、
Karush-Kuhn-Tucker条件(KKT条件)を使う
g(x)≧0の制約下でf(x)の最小化を行う時のラグランジュ関
数は以下で設定する
 L(x,λ) ≡ f(x) - λg(x)

λ≧0

この時の鞍点(最適点)を出す条件は以下となる(KKT条件)
 ∇f(x)=0
 ∇ g(x)=0

 g(x)≧0
 λ>0
 λg(x)=0

ちゃんと説明しようとしたが、資料作りが・・・。
気になる人はPRML(上)の付録Eを読んで。

ラグランジュ関数から鞍点を求める
 ラグランジュ関数



 

N
1 T
~
L p  , b,         i ti  T xi  b  1
2
i 1

 KKT条件

~
L p  , b,  
(1) 　　


N

 0    i ti xi  0
 0

i 1

極値の条件

~
L p  , b,   N
(2) 　　
   i ti  0
b
i 1





(3) 　　ti  T xi  b  1  0
(4) 　　 i  0



←不等式制約条件

←ラグランジュ未定定数の条件

 

(5) 　　 i ti  T xi  b  1  0 ←相補性条件

この3つで相補性条件と
呼んでいる場合もあり、
どれが本当かはよく分か
らない・・・

相補性条件（ α i (t i (ω T x i +b)-1)=0 ）ってなんだ？
 不等式制約が等式の時（ t i (ω T x i +b)-1=0：サポートベクトルとな
るデータ）のみ、 α i >0となり制約が有効になる
 まあこの時点でサポートベクトルがどのデータか決まって無い？

t i (ω T x i +b) -1> 0の時
α i =0じゃないと制約を満たせない

ω0

KKT条件の(1)(2)が効かない？

ti(ωTxi+b) -1> 0
→制約が無効

→鞍点導出に影響しない？

ti(ωTxi+b) -1= 0
→制約が有効

t i (ω T x i +b) -1= 0の時
α i >0じゃないと制約を満たせない
KKT条件の(1)(2)が有効？

t = -1

線形識別関数
ω0Tx + b0 = 0

即ちα i >0の時はサポートベクトル

要するにαiがサポートベクトルかどうかを表す条件ってことだと思ってるけど正しい？

話を戻して、最適解を求める
KKT条件(1)(2) を用いて、ラグランジュ関数を変換



 

N
1 T
T
Ld    0 0    i ti 0 xi  b  1
2
i 1

N
N
N
1 T
T
 0 0  0   i ti xi  b  i ti    i
2
i 1
i 1
i 1
N
1 T
T
 0 0  0 0    i
2
i 1
N

1 T
  0 0    i
2
i 1
N
1 N N
    i ti xi j t j x j    i
2 i 1 j 1
i 1

KKT条件の(1)
N

0    i ti xi
i 1

KKT条件の(2)
N

 t
i 1

i i

0

ラグランジュ関数がαの式になる！
後はLd(α)を最大化するαを求めるだけ！

L d (α)を最大化する問題を「双対問題」と呼ぶ
 L p (ω)を最大化するωを求めるほうが主問題
 双対問題で対象とするラグランジュ関数
N
1 N N
評価関数 Ld       i ti xi j t j x j    i
2 i 1 j 1
i 1
(最大化)

1 T
  1   H
2
 Tt  0
T

制約条件

H  ( H ij  ti t j xi x j )
T

t  (t1 , , , t N )T

ωからじゃなく、

αから鞍点を探す

後はαを求めればいいので、αの
最大化問題を解く
 はじパタにはSMO(sequentila
minimal optimization)を使うってし
か書いてないし、とりあえずαが求め
られたってことで。

双対問題からαが求められたら
ω 0 を求めて
b 0 を求めて

N

0    i ti xi
i 1





t s 0 xs  b0  1  0
T

sはサポートベクトルとなるデータのindex

識別関数の完成！

予測する時は(ω T x i +b)-1の正負で識別すればおｋ！

最適な識別関数が求められたら、最大マージンも求めら
れる
KKT条件の(5)



N

~
0T 0    i ti xi T 0



ti 0 xi  b0  1  0　　 i  0の時

i 1

T

N

ti0 xi  1  b0

i 1

KKT条件の(2)

T

~
   i 1  ti b0 
N

N

N

~
~
   i  b0   i ti
i 1

 t

i 1

i 1

i i

0

N

~
 i
i 1

最大マージン Dmax 

1

0



1

0T 0



1
N

~
i

i 1

ソフトマージン識別器
線形分離可能でない場合
（現実はそんなきれいに分離できないってことよ・・・）

完全に線形分離可能でない場合→制約条件をすべて満た
す解は求まらない
ω
0

t = +1

ソフトマージン識別器に拡張
t i (ω T x i +b) ≧ 1 → t i (ω T x i +b) ≧ 1－ξ i
 ξ i はスラック変数と呼ぶ

ξi＞1
0＜ξi≦1

t = -1

 ξ i =0

：マージン内で正しく判別できる場合

 0＜ξ i ≦1

：マージン境界を超えるが正しく識別できる場合

 ξ i ＞1

：識別境界を超えて誤識別される場合

t i (ω T x i +b) ≧ 1－ξ i

⇔ ξ i ≧ 1－t i (ω T x i +b)

損失関数の話だけなので飛ばします。
後の話にあんまり関係しないし。

ξ i ≧0だから（上記の式だと、正しく識別できるデータで
サポートベクトル以外だと負になる）

ξ i =max[0,1- t i (ω T x i +b)]
=f + (1- t i (ω T x i +b))
fを損失関数と呼ぶ

ソフトマージン識別器：学習
N


誤識別数の上限  i 　　i  0
i 1

 誤識別数というより、誤識別の度合いという気がする

主問題（線形分離可能な場合）
 評価関数(最小化)：L p (ω) = ½･ω T ω
 不等式制約条件：t i (ω T x i +b) ≧ 1
誤識別の分をペナルティとする

主問題（線形分離できない場合）
 評価関数(最小化)：L p (ω) = ½･ω T ω+CΣξ i

 不等式制約条件：t i (ω T x i +b) ≧ 1－ξ i

,

ξ i ≧0

 パラメータCを使うのでC-SVMと呼ぶ
 libSVMとかでチューニングしたりするCですよ！！！

C-SVMのラグランジュ関数







N
N
N
1 T
~
T
L p  , b,  ,  ,       C   i    i ti  xi  b  1   i   i i
2
i 1
i 1
i 1

対応するKKT条件
~
L p  , b,  
(1) 　　


N

 0    i ti xi  0

制約が2つなので、ラグランジュ
未定定数を2つ(α, μ)用いる

i 1

 0

~
L p  , b,   N
(2) 　　
   i ti  0
b
i 1
~
L p
(3) 　　  C   i  i  0 　　　i  0なので0   i  C

 i





(4) 　　ti  T xi  b  1   i  0 ←不等式制約条件
(5) 　　 i  0,  i  0, i  0







←ラグランジュ未定定数と、スラック変数の条件

(6) 　　 i ti  T xi  b  1   i  0 ←相補性条件
(7) 　　i i  0 ←相補性条件

条件(6)(7)の相補性条件の確認
α i <Cの時
 KKT条件(3)よりα i <C→⇔C-α i ＞0
 KKT条件(3)よりC-α i - μ i =0 ⇔ μ i =C-α i >0

 KKT条件(7)よりμ i ξ i =0 → (μ i ＞0なので) → ξ i =0
即ちx i がマージン内で正しく識別できる条件
 この時のx i を自由サポートベクトル(free SV)

ξ i ＞0の時
 KKT条件(7)よりμ i ξ i =0 → (ξ i ＞0としたら) → μ i =0
 KKT条件(3)よりC-α i - μ i =0 →（μ i =0なので）→ α i = C

 この時のx i を上限サポートベクトル(bounded SV)
 α i が境界であるCなのでこう呼ぶ

なお、ξ i ＞0なのでマージン境界を超えるx i と、誤識別されるx i を含む

ソフトマージン識別器：学習：双対問題
最適識別超平面と同じ様に、双対問題を求める







N
N
N
1 T
T
Ld    0 0  C   i    i ti 0 xi  b0  1   i   i i
2
i 1
i 1
i 1



 



 



 



 

N
N
N
N
1 T
T
 0 0    i ti 0 xi  b0  1  C   i    i i   i i
2
i 1
i 1
i 1
i 1
N
N
1 T
T
 0 0    i ti 0 xi  b0  1   C   i  i  i
2
i 1
i 1
N
1 T
T
 0 0    i ti 0 xi  b0  1
2
i 1

N
1 T
T
Ld    0 0    i ti 0 xi  b  1
2
i 1
N
1 N N
    i ti xi j t j x j    i
2 i 1 j 1
i 1

KKT条件の(3)
C－αi －μi =0

結局、最適識別超平面の時の
評価関数と一緒になる

最適超平面の双対問題
N
1 N N
2 i 1 j 1
i 1
(最大化)

制約条件

1
  T 1   T H
2
Tt  0
H  ( H ij  ti t j xi x j ), 　t  (t1 , , , t N )T
T

ソフトマージン識別器での双対問題
N
1 N N
2 i 1 j 1
i 1
(最大化)

1 T
  1   H
2
T

制約条件

αTt=0, 0≦αi≦C

実は条件が1つ増えただけ

後はαを求めればいいので、αの
最大化問題を解く
 はじパタにはSMO(sequentila
minimal optimization)を使うってし
か書いてないし、とりあえずαが求め
られたってことで。

略

 後の流れは最適超平面の時と同じ

非線形特徴写像
カーネルトリックってやつですよ
まあ数式見ても騙されてる感じしかしない
このへんから理解が結構怪しい
そして資料作るのがだるくなってきた

非線形写像
線形分離が上手くできない場合でも、非線形変換で高次
元空間に写像すれば上手く分離できる場合がある
非線形写像
 d次元の学習データx∈R d
非線形変換φでM次元空間に写像

 φ(x)=(φ 0 (x)=1, φ 1 (x),…,φ M (x)) T
バイアス項

識別境界
非線形変換φ

写像結果

イメージ的にはこれがわかりやすかった
http://www.youtube.com/watch?v=3liCbRZPrZA

ω0

非線形写像
非線形写像ができるようになると・・・
最適識別超平面は
N

0    i ti xi 
i 1

線形識別関数
 ωx→非線形写像！→ h x   0T  x 
N

   i ti T xi  x 
i 1
N

   i ti K xi , x 
i 1

核関数(もしくはカーネル関数)

→核関数さえ計算できれば、非線形写像後の計算を行わなくてもおｋ
ってところがメリットのようだ
（こいつがカーネルトリック）

非線形写像
一応、双対問題も核関数が解ければいいのか確認する
ソフトマージン識別器の双対問題の評価関数
N
1 N N
写像なし Ld       i ti xi j t j x j    i
2 i 1 j 1
i 1

x   x 

写像後

N
1 N N
Ld       i ti j t j  xi  x j     i
2 i 1 j 1
i 1
N
1 N N
    i ti j t j K xi , x j     i
2 i 1 j 1
i 1

→φ(x)が消えるので、双対問題も核関数が解ければおｋ

非線形写像：多項式カーネル
実際に多項式カーネルを使って写像を考えてみる
p次の多項式カーネル
 K p (u,v) = (α+u T v) p

α ≧ 0（だいたいはα=1で使うらしい）

 SVMで利用する際はuとvにx i を入れるイメージ

多項式カーネルの威力
 例えばu=(u 1 ,u 2 ) T , v=(v 1 ,v 2 ) T ,α=1の2次多項式カーネルの場合
そのまま計算する場合

展開して計算する場合

K2(u,v) = (1+(u1,u2)･(v1,v2)T)2

K2(u,v) = (1 + (u1,u2)･(v1,v2)T )2
＝(1 + u1v1 + u2v2 )2
＝1+ u12v12 + 2u1v1u2v2 + u22v22 + 2u1v1 + 2u2v2
＝(1, u12, √2u1u2, u22, √2u1, √2u2)･(1, v12, √2v1v2, v22, √2v1, √2v2)

2次元ベクトルの内積を
取った後、2乗すれば良い

φ(u)

φ(u)

6次元ベクトル(写像後)の内積

多項式カーネルをそのまま計算することは、2次→6次に写像した結果を計算して
いるのと等しい（計算が楽になってる）。
ついでに、u1v1とかがあるので写像すると交互作用が考慮されるようになる

多項式カーネルを二項定理で展開すると



K p u, v     u v
T



p

 p  p i T i
    u v
 
i 0  i 

 

p

【はじパタの引用】
uとvの次元をdとする。(uTv)も内積カーネルであり、展開す

ると、次数



d
j 1

ij =i(0≦ij≦d)の単項式u1i1u2i2,…,udidを全て含

み、それらが非線形特徴を構成する。
従って、Kp(u,v)の非線形特徴は、次数



d
j 1

ij ≦p (0≦ij≦d)

の単項式全てからなる
何を言っているのかよく分からねえ・・・。
多分、多項式カーネルを使った時のu,vの次元数の上限がΣで求められるって
言ってる。

気を取り直して先を読む・・・
d次元のxを多項式カーネルK p (x,x)に突っ込むと
d  p
Dd , p   
 p  d  p C p




次元になる

43
さっきのd=2、p=2の例だと 2 2 C2  2  6 次元なのでそ

の通りっぽい

正直全くわからなかったので、ちょっと考えてみる
2次元で2次の多項式カーネルの場合
K2(u,v) = (1 + (u1,u2)･(v1,v2)T )2
＝1+ u12v12 + 2u1v1u2v2 + u22v22 + 2u1v1 + 2u2v2
uの次元数で考えると1, u1, u2, u1u2, u12, u22の6次元

3次元で2次の多項式カーネルの場合
K2(u,v) = (1 + (u1,u2,u3)･(v1,v2,v3)T )2
＝1+2u1v1+2u2v2+2u3v3+2u1v1u2v2+2u1v1u3v3+2u2v2u3v3+u12v12+u22v22+u32v32
uの次元数で考えると1, u1, u2, u3, u1u2, u1u3, u2u3, u12, u22 , u32の10次元？
要は (1+ u1+,…,+ ud )pの項の数が次元数ってことでおｋ？
d+1個

Wikipediaでこういうのがあった
重複組合せ
(http://ja.wikipedia.org/wiki/%E7%B5%84%E5%90%88%E3%81%9B_(%E6%95%B0%E5%AD%A6))

(x 1 +x 2 +･･･+x n ) r の係数を無視した項は重複組み合わせで
取り出せる
 n  r  1
n H r  n  r 1 Cr  
 r 



今回だとn=d+1、r=pということになるから

d  p
d 1 H p  d 1 p 1 C p  d  p C p  
 p 



で多項式カーネルを使った時の非線形空間の次元が求めら
れるってことか？

このへんで力尽きた。すみません。

と言っても、後はRBFカーネル(動径基底関数カーネル)は無限次元に
写像してるから多項式カーネルより凄いって話だけですが。
次回の講演者がやってくれるって！ありがと！

はじめてのパターン認識第8章サポートベクトルマシン

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to はじめてのパターン認識第8章サポートベクトルマシン

Similar to はじめてのパターン認識第8章サポートベクトルマシン (20)

More from Motoya Wakiyama

More from Motoya Wakiyama (7)