SlideShare a Scribd company logo
1 of 40
Download to read offline
異異常検知と変化検知	
  
第8章  ガウス過程回帰による異異常検知
@progranate
本章で扱う異異常検知問題
•  ⼊入⼒力力  x,	
  出⼒力力yの対データDに対する異異常検知	
  
•  D={(x(1), y(1)), …, (x(n), y(n))}
*	
  本章ではxはM次元、yはスカラーとしている	
  
	
  
•  例例)	
  
•  電⼦子部品(ダイオード)の異異常検知	
  
•  ⼊入⼒力力x:	
  ダイオードにかける電圧	
  
•  出⼒力力y:	
  ダイオードに流流れる電流流	
  
2	
  
⼊入出⼒力力がある場合の異異常検知と回帰問題
•  例例)電⼦子部品(ダイオード)の異異常検知	
  
•  ⼊入⼒力力x:	
  ダイオードにかける電圧	
  
•  出⼒力力y:	
  ダイオードに流流れる電流流	
  
電圧  x
電流流  y
0.7	
  v
3	
  
⼊入出⼒力力がある場合の異異常検知と回帰問題
•  例例)電⼦子部品(ダイオード)の異異常検知	
  
•  ⼊入⼒力力x:	
  ダイオードにかける電圧	
  
•  出⼒力力y:	
  ダイオードに流流れる電流流	
  
電圧  x
電流流  y
0.7	
  v
応答曲⾯面  f(x):	
  正常時に期待される出⼒力力	
  
出⼒力力値yの分散
⼊入⼒力力に対する出⼒力力を与える応答曲⾯面f及び、	
  
観測ノイズについての確率率率分布を求めることを回帰問題	
  
4	
  
ガウス過程回帰とは
5	
  
ガウス過程回帰
•  特徴	
  
•  汎⽤用性の⾼高い⾮非線形回帰⼿手法	
  
•  応答曲⾯面f(x)を確率率率モデルp(f(x)|D)の形で構築	
  
•  ガウス過程回帰のモデルが持つ2つの要素	
  
1.  観測時のノイズを表す確率率率モデル  p(y|x,σ2)
2.  応答曲⾯面f(x)の滑滑らかさを表現する事前分布  p(fN)
6	
  
第1要素:	
  
観測時のノイズを表す確率率率モデル  p(y | x,σ2)
•  出⼒力力yのノイズを表すモデル:	
  正規分布	
  
出⼒力力yは応答曲⾯面  f(x) 周りに分散σ2で分布	
  
p(y x,σ 2
) = N y f (x),σ 2
( ) 式(8.1)
7	
  
第2要素:	
  
応答曲⾯面  f(x) の滑滑らかさを表現する事前分布  p(fN)	
  (1/2)
•  ⼊入⼒力力がx, x’の2つの場合	
  
•  任意の⼊入⼒力力x, x’における応答曲⾯面の値をf(x), f(x’)とする時、
f(x)とf(x’)は次のような確率率率分布に従う
p
f (x)
f (x')
!
"
#
#
$
%
&
&
= N 0,
K(x, x) K(x, x')
K(x', x) K(x', x')
'
(
)
)
*
+
,
,
!
"
#
#
$
%
&
&
K(x, x’):	
  カーネル関数	
  
xとx’が近い値のとき⼩小さい値を取る	
  
→⼊入⼒力力値が近いと出⼒力力値も近いよねという制約	
  
式(8.3)
8	
  
第2要素:	
  
応答曲⾯面  f(x) の滑滑らかさを表現する事前分布  p(fN) (2/2)
•  ⼊入⼒力力がx(1), …, x(N)のN個の場合	
  
•  任意の⼊入⼒力力x(1), …, x(N)における応答曲⾯面の値をf(x(1)), …,
f(x(N))とする時、fNは次のような確率率率分布に従う
p( fN ) = N( fN | 0,K) fN = ( f (x(1)
),…, f (x(N )
))T
K:	
  (i, j)成分がK(x(i), x(j))で与えられる⾏行行列列
*	
  無限個の⼊入⼒力力点を考えると無限次元の正規分布となる
式(8.5) 式(8.4)
9	
  
事前分布N(fN | 0,K)から抽出したf(x)の様⼦子
•  図8.2	
  
•  xは⼀一次元、N=50で[-5, 5]の範囲を区分してf(x)を抽出	
  
fNは離離散値であるが、
事前分布により連続の関数値のように⾒見見える
10	
  
ガウス過程の問題設定と式の導出
11	
  
ガウス過程回帰の問題設定と求め⽅方
•  問題設定	
  
•  観測値の分散σ2とデータDが与えられたときに	
  
出⼒力力値の予測分布p(y | x, D, σ2)を求める	
  
•  予測分布  p(y | x, D, σ2)
p(y | x, D,σ 2
) = dfN(y | f (x),σ 2
)
−∞
∞
∫ p( f (x)| D)
応答曲⾯面f(x)周りに	
  
分散σ2で分布
ステップ1:	
  データDを元にfNの分布p(fN | D)を求める	
  
ステップ2:	
  p(fN | D)と応答曲⾯面の滑滑らかさよりp(f(x) | D)を求める
式(8.2)
12	
  
ステップ1:	
  p(fN | D)の計算	
  (1/4)
•  ベイズの定理理を適⽤用	
  
•  p(D|fN,σ2)について	
  
•  観測量量{y(1), …y(N)}の同時分布	
  
パラメータfNに対する尤度度とも解釈できる	
  
•  各観測を独⽴立立に⾏行行ったとすると	
  
•  p(fN)について	
  
•  正規分布
p( fN D) =
p(D fN,σ 2
)p( fN )
d f 'N p(D fN,σ 2
)p( fN ')∫
p(D fN,σ 2
) = N(y(n)
f (n)
,σ 2
) = N(yN fN,σ 2
IN )
n=1
N
∏
p( fN ) = N( fN 0,K)
yN ≡ y(1)
,…, y(n)
{ }
式(8.6)
式(8.7)
式(8.5)
13	
  
ステップ1:	
  p(fN | D)の計算	
  (2/4)
•  ここで、p(fN | D)を計算するための式を導⼊入	
  
•  次の2つの正規分布が与えられている時、	
  
	
  	
  ベイズの定理理に基づいて、p(x|y)およびp(y)を求めると	
  
p(y | x) = N(y | Ax + b, D)
p(x) = N(x | µ,Σ)
p(x | y) = N(x | M AT
D−1
(y − b)+ Σ−1
µ{ },M)
p(y) = N(y | Aµ +b, D + AΣAT
)
M ≡ AT
D−1
A+ Σ−1
( )
−1
ここで
式(8.8)
式(8.9)
式(8.10)
式(8.11)
式(8.12)
14	
  
ステップ1:	
  p(fN | D)の計算	
  (3/4)
p(y | x) = N(y | Ax + b, D)
p(x) = N(x | µ,Σ)
p(x | y)
= N(x | M AT
D−1
(y − b)+ Σ−1
µ{ },M)
M ≡ AT
D−1
A+ Σ−1
( )
−1
p(D | fN,σ 2
) = N(yN | fN,σ 2
IN )
p( fN ) = N( fN | 0,K)
p( fN | D,σ 2
)
= N fN MIN σ 2
IN( )
−1
yN( ),M( )
= N fN
1
σ 2
MyN,M
"
#
$
%
&
'
M ≡
1
σ 2
IN + K−1#
$
%
&
'
(
−1
変形式 計算したい式
y ← yN, A ← IN,b ← 0,
D ←σ 2
IN,µ ← 0, Σ ← K
p( fN D) = p(D fN,σ 2
)p( fN )
…	
  式(8.13)
15	
  
ステップ1:	
  p(fN | D)の計算	
  (4/4)
•  Mの変形
M ≡
1
σ 2
IN + K−1#
$
%
&
'
(
−1
ウッドベリー⾏行行列列恒等式
A+ BDC[ ]
−1
= A−1
− A−1
B D−1
+CA−1
B!" #$
−1
CA−1
式(8.14)
M ≡
1
σ 2
IN
!
"
#
$
%
&
−1
−
1
σ 2
IN
!
"
#
$
%
&
−1
IN K + IN
1
σ 2
IN
!
"
#
$
%
&
−1
IN
!
"
##
$
%
&&IN
1
σ 2
IN
!
"
#
$
%
&
−1
=σ 2
IN −σ 2
K +σ 2
IN( )
−1
( ) 式(8.16)
式(8.17)M ≡σ 2
K K +σ 2
IN( )
−1
両辺に(K+σ2IN)をかける
16	
  
ステップ1で求めたfNの事後分布p(fN | D)
•  σ2が⼩小さければfNはyNに張り付く	
  
•  事前分布p(fN)のみでは、様々な関数をとることができたが、	
  
データD=(yN)により、関数に制限をかける
p( fN | D,σ 2
) = N fN
1
σ 2
MyN,M
!
"
#
$
%
&
M ≡σ 2
K K +σ 2
IN( )
−1
ただし
	
  式(8.13)
式(8.17)
17	
  
ステップ2:	
  p(f(x) | D)の計算	
  (1/5)
•  p(fN | D)とp(f(x) | D)の違い	
  
•  p(fN | D):	
  N個のデータが与えられたときの出⼒力力値の事後分布	
  
•  p(f(x) | D):  任意のxに対する応答曲⾯面f(x)の確率率率分布	
  
•  p(f(x) | D)の計算
p( f (x)| D) = d fN p( f (x)| fN )p( fN | D)∫
fNが与えられた	
  
ときのf(x)
ステップ1で求めた
事後分布
式(8.18)
条件付き分布p(f(x) | fN)を同時分布p(f(x), fN)から求める
18	
  
ステップ2:	
  p(f(x) | D)の計算	
  (2/5)
•  f(x)とfNの同時分布	
  
•  式(8.5)より	
  
p
f (x)
fN
!
"
#
#
$
%
&
&
= N 0,
Ko kT
k K
'
(
)
)
*
+
,
,
!
"
#
#
$
%
&
& 式(8.19)
ここで k = K x, x(1)
( ),…,K x, x(N )
( )( )
T
Ko = K x, x( )
19	
  
ステップ2:	
  p(f(x) | D)の計算	
  (3/5)
•  正規分布の分割公式	
  
•  確率率率変数xを	
  
	
  
•  合わせて平均µ,共分散⾏行行列列∑を以下のように分割	
  
•  ここでxが正規分布N(x| µ, ∑)に従うとき、
xbを与えた時のxaの条件付き分布N(xa|µa|b, ∑a|b)の平均、分散は
x =
xa
xb
!
"
#
#
$
%
&
&
µ =
µa
µb
!
"
#
#
$
%
&
& Σ =
Σaa Σab
Σba Σbb
"
#
$
$
%
&
'
'
µa|b = µa + ΣabΣbb
−1
xb − µb( )
式(8.20)
Σa|b = Σaa − ΣabΣbb
−1
Σba
式(8.21)
式(8.23)
20	
  
ステップ2:	
  p(f(x) | D)の計算	
  (4/5)
•  分割公式にfNとf(x)の同時分布を当てはめ	
  
•  式(8.21)と(8.23)より	
  
•  よって
x =
xa
xb
!
"
#
#
$
%
&
&
µ =
µa
µb
!
"
#
#
$
%
&
&
Σ =
Σaa Σab
Σba Σbb
"
#
$
$
%
&
'
'
f =
f (x)
fN
!
"
#
#
$
%
&
&
µ =
0
0
!
"
#
$
%
& Σ =
Ko kT
k K
"
#
$
$
%
&
'
'
µa|b = kT
K−1
( fN − 0) = kT
K−1
fN
Σa|b = Ko − kT
K−1
k
p f (x) fN( )= N f (x) kT
K−1
fN,Ko − kT
K−1
k( ) 式(8.27)
21	
  
ステップ2:	
  p(f(x) | D)の計算	
  (5/5)
•  式(8.18)へ計算値を代⼊入
p( f (x)| D) = d fN p( f (x)| fN )p( fN | D)∫ 式(8.18)
N f (x) kT
K−1
fN,Ko − kT
K−1
k( ) N fN
1
σ 2
MyN,M
!
"
#
$
%
&
p f (x) D( )= N f (x) µf (x),σ 2
f (x)( )
µf (x) = kT
K +σ 2
IN( )
−1
yN
σ 2
f (x) = Ko − kT
K +σ 2
IN( )
−1
k
式(8.28)
式(8.29)
p(y | x) = N(y | Ax + b, D) p(x) = N(x | µ,Σ)
p(y) = N(y | Aµ +b, D + AΣAT
)
正規分布の変形式
の時
より
22	
  
p(y | x) = N(y | Ax + b, D) p(x) = N(x | µ, Σ)
p(y) = N(y | Aµ +b, D + AΣAT
)
正規分布の変形式
の時
より
予測分布p(y | x, D, σ2)の計算
p(y | x, D,σ 2
) = dfN(y | f (x),σ 2
)
−∞
∞
∫ p( f (x)| D)
N f (x) µf (x),σ 2
f (x)( )
µf (x) = kT
K +σ 2
IN( )
−1
yN
σ 2
f (x) = Ko − kT
K +σ 2
IN( )
−1
k
p y x, D,σ 2
( )= N y µy (x),σ 2
y (x)( )
µy (x) = kT
K +σ 2
IN( )
−1
yN
σ 2
f (x) =σ 2
+ Ko − kT
K +σ 2
IN( )
−1
k
式(8.31)
式(8.32)
式(8.30)
平均μy(x)がxに依存しているため、⾮非線形回帰が可能
23	
  
異異常度度の定義
24	
  
異異常度度の定義とホテリングのT2法との⽐比較
•  ガウス過程での異異常度度	
  
•  ホテリングのT2法での異異常度度  =	
  マハラノビス距離離
a(x') = (x'− ˆµ)T ˆΣ−1
(x'− ˆµ)
ˆµ =
1
N
x(n)
n=1
N
∑
式(2.9)
ˆΣ =
1
N
(x(n)
− ˆµ)(x(n)
− ˆµ)T
n=1
N
∑
a(y', x') = −log p y' x', D,σ 2
( )
=
1
2
log 2πσy
2
(x'){ }+
1
2σy
2
(x')
y'−µy (x'){ }
2
式(8.33)
マハラノビス距離離
25	
  
異異常度度の定義とホテリングのT2法との⽐比較
•  ガウス過程での異異常度度	
  
•  ホテリングのT2法での異異常度度  =	
  マハラノビス距離離
a(y', x') = −log p y' x', D,σ 2
( )
=
1
2
log 2πσy
2
(x'){ }+
1
2σy
2
(x')
y'−µy (x'){ }
2
a(x') = (x'− ˆµ)T ˆΣ−1
(x'− ˆµ)
ˆµ =
1
N
x(n)
n=1
N
∑
式(8.33)
式(2.9)
ˆΣ =
1
N
(x(n)
− ˆµ)(x(n)
− ˆµ)T
n=1
N
∑
期待値と分散が⼊入⼒力力x’に依存
期待値と分散は学習データに依存
マハラノビス距離離
26	
  
予測平均と予測分散の計算例例
•  図8.3	
  
•  図8.2の事前分布に対しデータを与え、横軸50点からなる応答曲線
を50本標本抽出	
  
•  与えたデータ: (x, y)={(-4, -2), (-2.8, 0), (-1, 1), (0, 2), (2.2, -1)}
データが存在するところでは分散が⼩小	
  
データが疎な部分では分散は⼤大
27	
  
パラメータの決定⼿手法
28	
  
分散σ2や他パラメータの決定
•  ここまで分散σ2は既知としてきたが、	
  
実際は⼊入⼒力力データから推定する必要がある	
  
•  周辺尤度度最⼤大化により、σ2を選択	
  
•  E(σ2|D)をしばしば(σ2に関する)エビデンスと呼ぶ	
  
E(σ 2
D) ≡ d fN p D fN,σ 2
( )p( fN )∫ →    最⼤大化
式(8.11)を適⽤用
E(σ 2
D) ≡ N yN 0,σ 2
IN + K( )
式(8.36)
式(8.37)
29	
  
分散σ2や他パラメータの決定
•  カーネル⾏行行列列からσ2の抜き出し
•  対数エビデンス
•  σ-2で微分し、整理理すると
K =σ 2 !K
logE(σ 2
D) ≡ −
N
2
log(2πσ 2
)−
1
2
log IN + !K −
σ −2
2
yN
T
IN + !K( )
−1
yN
ˆσ 2
≡
1
N
yN
T
IN + !K( )
−1
yN
Kのカーネルのパラメータも同様に	
  
周辺尤度度最⼤大化で求める(詳細はp103にて)
式(8.38)
式(8.39)
30	
  
実験計画法への応⽤用
31	
  
実験計画法への応⽤用
•  実験計画法	
  
•  効率率率良良い実験⽅方法を設計し、結果を適切切に解析する(wikipediaより)	
  
•  例例)	
  
•  ⾃自動⾞車車の衝突シミュレーション	
  
  設計パラメータ:x、  評価値:	
  y
  過去N回のシミュレーション結果	
  
	
  
	
  
  を活⽤用して、	
  
  次にシミュレーションするべき最適なxは何か?を決定	
  
D = (x(1)
, y(1)
),…,(x(N )
, y(N )
){ }
32	
  
最適性の定義:  期待改善量量
•  評価値yは⼩小さければ⼩小さいほど良良いという仮定	
  
•  ymin:	
  Dに含まれるN個の評価値の中での最⼩小値(最善値)	
  
•  []+は正なら何もせず、負なら0に置き換え
J(x) = dyp(y | x, D,σ 2
)
−∞
∞
∫ ymin − y[ ]+
式(8.42)
33	
  
期待改善量量の計算
J(x) = dyN(y | µy (x),σy
2
(x))
−∞
ymin
∫ (ymin − y)
= duN(u | 0,1)(ymin −uσy (x)−µy (x))
−∞
ymin−µy
σy
∫
=σy (x) zΦ(z)+ N(z | 0,1)[ ]
z =
ymin −µy (x)
σy (x)
Φ(v) = du
−∞
u
∫ N(u | 0,1)
−
d
du
N(u | 0,1) = uN(u | 0,1)
J(x) = dyp(y | x, D,σ 2
)
−∞
∞
∫ ymin − y[ ]+
式(8.43)
式(8.44)
予測分布の式と より
34	
  
期待改善量量の解釈
•  ここでzがある程度度⼤大きいとき[]内はzに⽐比例例	
  
	
  
•  σyはDにおける疎な領領域で⼤大きくなる(図8.3より)ため	
  
期待改善量量を最⼤大にするxは、	
  
「これまであまり試していない領領域でzが⼤大きくなる値」	
  
J(x) =σy (x) zΦ(z)+ N(z | 0,1)[ ]
J(x) ≈ σy (x)× z(x)[ ]+
式(8.43)
式(8.45)
35	
  
リッジ回帰との関係
36	
  
リッジ回帰との関係	
  (1/2)
•  リッジ回帰とは	
  
•  線形モデルの最⼩小2乗法で推定するパラメータに正規化項を加えた回帰
y = xT
ˆα ˆα = XXT
+σ −2
IM( )XyN
X ≡ x(1)
,…, x(N )"# $%
yN − Xα( )
T
yN − Xα( )+σ −2
αT
α最⼩小化する式:
2乗誤差 正規化項
推定値:
ただし
式(8.46)
37	
  
リッジ回帰との関係	
  (2/2)
•    の式にウッドベリー⾏行行列列恒等式(8.14)を適⽤用	
  
	
  
•  ここで、        ,          	
  	
  	
  とおいてyを計算すると	
  
	
  
標本のベクトルの内積をカーネル関数で置き換えて得られた  	
  
→	
  リッジ回帰にカーネルトリックを適⽤用したものがガウス過程回帰
ˆα = σ 2
IN −σ 4
X IN +σ 2
XT
X( )
−1
XT
{ }XyN
ˆα
k = XT
x K = XT
X
y =σ 2
kT
IN −σ 2
σ 2
K + IN( )
−1
K{ }yN
=σ 2
kT
σ 2
K +IN( )
−1
σ 2
K +IN( )−σ 22
K{ }yN
= kT
K +σ 2
IN( )
−1
yN …	
  ガウス過程における予測平均σy(x)と⼀一致
38	
  
8章のまとめ
39	
  
まとめ
•  ガウス過程回帰	
  
•  予測分布	
  
•  N個の⼊入⼒力力データに対し出⼒力力値を⽣生成する確率率率モデル	
  
	
  
•  異異常度度	
  
p y x, D,σ 2
( )= N y µy (x),σ 2
y (x)( )
µy (x) = kT
K +σ 2
IN( )
−1
yN
σ 2
f (x) =σ 2
+ Ko − kT
K +σ 2
IN( )
−1
k
a(y', x') = −log p y' x', D,σ 2
( )
=
1
2
log 2πσy
2
(x'){ }+
1
2σy
2
(x')
y'−µy (x'){ }
2
40	
  

More Related Content

What's hot

基礎からのベイズ統計学 輪読会資料 第4章 メトロポリス・ヘイスティングス法
基礎からのベイズ統計学 輪読会資料 第4章 メトロポリス・ヘイスティングス法基礎からのベイズ統計学 輪読会資料 第4章 メトロポリス・ヘイスティングス法
基礎からのベイズ統計学 輪読会資料 第4章 メトロポリス・ヘイスティングス法Ken'ichi Matsui
 
ベイズ深層学習5章 ニューラルネットワークのベイズ推論 Bayesian deep learning
ベイズ深層学習5章 ニューラルネットワークのベイズ推論 Bayesian deep learningベイズ深層学習5章 ニューラルネットワークのベイズ推論 Bayesian deep learning
ベイズ深層学習5章 ニューラルネットワークのベイズ推論 Bayesian deep learningssuserca2822
 
低ランク性および平滑性を用いたテンソル補完 (Tensor Completion based on Low-rank and Smooth Structu...
低ランク性および平滑性を用いたテンソル補完 (Tensor Completion based on Low-rank and Smooth Structu...低ランク性および平滑性を用いたテンソル補完 (Tensor Completion based on Low-rank and Smooth Structu...
低ランク性および平滑性を用いたテンソル補完 (Tensor Completion based on Low-rank and Smooth Structu...Tatsuya Yokota
 
劣モジュラ最適化と機械学習1章
劣モジュラ最適化と機械学習1章劣モジュラ最適化と機械学習1章
劣モジュラ最適化と機械学習1章Hakky St
 
変分ベイズ法の説明
変分ベイズ法の説明変分ベイズ法の説明
変分ベイズ法の説明Haruka Ozaki
 
Transformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法についてTransformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法についてSho Takase
 
変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)Takao Yamanaka
 
生成モデルの Deep Learning
生成モデルの Deep Learning生成モデルの Deep Learning
生成モデルの Deep LearningSeiya Tokui
 
[DL輪読会]逆強化学習とGANs
[DL輪読会]逆強化学習とGANs[DL輪読会]逆強化学習とGANs
[DL輪読会]逆強化学習とGANsDeep Learning JP
 
機械学習による統計的実験計画(ベイズ最適化を中心に)
機械学習による統計的実験計画(ベイズ最適化を中心に)機械学習による統計的実験計画(ベイズ最適化を中心に)
機械学習による統計的実験計画(ベイズ最適化を中心に)Kota Matsui
 
【論文紹介】How Powerful are Graph Neural Networks?
【論文紹介】How Powerful are Graph Neural Networks?【論文紹介】How Powerful are Graph Neural Networks?
【論文紹介】How Powerful are Graph Neural Networks?Masanao Ochi
 
強化学習その3
強化学習その3強化学習その3
強化学習その3nishio
 
「内積が見えると統計学も見える」第5回 プログラマのための数学勉強会 発表資料
「内積が見えると統計学も見える」第5回 プログラマのための数学勉強会 発表資料 「内積が見えると統計学も見える」第5回 プログラマのための数学勉強会 発表資料
「内積が見えると統計学も見える」第5回 プログラマのための数学勉強会 発表資料 Ken'ichi Matsui
 
Sliced Wasserstein距離と生成モデル
Sliced Wasserstein距離と生成モデルSliced Wasserstein距離と生成モデル
Sliced Wasserstein距離と生成モデルohken
 
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展Deep Learning JP
 
最適輸送入門
最適輸送入門最適輸送入門
最適輸送入門joisino
 
ベイズ統計入門
ベイズ統計入門ベイズ統計入門
ベイズ統計入門Miyoshi Yuya
 
深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)Masahiro Suzuki
 
深層生成モデルと世界モデル
深層生成モデルと世界モデル深層生成モデルと世界モデル
深層生成モデルと世界モデルMasahiro Suzuki
 
Disentanglement Survey:Can You Explain How Much Are Generative models Disenta...
Disentanglement Survey:Can You Explain How Much Are Generative models Disenta...Disentanglement Survey:Can You Explain How Much Are Generative models Disenta...
Disentanglement Survey:Can You Explain How Much Are Generative models Disenta...Hideki Tsunashima
 

What's hot (20)

基礎からのベイズ統計学 輪読会資料 第4章 メトロポリス・ヘイスティングス法
基礎からのベイズ統計学 輪読会資料 第4章 メトロポリス・ヘイスティングス法基礎からのベイズ統計学 輪読会資料 第4章 メトロポリス・ヘイスティングス法
基礎からのベイズ統計学 輪読会資料 第4章 メトロポリス・ヘイスティングス法
 
ベイズ深層学習5章 ニューラルネットワークのベイズ推論 Bayesian deep learning
ベイズ深層学習5章 ニューラルネットワークのベイズ推論 Bayesian deep learningベイズ深層学習5章 ニューラルネットワークのベイズ推論 Bayesian deep learning
ベイズ深層学習5章 ニューラルネットワークのベイズ推論 Bayesian deep learning
 
低ランク性および平滑性を用いたテンソル補完 (Tensor Completion based on Low-rank and Smooth Structu...
低ランク性および平滑性を用いたテンソル補完 (Tensor Completion based on Low-rank and Smooth Structu...低ランク性および平滑性を用いたテンソル補完 (Tensor Completion based on Low-rank and Smooth Structu...
低ランク性および平滑性を用いたテンソル補完 (Tensor Completion based on Low-rank and Smooth Structu...
 
劣モジュラ最適化と機械学習1章
劣モジュラ最適化と機械学習1章劣モジュラ最適化と機械学習1章
劣モジュラ最適化と機械学習1章
 
変分ベイズ法の説明
変分ベイズ法の説明変分ベイズ法の説明
変分ベイズ法の説明
 
Transformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法についてTransformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法について
 
変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)
 
生成モデルの Deep Learning
生成モデルの Deep Learning生成モデルの Deep Learning
生成モデルの Deep Learning
 
[DL輪読会]逆強化学習とGANs
[DL輪読会]逆強化学習とGANs[DL輪読会]逆強化学習とGANs
[DL輪読会]逆強化学習とGANs
 
機械学習による統計的実験計画(ベイズ最適化を中心に)
機械学習による統計的実験計画(ベイズ最適化を中心に)機械学習による統計的実験計画(ベイズ最適化を中心に)
機械学習による統計的実験計画(ベイズ最適化を中心に)
 
【論文紹介】How Powerful are Graph Neural Networks?
【論文紹介】How Powerful are Graph Neural Networks?【論文紹介】How Powerful are Graph Neural Networks?
【論文紹介】How Powerful are Graph Neural Networks?
 
強化学習その3
強化学習その3強化学習その3
強化学習その3
 
「内積が見えると統計学も見える」第5回 プログラマのための数学勉強会 発表資料
「内積が見えると統計学も見える」第5回 プログラマのための数学勉強会 発表資料 「内積が見えると統計学も見える」第5回 プログラマのための数学勉強会 発表資料
「内積が見えると統計学も見える」第5回 プログラマのための数学勉強会 発表資料
 
Sliced Wasserstein距離と生成モデル
Sliced Wasserstein距離と生成モデルSliced Wasserstein距離と生成モデル
Sliced Wasserstein距離と生成モデル
 
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
 
最適輸送入門
最適輸送入門最適輸送入門
最適輸送入門
 
ベイズ統計入門
ベイズ統計入門ベイズ統計入門
ベイズ統計入門
 
深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)
 
深層生成モデルと世界モデル
深層生成モデルと世界モデル深層生成モデルと世界モデル
深層生成モデルと世界モデル
 
Disentanglement Survey:Can You Explain How Much Are Generative models Disenta...
Disentanglement Survey:Can You Explain How Much Are Generative models Disenta...Disentanglement Survey:Can You Explain How Much Are Generative models Disenta...
Disentanglement Survey:Can You Explain How Much Are Generative models Disenta...
 

Similar to 第8章 ガウス過程回帰による異常検知

050 確率と確率分布
050 確率と確率分布050 確率と確率分布
050 確率と確率分布t2tarumi
 
8.4 グラフィカルモデルによる推論
8.4 グラフィカルモデルによる推論8.4 グラフィカルモデルによる推論
8.4 グラフィカルモデルによる推論sleepy_yoshi
 
070 統計的推測 母集団と推定
070 統計的推測 母集団と推定070 統計的推測 母集団と推定
070 統計的推測 母集団と推定t2tarumi
 
線形識別モデル
線形識別モデル線形識別モデル
線形識別モデル貴之 八木
 
Introduction to the particle filter
Introduction to the particle filterIntroduction to the particle filter
Introduction to the particle filterSatoshi Minakuchi
 
公開鍵暗号7: 楕円曲線の数理
公開鍵暗号7: 楕円曲線の数理公開鍵暗号7: 楕円曲線の数理
公開鍵暗号7: 楕円曲線の数理Joe Suzuki
 
2022年度秋学期 応用数学(解析) 第6回 変数分離形の変形 (2022. 10. 27)
2022年度秋学期 応用数学(解析) 第6回 変数分離形の変形 (2022. 10. 27) 2022年度秋学期 応用数学(解析) 第6回 変数分離形の変形 (2022. 10. 27)
2022年度秋学期 応用数学(解析) 第6回 変数分離形の変形 (2022. 10. 27) Akira Asano
 
PRML 3.3.3-3.4 ベイズ線形回帰とモデル選択 / Baysian Linear Regression and Model Comparison)
PRML 3.3.3-3.4 ベイズ線形回帰とモデル選択 / Baysian Linear Regression and Model Comparison)PRML 3.3.3-3.4 ベイズ線形回帰とモデル選択 / Baysian Linear Regression and Model Comparison)
PRML 3.3.3-3.4 ベイズ線形回帰とモデル選択 / Baysian Linear Regression and Model Comparison)Akihiro Nitta
 
パターン認識第9章 学習ベクトル量子化
パターン認識第9章 学習ベクトル量子化パターン認識第9章 学習ベクトル量子化
パターン認識第9章 学習ベクトル量子化Miyoshi Yuya
 
Similarity functions in Lucene 4.0
Similarity functions in Lucene 4.0Similarity functions in Lucene 4.0
Similarity functions in Lucene 4.0Koji Sekiguchi
 
確率的主成分分析
確率的主成分分析確率的主成分分析
確率的主成分分析Mika Yoshimura
 
東京都市大学 データ解析入門 6 回帰分析とモデル選択 1
東京都市大学 データ解析入門 6 回帰分析とモデル選択 1東京都市大学 データ解析入門 6 回帰分析とモデル選択 1
東京都市大学 データ解析入門 6 回帰分析とモデル選択 1hirokazutanaka
 
パターン認識と機械学習6章(カーネル法)
パターン認識と機械学習6章(カーネル法)パターン認識と機械学習6章(カーネル法)
パターン認識と機械学習6章(カーネル法)Yukara Ikemiya
 
ユークリッド距離以外の距離で教師無しクラスタリング
ユークリッド距離以外の距離で教師無しクラスタリングユークリッド距離以外の距離で教師無しクラスタリング
ユークリッド距離以外の距離で教師無しクラスタリングMaruyama Tetsutaro
 
2013.12.26 prml勉強会 線形回帰モデル3.2~3.4
2013.12.26 prml勉強会 線形回帰モデル3.2~3.42013.12.26 prml勉強会 線形回帰モデル3.2~3.4
2013.12.26 prml勉強会 線形回帰モデル3.2~3.4Takeshi Sakaki
 
Grcosmo 44 slide
Grcosmo 44 slideGrcosmo 44 slide
Grcosmo 44 slideKENTAROHARA
 

Similar to 第8章 ガウス過程回帰による異常検知 (20)

050 確率と確率分布
050 確率と確率分布050 確率と確率分布
050 確率と確率分布
 
8.4 グラフィカルモデルによる推論
8.4 グラフィカルモデルによる推論8.4 グラフィカルモデルによる推論
8.4 グラフィカルモデルによる推論
 
070 統計的推測 母集団と推定
070 統計的推測 母集団と推定070 統計的推測 母集団と推定
070 統計的推測 母集団と推定
 
線形識別モデル
線形識別モデル線形識別モデル
線形識別モデル
 
Introduction to the particle filter
Introduction to the particle filterIntroduction to the particle filter
Introduction to the particle filter
 
公開鍵暗号7: 楕円曲線の数理
公開鍵暗号7: 楕円曲線の数理公開鍵暗号7: 楕円曲線の数理
公開鍵暗号7: 楕円曲線の数理
 
2022年度秋学期 応用数学(解析) 第6回 変数分離形の変形 (2022. 10. 27)
2022年度秋学期 応用数学(解析) 第6回 変数分離形の変形 (2022. 10. 27) 2022年度秋学期 応用数学(解析) 第6回 変数分離形の変形 (2022. 10. 27)
2022年度秋学期 応用数学(解析) 第6回 変数分離形の変形 (2022. 10. 27)
 
PRML 3.3.3-3.4 ベイズ線形回帰とモデル選択 / Baysian Linear Regression and Model Comparison)
PRML 3.3.3-3.4 ベイズ線形回帰とモデル選択 / Baysian Linear Regression and Model Comparison)PRML 3.3.3-3.4 ベイズ線形回帰とモデル選択 / Baysian Linear Regression and Model Comparison)
PRML 3.3.3-3.4 ベイズ線形回帰とモデル選択 / Baysian Linear Regression and Model Comparison)
 
パターン認識第9章 学習ベクトル量子化
パターン認識第9章 学習ベクトル量子化パターン認識第9章 学習ベクトル量子化
パターン認識第9章 学習ベクトル量子化
 
Similarity functions in Lucene 4.0
Similarity functions in Lucene 4.0Similarity functions in Lucene 4.0
Similarity functions in Lucene 4.0
 
確率的主成分分析
確率的主成分分析確率的主成分分析
確率的主成分分析
 
NLPforml5
NLPforml5NLPforml5
NLPforml5
 
東京都市大学 データ解析入門 6 回帰分析とモデル選択 1
東京都市大学 データ解析入門 6 回帰分析とモデル選択 1東京都市大学 データ解析入門 6 回帰分析とモデル選択 1
東京都市大学 データ解析入門 6 回帰分析とモデル選択 1
 
統計概論 isseing333
統計概論 isseing333統計概論 isseing333
統計概論 isseing333
 
離散構造と離散分布
離散構造と離散分布離散構造と離散分布
離散構造と離散分布
 
パターン認識と機械学習6章(カーネル法)
パターン認識と機械学習6章(カーネル法)パターン認識と機械学習6章(カーネル法)
パターン認識と機械学習6章(カーネル法)
 
PRML 8.4-8.4.3
PRML 8.4-8.4.3 PRML 8.4-8.4.3
PRML 8.4-8.4.3
 
ユークリッド距離以外の距離で教師無しクラスタリング
ユークリッド距離以外の距離で教師無しクラスタリングユークリッド距離以外の距離で教師無しクラスタリング
ユークリッド距離以外の距離で教師無しクラスタリング
 
2013.12.26 prml勉強会 線形回帰モデル3.2~3.4
2013.12.26 prml勉強会 線形回帰モデル3.2~3.42013.12.26 prml勉強会 線形回帰モデル3.2~3.4
2013.12.26 prml勉強会 線形回帰モデル3.2~3.4
 
Grcosmo 44 slide
Grcosmo 44 slideGrcosmo 44 slide
Grcosmo 44 slide
 

第8章 ガウス過程回帰による異常検知

  • 2. 本章で扱う異異常検知問題 •  ⼊入⼒力力  x,  出⼒力力yの対データDに対する異異常検知   •  D={(x(1), y(1)), …, (x(n), y(n))} *  本章ではxはM次元、yはスカラーとしている     •  例例)   •  電⼦子部品(ダイオード)の異異常検知   •  ⼊入⼒力力x:  ダイオードにかける電圧   •  出⼒力力y:  ダイオードに流流れる電流流   2  
  • 3. ⼊入出⼒力力がある場合の異異常検知と回帰問題 •  例例)電⼦子部品(ダイオード)の異異常検知   •  ⼊入⼒力力x:  ダイオードにかける電圧   •  出⼒力力y:  ダイオードに流流れる電流流   電圧  x 電流流  y 0.7  v 3  
  • 4. ⼊入出⼒力力がある場合の異異常検知と回帰問題 •  例例)電⼦子部品(ダイオード)の異異常検知   •  ⼊入⼒力力x:  ダイオードにかける電圧   •  出⼒力力y:  ダイオードに流流れる電流流   電圧  x 電流流  y 0.7  v 応答曲⾯面  f(x):  正常時に期待される出⼒力力   出⼒力力値yの分散 ⼊入⼒力力に対する出⼒力力を与える応答曲⾯面f及び、   観測ノイズについての確率率率分布を求めることを回帰問題   4  
  • 6. ガウス過程回帰 •  特徴   •  汎⽤用性の⾼高い⾮非線形回帰⼿手法   •  応答曲⾯面f(x)を確率率率モデルp(f(x)|D)の形で構築   •  ガウス過程回帰のモデルが持つ2つの要素   1.  観測時のノイズを表す確率率率モデル  p(y|x,σ2) 2.  応答曲⾯面f(x)の滑滑らかさを表現する事前分布  p(fN) 6  
  • 7. 第1要素:   観測時のノイズを表す確率率率モデル  p(y | x,σ2) •  出⼒力力yのノイズを表すモデル:  正規分布   出⼒力力yは応答曲⾯面  f(x) 周りに分散σ2で分布   p(y x,σ 2 ) = N y f (x),σ 2 ( ) 式(8.1) 7  
  • 8. 第2要素:   応答曲⾯面  f(x) の滑滑らかさを表現する事前分布  p(fN)  (1/2) •  ⼊入⼒力力がx, x’の2つの場合   •  任意の⼊入⼒力力x, x’における応答曲⾯面の値をf(x), f(x’)とする時、 f(x)とf(x’)は次のような確率率率分布に従う p f (x) f (x') ! " # # $ % & & = N 0, K(x, x) K(x, x') K(x', x) K(x', x') ' ( ) ) * + , , ! " # # $ % & & K(x, x’):  カーネル関数   xとx’が近い値のとき⼩小さい値を取る   →⼊入⼒力力値が近いと出⼒力力値も近いよねという制約   式(8.3) 8  
  • 9. 第2要素:   応答曲⾯面  f(x) の滑滑らかさを表現する事前分布  p(fN) (2/2) •  ⼊入⼒力力がx(1), …, x(N)のN個の場合   •  任意の⼊入⼒力力x(1), …, x(N)における応答曲⾯面の値をf(x(1)), …, f(x(N))とする時、fNは次のような確率率率分布に従う p( fN ) = N( fN | 0,K) fN = ( f (x(1) ),…, f (x(N ) ))T K:  (i, j)成分がK(x(i), x(j))で与えられる⾏行行列列 *  無限個の⼊入⼒力力点を考えると無限次元の正規分布となる 式(8.5) 式(8.4) 9  
  • 10. 事前分布N(fN | 0,K)から抽出したf(x)の様⼦子 •  図8.2   •  xは⼀一次元、N=50で[-5, 5]の範囲を区分してf(x)を抽出   fNは離離散値であるが、 事前分布により連続の関数値のように⾒見見える 10  
  • 12. ガウス過程回帰の問題設定と求め⽅方 •  問題設定   •  観測値の分散σ2とデータDが与えられたときに   出⼒力力値の予測分布p(y | x, D, σ2)を求める   •  予測分布  p(y | x, D, σ2) p(y | x, D,σ 2 ) = dfN(y | f (x),σ 2 ) −∞ ∞ ∫ p( f (x)| D) 応答曲⾯面f(x)周りに   分散σ2で分布 ステップ1:  データDを元にfNの分布p(fN | D)を求める   ステップ2:  p(fN | D)と応答曲⾯面の滑滑らかさよりp(f(x) | D)を求める 式(8.2) 12  
  • 13. ステップ1:  p(fN | D)の計算  (1/4) •  ベイズの定理理を適⽤用   •  p(D|fN,σ2)について   •  観測量量{y(1), …y(N)}の同時分布   パラメータfNに対する尤度度とも解釈できる   •  各観測を独⽴立立に⾏行行ったとすると   •  p(fN)について   •  正規分布 p( fN D) = p(D fN,σ 2 )p( fN ) d f 'N p(D fN,σ 2 )p( fN ')∫ p(D fN,σ 2 ) = N(y(n) f (n) ,σ 2 ) = N(yN fN,σ 2 IN ) n=1 N ∏ p( fN ) = N( fN 0,K) yN ≡ y(1) ,…, y(n) { } 式(8.6) 式(8.7) 式(8.5) 13  
  • 14. ステップ1:  p(fN | D)の計算  (2/4) •  ここで、p(fN | D)を計算するための式を導⼊入   •  次の2つの正規分布が与えられている時、      ベイズの定理理に基づいて、p(x|y)およびp(y)を求めると   p(y | x) = N(y | Ax + b, D) p(x) = N(x | µ,Σ) p(x | y) = N(x | M AT D−1 (y − b)+ Σ−1 µ{ },M) p(y) = N(y | Aµ +b, D + AΣAT ) M ≡ AT D−1 A+ Σ−1 ( ) −1 ここで 式(8.8) 式(8.9) 式(8.10) 式(8.11) 式(8.12) 14  
  • 15. ステップ1:  p(fN | D)の計算  (3/4) p(y | x) = N(y | Ax + b, D) p(x) = N(x | µ,Σ) p(x | y) = N(x | M AT D−1 (y − b)+ Σ−1 µ{ },M) M ≡ AT D−1 A+ Σ−1 ( ) −1 p(D | fN,σ 2 ) = N(yN | fN,σ 2 IN ) p( fN ) = N( fN | 0,K) p( fN | D,σ 2 ) = N fN MIN σ 2 IN( ) −1 yN( ),M( ) = N fN 1 σ 2 MyN,M " # $ % & ' M ≡ 1 σ 2 IN + K−1# $ % & ' ( −1 変形式 計算したい式 y ← yN, A ← IN,b ← 0, D ←σ 2 IN,µ ← 0, Σ ← K p( fN D) = p(D fN,σ 2 )p( fN ) …  式(8.13) 15  
  • 16. ステップ1:  p(fN | D)の計算  (4/4) •  Mの変形 M ≡ 1 σ 2 IN + K−1# $ % & ' ( −1 ウッドベリー⾏行行列列恒等式 A+ BDC[ ] −1 = A−1 − A−1 B D−1 +CA−1 B!" #$ −1 CA−1 式(8.14) M ≡ 1 σ 2 IN ! " # $ % & −1 − 1 σ 2 IN ! " # $ % & −1 IN K + IN 1 σ 2 IN ! " # $ % & −1 IN ! " ## $ % &&IN 1 σ 2 IN ! " # $ % & −1 =σ 2 IN −σ 2 K +σ 2 IN( ) −1 ( ) 式(8.16) 式(8.17)M ≡σ 2 K K +σ 2 IN( ) −1 両辺に(K+σ2IN)をかける 16  
  • 17. ステップ1で求めたfNの事後分布p(fN | D) •  σ2が⼩小さければfNはyNに張り付く   •  事前分布p(fN)のみでは、様々な関数をとることができたが、   データD=(yN)により、関数に制限をかける p( fN | D,σ 2 ) = N fN 1 σ 2 MyN,M ! " # $ % & M ≡σ 2 K K +σ 2 IN( ) −1 ただし  式(8.13) 式(8.17) 17  
  • 18. ステップ2:  p(f(x) | D)の計算  (1/5) •  p(fN | D)とp(f(x) | D)の違い   •  p(fN | D):  N個のデータが与えられたときの出⼒力力値の事後分布   •  p(f(x) | D):  任意のxに対する応答曲⾯面f(x)の確率率率分布   •  p(f(x) | D)の計算 p( f (x)| D) = d fN p( f (x)| fN )p( fN | D)∫ fNが与えられた   ときのf(x) ステップ1で求めた 事後分布 式(8.18) 条件付き分布p(f(x) | fN)を同時分布p(f(x), fN)から求める 18  
  • 19. ステップ2:  p(f(x) | D)の計算  (2/5) •  f(x)とfNの同時分布   •  式(8.5)より   p f (x) fN ! " # # $ % & & = N 0, Ko kT k K ' ( ) ) * + , , ! " # # $ % & & 式(8.19) ここで k = K x, x(1) ( ),…,K x, x(N ) ( )( ) T Ko = K x, x( ) 19  
  • 20. ステップ2:  p(f(x) | D)の計算  (3/5) •  正規分布の分割公式   •  確率率率変数xを     •  合わせて平均µ,共分散⾏行行列列∑を以下のように分割   •  ここでxが正規分布N(x| µ, ∑)に従うとき、 xbを与えた時のxaの条件付き分布N(xa|µa|b, ∑a|b)の平均、分散は x = xa xb ! " # # $ % & & µ = µa µb ! " # # $ % & & Σ = Σaa Σab Σba Σbb " # $ $ % & ' ' µa|b = µa + ΣabΣbb −1 xb − µb( ) 式(8.20) Σa|b = Σaa − ΣabΣbb −1 Σba 式(8.21) 式(8.23) 20  
  • 21. ステップ2:  p(f(x) | D)の計算  (4/5) •  分割公式にfNとf(x)の同時分布を当てはめ   •  式(8.21)と(8.23)より   •  よって x = xa xb ! " # # $ % & & µ = µa µb ! " # # $ % & & Σ = Σaa Σab Σba Σbb " # $ $ % & ' ' f = f (x) fN ! " # # $ % & & µ = 0 0 ! " # $ % & Σ = Ko kT k K " # $ $ % & ' ' µa|b = kT K−1 ( fN − 0) = kT K−1 fN Σa|b = Ko − kT K−1 k p f (x) fN( )= N f (x) kT K−1 fN,Ko − kT K−1 k( ) 式(8.27) 21  
  • 22. ステップ2:  p(f(x) | D)の計算  (5/5) •  式(8.18)へ計算値を代⼊入 p( f (x)| D) = d fN p( f (x)| fN )p( fN | D)∫ 式(8.18) N f (x) kT K−1 fN,Ko − kT K−1 k( ) N fN 1 σ 2 MyN,M ! " # $ % & p f (x) D( )= N f (x) µf (x),σ 2 f (x)( ) µf (x) = kT K +σ 2 IN( ) −1 yN σ 2 f (x) = Ko − kT K +σ 2 IN( ) −1 k 式(8.28) 式(8.29) p(y | x) = N(y | Ax + b, D) p(x) = N(x | µ,Σ) p(y) = N(y | Aµ +b, D + AΣAT ) 正規分布の変形式 の時 より 22  
  • 23. p(y | x) = N(y | Ax + b, D) p(x) = N(x | µ, Σ) p(y) = N(y | Aµ +b, D + AΣAT ) 正規分布の変形式 の時 より 予測分布p(y | x, D, σ2)の計算 p(y | x, D,σ 2 ) = dfN(y | f (x),σ 2 ) −∞ ∞ ∫ p( f (x)| D) N f (x) µf (x),σ 2 f (x)( ) µf (x) = kT K +σ 2 IN( ) −1 yN σ 2 f (x) = Ko − kT K +σ 2 IN( ) −1 k p y x, D,σ 2 ( )= N y µy (x),σ 2 y (x)( ) µy (x) = kT K +σ 2 IN( ) −1 yN σ 2 f (x) =σ 2 + Ko − kT K +σ 2 IN( ) −1 k 式(8.31) 式(8.32) 式(8.30) 平均μy(x)がxに依存しているため、⾮非線形回帰が可能 23  
  • 25. 異異常度度の定義とホテリングのT2法との⽐比較 •  ガウス過程での異異常度度   •  ホテリングのT2法での異異常度度  =  マハラノビス距離離 a(x') = (x'− ˆµ)T ˆΣ−1 (x'− ˆµ) ˆµ = 1 N x(n) n=1 N ∑ 式(2.9) ˆΣ = 1 N (x(n) − ˆµ)(x(n) − ˆµ)T n=1 N ∑ a(y', x') = −log p y' x', D,σ 2 ( ) = 1 2 log 2πσy 2 (x'){ }+ 1 2σy 2 (x') y'−µy (x'){ } 2 式(8.33) マハラノビス距離離 25  
  • 26. 異異常度度の定義とホテリングのT2法との⽐比較 •  ガウス過程での異異常度度   •  ホテリングのT2法での異異常度度  =  マハラノビス距離離 a(y', x') = −log p y' x', D,σ 2 ( ) = 1 2 log 2πσy 2 (x'){ }+ 1 2σy 2 (x') y'−µy (x'){ } 2 a(x') = (x'− ˆµ)T ˆΣ−1 (x'− ˆµ) ˆµ = 1 N x(n) n=1 N ∑ 式(8.33) 式(2.9) ˆΣ = 1 N (x(n) − ˆµ)(x(n) − ˆµ)T n=1 N ∑ 期待値と分散が⼊入⼒力力x’に依存 期待値と分散は学習データに依存 マハラノビス距離離 26  
  • 27. 予測平均と予測分散の計算例例 •  図8.3   •  図8.2の事前分布に対しデータを与え、横軸50点からなる応答曲線 を50本標本抽出   •  与えたデータ: (x, y)={(-4, -2), (-2.8, 0), (-1, 1), (0, 2), (2.2, -1)} データが存在するところでは分散が⼩小   データが疎な部分では分散は⼤大 27  
  • 29. 分散σ2や他パラメータの決定 •  ここまで分散σ2は既知としてきたが、   実際は⼊入⼒力力データから推定する必要がある   •  周辺尤度度最⼤大化により、σ2を選択   •  E(σ2|D)をしばしば(σ2に関する)エビデンスと呼ぶ   E(σ 2 D) ≡ d fN p D fN,σ 2 ( )p( fN )∫ →    最⼤大化 式(8.11)を適⽤用 E(σ 2 D) ≡ N yN 0,σ 2 IN + K( ) 式(8.36) 式(8.37) 29  
  • 30. 分散σ2や他パラメータの決定 •  カーネル⾏行行列列からσ2の抜き出し •  対数エビデンス •  σ-2で微分し、整理理すると K =σ 2 !K logE(σ 2 D) ≡ − N 2 log(2πσ 2 )− 1 2 log IN + !K − σ −2 2 yN T IN + !K( ) −1 yN ˆσ 2 ≡ 1 N yN T IN + !K( ) −1 yN Kのカーネルのパラメータも同様に   周辺尤度度最⼤大化で求める(詳細はp103にて) 式(8.38) 式(8.39) 30  
  • 32. 実験計画法への応⽤用 •  実験計画法   •  効率率率良良い実験⽅方法を設計し、結果を適切切に解析する(wikipediaより)   •  例例)   •  ⾃自動⾞車車の衝突シミュレーション     設計パラメータ:x、  評価値:  y   過去N回のシミュレーション結果         を活⽤用して、     次にシミュレーションするべき最適なxは何か?を決定   D = (x(1) , y(1) ),…,(x(N ) , y(N ) ){ } 32  
  • 33. 最適性の定義:  期待改善量量 •  評価値yは⼩小さければ⼩小さいほど良良いという仮定   •  ymin:  Dに含まれるN個の評価値の中での最⼩小値(最善値)   •  []+は正なら何もせず、負なら0に置き換え J(x) = dyp(y | x, D,σ 2 ) −∞ ∞ ∫ ymin − y[ ]+ 式(8.42) 33  
  • 34. 期待改善量量の計算 J(x) = dyN(y | µy (x),σy 2 (x)) −∞ ymin ∫ (ymin − y) = duN(u | 0,1)(ymin −uσy (x)−µy (x)) −∞ ymin−µy σy ∫ =σy (x) zΦ(z)+ N(z | 0,1)[ ] z = ymin −µy (x) σy (x) Φ(v) = du −∞ u ∫ N(u | 0,1) − d du N(u | 0,1) = uN(u | 0,1) J(x) = dyp(y | x, D,σ 2 ) −∞ ∞ ∫ ymin − y[ ]+ 式(8.43) 式(8.44) 予測分布の式と より 34  
  • 35. 期待改善量量の解釈 •  ここでzがある程度度⼤大きいとき[]内はzに⽐比例例     •  σyはDにおける疎な領領域で⼤大きくなる(図8.3より)ため   期待改善量量を最⼤大にするxは、   「これまであまり試していない領領域でzが⼤大きくなる値」   J(x) =σy (x) zΦ(z)+ N(z | 0,1)[ ] J(x) ≈ σy (x)× z(x)[ ]+ 式(8.43) 式(8.45) 35  
  • 37. リッジ回帰との関係  (1/2) •  リッジ回帰とは   •  線形モデルの最⼩小2乗法で推定するパラメータに正規化項を加えた回帰 y = xT ˆα ˆα = XXT +σ −2 IM( )XyN X ≡ x(1) ,…, x(N )"# $% yN − Xα( ) T yN − Xα( )+σ −2 αT α最⼩小化する式: 2乗誤差 正規化項 推定値: ただし 式(8.46) 37  
  • 38. リッジ回帰との関係  (2/2) •    の式にウッドベリー⾏行行列列恒等式(8.14)を適⽤用     •  ここで、        ,                とおいてyを計算すると     標本のベクトルの内積をカーネル関数で置き換えて得られた     →  リッジ回帰にカーネルトリックを適⽤用したものがガウス過程回帰 ˆα = σ 2 IN −σ 4 X IN +σ 2 XT X( ) −1 XT { }XyN ˆα k = XT x K = XT X y =σ 2 kT IN −σ 2 σ 2 K + IN( ) −1 K{ }yN =σ 2 kT σ 2 K +IN( ) −1 σ 2 K +IN( )−σ 22 K{ }yN = kT K +σ 2 IN( ) −1 yN …  ガウス過程における予測平均σy(x)と⼀一致 38  
  • 40. まとめ •  ガウス過程回帰   •  予測分布   •  N個の⼊入⼒力力データに対し出⼒力力値を⽣生成する確率率率モデル     •  異異常度度   p y x, D,σ 2 ( )= N y µy (x),σ 2 y (x)( ) µy (x) = kT K +σ 2 IN( ) −1 yN σ 2 f (x) =σ 2 + Ko − kT K +σ 2 IN( ) −1 k a(y', x') = −log p y' x', D,σ 2 ( ) = 1 2 log 2πσy 2 (x'){ }+ 1 2σy 2 (x') y'−µy (x'){ } 2 40