PRML5

第5章ニューラルネットワーク
第一回
2010/06/22～

序章
 3章・4章では、固定された基底関数の線形和で表される
モデルを考えた。
 しかし、次元の呪いの問題から、実際問題への応用可
能性は限られる。
 これらのモデルを大規模な問題へ適用するためには、
基底関数をデータに適応させなければならない。
 SVM（７章）
 訓練データから基底関数群をはじめに定義。その一部を訓練中に
選ぶ方法。
 多層パーセプトロン（本章）
 基底関数の数ははじめに固定。基底関数をパラメトリック形を用いて、
訓練中に適応的なものに変化させる方法。

序章
 多層パーセプトロンはSVMに比べると、評価がより迅速
に得られる。しかし、尤度関数はモデルパラメータの凸
関数とならないという欠点がある。
 本章は、実用面で最も高く評価されている特別なニュー
ラルネットワークのクラスである、多層パーセプトロンに
話を限定する。
 パターン認識の分野では、フィードフォワードニューラルネット
ワークと呼ばれる。多層パーセプトロンという呼び方は余り適
切でないと書かれている。

本章の流れ
 はじめに、ネットワークモデルの関数の形、つまり基底関
数のパラメータ表示の手法の議論。
 次に、最尤推定の枠組みでのパラメータ決定問題につ
いての議論。この問題は、非線形最適化問題を含む。
（誤差逆伝播法）
 ニューラルネットワークの正則化への様々なアプローチ
とそれらの互いの関係の議論。
 その他ニューラルネットワークモデルへの拡張。
（混合密度ネットワーク）
 ベイズ理論の視点からのニューラルネットワーク。

目次
 パラメータ表示の手法(5.1章)
 基底関数の形
 パラメータ決定の手法(5.2～5.3.3章)
 非線形最適化問題の最尤推定法
 誤差逆伝播法によるパラメータ決定手法
 誤差逆伝播(5.3.4～5.4章）
 ヤコビ行列・ヘッセ行列の評価
 ニューラルネットワークの正則化（5.5章）
 モデルの拡張（混合密度ネットワーク）（5.6章）
 ベイズ理論からのニューラルネットワーク（5.7章）

5.1 フィードフォワードネットワーク関数
M 
y (x, w)  f   wφ (x) 
 j j 
 j 1 
 本章の目標は、非線形基底関数をパラメータ依存とし、
このパラメータを訓練中に係数wとともに調整すること。
 パラメトリックな非線形基底関数の構成法はいろいろあ
る。ニューラルネットワークでは、上式と同じ形の基底関
数を用いる。

M 
y (x, w,  i )  f   wφ (x,  i ) 
 j j 
 j 1 

 まず、入力変数の重み付け線形和を作成
D

a  w x w
(1) 入力変数 (1)
j  1,2,...,M
j ji i j0
活性 i 1 重みパラメータバイアスパラメータ

 活性を微分可能な非線形活性化関数h(・)で変換
z j  h(a j )
隠れユニット

 h(・)は、ロジスティックシグモイド関数
tanh関数のようなシグモイド関数など
が選ばれることが多い(3.6式)

M

a  w z  w
( 2) 隠れユニット ( 2)
k  1,2,...,K
k kj j k0
出力ユニット活性 j 1 重みパラメータバイアスパラメータ

 次に、隠れユニットの重み付け線形和から出力ユニット
活性を計算
 最後に、出力ユニット活性は適当な活性化関数を用いて
変換され、ネットワークの出力 yk となる
 活性化関数の選び方は、データの特性や目標変数の分布に
依存
 標準的回帰問題: yk  ak
 2クラス分類問題: yk   ak 
 多クラス分類問題: ソフトマックス活性化関数

 今までの議論を１つの式で表すと、
 M ( 2)  D (1)  
  wkj h  w ji xi  w(j10)   wk2) 
yk (x, w)    (
0 
 j 1  i 1  
 すなわち、ニューラルネットワークモデルとは、可変パラメータ
のベクトル w で制御される、入力変数集合{xi}から出力変数
集合{yk}への非線形関数
 出力変数の評価過程は、ネットワーク上の情報の順向き伝播
(forward propagation)と解釈出来る
 各ノードの値は確率的でなく決定論的（8章）
⇒x,z,yはある１つの定数

 バイアスパラメータは重みパラメータの集合の中に含めること
が出来る M D  ( 2)  
yk (x, w)     wkj h  w ji xi  

(1)

 j 0  i 0 
 ニューラルネットワークモデルは２段階の処理となる
 これが、多層パーセプトロン(MLP:multilayer perceptron)と呼
ばれる所以
 隠れユニットにおいて連続な非線形性関数（シグモイド関数）
を用いているため、パラメータに関して微分可能である
 この点が、単純なパーセプトロン(4.1.7節)との決定的な違い

 すべての隠れユニットの活性化関数が線形
⇒隠れユニットを持たない等価なネットワークを作成出来る
[h(x)=ax+bとして代入して考えてみると良い]

 隠れユニットの数＜min(入力ユニットの数,出力ユニットの数)
⇒次元削減が発生するため、入力から出力への全ての線形
変換を生成することは不可能

 もう１つのネットワーク構造の一般化：層を飛び越えた結合
(skip-kayer connection)の導入

 シグモイド関数が隠れユニットのネットワークでは、（有界な入
力値を持つ）層を飛び越えた結合はいつでも近似可能

 ネットワークはスパースになりうる。一部の結合のみが存在す
るネットワークを考えることも出来る
⇒5.5.6節たたみ込みニューラルネットワーク

 ネットワーク図は数学的な関数と直接対応しているので、より
複雑なネットワーク図を考える事で、より一般的な写像に発
展させることが出来る
 しかし、フィードフォワード(feed-forward)構造でなければなら
ない（つまり、閉じた有向閉路があってはならない）

 NNは万能近似器(universal approximation)であるといわれる
 Ex.線形出力を持つ2層ネットワークは、十分な数の隠れユニットが
あれば、コンパクトな定義域を持つどんな連続関数も任意の精度で
一様に近似可能
 重要な問題：適切なパラメータをどのように見つけるか？
 最尤推定アプローチ(5.2節～)
 ベイズ推定アプローチ(5.7節)

図5.3 多層パーセプトロンの関数近似能力

青：データ点
赤：ネットワークの出力
他：隠れユニットの出力

隠れユニット
y ( x)  x 2
y(x)  sin( x) 活性化関数
⇒tanh

出力ユニット
活性化関数
⇒線形

0 ( x  0)
H ( x)  
1 ( x  0)

y(x)  x y (x) : ヘビィサイドステップ関数

図5.4 2クラス分類問題での隠れユニットの役割

入力変数：2個
隠れユニット：2個
（活性化関数：tanh）
出力変数：1個
（活性化関数：ロジスティックスシグ
モイド関数）

緑：最適な決定境界
赤：ネットワーク出力の決定面
青：隠れユニットのz=0.5の等高線

5.1.1 重み空間対称性
フィードフォーワードネットワークは、同じ入力から出力
への関数を表す重みベクトルwが複数選べる
 Ex.活性化関数tanhは奇関数なので、そのユニットへの入力に
対する重みとバイアス全ての符号を反転させ、さらに出力の
符号を反転させれば、元のネットワークと同一となる。
 M個の隠れユニットに対し、「符号反転」対称性はM個あるの
で、任意の与えられた重みベクトルと等価な重みベクトルは全
部で 2M 個

 隠れユニット同士の重みとバイアスを入れ替えることも出来る。
交換対称性により、M !個の等価な重みベクトルが存在する。
 全部で M !2 M個の等価な重みベクトルが存在

5.2 ネットワーク訓練
 ニューラルネットワークのパラメータ決定問題を議論する
 パラメータ決定問題の最も単純なアプローチは、二乗和誤差
関数の最小化
1 N
E (w )   y (x n , w )  t n
2
入力ベクトル{xn}
2 n 1 目標ベクトル{tn}

 だが、はじめにネットワーク出力を確率的に解釈することで
ネットワークの訓練について一般的に議論することが出来る
(1.5.4節:推論と決定)
 また、確率的解釈をする事によって、出力ユニットの非線形活
性化関数の選択や誤差関数の選択にさらに明確な理由付け
が可能になる

 回帰問題
 目標変数はニューラルネットワークの出力で与えられる平均
を持つガウス分布に従うと仮定（より一般的な例は、5.6節）
p(t | x, w )   (t | y (x, w ),  1 ) １つの目標変数:t
ガウスノイズの精度:β

 尤度関数 N
p (t | x, w,  )   p (t n | x n , w,  ) 入力ベクトル{xn}
n 1 目標ベクトル{tn}
βN N N
 ln p(t | x, w,  )   { y (x n , w )  t n }  lnβ ln( 2 )
2
π
2 n 1 2 2
 負の対数尤度を取ると、誤差関数が得られる

 ここでは最尤推定アプローチのみを考える
（ベイズ理論アプローチは、5.7節)
 ニューラルネットワークの文献では、誤差関数の最小化に
よってパラメータを求めることが多い
 まずは、最尤推定解wMLを求める。wに関する二乗和誤差関
数の最小化は、定数部分を除けば尤度関数の最大化と等価
1 N
E (w )   y (x n , w )  t n 
2

2 n 1

 しかし、ネットワーク関数y (x n , w ) の非線形性のため誤差は非
凸。現実には極大点が求まる(5.2.1節)

 wMLが求まれば、 βは負の対数尤度の最小化により求まる
N
1

1
 y (xn , w ML )  tn 2
βML N n 1 w ML
：wの最尤推定解

 目標変数が複数の場合
 x,wについての条件付き確率が独立で、ノイズ精度βが共通
であると仮定（wMLの導出は、演習5.2)
p(t | x, w )   (t | y (x, w ),  1I )
 ノイズ精度は以下の式で与えられる
1 N
1
  y (xn , w ML )  t n 2
βML NK n 1
K：目標変数tの次元

 誤差関数と出力ユニットの活性化関数には自然な組み
合わせがある(4.3.6節：正準連結関数）
 Ex.回帰問題：二乗和誤差
 活性化関数誤差関数
恒等写像出力と正解との「誤差」
E
y k  ak  yk  t k
ak

 ２クラス分類問題
 クラスC1がt=1、クラスC2がt=0となる目標変数
 活性化関数は、0  y(x, w)  1 となるようにする
 4.3.6節より、活性化関数をロジスティックシグモイド関数とする
1
y   (a) 
1  exp( a )
 目標変数の条件付き分布は、以下のベルヌーイ分布で表す
ことが出来る

p(t | x, w )  y (x, w )t {1  y (x, w )}1t

 訓練集合が独立な観測値である場合、負の対数尤度で与え
られる誤差関数は以下の式となる
N
E (w )   t n ln yn  (1  t n ) ln(1  yn )
n 1
yn  y (x n , w )
 上式は、交差エントロピー誤差関数(cross-entropy error
function)である
 今回のモデルでは、(ラベル付け誤差)=0を仮定(演習5.4)

 K個の異なる２クラス分類問題（演習5.5）
K
p(t | x, w )   yk (x, w )tk {1  yk (x, w )}1tk
k 1
N K
E (w )   t nk ln ynk  (1  t nk ) ln(1  ynk )
n 1 k 1
ynk  yk (x n , w )

 4章の線形クラス分類モデルでは、それぞれのクラス分類問
題は独立に解く
 一方、ニューラルネットワークによる解は、
ネットワークの第1層の重みパラメータが
様々な出力で共有される
 第1層で非線形特徴抽出を実行していると
みなせるため、異なる出力間で特徴を共有
計算量の節約や汎化性能の向上が望める

 標準的な多クラス分類問題
 それぞれの入力がK個の排他的クラスの１つに割り当てられ
ている。目標変数 t k  {0,1} は1-of-K表記で表す。
 誤差関数
N K
E (w )   t nk ln yk (x n , w )
n 1 k 1

 出力ユニットの活性化関数(4.3.4節に対応)
exp(ak (x, w))
yk (x, w) 
ソフトマックス関数  exp(a j (x, w))
j

s.t.0  yk  1, k yk  1

 yk ( x, w ) はすべてのak ( x, w ) に定数を加えても不変
 すべての ak ( x, w ) に対して同じ増分となるwの方向に対して、
誤差関数は定数となる
 この退化を除くには、適当な正則化項を誤差関数に導入する

 誤差関数の特定の出力ユニットの活性に関する微分
E
 yk  t k
ak

 まとめ
 出力ユニットの活性化関数と対応する誤差関数は、問題の形
によって自然に選択される(4.3.6節：正準連結関数)
 Ex.回帰問題：線形出力関数／二乗和誤差
1 N
E (w )   y (x n , w )  t n 
2

2 n 1

 Ex.２クラス分類問題：ロジスティックシグモイド関数／交差エントロ
ピー誤差関数 N

y   (a) 
1 E (w )   t n ln yn  (1  t n ) ln(1  yn )
1  exp( a ) n 1

 Ex.他クラス分類問題：ソフトマックス関数／多クラス交差エントロ
ピー誤差関数

5.2.1 パラメータ最適化
 選ばれた誤差関数 E (w )を最小化するwを見つけたい
w  w  E  w T E (w )

 ここでE (w ) は誤差関数が最も変化する方向で、E(w)はw
のなめらかで連続な関数なので、最小値は誤差関数の勾配
がゼロになる点にある⇒E (w)  0：停留点

 誤差関数の重みパラメータとバイアスパラメータへの依存性
は高い非線形性があるため、停留点は重み空間内に多数存
在することが多い。(Ex. 5.1.1節:重み空間対称性)
M !2 M

5.2.1 パラメータ最適化
 大域的最小点(global minimum)：任意の重みベクトルに対す
る誤差関数最小値に相当する極小点
 局所的最小点(local minumum)：それ以外の極小点

 E (w)  0 を解析的に解くことは明らかにほぼ不可能
 数値的反復手順を用いる
γ:反復ステップ数
w ( 1)  w ( )  w ( )
( )
 多くのアルゴリズムでは、重みベクトルの更新量w に誤差
関数の勾配情報E (w )
を利用する

5.2.2 局所二次近似
 誤差関数の局所二次近似を考える
~
 重み空間内のある点 w の周りの誤差関数のテイラー展開
~ )  ( w  w )T b  1 ( w  w ) T H ( w  w )
E (w )  E (w ~ ~ ~
2
 勾配の局所近似（上式をwで微分)
b  E |w  w
~

E (w)  b  H(w  w) ~
E
(H ) ij 
~に近いwでは、このテイラー展開は wi w j ~
 w w w

誤差関数とその勾配をよく近似している

 誤差関数の極小点 w の周りでの局所二次近似
1
E ( w )  E ( w )  ( w  w  )T H ( w  w  )


2
 幾何学的解釈
 ヘッセ行列Hの固有方程式を考える(付録C.33)
Hu i λi u i s.t. uT u j  ij
i

 このとき、( w  w を固有ベクトルの線形和に展開できる
)
(w  w  )    i u i
i

 この変換は原点を w  に平行移動し、各軸を固有ベクトルに
合わせるように回転する座標変換とみなせる（付録C.39)

 誤差関数は以下の形で書ける
1
E (w )  E (w )  λiαi2


2 i

 正定値
v v T Hv  0
v   ci u i
i

v T Hv   ci2u i
i
 したがって、ヘッセ行列Hは、全ての固有値が正の時、またそ
の時に限り正定値となる

 誤差関数Eの等高線は、先程の座標変換により原点を中心と
する楕円となる

 v v T Hv  0 を満たすとき、極小点となる

5.2.3 勾配情報の利用
 誤差逆伝播法を用いれば、効率的に誤差関数の勾配を評価
出来る（5.3節)
~ )  ( w  w )T b  1 ( w  w ) T H ( w  w )
E (w )  E (w ~ ~ ~
2
b  E |w  w
~
 bとHには、W(W+3)/2個の独立な要素
 W:wの次元 E
O (W 2 ) (H ) ij 
 したがって、解を求めるには wi w の独
j w w
~
立な要素の情報が必要
 さらに、関数の評価に O(W ) ステップ必要
 極小値を見つけるために必要な計算量は、このアプローチで
は、
O(W 2 )  O(W )  O(W 3 )

5.2.3 勾配情報の利用
 勾配情報を利用するアルゴリズムと比較
 E (w) の評価ごとにW個の情報が得られ、O(W )
回の交配
の評価で関数の極小点を見つけることが期待できる

 誤差逆伝播を利用すれば、各勾配の評価は O(W ) ステップ、
極小点はO (W 2 ) ステップで見つけられる

5.2.4 勾配降下最適化
 勾配情報を用いた最も簡単なアプローチ
w ( 1)  w ( )  E (w ( ) )  0
学習率パラメータ

 ここで誤差関数E(w)は、それぞれの反復ステップにおいて、
すべての訓練集合で処理して計算している
 すべてのデータ集合を一度に使うテクニック：バッチ訓練法
 各ステップで誤差関数の減尐率が最大となる方向に重みベク
トルを動かす：勾配降下法／最急降下法
 実際には性能が悪い
 十分に良い極小点を見つけるには、ランダムに初期値を設定
し、複数回アルゴリズムを実行する必要がある

 バッチ最適化手法：共役勾配法／準ニュートン法

5.2.4 勾配降下最適化
 勾配降下法のオンライン版
 独立に得られた観測値に対する最尤法に基づく誤差関数は、
各データ点を表す項の和
N
E ( w )   En ( w )
n 1

w ( 1)  w ( )  En (w ( ) )

 重みベクトルの更新を１回ごとに１つのデータ点に基づいて作
成する手法：逐次的勾配降下法／確率的勾配降下法
 データの冗長度を効率的に扱うことが可能
 局所的極小値を回避出来る可能性がある

5.3 誤差逆伝播(error backpropagation)
 本節の目標
 フィードフォワードNNについて、誤差関数E(w)の勾配を効率良く評
価するテクニックを見つける
 誤差逆伝播
 順向きと逆向きの交互に情報がネットワークを流れる局所的なメッ
セージパッシングスキームを用いてE(w)の勾配評価を実現

 多くの訓練アルゴリズムは２つのステージに分けられる
 微分評価のためのネットワーク上の誤差逆伝播のステージ
 計算された微分を用いた重み調節のステージ
 逆伝播では、微分評価の計算論的に効率的な方法を提供し
ている点で貢献が大きい（第一ステージ）

5.3.1 誤差関数微分の評価
 多くの誤差関数は、訓練集合の各データに対応する誤差項
の和で表される N
E ( w )   En ( w )
n 1

 上の誤差関数の1つの項に対する勾配 En (w )を評価する問
題を考える
 バッチ手法の場合には、訓練集合全体についての和をとる

 単純な線形モデル
yk   wki xi {yk}: 出力
{xi}: 入力変数
i

 誤差関数が以下の式で与えられる場合を考える
En    ynk  t nk 
1 2 {tnk}:目標変数
ynk  yk ( xn , w)
2 k
 この時、誤差関数の重みパラメータwkiに関する勾配は以下の
式となる。
En
 
 ynj  t nj xni
w ji
 この式は、出力側の「誤差信号」 y nj  t nj
と入力側の「変数」 xni
の
積という局所的な計算と解釈出来る

 ロジスティックシグモイド関数と交差エントロピー誤差関数／
ソフトマックス活性化関数と交差エントロピー誤差関数の場合
も類似の式が導出される(4.3.2節)

 より複雑な多層フィードフォワードNNへ拡張
 一般のフィードフォワードNNでは、それぞれのユニットは下の
形の入力の重み付き和を計算する
i:ユニットjへ入るユニット
a j   w ji zi {zi} : ユニットjに結合があるユニットの出力
i {wji}: ユニットiからjへの結合重み
z j  h(a j ) h(・) : 非線形活性化関数

 バイアスは明示的に扱う必要はない(5.1節)

 順向き伝播(forward propagation)
 訓練集合に対し、先程のフィードフォワードNNを適用すること
でネットワークのすべてのユニットの出力を計算すること

 誤差関数Enの重みwjiに関する微分の評価を考える
 以下、添字nを省略する

En En a j
 （偏微分の連鎖法則）
w ji a j w ji
En a j En
j  （誤差）  zi より、   j zi
a j w ji w ji

 右式から、ある重みの出力側のユニットのδと、 En
  j zi
入力側のユニットのzの値を掛け合わせると、 w ji
必要な微分が得られることが分かる
 これは単純な線形モデルの場合と同様の結論(5.47)

 各隠れユニット及び出力ユニットのδを評価する
 5.2節より、正準連結関数を活性化関数に用いた出力ユニット
では、δの値は、右の式になる。 En
  k  yk  t k
ak

 隠れユニットのδは、下の式で評価出来る
E E a
j  n  n k
a j k a k a j

ユニットｊ→ユニットkの結合が存在する全てのkについて総和をとる

En ak
j 
k a k a j

 
  wkih(ai ) 
  k  i 
k a j
 h(a j ) wkj k （逆伝播公式）
k

逆向き伝播では、wkjの最初の添字について和を取ることに注意。

順向き伝播では、２番目の添字について和を取った。

出力ユニットのδの値は(5.54)からすでにわかっているので、再帰的に全てのδ
が評価出来る。

 誤差逆伝播アルゴリズムの手順まとめ
1. 入力ベクトルxnをネットワークにいれ，下式を用いてネットワーク上
を順伝播させ，すべての隠れユニットと出力ユニットの出力を算出
a j   w ji zi (5.48) z j  h(a j ) (5.49)
i
2. (5.54)を用いてすべての出力ユニットのδkを評価
 k  yk  t k (5.54)

3. (5.56)を用いてδを逆伝播させ，ネットワークの全ての隠れユニット
のδjを得る
 j  h' (a j ) wkj k (5.56)
k

4. (5.53)を用いて必要な微分を評価する
En
  j zi (5.53)
w ji

 バッチ手法については、全体の誤差Eの微分は誤差逆伝播の
ステップを訓練集合１つ１つについて繰り返し、総和を取るこ
とで得られる
E En

w ji n w ji

 今回の誤差逆伝播の導出では、全てのユニットが同じ活性化
関数h(･)を持つことを暗に仮定していた。しかし、個々のユ
ニットが異なる活性化関数を持つ場合に拡張するのは簡単

5.3.2 逆伝播手続きの簡単な例
 ２層ネットワーク
 二乗和誤差関数
1 K
En    ynk  t nk 
2

2 k 1
yk:特定の入力パターンxnに対する出力ユニットkの出力
tk:xnに対応する目標値

 出力ユニットは線形活性化関数
y k  ak

 隠れユニットはシグモイド活性化関数
ea  ea
h(a )  tanh(a)  a a h(a)  1  h(a) 2
e e

 訓練集合のそれぞれのパターンに順向き伝播を実行
D
a j   w(ji1) xi （隠れユニット活性の算出）
i 0

z j  tanh( a j ) （隠れユニットパラメータの算出）

M
yk   wkj2 ) z j
(
（出力ユニットの出力の算出）
j 0

 k  yk  t k （誤差δの算出）

 誤差を逆伝播させる

 j  1  z  w 
K
2
j kj k
k 1

 各隠れユニットのδを得たら、重みの微分を評価する
E n
  j xi
w ji
(1)

En
 k z j
wkj
( 2)

5.3.3 逆伝播の効率
 ネットワークの重みとバイアスの総数Wに対する、誤差
関数の微分評価に必要な計算量を測ってみる
 １入力パターンに対し、誤差関数の評価はO(W)必要
 非常にスパースなネットワークの場合を除き、重み数がユニット数よ
りも遥かに多いのが一般的なため、順向き伝播の下式（各ユニット
の活性の評価）の計算がボトルネックとなる。 D
a  w x j 
i 0
ji i

 逆伝播にAlternativeな手法として、有限幅の差分近似の利用
が考えられる。これはそれぞれの重みに摂動を加えて差を計
算することで、誤差関数の微分を近似する
En En ( w ji   )  En ( w ji )
  O( )   1
w ji 

5.3.3 逆伝播の効率
 εの値を小さくすること、中心差分を用いることで劇的に精度を
向上させることが出来る
En En ( w ji   )  En ( w ji   )
  O( 2 )
w ji 2

 数値微分手法では、重みがW個ある時にそれぞれ個別に摂
動を与える必要があるため、O(W)ステップ必要。全体として
は、O (W 2の計算量となる
)

 実用上は、逆伝播の頑健性のチェックのために、中心差分の
手法が使用されることが多い。

5.3.4 ヤコビ行列(Jacobian matrix)
 逆伝播のテクニックは、他の微分の計算にも応用可能
 ヤコビ行列:各要素がネットワーク出力の入力に関する微分で
与えられる行列
 y1 y1 
  
 x1 xM 
{yk}: ネットワークの出力
J      {xi}: ネットワークの入力
 y N y N 
 x 
xM 
 1 
 ヤコビ行列は、異なるモジュールで構成されたシステムにお
いて便利な役割を果たす
 それぞれのモジュールの関数は固定でも適応可能でもよく、
微分可能であれば線形でも非線形でも良い

 右図のモジュール型について考える
 パラメータwに関して誤差関数を最小化
したい
 この時、誤差関数の微分は、
E E yk z j

w k , j yk z j w

 真ん中の項に、赤色のモジュールのヤコビ行列が現れる
 y1 y1 
  
 z1 z M 
J     
 y N y N 
 z  
z M
 1 

 ヤコビ行列は、入力に任意の既知の誤差xi がある場合、訓
練済みのネットワーク上にxi を伝播させて、出力誤差への寄
与 y k を評価出来る
yk
yk   xi xi が非常に小
i xi

 一般に訓練済みのNNで表現されるネットワーク写像は非線
形になる
 したがって、ヤコビ行列の各成分は入力ベクトルに依存する
 大きく摂動させたい場合は、ヤコビ行列を再計算する必要が
ある
 y1 y1 
  
 x1 xM 
J     
 y N y N 
 x  
xM
 1 

 ヤコビ行列は逆伝播の手続きを用いて評価可能
yk yk a j yk
J ki     w ji
xi j a j xi j a j
 上式の和は、ユニットi→ユニットjの結合が存在する全てのjに
ついて取る

 次に、再帰的逆伝播公式を書き下す
yk yk al yk
  h(a j ) wlj
a j l al a j l al
 上式の和は、ユニットj→ユニットlの結合が存在する全てのlに
ついて取る

 出力ユニット
 Ex.各出力ユニットの活性化関数がシグモイド関数
yk
  kl ( al )
al
 Ex.各出力ユニットの活性化関数がソフトマックス関数
yk
  kl yk  yk yl  kl :クロネッカーのデルタ関数
al

 ヤコビ行列は、順向き伝播の定式化を用いて評価することも
可能(演習5.15)
 数値微分を用いてチェック可能だが、入力Dに対して2D回の
順向き伝播が必要

5.4 ヘッセ行列(Hesse matrix)
 逆伝播は、誤差の2階微分を評価するのに用いることも可能
2E
w ji wlk

 ここで、全ての重み／バイアスパラメータを1つのベクトルwの
要素wiと考えると、2階微分がヘッセ行列Hで表せる
 2E 2E 
  
 w1w1 w1wW 
H ij      
 2E 2E 
  
 wW w1 wW wW 
 

5.4 ヘッセ行列(Hesse matrix)
 ヘッセ行列は、NNの様々な側面で重要な役割を果たす

 ヘッセ行列の評価には様々な近似スキームが用いられてきた
 逆伝播を拡張することで直接計算可能

 ネットワーク内にW個のパラメータがあれば、ヘッセ行列の評
2
価に必要な計算量はO (W ) 以上
 計算量が O (W 2 ) となる効率的手法が存在する

5.4.1 対角近似
 ヘッセ行列の応用上、逆行列が必要になることも多い
 逆行列を求めるため、ヘッセ行列を対角近似する
 誤差関数をすべての入力パターンに対する誤差の総和と置く
N
E   En
n 1
 このとき、
 2 En   En   2 En 2
  zi   z
w ji w ji
2  a  a 2 i
 j  j

 2 En  2 En En
 h(a j )  wkj wk j
2
 h(a j ) wkj
a j2
k k ak ak  k ak

5.4.1 対角近似
 2階微分の非対角項を無視すれば、
 2 En  2 En En
 h(a j )  wkj
2 2
 h(a j ) wkj
a j2
k ak 2
k ak
 この近似は対角項のみを評価すればよいので、必要な計算
量はO（W)

 対角近似の主要な問題点
 実際のヘッセ行列は極端に非対角であることが多い
 したがって、この近似を使うのは注意が必要

5.4.2 外積による近似
 NNの回帰問題への応用
 二乗和誤差関数を用いるのが一般的
1 N
E   ( yn  t n ) 2
2 n 1
 この時、ヘッセ行列は以下の形で書ける
N N
H   E   yn (yn )   ( yn  t n ) yn
T

n 1 n 1

 二乗和誤差を最小化する最適な関数は、目標データの条件
付き平均(1.5.5節)
 よって、( yn  t n ) という値は平均ゼロの確率変数
  y n と ( y n  t n )が無相関ならば、上式の第二項がゼロに平均
化されることが期待できる(演習5.17）

5.4.2 外積による近似
N N
H   yn (yn )   b nbT
T (Levenberg-Marquardt近似)
n 1
n
n 1
(外積による近似)

 ヘッセ行列の外積近似にはO(W)ステップで評価可能
 この近似は適切に訓練されたネットワークに対してだけ成り
立つことに注意 yn  E[t | xn ]

 ロジスティックシグモイド関数(演習5.19)
N
H   yn (1  yn )b nbT
n
n 1

 ソフトマックス関数(演習5.20)

5.4.3 ヘッセ行列の逆行列
 外積による近似を用いると、ヘッセ行列の逆行列を近似する
ための計算上効率的な手続きを導出可能
 ヘッセ行列は以下の式で近似出来る
N N
H N   b nb    w an ( w an )T
T
n
n 1 n 1

  w a n ：出力ユニットの出力勾配へのデータ点nからの寄与

 逐次的にヘッセ行列の逆行列を構成する
 L個のデータ点を用いて、ヘッセ行列の逆行列がえられている
と仮定する
H L 1  H L  b L 1bT 1
L

5.4.3 ヘッセ行列の逆行列
 Woodbury恒等式(付録C.7)を利用すると、

H 11  H L  b L1bT 1
L L 
1

H 1

H 1
L b
b L1 T 1H 1
L L 
1  bT 1H 1b L1
L
L L

 L+1=Nとなるまで繰り返す
 行列H0の初期値は、αを小さな定数としてαIに選ぶ N

その結果、このアルゴリズムは、 I  H N  I   b nb n の逆行
 T

n 1
列を求めることになる

 ヘッセ行列は、準ニュートン非線形最適化アルゴリズムなどで
間接的に計算できることもある

5.4.4 有限幅の差分による近似
 有限幅の差分近似を用いて、誤差関数の2階微分を求めるこ
とも出来る
2E 1

 2 E ( w ji   , wlk   )  E ( w ji   , wlk   )
w ji wlk 4
 E ( w ji   , wlk   )  E ( w ji   , wlk   ) O ( 2 )

 ヘッセ行列にはW^2個の要素が存在
 要素評価には、O(W)の計算量が必要な順向き伝播が4回
3
 したがって、このアプローチでのヘッセ行列評価は O (W )

 実用上は、逆伝播法のソフトウェア実装のチェックにおいて、
非常に便利

5.4.4 有限幅の差分による近似
 数値微分をより効率的に行うには、誤差関数の1階微分を逆
伝播で先に計算し、この結果に中心差分を応用すれば良い
2E 1  E
 E 

  ( wlk   )  ( wlk   )  O( 2 )
w ji wlk 2  w ji
 w ji 

 勾配の評価はO(W)ステップ(5.3.3節)
 摂動させる重みもW個
 したがって、ヘッセ行列は O (W 2 ) で評価出来る

5.4.5 ヘッセ行列の厳密な評価
 今までは、ヘッセ行列やその逆行列の様々な近似スキームを
考えてきた

 一方、逆伝播のテクニックを拡張すれば、任意のフィード
フォーワード構造NNのヘッセ行列を厳密に評価出来る
 この手法は、どんな微分可能な誤差関数にも、任意の微分可
能な活性化関数を持つどんなネットワークにも適用出来る
2
 計算に必要なステップ数はO (W )

 2層の重みを持つNNの場合
E  2 En i,i’:入力ユニット
k  n M kk   j,j’:隠れユニット
ak ak ak  k,k’:出力ユニット
 微分のチェーンルールを用いて、このネットワークのヘッセ行
列は以下のように考えることが出来る(5.3.1-2節の応用)
 両方の重みが第二層
 2 En   En ak  
 ( 2)  
wkj wk j wkj  k
( 2) ( 2)  a  w( 2) 
k j 

ak   En 
 ( 2) 
 a z j 
wkj ak  k   
 z j z j M kk 
z j  h( a j ) ：ユニットjの出力

 両方の重みが第一層
 以下のチェーンルールから、導くことが出来る
 a j 
 (1)
w ji
(1)
w ji a j
z j ak 
 xi 
a j k z j ak

 xi h(a j ) wkj2 )
(

k ak

 重みが1つの層に1つずつある場合も同様
 バイアス項や層を飛び越えた結合を含めた場合も、上式の
チェーンルールの形を変化させるだけで容易に拡張可能

5.4.6 ヘッセ行列の積の高速な計算
 多くの場合、ヘッセ行列Hそのものではなく、あるベクトルvと
の積が知りたい
2
 ヘッセ行列の評価には O (W )の計算量と記憶容量が必要
T
 一方、直接v H O(W )
をで評価するアプローチが存在する
v T H  v T(E )  R{E} v Tを R{}
と置く

E は順向き伝播／逆伝播の方程式から得られる(5.3.1節)
 R{} の定義から、R{w}  v

 2層NN(線形出力ユニット／二乗和誤差関数)
 順向き伝播方程式にR{・}を作用させる
a j   w(ji1) xi R{a j }   v ji xi
i i

z j  h( a j ) R{z j }  h(a j ) R{a j }
yk   wkj2 ) z j
(
R{ yk }   wkj2 ) R{z j }   v jk z j
(

j j j

 逆伝播の式にもR{・}を作用させる
 k  yk  t k
 j  h' (a j ) wkj k
k

R{ k }  R{ yk }
R{ j }  R{h(a j )} wkj k  h(a j ) R{wkj } k  h(a j ) wkj R{ k }
k k k

 h(a j ) R{a j } wkj k  h(a j ) vkj k  h(a j ) wkj R{ k }
k k k

 最後に、誤差の1階微分の方程式にR{・}を作用させる
E  E 
 
 k z j R  ( 2)   R{ k }z j  k R{z j }
wkj
( 2)
 wkj 
 
E  E 
 
  j xi R  (1)   R{ j }x i
w ji
(1)
 w ji 
 

 隠れユニットの活性や出力・誤差、出力ユニットの出力や誤差
T
にR{・}を作用させた変数を導くことで、 v H を求めることが出
来る
 v={0,0,...,1,...,0}のベクトルを用いてこのテクニックを使用すれ
ば、完全なヘッセ行列を評価することも出来る

PRML5

Recomendados

Recomendados

Mais conteúdo relacionado

Mais procurados

Mais procurados (20)

Semelhante a PRML5

Semelhante a PRML5 (20)

Mais de Hidekazu Oiwa

Mais de Hidekazu Oiwa (12)

Último

Último (10)

PRML5