大阪PRML読書会#1資料

1章
読書会#1 資料
twitter: @wrist
facebook: hiromasa.ohashi

13年12月25日水曜日

スライド作成について
•
•
•

図: 著者HPから落としてくる
表: CamScannerというiPhoneアプリで撮影
数式: tex2imgで画像を作成

•

osxだとCUI版がある

まえがき
• 追加資料のURL
• http://research.microsoft.com/en-us/um/
people/cmbishop/PRML

• PRMLに載ってるURLでもリダイレクト
されます


数式の表記(1)


数式の表記(2)


数式の表記(3)

•

最後のXの書体が怪しい
(ここではタイプライタ体)


第1章目次(1)
1.

序論
1.1. 例:多項式フィッティング
1.2. 確率論
1.2.1.確率密度
1.2.2.期待値と分散
1.2.3.ベイズ確率
1.2.4.ガウス分布
1.2.5.曲線フィッテイング再訪
1.2.6.ベイズ曲線フィッティング


第1章目次(2)
1.

序論
1.3. モデル選択
1.4. 次元の呪い
1.5. 決定理論
1.5.1.誤識別率の最小化
1.5.2.期待損失の最小化
1.5.3.棄却オプション
1.5.4.推論と決定
1.5.5.回帰のための損失関数


第一章目次(3)
1. 序論
1.6.情報理論
1.6.6.相対エントロピーと相互情報量


序論

• 28x28ピクセルの画像
= 784次元の実数値ベクトルx


機械学習のアプローチ
•

訓練集合(training set)を使ってモデルのパラメー
タを適応的に調整

•
•
•

N個の手書き数字の集合{x1,...,xN}
訓練集合の各々の数字は既知

各々の数字に対応するカテゴリは
目標ベクトル(target vector)tを用いて表現


モデルの決定
•

機械学習によってy(x)を獲得

•

入力画像xに対して目標ベクトルと同じ符号
化の出力ベクトルy

•
•

訓練(training)段階、学習(learning)段階

テスト集合(test set)に対しても数字を推定可能

•

汎化(generalization)

•

訓練に用いたのとは異なる事例の分類能力

実際の応用
• 前処理(preprocessing)によって新しい変
数に変換

• 画像の場合は拡大縮小、回転
• 特徴抽出(feature extraction)とも

機械学習の分類
•

教師あり学習(supervised learning)

•
•

•

クラスタリング(clustering)
密度推定(densitiy estimation)
視覚化(visualization) => 射影なども含む

強化学習(reinforcement learning)

•

出力が連続変数:回帰(regression)

教師なし学習(unsupervised learning)

•
•
•

•

出力が離散カテゴリ:クラス分類(classiﬁcation)

報酬を最大にするような行動を見つける

1.1 例：多項式曲線フィッティング

• N個の観測点から緑の曲線を見つけたい
•

新たな入力x^に対する予測

曲線フィッティング(curve ﬁtting)

•
•
•

Mは多項式の次数(order)
多項式係数w0,...,wMをまとめてベクトルw
xの非線形関数であるがwの線形関数

•

線形モデル(linear model)

ﬁttingの方法

•
•

誤差関数(error function)の最小化
二乗和誤差(sum-of-squares error)

•
•
•

1/2を乗じているのは変形時に便利なため
非負
0になるのはy(x,w)が全訓練データ点をちょうど通る時のみ

二乗誤差関数の幾何的解釈

• 緑のバーの二乗和が誤差関数

誤差関数の最小化
• wで微分して0になる係数を探す
• 誤差関数はwに関して2次
• 微分すると線形
• ただひとつの解w*
• 結果として得られる多項式y(x,w)

多項式の次数の選び方
• 多項式の次数Mの選択
• モデル比較(model comparison)、モデ
ル選択(model selection)


様々なMに対する曲線


過学習
• M=9の時は学習データとなる点全てを
通過しているが曲線が発散

• 過学習(過適合:over-ﬁtting)


Mによる汎化性能の違いの評価

•
•

テストセットを新たに作成し誤差を評価
平均二乗平方根誤差(root-mean-square error;
RMS error)による評価

•
•

Nで割るので異なるデータ集合の比較が可能
平方根により目的変数tと同じ次元に

Mによる誤差の違い

•
•
•

小さなMでは誤差が大きい
3<M<8では誤差が小さい
M=9では訓練データに対しては誤差は0だが評価データに対
しては誤差が大きい


なぜM=9の時にうまくいかないのか

• M=3次多項式と同程度以上の結果を出
すことができるのではないか？

• sinの級数展開には高次の項が存在


Mによる係数の違い

• Mの増加に伴い係数が発散
• ランダムノイズに引きずられる

M=9でデータサイズを変えた場合

•
•

サイズが増えれば過学習の問題が深刻でなくなる
一般にモデルパラメータの何倍かのデータが必要

最尤推定と過学習
•

最小二乗誤差基準の学習

•
•
•

最尤推定(maximum likelihood)
過学習は最尤推定において一般的な性質

過学習を避ける方法

•

ベイズ的(Bayesian)アプローチが有効

•
•

有効パラメータ数(number of effective parameters)が自
動的にデータサイズに適合

誤差関数への罰則項の追加

最小二乗誤差基準で過学習を避けるには

•
•
•

正則化項(罰則項)の導入
||w||2=wTw=w0+w1+...+wM

•

縮小推定(shrinkage)

•
•

w0は外すこともある

2次の正則化の場合はリッジ回帰(ridge regression)
ニューラルネットワークでは荷重減衰(weight decay)

λの値による変化

• lnλ=-18だと良いが
lnλ=0だと再び
悪くなる

正則化項が汎化誤差に与える影響

•

RMS誤差をlnλに対してプロット

•
•

λが実質的なモデルの複雑さを制御

訓練集合だけでなく確認用集合(検証用集合; validation
set; ホールドアウト集合(hold-out set))も使うべき

1.2 確率論(probability theory)

• 不確実性に対する定量化と操作に関す
る一貫した枠組みを与える

• パターン認識の中心


確率論の概念

• 箱の一つをランダムに選び、果物を一
つランダムに選ぶ

• 赤の箱を40%、青の箱を60%で選ぶ

楽天スーパーセール
•

楽天が優勝した時にみかん二箱買ったら
一箱に纏められて送られてきました

•


二箱とは一体

確率の直感的な定義
• どの箱を選ぶかを表す確率変数B={r,b}
• どの果物を選ぶかを表す確率変数F={a,o}
• 確率=(ある事象の生起回数)/(全試行回数)
• ただし無限回試行した時の極限
• P(B=r)=4/10, P(B=b)=6/10
• Pは[0,1]に収まり、総和が1

確率に関する2つの法則

•
•


確率の加法定理(sum rule of probability)
確率の乗法定理(product rule of probability)

設定の一般化
•
•

2つの確率変数X,Y
Xは任意のxi(i=1,...,M)、
Yは任意のyj(j=1,...L)

•
•

全N回の試行、X=xi,Y=yjとなる試行回数をnij
Yと無関係にX=xiとなる回数をci、
Xと無関係にY=yjとなる回数をrj


各種確率
同時確率
(結合確率; joint probability)
周辺確率
(marginal probability)

加法定理の適用

条件付き確率
(conditional probability)
乗法定理


確率の基本法則とベイズの定理

• 確率の加法定理と確率の乗法定理
• ベイズの定理(Bayes’ theorem)
• p(X,Y)=p(Y,X)よりp(Y|X)p(X)=p(X|Y)p(Y)

大阪PRML読書会#1資料

Recomendados

Recomendados

Mais conteúdo relacionado

Mais procurados

Mais procurados (20)

Destaque

Destaque (20)

大阪PRML読書会#1資料