SlideShare uma empresa Scribd logo
1 de 39
Baixar para ler offline
1章
読書会#1 資料
twitter: @wrist
facebook: hiromasa.ohashi

13年12月25日水曜日
スライド作成について
•
•
•

図: 著者HPから落としてくる
表: CamScannerというiPhoneアプリで撮影
数式: tex2imgで画像を作成

•
13年12月25日水曜日

osxだとCUI版がある
まえがき
• 追加資料のURL
• http://research.microsoft.com/en-us/um/
people/cmbishop/PRML

• PRMLに載ってるURLでもリダイレクト
されます

13年12月25日水曜日
数式の表記(1)

13年12月25日水曜日
数式の表記(2)

13年12月25日水曜日
数式の表記(3)

•

最後のXの書体が怪しい
(ここではタイプライタ体)

13年12月25日水曜日
第1章 目次(1)
1.

序論
1.1. 例:多項式フィッティング
1.2. 確率論
1.2.1.確率密度
1.2.2.期待値と分散
1.2.3.ベイズ確率
1.2.4.ガウス分布
1.2.5.曲線フィッテイング再訪
1.2.6.ベイズ曲線フィッティング

13年12月25日水曜日
第1章 目次(2)
1.

序論
1.3. モデル選択
1.4. 次元の呪い
1.5. 決定理論
1.5.1.誤識別率の最小化
1.5.2.期待損失の最小化
1.5.3.棄却オプション
1.5.4.推論と決定
1.5.5.回帰のための損失関数

13年12月25日水曜日
第一章 目次(3)
1. 序論
1.6.情報理論
1.6.6.相対エントロピーと相互情報量

13年12月25日水曜日
序論

• 28x28ピクセルの画像
= 784次元の実数値ベクトルx

13年12月25日水曜日
機械学習のアプローチ
•

訓練集合(training set)を使ってモデルのパラメー
タを適応的に調整

•
•
•

N個の手書き数字の集合{x1,...,xN}
訓練集合の各々の数字は既知

各々の数字に対応するカテゴリは
目標ベクトル(target vector)tを用いて表現

13年12月25日水曜日
モデルの決定
•

機械学習によってy(x)を獲得

•

入力画像xに対して目標ベクトルと同じ符号
化の出力ベクトルy

•
•

訓練(training)段階、学習(learning)段階

テスト集合(test set)に対しても数字を推定可能

•

汎化(generalization)

•
13年12月25日水曜日

訓練に用いたのとは異なる事例の分類能力
実際の応用
• 前処理(preprocessing)によって新しい変
数に変換

• 画像の場合は拡大縮小、回転
• 特徴抽出(feature extraction)とも
13年12月25日水曜日
機械学習の分類
•

教師あり学習(supervised learning)

•
•

•

クラスタリング(clustering)
密度推定(densitiy estimation)
視覚化(visualization) => 射影なども含む

強化学習(reinforcement learning)

•
13年12月25日水曜日

出力が連続変数:回帰(regression)

教師なし学習(unsupervised learning)

•
•
•

•

出力が離散カテゴリ:クラス分類(classification)

報酬を最大にするような行動を見つける
1.1 例:多項式曲線フィッティング

• N個の観測点から緑の曲線を見つけたい
•
13年12月25日水曜日

新たな入力x^に対する予測
曲線フィッティング(curve fitting)

•
•
•

Mは多項式の次数(order)
多項式係数w0,...,wMをまとめてベクトルw
xの非線形関数であるがwの線形関数

•
13年12月25日水曜日

線形モデル(linear model)
fittingの方法

•
•

誤差関数(error function)の最小化
二乗和誤差(sum-of-squares error)

•
•
•
13年12月25日水曜日

1/2を乗じているのは変形時に便利なため
非負
0になるのはy(x,w)が全訓練データ点をちょうど通る時のみ
二乗誤差関数の幾何的解釈

• 緑のバーの二乗和が誤差関数
13年12月25日水曜日
誤差関数の最小化
• wで微分して0になる係数を探す
• 誤差関数はwに関して2次
• 微分すると線形
• ただひとつの解w*
• 結果として得られる多項式y(x,w)
13年12月25日水曜日
多項式の次数の選び方
• 多項式の次数Mの選択
• モデル比較(model comparison)、モデ
ル選択(model selection)

13年12月25日水曜日
様々なMに対する曲線

13年12月25日水曜日
過学習
• M=9の時は学習データとなる点全てを
通過しているが曲線が発散

• 過学習(過適合:over-fitting)

13年12月25日水曜日
Mによる汎化性能の違いの評価

•
•

テストセットを新たに作成し誤差を評価
平均二乗平方根誤差(root-mean-square error;
RMS error)による評価

•
•
13年12月25日水曜日

Nで割るので異なるデータ集合の比較が可能
平方根により目的変数tと同じ次元に
Mによる誤差の違い

•
•
•

小さなMでは誤差が大きい
3<M<8では誤差が小さい
M=9では訓練データに対しては誤差は0だが評価データに対
しては誤差が大きい

13年12月25日水曜日
なぜM=9の時にうまくいかないのか

• M=3次多項式と同程度以上の結果を出
すことができるのではないか?

• sinの級数展開には高次の項が存在

13年12月25日水曜日
Mによる係数の違い

• Mの増加に伴い係数が発散
• ランダムノイズに引きずられる
13年12月25日水曜日
M=9でデータサイズを変えた場合

•
•
13年12月25日水曜日

サイズが増えれば過学習の問題が深刻でなくなる
一般にモデルパラメータの何倍かのデータが必要
最尤推定と過学習
•

最小二乗誤差基準の学習

•
•
•

最尤推定(maximum likelihood)
過学習は最尤推定において一般的な性質

過学習を避ける方法

•

ベイズ的(Bayesian)アプローチが有効

•
•
13年12月25日水曜日

有効パラメータ数(number of effective parameters)が自
動的にデータサイズに適合

誤差関数への罰則項の追加
最小二乗誤差基準で過学習を避けるには

•
•
•

正則化項(罰則項)の導入
||w||2=wTw=w0+w1+...+wM

•

縮小推定(shrinkage)

•
•
13年12月25日水曜日

w0は外すこともある

2次の正則化の場合はリッジ回帰(ridge regression)
ニューラルネットワークでは荷重減衰(weight decay)
λの値による変化

• lnλ=-18だと良いが
lnλ=0だと再び
悪くなる
13年12月25日水曜日
正則化項が汎化誤差に与える影響

•

RMS誤差をlnλに対してプロット

•
•
13年12月25日水曜日

λが実質的なモデルの複雑さを制御

訓練集合だけでなく確認用集合(検証用集合; validation
set; ホールドアウト集合(hold-out set))も使うべき
1.2 確率論(probability theory)

• 不確実性に対する定量化と操作に関す
る一貫した枠組みを与える

• パターン認識の中心

13年12月25日水曜日
確率論の概念

• 箱の一つをランダムに選び、果物を一
つランダムに選ぶ

• 赤の箱を40%、青の箱を60%で選ぶ
13年12月25日水曜日
楽天スーパーセール
•

楽天が優勝した時にみかん二箱買ったら
一箱に纏められて送られてきました

•

13年12月25日水曜日

二箱とは一体
確率の直感的な定義
• どの箱を選ぶかを表す確率変数B={r,b}
• どの果物を選ぶかを表す確率変数F={a,o}
• 確率=(ある事象の生起回数)/(全試行回数)
• ただし無限回試行した時の極限
• P(B=r)=4/10, P(B=b)=6/10
• Pは[0,1]に収まり、総和が1
13年12月25日水曜日
確率に関する2つの法則

•
•

13年12月25日水曜日

確率の加法定理(sum rule of probability)
確率の乗法定理(product rule of probability)
設定の一般化
•
•

2つの確率変数X,Y
Xは任意のxi(i=1,...,M)、
Yは任意のyj(j=1,...L)

•
•

全N回の試行、X=xi,Y=yjとなる試行回数をnij
Yと無関係にX=xiとなる回数をci、
Xと無関係にY=yjとなる回数をrj

13年12月25日水曜日
各種確率
同時確率
(結合確率; joint probability)
周辺確率
(marginal probability)

加法定理の適用

条件付き確率
(conditional probability)
乗法定理

13年12月25日水曜日
確率の基本法則とベイズの定理

• 確率の加法定理と確率の乗法定理
• ベイズの定理(Bayes’ theorem)
• p(X,Y)=p(Y,X)よりp(Y|X)p(X)=p(X|Y)p(Y)
13年12月25日水曜日

Mais conteúdo relacionado

Mais procurados

第8章 ガウス過程回帰による異常検知
第8章 ガウス過程回帰による異常検知第8章 ガウス過程回帰による異常検知
第8章 ガウス過程回帰による異常検知Chika Inoshita
 
混合ガウスモデルとEMアルゴリスム
混合ガウスモデルとEMアルゴリスム混合ガウスモデルとEMアルゴリスム
混合ガウスモデルとEMアルゴリスム貴之 八木
 
グラフィカル Lasso を用いた異常検知
グラフィカル Lasso を用いた異常検知グラフィカル Lasso を用いた異常検知
グラフィカル Lasso を用いた異常検知Yuya Takashina
 
[研究室論文紹介用スライド] Adversarial Contrastive Estimation
[研究室論文紹介用スライド] Adversarial Contrastive Estimation[研究室論文紹介用スライド] Adversarial Contrastive Estimation
[研究室論文紹介用スライド] Adversarial Contrastive EstimationMakoto Takenaka
 
PRML読書会#4資料+補足
PRML読書会#4資料+補足PRML読書会#4資料+補足
PRML読書会#4資料+補足Hiromasa Ohashi
 
POMDP下での強化学習の基礎と応用
POMDP下での強化学習の基礎と応用POMDP下での強化学習の基礎と応用
POMDP下での強化学習の基礎と応用Yasunori Ozaki
 
RでGARCHモデル - TokyoR #21
RでGARCHモデル - TokyoR #21RでGARCHモデル - TokyoR #21
RでGARCHモデル - TokyoR #21horihorio
 
PRMLの線形回帰モデル(線形基底関数モデル)
PRMLの線形回帰モデル(線形基底関数モデル)PRMLの線形回帰モデル(線形基底関数モデル)
PRMLの線形回帰モデル(線形基底関数モデル)Yasunori Ozaki
 
ベイズモデリングと仲良くするために
ベイズモデリングと仲良くするためにベイズモデリングと仲良くするために
ベイズモデリングと仲良くするためにShushi Namba
 
機械学習のためのベイズ最適化入門
機械学習のためのベイズ最適化入門機械学習のためのベイズ最適化入門
機械学習のためのベイズ最適化入門hoxo_m
 
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages. Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages. Satoshi Kato
 
計算論的学習理論入門 -PAC学習とかVC次元とか-
計算論的学習理論入門 -PAC学習とかVC次元とか-計算論的学習理論入門 -PAC学習とかVC次元とか-
計算論的学習理論入門 -PAC学習とかVC次元とか-sleepy_yoshi
 
社会心理学者のための時系列分析入門_小森
社会心理学者のための時系列分析入門_小森社会心理学者のための時系列分析入門_小森
社会心理学者のための時系列分析入門_小森Masashi Komori
 
機械学習におけるオンライン確率的最適化の理論
機械学習におけるオンライン確率的最適化の理論機械学習におけるオンライン確率的最適化の理論
機械学習におけるオンライン確率的最適化の理論Taiji Suzuki
 
【宝くじ仮説】The Lottery Ticket Hypothesis: Finding Small, Trainable Neural Networks
【宝くじ仮説】The Lottery Ticket Hypothesis: Finding Small, Trainable Neural Networks【宝くじ仮説】The Lottery Ticket Hypothesis: Finding Small, Trainable Neural Networks
【宝くじ仮説】The Lottery Ticket Hypothesis: Finding Small, Trainable Neural NetworksYosuke Shinya
 
色々な確率分布とその応用
色々な確率分布とその応用色々な確率分布とその応用
色々な確率分布とその応用Hiroki Iida
 
PRML輪読#1
PRML輪読#1PRML輪読#1
PRML輪読#1matsuolab
 
[DL輪読会]Scalable Training of Inference Networks for Gaussian-Process Models
[DL輪読会]Scalable Training of Inference Networks for Gaussian-Process Models[DL輪読会]Scalable Training of Inference Networks for Gaussian-Process Models
[DL輪読会]Scalable Training of Inference Networks for Gaussian-Process ModelsDeep Learning JP
 
構造方程式モデルによる因果推論: 因果構造探索に関する最近の発展
構造方程式モデルによる因果推論: 因果構造探索に関する最近の発展構造方程式モデルによる因果推論: 因果構造探索に関する最近の発展
構造方程式モデルによる因果推論: 因果構造探索に関する最近の発展Shiga University, RIKEN
 

Mais procurados (20)

第8章 ガウス過程回帰による異常検知
第8章 ガウス過程回帰による異常検知第8章 ガウス過程回帰による異常検知
第8章 ガウス過程回帰による異常検知
 
混合ガウスモデルとEMアルゴリスム
混合ガウスモデルとEMアルゴリスム混合ガウスモデルとEMアルゴリスム
混合ガウスモデルとEMアルゴリスム
 
グラフィカル Lasso を用いた異常検知
グラフィカル Lasso を用いた異常検知グラフィカル Lasso を用いた異常検知
グラフィカル Lasso を用いた異常検知
 
[研究室論文紹介用スライド] Adversarial Contrastive Estimation
[研究室論文紹介用スライド] Adversarial Contrastive Estimation[研究室論文紹介用スライド] Adversarial Contrastive Estimation
[研究室論文紹介用スライド] Adversarial Contrastive Estimation
 
PRML読書会#4資料+補足
PRML読書会#4資料+補足PRML読書会#4資料+補足
PRML読書会#4資料+補足
 
POMDP下での強化学習の基礎と応用
POMDP下での強化学習の基礎と応用POMDP下での強化学習の基礎と応用
POMDP下での強化学習の基礎と応用
 
RでGARCHモデル - TokyoR #21
RでGARCHモデル - TokyoR #21RでGARCHモデル - TokyoR #21
RでGARCHモデル - TokyoR #21
 
PRMLの線形回帰モデル(線形基底関数モデル)
PRMLの線形回帰モデル(線形基底関数モデル)PRMLの線形回帰モデル(線形基底関数モデル)
PRMLの線形回帰モデル(線形基底関数モデル)
 
ベイズモデリングと仲良くするために
ベイズモデリングと仲良くするためにベイズモデリングと仲良くするために
ベイズモデリングと仲良くするために
 
機械学習のためのベイズ最適化入門
機械学習のためのベイズ最適化入門機械学習のためのベイズ最適化入門
機械学習のためのベイズ最適化入門
 
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages. Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
 
計算論的学習理論入門 -PAC学習とかVC次元とか-
計算論的学習理論入門 -PAC学習とかVC次元とか-計算論的学習理論入門 -PAC学習とかVC次元とか-
計算論的学習理論入門 -PAC学習とかVC次元とか-
 
社会心理学者のための時系列分析入門_小森
社会心理学者のための時系列分析入門_小森社会心理学者のための時系列分析入門_小森
社会心理学者のための時系列分析入門_小森
 
双対性
双対性双対性
双対性
 
機械学習におけるオンライン確率的最適化の理論
機械学習におけるオンライン確率的最適化の理論機械学習におけるオンライン確率的最適化の理論
機械学習におけるオンライン確率的最適化の理論
 
【宝くじ仮説】The Lottery Ticket Hypothesis: Finding Small, Trainable Neural Networks
【宝くじ仮説】The Lottery Ticket Hypothesis: Finding Small, Trainable Neural Networks【宝くじ仮説】The Lottery Ticket Hypothesis: Finding Small, Trainable Neural Networks
【宝くじ仮説】The Lottery Ticket Hypothesis: Finding Small, Trainable Neural Networks
 
色々な確率分布とその応用
色々な確率分布とその応用色々な確率分布とその応用
色々な確率分布とその応用
 
PRML輪読#1
PRML輪読#1PRML輪読#1
PRML輪読#1
 
[DL輪読会]Scalable Training of Inference Networks for Gaussian-Process Models
[DL輪読会]Scalable Training of Inference Networks for Gaussian-Process Models[DL輪読会]Scalable Training of Inference Networks for Gaussian-Process Models
[DL輪読会]Scalable Training of Inference Networks for Gaussian-Process Models
 
構造方程式モデルによる因果推論: 因果構造探索に関する最近の発展
構造方程式モデルによる因果推論: 因果構造探索に関する最近の発展構造方程式モデルによる因果推論: 因果構造探索に関する最近の発展
構造方程式モデルによる因果推論: 因果構造探索に関する最近の発展
 

Destaque

今さら聞けないカーネル法とサポートベクターマシン
今さら聞けないカーネル法とサポートベクターマシン今さら聞けないカーネル法とサポートベクターマシン
今さら聞けないカーネル法とサポートベクターマシンShinya Shimizu
 
第一回卒研発表会
第一回卒研発表会第一回卒研発表会
第一回卒研発表会syou6162
 
構造方程式モデルによる因果探索と非ガウス性
構造方程式モデルによる因果探索と非ガウス性構造方程式モデルによる因果探索と非ガウス性
構造方程式モデルによる因果探索と非ガウス性Shiga University, RIKEN
 
Vanishing Component Analysis
Vanishing Component AnalysisVanishing Component Analysis
Vanishing Component AnalysisKoji Matsuda
 
続わかりやすいパターン認識11章(11.1 - 11.4)
続わかりやすいパターン認識11章(11.1 - 11.4)続わかりやすいパターン認識11章(11.1 - 11.4)
続わかりやすいパターン認識11章(11.1 - 11.4)Nagi Teramo
 
はじぱた7章F5up
はじぱた7章F5upはじぱた7章F5up
はじぱた7章F5upTyee Z
 
独立成分分析とPerfume
独立成分分析とPerfume独立成分分析とPerfume
独立成分分析とPerfumeYurie Oka
 
Numpy scipyで独立成分分析
Numpy scipyで独立成分分析Numpy scipyで独立成分分析
Numpy scipyで独立成分分析Shintaro Fukushima
 
続・わかりやすいパターン認識 第7章「マルコフモデル」
続・わかりやすいパターン認識 第7章「マルコフモデル」続・わかりやすいパターン認識 第7章「マルコフモデル」
続・わかりやすいパターン認識 第7章「マルコフモデル」T T
 
【Zansa】第17回 ブートストラップ法入門
【Zansa】第17回 ブートストラップ法入門【Zansa】第17回 ブートストラップ法入門
【Zansa】第17回 ブートストラップ法入門Zansa
 
非負値行列分解の確率的生成モデルと 多チャネル音源分離への応用 (Generative model in nonnegative matrix facto...
非負値行列分解の確率的生成モデルと多チャネル音源分離への応用 (Generative model in nonnegative matrix facto...非負値行列分解の確率的生成モデルと多チャネル音源分離への応用 (Generative model in nonnegative matrix facto...
非負値行列分解の確率的生成モデルと 多チャネル音源分離への応用 (Generative model in nonnegative matrix facto...Daichi Kitamura
 
Understanding your data with Bayesian networks (in Python) by Bartek Wilczyns...
Understanding your data with Bayesian networks (in Python) by Bartek Wilczyns...Understanding your data with Bayesian networks (in Python) by Bartek Wilczyns...
Understanding your data with Bayesian networks (in Python) by Bartek Wilczyns...PyData
 
100614 構造方程式モデリング基本の「き」
100614 構造方程式モデリング基本の「き」100614 構造方程式モデリング基本の「き」
100614 構造方程式モデリング基本の「き」Shinohara Masahiro
 
PRML第6章「カーネル法」
PRML第6章「カーネル法」PRML第6章「カーネル法」
PRML第6章「カーネル法」Keisuke Sugawara
 
効果測定入門 Rによる傾向スコア解析
効果測定入門  Rによる傾向スコア解析効果測定入門  Rによる傾向スコア解析
効果測定入門 Rによる傾向スコア解析aa_aa_aa
 

Destaque (20)

今さら聞けないカーネル法とサポートベクターマシン
今さら聞けないカーネル法とサポートベクターマシン今さら聞けないカーネル法とサポートベクターマシン
今さら聞けないカーネル法とサポートベクターマシン
 
Beautiful woRld
Beautiful woRldBeautiful woRld
Beautiful woRld
 
第一回卒研発表会
第一回卒研発表会第一回卒研発表会
第一回卒研発表会
 
入門機械学習6章
入門機械学習6章入門機械学習6章
入門機械学習6章
 
Prml
PrmlPrml
Prml
 
機械学習
機械学習機械学習
機械学習
 
構造方程式モデルによる因果探索と非ガウス性
構造方程式モデルによる因果探索と非ガウス性構造方程式モデルによる因果探索と非ガウス性
構造方程式モデルによる因果探索と非ガウス性
 
Vanishing Component Analysis
Vanishing Component AnalysisVanishing Component Analysis
Vanishing Component Analysis
 
続わかりやすいパターン認識11章(11.1 - 11.4)
続わかりやすいパターン認識11章(11.1 - 11.4)続わかりやすいパターン認識11章(11.1 - 11.4)
続わかりやすいパターン認識11章(11.1 - 11.4)
 
はじぱた7章F5up
はじぱた7章F5upはじぱた7章F5up
はじぱた7章F5up
 
独立成分分析とPerfume
独立成分分析とPerfume独立成分分析とPerfume
独立成分分析とPerfume
 
Numpy scipyで独立成分分析
Numpy scipyで独立成分分析Numpy scipyで独立成分分析
Numpy scipyで独立成分分析
 
続・わかりやすいパターン認識 第7章「マルコフモデル」
続・わかりやすいパターン認識 第7章「マルコフモデル」続・わかりやすいパターン認識 第7章「マルコフモデル」
続・わかりやすいパターン認識 第7章「マルコフモデル」
 
【Zansa】第17回 ブートストラップ法入門
【Zansa】第17回 ブートストラップ法入門【Zansa】第17回 ブートストラップ法入門
【Zansa】第17回 ブートストラップ法入門
 
非負値行列分解の確率的生成モデルと 多チャネル音源分離への応用 (Generative model in nonnegative matrix facto...
非負値行列分解の確率的生成モデルと多チャネル音源分離への応用 (Generative model in nonnegative matrix facto...非負値行列分解の確率的生成モデルと多チャネル音源分離への応用 (Generative model in nonnegative matrix facto...
非負値行列分解の確率的生成モデルと 多チャネル音源分離への応用 (Generative model in nonnegative matrix facto...
 
Pyladies Tokyo meet up #6
Pyladies Tokyo meet up #6Pyladies Tokyo meet up #6
Pyladies Tokyo meet up #6
 
Understanding your data with Bayesian networks (in Python) by Bartek Wilczyns...
Understanding your data with Bayesian networks (in Python) by Bartek Wilczyns...Understanding your data with Bayesian networks (in Python) by Bartek Wilczyns...
Understanding your data with Bayesian networks (in Python) by Bartek Wilczyns...
 
100614 構造方程式モデリング基本の「き」
100614 構造方程式モデリング基本の「き」100614 構造方程式モデリング基本の「き」
100614 構造方程式モデリング基本の「き」
 
PRML第6章「カーネル法」
PRML第6章「カーネル法」PRML第6章「カーネル法」
PRML第6章「カーネル法」
 
効果測定入門 Rによる傾向スコア解析
効果測定入門  Rによる傾向スコア解析効果測定入門  Rによる傾向スコア解析
効果測定入門 Rによる傾向スコア解析
 

大阪PRML読書会#1資料