SlideShare uma empresa Scribd logo
1 de 70
Baixar para ler offline
PRML 3.1 – 3.2
M2 Arata Honda
Mathematical Informatics Lab, NAIST
Nov, 2th ,2016 1
3章 : 線形回帰モデル
回帰問題の復習
与えられたD次元の入力(input)変数のベクトルxの
値から, 1つ or 複数の目標(target)変数tを予測
線形回帰モデル
 パラメータに関しての線形結合で表現
2
3.1 : 線形基底関数モデル
まずは簡単なモデルから
入力変数 :
パラメータ :
特徴 : 入力変数, パラメータともに線形
表現能力が制限される→入力変数に基底関数を導入
↑みたいな感じに入力を非線形に変換する 3
基底関数の導入
入力に関して基底関数 を導入
バイアスパラメータ をまとめる
 函数, 基底関数 : 非線形
 パラメータ : 線形
4
基底関数の例(どんな時に何を使うかは不明)
たくさんあるよ
その他 : スプライン函数で入力空間を区切る
フーリエ基底やウェーブレットも 5
3.1.1 最尤推定と最小二乗法
最小二乗法と最尤推定の関係性について議論
目的変数t が以下で与えられる
不確実に(確率的に)書く
6
1.2.5にて設定している
尤度関数は?
入力 と目標変数
7
尤度関数(データ点が上式で独立に生成されてると仮定)
※以後 と表記する
尤度関数に対数をとる(対数尤度)の例
例
8
本題の対数尤度は?
9
但し
 線形ガウスモデルの条件下
尤度最大化 = 二乗誤差最小化は等価
最尤推定(対数尤度の微分)
10
パラメータwについて微分
上式=0とおき, “w=“ の形にする
最尤推定(結果)
行列の式に変換
:正規方程式
:計画行列
11
疑似逆行列
最尤推定(バイアスパラメータの微分)
12
パラメータw_0について微分
まずはw_0を出す. ↓のように
w_0について解く
最尤推定(バイアスパラメータの微分)
13
パラメータw_0についての解釈
補足 : バイアスパラメータの役割
14
図にするとこんな感じ?
赤 : w_0がある線形回帰
緑 : w_0がない線形回帰
切片がない→原点から
直感的に、モデルの表現の自由度に関わってくることが分かる
w_0
3.1.2 最小二乗法の幾何学
最小二乗法の幾何学的解釈について議論
目的変数t と先ほどの計画行列
15
N=3, M=2の時
16
t
φ_1
φ_2
画力なくてごめんね
2つの三次元ベクトルφ_1とφ_2により, 二次元平面Sが張られる
S
yの定義
17
n番目の要素が で与えられるN次元ベクトルy
yはφの線形結合. 二乗誤差はyとtのユークリッド距離を表す
もしもの補足
18yはφの線形結合.
つまり最小二乗ってどゆことなの?
19
最小二乗解からの出力 を とおくと
つまり, 最小二乗解はyとtが一番近くなる正射影を意味する
^
高校数学の時に実はやっている
20
3.1.5 出力が多次元の場合
21
まったく同じンゴ
3.1.3 逐次学習
22
はバッチ手法と呼ばれる
訓練データ集合を全部使うので時間かかる…
確率的勾配法(Stochastic Gradient Decent)
※別名LMSアルゴリズム
3.1.4 正則化最小二乗法に入る前に
23
1章にて多項式フィッティングの過学習が紹介
訓練データにすべ
て対応してるが真
の函数(緑線)は捉
えられてない
3.1.4 正則化最小二乗法には入る前に
24
パラメータの次数が大きくなるのを防ぐ
→罰則項をつける(正則化)
罰則項
こんな感じや
3.1.4 正則化最小二乗法
正則化について議論
二乗誤差 に正則化項 を加える
25
誤差関数
誤差関数を展開してwで微分
展開
wについて微分 (行列の微分はmatrix cookbookで)
上=0を解く
26
実は疑似逆行列のランク補正している
非正規行列なので、逆行列が計算できない可能性がある
正則化で計算できるよう補正しているのだ 27
疑似逆行列
より一般的な正則化項
一般的な正則化項の式
28
lasso ridge
Lasso : Least absolute shrinkage and selection operator
lassoは, スパース(疎)な解が得られるという話がある
スパースで何がうれしいのか?
毎回この図でてくるけど何なん? 29
lassoridge
そろそろ理解したいぜ
(M=2の時の図らしい)
青線 : 正則化されていない誤差関数の等高線
赤線で囲まれた領域 : 正則化項の制約条件を満たす領域
30
lassoridge 青と赤が満たすのが誤差最小化条件
ridge :
lasso :
条件が減る = 次元が減る
→特徴量も減る(変数選択)
→モデル推定と変数選択を一括
3.2 バイアス・バリアンス分解に入る前に
31
ある同時確率p(x, t)が推定できた時,
それをもとに何らかの行動を起こす = 決定段階
入力xに対して目標値tの値に対する推定値y(x)
を決定した際, その損失を とおく.
期待損失は
期待損失が小さくなるy(x)についてみていく.
変分法
32
函数を引数にとる函数のことを汎函数と呼ぶ
汎函数の最小(大)値をとる函数を見つけたい
函数で汎函数を微分 = 0を解く(変分法).
オイラー・ラグランジュの方程式を使うと解ける
:汎函数
※ が出てこない場合, 方程式は となる
期待損失に変分法をかます①
33
期待損失関数 を二乗損失とおき定義
を の汎函数とみなし変分法をかます
であり, オイラー方程式は
期待損失に変分法をかます②
34
両辺をxで微分する(y(x)はxの関数だが定数とみなす)
期待損失に変分法をかます③
35
期待損失が最小値を与える関数y(x)はxが与えられたもと
でのtの条件付き期待値である.
もうちょい期待損失をいじる
36
損失関数(二乗誤差)をいじる
期待損失の式に代入し, 積分する
同じやつ
念のため
37
期待損失(二乗誤差)の解釈
38
 第一項はy(x)に依存するので期待損失を最小にしたかった
ら, この項が最小になるようなy(x)を求める(y(x)=E[t|x])
 第二項はy(x)とは関係ないので, データに含まれる本質的
なノイズのみに依存
定数項か,yに影響しない項yに関係する項
もっと分解しようぜ
39
第一項をより注意深く見る
実際は有限個のデータDしか与えられない
データDによりy(x; D)が決まるとする(h(x) = )
青枠の二乗項はいかに書き直せる
分解し、期待値をとる
(バイアス・バリアンス分解)
40
データDについて期待値をとる
バイアス・バリアンス・ノイズ
41
bias : yによる予測の平均と理想的予測の差(の期待値)
variance : yによる予測のデータ依存の分散
noise : 理想的予測と観測値の差の平均
バイアス・バリアンスのトレードオフ
42
柔軟性の高い複雑なモデル→バイアス小, バリアンス大
柔軟性の低い単純なモデル→バイアス大, バリアンス小
バイアス・バリアンスのデメリット
43
データの取り方に関して平均をとり導出
1組のデータ集合しかなかったらあてにならない
次は頻度主義ではなくベイズ的に線形基底モデルを
扱う流れ(3.3節)
これまでの話(前回までの線形回帰モデル)
最尤法を用いて線形回帰モデルについて議論
様々な基底関数があり、適切に選択
”モデルの複雑さ”を適切に決めるべき
正則化でモデルの複雑さの調節
単純に尤度関数が最大になるパラメータを選んでは×
独立なテストデータをとっておいても計算量が…
44
3.3 : ベイズ線形回帰
 線形回帰モデルをベイズ的に取り扱う
過学習の回避
訓練データだけからモデルの複雑さを自動決定
45
3.3.1 : パラメータの分布
 パラメータの事前確率分布を導入
 を既知とする
尤度関数 の指数部分はwの二次関数の指数
ここでパラメータの事前分布 をガウス分布で設定
※ちなみにこの事前分布は共益事前分布と呼ぶ
46
再記述
β=1/分散
尤度関数
事後確率の計算
 事後分布∝事前分布×尤度関数
47
モードは?~MAP推定
 事後分布もガウスなので確率が一番高いところ(モード)
= 期待値m_N
事後確率を最大にするw_MAP = m_N
48
事後確率最大を求める
無限に広い事前分布をとると?
が無限に広い(α->0)(※分布の広さ=分散)
最尤推定値と一致するやん
→最尤推定=無情報事前分布によるベイズ推定
N=0なら事前分布=事後分布
49
0 0
今後のアノテーション(記述)&
事後分布の対数
wの事前分布を単一のパラメータで次のように書く
事後分布の対数 = 対数尤度+事前分布
最大化する→二乗和誤差と二次の正規化項の和を最小化
50
再記述
逐次的更新
51
目標函数
パラメータは固定
内容 : データを観測するごとに
現在の事後分布→次の時点の事後分布と逐次更新
尤度関数が変わって,事後分布も変化する
データ観測前(N=0)
52
事前分布 = 事後分布なのでガウス的にランダムに
パラメータが選ばれる
事前分
持って
決まる
れる)
データ観測前(N=1)
53
観測点から尤度関数が決まり事後分布の更新
観測点に近くなるような直線に変わっている
観測点
尤度関数
4番のスライドの右の
式にぶちこむ
データ観測前(N=2)
54
2点の観測点から直線がわかってしまう
事後分布が狭くなっているのがわかる
+=分布
の中心
データ観測前(N=20)
55
直線も傾きがほとんど一緒に
事後分布は真のパラメータに収束
もっと近くで
56
3.3.2予測分布
57
 パラメータwを推定することで間接的にtを推定
 直接tを予測したい→予測分布の導入
 左辺にインテグラルをとる
要約:wが入らなくなって
ハッピー
3.3.2予測分布
58
 予測分布の変形
 代入して計算
予測分布 平均:パラメータ平均×基底関数
分散:
α,βは略されてる,wの事後分布
式3.8 tが得られる確率
赤青掛け合わせてtの予測分布
予測分布の分布を見てみる
59
次の関係が成り立つ
Nが十分に大きい(N->∞)の時は第二項は0になる.
(ノイズ)+(パラメータの不確かさ)
ほんまかいなっていう人へ
60
演習問題3.8から
正弦波の回帰
61
事例 : Sin関数に対し, 9個のガウス基底関数を用いて回帰
正弦波の回帰
62
事例 : Sin関数に対し, 9個のガウス基底関数を用いて回帰
正弦波の回帰
63
事例 : Sin関数に対し, 9個のガウス基底関数を用いて回帰
正弦波の回帰
64
事例 : Sin関数に対し, 9個のガウス基底関数を用いて回帰
3.3.3 等価カーネル(ほぼおまけ)
65
 パラメータwに平均解m_Nをぶっこむ
 この関数を等価カーネル(平滑化行列)とよぶ
カーネルってなにがうれしいの?
66
 データとデータが似ている = 近いということはどういう
ことか具体的に決めることができる.
 何が”等価”なのかは下式が示す
カーネル函数 = 基底関数に関する行列
ガウス基底関数の等価カーネルの場合
67
他の基底関数の等価カーネルの場合
68
函数の共分散と等価カーネル
69
 近傍の予測平均同士の共分散の値 = 大きい
 離れた予測平均同士の共分散の値 = 小さい
そのほか
(6章でじっくりやるからいらぬ)
70

Mais conteúdo relacionado

Mais procurados

Mais procurados (20)

PRML 5章 PP.227-PP.247
PRML 5章 PP.227-PP.247PRML 5章 PP.227-PP.247
PRML 5章 PP.227-PP.247
 
PRML輪読#2
PRML輪読#2PRML輪読#2
PRML輪読#2
 
PRML 5.3-5.4
PRML 5.3-5.4PRML 5.3-5.4
PRML 5.3-5.4
 
統計的学習の基礎_3章
統計的学習の基礎_3章統計的学習の基礎_3章
統計的学習の基礎_3章
 
PRML輪読#4
PRML輪読#4PRML輪読#4
PRML輪読#4
 
PRML5
PRML5PRML5
PRML5
 
PRML第9章「混合モデルとEM」
PRML第9章「混合モデルとEM」PRML第9章「混合モデルとEM」
PRML第9章「混合モデルとEM」
 
PRML 1.5-1.5.5 決定理論
PRML 1.5-1.5.5 決定理論PRML 1.5-1.5.5 決定理論
PRML 1.5-1.5.5 決定理論
 
PRMLの線形回帰モデル(線形基底関数モデル)
PRMLの線形回帰モデル(線形基底関数モデル)PRMLの線形回帰モデル(線形基底関数モデル)
PRMLの線形回帰モデル(線形基底関数モデル)
 
[PRML] パターン認識と機械学習(第3章:線形回帰モデル)
[PRML] パターン認識と機械学習(第3章:線形回帰モデル)[PRML] パターン認識と機械学習(第3章:線形回帰モデル)
[PRML] パターン認識と機械学習(第3章:線形回帰モデル)
 
[PRML勉強会資料] パターン認識と機械学習 第3章 線形回帰モデル (章頭-3.1.5)(p.135-145)
[PRML勉強会資料] パターン認識と機械学習 第3章 線形回帰モデル (章頭-3.1.5)(p.135-145)[PRML勉強会資料] パターン認識と機械学習 第3章 線形回帰モデル (章頭-3.1.5)(p.135-145)
[PRML勉強会資料] パターン認識と機械学習 第3章 線形回帰モデル (章頭-3.1.5)(p.135-145)
 
PRML読み会第一章
PRML読み会第一章PRML読み会第一章
PRML読み会第一章
 
W8PRML5.1-5.3
W8PRML5.1-5.3W8PRML5.1-5.3
W8PRML5.1-5.3
 
PRMLrevenge_3.3
PRMLrevenge_3.3PRMLrevenge_3.3
PRMLrevenge_3.3
 
PRML輪読#14
PRML輪読#14PRML輪読#14
PRML輪読#14
 
Prml nn
Prml nnPrml nn
Prml nn
 
PRML輪読#8
PRML輪読#8PRML輪読#8
PRML輪読#8
 
Prml 2.3
Prml 2.3Prml 2.3
Prml 2.3
 
PRML第3章_3.3-3.4
PRML第3章_3.3-3.4PRML第3章_3.3-3.4
PRML第3章_3.3-3.4
 
PRML上巻勉強会 at 東京大学 資料 第4章4.3.1 〜 4.5.2
PRML上巻勉強会 at 東京大学 資料 第4章4.3.1 〜 4.5.2PRML上巻勉強会 at 東京大学 資料 第4章4.3.1 〜 4.5.2
PRML上巻勉強会 at 東京大学 資料 第4章4.3.1 〜 4.5.2
 

Mais de Arata Honda (10)

Rnn+lstmを理解する
Rnn+lstmを理解するRnn+lstmを理解する
Rnn+lstmを理解する
 
2つのサービスをAWSに移行した話
2つのサービスをAWSに移行した話2つのサービスをAWSに移行した話
2つのサービスをAWSに移行した話
 
Config mapについて
Config mapについてConfig mapについて
Config mapについて
 
Excite beer bash06
Excite beer bash06Excite beer bash06
Excite beer bash06
 
はじめてのパターン認識第八章
はじめてのパターン認識第八章はじめてのパターン認識第八章
はじめてのパターン認識第八章
 
はじめてのパターン認識第三章
はじめてのパターン認識第三章はじめてのパターン認識第三章
はじめてのパターン認識第三章
 
ノイズあり教師のパーセプトロン学習の統計力学的解析
ノイズあり教師のパーセプトロン学習の統計力学的解析ノイズあり教師のパーセプトロン学習の統計力学的解析
ノイズあり教師のパーセプトロン学習の統計力学的解析
 
正則化項について
正則化項について正則化項について
正則化項について
 
Scikit-learnを使って 画像分類を行う
Scikit-learnを使って 画像分類を行うScikit-learnを使って 画像分類を行う
Scikit-learnを使って 画像分類を行う
 
Prml6
Prml6Prml6
Prml6
 

Prml 3 3.3