10. 利用する訓練データ
ID C:コンタクト T1:30才未満 T2:近視 T3:乱視 T4:ドライアイ
A 1 YES YES YES YES
B 1 YES YES NO YES
C 1 NO YES YES YES
D 1 NO YES NO YES
E 0 YES YES YES NO
F 0 YES YES NO NO
G 0 NO NO NO NO
H 0 NO NO NO YES
I 0 NO NO NO NO
J 0 NO NO NO YES
• クラスを1と0にしてある
• サンプルの個数をN個
• (Xi , ci )(i = 1, . . . , N )
訓練データは, と表す。たとえばCは
XC = (No, Yes, Yes, Yes), cC = 1
11. 初期化
• R: 最終的に組み合わせる分類器の個数.
• この数が大きい程,良い分類器(ルール)が作成できる
代わりに,生成に時間がかかる
• 初期状態として,各サンプルに均等に重みを割り当てる.
•
1
wi
サンプルiの初期の重みを で表す.
• 初期状態で,重みは全サンプルで均等であって欲しい.
サンプルの個数はNなので,
wi = 1/N (i = 1, . . . , N )
1
• 例題の訓練データでは,10個のサンプルがあるので,
wi = 1/10
1
12. • 各t=1,...,Rに対し次のステップを繰り返す
1. 正規化: t回目の繰り返しで正規化したサンプルiの重み
t
pt
を とする. pt =
i
wi
i N t
i=1 wi
N
• p1 = wi = 1/10
1
wi = 1
t
t=1の時は, なので, i
i=1
2. 何らかの学習アルゴリズムWeakLearnerを用意する.
t 1/2
WeakLearnerを使い,次の条件( )を満たす仮説htを求
め,重み付きエラー率 を計算する t
N
t = pt |ht (Xi ) − ci | 1/2
i
i=1
ここで
0, ht (Xi ) と が一致する時
ci
ht (Xi ) − ci =
1, それ以外
Step 3へ続く
13. • t=1の時を考える.WeakLearnerが仮説として,下記を検討し
たとする.
属性 T2=Yes の時,クラスC=1,
属性T2=No の時,クラスC=0
ID C:コンタクト T2:近視 IDが A∼F のサンプルは h1(Xi) = 1
A 1 YES E,F 以外はh1(Xi)=ci.D,Jはci=0で不一致
B 1 YES
IDが G,H,I,J のサンプルは h1(Xi) = 0
C 1 YES
D 1 YES 全て一致
E 0 YES 以上より,WeakLearnerの仮説では,
F 0 YES
10サンプル中2サンプルが誤り.
G 0 NO
H 0 NO p1 = 1/10
より,
i
I 0 NO 1 = 1/10 × 2 = 1/5 1/2
J 0 NO よって,属性T2による予測は
WeakLearnerとして採用できる
14. t+1
3. 重み を更新する.重み変更の度合いとしてβtを作成する
wi
t
βt = 0 ≤ t 1/2, より 0 ≤ βt 1
1 − t
• βを使い重みを更新する
1−|ht (Xi )−ci |
wi = wi βt
t+1 t
• エラーεtが小さいとβtも小さくなり,一気に重みが下がる.
• εtが大きいとβtも大きくなり,重みの変更が小さくなる
• 重みの更新は,WeakLearnerの予測ht が正しいサンプルのみ
行われ,正しくないサンプルでは,更新が起こらない
15. • 例題で実際に計算してみる.t=1の場合を考える.
1 = 0.2
1
β1 = = 0.2/0.8 = 0.25
1 − 1
• サンプルA∼D, G∼J では予測htが実際のクラスと一致,E, F
ではクラスと異なるので,
wA = wB = wC = wD = wG = wH = wI = wJ
2 2 2 2 2 2 2 2
= 1/10 × β1 = 0.025
1
wE = wF = 1/10 × β1 = 0.1
2 2 0
ID C T2:近視 w^1_i h_1 w^2_i
A 1 YES 0.1 1 0.025
B 1 YES 0.1 1 0.025
C 1 YES 0.1 1 0.025
D 1 YES 0.1 1 0.025
E 0 YES 0.1 1 0.1
F 0 YES 0.1 1 0.1
G 0 NO 0.1 0 0.025
H 0 NO 0.1 0 0.025
I 0 NO 0.1 0 0.025
J 0 NO 0.1 0 0.025
17. ID C:コンタクト T1:30才未満 T2:近視 T3:乱視 T4:ドライアイ
A 1 YES YES YES YES
B 1 YES YES NO YES
C 1 NO YES YES YES
D 1 NO YES NO YES
E 0 YES YES YES NO
F 0 YES YES NO NO
G 0 NO NO NO NO
H 0 NO NO NO YES
I 0 NO NO NO NO
J 0 NO NO NO YES
p1 = 1/10(i ∈ {A, B, ..., J})
i
1 より
1 (T1 = Yes) = × 4 = 0.4
10
1
1 (T2 = Yes) = × 2 = 0.2
10
1
1 (T3 = Yes) = × 3 = 0.3
10
1
1 (T4 = Yes) = × 2 = 0.2
10
よってT2=Yes もしくは、T4=Yesが最も良い。
ここでは、T2を選ぼう。
28. = ·
t=1 βt
□
t=1
• 補題2
題 5.2 各サンプルに付いての重みについて,次の不等式がなりたつ.
•
各サンプルの重みに関して,次の式が成立する
補題 5.2 各サンプルに付いての重みについて,次の不等式がなりたつ.
N N
t+1
wi N ≥ t
wi N× 2 i
i=1
t+1
wi i=1≥ wi × 2
t
i
明:
•α 証明および r = {0, 1}i=1
≥0 より
i=1
証明: α ≥ 0 および r = {0, 1} より
αr ≤ 1 − (1 − α)r
αr ≤ 1 − (1 − α)r
なるので,次の不等式が計算できる.
となるので,次の不等式が計算できる.
を利用することで,次ページの式変形が成り立つ
29. 5.6. ア ダ ブ ー ス ト 175
N N
1−|ht (Xi )−yi |
t+1
wi = t
wi βt
i=1 i=1
N
≤ wi (1 − (1 − βt )(1 − |ht (Xi ) − yi |))
t
i=1
N N N
= wi − (1 − βt )
t t
wi − wi |ht (Xi ) − yi |
t
i=1 i=1 i=1
N N N
= wi − (1 − βt )
t t
wi − t
t
wi
i=1 i=1 i=1
N N
= wi − (1 − βt )
t t
wi (1 − t )
i=1 i=1
N
= t
wi × (1 − (1 − βt )(1 − t ))
i=1
更に,t =
β t /(1 − t ) なので,
N
= t
wi ×2 t
i=1
証明終
30. • 定理
理 5.3 を t 回目の繰り返しで WeakLearner が出した仮説のエラー率
•
t
εtをt回目の繰り返しでWeakLearnerが出した仮説のエ
る.このとき,最終仮説 hf のエラー率 が以下の不等式を満たす.
ラー率とする.このとき,最終仮説hfのエラー率εは,次
式を満たす R
≤ 2 t (1 − t)
•
証明
1/2
t=1
N N
R N R
明: 補題 5.1 および補題 5.2 より次の不等式が成り立つ. w1
βt ≤ R+1
wi ≤ wi × 2t ≤
R
i 2t
t=1 t=1
R 1/2 i=1 N i=1 i=1
N
βt wi = 1 なので (補題 5.1 より)
1
≤ R+1
wi
t=1 i=1
i=1
R
N
= 2t
≤
t=1
R
wi × 2 t (補題 5.2 より)
i=1
βt = t /(1 − t ) と,上の不等式より − 1, R − 2, . . . , 1 に順に適用
補題 5.2 を, = R
t
R N R
R
−1/2
≤ 2t × βt = 1 2 t (1 − t )
≤ wi 2 t 証明終
t=1 t=1