O slideshow foi denunciado.
Utilizamos seu perfil e dados de atividades no LinkedIn para personalizar e exibir anúncios mais relevantes. Altere suas preferências de anúncios quando desejar.

スパース性に基づく機械学習 2章 データからの学習

機械学習プロフェッショナルシリーズ輪読会資料

  • Entre para ver os comentários

スパース性に基づく機械学習 2章 データからの学習

  1. 1. 1章 & 2章 はじめに & データからの学習 機械学習プロフェッショナルシリーズ輪読会 ~スパース性に基づく機械学習*1~ 2016-2-10 @hagino3000 (Takashi Nishibayashi)
  2. 2. *1 機械学習プロフェッショナルシリーズ スパース性に基づく機械学習 著:冨岡亮太 http://bookclub.kodansha.co.jp/product?isbn=9784061529106
  3. 3. 1章 はじめに • スパース性とは • まばらである事 • 多くの変数のうち殆どがゼロでごく一部だけが非ゼロ • ゲノムの個人差からの予測ケース • featureが膨大 • 現実的な仮定を置いて、少ないサンプルで推定したい • 組み合わせ爆発を防いで現実的な計算量で推定したい
  4. 4. 要素単位のスパース性 多くの要素が非ゼロで、構造が無い
  5. 5. グループ単位のスパース性 ゼロ/非ゼロのパターンが存在する ex. 活性経路 (1列目が非ゼロの行は2列目以降も非ゼロ)
  6. 6. 行列の低ランク性 ランクの説明は9ページ この図だと線形独立な列の数=2なのでランク落ちしている
  7. 7. 2章の流れ • データから学習する、とは • 汎化 • 経験誤差の最小化と過学習 • 正則化
  8. 8. 2.1訓練データと汎化
  9. 9. データから学習するとは • 訓練データ (xi, yi)i が何らかの規則に従って生成さ れている時に、データを生成する規則をなるべくよ く模倣し、再現する事 • (xi, yi) が同時確率P(x,y)から独立同一に生成されて いるという状況を考えるのが統計的機械学習 • 訓練データには無い、新しく書かれた数字を識別で きるようになることを汎化すると言う Section 2.1
  10. 10. 学習の評価 • データを生成する規則をどの程度よく模倣している か • 入力ベクトルxからラベルyをどの程度予測できるか → 判別的なモデル • 手書き文字認識では、新しく書かれた数字を平均的 にどれだけ識別できるかを評価基準とする Section 2.1
  11. 11. 期待二乗誤差 Section 2.1 データxからラベルyを出力す る関数fについての損失(Loss) 新たな入力ベクトルxと ラベルy (≠訓練データ) 正解値と予測値の 誤差の二乗 予測値が数値
  12. 12. 期待誤分類率 Section 2.1 予測値がラベル (手書き文字認識) f(x)の出力は予測ラベルのみ1、 それ以外は-1が立つベクトル? yは正解ラベルのみ1、 それ以外はゼロが立つベクトル?
  13. 13. 相対エントロピー Section 2.1 真の分布pと、予測分布qの KL-divergence 定数項を除いた物を対数損失と呼ぶ
  14. 14. ロジスティック損失の導出 Section 2.1 2クラス分類 y ∈ {-1, +1} の場合 クラス事後確率の比の対数をfとすると
  15. 15. Section 2.1
  16. 16. ロジスティック損失の導出 Section 2.1 二値なので q(y = +1|x) + q(y = -1|x) = 1 q(y = -1|x) = 1 - q(y = +1|x) を使って 式2.4をq(y = +1|x)について整理すると y=+1, y=-1 のケースを一つの式で表現すると
  17. 17. ロジスティック損失の導出 Section 2.1 対数損失(2.3)の式にq(x|y)を代入すると ロジスティック損失
  18. 18. 期待誤差 • 未知の確率分布 P(x, y) に関する期待値なので、直 接評価できない • 期待誤差と呼び、訓練データで計算できる経験誤差 とは区別 • 直接計算できない → 訓練データで近似する Section 9.1
  19. 19. 経験誤差最小化 Section 2.1 訓練データを使って経験誤差を最小化するには 期待誤差の推定値 訓練データ xi, yi まとめると
  20. 20. 経験誤差最小化 Section 2.1 線形モデル f(x) = xTw + b を仮定すると L(f)を最小化するw, b 推定量 を求めるのが経験誤差最小化 誤差を正規分布とした時の最尤推定と同じ
  21. 21. 確率分布と損失関数 Section 2.1 • 二乗誤差、対数損失、ロジスティック損失に対する経験誤 差はいずれもそれに対応する確率モデルが存在する • 確率モデル基づかない損失関数 • 0 - 1損失 • ヒンジ損失 ヒンジ損失とロジスティッ ク損失はどちらも凸関数
  22. 22. 確率分布と損失関数 Section 2.1 • ヒンジ損失とロジスティック損失は定性的に似た振舞をす る → ??
  23. 23. 2.2 分散とバイアス
  24. 24. 過剰適合 Section 2.2 • 訓練データに対する当てはまりがよかったとしても期待誤 差がよいとは限らない (未知のデータに対する当てはまり)
  25. 25. Section 2.2 真のモデル y = 100(xi - 0.2)(xi - 0.5)(xi - 0.8) + εi への当てはめ
  26. 26. Section 2.2
  27. 27. 過剰適合を防ぐ Section 2.2 • 10次の多項式で当てはめると誤差ゼロ • 真の関数だけでなく、ノイズにも適合してしまった • モデルを制約するには • 多項式などの独立な基底関数の和として関数fを表現し、 その基底関数の数を小さくおさえる • 関数fの何らかのノルムを抑える • モデルを小さくしすぎると、モデル化したい関数も表現で きなくなる → 過少適合 • モデルの小ささに由来する誤差 → バイアス or 近似誤差
  28. 28. バイアス - バリアンス分解 Section 2.2 期待二乗誤差の訓練データに関する期待値を定義 この時、平均期待二乗誤差は次の3項に分解できる wの推定量と wの平均の差 → 分散 wの平均と誤差を最小化する wの差 → バイアス 選択した基底での最小の誤差
  29. 29. 2.3 正則化
  30. 30. パラメータベクトルのノルム制約 Section 2.3 • 仮説集合の大きさを制御する方法 • 特徴量を増やしたり減らしたりするだけではない • 同じ特徴空間であってもパラメータベクトルwをより小 さい集合から選ぶ事で分散を減らせる • ノルム
  31. 31. Section 2.3
  32. 32. 罰則項付き推定量 Section 2.3 誤差 + パラメータベクトルのノルム(罰則項)を最小化 正則化パラメータ この推定量は次の制約付き最小化問題と等価
  33. 33. 2.4 交差確認
  34. 34. モデル選択 Section 2.4 • モデルの持つパラメータを決定したい • 訓練データに対してはCを大きくすれば当てはまりは良く なってしまう → 訓練データは使えない • 検証(validation)データを使う • データを訓練用と検証用に分ける • 検証データに対する誤差を最小化する • 交差確認(cross validation) • 訓練データをK個に分割し、K-1個で学習し、残りで誤差を 評価する Kをデータと同じまで増やすとLeave-one-out
  35. 35. 2.5 制約付き最小化問題と罰 則項付き最小化問題の等価性
  36. 36. Section 2.5 罰則項付き最小化問題 と次の制約付き最小化問題が等価である事の説明 ラグランジュ緩和っぽいが 本文中では別の説明がなされている
  37. 37. Question?

×