O slideshow foi denunciado.
Utilizamos seu perfil e dados de atividades no LinkedIn para personalizar e exibir anúncios mais relevantes. Altere suas preferências de anúncios quando desejar.
パターン認識
Rで学ぶデータサイエンス
第1章
2013/06/18
祝!
#はじパタ 開催!!
祝!
#はじパタ 開催!!
お詫び
Rのコードは出てきません
お詫び2
今日は詳しくは語りません
@kenchan0130_aki
自己紹介
@kenchan0130_aki
学生ニート
自己紹介
@kenchan0130_aki
学生ニート
働いたら負け
自己紹介
@kenchan0130_aki
学生ニート
働いたら負け
自然言語処理
自己紹介
@kenchan0130_aki
学生ニート
働いたら負け
自然言語処理
得意になりたい言語:Ruby
自己紹介
@kenchan0130_aki
学生ニート
働いたら負け
自然言語処理
得意になりたい言語:Ruby 女の子と仲良くなれそう
自己紹介
パターン認識
第1章 判別能力の評価
第2章 k-平均法
第3章 階層的クラスタリング
第4章 混合正規分布モデル
第5章 判別分析
第6章 ロジスティック回帰
第7章 密度推定
第8章 k-近傍法
第9章 学習ベクトル量子化
第10章 決定木...
パターン認識
第1章 判別能力の評価
第2章 k-平均法
第3章 階層的クラスタリング
第4章 混合正規分布モデル
第5章 判別分析
第6章 ロジスティック回帰
第7章 密度推定
第8章 k-近傍法
第9章 学習ベクトル量子化
第10章 決定木...
• 入力された特徴量 からラベル を予測する
問題を「判別問題」といいます.
• ラベル を返す判別器   の予測精度を評価
したい!
判別能力の評価
何か評価する 指標が欲し い!
• 誤り率
• 損失行列による評価
• 交差検証法による予測精度の推定
• 陽性率, 偽陽性率, ROC曲線, AUC
• 適合率, 再現率, F値
各種指標
誤り率
誤り率
n個のデータに対する誤り率は
で計算できます.
I[R]は条件Rが真のときは1, それ以外は0となる定義関数
• 学習データに対する誤り率を
「訓練誤差」といいます.
• 未知のテストデータに対する誤り率を
「予測誤差」といいます.
誤り率
損失行列による評価
• 損失の値を  で表し,   成分とする行列を損
失行列とします.
• クラス と判別すべきデータをクラス と誤
ってしまったときの損失を表しています.
損失行列による評価
損失行列による評価
損失の平均は以下のように与えられます.
は真のクラスの不確実性を表す同時確率分布
これを最小とするような を割り当てるものとなります.
交互検証法による
予測精度の推定
• 学習データを2つに分け, 一方で判別器を推定
します.
• 他方でその精度を評価し, 予測誤差を推定しま
す.
• これをk分割して繰り返す方法を
「k-交差検証法」と呼びます.
交互検証法による予測精度の推定
陽性率, 偽陽性率,
ROC曲線, AUC
陽性率, 偽陽性率,
ROC曲線, AUC
• 陽性率は「第1種の過誤」と思ってもらっていいかもです.
• 偽陽性率は「第2種の過誤」と思ってもらっていいかもで
す. (こっちはヤバイやつ)
• 偽陽性率をある一定の値以下に抑えたとき, 陽性率を最大
化する判別器を採択します.
• 縦軸...
http://oku.edu.mie-u.ac.jp/ okumura/stat/ROC.html
• 検索結果内に, 実際に目的の情報を含んでいる
ページの割合が「適合率」です.
• 目的の情報を含んでいるページ全体の中で正
しく検索結果の割合が「再現率」です.
適合率, 再現率, F値
はじパタLT Section1
はじパタLT Section1
Próximos SlideShares
Carregando em…5
×

はじパタLT Section1

2.108 visualizações

Publicada em

Rで学ぶデータサイエンス「パターン認識」の第1章

Publicada em: Tecnologia
  • Seja o primeiro a comentar

はじパタLT Section1

  1. 1. パターン認識 Rで学ぶデータサイエンス 第1章 2013/06/18
  2. 2. 祝! #はじパタ 開催!! 祝! #はじパタ 開催!!
  3. 3. お詫び Rのコードは出てきません
  4. 4. お詫び2 今日は詳しくは語りません
  5. 5. @kenchan0130_aki 自己紹介
  6. 6. @kenchan0130_aki 学生ニート 自己紹介
  7. 7. @kenchan0130_aki 学生ニート 働いたら負け 自己紹介
  8. 8. @kenchan0130_aki 学生ニート 働いたら負け 自然言語処理 自己紹介
  9. 9. @kenchan0130_aki 学生ニート 働いたら負け 自然言語処理 得意になりたい言語:Ruby 自己紹介
  10. 10. @kenchan0130_aki 学生ニート 働いたら負け 自然言語処理 得意になりたい言語:Ruby 女の子と仲良くなれそう 自己紹介
  11. 11. パターン認識 第1章 判別能力の評価 第2章 k-平均法 第3章 階層的クラスタリング 第4章 混合正規分布モデル 第5章 判別分析 第6章 ロジスティック回帰 第7章 密度推定 第8章 k-近傍法 第9章 学習ベクトル量子化 第10章 決定木 第11章 サポートベクターマシン 第12章 正規化とパス追跡 アルゴリズム 第13章 ミニマックス確率マシン 第14章 集団学習 第15章 2値判別から多値判別へ
  12. 12. パターン認識 第1章 判別能力の評価 第2章 k-平均法 第3章 階層的クラスタリング 第4章 混合正規分布モデル 第5章 判別分析 第6章 ロジスティック回帰 第7章 密度推定 第8章 k-近傍法 第9章 学習ベクトル量子化 第10章 決定木 第11章 サポートベクターマシン 第12章 正規化とパス追跡 アルゴリズム 第13章 ミニマックス確率マシン 第14章 集団学習 第15章 2値判別から多値判別へ
  13. 13. • 入力された特徴量 からラベル を予測する 問題を「判別問題」といいます. • ラベル を返す判別器   の予測精度を評価 したい! 判別能力の評価
  14. 14. 何か評価する 指標が欲し い!
  15. 15. • 誤り率 • 損失行列による評価 • 交差検証法による予測精度の推定 • 陽性率, 偽陽性率, ROC曲線, AUC • 適合率, 再現率, F値 各種指標
  16. 16. 誤り率
  17. 17. 誤り率 n個のデータに対する誤り率は で計算できます. I[R]は条件Rが真のときは1, それ以外は0となる定義関数
  18. 18. • 学習データに対する誤り率を 「訓練誤差」といいます. • 未知のテストデータに対する誤り率を 「予測誤差」といいます. 誤り率
  19. 19. 損失行列による評価
  20. 20. • 損失の値を  で表し,   成分とする行列を損 失行列とします. • クラス と判別すべきデータをクラス と誤 ってしまったときの損失を表しています. 損失行列による評価
  21. 21. 損失行列による評価 損失の平均は以下のように与えられます. は真のクラスの不確実性を表す同時確率分布 これを最小とするような を割り当てるものとなります.
  22. 22. 交互検証法による 予測精度の推定
  23. 23. • 学習データを2つに分け, 一方で判別器を推定 します. • 他方でその精度を評価し, 予測誤差を推定しま す. • これをk分割して繰り返す方法を 「k-交差検証法」と呼びます. 交互検証法による予測精度の推定
  24. 24. 陽性率, 偽陽性率, ROC曲線, AUC 陽性率, 偽陽性率, ROC曲線, AUC
  25. 25. • 陽性率は「第1種の過誤」と思ってもらっていいかもです. • 偽陽性率は「第2種の過誤」と思ってもらっていいかもで す. (こっちはヤバイやつ) • 偽陽性率をある一定の値以下に抑えたとき, 陽性率を最大 化する判別器を採択します. • 縦軸を真の陽性率, つまり敏感度, 横軸を偽陽性率, つまり (1−特異度)を尺度としてプロットしたものです. • AUCはROC曲線下の面積のことです. 分類器の性能の良さを表しています. 陽性率,偽陽性率, ROC曲線, AUC
  26. 26. http://oku.edu.mie-u.ac.jp/ okumura/stat/ROC.html
  27. 27. • 検索結果内に, 実際に目的の情報を含んでいる ページの割合が「適合率」です. • 目的の情報を含んでいるページ全体の中で正 しく検索結果の割合が「再現率」です. 適合率, 再現率, F値

×