SlideShare uma empresa Scribd logo
1 de 71
Baixar para ler offline
JOI 春合宿 講義6
  機械学習入門
              2013/03/23
              山下 洋史
              @utatakiyoshi
おしながき


    ・9:00 9:30(ぐらい) イントロダクション

    ・9:30 11:40 コンテスト

    (途中自由に休憩してもらってかまいません)

    ・11:40 12:00 結果発表・まとめ


2              2013春合宿 講義6 機械学習入門 2013/03/24
イントロダクション
     Part1:   学習とは
     Part2:   学習の性能
     Part3:   簡単な手法の紹介
     Part4:   今日の問題の紹介


3             2013春合宿 講義6 機械学習入門 2013/03/24
イントロダクション
       Part1:
      学習とは


4      2013春合宿 講義6 機械学習入門 2013/03/24
みなさん



5    2013春合宿 講義6 機械学習入門 2013/03/24
4日間おつかれさまでした



6        2013春合宿 講義6 機械学習入門 2013/03/24
皆さんが4日間取り組んだ問題は
          基本的に
      『ちゃんとした問題』
           でした



7         2013春合宿 講義6 機械学習入門 2013/03/24
『ちゃんとした問題』?
     代表選抜なんだから,
     『ふわっとした問題』
      だったら困るだろ!
       いい加減にしろ!



8       2013春合宿 講義6 機械学習入門 2013/03/24
それはそうなのですが,
    これはそういう意味ではなく,




9        2013春合宿 講義6 機械学習入門 2013/03/24
『ちゃんとした問題』:
     論理や計算や数学の世界に属していて
     その世界の中だけで答えが決まる問題




10          2013春合宿 講義6 機械学習入門 2013/03/24
論理や計算や数学の世界




11   2013春合宿 講義6 機械学習入門 2013/03/24
現実の世界             論理や計算や数学の世界




       私たちは論理や計算や数学の世界に
      そのまま住んでいるわけではありません

12           2013春合宿 講義6 機械学習入門 2013/03/24
現実の世界             論理や計算や数学の世界




             モデル化


13           2013春合宿 講義6 機械学習入門 2013/03/24
モデル化?




14    2013春合宿 講義6 機械学習入門 2013/03/24
モデル化:

     現実の世界を数学の世界に翻訳すること

     ・いろいろなやり方がある

     ・ただしある程度の目的はある

     ・目的は現実世界に即して決まる

      (論理や計算や数学の世界からは分からない)

15            2013春合宿 講義6 機械学習入門 2013/03/24
Example: 車のデザイン
     ・早く走る車が良い
       → エンジン出力・流体力学...
     ・安くて丈夫な車が良い
       → 耐久性・製作コスト...


     現実と数学の繋ぎ方には複数のやり方が考えられる
     数学の世界からは早く走る車が良いか安くて丈夫な
     車が良いかは分からない

16               2013春合宿 講義6 機械学習入門 2013/03/24
学習
     現実の事象→データ→知識
     ・天気
      →毎日の雲の状態と雨が降ったかどうか
      →「黒い雲が多ければ雨が降りそう」
     ・物理学
      →リンゴが木から落ちる
      →「重力"F=mg"」
     (リンゴが木から落ちるというデータだけではこういうモデル化はできなさそうですが…)


       この流れを計算機の力を借りてやろう
17                    2013春合宿 講義6 機械学習入門 2013/03/24
現実の世界   学習の流れ      論理や計算や数学の世界


      知識     フィードバック
                               結果
      活用
                                   計算機
                                  での処理


             問題を定式化
     現実の事象                    データ
             データをとる



18            2013春合宿 講義6 機械学習入門 2013/03/24
始めのステップで
        問題の構造を捉えそこねて
       無駄なデータを集めたりすると
     その後で何をやってもうまくいきません
         (天気を予想するのに昨日の
         夕飯の情報は全く使えない)

         有用な情報は何か?
      をちゃんと考えなければならない

19           2013春合宿 講義6 機械学習入門 2013/03/24
なので,
     対象の現象や目的についての知識
           が必要




20         2013春合宿 講義6 機械学習入門 2013/03/24
論理や計算や数学の世界から現実の世界
           に開いている
         『ふわっとした問題』




21          2013春合宿 講義6 機械学習入門 2013/03/24
機械学習におけるタスクの
         主な分類
         教師あり学習
         教師なし学習
          強化学習




22        2013春合宿 講義6 機械学習入門 2013/03/24
教師あり学習
     入力と出力の組がたくさんある
            ↓
         未知の入力
に対しても正しい出力をするようにしたい


23         2013春合宿 講義6 機械学習入門 2013/03/24
教師なし学習
          入力しかない
             ↓
     これといった「正解」は無いが,
      「望ましい」出力をしたい
        ex.クラスタリング



24         2013春合宿 講義6 機械学習入門 2013/03/24
強化学習
          何か行動を起こす
              ↓
          結果が帰ってくる
              ↓
     自発的にデータを取りながらよりよい
        結果をもたらす行動を探す
                       ゲームAIとか…


25          2013春合宿 講義6 機械学習入門 2013/03/24
今回のコンテストでは
        教師あり学習
           の
      カテゴリ分類問題
       のみを扱います




26      2013春合宿 講義6 機械学習入門 2013/03/24
イントロダクション
        Part2:
       学習の性能


27      2013春合宿 講義6 機械学習入門 2013/03/24
学習の性能はどうやって
     測ればよいでしょうか?




28       2013春合宿 講義6 機械学習入門 2013/03/24
学習の性能はどうやって
      測ればよいでしょうか?

     「持ってるデータで全部うまく
       いけばいいんじゃないの」

29         2013春合宿 講義6 機械学習入門 2013/03/24
ほんとうに?



30     2013春合宿 講義6 機械学習入門 2013/03/24
Example1:
          男子と女子の身長と体重のデータ
              男女を分類したい
                体重


                                     男子
                                     女子

     (データは架空の物です)
                              身長

31                   2013春合宿 講義6 機械学習入門 2013/03/24
ウオオと線を引いて区切る
     全部正しく分類できた! 常勝 !!!
        体重




                      身長

32           2013春合宿 講義6 機械学習入門 2013/03/24
よく考えると意味不明

                  体重


      身長が高いなら男子
     ちょっと高いなら女子
     まあまあ高いなら男子
        →なんで?



                                身長

33                     2013春合宿 講義6 機械学習入門 2013/03/24
新しいデータについてもうまくいかない

         体重




                       身長

34            2013春合宿 講義6 機械学習入門 2013/03/24
(こう分割すればそれっぽくなる)


     体重




                   身長

35        2013春合宿 講義6 機械学習入門 2013/03/24
Example2:
              3/20の6 18時の1時間毎の気温
     時刻   6    7    8    9   10   11   12   13   14   15   16   17   18

     気温 15.3 15.6 15.8 16.5 17.9 18.8 18.3 19.9 19.5 20.6 20.0 19.8 19.7



              中間の時間の気温を予想しよう!



36                                2013春合宿 講義6 機械学習入門 2013/03/24
x:時刻 y:気温
        y(x)は多項式とする
       y=a+bx+cx^2+...+mx^12

     未知数が13個・データ点が13個
     適当に代入して連立方程式を解く

      データ点全部通る! 常勝!!!

37            2013春合宿 講義6 機械学習入門 2013/03/24
やってみた




38    2013春合宿 講義6 機械学習入門 2013/03/24
やってみた




39    2013春合宿 講義6 機械学習入門 2013/03/24
17時30分
                            54℃
     6時30分   やってみた
      40℃




40            2013春合宿 講義6 機械学習入門 2013/03/24
54℃




41   2013春合宿 講義6 機械学習入門 2013/03/24
42   2013春合宿 講義6 機械学習入門 2013/03/24
43   2013春合宿 講義6 機械学習入門 2013/03/24
44   2013春合宿 講義6 機械学習入門 2013/03/24
(アカン)




45   2013春合宿 講義6 機械学習入門 2013/03/24
このように,
     学習データに対しては成功するが,
 新しいデータに対しては失敗してしまう




46          2013春合宿 講義6 機械学習入門 2013/03/24
これを
      過学習
     といいます


47    2013春合宿 講義6 機械学習入門 2013/03/24
また,
     新しいデータに対しても成功できる能力
           はんか

         これを汎化性能といいます
     現実にフィードバックして使いたいので,
       過学習せずに汎化性能を高めたい


48           2013春合宿 講義6 機械学習入門 2013/03/24
汎化性能の測り方



49      2013春合宿 講義6 機械学習入門 2013/03/24
汎化性能 is
     新しいデータに対する適応力




50        2013春合宿 講義6 機械学習入門 2013/03/24
汎化性能 is
     新しいデータに対する適応力
       →新しいデータを持ってきて
        うまく行くか見ればよい



51         2013春合宿 講義6 機械学習入門 2013/03/24
とはいえ,新しいデータは正解がわからない
       から,汎化性能のテストには使えない




52           2013春合宿 講義6 機械学習入門 2013/03/24
なので,データを2つに分ける
        ・トレーニングセット
          ・検証用セット
      トレーニングセットで学習し,
     検証用セットで汎化性能を測定する



53         2013春合宿 講義6 機械学習入門 2013/03/24
使えるデータが少ない時
     トレーニングセットを出来るだけ大きく取りたい

            データを N 分割し,
              1 個を検証セット
         N-1 個をトレーニングセット
                 にする
       T T T T T V T T T T
        検証セットを変えながら繰り返す
       交差検証(Cross-validation)
54             2013春合宿 講義6 機械学習入門 2013/03/24
イントロダクション
         Part3:
     ごく簡単な手法の紹介


55       2013春合宿 講義6 機械学習入門 2013/03/24
イントロダクション
         Part3:
     ごく簡単な手法の紹介


56       2013春合宿 講義6 機械学習入門 2013/03/24
アヤメ(Iris)

 ・アヤメの がく(petal)・花弁(sepal)の長さと幅

 →アヤメの種 (setosa・versicolor・virginica)

 ・これをつかって説明します



                         Petal.Length
                                        Sepal.Length
57               2013春合宿 講義6 機械学習入門 2013/03/24
マス目で多数決作戦


     ・データ領域を適当に分割

     ・新しいデータが来たら,そ
     れが入っているマスに入って
     いる学習データを列挙し,最
     も多い種に分類する
     ・学習データのないマスにきたらどうしよう
     もないのでランダムに決める                   に分類

58                   2013春合宿 講義6 機械学習入門 2013/03/24
最近傍法



     ・新しいデータが来た
     ら,それに最も近い学
     習データを探し,それ
     と同じ種に分類
                             に分類

59           2013春合宿 講義6 機械学習入門 2013/03/24
k-近傍法
                              k=5


     ・新しいデータが来た
     ら,それに1~k番目に
     近い学習データを探
     し,k個で多数決して
     分類                    2-3
                         →  に分類
60            2013春合宿 講義6 機械学習入門 2013/03/24
イントロダクション
        Part4:
     今日の課題の紹介


61      2013春合宿 講義6 機械学習入門 2013/03/24
Task1:アヤメ(Iris)




 ・アヤメの がく(petal)・花弁(sepal)の長さと幅

 →アヤメの種 (setosa・versicolor・virginica)

 ・20pts   50データ



62                2013春合宿 講義6 機械学習入門 2013/03/24
Task2: Mushroom(キノコ)


                       edible   poisonous
     ・キノコの特徴 → 食用? or 毒?

     ・属性: 22個 カテゴリデータ

     ・食用を回避するより毒を食べる方がヤバい

  提出すれば              食用と判定
                  score                     毒と判定
            +     食用   0pts                  -3pts
10pt 500データ        毒  -15pts                 0pts
                          500データ (毒の個数<=300)

63                 2013春合宿 講義6 機械学習入門 2013/03/24
Task3[難]: arXiv     arxiv.org: 物理学を中心とした論文
                    を保存・公開しているウェブサイト



     ・comp(コンピュータ科学),math(数学),
     phys(物理),stat(統計学)の4つのジャンルの
     論文たち

     ・タイトル → ジャンル

     ・タイトルの単語は数字に変換してあります

     ・10pts   300データ
64               2013春合宿 講義6 機械学習入門 2013/03/24
Good Luck & Have Fun



65           2013春合宿 講義6 機械学習入門 2013/03/24
まとめ



66   2013春合宿 講義6 機械学習入門 2013/03/24
参考文献・サイト

     『パターン認識と機械学習 - ベイ
     ズ理論による統計的予測』 (上下
     巻) 丸善出版 C.M.ビショップ
     ・PRMLの略称で有名

     ・今回のイントロダクションはこの本の第1章の受け売り

     ・図がカラーで綺麗

     ・上巻は基本的な話題(学習とは.確率分布,線形回帰・識別モデル,ニューラルネッ
     トワーク 下巻はそれを元にした発展的な手法の数々(まだ読んでないので知らない)


67                    2013春合宿 講義6 機械学習入門 2013/03/24
参考文献・サイト

     ・数学(確率論,行列,微積分,etc...)

     的な記述が多く,慣れていないと大変
             ↓たとえばこんなの




     『パターン認識と機械学習の学習』(暗黒通信社) と
     いう同人誌が出るほど

     ・上下巻揃えると結構値が張る:¥14,300(税抜)

68               2013春合宿 講義6 機械学習入門 2013/03/24
参考文献・サイト

                 www.kaggle.com
     ・今日の課題のようなコンテストが開かれている 賞金アリ

     ・Blue Book for Bulldozers:ブルドーザーの車種,製造年,販売年,販売
     場所等のデータから販売価格を予測する.4/10に〆切




69                     2013春合宿 講義6 機械学習入門 2013/03/24
参考文献・サイト

     UCI Machine Learning
          Repository
     http://archive.ics.uci.edu/ml/



     ・機械学習のアルゴリズムを試すのに有用なテスト
     データが置いてある


70                        2013春合宿 講義6 機械学習入門 2013/03/24
おつかれさまでした



71      2013春合宿 講義6 機械学習入門 2013/03/24

Mais conteúdo relacionado

Mais de Hiroshi Yamashita

充足可能性問題のいろいろ
充足可能性問題のいろいろ充足可能性問題のいろいろ
充足可能性問題のいろいろHiroshi Yamashita
 
2015 JOI春合宿 Day3 AAQQZ 解説
2015 JOI春合宿 Day3 AAQQZ 解説2015 JOI春合宿 Day3 AAQQZ 解説
2015 JOI春合宿 Day3 AAQQZ 解説Hiroshi Yamashita
 
2014 JOI春合宿 行列の基礎とその応用
2014 JOI春合宿 行列の基礎とその応用2014 JOI春合宿 行列の基礎とその応用
2014 JOI春合宿 行列の基礎とその応用Hiroshi Yamashita
 
2013 JOI春合宿 Day4 漢字しりとり (Kanji Shiritori) 解説
2013 JOI春合宿 Day4 漢字しりとり (Kanji Shiritori) 解説2013 JOI春合宿 Day4 漢字しりとり (Kanji Shiritori) 解説
2013 JOI春合宿 Day4 漢字しりとり (Kanji Shiritori) 解説Hiroshi Yamashita
 
2013 JOI春合宿 Day2 Spy(スパイ) 解説
2013 JOI春合宿 Day2 Spy(スパイ) 解説2013 JOI春合宿 Day2 Spy(スパイ) 解説
2013 JOI春合宿 Day2 Spy(スパイ) 解説Hiroshi Yamashita
 
JOI本選 夜店(NightMarket)解説
JOI本選 夜店(NightMarket)解説JOI本選 夜店(NightMarket)解説
JOI本選 夜店(NightMarket)解説Hiroshi Yamashita
 
JOI春合宿Day4中華料理(Chinese)解説
JOI春合宿Day4中華料理(Chinese)解説JOI春合宿Day4中華料理(Chinese)解説
JOI春合宿Day4中華料理(Chinese)解説Hiroshi Yamashita
 

Mais de Hiroshi Yamashita (7)

充足可能性問題のいろいろ
充足可能性問題のいろいろ充足可能性問題のいろいろ
充足可能性問題のいろいろ
 
2015 JOI春合宿 Day3 AAQQZ 解説
2015 JOI春合宿 Day3 AAQQZ 解説2015 JOI春合宿 Day3 AAQQZ 解説
2015 JOI春合宿 Day3 AAQQZ 解説
 
2014 JOI春合宿 行列の基礎とその応用
2014 JOI春合宿 行列の基礎とその応用2014 JOI春合宿 行列の基礎とその応用
2014 JOI春合宿 行列の基礎とその応用
 
2013 JOI春合宿 Day4 漢字しりとり (Kanji Shiritori) 解説
2013 JOI春合宿 Day4 漢字しりとり (Kanji Shiritori) 解説2013 JOI春合宿 Day4 漢字しりとり (Kanji Shiritori) 解説
2013 JOI春合宿 Day4 漢字しりとり (Kanji Shiritori) 解説
 
2013 JOI春合宿 Day2 Spy(スパイ) 解説
2013 JOI春合宿 Day2 Spy(スパイ) 解説2013 JOI春合宿 Day2 Spy(スパイ) 解説
2013 JOI春合宿 Day2 Spy(スパイ) 解説
 
JOI本選 夜店(NightMarket)解説
JOI本選 夜店(NightMarket)解説JOI本選 夜店(NightMarket)解説
JOI本選 夜店(NightMarket)解説
 
JOI春合宿Day4中華料理(Chinese)解説
JOI春合宿Day4中華料理(Chinese)解説JOI春合宿Day4中華料理(Chinese)解説
JOI春合宿Day4中華料理(Chinese)解説
 

2013 JOI春合宿 講義6 機械学習入門

  • 1. JOI 春合宿 講義6 機械学習入門 2013/03/23 山下 洋史 @utatakiyoshi
  • 2. おしながき ・9:00 9:30(ぐらい) イントロダクション ・9:30 11:40 コンテスト (途中自由に休憩してもらってかまいません) ・11:40 12:00 結果発表・まとめ 2 2013春合宿 講義6 機械学習入門 2013/03/24
  • 3. イントロダクション Part1: 学習とは Part2: 学習の性能 Part3: 簡単な手法の紹介 Part4: 今日の問題の紹介 3 2013春合宿 講義6 機械学習入門 2013/03/24
  • 4. イントロダクション Part1: 学習とは 4 2013春合宿 講義6 機械学習入門 2013/03/24
  • 5. みなさん 5 2013春合宿 講義6 機械学習入門 2013/03/24
  • 6. 4日間おつかれさまでした 6 2013春合宿 講義6 機械学習入門 2013/03/24
  • 7. 皆さんが4日間取り組んだ問題は 基本的に 『ちゃんとした問題』 でした 7 2013春合宿 講義6 機械学習入門 2013/03/24
  • 8. 『ちゃんとした問題』? 代表選抜なんだから, 『ふわっとした問題』 だったら困るだろ! いい加減にしろ! 8 2013春合宿 講義6 機械学習入門 2013/03/24
  • 9. それはそうなのですが, これはそういう意味ではなく, 9 2013春合宿 講義6 機械学習入門 2013/03/24
  • 10. 『ちゃんとした問題』: 論理や計算や数学の世界に属していて その世界の中だけで答えが決まる問題 10 2013春合宿 講義6 機械学習入門 2013/03/24
  • 11. 論理や計算や数学の世界 11 2013春合宿 講義6 機械学習入門 2013/03/24
  • 12. 現実の世界 論理や計算や数学の世界 私たちは論理や計算や数学の世界に そのまま住んでいるわけではありません 12 2013春合宿 講義6 機械学習入門 2013/03/24
  • 13. 現実の世界 論理や計算や数学の世界 モデル化 13 2013春合宿 講義6 機械学習入門 2013/03/24
  • 14. モデル化? 14 2013春合宿 講義6 機械学習入門 2013/03/24
  • 15. モデル化: 現実の世界を数学の世界に翻訳すること ・いろいろなやり方がある ・ただしある程度の目的はある ・目的は現実世界に即して決まる  (論理や計算や数学の世界からは分からない) 15 2013春合宿 講義6 機械学習入門 2013/03/24
  • 16. Example: 車のデザイン ・早く走る車が良い   → エンジン出力・流体力学... ・安くて丈夫な車が良い   → 耐久性・製作コスト... 現実と数学の繋ぎ方には複数のやり方が考えられる 数学の世界からは早く走る車が良いか安くて丈夫な 車が良いかは分からない 16 2013春合宿 講義6 機械学習入門 2013/03/24
  • 17. 学習 現実の事象→データ→知識 ・天気  →毎日の雲の状態と雨が降ったかどうか  →「黒い雲が多ければ雨が降りそう」 ・物理学  →リンゴが木から落ちる  →「重力"F=mg"」 (リンゴが木から落ちるというデータだけではこういうモデル化はできなさそうですが…) この流れを計算機の力を借りてやろう 17 2013春合宿 講義6 機械学習入門 2013/03/24
  • 18. 現実の世界 学習の流れ 論理や計算や数学の世界 知識 フィードバック 結果 活用 計算機 での処理 問題を定式化 現実の事象 データ データをとる 18 2013春合宿 講義6 機械学習入門 2013/03/24
  • 19. 始めのステップで 問題の構造を捉えそこねて 無駄なデータを集めたりすると その後で何をやってもうまくいきません (天気を予想するのに昨日の 夕飯の情報は全く使えない) 有用な情報は何か? をちゃんと考えなければならない 19 2013春合宿 講義6 機械学習入門 2013/03/24
  • 20. なので, 対象の現象や目的についての知識 が必要 20 2013春合宿 講義6 機械学習入門 2013/03/24
  • 21. 論理や計算や数学の世界から現実の世界 に開いている 『ふわっとした問題』 21 2013春合宿 講義6 機械学習入門 2013/03/24
  • 22. 機械学習におけるタスクの 主な分類 教師あり学習 教師なし学習 強化学習 22 2013春合宿 講義6 機械学習入門 2013/03/24
  • 23. 教師あり学習 入力と出力の組がたくさんある ↓ 未知の入力 に対しても正しい出力をするようにしたい 23 2013春合宿 講義6 機械学習入門 2013/03/24
  • 24. 教師なし学習 入力しかない ↓ これといった「正解」は無いが, 「望ましい」出力をしたい ex.クラスタリング 24 2013春合宿 講義6 機械学習入門 2013/03/24
  • 25. 強化学習 何か行動を起こす ↓ 結果が帰ってくる ↓ 自発的にデータを取りながらよりよい 結果をもたらす行動を探す ゲームAIとか… 25 2013春合宿 講義6 機械学習入門 2013/03/24
  • 26. 今回のコンテストでは 教師あり学習 の カテゴリ分類問題 のみを扱います 26 2013春合宿 講義6 機械学習入門 2013/03/24
  • 27. イントロダクション Part2: 学習の性能 27 2013春合宿 講義6 機械学習入門 2013/03/24
  • 28. 学習の性能はどうやって 測ればよいでしょうか? 28 2013春合宿 講義6 機械学習入門 2013/03/24
  • 29. 学習の性能はどうやって 測ればよいでしょうか? 「持ってるデータで全部うまく   いけばいいんじゃないの」 29 2013春合宿 講義6 機械学習入門 2013/03/24
  • 30. ほんとうに? 30 2013春合宿 講義6 機械学習入門 2013/03/24
  • 31. Example1: 男子と女子の身長と体重のデータ 男女を分類したい 体重 男子 女子 (データは架空の物です) 身長 31 2013春合宿 講義6 機械学習入門 2013/03/24
  • 32. ウオオと線を引いて区切る 全部正しく分類できた! 常勝 !!! 体重 身長 32 2013春合宿 講義6 機械学習入門 2013/03/24
  • 33. よく考えると意味不明 体重 身長が高いなら男子 ちょっと高いなら女子 まあまあ高いなら男子 →なんで? 身長 33 2013春合宿 講義6 機械学習入門 2013/03/24
  • 34. 新しいデータについてもうまくいかない 体重 身長 34 2013春合宿 講義6 機械学習入門 2013/03/24
  • 35. (こう分割すればそれっぽくなる) 体重 身長 35 2013春合宿 講義6 機械学習入門 2013/03/24
  • 36. Example2: 3/20の6 18時の1時間毎の気温 時刻 6 7 8 9 10 11 12 13 14 15 16 17 18 気温 15.3 15.6 15.8 16.5 17.9 18.8 18.3 19.9 19.5 20.6 20.0 19.8 19.7 中間の時間の気温を予想しよう! 36 2013春合宿 講義6 機械学習入門 2013/03/24
  • 37. x:時刻 y:気温 y(x)は多項式とする y=a+bx+cx^2+...+mx^12 未知数が13個・データ点が13個 適当に代入して連立方程式を解く データ点全部通る! 常勝!!! 37 2013春合宿 講義6 機械学習入門 2013/03/24
  • 38. やってみた 38 2013春合宿 講義6 機械学習入門 2013/03/24
  • 39. やってみた 39 2013春合宿 講義6 機械学習入門 2013/03/24
  • 40. 17時30分 54℃ 6時30分 やってみた 40℃ 40 2013春合宿 講義6 機械学習入門 2013/03/24
  • 41. 54℃ 41 2013春合宿 講義6 機械学習入門 2013/03/24
  • 42. 42 2013春合宿 講義6 機械学習入門 2013/03/24
  • 43. 43 2013春合宿 講義6 機械学習入門 2013/03/24
  • 44. 44 2013春合宿 講義6 機械学習入門 2013/03/24
  • 45. (アカン) 45 2013春合宿 講義6 機械学習入門 2013/03/24
  • 46. このように, 学習データに対しては成功するが, 新しいデータに対しては失敗してしまう 46 2013春合宿 講義6 機械学習入門 2013/03/24
  • 47. これを 過学習 といいます 47 2013春合宿 講義6 機械学習入門 2013/03/24
  • 48. また, 新しいデータに対しても成功できる能力 はんか これを汎化性能といいます 現実にフィードバックして使いたいので, 過学習せずに汎化性能を高めたい 48 2013春合宿 講義6 機械学習入門 2013/03/24
  • 49. 汎化性能の測り方 49 2013春合宿 講義6 機械学習入門 2013/03/24
  • 50. 汎化性能 is 新しいデータに対する適応力 50 2013春合宿 講義6 機械学習入門 2013/03/24
  • 51. 汎化性能 is 新しいデータに対する適応力 →新しいデータを持ってきて うまく行くか見ればよい 51 2013春合宿 講義6 機械学習入門 2013/03/24
  • 52. とはいえ,新しいデータは正解がわからない から,汎化性能のテストには使えない 52 2013春合宿 講義6 機械学習入門 2013/03/24
  • 53. なので,データを2つに分ける ・トレーニングセット ・検証用セット トレーニングセットで学習し, 検証用セットで汎化性能を測定する 53 2013春合宿 講義6 機械学習入門 2013/03/24
  • 54. 使えるデータが少ない時 トレーニングセットを出来るだけ大きく取りたい データを N 分割し, 1 個を検証セット N-1 個をトレーニングセット にする T T T T T V T T T T 検証セットを変えながら繰り返す 交差検証(Cross-validation) 54 2013春合宿 講義6 機械学習入門 2013/03/24
  • 55. イントロダクション Part3: ごく簡単な手法の紹介 55 2013春合宿 講義6 機械学習入門 2013/03/24
  • 56. イントロダクション Part3: ごく簡単な手法の紹介 56 2013春合宿 講義6 機械学習入門 2013/03/24
  • 57. アヤメ(Iris) ・アヤメの がく(petal)・花弁(sepal)の長さと幅 →アヤメの種 (setosa・versicolor・virginica) ・これをつかって説明します Petal.Length Sepal.Length 57 2013春合宿 講義6 機械学習入門 2013/03/24
  • 58. マス目で多数決作戦 ・データ領域を適当に分割 ・新しいデータが来たら,そ れが入っているマスに入って いる学習データを列挙し,最 も多い種に分類する ・学習データのないマスにきたらどうしよう もないのでランダムに決める に分類 58 2013春合宿 講義6 機械学習入門 2013/03/24
  • 59. 最近傍法 ・新しいデータが来た ら,それに最も近い学 習データを探し,それ と同じ種に分類 に分類 59 2013春合宿 講義6 機械学習入門 2013/03/24
  • 60. k-近傍法 k=5 ・新しいデータが来た ら,それに1~k番目に 近い学習データを探 し,k個で多数決して 分類 2-3 →  に分類 60 2013春合宿 講義6 機械学習入門 2013/03/24
  • 61. イントロダクション Part4: 今日の課題の紹介 61 2013春合宿 講義6 機械学習入門 2013/03/24
  • 62. Task1:アヤメ(Iris) ・アヤメの がく(petal)・花弁(sepal)の長さと幅 →アヤメの種 (setosa・versicolor・virginica) ・20pts 50データ 62 2013春合宿 講義6 機械学習入門 2013/03/24
  • 63. Task2: Mushroom(キノコ) edible poisonous ・キノコの特徴 → 食用? or 毒? ・属性: 22個 カテゴリデータ ・食用を回避するより毒を食べる方がヤバい 提出すれば 食用と判定 score 毒と判定 + 食用 0pts -3pts 10pt 500データ 毒 -15pts 0pts 500データ (毒の個数<=300) 63 2013春合宿 講義6 機械学習入門 2013/03/24
  • 64. Task3[難]: arXiv arxiv.org: 物理学を中心とした論文 を保存・公開しているウェブサイト ・comp(コンピュータ科学),math(数学), phys(物理),stat(統計学)の4つのジャンルの 論文たち ・タイトル → ジャンル ・タイトルの単語は数字に変換してあります ・10pts 300データ 64 2013春合宿 講義6 機械学習入門 2013/03/24
  • 65. Good Luck & Have Fun 65 2013春合宿 講義6 機械学習入門 2013/03/24
  • 66. まとめ 66 2013春合宿 講義6 機械学習入門 2013/03/24
  • 67. 参考文献・サイト 『パターン認識と機械学習 - ベイ ズ理論による統計的予測』 (上下 巻) 丸善出版 C.M.ビショップ ・PRMLの略称で有名 ・今回のイントロダクションはこの本の第1章の受け売り ・図がカラーで綺麗 ・上巻は基本的な話題(学習とは.確率分布,線形回帰・識別モデル,ニューラルネッ トワーク 下巻はそれを元にした発展的な手法の数々(まだ読んでないので知らない) 67 2013春合宿 講義6 機械学習入門 2013/03/24
  • 68. 参考文献・サイト ・数学(確率論,行列,微積分,etc...) 的な記述が多く,慣れていないと大変 ↓たとえばこんなの 『パターン認識と機械学習の学習』(暗黒通信社) と いう同人誌が出るほど ・上下巻揃えると結構値が張る:¥14,300(税抜) 68 2013春合宿 講義6 機械学習入門 2013/03/24
  • 69. 参考文献・サイト www.kaggle.com ・今日の課題のようなコンテストが開かれている 賞金アリ ・Blue Book for Bulldozers:ブルドーザーの車種,製造年,販売年,販売 場所等のデータから販売価格を予測する.4/10に〆切 69 2013春合宿 講義6 機械学習入門 2013/03/24
  • 70. 参考文献・サイト UCI Machine Learning Repository http://archive.ics.uci.edu/ml/ ・機械学習のアルゴリズムを試すのに有用なテスト データが置いてある 70 2013春合宿 講義6 機械学習入門 2013/03/24
  • 71. おつかれさまでした 71 2013春合宿 講義6 機械学習入門 2013/03/24