SlideShare uma empresa Scribd logo
1 de 18
Baixar para ler offline
Satoshi Tada
2014/4/6
GDG DevFest Japan 2014 Spring
 たださとし
 G+ : +たださとし
 Tw : @pinmarch_t
 「Google Prediction APIを使えば機械学習でデータ
の予測してくれるらしいね、機械学習っていうくらいだ
から統計の知識なくても使えそうで便利だね!」
 「Google Prediction APIを使えば機械学習でデータ
の予測してくれるらしいね、機械学習っていうくらいだ
から統計の知識なくても使えそうで便利だね!」
 (いやあ、統計は知ってた方がいいよ…)
 統計学について
 機械学習について
(時間もないので)
ほぼ「数式を使わずに!」ご紹介
 歴史上「統計学」は大きく3つに分類ができる
 記述統計学
 推計統計学
 ベイズ統計学
 ベイズ統計学のみ「主観確率」という概念を持つ
(主観確率客観確率)
 ベイズ主義に対して頻度主義
 記述統計学(19~20世紀)
◦ 生物統計学が源流
◦ 収集した情報の基本統計量(平均・分散・標準偏差 etc.)
◦ 回帰、最小二乗法
◦ 確率論、確率分布(正規分布の概念)
 推計統計学(20世紀前半~)
◦ 統計学的仮説検定法の出現
◦ 標本集団の情報から母集団の状態を推定
◦ 頻度主義 (Nを大きくしていけばある確率に落ち着く)
 ベイズ統計学(20世紀中ごろ~)
◦ 「母集団を前提としない」確率の計算
◦ ベイズの定理自体は18世紀に存在 (トーマス・ベイズ)
◦ 事後確率(条件付き確率)は事前確率から計算ができる
◦ ベイジアンフィルタに応用されている
 機械学習との関連性
事前確率(分布) 事後確率(分布)
事象(観測データ)
生物統計学
数理統計学 記述統計学 推計統計学
確率論
社会統計学
人口統計
(18世紀ごろ~)
(19世紀~)
ベイズ統計学ベイズ理論
(20世紀~)
正規分布
誤差
推定
仮説検定
回帰
(16世紀ごろ~)
(アドルフ・ケトレー)
(フランシスコ・ゴルトン
カール・ピアソン)
(フローレンス・
ナイチンゲール)
(ロナルド・フィッシャー
エゴン・ピアソン, イェジ・ネイマン)
(フェーズ・パスカル
ピエール・ド・
フェルマー)
(ピエール=
シモン・ラプラス)
(カール・フリードリヒ・
ガウス)
(17世紀ごろ~)
(ブルーノ・デ・フィネッティ
レオナルド・ジミー・サヴェッジ)
 機械学習ってなに
◦ センサやデータベースなどからある程度の数のサンプルデータ集合を入力して解析を行
い、そのデータから有用な規則、ルール、知識表現、判断基準などを抽出し、アルゴリズ
ムを発展させる。なおデータ集合を解析するので統計学との関連が深い。
(Wikipediaより)
 訓練(training)を行う
◦ 訓練結果は必ずしもデータセットとはならない
(モデル式であれば、関数で表せられる)
◦ 訓練と実践(実動環境)が同一である必要はない
 「抽出」をした結果を解釈するのは「(主に)人間」!
 機械学習には教師あり、教師なし学習がある
 教師あり学習、教師なし学習
◦ 違いは、手本となるデータの有無
◦ 教師あり
 回帰による予測
 分類器による分類
 etc.
◦ 教師なし
 主成分分析による特徴抽出
 クラスタリングによる分類
 etc.
 教師なし
◦ 「前例」となるデータがないとき
◦ 単純にグループ分けをしたいとき
 そこから何かを見出したい(人間が)
例1) (主成分分析→)クラスタリング→系統樹の作成 (生物系)
 見出した何かを機械的に処理
例2) 主成分分析→パターン認識
 教師あり
◦ 「次のデータ」について判定したいとき
 モデルに当てはめて機械的に処理
例1) 回帰直線、SVM、ニューラルネットワークなど判別分析
例2) パターン認識
 例: 迷惑メールの判定 = ベイジアンフィルタの1つ
プログラマのための数学勉強会 第18回(中村晃一氏) より
http://nineties.github.io/math-seminar/18.html
 「事前の確率が明らか」
◦ 過去の全データ中の”通常”の割合(確率)
◦ 「連絡」が含まれるときの”通常”の割合(確率) etc.
 「起こった現象」を「次の事前確率」として更新できる
 例) 京都で20日晴れが続いた時の“明日が晴れの確率”
◦ 頻度主義で推定すると、「晴れ100%」となるが…
 「事前の確率が明らか」
◦ 過去の全データ中の”通常”の割合(確率)
◦ 「連絡」が含まれるときの”通常”の割合(確率) etc.
 「起こった現象」を「次の事前確率」として更新できる
 例) 京都で20日晴れが続いた時の“明日が晴れの確率”
?%
?%
?%
常識的に考えて、「100%はないでしょ」
例えば、過去1000日の天気から
 ベイジアンネットワーク
 隠れマルコフモデル(HMM)
◦ 確率過程の1つ、状態遷移を確率で表現できる
◦ 音声認識(波形処理)・ゲノム解析(テキストマイニング)で活躍
◦ 動的”ベイジアンネットワーク”の1つ
 記述統計学・推計統計学とベイズ統計学
◦ 頻度主義 vs. ベイズ主義 という考え方の違い
 機械学習
◦ 教師ありと教師なしの学習
 ベイズ統計学(ベイズ推定)を使った機械学習
◦ スパムフィルタ
◦ 音声認識
◦ テキストマイニング
◦ 異常(値)検知
 関東でたまに(月1回程度)もくもく会しています
◦ テーマは特に定めていません
◦ 「スリッパ」Facebookページ
(https://www.facebook.com/slipperworld)

Mais conteúdo relacionado

Destaque

Google Cloud Platformのエンタープライズ最新活用事例
Google Cloud Platformのエンタープライズ最新活用事例Google Cloud Platformのエンタープライズ最新活用事例
Google Cloud Platformのエンタープライズ最新活用事例Yoshiyuki Ueda
 
「お手軽な機械学習サービス」で、ルーティンワークに立ち向かおう!
「お手軽な機械学習サービス」で、ルーティンワークに立ち向かおう!「お手軽な機械学習サービス」で、ルーティンワークに立ち向かおう!
「お手軽な機械学習サービス」で、ルーティンワークに立ち向かおう!a know
 
サンプリングと推定 Siとht推定量
サンプリングと推定 Siとht推定量サンプリングと推定 Siとht推定量
サンプリングと推定 Siとht推定量T T
 
統計学基礎
統計学基礎統計学基礎
統計学基礎Yuka Ezura
 
統計学の基礎の基礎
統計学の基礎の基礎統計学の基礎の基礎
統計学の基礎の基礎Ken'ichi Matsui
 
AngularJS x Chrome Apps (2014.08.23 #gdgkobe event)
AngularJS x Chrome Apps (2014.08.23 #gdgkobe event)AngularJS x Chrome Apps (2014.08.23 #gdgkobe event)
AngularJS x Chrome Apps (2014.08.23 #gdgkobe event)pinmarch_t Tada
 
AngularJSでwebアプリを作ってみた!(2014/6/8 GDGKobe)
AngularJSでwebアプリを作ってみた!(2014/6/8 GDGKobe)AngularJSでwebアプリを作ってみた!(2014/6/8 GDGKobe)
AngularJSでwebアプリを作ってみた!(2014/6/8 GDGKobe)pinmarch_t Tada
 
Java女子部のあゆみ2014
Java女子部のあゆみ2014Java女子部のあゆみ2014
Java女子部のあゆみ2014Ayana Yokota
 
AngularJSでの非同期処理の話
AngularJSでの非同期処理の話AngularJSでの非同期処理の話
AngularJSでの非同期処理の話Yosuke Onoue
 
オークション理論と実証入門
オークション理論と実証入門オークション理論と実証入門
オークション理論と実証入門Kazuki Baba
 
推定と標本抽出
推定と標本抽出推定と標本抽出
推定と標本抽出山津 貴之
 
SQiP2015-研究のデザイン入門
SQiP2015-研究のデザイン入門SQiP2015-研究のデザイン入門
SQiP2015-研究のデザイン入門Hironori Washizaki
 
人間の視覚的注意を予測するモデル - 動的ベイジアンネットワークに基づく 最新のアプローチ -
人間の視覚的注意を予測するモデル - 動的ベイジアンネットワークに基づく 最新のアプローチ -人間の視覚的注意を予測するモデル - 動的ベイジアンネットワークに基づく 最新のアプローチ -
人間の視覚的注意を予測するモデル - 動的ベイジアンネットワークに基づく 最新のアプローチ -Akisato Kimura
 
いろいろなMachineLearning を比べてみよう
いろいろなMachineLearning を比べてみよういろいろなMachineLearning を比べてみよう
いろいろなMachineLearning を比べてみようMiho Matsui
 
CVPR2010: Semi-supervised Learning in Vision: Part 3: Algorithms and Applicat...
CVPR2010: Semi-supervised Learning in Vision: Part 3: Algorithms and Applicat...CVPR2010: Semi-supervised Learning in Vision: Part 3: Algorithms and Applicat...
CVPR2010: Semi-supervised Learning in Vision: Part 3: Algorithms and Applicat...zukun
 
Spring Bootキャンプ @関ジャバ #kanjava_sbc
Spring Bootキャンプ @関ジャバ #kanjava_sbcSpring Bootキャンプ @関ジャバ #kanjava_sbc
Spring Bootキャンプ @関ジャバ #kanjava_sbcToshiaki Maki
 
半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法
半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法
半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法Daichi Kitamura
 
関東第3回ゼロはじめるからR言語勉強会ー グラフ
関東第3回ゼロはじめるからR言語勉強会ー グラフ関東第3回ゼロはじめるからR言語勉強会ー グラフ
関東第3回ゼロはじめるからR言語勉強会ー グラフPaweł Rusin
 

Destaque (20)

Google Cloud Platformのエンタープライズ最新活用事例
Google Cloud Platformのエンタープライズ最新活用事例Google Cloud Platformのエンタープライズ最新活用事例
Google Cloud Platformのエンタープライズ最新活用事例
 
「お手軽な機械学習サービス」で、ルーティンワークに立ち向かおう!
「お手軽な機械学習サービス」で、ルーティンワークに立ち向かおう!「お手軽な機械学習サービス」で、ルーティンワークに立ち向かおう!
「お手軽な機械学習サービス」で、ルーティンワークに立ち向かおう!
 
サンプリングと推定 Siとht推定量
サンプリングと推定 Siとht推定量サンプリングと推定 Siとht推定量
サンプリングと推定 Siとht推定量
 
統計学基礎
統計学基礎統計学基礎
統計学基礎
 
統計学の基礎の基礎
統計学の基礎の基礎統計学の基礎の基礎
統計学の基礎の基礎
 
AngularJS x Chrome Apps (2014.08.23 #gdgkobe event)
AngularJS x Chrome Apps (2014.08.23 #gdgkobe event)AngularJS x Chrome Apps (2014.08.23 #gdgkobe event)
AngularJS x Chrome Apps (2014.08.23 #gdgkobe event)
 
AngularJSでwebアプリを作ってみた!(2014/6/8 GDGKobe)
AngularJSでwebアプリを作ってみた!(2014/6/8 GDGKobe)AngularJSでwebアプリを作ってみた!(2014/6/8 GDGKobe)
AngularJSでwebアプリを作ってみた!(2014/6/8 GDGKobe)
 
ngJapan報告会
ngJapan報告会ngJapan報告会
ngJapan報告会
 
Java女子部のあゆみ2014
Java女子部のあゆみ2014Java女子部のあゆみ2014
Java女子部のあゆみ2014
 
AngularJSでの非同期処理の話
AngularJSでの非同期処理の話AngularJSでの非同期処理の話
AngularJSでの非同期処理の話
 
オークション理論と実証入門
オークション理論と実証入門オークション理論と実証入門
オークション理論と実証入門
 
推定と標本抽出
推定と標本抽出推定と標本抽出
推定と標本抽出
 
SQiP2015-研究のデザイン入門
SQiP2015-研究のデザイン入門SQiP2015-研究のデザイン入門
SQiP2015-研究のデザイン入門
 
人間の視覚的注意を予測するモデル - 動的ベイジアンネットワークに基づく 最新のアプローチ -
人間の視覚的注意を予測するモデル - 動的ベイジアンネットワークに基づく 最新のアプローチ -人間の視覚的注意を予測するモデル - 動的ベイジアンネットワークに基づく 最新のアプローチ -
人間の視覚的注意を予測するモデル - 動的ベイジアンネットワークに基づく 最新のアプローチ -
 
いろいろなMachineLearning を比べてみよう
いろいろなMachineLearning を比べてみよういろいろなMachineLearning を比べてみよう
いろいろなMachineLearning を比べてみよう
 
CVPR2010: Semi-supervised Learning in Vision: Part 3: Algorithms and Applicat...
CVPR2010: Semi-supervised Learning in Vision: Part 3: Algorithms and Applicat...CVPR2010: Semi-supervised Learning in Vision: Part 3: Algorithms and Applicat...
CVPR2010: Semi-supervised Learning in Vision: Part 3: Algorithms and Applicat...
 
Spring Bootキャンプ @関ジャバ #kanjava_sbc
Spring Bootキャンプ @関ジャバ #kanjava_sbcSpring Bootキャンプ @関ジャバ #kanjava_sbc
Spring Bootキャンプ @関ジャバ #kanjava_sbc
 
5分でわかるGoogle+API
5分でわかるGoogle+API5分でわかるGoogle+API
5分でわかるGoogle+API
 
半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法
半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法
半教師あり非負値行列因子分解における音源分離性能向上のための効果的な基底学習法
 
関東第3回ゼロはじめるからR言語勉強会ー グラフ
関東第3回ゼロはじめるからR言語勉強会ー グラフ関東第3回ゼロはじめるからR言語勉強会ー グラフ
関東第3回ゼロはじめるからR言語勉強会ー グラフ
 

Google Prediction APIを使う前に知っておきたい統計のはなし