Introduction to statistics

統計学入門
全体像のイメージ的な理解を目指して
2010年10月4日
石川康太 (ISHIKAWA Kohta)
Twitter: @_kohta
quantumcorgi_at_gmail.com

1

ご注意
• この資料は個人的な知識をまとめたものです。作成者
の所属する組織とは一切関わりの無いものです。
• 内容は正確なものとなるよう努力していますが、作成
者の不勉強が無いとは言い切れません。不正確な内
容の発生、および本資料の内容を用いたことによるい
かなる損害についても、作成者はその責任を負いませ
ん。
• おかしな点や、改善点など、お気づきの際にはご指摘
いただけると幸いです。

2

この資料の目的と前提
目的前提
•仕事上の問題解決を考える •平均や分散などの確率的
ときに統計学のことも頭に計算を知っている
浮かぶようになる
•正規分布なども知っている
•統計学の全体像をイメージ
できるようになる •統計学についてとても詳しい
というわけではない
•必要な個別トピックの調査
検討にすんなり入れるよう •統計学についてきちんと
になる勉強するのが面倒臭い

…となれたらお得ですね …という方

3

概要
• 統計学とは何か？
– 統計学が扱う問題とその目的
• 確率モデルとパラメータ
– 統計学の基本的な道具とその使い方
• 回帰分析
– よく用いられるモデルとしての実例
• 検定
– 統計的検定の考え方
• モデル選択
– より進んだトピックとして
• ベイズ統計学の初歩
– 頻度主義統計学とは異なる世界を覗く

4

• 回帰分析
• 検定
• モデル選択

5

統計学とは何か？
• データの中にある構造を見つける

構造？データ実現
観測

データ真の構造

データ

構造確率モデル

データ確率変数

6

統計学とは何か？
• ランダムな現象をモデル化
– ノイズがある
– 非決定論的な現象不確実性のモデル化
– 現象の背景がよくわからない

真の構造に近いと思われる確率モデルを
想定してデータに合わせ込む

統計学がやっているのはほとんどこれだけ
（だと思います）
7

– 確率モデル
– 具体例～歪んだコイン投げ
– パラメータの推定量とその性質
– 最尤法（推定量の構成）
– 歪んだコイン投げの最尤推定
• 回帰分析
• 検定
• モデル選択
8

確率モデルとパラメータ(母数)
• 確率モデル＝確率分布の想定

確率モデル

確率変数（データ）パラメータ

データが生起する確率＝想定した確率分布

確率分布のパラメータをデータに合わせ込めば
モデルが完成する
9

• 具体例歪んだコイン投げ
– 歪んでいて、表・裏の出る確率がよくわからないコイン
確率モデルデータ
（H,H,T,H,T,H,T,T,…）
H・・・n回 T・・・N-n回
N回コイン投げをしたらHがn回出た
パラメータ
：表が出る確率
合わせ込んだパラメータ
表が出る確率は
裏が出る確率は

なぜこの合わせ込みが良いと言えるのか？
どうやって合わせ込むとこうなるのか？
10

• 推定量とその性質
推定量
データXを使って真のパラメータ値θを推定したもの

はデータXの関数

データの具体的な値による
になったら嬉しいデータは確率変数
も確率変数！

確率変数としてのの
性質を調べる必要があるの平均や分散を知りたい

11

• 具体例歪んだコイン投げの推定量

：明らかにnの確率分布を考えれば良い
平均が真のパラメータ値
に一致
平均

不偏推定量
平均が真のパラメータ値に等しくなる推定量
(unbiased estimator)

推定したい各パラメータについて、不偏推定量を見つける
ことができれば、データから偏りの無い推定ができる
・実際に不偏推定量を見つけるのは簡単ではない。
・近似的不偏性で我慢することも多い。 12

• 分散はどうなっているか？平均値のまわりでバラツ
キがある
分散

ならバラツキはゼロとなる
一致推定量
無限にデータを集めれば推定量は (consistent estimator)
確率1で決まった値をとる

推定量が一致性を持っているなら、安心して大量のデータ
を集めてくればよい

・不偏性と一致性を兹ね備えた推定量を見つけることが目標となる
・一致性は大抵の場合満たされる（大数の法則、中心極限定理）
13

• 不偏性と一致性
バイアス

不偏性のある推定量不偏性のない（偏った）推定量

N大

N小

一致性
14

• 不偏推定量の分散の性質
– 一般に、推定量の分散は小さければ小さいほど良い
• 分散が小さいなら真のパラメータからのズレが小さい
– ところが、一般に不偏推定量の分散は一定の下限値よ
り小さくすることができない（データ数固定の場合）
クラメール・ラオの下限
データXが与えられたとき、不偏推定量の分散について次の不等式が成り立つ

不偏推定量の中で最も分散が小さいもの最小分散不偏推定量
15

• 最尤法
推定量はデータのどんな関数にすればいいのか？

今得られているデータXは、
最も得られる確率の高いデータが実現したもの
だと考える。

最尤法
今得られているデータXが実現する確率を最大化
するようなパラメータを推定量とする。

16

• 最尤法と最尤推定量
最尤推定量

はデータXを固定して
をの関数と見たもの
尤度関数

推定量を構成する方法は最尤法以外にも色々ある
最小二乗法、MAP推定、ベイズ推定、…
尤度関数はとても重要な量で、様々な場面で顔を出す
フィッシャー情報量、AIC(赤池情報量規準)、ベイズ統計…
17

• 具体例歪んだコイン投げの最尤推定量
データ X=（H,H,T,H,T,H,T,T,…）が起こる確率

（Hがn回出た場合）

これをで微分してゼロと置くと…

最尤推定量

直観的な推定量と同じものが得られる
18

• 最尤法についての注意
– 最尤推定量は必ずしも不偏性、一致性を満たさない
• むしろバイアスが掛かりやすい性質がある
• AICなどによる推定量を用いて補正したりする
有名な例：正規分布モデルの分散の最尤推定量

は不偏推定量ではない！

分散の不偏推定量は
19

• 回帰分析
– 回帰分析と線形モデル
– 最小二乗法について
• 検定
• モデル選択

20

回帰と線形モデル
• 回帰－よく用いる確率モデルとして
– 回帰は確率モデルの枠組みから見ると少々特殊
回帰モデル

xが与えられたときのyの条件付き分布を
平均、分散の正規分布と想定

確率の乗法定理パラメータの合わせ込みに
xの分布の形は影響しない
xの分布は考えなくてよい
（適当に想定したことにする）
21

• 何が線形？
– パラメータについて線形
• xについては線形でなくてもよい

全て線形モデル！

これを一般化するとカーネル法と呼ばれる一連の手法に繋がる

データについて非線形な構造を処理する一般的な方法
カーネル多変量解析、非線形SVM(カーネルマシン)、etc…
22

• 最小二乗法と最小二乗推定量
最小二乗法

について非線形な場合は
の関数となる。

– 最小二乗推定量は線形モデルなら最尤推定量に一致
– 最小分散不偏推定量になっている
– パラメータの任意の線形結合について、
は最小分散不偏推定量(ガウス・マルコフの定理)
23

• 回帰分析
• 検定
– 検定とは何か？（推定と検定の違い）
– 帰無仮説と対立仮説
– 検定のイメージ
– 検定統計量の構成
• モデル選択

24

検定
• 検定は何をするのか？
推定
モデル推定量を確率モデルを想定し、
計算データを使って推定量を求める
データ

検定
モデル検定統計量
の分布関数仮説の
帰無仮説棄却判定
パラメータ値
に対する仮説データ検定統計量

25

検定
• 検定における帰無仮説と対立仮説
帰無仮説
正しいのかどうかを確かめたい仮説

対立仮説
帰無仮説が正しくない時に成り立つ仮説

パラメータの1点を定める仮説：単純仮説一般の複合仮説では、検定が
複雑になったり発見的な手段を
パラメータの範囲を定める仮説：複合仮説
用いる必要があったりする。

・帰無仮説が正しいときに対立仮説を採択する誤り第1種の誤り
・対立仮説が正しいときに帰無仮説を採択する誤り第2種の誤り
第1種の誤りの確率を一定以下に抑えつつ、第2種の誤りの確率を最小化したい

26

検定仮説が正しいとするとまず起こらない
はずのこと(棄却域)が起こるのは、
仮説が間違っているからだ！と考える
• 検定のイメージ
帰無仮説が正しい対立仮説が正しい
時のtの分布関数時のtの分布関数

適当な統計量
（例えばt統計量）

t

tの実現値がこの範囲に
入っていたら帰無仮説を棄却棄却域

棄却域は普通、帰無仮説が正しいときの統計量の分布関数に対して
裾側5%（有意水準5%）となるように定める。

27

検定
• 検定統計量の構成
検定統計量の例：t統計量
分散未知の正規分布における平均値パラメータの検定
（μ0は平均パラメータの帰無仮説）

tは自由度(N-1)のt分布に従うことが分かっている

t分布に基づく検定を構成することができる
– 検定統計量の構成方法は無数にある
– どの統計量を使うかで検定の良さ（検出力）が変わる

28

検定
• 最強力検定とネイマン・ピアソンの補題
最強力検定
対立仮説が成り立つとき、帰無仮説を棄却する
確率が最大となる検定方式

•単純帰無仮説を単純対立仮説に対して検定する問題の場合は、
ネイマン・ピアソンの補題により最強力検定を明示的に構成できる。

•一般の複合仮説の場合は、最強力検定を構成することは難しい。
尤度比検定などの（最強力検定とは限らないが）一般的に適用
できる手法を使う。

29

• 回帰分析
• 検定
• モデル選択
– 回帰モデルの例
– 最尤法の限界
– AIC(赤池情報量規準)

30

モデル選択
• 色々なモデルの中でどれが一番良いのか判定したい
3

例：回帰モデルの次数 2.5 線形回帰モデル
2

1.5

1

いったい何次のモデルが 0.5
6次回帰モデル
一番妥当なのか？ 0
0 0.2 0.4 0.6 0.8 1

オーバーフィッティング、過学習
素直な発想：最尤法の拡張
尤度が一番高いモデルを常に最高次のモデルが
選べばいいのでは？選ばれてしまう

31

モデル選択
• 最尤法の限界
別の
可能性
データ
×
実現計算に使用
モデルデータ尤度関数

別の
可能性データ
×
最尤法は実現データのみに着目してモデルを作る

モデルが吐く別のデータ（可能性）に対応できない

別のデータでは全く的外れでも、実現データに合って
さえいれば(尤度が高く)採用される。汎化性能が低い
32

モデル選択
• 期待平均対数尤度ーデータの「別の可能性」を考慮
期待平均対数尤度

真の分布でデータ最大対数尤度（パラメータ値を
Xについて平均最尤推定量としたときの対数尤度）

最大尤度をデータについて平均することで
『別の可能性』を考慮に入れる

でも実際は
データの真の分布がわからないので平均を計算できない

期待平均対数尤度の不偏推定量を考えたい！
33

モデル選択
• AIC(赤池情報量規準) －最尤法のバイアス補正
実データを用いた最大対数尤度と期待平均対数尤度の間の
バイアスを近似的に計算することができるデータ
最大対数尤度のバイアス補正

ダミー変数最大対数尤度バイアス補正項
（平均されて消える）
AIC(赤池情報量規準)

パラメータが多すぎる
ことによるペナルティ 34

モデル選択
• バイアス補正の効果
– 尤度最大で選んだ場合は、モデルの次数が大きいほど
良いとみなされる
– AIC最小(符号に注意！)で選んだ場合は、モデルの複
雑さが適度に補正される
AIC最小モデル
– 情報量基準
(Information Criterion)は
確率モデルの構成法により
AIC,TIC,BICなど様々ある
尤度最大モデル
(6次まで)

35

• 回帰分析
• 検定
• モデル選択
作成者の力量不足により、ベイズの
– ベイズ統計学とは？項目については表面的な色彩がより
強いものとなっています。
– ベイズの定理と事前分布至らない点など、ご指摘頂ければ
– ベイズ推定幸いです。

36

ベイズ統計学の初歩
• ベイズ統計学とは？
– 新しい！…わけではない(Thomas Bayes,1763)
– 「物事が起こる確率」だけではなく、「物事が起こったと
き、その原因の確率」を考える。
頻度主義的考え方
風邪を引いた人は
原因結果確率0.9で咳をする
風邪を引いた咳をした

ベイズ的考え方

風邪のせい咳をした
咳をした人が風邪を引いている
確率は0.8である
原因と結果の因果関係を
逆転して考える 37

• 典型的な疑問点
– 風邪かどうかはもう決まっているので、確率も何もない
んじゃないか？
• (確率1で断定できるような)十分な情報があればその通り
です。
• 不確実性（確率）と不完全情報（情報が足りない）を同じ
に扱うという考え方です。（主観確率）

– 最尤法と同じじゃない？（「結果データが起こる確率」に
着目）
• 適当な前提の下で同じです。（事前分布が定数）

38

：
• ベイズの定理と事前分布 Aが起こったという条件の下で
Bが起こる条件付き確率
ベイズの定理

原因（A）と結果（B）を入れ換えることができる

ただし、原因Aの確率分布を知らなければならない
事前分布

事前分布は観察前に持っている経験や情報、信念を反映
・「経験的に、この人は0.3の確率で風邪を引いていそうだ」
・「情報が無いのでこのメールがSPAMかどうかは五分五分だ」39

• ベイズ推定
– パラメータ推定の場合、原因がパラメータで結果がデー
タに対応する
尤度関数

データXが得られたとき、
パラメータ値がθである確率

40

• ベイズ推定
– 色々な方法がある。
– 基本的には、ベイズ統計学で現れるのは推定量の単一
の値ではなく推定量の確率分布
頻度主義的ベイズ的

単一の推定値が欲しい場合は
何らかの縮約をする必要がある

41

• ベイズ推定
MAP推定
事後分布を最大化

事後分布の期待値
事後分布における
パラメータの期待値

その他にも、期待損失最小化などの方法がある

42

• ベイズ的な考え方は何が嬉しいのか？
– モデルの不確実性を直接扱うことができる
• パラメータの（事前、事後）分布が不確実性を表現
– 柔軟なモデリングが可能
• 階層ベイズモデルなどを用いることで、より直観をストレ
ートにモデル化することができる（参考文献を参照）

• ベイズ的な考え方の問題点
– どこかで必ず事前分布を恣意的に決めなければならな
い（無情報量事前分布とかもあるが…）
– 計算が難しくなりがち
• ベイズの定理を用いる際に本質的に高次元の多重積分
が必要になる
…その他にも諸説があります 43

まとめ
• 統計学の基本的な考え方と、少しアドバンストなトピッ
クを眺めました。
• 実際は個々の項目について非常に複雑な発展的内容
があるものの、基本を押さえておけば何とか追える…
んじゃないかと思います。
• 確率過程や時系列解析、学習理論、情報理論との関
連など、ここでは全く触れなかった分野もたくさんあり
ます。
– でも基本は同じです！
確率モデルを考えて、データに合わせ込む

44

参考文献
• 統計学全般
– 入門統計学/共立出版
• 学部1年の講義で買わされたもの。改めて読むと意外とわかりやす
い。初心者向け。ネイマン・ピアソン流の古典統計学で、ベイズ的なト
ピックはない。
– キーポイント確率・統計/岩波書店
• わかりやすいが範囲は基本的な内容のみで広くない。その割に中心
極限定理の証明が載っていたりする。
– 自然科学の統計学/東京大学出版会
• 記述は難しめだが、広範で深い記述。実験データ分析のトピックもあ
り実戦的（たぶん）。
– 入門数理統計学/培風館
• 統計学の理論的な背景をきちんと書いている割に、同様の他書に比
べわかりやすい。部分的にしか読んでいない。

45

参考文献
• モデル選択
– 統計科学のフロンティア3「モデル選択」/岩波書店
• 情報量規準に基づくモデル選択がわかりやすい。後半はより情報理
論的な話が書いてある（と思われる）。
– 情報量統計学/共立出版
• モデル選択とその周辺。古い本だが、普通の本にはあまり載ってい
ないことが書いてあって面白い（と思う）。
– Model Selection and Multi-Model Inference/Springer
• 情報量規準と尤度比検定など、どういう状況で何を使うべきか、実践
的な基礎が書いてある（らしい）。
• 多変量解析
– 統計科学のフロンティア1「統計学の基礎」
• 多変量解析が簡潔にまとまっている。「統計学の基礎」とは言い難い
が…。
46

参考文献
– カーネル多変量解析/岩波書店
• カーネル法を用いて非線形系に拡張された多変量解析の本。わかり
やすいらしい。
• ベイズ統計学
– 統計科学のフロンティア4「階層ベイズモデルとその周辺」
• ベイズモデルの便利さがわかりやすく理解できる。
• 数値計算
– 統計科学のフロンティア12「計算統計2 マルコフ連鎖モンテ
カルロ法とその周辺」
• サンプリングなどの数値的な手法が詳しく載っている。語り口が面白
い。

47

Introduction to statistics

Recomendados

Recomendados

Mais conteúdo relacionado

Mais procurados

Mais procurados (20)

Destaque

Destaque (6)

Semelhante a Introduction to statistics

Semelhante a Introduction to statistics (20)

Mais de Kohta Ishikawa

Mais de Kohta Ishikawa (11)

Último

Último (7)

Introduction to statistics