SlideShare uma empresa Scribd logo
1 de 57
統計的推測  Statistical Inference


                推定と検定
               母集団と標本
                 点推定
                区間推定
               2007.07.04  母平均のまとめ追加
               2007.05.25 情報統計学 R より編集
                      2008.06.20 一部編集
                     2012.07.06  不偏分散
                       20120713 信頼区間
母集団と標本
• 母集団 population
   調査したい全体 θ1θ2...θN
   母集団の特性値
     • 母平均    μ
     • 母分散    σ2
   全数調査
     • 時間がかかる
     • 費用がかかる
     • もともと不可能な場合
標本調査 sample survey
• 標本 sample
   母集団よりランダムに標本を抽出し、
    観測してデータ
        x1,x2,...,xn
    が得られる
   データの値は標本により異なる
   確率変数
        X1,X2,...,Xn
    の実現値




                           標本

                     母集団
可能な標本の組数
• 有限母集団の場合
  母集団の構成要素(岡山大学の全学生数)
      N         (    N=13,000   
    )

  標本数
     n        (   n=10   
     )
• 可能な標本の組数
      M  =  NCn
• どの組を標本に選ぶか?!
無作為抽出 random sampling
• 独立性の保証
   乱数
     • 乱数表
     • 乱数賽(サイコロ)
• 非復元無作為抽出 without replacement
• 復元無作為抽出  with replacement
• 層別抽出法      stratified sampling
乱数賽
乱数表
乱数表



• 通常6頁
• さいころで利用する頁
• 鉛筆を落として
  最初に使用する値
• 必要な桁数で
• 通常下に読んでいく
47 都道府県



 •   1 北海道    •   24   三重
 •   2 青森     •   25   滋賀
 •   3 岩手     •   26   京都
 •   4 秋田     •   27   大阪
 •   5 宮城     •   28   兵庫
 •   6 山形     •   29   奈良
 •   7 福島     •   30   和歌
 •   8 茨城     •   31   鳥取
 •   9 栃木     •   32   島根
 •   10 群馬    •   33   岡山
 •   11 埼玉    •   34   広島
 •   12 千葉    •   35   山口
 •   13 東京    •   36   徳島
 •   14 神奈川   •   37   香川
 •   15 新潟    •   38   愛媛
 •   16 富山    •   39   高知
 •   17 石川    •   40   福岡
 •   18 福井    •   41   佐賀
 •   19 山梨    •   42   長崎
 •   20 長野    •   43   熊本
 •   21 岐阜    •   44   大分
 •   22 静岡    •   45   宮崎
 •   23 愛知    •   46   鹿児島
              •   47   沖縄
層別無作為抽出法
• 市区町村、町丁字別、性別、学年別
  のように、できるだけ均一な集団(層)に分け
• 各層から無作為抽出

• 各層からどんな割合で標本をとるか
  各層の大きさに比例して
  各層のばらつきに比例して
推定と検定



• 推定 estimation
   母集団の特性値に何の情報もない
   特性値の値はどんな値か知りたい
     • 点推定   point estimation
     • 区間推定 interval estimation/ confidence interval
• 検定 testing
   母集団の特性値についてある情報を持っている
   その情報が正しいか否かを知りたい
     • 帰無仮説と対立仮説
       null hypothesis/ alternative hypothesis
点推定
• 仮想的な母集団




    i 名前
                  > p1 <- c(148, 160, 159, 153, 151, 140)
             θi   > p1
                  [1] 148 160 159 153 151 140
   1 A     148    > mean(p1)
                  [1] 151.8333   母平均
   2 B     160    > var(p1)
   3 C     159    [1] 54.96667   母分散

   4 D     153
   5 E     151
   6 F     140
標本の取り出し方
                                                              6⋅5
                                            M = N Cn = 6 C4 =      = 15
                                                              2 ⋅1
       標本    x1 x2 x3 x4       標本平均
  1   ABCD   148 160 159 153   155.00
  2   ABCE   148 160 159 151   154.50
  3   ABCF   148 160 159 140   151.75    > mean(c(159, 153, 151, 140))
                                         [1] 150.75
  4   ABDE   148 160 153 151   153.00
                                         途中省略
  5   ABDF   148 160 153 140   150.25
  6   ABEF   148 160 151 140   149.75    > mean(c(159, 153, 151, 140))
  7   ACDE   148 159 153 151   152.75    [1] 150.75
                                         > mean(c(155.00, 154.50, 151.75, 153.00, 150.25
  8   ACDF   148 159 153 140   150.00
                                         +        149.75, 152.75, 150.00, 149.50, 148.00,
  9   ACEF   148 159 151 140   149.50    +        155.75, 153.00, 152.50, 151.00, 150.75))
 10   ADEF   148 153 151 140   148.00    [1] 151.8333
 11   BCDE   160 159 153 151   155.75
 12   BCDF   160 159 153 140   153.00
 13   BCEF   160 159 151 140   152.75
 14   BDEF   160 153 151 140   151.00
 15   CDEF   159 153 151 140   150.75
      総平均                      151.833
14




情報統計学


        点推定
点推定と区間推定                              15

• 未知母数 ( パラメータ )θ を推定するには 2 つの方法がある
  区間推定
    • 区間で当てる
  点推定
    • 点で当てる
  たった一組のデータで求めた値が,母平均の値などに一致する可能性
   は少ない
• 区間推定
  θ1≦θ≦θ2 のようにある幅をつけて母数 θ を推定する方法
   • パラメータ θ が入るであろう範囲を一定の信頼度(確率)で指定
• 点推定
  θ=θ0 として,幅をつけずに一個の推定値で推定
  一点で当てる
点推定に望まれる性質                            16

• 不偏性
  標本に基づいて推定した値が,偏っていない
    • 何回も推定を繰り返すと,平均的には,推定したい値 θ にあって
      いる


• 一致性
  n を N に近づけたとき,全数調査の値,母集団のパラメータ θ に一致
   してほしい


• 有効性
  一致性,不偏性を満たすものは多数
  推定量の分散が小さいほうが望ましい


• 最尤法
  あとで説明。
不偏性                       17




      何回も推定を繰り返すと,平均的に
       は推定したい値 θ に合っている
不偏性 unbiasedness



                   標本 1   推定値    ˆ
                                θ1
                   標本 2   推定値   θˆ
                                 2
               .
               .
               .


                   標本 L   推定値
                                 ˆ
                                θL

     母集団
不偏性
• 推定値の期待値が推定したい値



      θ θ
   E ( ˆ) =

            ˆ +θ +... +θ
           θ1 2 ˆ       ˆ
         =               L
                   L
• 平均的にはうまい値を求めている
  大きめの値、小さめの値に偏っていない
不偏性   20
21
一致性   22
有効性   23
24

• 推定量の分散は小さいほうが望ましい。




が小さい推定量ほど,「有効」 (effective) な推定量
最尤法                       25

• P103 教科書 図 7.1  図 7.2
26
27
28




尤度関数  L(θ) を最大にする θ
正規分布の平均の点推定   29
正規分布の母分散の点推定   30
正規分布の平均の点推定




                 1
• 標本平均が
  不偏性
            µ
            ˆ   = ∑ Xi
                 n i
  一致性
  有効性 (BLUE)
  最尤性
• のすべての意味で、一番良い推定量である。
正規分布の分散の点推定




• 平均 μ が既知の場合
                2 1 n
                σ = ∑ ( X i − µ )2
                   n i =1
• 平均 μ が未知の場合
  最尤推定
  不偏推定         2 1 n
                σ = ∑ ( X i − X )2
                   n i =1
                2    1 n
                σ =      ∑
                    n − 1 i =1
                               ( X i − X )2
不偏分散


               n
E[ S ] = E[ ∑ ( X i − X ) 2 ]
     2

              i =1
         n
= E[∑ {( X i − µ ) − ( X − µ )}2 ]
      i =1
         n
= E[ ∑ ( X i − µ ) 2 − n ( X − µ ) 2 ]
      i =1
         n
= E[∑ (X i − µ ) 2 ] − nE[( X − µ ) 2 ]
      i =1

           σ2                              1 2       1 n
= nσ 2 − n
             n
                                    U =  2

                                         n −1
                                              S =       ∑
                                                   n − 1 i =1
                                                              (X i − X ) 2
= (n − 1)σ 2
                                              1               1
                                    E[U ] =
                                       2
                                                 E[ S ] =
                                                     2
                                                                   (n − 1)σ 2 = σ 2
                                            n −1            n −1
レポート   34
35
36




情報統計学


        区間推定
区間推定                            37


• たった一組のデータで求めた値が,母平均の値に一
  致する可能性は少ない。
• 区間を求める「区間推定」を考える
  求める区間の幅はできるだけ狭く
  定めた区間内にパラメータが入っている確率はできるだけ
   大きくなるように


• 同時に満たすことは難しい
  確率に条件を付ける
    • 信頼度 1-α を定める。
    • 求めた推定区間の中にパラメータが入っている確率が
      1-α 以上になる区間のなかで,幅をできるだけ狭くする
信頼区間   38
母平均 μ の区間推定(母分散 σ2 が既知の場合)   39
信頼区間の幅                                                                                                           40

> xseq<-seq(0.001, 0.049, 0.0001)




                                                             0.4
> cL<-qnorm(xseq)
> cU<-qnorm(1-0.05+xseq)




                                                             0.3
> Ran<-cU-cL
> plot(Ran)




                                           dnorm (x)


                                                             0.2
> which.min(Ran)
[1] 241
> points(241,Ran[241],col="red")




                                                             0.1
> xseq[241]
[1] 0.025




                                                             0.0
> cbind(cL,cU,Ran)                                                     -3   -2    -1         0         1    2     3


            cL      cU    Ran                                                                x


 [1,] -3.090232 1.654628 4.744860

                                                       4.6
 [2,] -3.061814 1.655614 4.717428
 [3,] -3.035672 1.656602 4.692274
省略
                                                       4.4
                                     Ran




[239,] -1.963398 1.956553 3.919951
[240,] -1.961678 1.958256 3.919934
                                                       4.2




[241,] -1.959964 1.959964 3.919928
[242,] -1.958256 1.961678 3.919934
                                                       4.0




[243,] -1.956553 1.963398 3.919951
以下省略                                                               0        100        200       300       400        500
確率 95% の区間   41
母平均 μ の区間推定(母分散 σ2 が既知の場合)   42
シミュレーション                           43

• R の関数 rnorm は N(0, 1) に従う乱数を生成
   これを母集団と考えて, 10 個の乱数(標本)をとり,
    母平均の信頼度 1-α=0.95 の信頼区間を作る
シミュレーション   44
45




乱数によっては,母平均 μ=0 を
含む場合と,含まない場合がある
46

• 区間推定を 100 回繰り返して,確かめてみる。
    区間を 100 個作る。
   > for(i in 1:100){
    print(conf.interval(rnorm(10), 0.95, 1))
   }


• 関数 sim.conf.interval
    シミュレーションの回数,標本数,信頼度
    標本数 n=10 ・信頼度 1-α=0.95 ・シミュレーション回数 5 回
    sim.conf.interval(5, 10, 0.95)
47

• シミュレーション回数を 100 回にして, 100 組の信頼区間
• 真の母平均の値 μ=0 を含まない信頼区間だけを表示
48

• グラフにして表示
• r <- sim.conf.interval(100, 10, 0.95)
• plot.conf.interval(r)




                              100
                              80
                              60
                         gy

                              40
                              20
                              0




                                    -2    -1   0    1   2

                                               gx
母平均 μ の信頼区間(母分散 σ2 が未知のとき)       49

• 母分散 σ2 が未知のときは,先ほどの方法は使えない
• ここで次の性質を使う。( σ2 は未知なため, σ は使えない)
母平均 μ の信頼区間(母分散 σ2 が未知のとき)   50

• P69
母平均 μ の信頼区間(母分散 σ2 が未知のとき)   51
信頼区間の計算   52
シミュレーション   53
gy

          0   20   40        60   80   100




     -2
     -1
     0

gx
     1
     2
                                             54
信頼区間の幅                           55




         母分散が未知の場合は母分散のかわりに,不偏
           推定値の標本不偏分散を用いているため
              ・信頼区間の幅がすべて同じ
             ・信頼区間の幅が変わっている
演習                                        56

• N(0,1) に従う乱数を 999 個作成し,小さいほうから 25 番目,
  975 番目の値を求め, qnorm 関数より, α=0.025 の値, α =
  0.975 の値と比較せよ。
   並べ替えは sort 関数で行うことができる
     • sort(x) で x を小さい順に並べ替える
         – その 1 番目の値を見るためには, sort(x)[1]
レポート                                 57

• N(0,1) に従う乱数を 16 個発生させ,その平均を求めることを
  999 回繰り返す。
  999 個の平均の,平均を求めよ。
  小さいほうから 25 番目の値と、 975 番目の値を求めよ。

Mais conteúdo relacionado

Mais procurados

2014年5月14日_水曜セミナー発表内容_FINAL
2014年5月14日_水曜セミナー発表内容_FINAL2014年5月14日_水曜セミナー発表内容_FINAL
2014年5月14日_水曜セミナー発表内容_FINALTomoshige Nakamura
 
ラビットチャレンジレポート 機械学習
ラビットチャレンジレポート 機械学習ラビットチャレンジレポート 機械学習
ラビットチャレンジレポート 機械学習ssuserf4860b
 
20140512_水曜セミナードラフトv1
20140512_水曜セミナードラフトv120140512_水曜セミナードラフトv1
20140512_水曜セミナードラフトv1Tomoshige Nakamura
 
データ解析4 確率の復習
データ解析4 確率の復習データ解析4 確率の復習
データ解析4 確率の復習Hirotaka Hachiya
 
卒論プレゼンテーション -DRAFT-
卒論プレゼンテーション -DRAFT-卒論プレゼンテーション -DRAFT-
卒論プレゼンテーション -DRAFT-Tomoshige Nakamura
 
基礎からのベイズ統計学 輪読会資料 第4章 メトロポリス・ヘイスティングス法
基礎からのベイズ統計学 輪読会資料 第4章 メトロポリス・ヘイスティングス法基礎からのベイズ統計学 輪読会資料 第4章 メトロポリス・ヘイスティングス法
基礎からのベイズ統計学 輪読会資料 第4章 メトロポリス・ヘイスティングス法Ken'ichi Matsui
 
データ解析6 重回帰分析
データ解析6 重回帰分析データ解析6 重回帰分析
データ解析6 重回帰分析Hirotaka Hachiya
 
第5章 統計的仮説検定 (Rによるやさしい統計学)
第5章 統計的仮説検定 (Rによるやさしい統計学)第5章 統計的仮説検定 (Rによるやさしい統計学)
第5章 統計的仮説検定 (Rによるやさしい統計学)Prunus 1350
 
「全ての確率はコイン投げに通ず」 Japan.R 発表資料
「全ての確率はコイン投げに通ず」 Japan.R 発表資料「全ての確率はコイン投げに通ず」 Japan.R 発表資料
「全ての確率はコイン投げに通ず」 Japan.R 発表資料Ken'ichi Matsui
 
グラフィカル Lasso を用いた異常検知
グラフィカル Lasso を用いた異常検知グラフィカル Lasso を用いた異常検知
グラフィカル Lasso を用いた異常検知Yuya Takashina
 
Numpy scipyで独立成分分析
Numpy scipyで独立成分分析Numpy scipyで独立成分分析
Numpy scipyで独立成分分析Shintaro Fukushima
 
データ解析7 主成分分析の基礎
データ解析7 主成分分析の基礎データ解析7 主成分分析の基礎
データ解析7 主成分分析の基礎Hirotaka Hachiya
 
データ解析11 因子分析の応用
データ解析11 因子分析の応用データ解析11 因子分析の応用
データ解析11 因子分析の応用Hirotaka Hachiya
 
データ解析13 線形判別分析
データ解析13 線形判別分析データ解析13 線形判別分析
データ解析13 線形判別分析Hirotaka Hachiya
 
20140514_水曜セミナー発表資料_中村知繁
20140514_水曜セミナー発表資料_中村知繁20140514_水曜セミナー発表資料_中村知繁
20140514_水曜セミナー発表資料_中村知繁Tomoshige Nakamura
 
Yasunori Futamura
Yasunori FutamuraYasunori Futamura
Yasunori FutamuraSuurist
 
相互情報量を用いた独立性の検定
相互情報量を用いた独立性の検定相互情報量を用いた独立性の検定
相互情報量を用いた独立性の検定Joe Suzuki
 

Mais procurados (20)

2014年5月14日_水曜セミナー発表内容_FINAL
2014年5月14日_水曜セミナー発表内容_FINAL2014年5月14日_水曜セミナー発表内容_FINAL
2014年5月14日_水曜セミナー発表内容_FINAL
 
ラビットチャレンジレポート 機械学習
ラビットチャレンジレポート 機械学習ラビットチャレンジレポート 機械学習
ラビットチャレンジレポート 機械学習
 
C06
C06C06
C06
 
20140512_水曜セミナードラフトv1
20140512_水曜セミナードラフトv120140512_水曜セミナードラフトv1
20140512_水曜セミナードラフトv1
 
データ解析4 確率の復習
データ解析4 確率の復習データ解析4 確率の復習
データ解析4 確率の復習
 
C02
C02C02
C02
 
卒論プレゼンテーション -DRAFT-
卒論プレゼンテーション -DRAFT-卒論プレゼンテーション -DRAFT-
卒論プレゼンテーション -DRAFT-
 
基礎からのベイズ統計学 輪読会資料 第4章 メトロポリス・ヘイスティングス法
基礎からのベイズ統計学 輪読会資料 第4章 メトロポリス・ヘイスティングス法基礎からのベイズ統計学 輪読会資料 第4章 メトロポリス・ヘイスティングス法
基礎からのベイズ統計学 輪読会資料 第4章 メトロポリス・ヘイスティングス法
 
データ解析6 重回帰分析
データ解析6 重回帰分析データ解析6 重回帰分析
データ解析6 重回帰分析
 
第5章 統計的仮説検定 (Rによるやさしい統計学)
第5章 統計的仮説検定 (Rによるやさしい統計学)第5章 統計的仮説検定 (Rによるやさしい統計学)
第5章 統計的仮説検定 (Rによるやさしい統計学)
 
「全ての確率はコイン投げに通ず」 Japan.R 発表資料
「全ての確率はコイン投げに通ず」 Japan.R 発表資料「全ての確率はコイン投げに通ず」 Japan.R 発表資料
「全ての確率はコイン投げに通ず」 Japan.R 発表資料
 
グラフィカル Lasso を用いた異常検知
グラフィカル Lasso を用いた異常検知グラフィカル Lasso を用いた異常検知
グラフィカル Lasso を用いた異常検知
 
Numpy scipyで独立成分分析
Numpy scipyで独立成分分析Numpy scipyで独立成分分析
Numpy scipyで独立成分分析
 
データ解析7 主成分分析の基礎
データ解析7 主成分分析の基礎データ解析7 主成分分析の基礎
データ解析7 主成分分析の基礎
 
データ解析11 因子分析の応用
データ解析11 因子分析の応用データ解析11 因子分析の応用
データ解析11 因子分析の応用
 
データ解析13 線形判別分析
データ解析13 線形判別分析データ解析13 線形判別分析
データ解析13 線形判別分析
 
20140514_水曜セミナー発表資料_中村知繁
20140514_水曜セミナー発表資料_中村知繁20140514_水曜セミナー発表資料_中村知繁
20140514_水曜セミナー発表資料_中村知繁
 
PRML セミナー
PRML セミナーPRML セミナー
PRML セミナー
 
Yasunori Futamura
Yasunori FutamuraYasunori Futamura
Yasunori Futamura
 
相互情報量を用いた独立性の検定
相互情報量を用いた独立性の検定相互情報量を用いた独立性の検定
相互情報量を用いた独立性の検定
 

Semelhante a K070k80 点推定 区間推定

086 独立性の検定
086 独立性の検定086 独立性の検定
086 独立性の検定t2tarumi
 
020 1変数の集計
020 1変数の集計020 1変数の集計
020 1変数の集計t2tarumi
 
Rm20140507 4key
Rm20140507 4keyRm20140507 4key
Rm20140507 4keyyouwatari
 
20130223_集計・分析の基礎@アンケート研究会
20130223_集計・分析の基礎@アンケート研究会20130223_集計・分析の基礎@アンケート研究会
20130223_集計・分析の基礎@アンケート研究会Takanori Hiroe
 
統計学基礎
統計学基礎統計学基礎
統計学基礎Yuka Ezura
 
K030 appstat201203 2variable
K030 appstat201203 2variableK030 appstat201203 2variable
K030 appstat201203 2variablet2tarumi
 
第5回Zansa勉強会
第5回Zansa勉強会第5回Zansa勉強会
第5回Zansa勉強会Zansa
 
PRML2.3.8~2.5 Slides in charge
PRML2.3.8~2.5 Slides in chargePRML2.3.8~2.5 Slides in charge
PRML2.3.8~2.5 Slides in chargeJunpei Matsuda
 
ベイズ統計学の概論的紹介-old
ベイズ統計学の概論的紹介-oldベイズ統計学の概論的紹介-old
ベイズ統計学の概論的紹介-oldNaoki Hayashi
 
異常検知と変化検知の1~3章をまとめてみた
異常検知と変化検知の1~3章をまとめてみた異常検知と変化検知の1~3章をまとめてみた
異常検知と変化検知の1~3章をまとめてみたTakahiro Yoshizawa
 
K060 中心極限定理clt
K060 中心極限定理cltK060 中心極限定理clt
K060 中心極限定理cltt2tarumi
 
Rm20150520 6key
Rm20150520 6keyRm20150520 6key
Rm20150520 6keyyouwatari
 
ベイズ統計によるデータ解析
ベイズ統計によるデータ解析ベイズ統計によるデータ解析
ベイズ統計によるデータ解析Kunihiro Hisatsune
 
統計学の基礎の基礎
統計学の基礎の基礎統計学の基礎の基礎
統計学の基礎の基礎Ken'ichi Matsui
 
第1回R勉強会@東京
第1回R勉強会@東京第1回R勉強会@東京
第1回R勉強会@東京Yohei Sato
 
第17回コンピュータビジョン勉強会@関東
第17回コンピュータビジョン勉強会@関東第17回コンピュータビジョン勉強会@関東
第17回コンピュータビジョン勉強会@関東ukyoda
 
Distributed Stochastic Gradient MCMC
Distributed Stochastic Gradient MCMCDistributed Stochastic Gradient MCMC
Distributed Stochastic Gradient MCMCKaede Hayashi
 

Semelhante a K070k80 点推定 区間推定 (20)

086 独立性の検定
086 独立性の検定086 独立性の検定
086 独立性の検定
 
020 1変数の集計
020 1変数の集計020 1変数の集計
020 1変数の集計
 
Rm20140507 4key
Rm20140507 4keyRm20140507 4key
Rm20140507 4key
 
20130223_集計・分析の基礎@アンケート研究会
20130223_集計・分析の基礎@アンケート研究会20130223_集計・分析の基礎@アンケート研究会
20130223_集計・分析の基礎@アンケート研究会
 
統計学基礎
統計学基礎統計学基礎
統計学基礎
 
K030 appstat201203 2variable
K030 appstat201203 2variableK030 appstat201203 2variable
K030 appstat201203 2variable
 
第5回Zansa勉強会
第5回Zansa勉強会第5回Zansa勉強会
第5回Zansa勉強会
 
PRML2.3.8~2.5 Slides in charge
PRML2.3.8~2.5 Slides in chargePRML2.3.8~2.5 Slides in charge
PRML2.3.8~2.5 Slides in charge
 
ベイズ統計学の概論的紹介-old
ベイズ統計学の概論的紹介-oldベイズ統計学の概論的紹介-old
ベイズ統計学の概論的紹介-old
 
異常検知と変化検知の1~3章をまとめてみた
異常検知と変化検知の1~3章をまとめてみた異常検知と変化検知の1~3章をまとめてみた
異常検知と変化検知の1~3章をまとめてみた
 
K060 中心極限定理clt
K060 中心極限定理cltK060 中心極限定理clt
K060 中心極限定理clt
 
Rm20150520 6key
Rm20150520 6keyRm20150520 6key
Rm20150520 6key
 
ベイズ統計によるデータ解析
ベイズ統計によるデータ解析ベイズ統計によるデータ解析
ベイズ統計によるデータ解析
 
統計学の基礎の基礎
統計学の基礎の基礎統計学の基礎の基礎
統計学の基礎の基礎
 
PRML 8.4-8.4.3
PRML 8.4-8.4.3 PRML 8.4-8.4.3
PRML 8.4-8.4.3
 
第1回R勉強会@東京
第1回R勉強会@東京第1回R勉強会@東京
第1回R勉強会@東京
 
第17回コンピュータビジョン勉強会@関東
第17回コンピュータビジョン勉強会@関東第17回コンピュータビジョン勉強会@関東
第17回コンピュータビジョン勉強会@関東
 
Dbda chapter15
Dbda chapter15Dbda chapter15
Dbda chapter15
 
Distributed Stochastic Gradient MCMC
Distributed Stochastic Gradient MCMCDistributed Stochastic Gradient MCMC
Distributed Stochastic Gradient MCMC
 
確率解析計算
確率解析計算確率解析計算
確率解析計算
 

Mais de t2tarumi

K090 仮説検定
K090 仮説検定K090 仮説検定
K090 仮説検定t2tarumi
 
K050 t分布f分布
K050 t分布f分布K050 t分布f分布
K050 t分布f分布t2tarumi
 
K040 確率分布とchi2分布
K040 確率分布とchi2分布K040 確率分布とchi2分布
K040 確率分布とchi2分布t2tarumi
 
K020 appstat201202
K020 appstat201202K020 appstat201202
K020 appstat201202t2tarumi
 
K010 appstat201201
K010 appstat201201K010 appstat201201
K010 appstat201201t2tarumi
 
K080 区間推定
K080 区間推定K080 区間推定
K080 区間推定t2tarumi
 
000 統計学入門 目標
000 統計学入門 目標000 統計学入門 目標
000 統計学入門 目標t2tarumi
 
076 母比率の推定
076 母比率の推定076 母比率の推定
076 母比率の推定t2tarumi
 
060 期待値・中心極限定理
060 期待値・中心極限定理060 期待値・中心極限定理
060 期待値・中心極限定理t2tarumi
 
050 確率と確率分布
050 確率と確率分布050 確率と確率分布
050 確率と確率分布t2tarumi
 
040 相関
040 相関040 相関
040 相関t2tarumi
 
030 2変数の集計
030 2変数の集計030 2変数の集計
030 2変数の集計t2tarumi
 
010 統計学とは
010 統計学とは010 統計学とは
010 統計学とはt2tarumi
 

Mais de t2tarumi (13)

K090 仮説検定
K090 仮説検定K090 仮説検定
K090 仮説検定
 
K050 t分布f分布
K050 t分布f分布K050 t分布f分布
K050 t分布f分布
 
K040 確率分布とchi2分布
K040 確率分布とchi2分布K040 確率分布とchi2分布
K040 確率分布とchi2分布
 
K020 appstat201202
K020 appstat201202K020 appstat201202
K020 appstat201202
 
K010 appstat201201
K010 appstat201201K010 appstat201201
K010 appstat201201
 
K080 区間推定
K080 区間推定K080 区間推定
K080 区間推定
 
000 統計学入門 目標
000 統計学入門 目標000 統計学入門 目標
000 統計学入門 目標
 
076 母比率の推定
076 母比率の推定076 母比率の推定
076 母比率の推定
 
060 期待値・中心極限定理
060 期待値・中心極限定理060 期待値・中心極限定理
060 期待値・中心極限定理
 
050 確率と確率分布
050 確率と確率分布050 確率と確率分布
050 確率と確率分布
 
040 相関
040 相関040 相関
040 相関
 
030 2変数の集計
030 2変数の集計030 2変数の集計
030 2変数の集計
 
010 統計学とは
010 統計学とは010 統計学とは
010 統計学とは
 

K070k80 点推定 区間推定

  • 1. 統計的推測  Statistical Inference 推定と検定 母集団と標本 点推定 区間推定 2007.07.04  母平均のまとめ追加 2007.05.25 情報統計学 R より編集 2008.06.20 一部編集 2012.07.06  不偏分散 20120713 信頼区間
  • 2. 母集団と標本 • 母集団 population  調査したい全体 θ1θ2...θN  母集団の特性値 • 母平均    μ • 母分散    σ2  全数調査 • 時間がかかる • 費用がかかる • もともと不可能な場合
  • 3. 標本調査 sample survey • 標本 sample  母集団よりランダムに標本を抽出し、 観測してデータ     x1,x2,...,xn が得られる  データの値は標本により異なる  確率変数     X1,X2,...,Xn の実現値 標本 母集団
  • 4. 可能な標本の組数 • 有限母集団の場合 母集団の構成要素(岡山大学の全学生数)     N         (    N=13,000      ) 標本数    n        (   n=10       ) • 可能な標本の組数     M  =  NCn • どの組を標本に選ぶか?!
  • 5. 無作為抽出 random sampling • 独立性の保証  乱数 • 乱数表 • 乱数賽(サイコロ) • 非復元無作為抽出 without replacement • 復元無作為抽出  with replacement • 層別抽出法      stratified sampling
  • 8. 乱数表 • 通常6頁 • さいころで利用する頁 • 鉛筆を落として 最初に使用する値 • 必要な桁数で • 通常下に読んでいく
  • 9. 47 都道府県 • 1 北海道 • 24 三重 • 2 青森 • 25 滋賀 • 3 岩手 • 26 京都 • 4 秋田 • 27 大阪 • 5 宮城 • 28 兵庫 • 6 山形 • 29 奈良 • 7 福島 • 30 和歌 • 8 茨城 • 31 鳥取 • 9 栃木 • 32 島根 • 10 群馬 • 33 岡山 • 11 埼玉 • 34 広島 • 12 千葉 • 35 山口 • 13 東京 • 36 徳島 • 14 神奈川 • 37 香川 • 15 新潟 • 38 愛媛 • 16 富山 • 39 高知 • 17 石川 • 40 福岡 • 18 福井 • 41 佐賀 • 19 山梨 • 42 長崎 • 20 長野 • 43 熊本 • 21 岐阜 • 44 大分 • 22 静岡 • 45 宮崎 • 23 愛知 • 46 鹿児島 • 47 沖縄
  • 10. 層別無作為抽出法 • 市区町村、町丁字別、性別、学年別 のように、できるだけ均一な集団(層)に分け • 各層から無作為抽出 • 各層からどんな割合で標本をとるか  各層の大きさに比例して  各層のばらつきに比例して
  • 11. 推定と検定 • 推定 estimation  母集団の特性値に何の情報もない  特性値の値はどんな値か知りたい • 点推定   point estimation • 区間推定 interval estimation/ confidence interval • 検定 testing  母集団の特性値についてある情報を持っている  その情報が正しいか否かを知りたい • 帰無仮説と対立仮説 null hypothesis/ alternative hypothesis
  • 12. 点推定 • 仮想的な母集団 i 名前 > p1 <- c(148, 160, 159, 153, 151, 140) θi > p1 [1] 148 160 159 153 151 140 1 A 148 > mean(p1) [1] 151.8333   母平均 2 B 160 > var(p1) 3 C 159 [1] 54.96667   母分散 4 D 153 5 E 151 6 F 140
  • 13. 標本の取り出し方 6⋅5 M = N Cn = 6 C4 = = 15 2 ⋅1 標本 x1 x2 x3 x4 標本平均 1 ABCD 148 160 159 153 155.00 2 ABCE 148 160 159 151 154.50 3 ABCF 148 160 159 140 151.75 > mean(c(159, 153, 151, 140)) [1] 150.75 4 ABDE 148 160 153 151 153.00 途中省略 5 ABDF 148 160 153 140 150.25 6 ABEF 148 160 151 140 149.75 > mean(c(159, 153, 151, 140)) 7 ACDE 148 159 153 151 152.75 [1] 150.75 > mean(c(155.00, 154.50, 151.75, 153.00, 150.25 8 ACDF 148 159 153 140 150.00 + 149.75, 152.75, 150.00, 149.50, 148.00, 9 ACEF 148 159 151 140 149.50 + 155.75, 153.00, 152.50, 151.00, 150.75)) 10 ADEF 148 153 151 140 148.00 [1] 151.8333 11 BCDE 160 159 153 151 155.75 12 BCDF 160 159 153 140 153.00 13 BCEF 160 159 151 140 152.75 14 BDEF 160 153 151 140 151.00 15 CDEF 159 153 151 140 150.75 総平均 151.833
  • 14. 14 情報統計学 点推定
  • 15. 点推定と区間推定 15 • 未知母数 ( パラメータ )θ を推定するには 2 つの方法がある  区間推定 • 区間で当てる  点推定 • 点で当てる  たった一組のデータで求めた値が,母平均の値などに一致する可能性 は少ない • 区間推定  θ1≦θ≦θ2 のようにある幅をつけて母数 θ を推定する方法 • パラメータ θ が入るであろう範囲を一定の信頼度(確率)で指定 • 点推定  θ=θ0 として,幅をつけずに一個の推定値で推定  一点で当てる
  • 16. 点推定に望まれる性質 16 • 不偏性  標本に基づいて推定した値が,偏っていない • 何回も推定を繰り返すと,平均的には,推定したい値 θ にあって いる • 一致性  n を N に近づけたとき,全数調査の値,母集団のパラメータ θ に一致 してほしい • 有効性  一致性,不偏性を満たすものは多数  推定量の分散が小さいほうが望ましい • 最尤法  あとで説明。
  • 17. 不偏性 17 何回も推定を繰り返すと,平均的に は推定したい値 θ に合っている
  • 18. 不偏性 unbiasedness 標本 1   推定値 ˆ θ1 標本 2   推定値 θˆ 2 . . . 標本 L   推定値 ˆ θL 母集団
  • 19. 不偏性 • 推定値の期待値が推定したい値 θ θ E ( ˆ) = ˆ +θ +... +θ θ1 2 ˆ ˆ = L L • 平均的にはうまい値を求めている 大きめの値、小さめの値に偏っていない
  • 20. 不偏性 20
  • 21. 21
  • 22. 一致性 22
  • 23. 有効性 23
  • 25. 最尤法 25 • P103 教科書 図 7.1  図 7.2
  • 26. 26
  • 27. 27
  • 31. 正規分布の平均の点推定 1 • 標本平均が  不偏性 µ ˆ = ∑ Xi n i  一致性  有効性 (BLUE)  最尤性 • のすべての意味で、一番良い推定量である。
  • 32. 正規分布の分散の点推定 • 平均 μ が既知の場合 2 1 n σ = ∑ ( X i − µ )2 n i =1 • 平均 μ が未知の場合  最尤推定  不偏推定 2 1 n σ = ∑ ( X i − X )2 n i =1 2 1 n σ = ∑ n − 1 i =1 ( X i − X )2
  • 33. 不偏分散 n E[ S ] = E[ ∑ ( X i − X ) 2 ] 2 i =1 n = E[∑ {( X i − µ ) − ( X − µ )}2 ] i =1 n = E[ ∑ ( X i − µ ) 2 − n ( X − µ ) 2 ] i =1 n = E[∑ (X i − µ ) 2 ] − nE[( X − µ ) 2 ] i =1 σ2 1 2 1 n = nσ 2 − n n U = 2 n −1 S = ∑ n − 1 i =1 (X i − X ) 2 = (n − 1)σ 2 1 1 E[U ] = 2 E[ S ] = 2 (n − 1)σ 2 = σ 2 n −1 n −1
  • 35. 35
  • 36. 36 情報統計学 区間推定
  • 37. 区間推定 37 • たった一組のデータで求めた値が,母平均の値に一 致する可能性は少ない。 • 区間を求める「区間推定」を考える  求める区間の幅はできるだけ狭く  定めた区間内にパラメータが入っている確率はできるだけ 大きくなるように • 同時に満たすことは難しい  確率に条件を付ける • 信頼度 1-α を定める。 • 求めた推定区間の中にパラメータが入っている確率が 1-α 以上になる区間のなかで,幅をできるだけ狭くする
  • 39. 母平均 μ の区間推定(母分散 σ2 が既知の場合) 39
  • 40. 信頼区間の幅 40 > xseq<-seq(0.001, 0.049, 0.0001) 0.4 > cL<-qnorm(xseq) > cU<-qnorm(1-0.05+xseq) 0.3 > Ran<-cU-cL > plot(Ran) dnorm (x) 0.2 > which.min(Ran) [1] 241 > points(241,Ran[241],col="red") 0.1 > xseq[241] [1] 0.025 0.0 > cbind(cL,cU,Ran) -3 -2 -1 0 1 2 3 cL cU Ran x [1,] -3.090232 1.654628 4.744860 4.6 [2,] -3.061814 1.655614 4.717428 [3,] -3.035672 1.656602 4.692274 省略 4.4 Ran [239,] -1.963398 1.956553 3.919951 [240,] -1.961678 1.958256 3.919934 4.2 [241,] -1.959964 1.959964 3.919928 [242,] -1.958256 1.961678 3.919934 4.0 [243,] -1.956553 1.963398 3.919951 以下省略 0 100 200 300 400 500
  • 42. 母平均 μ の区間推定(母分散 σ2 が既知の場合) 42
  • 43. シミュレーション 43 • R の関数 rnorm は N(0, 1) に従う乱数を生成  これを母集団と考えて, 10 個の乱数(標本)をとり, 母平均の信頼度 1-α=0.95 の信頼区間を作る
  • 46. 46 • 区間推定を 100 回繰り返して,確かめてみる。  区間を 100 個作る。 > for(i in 1:100){ print(conf.interval(rnorm(10), 0.95, 1)) } • 関数 sim.conf.interval  シミュレーションの回数,標本数,信頼度  標本数 n=10 ・信頼度 1-α=0.95 ・シミュレーション回数 5 回  sim.conf.interval(5, 10, 0.95)
  • 47. 47 • シミュレーション回数を 100 回にして, 100 組の信頼区間 • 真の母平均の値 μ=0 を含まない信頼区間だけを表示
  • 48. 48 • グラフにして表示 • r <- sim.conf.interval(100, 10, 0.95) • plot.conf.interval(r) 100 80 60 gy 40 20 0 -2 -1 0 1 2 gx
  • 49. 母平均 μ の信頼区間(母分散 σ2 が未知のとき) 49 • 母分散 σ2 が未知のときは,先ほどの方法は使えない • ここで次の性質を使う。( σ2 は未知なため, σ は使えない)
  • 50. 母平均 μ の信頼区間(母分散 σ2 が未知のとき) 50 • P69
  • 51. 母平均 μ の信頼区間(母分散 σ2 が未知のとき) 51
  • 54. gy 0 20 40 60 80 100 -2 -1 0 gx 1 2 54
  • 55. 信頼区間の幅 55 母分散が未知の場合は母分散のかわりに,不偏 推定値の標本不偏分散を用いているため ・信頼区間の幅がすべて同じ ・信頼区間の幅が変わっている
  • 56. 演習 56 • N(0,1) に従う乱数を 999 個作成し,小さいほうから 25 番目, 975 番目の値を求め, qnorm 関数より, α=0.025 の値, α = 0.975 の値と比較せよ。  並べ替えは sort 関数で行うことができる • sort(x) で x を小さい順に並べ替える – その 1 番目の値を見るためには, sort(x)[1]
  • 57. レポート 57 • N(0,1) に従う乱数を 16 個発生させ,その平均を求めることを 999 回繰り返す。  999 個の平均の,平均を求めよ。  小さいほうから 25 番目の値と、 975 番目の値を求めよ。

Notas do Editor

  1. &gt; curve(dnorm,-3,3) &gt; abline(h=0) &gt; segments(cL[50],0,cL[50],dnorm(cL[50]),col=&quot;blue&quot;) &gt; segments(cU[50],0,cU[50],dnorm(cU[50]),col=&quot;blue&quot;) &gt; segments(cL[241],0,cL[241],dnorm(cL[241]),col=&quot;red&quot;) &gt; segments(cU[241],0,cU[241],dnorm(cU[241]),col=&quot;red&quot;) &gt;
  2. xseq&lt;-seq(0.001, 0.049, 0.0001) cL&lt;-qnorm(xseq) cU&lt;-qnorm(1-0.05+xseq) dr &lt;- function(i, col, offset=0) { j1&lt;-which(g$x&gt;cL[i])[1] temp.j2&lt;-which(g$x&lt;cU[i]) j2&lt;-temp.u[length(temp.u)] xx&lt;-c(cL[i],g$x[j1:j2],cU[i]) yy&lt;-dnorm(xx) xxx&lt;-c(xx[length(xx)],xx[length(xx)],xx[1],xx[1],xx) yyy&lt;-c(yy[length(yy)],0,0,yy[1],yy) polygon(xxx,yyy+offset,col=col) } ###============================== par(mar=c(1,1,1,1)) id&lt;-c(50,100,150,200,251) layout(matrix(5:1,ncol=1)) k&lt;-0 for(j in id) { k&lt;-k+1 curve(dnorm,-3,3,frame=F,axes=F,xlab=&quot;&quot;) abline(h=0) ##dr(j,rgb(j,j,j,max=255)) dr(j,k) abline(v=cL[j],col=k) abline(v=cU[j],col=k) h&lt;-0 h&lt;-h-0.005 arrows(cL[j],h,cU[j],h,code=3,length=0.1,col=k) } ##========================================= par(mfrow=c(1,1),mar=c(1,1,1,1)) curve(dnorm,-3,3,frame=F,axes=F,ylim=c(-0.05,0.5),xlab=&quot;&quot;,ylab=&quot;&quot;) i&lt;-50; abline(v=cL[i],col=1); abline(v=cU[i],col=1) i&lt;-100; abline(v=cL[i],col=2); abline(v=cU[i],col=2) i&lt;-150; abline(v=cL[i],col=3); abline(v=cU[i],col=3) i&lt;-200; abline(v=cL[i],col=4); abline(v=cU[i],col=4) i&lt;-251; abline(v=cL[i],col=5); abline(v=cU[i],col=5) dr(50,1,0) lines(g$x,g$y+0.02) dr(100,2,0.02) lines(g$x,g$y+0.04) dr(150,3,0.04) lines(g$x,g$y+0.06) dr(200,4,0.06) lines(g$x,g$y+0.08) dr(251,5,0.08) abline(h=0)