SlideShare a Scribd company logo
1 of 16
Download to read offline
統計学勉強会#4
                   「推計学のすすめ」2.2
             飲んべえ族に耳よりな話 ―t分布―
                         担当:伊藤
                       2012年4月2日



12年4月1日日曜日
¯
                      x
                    mと 

             • 正規分布は母平均mと母標準偏差ρで完
              全に記述できる

             • mもρも普通は分からない
                          ¯
             • mの推定値は標本平均 x

12年4月1日日曜日
¯
                 x の分布
              ¯
             •x
               はサンプリングの度に違う値をとる
               x¯
              = は何らかの分布に従う

              ¯
             •x
               はどのような分布をするのか?

              ¯
             •x
               の分布はどのような特徴を持つか?



12年4月1日日曜日
ノーマル・チップス


      • 正規分布を模した
             998枚のチップ




12年4月1日日曜日
シミュレーション
                                      表2   チップ実験のデータ


                             チップ 1   チップ 2   チップ 3   チップ 4   チップ 5   平均

                     試行 1     35      30      26      56      35     36.4
                     試行 2      7      26      21      46      23     24.6
                     試行 3     36      34      32      32      41     35.0
                     試行 4     17      28      41      26      27     27.8




   • ノーマル・チップスから
                     試行 5     27      34      31      21      11     24.8
                     試行 6     38      30      31      53      35     37.4
                     試行 7     40      36      40      26      25     33.4
                     試行 8     25      37      24      35      34     31.0
                     試行 9     10      24      32      26      22     22.8

       5枚のチップを抽出し平   試行 10
                     試行 11
                              53
                              34
                                      43
                                      26
                                              43
                                              13
                                                      44
                                                      20
                                                              20
                                                              30
                                                                     40.6
                                                                     24.6
                     試行 12    20      15      47      25      10     23.4
                     試行 13    37      22      39       5      42     29.0

       均を計算          試行 14
                     試行 15
                              15
                              18
                                      18
                                      37
                                              23
                                              47
                                                      45
                                                      28
                                                              33
                                                              25
                                                                     26.8
                                                                     31.0
                     試行 16    43      24      34      33      27     32.2
                     試行 17    27      29      26      28      23     26.6
                     試行 18    30      22      23      36      42     30.6
                     試行 19    38      17      23      42      22     28.4
                     試行 20    39      27      22      45      45     35.6
                     試行 21    45      32      18      19      53     33.4
                     試行 22    39      29      29      33      33     32.6
                     試行 23    33      43      25      29      33     32.6
                     試行 24    24       6      37      38      45     30.0
                     試行 25    26      20      32      26      29     26.6
                     試行 26    36      14      35      43      31     31.8
12年4月1日日曜日           試行 27    28      35      24      32      31     30.0
¯
                  x の分布

             • 平均:29.6
             • 標準偏差:4.56

    母標準偏差(10)より小さい!        図2   x の分布
                                ¯




12年4月1日日曜日
問題


   バーテンはシングル1杯を30mLで注いでいるのか?




12年4月1日日曜日
推定の精度

             • 1杯のサンプル(の平均値)を調べる
              →値は平均30、標準偏差10で分布

             • 5杯のサンプルの平均値を調べる
              →値は平均30、標準偏差4.56くらいで分布

      沢山のサンプルの平均をとったほうが正確…?

12年4月1日日曜日
に平均して 30mL のウイスキーを注いでいるのか検証したい。
        このとき、1 杯だけのサンプルから推定しようとすると、それは平均 30、標準偏差 10 の分布に従うのでそ
       れなりの誤差を伴う。


                                   定理
        一方、5 杯のサンプルから推定しようとすると、5 杯のサンプルの平均値は平均が 30、標準偏差がおよそ
       4.56 の正規分布に従う。1 杯のサンプルから平均値を推定しようとしたときに比べると標準偏差が小さいの
       で、より良い精度で母平均を推定できるということが分かる。



       6 x の標準偏差
         ¯
                                                √
        x の分布の標準偏差は 4.56 であったが、この値は母標準偏差 10 を
        ¯                                           5 で割った値 (4.47) に近い。実は、一
       般に次のことが言える。

       定理 1 母平均 m、母標準偏差 ρ の正規分布をする母集団から、n 個の資料を取り出し、平均値 x を求めたと
                                                        ¯
       き、x は平均 m、標準偏差
         ¯              √ρ
                          n
                              の正規分布をする。

        定理 1 を図で示すと図 3 のようになる。
        定理 1 はサンプル数を増やすほど推定の精度が高まることを示している。しかし、図 4 から明らかなよう
       に、20∼30 程度以上のサンプルを用意しても、精度はそれほど高まらない。



       7 t 分布を導く
        現実には母平均 m は明らかでない場合が普通である。つまり、次のようなことが問題となる。

       問題 いきつけのバーではシングル 1 杯として本当に 30mL を注いでいるのか?あるいは、バーテンの注ぐ
        沢山のサンプルの平均をとったほうが正確!
         ウイスキーの分量の母平均は 30mL であるのか?

        まず、30mL からどれだけ離れているか?を問題にするのだから、x と 30 との差を考える。
                                        ¯
12年4月1日日曜日
                                      x − 30
                                      ¯
t統計量

             • 母平均と標本平均の差の指標
             • (標本平均ー母平均)/標本標準偏差
                    t=   x 30
                         ¯
                         s/ n


12年4月1日日曜日
t分布
             •   t値はt分布に従う

             •   途中で標本標準偏差を使った
                 ので、自由度により分布が違
                 う

             •   自由度が大きいほど尖った分
                 布になる
                 →大きいサンプルの標本平均
                 は、母平均に近づきやすい
                                                   図 3 x の分布
                                                       ¯



                             ここで求めた t という量は、x の分布を正規化したものと考えることができる (前節での正規分
                                            ¯
12年4月1日日曜日
t分布表
             •   t値の”閾値”が書いてあ
                 る

             •   例:自由度1(標本サイズ
                 2)のとき、63.66以上
                 (-63.66以下)のt値が得ら
                 れる確率は1%

             •   現代では使わない                                     図 5 t 分布表




                                 この例では自由度が 1 のときに t 値が 63.66 以下になる確率を 1 から引くことで 63.66 以上の t
                                 を求めている。2 倍したのは、-63.66 以下の値がでる確率を含めるため (両側検定にするため)
                                 を見てみると、t 分布表の自由度 1、確率 1% の部分に対応していることが分かる。


12年4月1日日曜日
t分布表を使う理由

       • t値は簡単に計算できる
       • あるt値以上(以下)のt値が出る確率を計算す
             るのは難しい

       • 難しい方(確率)を固定した表があると便利!

12年4月1日日曜日
今は確率を直接計算できる

             • Rでの計算例
               > (1 - pt(63.66, 1) * 2
               [1] 0.009999488

             • Excelなどを使った場合、p値やp-valueと
              して出ている値がそれ

             • p値が分かるのだから「p<0.05で有意」
              などという書き方は本来不要
12年4月1日日曜日
例題

    シングルを2杯注文したら32mLと22mLであった。
             このバーのシングルは30mLなのだろうか?




12年4月1日日曜日
検定
             • t値を計算すると-0.6
             • t分布表で自由度1の5%点の値は12.71
             • t値の絶対値は表の5%点に届かない
             • 結論:シングルは30mLではないとは言
              えない


12年4月1日日曜日

More Related Content

Viewers also liked (9)

雑談 アザミウマ
雑談 アザミウマ雑談 アザミウマ
雑談 アザミウマ
 
土壌学第14章
土壌学第14章土壌学第14章
土壌学第14章
 
土壌学 蒔田
土壌学 蒔田土壌学 蒔田
土壌学 蒔田
 
Arn 01-0-nuclear fission
Arn 01-0-nuclear fissionArn 01-0-nuclear fission
Arn 01-0-nuclear fission
 
Teori belajar humanistik
Teori belajar humanistikTeori belajar humanistik
Teori belajar humanistik
 
Arn 02-0-reactor theory
Arn 02-0-reactor theoryArn 02-0-reactor theory
Arn 02-0-reactor theory
 
Poetry
Poetry Poetry
Poetry
 
Materi Esai
Materi EsaiMateri Esai
Materi Esai
 
Pancasila sebagai Filsafat dan Ideologi Nasional
Pancasila sebagai Filsafat dan Ideologi NasionalPancasila sebagai Filsafat dan Ideologi Nasional
Pancasila sebagai Filsafat dan Ideologi Nasional
 

統計学第4回t検定

  • 1. 統計学勉強会#4 「推計学のすすめ」2.2 飲んべえ族に耳よりな話 ―t分布― 担当:伊藤 2012年4月2日 12年4月1日日曜日
  • 2. ¯ x mと  • 正規分布は母平均mと母標準偏差ρで完 全に記述できる • mもρも普通は分からない ¯ • mの推定値は標本平均 x 12年4月1日日曜日
  • 3. ¯ x の分布 ¯ •x  はサンプリングの度に違う値をとる x¯ = は何らかの分布に従う ¯ •x  はどのような分布をするのか? ¯ •x  の分布はどのような特徴を持つか? 12年4月1日日曜日
  • 4. ノーマル・チップス • 正規分布を模した 998枚のチップ 12年4月1日日曜日
  • 5. シミュレーション 表2 チップ実験のデータ チップ 1 チップ 2 チップ 3 チップ 4 チップ 5 平均 試行 1 35 30 26 56 35 36.4 試行 2 7 26 21 46 23 24.6 試行 3 36 34 32 32 41 35.0 試行 4 17 28 41 26 27 27.8 • ノーマル・チップスから 試行 5 27 34 31 21 11 24.8 試行 6 38 30 31 53 35 37.4 試行 7 40 36 40 26 25 33.4 試行 8 25 37 24 35 34 31.0 試行 9 10 24 32 26 22 22.8 5枚のチップを抽出し平 試行 10 試行 11 53 34 43 26 43 13 44 20 20 30 40.6 24.6 試行 12 20 15 47 25 10 23.4 試行 13 37 22 39 5 42 29.0 均を計算 試行 14 試行 15 15 18 18 37 23 47 45 28 33 25 26.8 31.0 試行 16 43 24 34 33 27 32.2 試行 17 27 29 26 28 23 26.6 試行 18 30 22 23 36 42 30.6 試行 19 38 17 23 42 22 28.4 試行 20 39 27 22 45 45 35.6 試行 21 45 32 18 19 53 33.4 試行 22 39 29 29 33 33 32.6 試行 23 33 43 25 29 33 32.6 試行 24 24 6 37 38 45 30.0 試行 25 26 20 32 26 29 26.6 試行 26 36 14 35 43 31 31.8 12年4月1日日曜日 試行 27 28 35 24 32 31 30.0
  • 6. ¯ x の分布 • 平均:29.6 • 標準偏差:4.56 母標準偏差(10)より小さい! 図2 x の分布 ¯ 12年4月1日日曜日
  • 7. 問題 バーテンはシングル1杯を30mLで注いでいるのか? 12年4月1日日曜日
  • 8. 推定の精度 • 1杯のサンプル(の平均値)を調べる →値は平均30、標準偏差10で分布 • 5杯のサンプルの平均値を調べる →値は平均30、標準偏差4.56くらいで分布 沢山のサンプルの平均をとったほうが正確…? 12年4月1日日曜日
  • 9. に平均して 30mL のウイスキーを注いでいるのか検証したい。 このとき、1 杯だけのサンプルから推定しようとすると、それは平均 30、標準偏差 10 の分布に従うのでそ れなりの誤差を伴う。 定理 一方、5 杯のサンプルから推定しようとすると、5 杯のサンプルの平均値は平均が 30、標準偏差がおよそ 4.56 の正規分布に従う。1 杯のサンプルから平均値を推定しようとしたときに比べると標準偏差が小さいの で、より良い精度で母平均を推定できるということが分かる。 6 x の標準偏差 ¯ √ x の分布の標準偏差は 4.56 であったが、この値は母標準偏差 10 を ¯ 5 で割った値 (4.47) に近い。実は、一 般に次のことが言える。 定理 1 母平均 m、母標準偏差 ρ の正規分布をする母集団から、n 個の資料を取り出し、平均値 x を求めたと ¯ き、x は平均 m、標準偏差 ¯ √ρ n の正規分布をする。 定理 1 を図で示すと図 3 のようになる。 定理 1 はサンプル数を増やすほど推定の精度が高まることを示している。しかし、図 4 から明らかなよう に、20∼30 程度以上のサンプルを用意しても、精度はそれほど高まらない。 7 t 分布を導く 現実には母平均 m は明らかでない場合が普通である。つまり、次のようなことが問題となる。 問題 いきつけのバーではシングル 1 杯として本当に 30mL を注いでいるのか?あるいは、バーテンの注ぐ 沢山のサンプルの平均をとったほうが正確! ウイスキーの分量の母平均は 30mL であるのか? まず、30mL からどれだけ離れているか?を問題にするのだから、x と 30 との差を考える。 ¯ 12年4月1日日曜日 x − 30 ¯
  • 10. t統計量 • 母平均と標本平均の差の指標 • (標本平均ー母平均)/標本標準偏差 t= x 30 ¯ s/ n 12年4月1日日曜日
  • 11. t分布 • t値はt分布に従う • 途中で標本標準偏差を使った ので、自由度により分布が違 う • 自由度が大きいほど尖った分 布になる →大きいサンプルの標本平均 は、母平均に近づきやすい 図 3 x の分布 ¯ ここで求めた t という量は、x の分布を正規化したものと考えることができる (前節での正規分 ¯ 12年4月1日日曜日
  • 12. t分布表 • t値の”閾値”が書いてあ る • 例:自由度1(標本サイズ 2)のとき、63.66以上 (-63.66以下)のt値が得ら れる確率は1% • 現代では使わない 図 5 t 分布表 この例では自由度が 1 のときに t 値が 63.66 以下になる確率を 1 から引くことで 63.66 以上の t を求めている。2 倍したのは、-63.66 以下の値がでる確率を含めるため (両側検定にするため) を見てみると、t 分布表の自由度 1、確率 1% の部分に対応していることが分かる。 12年4月1日日曜日
  • 13. t分布表を使う理由 • t値は簡単に計算できる • あるt値以上(以下)のt値が出る確率を計算す るのは難しい • 難しい方(確率)を固定した表があると便利! 12年4月1日日曜日
  • 14. 今は確率を直接計算できる • Rでの計算例 > (1 - pt(63.66, 1) * 2 [1] 0.009999488 • Excelなどを使った場合、p値やp-valueと して出ている値がそれ • p値が分かるのだから「p<0.05で有意」 などという書き方は本来不要 12年4月1日日曜日
  • 15. 例題 シングルを2杯注文したら32mLと22mLであった。 このバーのシングルは30mLなのだろうか? 12年4月1日日曜日
  • 16. 検定 • t値を計算すると-0.6 • t分布表で自由度1の5%点の値は12.71 • t値の絶対値は表の5%点に届かない • 結論:シングルは30mLではないとは言 えない 12年4月1日日曜日