20150827_simplesize

（α版トライアル＠北里大学）
サンプルサイズ設計の考え方
2015年8月27日
京都大学大学院医学研究科
医療統計学分野 / 医学教育推進センター
廣江貴則
E-mail: t-hiroe@umin.ac.jp
15/08/27 2015 Takanori Hiroe; Department of Biostatistics, Kyoto University School of Public Health
1

Outline
1. はじめに
2. 信頼区間と信頼度
3. αエラーとβエラー，検出力
4. なぜサンプルサイズ設計が必要なのか
5. その計算に意味はありますか？
6. サンプルサイズ計算に必要なもの
7. 感度解析をしよう
8. 最後は臨床的感覚

Outline
1. はじめに
2. 信頼区間の意味

はじめに（1/2）
• 試行版として実施するもの
• 医学教育学の界隈の人たち向けの話
• 公衆衛生の専門家向けに話した経験はあるが，
不慣れな人には初めて
• 解析ソフトを使わずにどこまでいけるか
• 考え方を知ってもらうことが目標
• なるべく数式を使わないアプローチをとる
• 計算は面倒なのでソフトウェアで
– 手計算ができる必要はない（専門家の仕事）

はじめに（2/2）
• サンプルサイズ設計は簡単ではない
– 計算結果を出すまでの条件設定
– 計算結果を出してから実際の数を決めるまで
• 計算はソフトに投げればよいといったが…
– 計算結果 ≠ サンプルサイズ
– 曖昧なところを考慮して最終的な数字に
– 読み手をどれだけ納得させられるか
• 統計家も狙いをはずすことがある
– 専門家同士のコミュニケーションが重要
– 外れた場合のリスク管理

Outline
1. はじめに

信頼区間
• 統計的仮説検定で必ず出てくる話
– 幅をもたせて母集団を推定する方法
• 実は誤解が多い
• 点推定値＋区間推定値を示すことが推奨
• 95%もしくは99%を用いるのが一般的
【問題】
• 95%信頼区間の意味を説明してください
– 「真の値が含まれる確率が95%」ではない

Outline
1. はじめに
2. 信頼区間と信頼度

αエラーとβエラー
• αエラー：Type Ⅰ errorとも
– 実際には差がないのに検定で差があると判定
– 一般には研究実施側に有利
– 検証側もしくは規制側はこちらを小さくしたい
• βエラー：Type Ⅱ errorとも
– 実際には差があるのに検定で差がないと判定
– 一般には研究実施側に不利
– 研究者はこちらを小さくしたい

表で示すとこうなる
• αエラーの確率は有意水準を設定して制御
– 一般的には5%がよく使われる
– 違う数字を使う場合はそれなりの根拠が必要
• 1−βを検出力と呼ぶ
– 差があるときに正しく差があると検出できる
– （厳密にはこの定義は正しくはないが…）
検定の結果
差がない差がある
実際の状態
差がない OK αエラー
差がある βエラー OK

α → 0，1−β → 1 は可能か
• α：実際は差がないのに差があると言う
• 1−β：差があるときに差があると言う
• αを0にして，1−βを1にできれば理想
– そんなことは可能か
– 少なくとも近づけることはできないか
• 有意水準と検出力の関係を知る

有意水準αを0にする
• αを0にすることそのものは可能
• 差がないのに差があるという確率を0に
すればよい
– 差があろうがなかろうが，差がないと言う
• 差があっても差がないと言ってしまう
– βの値が1になるので，検出力（1−β）は0にな
る
– αを0にすると検出力がなくなる

検出力1−βを1にする
• 1−βを1にすることそのものは可能
• つまり，βを0にすればよい
– 差があろうがなかろうが，差があると言う
• 差がなくても差があると言ってしまう
– 有意水準αの値が1になる
– 差がないときにも全部差があると言う

有意水準と検出力の関係
• 有意水準を0にすると，検出力が下がる
• 検出力を上げると，有意水準が1となる
– 有意水準は小さい方がよい
– 検出力は大きい方がよい
• トレードオフの関係
– どちらかをとれば，どちらかが失われる
– 一般にはαは5%でコンセンサスがとれている
– 決まった有意水準で検出力を上げる

図でみる検出力
出所：統計的仮説検定, 産業技術総合研究所ウェブサイト,
https://staff.aist.go.jp/t.ihara/confidence.html, 2015年8月27日閲覧

Outline
1. はじめに

なにをしているのか
• なにをしているか知らないと辛い
– 夜も眠れないくらい辛い（たぶん）
– あとからいろいろ言われて辛い
• サンプルサイズ設計の意味を考える前に…
• 適正なサンプルサイズ（例数）より
– 少なかった場合
– 多かった場合
それぞれどんな問題が生じるか

少なかった場合

多かった場合

結局なにをしているの？
• 多すぎても少なすぎてもだめだった
• 本当に差があるときに設定した検出力で
差があることを検出できる最小のサイズ
– もう少し厳密にいえば，ただ差があるだけ
ではなく，臨床的に意味がある差を考慮
• 「最小のサイズ」がキーワード
– これより小さいとまずいかもということ

書かないとあれこれ言われる
• 倫理審査の申請時に必要になる
– つまり，研究開始時点で計算が終わっている
• 多すぎても，少なすぎてもいけない
– 少ない→結果出ない→協力者に申し訳ない
• 妥協して納得させられればそれでいい
– 自分，共同研究者，倫理審査委員，読者

Outline
1. はじめに

比較をしないのに計算する？
• 比較しないものは計算できない
• 1群の場合，予め設定した値と差があるかを
確かめる場合には計算できる
• 横断調査でいつのまにか2群比較を前提に
サンプルサイズの設計をしていることも
– これはやってはいけません
– アンケートなどは基本的にはこの方法では無理
– どの程度の誤差を持つかはわかる
– あとはそれを許容できるかどうか

ではどうするのさ
• どの程度の誤差があるかは分かる
– サンプルサイズが小さいと相当の誤差をもつ
n=10 n=50 n=100 n=300 n=600
5%/95% ±13.5% ±6.0% ±4.3% ±2.5% ±1.8%
10%/90% ±18.6% ±8.3% ±5.9% ±3.4% ±2.4%
20%/80% ±24.8% ±11.1% ±7.8% ±4.5% ±3.2%
30%/70% ±28.4% ±12.7% ±9.0% ±5.2% ±3.7%
40%/60% ±30.4% ±13.6% ±9.6% ±5.5% ±3.9%
50% ±31.0% ±13.9% ±9.8% ±5.7% ±4.0%

Outline
1. はじめに

計算に必要な情報
• 有意水準 α：0.05が一般的
• 検出力 1−β：0.8または0.9が一般的
• 用いる検定の方法
• それぞれの集団で予測される平均値/割合など
【平均の比較の場合】
– 検出したい差 δ：内容による
– 標準偏差 σ
【割合の比較の場合】
– 推定される各群の割合
– 症例数の比 m

検出したい差 δ
• 臨床的に意味を見出せる差ともいえる
• 降圧薬の効果を確かめたい
• 1mmHgの低下に意味がある？
• たぶん20mmHgくらいないと意味がない
• 開発した教材の効果を確かめたい
• 平均点で何点上昇すればいい？
• 10点，15点，20点…
• その教材で何点くらい変化すれば意味があると
いえるのかを基準に自分で設定
• 情報の受け手が納得できる数字であること

推定される各群の割合
• どんな値をとるか予想する
• 先行研究などを参考にして検討
• どのくらいになっていたたらよいか，
でもよいが，どのくらいになるかが重要
– 研究するなら見積もりくらいはありますよね

わずかな差の検出
• 小さな差はたくさんのサンプルが必要
• 単なる有意差ではなくて，臨床的に意味ある
差を狙うべきなのはこれが理由
– 意味が見出せない小さな差を見つけても…
• 逆に比較的大きな差を大きなサンプルで検証
したら大半のものが有意になる
– ビッグデータ解析
– ゲノムデータ解析
– （昔の臨床研究）

数式は載っているけれど…
• 実際の計算はかなり面倒
– ソフトウェアに任せるのが吉
– 統計解析ソフトのほかに，専用のものもある
– 特殊なサンプルサイズ設計以外は手計算や
プログラムを書いての計算はおすすめしない
– 分からなければ専門家に訊く
• 計算結果の読み方に注意
– 2群でその数字か，1群当たりの数字か
– 2群で154.3人という計算結果が得られた場合，端
数の処理はどうする？

Outline
1. はじめに

感度解析とは
• 感度分析とも呼ぶ
– 統計解析の様々な場面で利用される
– 欠測データの取り扱いの検討などでも有用
• 完全な予測は優秀な統計家でも無理
– でも被害は最小限に抑えたい
• 条件が変化したときに最適解がどの程度変化
するのかを求めること
– 標準偏差や割合の差，検出力が変化した場合に
必要なサンプルサイズがどの程度変化するか

決めうちはリスクが大きい
• パラメータの予測は予測でしかない
– 正確に予測するのは困難（無理！）
– 数字が動いたらどのくらい影響を受けるか
（if〜thenの考え方）
• 予測を外した場合の影響の評価をする
– 影響が大きい場合は慎重に検討
– 現実的な数（妥協できる数）との比較検討
– 無理なら試験中止，デザインの見直しなども

感度解析の例
• 複数のパターンで計算して，実現可能な
数や検出力と折り合いをつける
割合
検出力
60% 70% 80%
20% 250 314 398
25% 126 158 200
30% 78 98 124
35% 54 68 86
40% 40 50 64
45% 32 38 48
例：2群の割合の比較，片方は10%固定で，1:1

感度解析の別の使い方
• これまで標準偏差や割合の差，検出力を
変化させて必要なサンプルサイズの変化
を検証してきた
• サンプルサイズの上限が初めからほぼ
決まっている場合も少なくない
– この場合に計算からつじつまを合わせるのは
かなり難しい（こじつけ感が否めない）
– 検出力がどのように変化するかを感度解析で
検証することで，妥協できるか検討

やってみた方が早い？
• ここまでの話をやってみせた方がわかる
– とりあえず例を使って実演してみる
• いくつかのソフトウェアが利用可能
– Excelでもやろうと思えばできるが面倒
– PS（Vanderbilt University)を使ってみる
• だいたい使い方は同じ
– とはいえ，説明文書はちゃんと読むこと
– ソフトによって計算方法が微妙に違う

Outline
1. はじめに

計算して終わりではない
• 各種パラメータの設定
• 臨床的に意味のある差や割合の予測
• 感度解析
が終わって，妥協できるサンプルサイズを
決定することができた
…で終わりにしてはいけない
なぜでしょうか？

抜け落ちが生じる
• 脱落が生じることは不可避
• 最後まで到達できない，結果が得られない
– 過去の事例から，どのくらい脱落があるか推測
• どの程度の脱落があるか見込んで計算結果に
上乗せしたものをサンプルサイズとする
– 見積もりが少ないと検出力不足に
– 見積もりより多すぎるとあれこれ言われる
• 読み手が納得できる根拠が必要

たとえば
• 質問紙を配布して，その回収率が30%と
見込まれるのなら脱落は70%
– 計算された値の3.33倍する？
– 正解はなく，納得できるかどうかが問題
• 過去の経験や先行研究を参考に判断
– 教育などの社会科学分野ではかなり難しい
– 先行研究は根拠にはなるが，自らの研究でも
そうなる保証はどこにもない

そうはいっても
• 設計したサンプルサイズを下回ることが
ないわけではない（見積もりがいつも
正しいという保証はない）
– つまり，検出力不足の状態
• 設計したサンプルサイズより小さくて
– 統計的に有意な結果が得られたとき
– 有意でなかったとき
それぞれどう解釈すればよいのか

有意な結果が得られた
• 検出力が不足していると想定される
• ということは？

有意でなかった
• こちらも検出力が不足している状態
• 「有意でない」ということの意味
– 信頼区間を示したらどうなる？

まとめ
• 差をぎりぎり検出できる最小のサイズ
• サンプルサイズ設計はソフトウェアを使えば
すぐにできるが，考え方を知ることが重要
• 人が決めなければいけない要素が多い
– 臨床的に意味のある差とは？
• 推定は当たらないこともある
• 決めうちは避けて感度解析で判断
– 計算は万能ではない（if〜thenの考え方）
• 臨床（実践）感覚を大切に

最後に
• 特別な理由がない限りは両側検定を仮定
してサンプルサイズを設計すること
– 「たぶん大きくなる（小さくなる）」程度で
片側検定を用いてはいけない
– 基本的には非劣勢試験の場合のみ
• 勝っているのは構わない
• 一定以上劣っている場合のみ問題にする
• 一般に使われるのは優越性試験

20150827_simplesize

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Viewers also liked

Viewers also liked (20)

Similar to 20150827_simplesize

Similar to 20150827_simplesize (20)

Recently uploaded

Recently uploaded (7)

20150827_simplesize