SlideShare uma empresa Scribd logo
1 de 22
Baixar para ler offline
11/24/2012
             改訂版

    生存時間分析について:
打ち切りデータのヒストグラ
            ム
         C 大学 M2
              K.A.


                  1
自己紹介

K.A.

• 経歴
  – S 県生まれ
  – C 大学(K 研究室) M2
  – T 大学 R 学部 S 学科卒



                      2
研究内容紹介:本発表の動機

• 修士論文テーマ(※今日はこの話はしません)
  『生存時間分析によるシール断面画像データの分析』
• シール断面の亀裂の長さを推定したい
• データに顕微鏡写真の視野による打ち切りがある
  – 生存時間分析手法を用いる
• 熱によってシールしているため,温度の影響を知りたい
  – 温度を説明変数にしたパラメトリックモデル
               シール断面画像データ
        打ち切
                     非溶着
        り?                   ?
                溶着
       線分の
       真の長さは                打ち切
       分からない                り
                              3
ヒストグラム
 ヒストグラムはデータの特性を見るためのイン
フォーマルなツールとして重要である.(中略)
ヒストグラムは適切なパラメトリックモデルの選
択に使える. (拙訳)
             ― Huzubazar (2004)

   今日はヒストグラムの話をします.




                              4
R: MASS パッケージ truehist の紹介

 “This plots a true histogram, a density estimate of total area 1.”
とヘルプに書かれている.

hist():ビンの数を『スタージェスの公式』によって決め
る
truehist():ビンの幅を『スコットの選択』によって決
めるこの密度関数に従う       hist(x) truehist(x)
     乱数 x を生成
                                                    #この色はデフォルト




                   ※ グラフは R-tips からのデッドコピー
                                                                      5
打ち切りデータのヒストグラム

準備
• 生存時間に対応する確率変数を T とする.
• 重複を除いた死亡時間の実現値を ti, i=1,…,r とする.
                 ~
• ヒストグラムの各階級の右端点を, j 0 ,..., w
                 tj            で表
     ~
  す(ここで
     t0 0  ).

Huzurbazar (2005) によれば,
打ち切りデータのヒストグラムは:
1. Kaplan-Meier 推定量により,生存率( t i ) を求める      ˆ
                                            S
2. Total probability S ( ~j ) S ( ~j 1 ) を求める
                     ˆ t      ˆ t

3. Total probability をビンの幅で割ったものを,ビン
   の
   高さとする

                                                6
打ち切りデータのヒストグラム
  • ビンの幅の決め方については明記されていないが,
     『スコットの選択』(truehistの方法)を採用した.
    – 『スタージェスの公式』(histの方法)では正規分
      布から離れると当てはめが悪くなるようなので.
                                                  3. ヒストグラム
1. 生存率( di : death
indicator) i
  ti     d    ˆ
             S (t )
                 i
                           2. Total Probability
      5     1   0.933333   ~
      6     1   0.866667   tj        TP
      7     0   0.866667           15 0.566667
      :     :          :           30 0.252778
     28     0   0.361111           45 0.180556
     29     1   0.180556
     43     1          0



                                                              7
コーディング:cdh




             8
検証:シミュレーション
• こうして作成した,打ち切りを考慮したヒストグラムを
  描く関数cdhと,打ち切りを考慮しない(つまり普通
  の)ヒストグラムを描くtruehistを比較する.

• シミュレーションを用いる理由:
 1. シミュレーションで仮定した真の密度と,ヒストグ
    ラムとのずれを比較できる.
 2. 都合の良い(公開されている)データがなかった.

        truehist   cdh



                              9
シミュレーションで仮定した状
況
1. 患者の到着が,レート λ の定常ポアソン過程であると
    仮定する.
   • このとき到着間隔はパラメータ λ の指数分布に従う.
   • 今回は λ =1とした.

2. 患者の生存時間はワイブル分布に従うと仮定する.

3. 観察期間を t とし,t を超えた生存時間は観測されない
   • t を超えた部分を打ち切る
   • t = 20 とした




                                  10
シミュレーションのイメージ
                到着間隔 ~ exponential
                                                              時間
  1.   0

           t1            t2
                                                      生存時間 ~ Weibull
  2.



  3.        [1,]
                      [2,]
                              [3,]
                                               [4,]
       0                                              t
                                 time   cens
                      [1,]   2.540674      1
t2-t1を                [2,]   2.828103      1
  出力                  [3,]   2.072715      1
                      [4,]   1.521291      0                     11
結果の比較(サンプルサイズ n = 59610 )

 打ち切りを考慮しない;            打ち切りを考慮し
    truehist               た;
                           cdh




          横軸:時間 縦軸:密度
    曲線はシミュレーションで仮定した真値( shape=3,
             scale=3 )
      ※truehistはやや左によっている
            (underestimate)
                                   12
結果の比較(サンプルサイズ n = 60225 )

 打ち切りを考慮しない;             打ち切りを考慮し
    truehist                た;
                            cdh




          横軸:時間 縦軸:密度
    曲線はシミュレーションで仮定した真値( shape=0.5,
              scale=3 )
      ※truehistはやや左によっている
            (underestimate)
                                     13
検証:シミュレーション 2
• もう一つ別のシミュレーションを行った
 – こちらのほうが修士論文テーマ『生存時間分析
   によるシール断面画像データの分析』の状況に
   近い




                       14
シミュレーションで仮定した状況 2
1. 患者の到着が,レート λ の定常ポアソン過程であると
    仮定する.
   • このとき到着間隔はパラメータ λ の指数分布に従う.
   • 今回は λ =1とした.
2. 患者の生存時間はワイブル分布に従うと仮定する.
3. 観察期間を t とし,t を超えた生存時間は観測されない
   • t を超えた部分を打ち切る.
4. 観測開始時点 o 以前に到着した患者の,o からの生存時
    間も観測されているとする.
   • 「十分遠い位置」にしたいので o=1000 とした.
        ( : T の平均)
                    4. の状況
              観測値
      ?


          o                  t   15
シミュレーションのイメージ
              到着間隔 ~ exponential
     0                                        時間
1.

         t1             t2

2.                                 生存時間 ~ Weibull




3.



                 o                 o+t

4.
                                         出力
                                               16
結果の比較(サンプルサイズ n = 67515 )
  打ち切りを考慮しない;           打ち切りを考慮し
    truehist               た;
                           cdh




           横軸:時間 縦軸:密度
     曲線はシミュレーションで仮定した真値( shape=3,
              scale=3 )
※truehistは左によっているが,cdhはやや右によってい
                   る
             (overestimate)   17
結果の比較(サンプルサイズ n = 78289 )
  打ち切りを考慮しない;           打ち切りを考慮し
    truehist               た;
                           cdh




          横軸:時間 縦軸:密度
    曲線はシミュレーションで仮定した真値( shape=0.5,
              scale=3 )


                                     18
結果の比較(サンプルサイズ n = 78289 )
  打ち切りを考慮しない;
    truehist



                       このような状態
                          20



                   o             o+t




     最大値20:これは t
      の長さと等しい
     (両側打ち切り)

                                       19
なぜこうなるのか?
• なぜこうなるのかは Laslett (1982) 等を参
  照.
  • ご清聴ありがとうございました.




                                 20
参考文献
• Gill, Richard D., Keiding, Niels, (2010) Product-limit estimators
  of the gap time distribution of a renewal process under
  different sampling patterns. Lifetime Data Anal, 16: pp.571-
  579
• Huzurbazar, Aparna V., (2005): A Censored Data Histogram.
  Communications in Statistics - Simulation and Computation,
  34 : pp. 113-120
• Laslett, G. M., (1982) The Survival Curve Under Monotone
  Density Constraints With Application to two-Dimensional Line
  Segment Processes. Biometrika, 69: pp. 153-160
• デュレット,R., (2005) 確率過程の基礎.今野 紀雄,中
  村 和敬,曽雌 隆洋,馬 霞訳,シュプリンガー・フェア
  ラーク東京
• 舟尾暢男,R-tips. http://cse.naro.affrc.go.jp/takezawa/r-
  tips/r/61.html                                                 21
質疑応答(11/24/2012)
Q. shape を変えても同じ結果になるか?
     A. やってみます(やってみました.このスライドには shape=0.5 の場合
         を載せてあります).
Q. EM アルゴリズムなど,欠測を扱うアルゴリズムと比較してみては?
     A. Kaplan-Meier 推定量では exact に結果が求まるので EM を使う必要はな
         いように思う.(今後,左打ち切りと右打ち切りを区別して扱えるよ
         うに拡張したいので,そのときは使うかもしれない.)
Q.その 「拡張」はプログラミング的にはむずかしいのか?
     A. (どう答えたか忘れた.実をいうと「むずかしいどうかすらよくわか
         らない」というのが正直なところ)
Q. 結論というか,この研究の目的は?
   A.  パラメトリックモデルを選択する際にヒストグラムを使おうと思った.
       ひとまずcdhは使えそうだということが分かった.グラフを描くこと
       自体が目的ではない.
Q. 定常ポアソンの仮定がどう効いてくるのか?
    A. おそらくヒストグラムの形にはあまり関係してない.修論では「原点
       o 以前に到着した場合,生存時間の分布が変化する」というような議
       論をする予定で,そのときは定常ポアソン過程でないと困る.
                                                        22

Mais conteúdo relacionado

Mais procurados

研究室内PRML勉強会 11章2-4節
研究室内PRML勉強会 11章2-4節研究室内PRML勉強会 11章2-4節
研究室内PRML勉強会 11章2-4節
Koji Matsuda
 
機械学習を用いた予測モデル構築・評価
機械学習を用いた予測モデル構築・評価機械学習を用いた予測モデル構築・評価
機械学習を用いた予測モデル構築・評価
Shintaro Fukushima
 
Bishop prml 11.5-11.6_wk77_100606-1152(発表に使った資料)
Bishop prml 11.5-11.6_wk77_100606-1152(発表に使った資料)Bishop prml 11.5-11.6_wk77_100606-1152(発表に使った資料)
Bishop prml 11.5-11.6_wk77_100606-1152(発表に使った資料)
Wataru Kishimoto
 

Mais procurados (20)

外れ値
外れ値外れ値
外れ値
 
カステラ本勉強会 第三回 補足
カステラ本勉強会 第三回 補足カステラ本勉強会 第三回 補足
カステラ本勉強会 第三回 補足
 
「ベイズ推定でパラメータリスクを捉える &優れたサンプラーとしてのMCMC」の実装例rstanコード
「ベイズ推定でパラメータリスクを捉える &優れたサンプラーとしてのMCMC」の実装例rstanコード「ベイズ推定でパラメータリスクを捉える &優れたサンプラーとしてのMCMC」の実装例rstanコード
「ベイズ推定でパラメータリスクを捉える &優れたサンプラーとしてのMCMC」の実装例rstanコード
 
東京都市大学 データ解析入門 4 スパース性と圧縮センシング1
東京都市大学 データ解析入門 4 スパース性と圧縮センシング1東京都市大学 データ解析入門 4 スパース性と圧縮センシング1
東京都市大学 データ解析入門 4 スパース性と圧縮センシング1
 
第5回Zansa勉強会
第5回Zansa勉強会第5回Zansa勉強会
第5回Zansa勉強会
 
研究室内PRML勉強会 11章2-4節
研究室内PRML勉強会 11章2-4節研究室内PRML勉強会 11章2-4節
研究室内PRML勉強会 11章2-4節
 
ベイズ推定でパラメータリスクを捉える&優れたサンプラーとしてのMCMC
ベイズ推定でパラメータリスクを捉える&優れたサンプラーとしてのMCMCベイズ推定でパラメータリスクを捉える&優れたサンプラーとしてのMCMC
ベイズ推定でパラメータリスクを捉える&優れたサンプラーとしてのMCMC
 
Rで学ぶロバスト推定
Rで学ぶロバスト推定Rで学ぶロバスト推定
Rで学ぶロバスト推定
 
Prml 1.3~1.6 ver3
Prml 1.3~1.6 ver3Prml 1.3~1.6 ver3
Prml 1.3~1.6 ver3
 
異常検知と変化検知 9章 部分空間法による変化点検知
異常検知と変化検知 9章 部分空間法による変化点検知異常検知と変化検知 9章 部分空間法による変化点検知
異常検知と変化検知 9章 部分空間法による変化点検知
 
機械学習を用いた予測モデル構築・評価
機械学習を用いた予測モデル構築・評価機械学習を用いた予測モデル構築・評価
機械学習を用いた予測モデル構築・評価
 
Bishop prml 11.5-11.6_wk77_100606-1152(発表に使った資料)
Bishop prml 11.5-11.6_wk77_100606-1152(発表に使った資料)Bishop prml 11.5-11.6_wk77_100606-1152(発表に使った資料)
Bishop prml 11.5-11.6_wk77_100606-1152(発表に使った資料)
 
第2回DARM勉強会
第2回DARM勉強会第2回DARM勉強会
第2回DARM勉強会
 
異常検知と変化検知の1~3章をまとめてみた
異常検知と変化検知の1~3章をまとめてみた異常検知と変化検知の1~3章をまとめてみた
異常検知と変化検知の1~3章をまとめてみた
 
単純ベイズ法による異常検知 #ml-professional
単純ベイズ法による異常検知  #ml-professional単純ベイズ法による異常検知  #ml-professional
単純ベイズ法による異常検知 #ml-professional
 
統計的学習の基礎 3章前半
統計的学習の基礎 3章前半統計的学習の基礎 3章前半
統計的学習の基礎 3章前半
 
東京都市大学 データ解析入門 5 スパース性と圧縮センシング 2
東京都市大学 データ解析入門 5 スパース性と圧縮センシング 2東京都市大学 データ解析入門 5 スパース性と圧縮センシング 2
東京都市大学 データ解析入門 5 スパース性と圧縮センシング 2
 
Darm3(samplesize)
Darm3(samplesize)Darm3(samplesize)
Darm3(samplesize)
 
Maeshori missing
Maeshori missingMaeshori missing
Maeshori missing
 
確率的自己位置推定
確率的自己位置推定確率的自己位置推定
確率的自己位置推定
 

Semelhante a 打ち切りデータのヒストグラム

K070k80 点推定 区間推定
K070k80 点推定 区間推定K070k80 点推定 区間推定
K070k80 点推定 区間推定
t2tarumi
 
introductino to persistent homology and topological data analysis
introductino to persistent homology and topological data analysisintroductino to persistent homology and topological data analysis
introductino to persistent homology and topological data analysis
Tatsuki SHIMIZU
 
K070 点推定
K070 点推定K070 点推定
K070 点推定
t2tarumi
 

Semelhante a 打ち切りデータのヒストグラム (20)

JSIAM_2019_9_4
JSIAM_2019_9_4JSIAM_2019_9_4
JSIAM_2019_9_4
 
充足可能性問題のいろいろ
充足可能性問題のいろいろ充足可能性問題のいろいろ
充足可能性問題のいろいろ
 
数理解析道場
数理解析道場数理解析道場
数理解析道場
 
第10回 配信講義 計算科学技術特論A(2021)
第10回 配信講義 計算科学技術特論A(2021)第10回 配信講義 計算科学技術特論A(2021)
第10回 配信講義 計算科学技術特論A(2021)
 
【読書会資料】『StanとRでベイズ統計モデリング』Chapter12:時間や空間を扱うモデル
【読書会資料】『StanとRでベイズ統計モデリング』Chapter12:時間や空間を扱うモデル【読書会資料】『StanとRでベイズ統計モデリング』Chapter12:時間や空間を扱うモデル
【読書会資料】『StanとRでベイズ統計モデリング』Chapter12:時間や空間を扱うモデル
 
量子アニーリングを用いたクラスタ分析 (QIT32)
量子アニーリングを用いたクラスタ分析 (QIT32)量子アニーリングを用いたクラスタ分析 (QIT32)
量子アニーリングを用いたクラスタ分析 (QIT32)
 
Probabilistic Graphical Models 輪読会 #1
Probabilistic Graphical Models 輪読会 #1Probabilistic Graphical Models 輪読会 #1
Probabilistic Graphical Models 輪読会 #1
 
生存時間分析数理の基礎
生存時間分析数理の基礎生存時間分析数理の基礎
生存時間分析数理の基礎
 
Takuya Tsuchiya
Takuya TsuchiyaTakuya Tsuchiya
Takuya Tsuchiya
 
3次元レジストレーション(PCLデモとコード付き)
3次元レジストレーション(PCLデモとコード付き)3次元レジストレーション(PCLデモとコード付き)
3次元レジストレーション(PCLデモとコード付き)
 
yyoshida thesis
yyoshida thesisyyoshida thesis
yyoshida thesis
 
Or学会用20160915.ver2
Or学会用20160915.ver2Or学会用20160915.ver2
Or学会用20160915.ver2
 
Long short-term memory (LSTM)
Long short-term memory (LSTM)Long short-term memory (LSTM)
Long short-term memory (LSTM)
 
金融時系列のための深層t過程回帰モデル
金融時系列のための深層t過程回帰モデル金融時系列のための深層t過程回帰モデル
金融時系列のための深層t過程回帰モデル
 
K070k80 点推定 区間推定
K070k80 点推定 区間推定K070k80 点推定 区間推定
K070k80 点推定 区間推定
 
熱流体解析における離散スキームの評価
熱流体解析における離散スキームの評価熱流体解析における離散スキームの評価
熱流体解析における離散スキームの評価
 
introductino to persistent homology and topological data analysis
introductino to persistent homology and topological data analysisintroductino to persistent homology and topological data analysis
introductino to persistent homology and topological data analysis
 
K070 点推定
K070 点推定K070 点推定
K070 点推定
 
200604material ozaki
200604material ozaki200604material ozaki
200604material ozaki
 
[DL輪読会]Convolutional Conditional Neural Processesと Neural Processes Familyの紹介
[DL輪読会]Convolutional Conditional Neural Processesと Neural Processes Familyの紹介[DL輪読会]Convolutional Conditional Neural Processesと Neural Processes Familyの紹介
[DL輪読会]Convolutional Conditional Neural Processesと Neural Processes Familyの紹介
 

Último

Último (10)

新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
 
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
 
Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsUtilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native Integrations
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
 

打ち切りデータのヒストグラム

  • 1. 11/24/2012 改訂版 生存時間分析について: 打ち切りデータのヒストグラ ム C 大学 M2 K.A. 1
  • 2. 自己紹介 K.A. • 経歴 – S 県生まれ – C 大学(K 研究室) M2 – T 大学 R 学部 S 学科卒 2
  • 3. 研究内容紹介:本発表の動機 • 修士論文テーマ(※今日はこの話はしません) 『生存時間分析によるシール断面画像データの分析』 • シール断面の亀裂の長さを推定したい • データに顕微鏡写真の視野による打ち切りがある – 生存時間分析手法を用いる • 熱によってシールしているため,温度の影響を知りたい – 温度を説明変数にしたパラメトリックモデル シール断面画像データ 打ち切 非溶着 り? ? 溶着 線分の 真の長さは 打ち切 分からない り 3
  • 5. R: MASS パッケージ truehist の紹介 “This plots a true histogram, a density estimate of total area 1.” とヘルプに書かれている. hist():ビンの数を『スタージェスの公式』によって決め る truehist():ビンの幅を『スコットの選択』によって決 めるこの密度関数に従う hist(x) truehist(x) 乱数 x を生成 #この色はデフォルト ※ グラフは R-tips からのデッドコピー 5
  • 6. 打ち切りデータのヒストグラム 準備 • 生存時間に対応する確率変数を T とする. • 重複を除いた死亡時間の実現値を ti, i=1,…,r とする. ~ • ヒストグラムの各階級の右端点を, j 0 ,..., w tj で表 ~ す(ここで t0 0 ). Huzurbazar (2005) によれば, 打ち切りデータのヒストグラムは: 1. Kaplan-Meier 推定量により,生存率( t i ) を求める ˆ S 2. Total probability S ( ~j ) S ( ~j 1 ) を求める ˆ t ˆ t 3. Total probability をビンの幅で割ったものを,ビン の 高さとする 6
  • 7. 打ち切りデータのヒストグラム • ビンの幅の決め方については明記されていないが, 『スコットの選択』(truehistの方法)を採用した. – 『スタージェスの公式』(histの方法)では正規分 布から離れると当てはめが悪くなるようなので. 3. ヒストグラム 1. 生存率( di : death indicator) i ti d ˆ S (t ) i 2. Total Probability 5 1 0.933333 ~ 6 1 0.866667 tj TP 7 0 0.866667 15 0.566667 : : : 30 0.252778 28 0 0.361111 45 0.180556 29 1 0.180556 43 1 0 7
  • 9. 検証:シミュレーション • こうして作成した,打ち切りを考慮したヒストグラムを 描く関数cdhと,打ち切りを考慮しない(つまり普通 の)ヒストグラムを描くtruehistを比較する. • シミュレーションを用いる理由: 1. シミュレーションで仮定した真の密度と,ヒストグ ラムとのずれを比較できる. 2. 都合の良い(公開されている)データがなかった. truehist cdh 9
  • 10. シミュレーションで仮定した状 況 1. 患者の到着が,レート λ の定常ポアソン過程であると 仮定する. • このとき到着間隔はパラメータ λ の指数分布に従う. • 今回は λ =1とした. 2. 患者の生存時間はワイブル分布に従うと仮定する. 3. 観察期間を t とし,t を超えた生存時間は観測されない • t を超えた部分を打ち切る • t = 20 とした 10
  • 11. シミュレーションのイメージ 到着間隔 ~ exponential 時間 1. 0 t1 t2 生存時間 ~ Weibull 2. 3. [1,] [2,] [3,] [4,] 0 t time cens [1,] 2.540674 1 t2-t1を [2,] 2.828103 1 出力 [3,] 2.072715 1 [4,] 1.521291 0 11
  • 12. 結果の比較(サンプルサイズ n = 59610 ) 打ち切りを考慮しない; 打ち切りを考慮し truehist た; cdh 横軸:時間 縦軸:密度 曲線はシミュレーションで仮定した真値( shape=3, scale=3 ) ※truehistはやや左によっている (underestimate) 12
  • 13. 結果の比較(サンプルサイズ n = 60225 ) 打ち切りを考慮しない; 打ち切りを考慮し truehist た; cdh 横軸:時間 縦軸:密度 曲線はシミュレーションで仮定した真値( shape=0.5, scale=3 ) ※truehistはやや左によっている (underestimate) 13
  • 14. 検証:シミュレーション 2 • もう一つ別のシミュレーションを行った – こちらのほうが修士論文テーマ『生存時間分析 によるシール断面画像データの分析』の状況に 近い 14
  • 15. シミュレーションで仮定した状況 2 1. 患者の到着が,レート λ の定常ポアソン過程であると 仮定する. • このとき到着間隔はパラメータ λ の指数分布に従う. • 今回は λ =1とした. 2. 患者の生存時間はワイブル分布に従うと仮定する. 3. 観察期間を t とし,t を超えた生存時間は観測されない • t を超えた部分を打ち切る. 4. 観測開始時点 o 以前に到着した患者の,o からの生存時 間も観測されているとする. • 「十分遠い位置」にしたいので o=1000 とした. ( : T の平均) 4. の状況 観測値 ? o t 15
  • 16. シミュレーションのイメージ 到着間隔 ~ exponential 0 時間 1. t1 t2 2. 生存時間 ~ Weibull 3. o o+t 4. 出力 16
  • 17. 結果の比較(サンプルサイズ n = 67515 ) 打ち切りを考慮しない; 打ち切りを考慮し truehist た; cdh 横軸:時間 縦軸:密度 曲線はシミュレーションで仮定した真値( shape=3, scale=3 ) ※truehistは左によっているが,cdhはやや右によってい る (overestimate) 17
  • 18. 結果の比較(サンプルサイズ n = 78289 ) 打ち切りを考慮しない; 打ち切りを考慮し truehist た; cdh 横軸:時間 縦軸:密度 曲線はシミュレーションで仮定した真値( shape=0.5, scale=3 ) 18
  • 19. 結果の比較(サンプルサイズ n = 78289 ) 打ち切りを考慮しない; truehist このような状態 20 o o+t 最大値20:これは t の長さと等しい (両側打ち切り) 19
  • 20. なぜこうなるのか? • なぜこうなるのかは Laslett (1982) 等を参 照. • ご清聴ありがとうございました. 20
  • 21. 参考文献 • Gill, Richard D., Keiding, Niels, (2010) Product-limit estimators of the gap time distribution of a renewal process under different sampling patterns. Lifetime Data Anal, 16: pp.571- 579 • Huzurbazar, Aparna V., (2005): A Censored Data Histogram. Communications in Statistics - Simulation and Computation, 34 : pp. 113-120 • Laslett, G. M., (1982) The Survival Curve Under Monotone Density Constraints With Application to two-Dimensional Line Segment Processes. Biometrika, 69: pp. 153-160 • デュレット,R., (2005) 確率過程の基礎.今野 紀雄,中 村 和敬,曽雌 隆洋,馬 霞訳,シュプリンガー・フェア ラーク東京 • 舟尾暢男,R-tips. http://cse.naro.affrc.go.jp/takezawa/r- tips/r/61.html 21
  • 22. 質疑応答(11/24/2012) Q. shape を変えても同じ結果になるか? A. やってみます(やってみました.このスライドには shape=0.5 の場合 を載せてあります). Q. EM アルゴリズムなど,欠測を扱うアルゴリズムと比較してみては? A. Kaplan-Meier 推定量では exact に結果が求まるので EM を使う必要はな いように思う.(今後,左打ち切りと右打ち切りを区別して扱えるよ うに拡張したいので,そのときは使うかもしれない.) Q.その 「拡張」はプログラミング的にはむずかしいのか? A. (どう答えたか忘れた.実をいうと「むずかしいどうかすらよくわか らない」というのが正直なところ) Q. 結論というか,この研究の目的は? A. パラメトリックモデルを選択する際にヒストグラムを使おうと思った. ひとまずcdhは使えそうだということが分かった.グラフを描くこと 自体が目的ではない. Q. 定常ポアソンの仮定がどう効いてくるのか? A. おそらくヒストグラムの形にはあまり関係してない.修論では「原点 o 以前に到着した場合,生存時間の分布が変化する」というような議 論をする予定で,そのときは定常ポアソン過程でないと困る. 22