SlideShare a Scribd company logo
1 of 54
Download to read offline
2012年6月25日(月)
某セミナー




       相関と因果について考える:
    統計的因果推論、その(不)可能性の中心
                (20120625version:不適切な部分を見つけ次第適宜改訂の予定)




                             林岳彦
           国立環境研究所環境リスク研究センター
                 環境リスク研究推進室
             takehiko.i.hayashi@gmail.com
DISCLAIMER


もし間違ってたらすみません...
今回のもくじ
イントロ
 -『相関と因果』再訪
基礎編
 - 因果概念の変遷: 心の習慣 から 反事実 へ
 - 因果と確率論を繋ぐ:Pearlのdo演算子
実務編
 - 重回帰とは因果構造分解酵素である
 - バックドア基準による変数選択
考察
 - 因果推論の不可能性, モデル選択の3視点
相関と因果は一致しない

   86
 女
 性 84
 の
 平 82
 均
 寿 80
 命
   78
(歳)

           30   34                         38
        NHKの放送受信契約数(百万)
                                    http://www.stat.go.jp/data/nihon/02.htm
                     元データ→ http://pid.nhk.or.jp/jushinryo/know/pdf/toukei2010.pdf
相関と因果は一致しない

   86   p < 0.00000002
 女
         2
 性 84   R = 0.99
 の
 平 82
 均
 寿 80
 命
   78
(歳)

            30     34                         38
        NHKの放送受信契約数(百万)
                                       http://www.stat.go.jp/data/nihon/02.htm
                        元データ→ http://pid.nhk.or.jp/jushinryo/know/pdf/toukei2010.pdf
相関と因果は一致しない
                                                                           2010
                                                   2005
   86    p < 0.00000002
 女
          2
 性 84    R = 0.99                                           2000

 の                     1990                1995
 平 82
 均
 寿 80                  1985

 命              1980
   78   1975
(歳)

               30             34                         38
         NHKの放送受信契約数(百万)
                                                  http://www.stat.go.jp/data/nihon/02.htm
                                   元データ→ http://pid.nhk.or.jp/jushinryo/know/pdf/toukei2010.pdf
相関と因果は一致しない?
           ある藻類毒性試験の結果
    1.7


72
時
間
平 0.85
均
増
殖
率 0
          C   0.5     1   2     4   8
                    農薬濃度(ppb)
相関と因果は一致しない?
  出典:日経エコロジー2007年9月号, p39
(一般論として)因果は       総合的 に判断される
        ヒルの因果判定基準 (Hill 1965)
   1.   関連の強さ
   2.   人、地理、時間的な一貫性
   3.   関連の特異性(1つの原因に対して1つの結果)
   4.   時間的な前後関係(原因が結果の前に起きる)
   5.   用量が多いほど反応が強い
   6.   生物学的な蓋然性
   7.   過去の経験や知識との一致
   8.   実験に基づく証拠
   9.   類似性(他の事例から類推できる)
                          http://listfreak.com/list/1793より引用
(一般論として)因果は       総合的 に判断される
        ヒルの因果判定基準 (Hill 1965)
   1.   関連の強さ
   2.   人、地理、時間的な一貫性
   3.   関連の特異性(1つの原因に対して1つの結果)
   4.   時間的な前後関係(原因が結果の前に起きる)
   5.   用量が多いほど反応が強い
   6.   生物学的な蓋然性
   7.   過去の経験や知識との一致
   8.   実験に基づく証拠
   9.   類似性(他の事例から類推できる)
                            http://listfreak.com/list/1793より引用



                  Hillの基準@英語版wikipdia
(一般論として)因果は       総合的 に判断される
        ヒルの因果判定基準 (Hill 1965)
   1.   関連の強さ
   2.   人、地理、時間的な一貫性
   3.   関連の特異性(1つの原因に対して1つの結果)
   4.   時間的な前後関係(原因が結果の前に起きる)
   5.   用量が多いほど反応が強い
   6.   生物学的な蓋然性
   7.   過去の経験や知識との一致
   8.   実験に基づく証拠
    ... counterfactural
   9.   類似性(他の事例から類推できる)
                            http://listfreak.com/list/1793より引用

         って何すか?
                  Hillの基準@英語版wikipdia
今回のもくじ
イントロ
 -『相関と因果』再訪
基礎編
 - 因果概念の変遷: 心の習慣 から 反事実 へ
 - 因果と確率論を繋ぐ:Pearlのdo演算子
実務編
 - 重回帰とは因果構造分解酵素である
 - バックドア基準による変数選択
考察
 - 因果推論の不可能性, モデル選択の3視点
因果概念の変遷(ひと昔前): 心の習慣
        千昌夫に似て蝶



                         『因果概念』なんて観察者の
              しれっ         心の習慣 の産物でしょ

                                                             我々に観察可能な事実は
                                                            「ボールAがボールBに当たる
                                                             →ボールBが動く」という
David Hume (1711-1776)                                           連関だけ

                           http://www.sxc.hu/photo/478133
因果概念の変遷(ひと昔前): 心の習慣
                                           千昌夫に似て蝶



                                                                                             『因果概念』なんて観察者の
                                                            しれっ                               心の習慣 の産物でしょ

                                                                                                                                         我々に観察可能な事実は
                                                                                                                                        「ボールAがボールBに当たる
                                                                                                                                         →ボールBが動く」という
                  David Hume (1711-1776)                                                                                                     連関だけ

                                                                                                       http://www.sxc.hu/photo/478133




                                                            きりっ
                                                                                             観察可能なのは「相関」だけ
                                                                                             因果概念なんて科学じゃない
                                                                                        そんなこんなで残念ながら比較的近年まで
                                                                                          「因果」は統計学の埓外にあった
 画像出典:
                   Karl Pearson (1857-1936)
http://en.wikipedia.org/wiki/File:David_Hume.jpg   http://ja.wikipedia.org/wiki/file:Karl_Pearson.jpg
因果概念の変遷(今):反事実的依存性
ここでクリプキを挙げるのが適切かは自信ない

                          「可能世界」の枠組みで考えれば
                              色々と捗るよ!
                        「Xは必然である」とは?
                             全ての可能世界においてXが成り立つ
                        「Xは可能である」とは?
  Saul Kripke (1940-)      少なくとも一つの可能世界でXが成り立つ
    論理学者、哲学者
因果概念の変遷(今):反事実的依存性
        ここでクリプキを挙げるのが適切かは自信ない

                                                              「可能世界」の枠組みで考えれば
                                                                  色々と捗るよ!
                                                           「Xは必然である」とは?
                                                                全ての可能世界においてXが成り立つ
                                                           「Xは可能である」とは?
               Saul Kripke (1940-)                            少なくとも一つの可能世界でXが成り立つ
                      論理学者、哲学者
              @wikipediaの写真(なぜこの写真?)


                                                                  「xがyの原因である」
                                                            到達可能な近傍世界

                                                           「同じ状況で、もしもxが起こらなけ
                                                            れば、yは起こらなかっただろう」
              David Lewis (1941-)
                               哲学者
                                                              (反事実的依存性に基づく因果解釈)
画像出典 http://en.wikipedia.org/wiki/File:Kripke.JPG
     http://en.wikipedia.org/wiki/File:David_K_Lewis.jpg
因果概念の変遷(今):反事実的依存性
 到達可能な近傍世界

「同じ状況で、もしもxが起こらなければ、
    yは起こらなかっただろう」

    因果効果を次のように定義できそう:

x→yへの因果効果
= 出来事xが起きた世界におけるy
  - 出来事xが起きなかった世界におけるy
因果概念の変遷(今):反事実的依存性
  到達可能な近傍世界

 「同じ状況で、もしもxが起こらなければ、
     yは起こらなかっただろう」

     因果効果を次のように定義できそう:

 x→yへの因果効果
 = 出来事xが起きた世界におけるy
   - 出来事xが起きなかった世界におけるy

しかし、「起きた世界」と「起きなかった世界」の両方
    を同時に観測することは原理的に不可能     どちらかは必ず
                         反事実的な世界となる
                            ex. 震災


          因果推論の根本問題
因果概念の変遷(今):反事実的依存性
  到達可能な近傍世界

 「同じ状況で、もしもxが起こらなければ、
     yは起こらなかっただろう」
    反事実的な世界 を統計的に
    因果効果を次のように定義できそう:
      構成することにより
 x→yへの因果効果
  この「根本問題」を解決するのが
 = 出来事xが起きた世界におけるy
    『統計的因果推論』である
  - 出来事xが起きなかった世界におけるy
                   ex. 実験計画法



しかし、「起きた世界」と「起きなかった世界」の両方
    を同時に観測することは原理的に不可能      どちらかは必ず
                          反事実的な世界となる
                             ex. 震災


          因果推論の根本問題
現代的『統計的因果推論』のポンチ絵
                  なぎら健壱に似て蝶                                              可能世界論を介した
                                                                          因果概念の転回

                                                       ベイジアン                         欠損値 の
                                                      ネットワーク                         枠組み




                                                                 *この2つの流派による
                                                                  説明の仕方がかなり
                                                                     違うので
  Judea Pearl (1936-)                                               勉強する上で                   Donald Rubin (1943-)
    人工知能界の 巨人                                                      とっても混乱する
                                                                                             統計学者@ハーバード大
 (2011年チューリング賞)



                                                             反事実的依存性を軸とした
                                                                 因果問題への
                                                              統計的アプローチが発展
                                                                          (今日はPearl系のアプローチに基づき説明していきます)
左画像出典:                                                                                                                                     右画像出典:
http://www.cambridgeblog.org/2012/03/judea-pearl-turing-award/                            http://www.stat.harvard.edu/faculty_page.php?page=rubin.html
今回のもくじ
イントロ
 -『相関と因果』再訪
基礎編
 - 因果概念の転回: 心の習慣 から 反事実 へ
 - 因果と確率論を繋ぐ:Pearlのdo演算子
実務編
 - 重回帰とは因果構造分解酵素である
 - バックドア基準による変数選択
考察
 - 因果推論の不可能性, モデル選択の3視点
確率論に もしも はない
到達可能な近傍世界

「同じ状況で、もしもxが起こらなければ、
    yは起こらなかっただろう」
                 確率論で扱いたいが...

 確率の言語では「もしも」が表せない!

            え?条件付き確率
             じゃダメなの?
確率論に もしも はない
到達可能な近傍世界

「同じ状況で、もしもxが起こらなければ、
    yは起こらなかっただろう」
                 確率論で扱いたいが...

 確率の言語では「もしも」が表せない!

            え?条件付き確率
             じゃダメなの?

   p(y¦x=30)     x=30であるときの
                 もしも という含意は
                   含まれない
Judea Pearlによるdo演算子の導入
p(y¦x=30)     x=30であるときの
p(y¦do(x=30))    x=30に変えたときの

                介入 の概念を持ち込むことに
                  より もしも を導入


いやでもこの2つ何が違うんすか
Judea Pearlによるdo演算子の導入
 p(y¦x=30)     x=30であるときの
 p(y¦do(x=30))     x=30に変えたときの

 女 86
 性 84
 の
 平 82
 均 80
                    見かけ上の相関に基づく予測
 寿
                p(y¦x=30)
 命 78
(歳)
           30      34   38
        NHKの放送受信契約数(百万)
Judea Pearlによるdo演算子の導入
p(y¦x=30)     x=30であるときの
p(y¦do(x=30))   x=30に変えたときの
                          *こういう図を
                          因果ダイアグラム
                           といいます
         NHK契約数 x
  擬似相関
                        共通要因
  平均寿命 y
                     因果関係に基づく予測
            に変えたとき
     p(y¦do(x=30))=p(y)
ポイント:do演算子は 介入効果 を示す
     であるとき              に変えたとき
  p(y¦x=30)      p(y¦do(x=30))
相関に基づく予測         因果に基づく予測
   介入効果            =介入効果

        NHK契約数 x
 擬似相関
                      共通要因
 平均寿命 y       ここで p(y¦x=・)を介入効果と
              勘違いすると見事に空振りする

 介入が目的のときはdo(・)を見よ
do演算子と「交絡」
                        グラフ理論の体系と対応付け

do演算子は「交絡」概念を明確化するもの

        共通要因
                      交絡要因 =
某重金属
                    興味のある説明変数と
 濃度
                     結果変数の両方の
          BOD
                    上流側に存在する要因
種数 y     *この因果ダイアグラムは
           仮想的なものです


   交絡によるバイアスが存在する
   p(y¦x=30)     p(y¦do(x=30))
   相関関係と因果関係が一致しない
do演算子と「交絡」
                            グラフ理論の体系と対応付け

 do演算子は「交絡」概念を明確化するもの

            共通要因
                          交絡要因 =
 某重金属
                        興味のある説明変数と
  濃度
                         結果変数の両方の
              BOD
                        上流側に存在する要因
 種数 y        *この因果ダイアグラムは
               仮想的なものです
        +選択バイアスも

  交絡によるバイアスが取り除かれている
=   p(y¦x=30) = p(y¦do(x=30))
= 見かけ上の相関から因果効果を判断してOK
交絡によるバイアスの無い状態
p(y¦x=・) = p(y¦do(x=・))を目指すための方法

- 実験計画法に基づき実験する
  局所管理

- 均一化・無作為化を念頭にサンプルする
- 層別化・マッチング(交絡変数の値が似たもの同士で比較)

- 統計モデルに交絡変数を組み込む
    例. 重回帰で説明変数を追加する

 どう追加すればいいの?→『バックドア基準』
今回のもくじ
イントロ
 -『相関と因果』再訪
基礎編
 - 因果概念の変遷: 心の習慣 から 反事実 へ
 - 因果と確率論を繋ぐ:Pearlのdo演算子
実務編
 - 重回帰とは因果構造分解酵素である
 - バックドア基準による変数選択
考察
 - 因果推論の不可能性, モデル選択の3視点
重回帰とは
                   説明変数
目的変数
 Y = β A + βB B + βC C + βD D...
      A


                偏回帰係数
         (それぞれの変数への重み付け係数)

例えば...

年平均気温 = 33.4 - 1.3 緯度 - 0.6 高度 + 0.1 経度
重回帰とは 因果構造分解酵素 である
A    B   C        A   B     C        A   B   C

     Y                Y                  Y   etcetc....


背後の因果構造を分解して              単純な形に再び繋げます


    Y = β A + βB B + βC C
         A
                                             + 定数

         A            B              C
             β         βB
相関関係 に基づき
実質上こういう形と
              A                 βC
 して解析している
                      Y
重回帰とは 因果構造分解酵素 である
  A    B    C        A   B     C        A   B   C

       Y                 Y                  Y   etcetc....
           変化させたとき                 であるとき

偏回帰係数の 意味 は背後の因果構造に依存する
  背後の因果構造を分解して 単純な形に再び繋げます


      Y = β A + βB B + βC C
           A
                                                + 定数

           A             B              C
                β         βB
  相関関係 に基づき
  実質上こういう形と
                 A                 βC
   して解析している
                         Y
バックドア基準による変数選択
 「偏回帰係数 = 説明変数を1単位変化させた
   ときの因果効果」となる条件は?
         であるとき         に変えたとき

   = p(y¦A=・) = p(y¦do(A=・))


選ばれた変数群がバックドア基準を満たしている

  因果効果を知りたい説明変数から結果変数へ至る
   裏口からの因果径路が全てブロックされている

        ・・・図で説明します
因果効果を知りたい説明変数から結果変数へ至る
  裏口からの因果径路が全てブロックされている


            裏口ドアからの
              因果径路


                      共通要因
 その因果効果を
知りたい説明変数
           某重金属
            濃度               ブロック

                       BOD

           種数 y       重回帰の説明変数として加えることで
   結果変数                 その径路からのバイアスを
                         ブロック できるのだ!

種数 = β 重金属 + βB BOD
      重
                               *この因果ダイアグラムは
                                 仮想的なものです
因果効果を知りたい説明変数から結果変数へ至る
 裏口からの因果径路が全てブロックされている

A     B      C     A    B    C      A    B   C

      Y                 Y                Y
    Y=βA A        Y=βA A+βB B       Y=βA A+βB B


A     B      C     A    B    C      A   B    C

      Y                 Y                Y
    Y=βA A       Y=βA A+βB B+βC C   Y=βA A+βB B
                                    Y=βA A+βB C
(再)バックドア基準による変数選択
「偏回帰係数 = 説明変数を1単位変化させた
  ときの因果効果」となる条件は?
  = p(y¦A=・) = p(y¦do(A=・))


選ばれた変数がバックドア基準を満たせばよい

 因果効果を知りたい説明変数から結果変数へ至る
  裏口からの因果径路が全てブロックされている

    +下流側の中間変量を選ばない
    +合流点での変量を選ばない
あと下流の中間変量は入れちゃだめ!


            Y=β A
               A


          A    B    C

               Y
こういう形のときにBを説明変数として入れてしまうと
 「Bを経由したAの因果効果」が無視されてしまう
       *その辺りの因果構造自体に興味が有る場合は
          パス解析や構造方程式を使います
合流点も入れちゃだめ!


                        Y=β A
                           A


  A     B           C           D       C
                                    B
        Y                       A       Y

こういう形のときにBを説明変数として入れてしまうと
      新たなバイアスが発生する
        collider bias
      (合流点バイアスという← 選択バイアス はこの一種)
  *データをサンプルする段階で選択バイアスが発生しているとバックドア基準でも補正不可
論点:多重共線性とバックドア基準                             (現状での私見)


    説明変数間に何らかの強い因果的関連
                                            ↑が問題の本質で



          いわゆる多重共線性 の問題                      ←は現象だと思う

         主症状:変数の出し入れにより回帰係数が大きく変化する

           データ数が増えれば
数理統計的問題                         データ数は関係ない     因果的問題
           問題は解消可


   係数の推定が              因果効果を議       交絡による
                       論したい場合
    不安定化               にはこちらの        バイアス
                       アプローチは
分散拡大係数                 良くないん
                       じゃないかな
 VIFによる診断と                        バックドア基準
    変数の除去                         による変数選択
                           興味のある変数に対して上流→除去すると交絡入るかも
                           興味のある変数に対して下流→さっさと除去
今回のもくじ
イントロ
 -『相関と因果』再訪
基礎編
 - 因果概念の変遷: 心の習慣 から 反事実 へ
 - 因果と確率論を繋ぐ:Pearlのdo演算子
実務編
 - 重回帰とは因果構造分解酵素である
 - バックドア基準による変数選択
考察
 - 因果推論の不可能性, モデル選択の3視点
統計的因果推論の不可能性 (1)
     「未知の交絡要因がない」ことを
    確認する方法は原理的に存在しない

       ?                       共通要因

                  某重金属
                   濃度
        ?                        BOD

                   種数 y            *この因果ダイアグラムは
                                     仮想的なものです

     (交絡を除去するためにはバックドア基準を満たせばよいことが分かっても
       バックドア基準が満たされているか否かは原理的に確認できない!)


「どの程度未知の交絡要因がありえそうか」を常に意識しよう
「未知の交絡要因」を減らしていくこと自体が研究の進歩
統計的因果推論の不可能性 (2)
 現実問題として「背後の因果構造」なんて
  (完全には)分からないことが多い
- 因果ダイアグラムが描けないとバックドア基準は
  使えない(まあでも原則的な指針を与えてくれるものではある)

- 因果構造が分からないなりに工夫する(傾向スコア法とか)

- とりあえず因果構造そのものを明らかにすること
  を目的とする(学術的研究としてはこっちの方が本丸の場合が多いかも)

 統計解析からの因果的判断を「適切に自重する」
 ことも重要(「分からなさ」の程度と理由を説明することも専門家の役割)
モデル(変数)選択の3視点(現状での私的整理)

                        ベイズファ バックドア
   手法         AIC系
                         クター系   基準

            介入を伴わ  モデルの 因果効果の
   目的
             ない予測 適合性比較   推定

                         事後確率        条件付き
   原理       情報量規準
                          尤度比         独立性
実務上は「先行知見から見て一定の妥当性があるモデル群」を絞り込む過程でバックドア基準的なものが
暗黙のうちに適用されているケースが多いのかも


 「因果効果の推定」や「介入を伴う予測」が
目的ならばバックドア基準を優先させるべき(と思う)
最後にちょっとまとめます
take-home messages:
「因果と相関」の区別は実務上も非常に重要
(介入を伴う場合には特にクリティカルな問題)

重回帰は背後の因果構造をかなり単純化している
ことを認識しよう
因果ダイアグラムを描こう/バックドア基準を適
用しよう(そうすれば「偏回帰係数=因果効果」と解釈してOK)

統計的因果推論はしばしば不可能であることを
認識し、しかしその不可能性の内実にはグラ
デーションがあることも認識しよう
「統計データから因果の話は無理(不可知論)」と「統計解析の結果を因果的に
解釈しちゃっても実用上はしょうがないよね(なし崩し)」の間の隘路を丁寧に
      進むことの中に 可能性の中心 はあるのだと思います
ご清聴ありがとうございました
Appendix: その他スライド資料
なぜ重回帰?構造方程式でよくない?

         確かに。

反事実的状況を取り扱うならおそらく本来
 メカニスティックなモデルが一番いい

  構造方程式やパス解析はその近似

    重回帰系はさらにその近似

 逆に言うと、因果効果を知りたいだけなら
重回帰系withバックドア基準が最も簡便かと
                まあその辺はケースバイケースで
因果関係それ自体はどうやって推測するの?



  私の勉強不足によりかなりぼんやりした
       ことしか言えません
交絡バイアスを避けるための統計学上の工夫
- 実験計画法に基づき実験する
実験計画法では、興味のある変数以外の条件を揃える(局所管理)か
     ランダムに割り当てる(無作為化)ことにより
     交絡の要因となりうる相関関係が切断される

       切断         毒性物質    切断
                   濃度x
     系統                        齢



                  生存率 y
          であるとき           に変えたとき

     p(y¦x=30) = p(y¦do(x=30))
do演算子の計算規則
出典:http://ccc.inaoep.mx/ esucar/Clases-ia/Adicional/ijcai-notes.pdf
参考文献
統計的因果推論 - モデル・推論・推測 -
Judea Pearl(著), 黒木学(訳)
私的コメント:Pearlの主著。おもしろいけど激ムズ。いきなり哲学の話になったりするし。
       まだ通読できてません。


統計的因果推論 - 回帰分析の新しい枠組み -
宮川雅巳(著)
私的コメント:名著。 Pearl流の枠組みからの解説書。 ちょっと難しいけどPearl本より全然良い。今回の発表のネタ本。




調査観察データの統計科学 --- 因果推論・選択バイアス・データ融合
星野崇宏(著)
私的コメント:名著。Rubin流の欠損値の枠組みからの解説書。
       ただPearl流の方法論に対する理解が今ひとつ浅いような気がするような気もしないでもない。


多変量解析の展開 --- 隠れた構造と因果を整理する
甘利俊一ら(著)
私的コメント:第二部(狩野裕著)はSEMから、第三部(佐藤俊哉&松山裕著)は疫学の観点から統計的因果推論を解説。
       統計的因果推論の入門としてはこの本が分量的にも内容的にも一番敷居が低くていいかも。



可能世界の哲学 --- 「存在」と「自己」を考える
三浦俊彦(著)
私的コメント:可能世界論入門。これを読んでから「確率の意味論」みたいのを考える際には可能世界の枠組みがすげえ便利
       というか寧ろ不可欠だな、と思うようになった。

More Related Content

What's hot

構造方程式モデルによる因果探索と非ガウス性
構造方程式モデルによる因果探索と非ガウス性構造方程式モデルによる因果探索と非ガウス性
構造方程式モデルによる因果探索と非ガウス性Shiga University, RIKEN
 
ベイズファクターとモデル選択
ベイズファクターとモデル選択ベイズファクターとモデル選択
ベイズファクターとモデル選択kazutantan
 
21世紀の手法対決 (MIC vs HSIC)
21世紀の手法対決 (MIC vs HSIC)21世紀の手法対決 (MIC vs HSIC)
21世紀の手法対決 (MIC vs HSIC)Toru Imai
 
機械学習のためのベイズ最適化入門
機械学習のためのベイズ最適化入門機械学習のためのベイズ最適化入門
機械学習のためのベイズ最適化入門hoxo_m
 
トピックモデルの評価指標 Perplexity とは何なのか?
トピックモデルの評価指標 Perplexity とは何なのか?トピックモデルの評価指標 Perplexity とは何なのか?
トピックモデルの評価指標 Perplexity とは何なのか?hoxo_m
 
時系列分析による異常検知入門
時系列分析による異常検知入門時系列分析による異常検知入門
時系列分析による異常検知入門Yohei Sato
 
深層学習の数理
深層学習の数理深層学習の数理
深層学習の数理Taiji Suzuki
 
Recent Advances on Transfer Learning and Related Topics Ver.2
Recent Advances on Transfer Learning and Related Topics Ver.2Recent Advances on Transfer Learning and Related Topics Ver.2
Recent Advances on Transfer Learning and Related Topics Ver.2Kota Matsui
 
機械学習モデルの判断根拠の説明(Ver.2)
機械学習モデルの判断根拠の説明(Ver.2)機械学習モデルの判断根拠の説明(Ver.2)
機械学習モデルの判断根拠の説明(Ver.2)Satoshi Hara
 
最適化超入門
最適化超入門最適化超入門
最適化超入門Takami Sato
 
よくわかるフリストンの自由エネルギー原理
よくわかるフリストンの自由エネルギー原理よくわかるフリストンの自由エネルギー原理
よくわかるフリストンの自由エネルギー原理Masatoshi Yoshida
 
ベイズ統計学の概論的紹介
ベイズ統計学の概論的紹介ベイズ統計学の概論的紹介
ベイズ統計学の概論的紹介Naoki Hayashi
 
ベータ分布の謎に迫る
ベータ分布の謎に迫るベータ分布の謎に迫る
ベータ分布の謎に迫るKen'ichi Matsui
 
比例ハザードモデルはとってもtricky!
比例ハザードモデルはとってもtricky!比例ハザードモデルはとってもtricky!
比例ハザードモデルはとってもtricky!takehikoihayashi
 
傾向スコア:その概念とRによる実装
傾向スコア:その概念とRによる実装傾向スコア:その概念とRによる実装
傾向スコア:その概念とRによる実装takehikoihayashi
 
15分でわかる(範囲の)ベイズ統計学
15分でわかる(範囲の)ベイズ統計学15分でわかる(範囲の)ベイズ統計学
15分でわかる(範囲の)ベイズ統計学Ken'ichi Matsui
 

What's hot (20)

構造方程式モデルによる因果探索と非ガウス性
構造方程式モデルによる因果探索と非ガウス性構造方程式モデルによる因果探索と非ガウス性
構造方程式モデルによる因果探索と非ガウス性
 
一般化線形モデル (GLM) & 一般化加法モデル(GAM)
一般化線形モデル (GLM) & 一般化加法モデル(GAM) 一般化線形モデル (GLM) & 一般化加法モデル(GAM)
一般化線形モデル (GLM) & 一般化加法モデル(GAM)
 
ベイズファクターとモデル選択
ベイズファクターとモデル選択ベイズファクターとモデル選択
ベイズファクターとモデル選択
 
因果推論の基礎
因果推論の基礎因果推論の基礎
因果推論の基礎
 
MICの解説
MICの解説MICの解説
MICの解説
 
21世紀の手法対決 (MIC vs HSIC)
21世紀の手法対決 (MIC vs HSIC)21世紀の手法対決 (MIC vs HSIC)
21世紀の手法対決 (MIC vs HSIC)
 
機械学習のためのベイズ最適化入門
機械学習のためのベイズ最適化入門機械学習のためのベイズ最適化入門
機械学習のためのベイズ最適化入門
 
Rによるベイジアンネットワーク入門
Rによるベイジアンネットワーク入門Rによるベイジアンネットワーク入門
Rによるベイジアンネットワーク入門
 
トピックモデルの評価指標 Perplexity とは何なのか?
トピックモデルの評価指標 Perplexity とは何なのか?トピックモデルの評価指標 Perplexity とは何なのか?
トピックモデルの評価指標 Perplexity とは何なのか?
 
時系列分析による異常検知入門
時系列分析による異常検知入門時系列分析による異常検知入門
時系列分析による異常検知入門
 
深層学習の数理
深層学習の数理深層学習の数理
深層学習の数理
 
Recent Advances on Transfer Learning and Related Topics Ver.2
Recent Advances on Transfer Learning and Related Topics Ver.2Recent Advances on Transfer Learning and Related Topics Ver.2
Recent Advances on Transfer Learning and Related Topics Ver.2
 
機械学習モデルの判断根拠の説明(Ver.2)
機械学習モデルの判断根拠の説明(Ver.2)機械学習モデルの判断根拠の説明(Ver.2)
機械学習モデルの判断根拠の説明(Ver.2)
 
最適化超入門
最適化超入門最適化超入門
最適化超入門
 
よくわかるフリストンの自由エネルギー原理
よくわかるフリストンの自由エネルギー原理よくわかるフリストンの自由エネルギー原理
よくわかるフリストンの自由エネルギー原理
 
ベイズ統計学の概論的紹介
ベイズ統計学の概論的紹介ベイズ統計学の概論的紹介
ベイズ統計学の概論的紹介
 
ベータ分布の謎に迫る
ベータ分布の謎に迫るベータ分布の謎に迫る
ベータ分布の謎に迫る
 
比例ハザードモデルはとってもtricky!
比例ハザードモデルはとってもtricky!比例ハザードモデルはとってもtricky!
比例ハザードモデルはとってもtricky!
 
傾向スコア:その概念とRによる実装
傾向スコア:その概念とRによる実装傾向スコア:その概念とRによる実装
傾向スコア:その概念とRによる実装
 
15分でわかる(範囲の)ベイズ統計学
15分でわかる(範囲の)ベイズ統計学15分でわかる(範囲の)ベイズ統計学
15分でわかる(範囲の)ベイズ統計学
 

Viewers also liked

統計的因果推論勉強会 第1回
統計的因果推論勉強会 第1回統計的因果推論勉強会 第1回
統計的因果推論勉強会 第1回Hikaru GOTO
 
星野「調査観察データの統計科学」第3章
星野「調査観察データの統計科学」第3章星野「調査観察データの統計科学」第3章
星野「調査観察データの統計科学」第3章Shuyo Nakatani
 
星野「調査観察データの統計科学」第1&2章
星野「調査観察データの統計科学」第1&2章星野「調査観察データの統計科学」第1&2章
星野「調査観察データの統計科学」第1&2章Shuyo Nakatani
 
Rで学ぶ 傾向スコア解析入門 - 無作為割り当てが出来ない時の因果効果推定 -
Rで学ぶ 傾向スコア解析入門 - 無作為割り当てが出来ない時の因果効果推定 -Rで学ぶ 傾向スコア解析入門 - 無作為割り当てが出来ない時の因果効果推定 -
Rで学ぶ 傾向スコア解析入門 - 無作為割り当てが出来ない時の因果効果推定 -Yohei Sato
 
Rでシステムバイオロジー
RでシステムバイオロジーRでシステムバイオロジー
Rでシステムバイオロジー弘毅 露崎
 
100614 構造方程式モデリング基本の「き」
100614 構造方程式モデリング基本の「き」100614 構造方程式モデリング基本の「き」
100614 構造方程式モデリング基本の「き」Shinohara Masahiro
 
高速・省メモリにlibsvm形式で ダンプする方法を研究してみた
高速・省メモリにlibsvm形式で ダンプする方法を研究してみた高速・省メモリにlibsvm形式で ダンプする方法を研究してみた
高速・省メモリにlibsvm形式で ダンプする方法を研究してみたKeisuke Hosaka
 
20161127 doradora09 japanr2016_lt
20161127 doradora09 japanr2016_lt20161127 doradora09 japanr2016_lt
20161127 doradora09 japanr2016_ltNobuaki Oshiro
 
てかLINEやってる? (Japan.R 2016 LT) #JapanR
てかLINEやってる? (Japan.R 2016 LT) #JapanRてかLINEやってる? (Japan.R 2016 LT) #JapanR
てかLINEやってる? (Japan.R 2016 LT) #JapanRcancolle
 
Randomforestで高次元の変数重要度を見る #japanr LT
 Randomforestで高次元の変数重要度を見る #japanr LT Randomforestで高次元の変数重要度を見る #japanr LT
Randomforestで高次元の変数重要度を見る #japanr LTAkifumi Eguchi
 
木と電話と選挙(causalTree)
木と電話と選挙(causalTree)木と電話と選挙(causalTree)
木と電話と選挙(causalTree)Shota Yasui
 
傾向スコアの概念とその実践
傾向スコアの概念とその実践傾向スコアの概念とその実践
傾向スコアの概念とその実践Yasuyuki Okumura
 
エクセルで統計分析 統計プログラムHADについて
エクセルで統計分析 統計プログラムHADについてエクセルで統計分析 統計プログラムHADについて
エクセルで統計分析 統計プログラムHADについてHiroshi Shimizu
 

Viewers also liked (14)

統計的因果推論勉強会 第1回
統計的因果推論勉強会 第1回統計的因果推論勉強会 第1回
統計的因果推論勉強会 第1回
 
星野「調査観察データの統計科学」第3章
星野「調査観察データの統計科学」第3章星野「調査観察データの統計科学」第3章
星野「調査観察データの統計科学」第3章
 
星野「調査観察データの統計科学」第1&2章
星野「調査観察データの統計科学」第1&2章星野「調査観察データの統計科学」第1&2章
星野「調査観察データの統計科学」第1&2章
 
Rで学ぶ 傾向スコア解析入門 - 無作為割り当てが出来ない時の因果効果推定 -
Rで学ぶ 傾向スコア解析入門 - 無作為割り当てが出来ない時の因果効果推定 -Rで学ぶ 傾向スコア解析入門 - 無作為割り当てが出来ない時の因果効果推定 -
Rで学ぶ 傾向スコア解析入門 - 無作為割り当てが出来ない時の因果効果推定 -
 
Rでシステムバイオロジー
RでシステムバイオロジーRでシステムバイオロジー
Rでシステムバイオロジー
 
100614 構造方程式モデリング基本の「き」
100614 構造方程式モデリング基本の「き」100614 構造方程式モデリング基本の「き」
100614 構造方程式モデリング基本の「き」
 
高速・省メモリにlibsvm形式で ダンプする方法を研究してみた
高速・省メモリにlibsvm形式で ダンプする方法を研究してみた高速・省メモリにlibsvm形式で ダンプする方法を研究してみた
高速・省メモリにlibsvm形式で ダンプする方法を研究してみた
 
20161127 doradora09 japanr2016_lt
20161127 doradora09 japanr2016_lt20161127 doradora09 japanr2016_lt
20161127 doradora09 japanr2016_lt
 
Tidyverseとは
TidyverseとはTidyverseとは
Tidyverseとは
 
てかLINEやってる? (Japan.R 2016 LT) #JapanR
てかLINEやってる? (Japan.R 2016 LT) #JapanRてかLINEやってる? (Japan.R 2016 LT) #JapanR
てかLINEやってる? (Japan.R 2016 LT) #JapanR
 
Randomforestで高次元の変数重要度を見る #japanr LT
 Randomforestで高次元の変数重要度を見る #japanr LT Randomforestで高次元の変数重要度を見る #japanr LT
Randomforestで高次元の変数重要度を見る #japanr LT
 
木と電話と選挙(causalTree)
木と電話と選挙(causalTree)木と電話と選挙(causalTree)
木と電話と選挙(causalTree)
 
傾向スコアの概念とその実践
傾向スコアの概念とその実践傾向スコアの概念とその実践
傾向スコアの概念とその実践
 
エクセルで統計分析 統計プログラムHADについて
エクセルで統計分析 統計プログラムHADについてエクセルで統計分析 統計プログラムHADについて
エクセルで統計分析 統計プログラムHADについて
 

More from takehikoihayashi

EBPM, “E”から見るか? “PM”から見るか?
EBPM, “E”から見るか? “PM”から見るか?EBPM, “E”から見るか? “PM”から見るか?
EBPM, “E”から見るか? “PM”から見るか?takehikoihayashi
 
環境分野における"EBPM"の可能性と危うさ:他山の石として
環境分野における"EBPM"の可能性と危うさ:他山の石として環境分野における"EBPM"の可能性と危うさ:他山の石として
環境分野における"EBPM"の可能性と危うさ:他山の石としてtakehikoihayashi
 
「生態学における統計的因果推論」という大ネタへの挑戦:その理論的背景と適用事例
「生態学における統計的因果推論」という大ネタへの挑戦:その理論的背景と適用事例「生態学における統計的因果推論」という大ネタへの挑戦:その理論的背景と適用事例
「生態学における統計的因果推論」という大ネタへの挑戦:その理論的背景と適用事例takehikoihayashi
 
応用哲学会2018『リスク分析と予防原則』
応用哲学会2018『リスク分析と予防原則』応用哲学会2018『リスク分析と予防原則』
応用哲学会2018『リスク分析と予防原則』takehikoihayashi
 
生態学会自由集会での講演のプレビュー
生態学会自由集会での講演のプレビュー生態学会自由集会での講演のプレビュー
生態学会自由集会での講演のプレビューtakehikoihayashi
 
世界における疾病および死亡リスク要因の定量化(GBD Study 2010 in Lancetの論文紹介)
世界における疾病および死亡リスク要因の定量化(GBD Study 2010 in Lancetの論文紹介)世界における疾病および死亡リスク要因の定量化(GBD Study 2010 in Lancetの論文紹介)
世界における疾病および死亡リスク要因の定量化(GBD Study 2010 in Lancetの論文紹介)takehikoihayashi
 
連続的なリスクのどこに「線」を引くのか:米国EPAのPM2.5基準値改訂、その"正当化ロジック"を読む
連続的なリスクのどこに「線」を引くのか:米国EPAのPM2.5基準値改訂、その"正当化ロジック"を読む連続的なリスクのどこに「線」を引くのか:米国EPAのPM2.5基準値改訂、その"正当化ロジック"を読む
連続的なリスクのどこに「線」を引くのか:米国EPAのPM2.5基準値改訂、その"正当化ロジック"を読むtakehikoihayashi
 
A Bayesian Approach to probabilistic ecological risk assessment
A Bayesian Approach to probabilistic ecological risk assessmentA Bayesian Approach to probabilistic ecological risk assessment
A Bayesian Approach to probabilistic ecological risk assessmenttakehikoihayashi
 
なぜベイズ統計はリスク分析に向いているのか? その哲学上および実用上の理由
なぜベイズ統計はリスク分析に向いているのか? その哲学上および実用上の理由なぜベイズ統計はリスク分析に向いているのか? その哲学上および実用上の理由
なぜベイズ統計はリスク分析に向いているのか? その哲学上および実用上の理由takehikoihayashi
 

More from takehikoihayashi (9)

EBPM, “E”から見るか? “PM”から見るか?
EBPM, “E”から見るか? “PM”から見るか?EBPM, “E”から見るか? “PM”から見るか?
EBPM, “E”から見るか? “PM”から見るか?
 
環境分野における"EBPM"の可能性と危うさ:他山の石として
環境分野における"EBPM"の可能性と危うさ:他山の石として環境分野における"EBPM"の可能性と危うさ:他山の石として
環境分野における"EBPM"の可能性と危うさ:他山の石として
 
「生態学における統計的因果推論」という大ネタへの挑戦:その理論的背景と適用事例
「生態学における統計的因果推論」という大ネタへの挑戦:その理論的背景と適用事例「生態学における統計的因果推論」という大ネタへの挑戦:その理論的背景と適用事例
「生態学における統計的因果推論」という大ネタへの挑戦:その理論的背景と適用事例
 
応用哲学会2018『リスク分析と予防原則』
応用哲学会2018『リスク分析と予防原則』応用哲学会2018『リスク分析と予防原則』
応用哲学会2018『リスク分析と予防原則』
 
生態学会自由集会での講演のプレビュー
生態学会自由集会での講演のプレビュー生態学会自由集会での講演のプレビュー
生態学会自由集会での講演のプレビュー
 
世界における疾病および死亡リスク要因の定量化(GBD Study 2010 in Lancetの論文紹介)
世界における疾病および死亡リスク要因の定量化(GBD Study 2010 in Lancetの論文紹介)世界における疾病および死亡リスク要因の定量化(GBD Study 2010 in Lancetの論文紹介)
世界における疾病および死亡リスク要因の定量化(GBD Study 2010 in Lancetの論文紹介)
 
連続的なリスクのどこに「線」を引くのか:米国EPAのPM2.5基準値改訂、その"正当化ロジック"を読む
連続的なリスクのどこに「線」を引くのか:米国EPAのPM2.5基準値改訂、その"正当化ロジック"を読む連続的なリスクのどこに「線」を引くのか:米国EPAのPM2.5基準値改訂、その"正当化ロジック"を読む
連続的なリスクのどこに「線」を引くのか:米国EPAのPM2.5基準値改訂、その"正当化ロジック"を読む
 
A Bayesian Approach to probabilistic ecological risk assessment
A Bayesian Approach to probabilistic ecological risk assessmentA Bayesian Approach to probabilistic ecological risk assessment
A Bayesian Approach to probabilistic ecological risk assessment
 
なぜベイズ統計はリスク分析に向いているのか? その哲学上および実用上の理由
なぜベイズ統計はリスク分析に向いているのか? その哲学上および実用上の理由なぜベイズ統計はリスク分析に向いているのか? その哲学上および実用上の理由
なぜベイズ統計はリスク分析に向いているのか? その哲学上および実用上の理由
 

相関と因果について考える:統計的因果推論、その(不)可能性の中心

  • 1. 2012年6月25日(月) 某セミナー 相関と因果について考える: 統計的因果推論、その(不)可能性の中心 (20120625version:不適切な部分を見つけ次第適宜改訂の予定) 林岳彦 国立環境研究所環境リスク研究センター 環境リスク研究推進室 takehiko.i.hayashi@gmail.com
  • 3. 今回のもくじ イントロ -『相関と因果』再訪 基礎編 - 因果概念の変遷: 心の習慣 から 反事実 へ - 因果と確率論を繋ぐ:Pearlのdo演算子 実務編 - 重回帰とは因果構造分解酵素である - バックドア基準による変数選択 考察 - 因果推論の不可能性, モデル選択の3視点
  • 4. 相関と因果は一致しない 86 女 性 84 の 平 82 均 寿 80 命 78 (歳) 30 34 38 NHKの放送受信契約数(百万) http://www.stat.go.jp/data/nihon/02.htm 元データ→ http://pid.nhk.or.jp/jushinryo/know/pdf/toukei2010.pdf
  • 5. 相関と因果は一致しない 86 p < 0.00000002 女 2 性 84 R = 0.99 の 平 82 均 寿 80 命 78 (歳) 30 34 38 NHKの放送受信契約数(百万) http://www.stat.go.jp/data/nihon/02.htm 元データ→ http://pid.nhk.or.jp/jushinryo/know/pdf/toukei2010.pdf
  • 6. 相関と因果は一致しない 2010 2005 86 p < 0.00000002 女 2 性 84 R = 0.99 2000 の 1990 1995 平 82 均 寿 80 1985 命 1980 78 1975 (歳) 30 34 38 NHKの放送受信契約数(百万) http://www.stat.go.jp/data/nihon/02.htm 元データ→ http://pid.nhk.or.jp/jushinryo/know/pdf/toukei2010.pdf
  • 7. 相関と因果は一致しない? ある藻類毒性試験の結果 1.7 72 時 間 平 0.85 均 増 殖 率 0 C 0.5 1 2 4 8 農薬濃度(ppb)
  • 9. (一般論として)因果は 総合的 に判断される ヒルの因果判定基準 (Hill 1965) 1. 関連の強さ 2. 人、地理、時間的な一貫性 3. 関連の特異性(1つの原因に対して1つの結果) 4. 時間的な前後関係(原因が結果の前に起きる) 5. 用量が多いほど反応が強い 6. 生物学的な蓋然性 7. 過去の経験や知識との一致 8. 実験に基づく証拠 9. 類似性(他の事例から類推できる) http://listfreak.com/list/1793より引用
  • 10. (一般論として)因果は 総合的 に判断される ヒルの因果判定基準 (Hill 1965) 1. 関連の強さ 2. 人、地理、時間的な一貫性 3. 関連の特異性(1つの原因に対して1つの結果) 4. 時間的な前後関係(原因が結果の前に起きる) 5. 用量が多いほど反応が強い 6. 生物学的な蓋然性 7. 過去の経験や知識との一致 8. 実験に基づく証拠 9. 類似性(他の事例から類推できる) http://listfreak.com/list/1793より引用 Hillの基準@英語版wikipdia
  • 11. (一般論として)因果は 総合的 に判断される ヒルの因果判定基準 (Hill 1965) 1. 関連の強さ 2. 人、地理、時間的な一貫性 3. 関連の特異性(1つの原因に対して1つの結果) 4. 時間的な前後関係(原因が結果の前に起きる) 5. 用量が多いほど反応が強い 6. 生物学的な蓋然性 7. 過去の経験や知識との一致 8. 実験に基づく証拠 ... counterfactural 9. 類似性(他の事例から類推できる) http://listfreak.com/list/1793より引用 って何すか? Hillの基準@英語版wikipdia
  • 12. 今回のもくじ イントロ -『相関と因果』再訪 基礎編 - 因果概念の変遷: 心の習慣 から 反事実 へ - 因果と確率論を繋ぐ:Pearlのdo演算子 実務編 - 重回帰とは因果構造分解酵素である - バックドア基準による変数選択 考察 - 因果推論の不可能性, モデル選択の3視点
  • 13. 因果概念の変遷(ひと昔前): 心の習慣 千昌夫に似て蝶 『因果概念』なんて観察者の しれっ 心の習慣 の産物でしょ 我々に観察可能な事実は 「ボールAがボールBに当たる →ボールBが動く」という David Hume (1711-1776) 連関だけ http://www.sxc.hu/photo/478133
  • 14. 因果概念の変遷(ひと昔前): 心の習慣 千昌夫に似て蝶 『因果概念』なんて観察者の しれっ 心の習慣 の産物でしょ 我々に観察可能な事実は 「ボールAがボールBに当たる →ボールBが動く」という David Hume (1711-1776) 連関だけ http://www.sxc.hu/photo/478133 きりっ 観察可能なのは「相関」だけ 因果概念なんて科学じゃない そんなこんなで残念ながら比較的近年まで 「因果」は統計学の埓外にあった 画像出典: Karl Pearson (1857-1936) http://en.wikipedia.org/wiki/File:David_Hume.jpg http://ja.wikipedia.org/wiki/file:Karl_Pearson.jpg
  • 15. 因果概念の変遷(今):反事実的依存性 ここでクリプキを挙げるのが適切かは自信ない 「可能世界」の枠組みで考えれば 色々と捗るよ! 「Xは必然である」とは? 全ての可能世界においてXが成り立つ 「Xは可能である」とは? Saul Kripke (1940-) 少なくとも一つの可能世界でXが成り立つ 論理学者、哲学者
  • 16. 因果概念の変遷(今):反事実的依存性 ここでクリプキを挙げるのが適切かは自信ない 「可能世界」の枠組みで考えれば 色々と捗るよ! 「Xは必然である」とは? 全ての可能世界においてXが成り立つ 「Xは可能である」とは? Saul Kripke (1940-) 少なくとも一つの可能世界でXが成り立つ 論理学者、哲学者 @wikipediaの写真(なぜこの写真?) 「xがyの原因である」 到達可能な近傍世界 「同じ状況で、もしもxが起こらなけ れば、yは起こらなかっただろう」 David Lewis (1941-) 哲学者 (反事実的依存性に基づく因果解釈) 画像出典 http://en.wikipedia.org/wiki/File:Kripke.JPG http://en.wikipedia.org/wiki/File:David_K_Lewis.jpg
  • 17. 因果概念の変遷(今):反事実的依存性 到達可能な近傍世界 「同じ状況で、もしもxが起こらなければ、 yは起こらなかっただろう」 因果効果を次のように定義できそう: x→yへの因果効果 = 出来事xが起きた世界におけるy - 出来事xが起きなかった世界におけるy
  • 18. 因果概念の変遷(今):反事実的依存性 到達可能な近傍世界 「同じ状況で、もしもxが起こらなければ、 yは起こらなかっただろう」 因果効果を次のように定義できそう: x→yへの因果効果 = 出来事xが起きた世界におけるy - 出来事xが起きなかった世界におけるy しかし、「起きた世界」と「起きなかった世界」の両方 を同時に観測することは原理的に不可能 どちらかは必ず 反事実的な世界となる ex. 震災 因果推論の根本問題
  • 19. 因果概念の変遷(今):反事実的依存性 到達可能な近傍世界 「同じ状況で、もしもxが起こらなければ、 yは起こらなかっただろう」 反事実的な世界 を統計的に 因果効果を次のように定義できそう: 構成することにより x→yへの因果効果 この「根本問題」を解決するのが = 出来事xが起きた世界におけるy 『統計的因果推論』である - 出来事xが起きなかった世界におけるy ex. 実験計画法 しかし、「起きた世界」と「起きなかった世界」の両方 を同時に観測することは原理的に不可能 どちらかは必ず 反事実的な世界となる ex. 震災 因果推論の根本問題
  • 20. 現代的『統計的因果推論』のポンチ絵 なぎら健壱に似て蝶 可能世界論を介した 因果概念の転回 ベイジアン 欠損値 の ネットワーク 枠組み *この2つの流派による 説明の仕方がかなり 違うので Judea Pearl (1936-) 勉強する上で Donald Rubin (1943-) 人工知能界の 巨人 とっても混乱する 統計学者@ハーバード大 (2011年チューリング賞) 反事実的依存性を軸とした 因果問題への 統計的アプローチが発展 (今日はPearl系のアプローチに基づき説明していきます) 左画像出典: 右画像出典: http://www.cambridgeblog.org/2012/03/judea-pearl-turing-award/ http://www.stat.harvard.edu/faculty_page.php?page=rubin.html
  • 21. 今回のもくじ イントロ -『相関と因果』再訪 基礎編 - 因果概念の転回: 心の習慣 から 反事実 へ - 因果と確率論を繋ぐ:Pearlのdo演算子 実務編 - 重回帰とは因果構造分解酵素である - バックドア基準による変数選択 考察 - 因果推論の不可能性, モデル選択の3視点
  • 22. 確率論に もしも はない 到達可能な近傍世界 「同じ状況で、もしもxが起こらなければ、 yは起こらなかっただろう」 確率論で扱いたいが... 確率の言語では「もしも」が表せない! え?条件付き確率 じゃダメなの?
  • 23. 確率論に もしも はない 到達可能な近傍世界 「同じ状況で、もしもxが起こらなければ、 yは起こらなかっただろう」 確率論で扱いたいが... 確率の言語では「もしも」が表せない! え?条件付き確率 じゃダメなの? p(y¦x=30) x=30であるときの もしも という含意は 含まれない
  • 24. Judea Pearlによるdo演算子の導入 p(y¦x=30) x=30であるときの p(y¦do(x=30)) x=30に変えたときの 介入 の概念を持ち込むことに より もしも を導入 いやでもこの2つ何が違うんすか
  • 25. Judea Pearlによるdo演算子の導入 p(y¦x=30) x=30であるときの p(y¦do(x=30)) x=30に変えたときの 女 86 性 84 の 平 82 均 80 見かけ上の相関に基づく予測 寿 p(y¦x=30) 命 78 (歳) 30 34 38 NHKの放送受信契約数(百万)
  • 26. Judea Pearlによるdo演算子の導入 p(y¦x=30) x=30であるときの p(y¦do(x=30)) x=30に変えたときの *こういう図を 因果ダイアグラム といいます NHK契約数 x 擬似相関 共通要因 平均寿命 y 因果関係に基づく予測 に変えたとき p(y¦do(x=30))=p(y)
  • 27. ポイント:do演算子は 介入効果 を示す であるとき に変えたとき p(y¦x=30) p(y¦do(x=30)) 相関に基づく予測 因果に基づく予測 介入効果 =介入効果 NHK契約数 x 擬似相関 共通要因 平均寿命 y ここで p(y¦x=・)を介入効果と 勘違いすると見事に空振りする 介入が目的のときはdo(・)を見よ
  • 28. do演算子と「交絡」 グラフ理論の体系と対応付け do演算子は「交絡」概念を明確化するもの 共通要因 交絡要因 = 某重金属 興味のある説明変数と 濃度 結果変数の両方の BOD 上流側に存在する要因 種数 y *この因果ダイアグラムは 仮想的なものです 交絡によるバイアスが存在する p(y¦x=30) p(y¦do(x=30)) 相関関係と因果関係が一致しない
  • 29. do演算子と「交絡」 グラフ理論の体系と対応付け do演算子は「交絡」概念を明確化するもの 共通要因 交絡要因 = 某重金属 興味のある説明変数と 濃度 結果変数の両方の BOD 上流側に存在する要因 種数 y *この因果ダイアグラムは 仮想的なものです +選択バイアスも 交絡によるバイアスが取り除かれている = p(y¦x=30) = p(y¦do(x=30)) = 見かけ上の相関から因果効果を判断してOK
  • 30. 交絡によるバイアスの無い状態 p(y¦x=・) = p(y¦do(x=・))を目指すための方法 - 実験計画法に基づき実験する 局所管理 - 均一化・無作為化を念頭にサンプルする - 層別化・マッチング(交絡変数の値が似たもの同士で比較) - 統計モデルに交絡変数を組み込む 例. 重回帰で説明変数を追加する どう追加すればいいの?→『バックドア基準』
  • 31. 今回のもくじ イントロ -『相関と因果』再訪 基礎編 - 因果概念の変遷: 心の習慣 から 反事実 へ - 因果と確率論を繋ぐ:Pearlのdo演算子 実務編 - 重回帰とは因果構造分解酵素である - バックドア基準による変数選択 考察 - 因果推論の不可能性, モデル選択の3視点
  • 32. 重回帰とは 説明変数 目的変数 Y = β A + βB B + βC C + βD D... A 偏回帰係数 (それぞれの変数への重み付け係数) 例えば... 年平均気温 = 33.4 - 1.3 緯度 - 0.6 高度 + 0.1 経度
  • 33. 重回帰とは 因果構造分解酵素 である A B C A B C A B C Y Y Y etcetc.... 背後の因果構造を分解して 単純な形に再び繋げます Y = β A + βB B + βC C A + 定数 A B C β βB 相関関係 に基づき 実質上こういう形と A βC して解析している Y
  • 34. 重回帰とは 因果構造分解酵素 である A B C A B C A B C Y Y Y etcetc.... 変化させたとき であるとき 偏回帰係数の 意味 は背後の因果構造に依存する 背後の因果構造を分解して 単純な形に再び繋げます Y = β A + βB B + βC C A + 定数 A B C β βB 相関関係 に基づき 実質上こういう形と A βC して解析している Y
  • 35. バックドア基準による変数選択 「偏回帰係数 = 説明変数を1単位変化させた ときの因果効果」となる条件は? であるとき に変えたとき = p(y¦A=・) = p(y¦do(A=・)) 選ばれた変数群がバックドア基準を満たしている 因果効果を知りたい説明変数から結果変数へ至る 裏口からの因果径路が全てブロックされている ・・・図で説明します
  • 36. 因果効果を知りたい説明変数から結果変数へ至る 裏口からの因果径路が全てブロックされている 裏口ドアからの 因果径路 共通要因 その因果効果を 知りたい説明変数 某重金属 濃度 ブロック BOD 種数 y 重回帰の説明変数として加えることで 結果変数 その径路からのバイアスを ブロック できるのだ! 種数 = β 重金属 + βB BOD 重 *この因果ダイアグラムは 仮想的なものです
  • 37. 因果効果を知りたい説明変数から結果変数へ至る 裏口からの因果径路が全てブロックされている A B C A B C A B C Y Y Y Y=βA A Y=βA A+βB B Y=βA A+βB B A B C A B C A B C Y Y Y Y=βA A Y=βA A+βB B+βC C Y=βA A+βB B Y=βA A+βB C
  • 38. (再)バックドア基準による変数選択 「偏回帰係数 = 説明変数を1単位変化させた ときの因果効果」となる条件は? = p(y¦A=・) = p(y¦do(A=・)) 選ばれた変数がバックドア基準を満たせばよい 因果効果を知りたい説明変数から結果変数へ至る 裏口からの因果径路が全てブロックされている +下流側の中間変量を選ばない +合流点での変量を選ばない
  • 39. あと下流の中間変量は入れちゃだめ! Y=β A A A B C Y こういう形のときにBを説明変数として入れてしまうと 「Bを経由したAの因果効果」が無視されてしまう *その辺りの因果構造自体に興味が有る場合は パス解析や構造方程式を使います
  • 40. 合流点も入れちゃだめ! Y=β A A A B C D C B Y A Y こういう形のときにBを説明変数として入れてしまうと 新たなバイアスが発生する collider bias (合流点バイアスという← 選択バイアス はこの一種) *データをサンプルする段階で選択バイアスが発生しているとバックドア基準でも補正不可
  • 41. 論点:多重共線性とバックドア基準 (現状での私見) 説明変数間に何らかの強い因果的関連 ↑が問題の本質で いわゆる多重共線性 の問題 ←は現象だと思う 主症状:変数の出し入れにより回帰係数が大きく変化する データ数が増えれば 数理統計的問題 データ数は関係ない 因果的問題 問題は解消可 係数の推定が 因果効果を議 交絡による 論したい場合 不安定化 にはこちらの バイアス アプローチは 分散拡大係数 良くないん じゃないかな VIFによる診断と バックドア基準 変数の除去 による変数選択 興味のある変数に対して上流→除去すると交絡入るかも 興味のある変数に対して下流→さっさと除去
  • 42. 今回のもくじ イントロ -『相関と因果』再訪 基礎編 - 因果概念の変遷: 心の習慣 から 反事実 へ - 因果と確率論を繋ぐ:Pearlのdo演算子 実務編 - 重回帰とは因果構造分解酵素である - バックドア基準による変数選択 考察 - 因果推論の不可能性, モデル選択の3視点
  • 43. 統計的因果推論の不可能性 (1) 「未知の交絡要因がない」ことを 確認する方法は原理的に存在しない ? 共通要因 某重金属 濃度 ? BOD 種数 y *この因果ダイアグラムは 仮想的なものです (交絡を除去するためにはバックドア基準を満たせばよいことが分かっても バックドア基準が満たされているか否かは原理的に確認できない!) 「どの程度未知の交絡要因がありえそうか」を常に意識しよう 「未知の交絡要因」を減らしていくこと自体が研究の進歩
  • 44. 統計的因果推論の不可能性 (2) 現実問題として「背後の因果構造」なんて (完全には)分からないことが多い - 因果ダイアグラムが描けないとバックドア基準は 使えない(まあでも原則的な指針を与えてくれるものではある) - 因果構造が分からないなりに工夫する(傾向スコア法とか) - とりあえず因果構造そのものを明らかにすること を目的とする(学術的研究としてはこっちの方が本丸の場合が多いかも) 統計解析からの因果的判断を「適切に自重する」 ことも重要(「分からなさ」の程度と理由を説明することも専門家の役割)
  • 45. モデル(変数)選択の3視点(現状での私的整理) ベイズファ バックドア 手法 AIC系 クター系 基準 介入を伴わ モデルの 因果効果の 目的 ない予測 適合性比較 推定 事後確率 条件付き 原理 情報量規準 尤度比 独立性 実務上は「先行知見から見て一定の妥当性があるモデル群」を絞り込む過程でバックドア基準的なものが 暗黙のうちに適用されているケースが多いのかも 「因果効果の推定」や「介入を伴う予測」が 目的ならばバックドア基準を優先させるべき(と思う)
  • 47. take-home messages: 「因果と相関」の区別は実務上も非常に重要 (介入を伴う場合には特にクリティカルな問題) 重回帰は背後の因果構造をかなり単純化している ことを認識しよう 因果ダイアグラムを描こう/バックドア基準を適 用しよう(そうすれば「偏回帰係数=因果効果」と解釈してOK) 統計的因果推論はしばしば不可能であることを 認識し、しかしその不可能性の内実にはグラ デーションがあることも認識しよう 「統計データから因果の話は無理(不可知論)」と「統計解析の結果を因果的に 解釈しちゃっても実用上はしょうがないよね(なし崩し)」の間の隘路を丁寧に 進むことの中に 可能性の中心 はあるのだと思います
  • 50. なぜ重回帰?構造方程式でよくない? 確かに。 反事実的状況を取り扱うならおそらく本来 メカニスティックなモデルが一番いい 構造方程式やパス解析はその近似 重回帰系はさらにその近似 逆に言うと、因果効果を知りたいだけなら 重回帰系withバックドア基準が最も簡便かと まあその辺はケースバイケースで
  • 52. 交絡バイアスを避けるための統計学上の工夫 - 実験計画法に基づき実験する 実験計画法では、興味のある変数以外の条件を揃える(局所管理)か ランダムに割り当てる(無作為化)ことにより 交絡の要因となりうる相関関係が切断される 切断 毒性物質 切断 濃度x 系統 齢 生存率 y であるとき に変えたとき p(y¦x=30) = p(y¦do(x=30))
  • 54. 参考文献 統計的因果推論 - モデル・推論・推測 - Judea Pearl(著), 黒木学(訳) 私的コメント:Pearlの主著。おもしろいけど激ムズ。いきなり哲学の話になったりするし。        まだ通読できてません。 統計的因果推論 - 回帰分析の新しい枠組み - 宮川雅巳(著) 私的コメント:名著。 Pearl流の枠組みからの解説書。 ちょっと難しいけどPearl本より全然良い。今回の発表のネタ本。 調査観察データの統計科学 --- 因果推論・選択バイアス・データ融合 星野崇宏(著) 私的コメント:名著。Rubin流の欠損値の枠組みからの解説書。        ただPearl流の方法論に対する理解が今ひとつ浅いような気がするような気もしないでもない。 多変量解析の展開 --- 隠れた構造と因果を整理する 甘利俊一ら(著) 私的コメント:第二部(狩野裕著)はSEMから、第三部(佐藤俊哉&松山裕著)は疫学の観点から統計的因果推論を解説。        統計的因果推論の入門としてはこの本が分量的にも内容的にも一番敷居が低くていいかも。 可能世界の哲学 --- 「存在」と「自己」を考える 三浦俊彦(著) 私的コメント:可能世界論入門。これを読んでから「確率の意味論」みたいのを考える際には可能世界の枠組みがすげえ便利        というか寧ろ不可欠だな、と思うようになった。