Mais conteúdo relacionado Semelhante a 構造方程式モデルによる因果推論: 因果構造探索に関する最近の発展 (12) Mais de Shiga University, RIKEN (7) 構造方程式モデルによる因果推論: 因果構造探索に関する最近の発展5. データから因果関係を推定
• 方法1: ランダム化のあるデータ(実験データ)による方法
– 患者をランダムにグループ分け+強制: 薬を飲む vs 飲まない
– データ: 飲んだかどうか + 治癒したかどうか
– 2つのグループの治癒割合を比較: 違いがあれば、薬のせい
– 倫理・コストの問題
• 方法2: ランダム化がないデータ(観察データ)による方法
– 薬を飲むかどうかは患者の選択に任せる
– データ:飲んだかどうか + 治癒したか
– 違いがあっても、薬のせいかは不明: 追加の仮定・情報が必要
実験の優先順位
将来の観察のデザイン
観察データによる仮説の探索
5
6. 観察データから
因果に関する仮説を探索
• 観察データ+仮定 因果構造
– どんな仮定の下で何が導けるか?
• 最近の発展: 連続変数
– 「線形+ガウス性」から「線形+非ガウス性」へ
– 従来より格段に多くの情報をデータから引き出せる
6
データ行列X
サンプル
変
数
推定
x4
x21
x3
x57
x83
x15
+仮定
7. Contents
• 第1部: 構造方程式モデルによる因果推論の基礎
– 1.1 反実仮想モデルによる因果の定義
– 1.2 データ生成過程のモデルとしての構造方程式モデル
– 1.3 構造方程式モデルで因果を数学的に記述
• 第2部: 因果構造探索における最近の発展
– 2.1 基本問題設定 + 従来法
– 2.2 最近の発展:非ガウス性の利用 (基礎編)
– 2.3 拡張編
7
10. 個体における因果
(Neyman, 1923; Rubin, 1974; cf. Hernan, 2004)
• 患者ゼウスにとって、投薬は治癒の原因?
– 「もしも薬を飲ませたとしたら、治癒するか」
≠「もしも飲ませなかったとしたら、治癒するか」
⇒「ゼウスにとって、投薬は治癒するかどうかの原因(の1つ)」
– もしも○○だとしたら:反実仮想モデル
• 投薬という変化を起こすと、治癒するという変化が起きる
薬
治癒
治癒せずなし
3日後
ゼウス
10
12. 集団における因果
(Neyman, 1923; Rubin, 1974)
• 患者集団(ゼウス、ヘラ、アテナ、アポロン...たくさん)
– 「もしも全員に薬を飲ませた場合の治癒する割合」
≠「もしも全員に飲ませなかった場合の治癒する割合」
⇒「この集団において、投薬は治癒の原因」
• 集団における因果は同定できる場合がある(以降のスライド)
3日後
薬
治癒の
割合
治癒の
割合
なし
?
神様集団
12
14. 構造方程式モデル (Bollen, 1989; Pearl, 2000)
• データ生成過程のモデル
– 変数の「値」が、どういう過程を経て生成されるか
• 構造方程式:変数の「値」の決定関係を表す
– 治癒 = f(薬,それ以外)
– 𝑦 = 𝑓𝑦 𝑥, 𝑒 𝑦
» 左辺を右辺で定義する: 単なる等式ではない
» 𝑒 𝑦: yの値を決定するために必要な要因全て(x以外): 重症度や環境
),( yy
x
exfy
ex
x (薬)
y (治癒)
構造方程式 パス図
14
xe
ye
16. (ノンパラ)構造方程式モデル:一般に
• 以下の四つ組(Pearl, 2000):
• 関数fと分布p(u)から分布p(v)が決まる
• vのうちの観測変数oの分布p(o)から
統計的推測を行う
:)(
,
:},,{
:],,[
:],,[
1
1
1
u
uv
f
u
v
p
fv
ff
uu
vv
ii
p
q
p
-- 構造方程式
内生変数
外生変数
(決定的)関数
外生変数の分布
16
𝑣1
𝑣2
パス図
2u
1u
o = [ 𝑣1 𝑣3] 𝑇
𝑣3 3u
18. 介入 (Pearl, 2000)
• 介入: 変数の値を(他の変数に依らず=強制で)固定する
– 薬を飲ませる:do(薬=飲む) or do(x=1)
– xの構造方程式を「x=1」に取り換える
• 介入前のデータ生成過程 (観察データ)
• 介入後のデータ生成過程𝑀 𝑥=1
),( yy
x
exfy
ex
x (薬)
y (治癒)
𝑒 𝑥
𝑒 𝑦
構造方程式 パス図(因果グラフ)
),(
1
yy exfy
x
x (薬)
y (治癒)
1
𝑒 𝑦
自律性の仮定:他の関数は変わらない
(強制的に投薬した場合の仮想集団)
18
19. 介入後の分布 (Pearl, 2000)
• 介入後のyの分布 := 介入後のモデル 𝑀 𝑥=1での分布
• もし介入後のyの分布が違うxの値cとdがあれば、
「この集団において、xはyの原因」と言う
ypxdoyp xM 1
:1|
dxdoypcxdoyp ||
),(
1
yy exfy
x
x (薬)
y (治癒)
1
𝑒 𝑦
構造方程式 因果グラフ(パス図)
19
介入後の
モデル 𝑀 𝑥=1
𝑀 𝑥=1
21. 定量化: 因果効果
(Rubin, 1974; Pearl, 2000)
• 変数xの値をcからdに変化させた時に、
変数yの値が平均的にどのくらい変化するか
• 変化させる:do(x=c)をした後、cをdに変える
• 分散で測る:
cxdoyEdxdoyE ||:)( 因果効果平均
21
cxdoyVardxdoyVar ||
22. 例1
• xを定数 c から d へ変化させたときの yへの因果効果
= E( y | 母集団全員のxをdにする )
- E( y | ・・・ xをcにする )
=
=
=
yyxyyx ecbEedbE
cdbyx
cxdoyEdxdoyE ||
yyx
x
exby
ex
モデル1:
x
y
ex
ey yyx exby
dx
モデル1’:
x
y
d
ey
22
23. 例2
• yを定数 c から d へ変化させたときの xへの因果効果
= E( x | 母集団全員のyをdにする )
- E( x| ・・・ yをcにする )
=
=
=
xx eEeE
0
cydoxEdydoxE ||
yyx
x
exby
ex
モデル1:
x
y
ex
ey dy
ex x
モデル1’’:
x
y
ex
d
23
24. 同じ の値 : 同じ個体(x以外の条件は同じ)
補足:個体における因果 (Pearl, 2000)
• do(x=d)のモデルでのゼウスのyと
do(x=c)のモデルでのゼウスのyを比較
cdb
ecbedbyy
yx
yyxyyxcxdx
ゼウスゼウスゼウスゼウス
yyx
x
exby
ex
モデル1:
x
y
ex
ey yyx exby
dx
モデル1’ do(x=d):
x
y
d
ey
ye ゼウス
ye
24
ゼウスゼウス
yyyy ecfedf ,,
29. 構造方程式モデルで表現
(Robins & Greenland, 1992; Pearl, 2001)
• xを男から女に変えたときのz(雇用)への直接効果:
)()( , 男女 男 xyyx zEzE x
x (性別) y(適性)
z(雇用)
女
強制的にx=女, の仮想集団
x (性別) y(適性)
z(雇用)
男
強制的にx=男の仮想集団男
x
yy
𝐲 𝐱=男
29
ze ze
ye
vs.
30. 間接効果 (Pearl, 2001)
• 間接効果:性別は男のまま、
適性を性別を女に変えた場合と同じにしたとしたら、
雇用される確率はどのくらい変わるか?
– 性差別を取り除いた時の、性別から雇用への効果
x (性別) y (適性)
z (雇用)
30
ye
ze
xe
31. 構造方程式モデルで表現 (Pearl, 2001)
• xを男から女に変えたときのz(雇用)への間接効果:
)()( , 男男 女 xyyx zEzE x
x (性別) y(適性)
z(雇用)
男
x (性別) y(適性)
z(雇用)
男
強制的にx=男の仮想集団
𝒚 𝒙=女
強制的にx=男, の仮想集団女
x
yy
31
ze ze
ye
vs.
35. 因果効果の識別性:doのない形にかけるか?
• 非巡回で交絡変数がない場合(Pearl, 1995):
• 証明:
yy exfy
dx
,
モデル1’ do(x=d):
x
y
d
dxyEdxdoyE |)(|
yy edfE
dxdoyE
,
|
等しい
yy
x
exfy
ex
,
モデル1:
x
y
35
ye ye
xe
yy
yy
yy
edfE
dxedfE
dxexfEdxyE
,
|,
|,|
36. 因果効果の識別性:doのない形にかけるか?
• 非巡回で交絡変数がある場合:
– xの親を観測して調整 (十分条件(Pearl, 1995)):
– 線形なら
• より詳しくは Shpitser and Pearl (2006,2008)
– 因果構造(因果グラフ)が分れば、識別可能か判定可能
– 因果構造に関する知識が必要
の親の親 xxyEExdoyE x ,|)|(
y x
z
w
u
v
q
cdx
cxdoyEdxdoyE
の偏回帰係数
||
36
37. ランダム化実験:グラフが既知に
• 仮定1: ランダム化
外生変数が独立に=交絡変数がない
• 仮定2(事前知識): 時間情報
ありうる向きが決まる(非巡回)
x (薬)
y (治癒)
観察データの因果グラフ
x (薬)
y (治癒)
ランダム化実験の因果グラフ
ランダム化
xyExdoyE ||
37
ye
xe
ye
xe
39. 補足: 予測との目的の違い
• 予測: 何かを観測したとき、他の何かはどのくらいか?
– 薬を飲んだ時、治癒する確率は?
– 推定したい量:
条件付き期待値: E( 治癒 | 薬=飲む)
• 因果: 何かを変化させると、他の何かがどう変化するか
– 薬を飲ませると、治癒する確率はどう変わる?
– 推定したい量:
因果効果: E[ 治癒 | do( 薬 = 飲む ) ]
– E[ 治癒 | do( 薬 = 飲まない ) ]
• 多くの場合: E[ 治癒 | do( 薬 = 飲む ) ] E( 治癒 | 薬=飲む)
39
42. 因果構造探索のフレームワーク
• 観察データ+仮定 因果構造(因果グラフ)
• 仮定: 因果の定義・データ生成過程に関する制約
• 条件付きの主張:
– もし「これこれ」の仮定を受け入れるなら、
このデータと組み合わせて、
「これこれ」の因果構造が示唆される
• 検証可能な仮定を検証: 検定・実験による確認
42
事前知識
分析者の判断
44. 生命科学
(Sachs et al. Science, 2005; Smith NeuroImage, 2012;
Maathuis et al. Nature Methods, 2010; Peer et al. Cell, 2011)
• 脳領域ネットワーク
– 変数:脳領域
– 脳画像データ(MEG, fMRI)
• 遺伝子/タンパク質ネットワーク
– 変数: 遺伝子/タンパク質
– マイクロアレイ/フローサイトメトリー
• システムの理解・治療法の開発
– 実験は難しい and/or 高コスト
– 観察データ分析に基づいて実験の優先順位
• 因果効果の有無の予測, 患者とnon-患者の違い
44
脳ネットワーク
(Ramsey et al., 2009)
タンパク質ネットワーク
(Sachs et al., 2005)
45. • 実験は難しい
• 経済学
– Ferkingsta et al. Energy Economics. 2011
– Moneta et al. Oxford Bulletin of Economics and Statistics, 2012
• 行動遺伝学
– Ozaki et al. Behavior Genetics, 2009, 2010
• 心理学
– Takahashi et al., Japanese Psychological Research, 2012
– von Eye et al., Int. Journal of Behavioral Development, 2012
• 環境学
– D. Niyogi et al. Water Resources Research , 2012
利益(t)
社会科学
45
雇用(t)
売上(t)
R&D(t)
雇用(t+1)
売上(t+1)
R&D(t+1)
利益(t+1)
雇用(t+2)
売上(t+2)
R&D(t+2)
利益(t+2)
(Moneta et al., 2012)
47. 従来の典型的な問題設定
• 従来からの典型的な設定:
– 非巡回+潜在交絡変数なし
– ここでの知見をもとに拡張
• さらに
– 連続変数:線形性+外生変数 𝑒𝑖 のガウス性
• 線形近似: 定性的な関係を探る道具としては有効 (Peer et al., 2011, Cell)
• ガウス性:ガウス分布で近似
– 離散変数:関数形に仮定を置かない
• 最近の発展は連続変数の場合
47
x3
x1
e3
e1
x2 e2
48. 最近の発展の概要 (1/2)
• データ行列 X が次のどちらかのデータ生成過程
からランダムに生成されたとしよう :
ここで 𝑒1 と 𝑒2 は独立な潜在変数 (外生変数: かく乱項、誤差)
• データ行列Xのみを用いて、データXを生成したのが
モデル1 なのか モデル2 なのかを同定したい
or
21212
11
exbx
ex
22
12121
ex
exbx
モデル 1: モデル 2:
x1
x2
e1
e2
x1
x2
e1
e2
0, 1221 bb
48
49. 最近の発展の概要 (2/2)
• 「同定はできない」と長らく思われていた
• 実は、「ほとんどの場合に同定可能」ということが
最近分かってきた (Shimizu et al., 2005; 2006)
– 𝑒1 と 𝑒2がガウス分布に従うとダメ
• 非線形+加法誤差でもポジティブな結果
(Hoyer et al., 2009; Zhang & Hyvarinen, 2009; Peters et al., 2011)
or
2122
11
exfx
ex
22
121
ex
exfx
モデル 3: モデル 4:
x1
x2
e1
e2
x1
x2
e1
e2
49
51. 基本問題設定 (1/2)
• 仮定: 連続な観測変数 のデータ生成過程が、
グラフィカルには非巡回有向グラフである
– ループがない
x3
x1
e3
e1
x2 e2
x3
x1
e3
e1
x2 e2
非巡回有向グラフの例: 巡回有向グラフの例:
ix
(□(四角)で囲まれているのは観測変数)
51
52. 基本問題設定 (2/2)
• さらに、 の線形関係を仮定すると、
次の線形・非巡回・潜在交絡変数なしモデルを得る:
– 𝑘 𝑖 : 𝑥𝑖 の生成順序
– 𝑏𝑖𝑗: パス係数
– 𝑒𝑖 は、モデル内で規定されない連続な潜在変数:
ここでは、外生変数と呼ぶ (かく乱変数、誤差変数).
– 𝑒𝑖 は、非ゼロの分散を持ち、互いに独立
eBxx i
ikjk
jiji exbx )()(
or
ix
52
56. • 仮定:データ行列 X は、このモデルからランダムに生
成される:
• Goal: データ行列Xの情報のみを使って、パス係数行
列 B を推定する!
– Bのゼロ/非ゼロパターンが、
1つの有向非巡回グラフに対応する
基本問題設定 (3/3):
「線形+非巡回+潜在交絡なし」モデル
の推定
eBxx
x1
x2
e1
e2
21b
56
57. 総合効果・直接効果・間接効果
• 𝑥𝑗をcからdへ変化させた時の
– 𝑥𝑖 への直接効果: 𝑏𝑖𝑗 × 𝑑 − 𝑐
– 𝑥𝑖 への総合効果: 𝑎𝑖𝑗 × 𝑑 − 𝑐
– 𝑥𝑖 への間接効果: 𝑎𝑖𝑗 − 𝑏𝑖𝑗 × 𝑑 − 𝑐
• パス係数行列Bを推定できれば、
総合効果・直接効果・間接効果の推定値を得られる
57
3
2
1
3
2
1
3
2
1
000
003.1
5.100
e
e
e
x
x
x
x
x
x
x3
x1
e3
e1
x2 e2
1.5
-1.3
B
1
BIAただし
59. パス係数行列 B の識別性
• 「Bが識別可能」 「p(x)からBが一意に決定される」
– Bのゼロ/非ゼロパターン=因果構造(因果グラフ・パス図)
• 「線形・非巡回・潜在交絡なし」の構造方程式モデル:
– Bとp(e)から観測変数の分布p(x)が決まる
– 異なるB に対してp(x) (or p(x)の特性)が異なれば,
Bは一意に決まる
eBxx
x1
x2
e1
e2
21b
59
60. 伝統的な識別原理:
Causal Markov condition
• 「非巡回+潜在交絡なし」の構造方程式モデルなら、
Causal Markov condition が成り立つ:
– 各変数 𝑥𝑖 は、親で条件付けると非子孫と独立
(Pearl & Verma, 1991) :
• 線形性+𝑒𝑖のガウス性を仮定すると、偏相関の有無
• 汎用性は高い:離散や非線形でも使える
p
i
ii xxpp
1
| の親x
x3
x1
e3
e1
x2 e2
60
p(x)に現れる特性: 条件付き独立性
61. 追加で必要な仮定: 忠実性(安定性)
(Spirtes et al., 1993; Pearl, 2000)
• 「観測変数間の独立性・条件付き独立性の有無は、
グラフ構造のみによって決まる」
– グラフ構造:パス係数行列Bのゼロ/非ゼロパターン
– 𝑏𝑖𝑗の特定の値には依存しない
• 特殊ケースを排除: causal markov cond.以外に成
り立つ独立性・条件付き独立性がなくなる
61
忠実性が崩れている例:
xとzはグラフ上ではつながっているが、共分散はゼロ(独立)
x y𝑒 𝑥 𝑒 𝑦
z
1
-1
1
𝑒 𝑧
0),cov( zx
(外生変数 𝑒𝑖 がガウスと仮定)
62. 例: Causal Markov Cond.では識別できない
追加:62
x3
x1
x2
データXで成り立つ
条件付き独立性:
𝒙 𝟐と𝒙 𝟑が独立 | 𝒙 𝟏
データXが
生成される
x3
x1
x2
x3
x1
x2
x3
x1
x2
x3
x1
x2
真
データで成り立つのと同じ
条件付き独立性を
与えるモデルを列挙
まとめる
復元できない:
識別性なし
この3つが全部そう
ここまで
が限界
63. Causal Markov condition
に基づく推定法
• 条件付き独立性+忠実性に基づく方法
(Spirtes & Glymour, 1991)
– 多くのモデルが、観測変数 𝑥𝑖 間に同じ条件付き独立性を与
え、等しくデータにフィットしてしまう
• 外生変数 𝑒𝑖 がガウスであろうとなかろうと
• さらにガウス性を仮定して情報量基準を用いて比較す
る方法 (Chickering, 2002)
– 多くのモデルが同じ観測変数の分布を与え、等しくデータに
フィットしてしまう。
• 多くの場合、パス係数行列Bは一意に決まらない
63
64. • 有向辺の向きが反対の2つのモデル:
• どちらのモデルでも、(条件付き)独立になる変数はない:
• 𝑒𝑖 がガウスなら、どちらのモデルも同じガウス分布を与える:
例: ガウス性を仮定しても
08.0,cov 21 xx
212
11
8.0 exx
ex
22
121 8.0
ex
exx
モデル 1: モデル 2:
x1
x2
e1
e2
x1
x2
e1
e2
1varvar 21 xx ,021 eEeE
64
18.0
8.01
0
0
~
2
1
N
x
x
66. 非ガウス性に基づくアプローチ
• モデル識別にデータの非ガウス性を利用する
(Bentler, 1983; Mooijaart, 1985; Dodge and Rousson; 2001)
• 外生変数 𝑒𝑖 が非ガウスなら、パス係数行列Bを
識別可能(一意に推定可能) (Shimizu et al., 2005; 2006)
• 非ガウス因果構造探索の適用されている分野の例:
– 脳 (Smith et al., 2011; Ramsey et al., 2011; Faes et al., 2010)
– 遺伝子 (Sogawa et al., 2011)
– 経済学 (Moneta et al., 2012; Ferkingsta et al. 2011)
– 行動遺伝学 (Ozaki et al , 2009; 2011)
– 心理学(Takahashi et al. 2012; von Eye et al, 2012)
66
67. ガウス性 vs 非ガウス性
𝑒1, 𝑒2がガウス 𝑒1, 𝑒2が非ガウス
(一様分布)
モデル1:
モデル2:
x1
x2
x1
x2
e1
e2
x1
x2
e1
e2
x1
x2
x1
x2
x1
x2
212
11
8.0 exx
ex
22
121 8.0
ex
exx
1varvar 21 xx
,021 eEeE
67
68. • Linear Non-Gaussian Acyclic Model:
ここで
– の生成順序
– 外生変数 (攪乱項、誤差項)は
• 分散が非ゼロ
• 非ガウスな密度関数+互いに独立.
• データXからBが識別可能(一意に推定可能)
LiNGAMモデル
(Shimizu, Hyvarinen, Hoyer & Kerminen, 2005; 2006)
ie
eBxx i
ikjk
jiji exbx )()(
or
ixik :
68
71. 独立成分分析モデル (ICAモデル)
(Jutten & Herault, 1991; Comon, 1994)
• 観測変数ベクトルxのデータ生成過程:
ここで
– 潜在変数(独立成分) 𝑠𝑖 は分散が非ゼロ、
非ガウスな密度関数、 互いに独立
– 混合行列 A = [𝑎𝑖𝑗]は正方行列でフル列ランク
• 混合行列Aは(列の置換PとスケーリングDを除いて)
識別可能:
Asx
p
j
jiji sax
1
or
APDA ica
71
73. 独立と無相関
• 変数xとyが「独立」:
• xとyが「無相関」:
• 「独立」の方が強い条件: 制約がたくさん
– ガウスだと、独立=無相関
• 独立成分分析(ICA)モデルは、「非ガウス+独立」を
利用して識別可能になる: No 因子回転!
0 yExExyE
0 ygExfEygxfE
任意の有界な関数fとgについて
73
74. 「 は独立」
独立性の評価指標
• 相互情報量
– ここでHはエントロピー
• 「相互情報量 = 0」
xx HxHI
p
i
i 1
)(
)(log xx pEH
74
xI
pxxx ,,, 21
75. ICAモデルの推定
• 多くの推定法が推定するのは復元行列
(Hyvarinen et al., 2001)
• 推定される独立成分の相互情報量(or その近似)を最小化 :
• 復元行列Wは、行の並び替えPとスケーリングDを除いて推
定される:
• 推定アルゴリズム (Hyvarinen, 1999; Amari, 1998)
– セミパラメトリック: 分布形を特定する必要はない
xWs icaˆ
:1
AW
1
PDAPDWWica
sWAsx 1
75
78. )( BIDDWPDWPWP ica
LiNGAMモデルの識別性(2/3):
置換行列を定める (1/6)
• ICAが推定するのは
– P : 置換行列; D: スケーリング行列 (対角)
• 置換 をキャンセルするような置換行列 を求めたい
(つまり となるような )
• 以下が証明できる(Shimizu et al., 2005) (次のスライドで説明) :
– もし , つまり, の行に置換が施されないなら,
は対角成分にゼロが一つも無い (定義より明らか).
– もし , つまり, の行に何らかの置換が施されたなら,
の対角成分に少なくとも一つはゼロがある
)( BIPDPDWW ica
IPP
P
IPP
icaWP
IPP
icaWP
I
P
DW
DW
P
78
79. LiNGAMモデルの識別性(2/3):
置換行列を定める (2/6)
• 定義より の対角成分は全て1
– Bの対角成分は全てゼロ
• 非巡回性の仮定より、Bを下三角行列にするような変数の生成
順序k(1)…k(p)が必ず存在する. その時 も下三角.
• なので、以下では一般性を失わずに, を下三角と仮定する:
1**
01*
001
W
0 0
0
対角成分に
ゼロがない!
BIW
BIW
W
79
86. LiNGAMモデルの尤度
(Hyvarinen et al., 2010)
• 生成順序𝑘 𝑖 が与えられた時の対数尤度 :
• 生成順序𝑘 𝑖 を求める必要
– 総当たりで探すのは大変: p!通り
• 分布を特定しなくても良い方法がbetter
t i i
i
i
T
i
i T
tt
pL
logloglog
xbx
X
si
2
=
1
T
xi t( )-b0,i
T
x( )
2
t
åここで ,ii epp
86
87. 2つの推定アルゴリズム
• 外生変数𝑒𝑖の独立性を利用
– ICA-LiNGAMアルゴリズム: 独立成分分析を利用
(Shimizu, Hoyer, Hyvarinen & Kerminen, 2006)
– DirectLiNGAMアルゴリズム: 独立成分分析(ICA)-free
(Shimizu et al., 2011)
• どちらもパス係数行列Bが下三角になるような変数 𝑥𝑖 の
生成順序 𝑘 𝑖 を推定
– 𝑘 𝑖 に従って変数を置換すると、Bが下三角になる
置換後置換後置換後 exx
置換後B
O
x2
x3x1
冗長な有向辺(パス)
対応するグラフ
87
88. 生成順序𝑘 𝑖 を見つけてしまえば
• 既存のスパース回帰を使って枝刈り
• 例: adaptive lasso (Zou, 2006)で1行ずつ枝刈り
x2
x3x1
x2
x3x1O
0
0
*
* *
*
枝刈り
の親候補の親候補 ii xj ij
ij
xj
jiji
olsb
b
xbx
:
2
: )(ˆ
88
置換後置換後置換後 exx
置換後B
91. 1. ICAを使って推定(ここでは, FastICA (Hyvarinen, 1999))
2. の対角成分を絶対値の意味でできるだけ大きくす
るような置換行列 を見つける:
3. の各行を対応する対角成分で割ると, I-Bの推定
値を得て、 を得る.
ICA-LiNGAMアルゴリズム(1/2):
ステップ1: Bの推定
iiicaWP
P
P ˆ
1
minˆ
B)PD(IPDWW ica
icaWP ˆ
Hungarian alg.
(Kuhn, 1955)
P
icaWP ˆˆ
Bˆ
91
95. DirectLiNGAM アルゴリズム
(Shimizu et al., 2011)
• パス係数行列Bが下三角になるような変数 𝑥𝑖 の
生成順序𝑘 𝑖 を推定する(非巡回になるような順序)
置換後B
O
x2
x3x1
冗長な有向辺
対応する非巡回有向グラフ
95
置換後置換後置換後 exx
96. Basic idea (1/2) :
外生変数は、正しい順序のトップに来れる
• 外生変数 は、(モデル内に)親のいない変数
– ここでは
– パス係数行列 Bの対応する行の成分は全てゼロ
• 外生変数はパス係数行列Bを下三角にするような変
数生成順序のトップに来れる
2
1
3
2
1
3
2
1
3
03.10
005.1
000
e
e
e
x
x
x
x
x
x
0
0
0
0
00
x3 x1 x2
jj ex
3x
96
97. Basic idea (2/2):
外生変数 の成分を取り除く
• 他の変数 を外生変数 に回帰して
残差 を計算する
– 残差 も、LiNGAMモデルを形成する
– 残差の生成順序は、元の観測変数の順序と同じ
• 残差 が外生なので、 はトップから2番目に来れる
)3(
1r 1x
3x
)2,1(3
iri
3x)2,1( ixi
2
1
3
2
1
3
2
1
3
03.10
005.1
000
e
e
e
x
x
x
x
x
x 0
0
0 0
0
0
00
2
1
)3(
2
)3(
1
)3(
2
)3(
1
03.1
00
e
e
r
r
r
r 0 0
)3(
2r)3(
1rx3 x1 x2
3
2
3
1 rr と
0
97
98. • 全ての変数が順序づけられるまで、
繰り返し「外生」変数を見つける:
1. 外生変数を見つける:
– を順序のトップに置く
– 回帰して、 の成分を取り除く
2. 外生的な残差を見つける:
– を順序のトップから2番目に置く
– 回帰して、 の成分を取り除く
3. を順序のトップから3番目に置いて、終了
推定された順序は
DirectLiNGAMの流れ
3x
)3(
1r
3x
)3(
2r)3(
1rx3 x1 x2
)1,3(
2r
3x
1x
)3(
1r
2x
213 xxx
Step. 1 Step. 2 Step. 3
98
99. 定理1: 「 は その残差
のどれとも独立 ( は 以外全部)」 「 は外生変数」
• LiNGAMモデルにおいて
• 実際のデータ解析では、
残差と最も独立な観測変数を見つけることによって、
外生変数を同定する
外生変数の同定
j
j
ji
i
j
i x
x
xx
xr
)var(
)cov( ,
jx
jxi j
99
102. 独立性の評価
• 非線形相関(独立の必要条件)
• 残差について和をとって:
• 相互情報量:
– ノンパラ推定(Bach & Jordan, 2002; Gretton et al.. 2005; Kraskov et al., 2004)
– サンプルサイズが十分あればベター(Sogawa et al., 2010; Entner et
al., 2011)
tanh,corr )(
grgx j
ij
ji
j
ij
j
ij rxgrgxT )()(
,corr,corr
102
j
i
jj
ijj
i
j
r
x
HrHxH
r
x
I )(
104. Causal Markov condition との
関係は?
• 次の2つの性質は同値:
(Zhang & Hyvarinen, 2009; Hyvarinen et al., 2010)
1. 外生変数 𝑒𝑖 が互いに独立
2. Causal Markov condition が成り立つ
+ 各変数 𝑥𝑖 の親と外生変数 𝑒𝑖 が独立
• ガウスだと独立=無相関 情報が増えない
x3
x1
e3
e1
x2 e2
1.5
-1.3
104
106. 検証可能な仮定を検定
• 外生変数 𝑒𝑖 の非ガウス性: 𝑒𝑖のガウス性検定
• 仮定の崩れの検出:
– 外生変数 𝑒𝑖の独立性
• すべての仮定が正しければ、 𝑒𝑖 は独立になるはず
– 全体的適合度(高次モーメント構造)
(Shimizu & Kano, 2008; Ozaki et al., 2010)
• 検定のロジックでは、モデルを積極的には採用でき
ないが…
• 実験できれば実験で確認
106
107. 例:潜在交絡変数の検出
(Entner et al., 2011)
• 潜在交絡変数(非ガウス)の例
• 定理:
• LiNGAMによって推定される 𝑒𝑖の独立性検定
107
x2 x1
f1
21211212
11111
efxbx
efx
「潜在交絡変数がない」
「LiNGAMモデルが成立」
e1e2
108. 統計的信頼性の評価
• 推定結果の統計的信頼性評価が必要
– 標本変動
– 非ガウス性が小さいとモデルが識別不能に近づく
• ブートストラップ法によるアプローチ:
– サンプルサイズが小さいか非ガウス性が小さいかすれば、ブートスト
ラップ標本についてのLiNGAMの結果は大きくばらつくはず
(Komatsu et al., 2010; Hyvarinen et al., 2010; Thamvitayakul et al., 2012)
x2
x3x1
x2
x3x1
….
p値=0.23 p値=0.18 >0.05
108
111. 潜在交絡変数
(Hoyer et al., 2008)
• 潜在交絡変数 : 非ガウス+独立
– Λは列フルランク
• 推定したいのはB
eΛfBxx
f1
f2
f1
f2
f3
f1’
f2’
x3
x2
x1
e2
e1
e3
21b
32b 21
11
「 𝑓𝑖 が独立」と仮定しても
一般性を失わない
例
f1
111
if
112. • DirectLiNGAMアルゴリズムの拡張
– 独立性を検定して棄却されたら止める
定理 2:「 は その残差 のどれとも
独立 ( は 以外全部)」
推定アプローチ1:
潜在交絡変数のない部分を推定
(Tashiro et al., 2012)
j
j
ji
i
j
i x
x
xx
xr
)var(
)cov( ,
jx
i j
x2
x1
x3 x2
x1
x3
生成順序を
上から推定
真
f1
112
「 𝑥𝑗 は外生変数かつ潜在交絡変数を親に持たない」
113. • 終点変数: (モデル内に)子を持たない変数
• 潜在交絡が多いと、得られる情報は少ないかも
「 𝑥𝑗 は終点変数かつ潜在交絡変数を親に持たない」
定理 3: 「 𝑥𝑗 をその他の変数全てに線形回帰した時の残差と
𝑥𝑗が独立」
生成順序を下から「も」推定:
終点変数の同定
x2 x3
x1
x2 x3
x1
生成順序を
下から推定
真 f1
113
114. 推定アプローチ2:
潜在交絡変数を陽にモデリング
(Hoyer et al., 2008)
• ICA-LiNGAMアルゴリズムの拡張
– ICA(独立成分分析)の一種 (Lewicki et al., 2000)として解く
• 難しさ: 推定されたAのどの列がeにどの列がfに対応?
– 対応が一意に定まらないことがある(置換の不定性)
– Aのゼロ・非ゼロパターンから定まるのは例えばいつ?(次の
スライド)
As
f
e
ΛBIBIx
11
eΛfBxx
-- ICA (独立成分の方が多い)
114
--潜在交絡変数ありのLiNGAM
115. 非ガウス (一様分布)
x2
x1
e1,e2, f1がガウス
x2
• Aのゼロ・非ゼロパターンからグラフは識別可能
– 𝑥𝑖, 𝑓𝑖に忠実性を仮定
• 課題: 効率のよい推定アルゴリズムは発展途上
例えば、以下が識別可能に (Hoyer et al., 2008)
115
x1 x2
f1
x1 x2
f1
x1 x2
f1
モデル
1.
2.
3.
共分散行列が同じになるようにパス係数を選んでも非ガウスなら分布が違う
**0
*0*
***
*0*
**0
***
A
A
117. 巡回モデル
(Lacerda et al., 2008)
• モデル:
– Bは下三角に並び替えできない
• 識別性の十分条件
– Bの固有値の絶対値が1未満(平衡状態にある)
– ループが交わらない
– 自己ループなし
• ICA-LiNGAMアルゴリズムの変形
– 先に、 のゼロ/非ゼロパターンを同定
– 次に、対角に非ゼロが来るように
x1
x2
e1
e2
x5 e5
x4e4
x3e3
eBxx
117
1
BIA
119. 複数データセット
(Ramsey et al. 2011, Shimizu, 2012)
• c個の集団に対するモデル:
– 共通の生成順序:分布とパス係数は違ってもよい
• 類似性を利用して精度向上
– 「fMRI+脳」の模擬データで精度が大幅に向上
(Ramsey et al., 2011)
cgexbx g
i
ikjk
g
j
g
ij
g
i ,...,1)(
)()(
)()()(
x3
x1
x2
e1
e2
e3
4
-3
2
x3
x1
x2
e1
e2
e3
-0.5
5
集団1 集団2
119
121. • 変数間から変数グループ間へ
– 脳領域=神経細胞の集まり
– 脳画像データ: fMRI,MEG
• 複数の変数が1つの脳領域に対応
• グループ分けも探索(Kawahara et al., 2010)
– 例:潜在交絡変数を共有する変数グループ
変数グループ間の分析
(Kawahara et al., 2010; Entner et al., 2012)
x2
x7
x6
x5
x1
x4
x3
x2 x3
x1
変数間 グループ間
121
123. 時系列
(Hyvarinen et al., 2008;2010)
• LiNGAM+自己回帰モデル
– 瞬間的因果構造:LiNGAM
– 時間的決定関係:自己回帰モデル
– 測定間隔と相互作用のスピード
– 計量経済学
• 構造型ベクトル自己回帰モデル
(Swanson & Granger, 1997)
– 推定
• 自己回帰モデルの残差にLiNGAMをかける
)()()(
0
ttt
k
exBx
x1(t)x1(t-1)
x2(t-1) x2(t)
e1(t-1)
e2(t-1)
e1(t)
e2(t)
123
125. • 「非線形+加法の外生変数」のモデル:
– 非巡回・潜在交絡変数なし
• 「外生変数の独立性」の推定原理が使える
– いくつかの非線形性と外生変数の分布を除いて、一意に推定可能
(Zhang & Hyvarinen, 2009; Peters et al., 2011)
– 課題:計算負荷高い(7,8変数ぐらいまで?)+大サンプルサイズ必要?
• 巡回・潜在交絡・時系列
(Mooij et al., 2011; Zhang et al., 2010; Peters et al., 2012)
非線形+加法の外生変数
iiiii
iiii
exffx
exfx
の親
の親
1,
1
2,
-- Hoyer et al. (2008)
-- Zhang et al. (2009)
1.
2.
125
126. • 非巡回 + 潜在交絡変数なし:
– Causal Markov Conditionを利用 (Spirtes & Glymour, 1991)
– 「外生変数の独立性」の推定原理は使えない
– ノンパラメトリック独立性・条件付き独立性検定
(Gretton, 2010; Sun et al., 2007)
• 潜在交絡・巡回・時系列
(Spirtes et al., 1995; Richardson, 1996; Chu & Glymour, 2008; Entner & Hoyer, 2010)
• 多くの場合、一意に同定できないが、関数形について
仮定をおかないのであれば、この系統
– 歴史的には、この系統が先
関数形がノンパラメトリック
iiii exfx ,の親
126
128. • 背景知識を探索に生かす(推定精度を上げる)
– Inazumi et al. (2010).
• ベイズ:
– Hoyer and Hyttinen (2009); Henao and Winther (2010,2011);
Mooij et al. (2010)
• 離散変数: 関数形に制約
– Peters et al. (2010,2011); Inazumi et al. (2011).
• モデル誤特定への頑健性
– 実は外生変数のいくつかがガウス(Hoyer et al., 2008)
• 因果と予測: 因果についての知識を予測にどう生かす?
– Tillman and Spirtes (2010); Schölkopf et al. (2012)
そのほかの話題
128
129. まとめ
• 因果分析のフレームワーク
– 反実仮想モデルによる因果の定義
– 因果を記述する道具: 構造方程式モデル
• 因果構造探索における最近の発展
– 非ガウス性の利用は、因果構造の同定に役立つ
– 非ガウスデータは多くの応用分野で見られる
– 非ガウス性を用いるアプローチは有望な選択肢の一つ
• プログラムや論文: http://www.ar.sanken.osaka-
u.ac.jp/~sshimizu/lingampapers.html
129
130. 因果推論に関するレビュー
• 因果推論全般
– J. Pearl. Causal inference in statistics: An overview. Statistics Surveys
3: 96--146, 2009.
• 因果構造探索
– P. Spirtes, C. Glymour, R. Scheines, and R. E. Tillman. Automated
search for causal relations: Theory and practice. In Heuristics,
Probability, and Causality, College Publications, pp. 467-506, 2010.
• 因果構造探索法の応用(生命科学・社会科学)
– 脳: S. M. Smith. The future of FMRI connectivity. NeuroImage 62(2):
1257--1266, 2012.
– 遺伝子: P. Bühlmann. Causal statistical inference in high dimensions.
Mathematical Methods of Operations Research, 2012. In press.
– 経済: A. Moneta, N. Chlaß, D. Entner, and P. O. Hoyer. Causal search in
structural vector autoregressive models. In JMLR Workshop and
Conference Proceedings, Causality in Time Series, 12: 95-118, 2011.
• ソフトウェア(無料): TETRAD (http://www.phil.cmu.edu/projects/tetrad/).
130