Estimating Mutual Information for Discrete‐Continuous Mixtures 離散・連続混合の相互情報量の推定

Estimating Mutual Information for
Discrete‐Continuous Mixtures [Gao et al.
2017]
離散・連続混合の相互情報量の推定
高品佑也 NIPS2017読み会@PFN
1

自己紹介 @takashinayuya
所属: 早稲田大学確率的情報処理研究室 M1
研究: グラフィカルモデルの構造推定
インターン・その他:
サイボウズ・ラボユース 6&7 期
PyCon JP 2016&2017 スタッフ
2

相互情報量
次式で定義される相互情報量は，確率変数間の従属性の尺度．
I(X, Y ) ≡ log ,
ただし，⟨⋅⟩ は p(x) での期待値．以降対数の底は e とする．
特徴選択や独立成分分析など様々な応用がある．
⟨
p(x)p(y)
p(x, y)
⟩
p(x,y)
p(x)
3

離散・連続の相互情報量を知りたい
回帰や識別タスクで，特徴量に離散変数と連続変数がどちらも入
っており，その中から特徴選択したい場合がある．
例: ライフログから生活習慣病のリスクを予測
体重，身長，性別，年齢，睡眠時間，etc...
4

"混合"のされ方は色々
左: X が離散で Y が連続，右: 離散・連続の混合分布．
他にも，X, Y がベクトルで，その中に離散変数と連続変数が混ざ
っている場合などがある．今回紹介する手法 [Gao et al. 2017] は，
上記の全ての組み合わせに適用できる．
5

本発表の以降の流れ
先行手法 1: 3H estimator
先行手法 2: KSG estimator [Kraskov et al 2003]
離散連続混合の相互情報量 [Gao et al. 2017]
6

3H estimator
相互情報量を次式のようにエントロピーに分解し，各エントロピ
ーを個別に推定して代入．
I(X, Y ) = H(X) + H(Y ) − H(X, Y ).
X, Y が離散だったり，真の分布を知っていてエントロピーを解析
的に求められる場合はこれでも良いことはある．
7

3H estimator の問題点
個々のエントロピーの推定誤差が積み重なり，全体として誤差が
大きくなってしまうことがある．
解決策：エントロピーに分解せず，相互情報量を直接推定．
KSG estimator [Kraskov et al 2003]
Maximum likelihood mutual information [Suzuki et al 2008]
8

k 近傍法で確率密度を近似し，連続値の相互情報量を推定．
(X, Y ) ≡ ψ(k) + ψ(N) − ψ(n + 1) − ψ(n + 1) ,
ただし，ψ(⋅) は digamma 関数．また，i 番目の観測の k 近傍ま
での距離 ϵ /2 とすると，n は X において i 番目の観測から
ϵ /2 までの距離にある点の数． n についても同様．
また，Z = (X, Y ) のノルム ∥z∥ ≡ max{∥x∥, ∥y∥} とする．
I^
N
1
i=1
∑
N
( x,i y,i )
i x,i
i y,i
9

先ほどの相互情報量の近似式は次のように解釈できる:
実際には，3 行目の対数の中の分子・分母に同じ数がかかったもの
が確率密度．
I(X, Y ) ≡ log⟨
p(x)p(y)
p(x, y)
⟩
p(x,y)
≈ ψ(k) + ψ(N) − ψ(n + 1) − ψ(n + 1)
N
1
i=1
∑
N
( x,i y,i )
= log .
N
1
i=1
∑
N
⋅exp ψ(N)
exp ψ(n +1)x,i
exp ψ(N)
exp ψ(n +1)y,i
exp ψ(N)
exp ψ(k)
13

なお，ψ(N) = log(N) + O(1/N) なので，N が十分大きいと
仮定して，次式が使われることもある．
ただし，N → ∞ で n → ∞, n → ∞ ．
(X, Y )I^
≡ ψ(k) + log(N) − log(n + 1) − log(n + 1) ,
N
1
i=1
∑
N
( x,i y,i )
x,i y,i
14

離散連続混合の相互情報量 [Gao et al. 2017]
元々の KSG estimator から k を少しだけ変える．
つまり，k 近傍までの距離が 0 であれば ﴾i.e. その点では離散﴿ ，近
傍の数を同じ値の観測の数に置き換える．
上記の推定量が一致性があることを証明．
(X, Y )I^
≡ ψ(k ) + log(N) − log(n + 1) − log(n + 1) ,
N
1
i=1
∑
N
( i x,i y,i )
where k ≡i {
∣{j ∣ ∥z − z ∥ = 0, j ≠ i}∣,i j
k,
if ϵ = 0,i
otherwise.
15

実験 1: 相互情報量の近似
真の相互情報量が解析的に分かるデータに対して，提案手法と既
存手法の平均二乗誤差を比較．﴾黒が提案手法．﴿
16

実験 2: 特徴選択
人工データに関して，選ぶ特徴量の数を増やしながら特徴選択し
たときの ROC 曲線を比較．﴾黒が提案手法．﴿
17

実験 3: 遺伝子調節ネットワークの推定
人工の遺伝子調節ネットワークで，dropout（遺伝子があるのに観
測されないこと）があるときの AUC を比較．﴾黒が提案手法．﴿
18

追試
Iris の特徴量とラベルに関して相互情報量を計算 ﴾Gist﴿ ．
19

ラベルとの相互情報量が特に
大きい次元をプロット．識別
に使えそうな次元の相互情報
量が大きくなっている．
20

Appendix
KL estimator [Kozachenko & Leonenko 1987]
エントロピーを推定
KL estimator を利用して連続値の相互情報量を推定
21

KL estimator [Kozachenko & Leonenko 1987]
エントロピー H(X) を近似するために，確率変数 X ∈R が従う
分布 p(x) を k 近傍法を用いて近似:
p(x) ≡ ,
ただし，c は d 次元単位球の体積，ϵ/2 が k 近傍までの距離．
k 近傍法では，x に対して P を固定して ϵ だけを動かす．
d
c ϵd
d
Pk
d
k
22

≡ k/N とすれば一般的な k 近傍法による確率密度の近似だ
が，KL estimator では代わりに次式のように近似する．
= exp(ψ(k) − ψ(N)),
ただし，ψ(⋅) は digamma 関数．導出は [2] を参照．
P^k
Pk
^
23

したがって，確率密度は次式のように近似できる．
p(x) ≡ .
最終的にエントロピーの近似値は次式で得られる．
(X) = −ψ(k) + ψ(N) + log c + log ϵ .
c ϵd
d
exp(ψ(k) − ψ(N))
H^ d
N
d
i=1
∑
N
i
24

Z = (X, Y ) として，それぞれエントロピーを計算すると，
上式で，ϵ = ϵ = ϵ となるように H(X) と H(Y ) におけ
る k を取り直すことで，各式の最終項を打ち消す．
(X)H^
(Y )H^
(Z)H^
= ψ(k) − ψ(N) − log(c ) − log ϵ ,dx
N
dx
i=1
∑
N
x,i
= ψ(k) − ψ(N) − log(c ) − log ϵ ,dy
N
dy
i=1
∑
N
y,i
= ψ(k) − ψ(N) − log(c c ) − log ϵ .dx dy
N
d + dx y
i=1
∑
N
z,i
x,i y,i z,i
25

具体的には，ϵ を ϵ と揃えるため，近傍の数を，x から
ϵ /2 までの距離にある点の数 n を使って置き換える:
(X) = ψ(n + 1) − ψ(N) − log(c ) − log ϵ .
Y についても同様:
(Y ) = ψ(n + 1) − ψ(N) − log(c ) − log ϵ .
x,i z,i i
z,i x,i
H^
N
1
i=1
∑
N
x,i dx
N
dx
i=1
∑
N
z,i
H^
N
1
i=1
∑
N
y,i dy
N
dy
i=1
∑
N
z,i
26

改めて I(X, Y ) = H(X) + H(Y ) − H(X, Y ) に代入する
と，次式が得られる．
(X, Y ) ≡ ψ(k) + ψ(N) − ψ(n + 1) − ψ(n + 1) .I^
N
1
i=1
∑
N
( x,i y,i )
27

Reference
[1] Kozachenko, L. F., and Nikolai N. Leonenko. "Sample estimate of
the entropy of a random vector." Problemy Peredachi Informatsii
23.2 ﴾1987﴿: 9‐16.
[2] Kraskov, Alexander, Harald Stogbauer, and Peter Grassberger.
"Estimating mutual information." Physical review E 69.6 ﴾2004﴿:
066138.
[1] は KL estimator を提案した論文．ロシア語．
[2] は KSG estimator を提案した論文． KL estimator について
も説明されている．本資料の KL estimator の説明は，主にこ
の論文の記述に拠った．
28

[3] Gao, Weihao, et al. "Estimating mutual information for discrete‐
continuous mixtures." Advances in Neural Information Processing
Systems. 2017.
[4] Gao, Weihao, Sewoong Oh, and Pramod Viswanath.
"Demystifying fixed k‐nearest neighbor information estimators."
IEEE International Symposium on Information Theory ﴾ISIT﴿. 2017.
[3] は NIPS2017 で発表された離散・連続混合の相互情報量の
近似の論文．
[4] は [3] と同一の著者による KSG estimator のバイアスを改良
した論文．
29

Estimating Mutual Information for Discrete‐Continuous Mixtures 離散・連続混合の相互情報量の推定

Recomendados

Recomendados

Mais conteúdo relacionado

Mais procurados

Mais procurados (20)

Semelhante a Estimating Mutual Information for Discrete‐Continuous Mixtures 離散・連続混合の相互情報量の推定

Semelhante a Estimating Mutual Information for Discrete‐Continuous Mixtures 離散・連続混合の相互情報量の推定 (20)

Mais de Yuya Takashina

Mais de Yuya Takashina (6)

Estimating Mutual Information for Discrete‐Continuous Mixtures 離散・連続混合の相互情報量の推定