Mais conteúdo relacionado
非線形データの次元圧縮 150905 WACODE 2nd
- 5. 非線形とはどういうことか
• 線形ではないデータ
– 線形の性質をもたない→色々と使いにくい
• 直線に当てはめることができない
• ユークリッド空間の定義はあてはまらない
https://ja.wikipedia.org/wiki/%E3%83%A6%E3%83%
BC%E3%82%AF%E3%83%AA%E3%83%83%E3%83
%89%E7%A9%BA%E9%96%93
• ユークリッド平面の点は、二次元の
座標ベクトルに対応する。
• 平面上の平行移動は、ベクトルの加法に
対応する。
• 回転を定義する角度や距離は、
内積から導かれる。
- 8. 非線形ではうまくいかない
cell1 cell2 ・・ ・・ cell95
gene1 6.8 0 3.6
gene2 31 4 53
:
:
gene
53781
90 44 2
PCAはデータの線形性に基づいて軸をとっている
Quartz-Seq (53781gene*95cell)
- 11. カーネル主成分分析(PCA)
• カーネル法
– データを高次元の特徴空間に写像する手法
• カーネルPCA
– 固有値問題はPCAと共通
– 共分散行列Sが、特徴空間の内積行列K
(カーネル関数値)に置き換えられた
http://www.murata.eb.waseda.ac.jp/researches/kernel
xi
xj
F
特徴写像
F(xi )
F(xj )
★内積計算は
カーネル関数で評価
F(xi ),F(xj )
= k(xi, xj )
- 14. RNA-Seqデータでの比較
• 比較手法
– PCA : prcomp
– カーネルPCA : kernlab::kpca
– 拡散マップ : destiny(Haghverdi L et. al, Bioinformatics. 2015)
• テストデータ(Single-Cell)
– 弊ラボにてscRNA-Seq → Sailfishで
発現定量を行った277細胞
– G1期、S期、G2M期からなる
– edgeR::TMMにて正規化
- 16. カーネルPCA (X2 vs X3)
軸は固定(第二,第三) ガウスカーネルのσを振った結果
→パラメータの影響をうけやすい、PCAよりやや分離が悪い
- 17. 拡散マップ (DC2 vs DC3)
軸は固定(第二,第三) ガウスカーネルのσを振った結果
→パラメータの影響にロバスト、PCAよりも良い分離
- 20. 補足:Diffusion map
wij (xi, xj ) = exp(-
xi - xj
2
2s 2
)
pij (xi, xj ) =
wij xi, xj( )
di
)
d = rowsum = wij
j=1
N
å
固有値問題
Lrm
= D-1
W
重みつき近傍グラフ
遷移確率行列 拡散距離
低次元空間での拡散距離再構成