SlideShare uma empresa Scribd logo
1 de 21
Baixar para ler offline
2015/09/05 WACODE 2nd
〜そのままでは使いづらい
非線形データの次元圧縮〜
@nakaneko143
非線形データ
https://en.wikipedia.org/wiki/Manifold
「そのままでは使いづらいデータの解析」
非線形データの次元圧縮
…について理解を深めたい
(今回のテーマ)
現実のデータは非線形が多い
https://tamosblog.wordpress.com/2015/01/09/sig
nal_processing_by_r/
気象データ (気象庁 降水確率) 音声データ (音の信号波形)
http://www.nikkei.com/markets/chart/#!/0101
金融データ (日経平均株価)
生体データ
(時系列の
発現変動)
http://bi.biopapyrus.net/transcriptome/de-
analysis/examples/masigpro.html
非線形とはどういうことか
• 線形ではないデータ
– 線形の性質をもたない→色々と使いにくい
• 直線に当てはめることができない
• ユークリッド空間の定義はあてはまらない
https://ja.wikipedia.org/wiki/%E3%83%A6%E3%83%
BC%E3%82%AF%E3%83%AA%E3%83%83%E3%83
%89%E7%A9%BA%E9%96%93
• ユークリッド平面の点は、二次元の
座標ベクトルに対応する。
• 平面上の平行移動は、ベクトルの加法に
対応する。
• 回転を定義する角度や距離は、
内積から導かれる。
次元の呪いへの対策
• 高次元空間の対象を扱う場合の問題
– クラスタリング
• 球面集中現象
– 超高次元空間の点は、ほぼ球殻に集中
• 高次元になるほどデータ間の距離が離れていく
– モデル推定
• 高次元=説明変数が多い
• パラメータ最適化問題の複雑化
→次元圧縮
主成分分析(PCA)
• データを高次元ベクトル空間から、
重要な特徴を表現する低次元空間に縮約
• →分散共分散行列Sの固有値問題でok
http://stats.stackexchange.com/questions/2691/making-sense-of-principal-
component-analysis-eigenvectors-eigenvalues
• 2次元データxiを1次元軸へ射影
• 分散を最大化する係数μをもとめ
る
• Sは共分散行列
• ラグランジュの未定数乗法より
y = mT
xi
1
N
mT
(xn - x){ }
2
= mT
Sm
n=1
N
å
Sm = lm
非線形ではうまくいかない
cell1 cell2 ・・ ・・ cell95
gene1 6.8 0 3.6
gene2 31 4 53
:
:
gene
53781
90 44 2
PCAはデータの線形性に基づいて軸をとっている
Quartz-Seq (53781gene*95cell)
非線形のための次元圧縮法
L.J.P.van der Maaten, E.O.Postma, H.J.van den Herik
"Dimensionality reduction: A comparative review" (2008)
比較的メジャーなもの
非線形データの次元圧縮
カーネル主成分分析で
手法同士の関係性を見てみる
カーネル主成分分析(PCA)
• カーネル法
– データを高次元の特徴空間に写像する手法
• カーネルPCA
– 固有値問題はPCAと共通
– 共分散行列Sが、特徴空間の内積行列K
(カーネル関数値)に置き換えられた
http://www.murata.eb.waseda.ac.jp/researches/kernel
xi
xj
F
特徴写像
F(xi )
F(xj )
★内積計算は
カーネル関数で評価
F(xi ),F(xj )
= k(xi, xj )
MDS (多次元尺度構成法)
空間内の点同士の距離から
距離行列を作る。
2重中心化で内積行列Gを構成し、
固有値分解して多次元座標を得る。
Isomap
多様体上の点同士の測地距離を
K近傍グラフを用いて近似し、
距離行列を作る。以降はMDS。
距離からカーネルの値を計算して
内積行列Kを再構成すると、
カーネルPCAになる。
LLE(局所線形埋め込み)
多様体の点xの近傍点を決め、
各点との距離の最小化問題を
重みWについて解く。
得られた線形式を繋ぐ式の解は
最終的に行列Wの固有値問題に
帰着する。行列Wがカーネル関数
の場合は、カーネルPCAになる。
ラプラシアン固有マップ
近傍グラフを構成し、頂点同士の
類似度K行列をガウスカーネルで
構成し、距離の最小化問題を解く。
グラフラプラシアン行列L=D-K
(D:Kのrowsum)を導入。
固有値分解すると、
カーネルPCAの固有値問題に
Dが補正値としてかかる式になる。
拡散マップ
近傍グラフを構成し、頂点同士の
遷移確率行列をガウスカーネルで
構成する。拡散距離を、点同士の
推移確率で定義する。
グラフラプラシアン行列L=D-Kの
正規化行列L’ の固有値問題を解く。
固有ベクトルで推移確率行列を
再構成し、低次元空間の
拡散距離を得る。
内積行列がカーネルか否か
カーネルPCA
特徴空間内の点同士の内積行列を
元のデータから得られた
カーネル関数値で構成し、
PCAと同様に固有値問題を解く。
多様体学習への適用
距離行列の
作り方が
異なる
結果的に
カーネルPCAと
等しくなる
拡張
拡張(拡散距離)
非線形の次元圧縮まとめ
距離分布の
KL情報量最小化
RNA-Seqデータでの比較
• 比較手法
– PCA : prcomp
– カーネルPCA : kernlab::kpca
– 拡散マップ : destiny(Haghverdi L et. al, Bioinformatics. 2015)
• テストデータ(Single-Cell)
– 弊ラボにてscRNA-Seq → Sailfishで
発現定量を行った277細胞
– G1期、S期、G2M期からなる
– edgeR::TMMにて正規化
PCA (PC1, PC2, PC3)
PC1/PC2
PC1/PC3
PC2/PC3
カーネルPCA (X2 vs X3)
軸は固定(第二,第三) ガウスカーネルのσを振った結果
→パラメータの影響をうけやすい、PCAよりやや分離が悪い
拡散マップ (DC2 vs DC3)
軸は固定(第二,第三) ガウスカーネルのσを振った結果
→パラメータの影響にロバスト、PCAよりも良い分離
一細胞の次元圧縮について
大規模一細胞RNA-Seq
発現データの特徴量によるクラスタリング
– レアな細胞集団の検出
• 新たな制御機構や疾患の原因因子の特定
– 時系列変化、相互作用の特徴抽出
• 発生分化など、複雑な共振関係をもつ機構の解明
• 現状、PCA / t-SNE / 拡散マップ を
用途に応じて使い分けるのが良さそう
補足:グラフラプラシアン
• グラフの構造を行列で表現した対称行列
• 対角行列(ノードの次数) - 隣接行列(重み)
• 隣接行列は、1あるいはガウスカーネルで構成
• 固有値問題
argminmT
Lms.t.mT
Dm =1 Lm = lDm
対角行列が固有ベクトルにかかっている
→カーネルPCAよりも、分母σに影響をうけにくい
https://en.wikipedia.org/wiki/Laplacian_matrix
L = D-W
補足:Diffusion map
wij (xi, xj ) = exp(-
xi - xj
2
2s 2
)
pij (xi, xj ) =
wij xi, xj( )
di
)
d = rowsum = wij
j=1
N
å
固有値問題
Lrm
= D-1
W
重みつき近傍グラフ
遷移確率行列 拡散距離
低次元空間での拡散距離再構成
補足:t-SNE
低次元空間での点間の距離分布
P
Q
低次元空間のデータ点y
高次元空間での点間の距離分布
Journal of Machine Learning Research 9 (2008) 2579-2605

Mais conteúdo relacionado

Mais procurados

不均衡データのクラス分類
不均衡データのクラス分類不均衡データのクラス分類
不均衡データのクラス分類
Shintaro Fukushima
 
状態空間モデルの考え方・使い方 - TokyoR #38
状態空間モデルの考え方・使い方 - TokyoR #38状態空間モデルの考え方・使い方 - TokyoR #38
状態空間モデルの考え方・使い方 - TokyoR #38
horihorio
 

Mais procurados (20)

機械学習による統計的実験計画(ベイズ最適化を中心に)
機械学習による統計的実験計画(ベイズ最適化を中心に)機械学習による統計的実験計画(ベイズ最適化を中心に)
機械学習による統計的実験計画(ベイズ最適化を中心に)
 
不均衡データのクラス分類
不均衡データのクラス分類不均衡データのクラス分類
不均衡データのクラス分類
 
[DL輪読会]Recent Advances in Autoencoder-Based Representation Learning
[DL輪読会]Recent Advances in Autoencoder-Based Representation Learning[DL輪読会]Recent Advances in Autoencoder-Based Representation Learning
[DL輪読会]Recent Advances in Autoencoder-Based Representation Learning
 
機械学習モデルの判断根拠の説明
機械学習モデルの判断根拠の説明機械学習モデルの判断根拠の説明
機械学習モデルの判断根拠の説明
 
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
 
一般化線形モデル (GLM) & 一般化加法モデル(GAM)
一般化線形モデル (GLM) & 一般化加法モデル(GAM) 一般化線形モデル (GLM) & 一般化加法モデル(GAM)
一般化線形モデル (GLM) & 一般化加法モデル(GAM)
 
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
 
アンサンブル学習
アンサンブル学習アンサンブル学習
アンサンブル学習
 
cvpaper.challenge 研究効率化 Tips
cvpaper.challenge 研究効率化 Tipscvpaper.challenge 研究効率化 Tips
cvpaper.challenge 研究効率化 Tips
 
ベイズ統計学の概論的紹介
ベイズ統計学の概論的紹介ベイズ統計学の概論的紹介
ベイズ統計学の概論的紹介
 
マルコフ連鎖モンテカルロ法 (2/3はベイズ推定の話)
マルコフ連鎖モンテカルロ法 (2/3はベイズ推定の話)マルコフ連鎖モンテカルロ法 (2/3はベイズ推定の話)
マルコフ連鎖モンテカルロ法 (2/3はベイズ推定の話)
 
Granger因果による 時系列データの因果推定(因果フェス2015)
Granger因果による時系列データの因果推定(因果フェス2015)Granger因果による時系列データの因果推定(因果フェス2015)
Granger因果による 時系列データの因果推定(因果フェス2015)
 
CV分野におけるサーベイ方法
CV分野におけるサーベイ方法CV分野におけるサーベイ方法
CV分野におけるサーベイ方法
 
金融時系列のための深層t過程回帰モデル
金融時系列のための深層t過程回帰モデル金融時系列のための深層t過程回帰モデル
金融時系列のための深層t過程回帰モデル
 
グラフニューラルネットワークとグラフ組合せ問題
グラフニューラルネットワークとグラフ組合せ問題グラフニューラルネットワークとグラフ組合せ問題
グラフニューラルネットワークとグラフ組合せ問題
 
【DL輪読会】時系列予測 Transfomers の精度向上手法
【DL輪読会】時系列予測 Transfomers の精度向上手法【DL輪読会】時系列予測 Transfomers の精度向上手法
【DL輪読会】時系列予測 Transfomers の精度向上手法
 
深層学習の数理
深層学習の数理深層学習の数理
深層学習の数理
 
Prophet入門【Python編】Facebookの時系列予測ツール
Prophet入門【Python編】Facebookの時系列予測ツールProphet入門【Python編】Facebookの時系列予測ツール
Prophet入門【Python編】Facebookの時系列予測ツール
 
状態空間モデルの考え方・使い方 - TokyoR #38
状態空間モデルの考え方・使い方 - TokyoR #38状態空間モデルの考え方・使い方 - TokyoR #38
状態空間モデルの考え方・使い方 - TokyoR #38
 
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings  (EMNLP 2021)【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings  (EMNLP 2021)
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)
 

Destaque

Manifold learning with application to object recognition
Manifold learning with application to object recognitionManifold learning with application to object recognition
Manifold learning with application to object recognition
zukun
 
Dimension Reduction And Visualization Of Large High Dimensional Data Via Inte...
Dimension Reduction And Visualization Of Large High Dimensional Data Via Inte...Dimension Reduction And Visualization Of Large High Dimensional Data Via Inte...
Dimension Reduction And Visualization Of Large High Dimensional Data Via Inte...
wl820609
 
関東CV勉強会 Kernel PCA (2011.2.19)
関東CV勉強会 Kernel PCA (2011.2.19)関東CV勉強会 Kernel PCA (2011.2.19)
関東CV勉強会 Kernel PCA (2011.2.19)
Akisato Kimura
 

Destaque (12)

Topic Models
Topic ModelsTopic Models
Topic Models
 
Manifold learning with application to object recognition
Manifold learning with application to object recognitionManifold learning with application to object recognition
Manifold learning with application to object recognition
 
The Gaussian Process Latent Variable Model (GPLVM)
The Gaussian Process Latent Variable Model (GPLVM)The Gaussian Process Latent Variable Model (GPLVM)
The Gaussian Process Latent Variable Model (GPLVM)
 
Methods of Manifold Learning for Dimension Reduction of Large Data Sets
Methods of Manifold Learning for Dimension Reduction of Large Data SetsMethods of Manifold Learning for Dimension Reduction of Large Data Sets
Methods of Manifold Learning for Dimension Reduction of Large Data Sets
 
Dimension Reduction And Visualization Of Large High Dimensional Data Via Inte...
Dimension Reduction And Visualization Of Large High Dimensional Data Via Inte...Dimension Reduction And Visualization Of Large High Dimensional Data Via Inte...
Dimension Reduction And Visualization Of Large High Dimensional Data Via Inte...
 
関東CV勉強会 Kernel PCA (2011.2.19)
関東CV勉強会 Kernel PCA (2011.2.19)関東CV勉強会 Kernel PCA (2011.2.19)
関東CV勉強会 Kernel PCA (2011.2.19)
 
Self-organizing map
Self-organizing mapSelf-organizing map
Self-organizing map
 
[Kim+ ICML2012] Dirichlet Process with Mixed Random Measures : A Nonparametri...
[Kim+ ICML2012] Dirichlet Process with Mixed Random Measures : A Nonparametri...[Kim+ ICML2012] Dirichlet Process with Mixed Random Measures : A Nonparametri...
[Kim+ ICML2012] Dirichlet Process with Mixed Random Measures : A Nonparametri...
 
WSDM2016読み会 Collaborative Denoising Auto-Encoders for Top-N Recommender Systems
WSDM2016読み会 Collaborative Denoising Auto-Encoders for Top-N Recommender SystemsWSDM2016読み会 Collaborative Denoising Auto-Encoders for Top-N Recommender Systems
WSDM2016読み会 Collaborative Denoising Auto-Encoders for Top-N Recommender Systems
 
Visualizing Data Using t-SNE
Visualizing Data Using t-SNEVisualizing Data Using t-SNE
Visualizing Data Using t-SNE
 
AutoEncoderで特徴抽出
AutoEncoderで特徴抽出AutoEncoderで特徴抽出
AutoEncoderで特徴抽出
 
LDA入門
LDA入門LDA入門
LDA入門
 

非線形データの次元圧縮 150905 WACODE 2nd