SlideShare uma empresa Scribd logo
1 de 21
FRaC: A Feature-Modeling Appraoch for Semi-Supervised and
Unsupervised Anomaly Detection.
Anomaly Detection Using an Ensemble of Feature Models.
FRaC: Feature Regression and Classification
20130318
Statistical Method Journal
Result
UCI machine learning repository
Rにも数多く収録されているデータセットの
図書館 iris
R has many data set from this library such as
data(iris).
FRaCを用いた学習が一番いい性能である場
合が多かった。
The number of the situations where FRaC was
the best performance method.
機械学習 Machine learning
手元のデータ(訓練データ)からパターンを抽
出し、新たなデータ(テストデータ)の回帰・
分類をすること。
To extract patterns from existed data (train) and
perform regression or classification of new data
(test).
教師 (あり / 半あり / なし) 学習
Supervised / Semi-supervised / Unsupervised ML
教師あり学習 Supervised ML
真偽のラベルがわかるtrainで学習する
Learning from train data whose labels T/F are known.
半教師あり学習 Semi-supervised ML
真偽の片方のラベルだけがあるtrainで学習する
Learning from train data whose labels are either only T/F.
教師なし学習 Unsupervised ML
真偽のラベルがわからないtrainで学習する
Learning from train data whose labels T/F are unknown.
Anomaly detection
手法 algorithm
距離 distance-based
SVM Support Vector Machine
K-nearest neighbor
K-means clustering
密度 density-based
LOF Local Outlier Factor
他 etc
PCA Principal Component Analysis
Decision tree Random Forest
特徴 feature model approach
CFA Cross-Feature Analysis
FRaC Feature Regression and Classification
オススメ!! Recommend!!
Example data set
n Dimension vector → one anomaly score
[1,] 69.613 129.070 52.111 → a1
[2,] 70.670 128.161 52.446 → a2
[3,] 72.303 128.450 52.853 → a3
…
SVM Support Vector Machine
超平面を引き、各点との距離を最大化す
る。
Make hyperplane to maximize distance from
each data point.
SVM Support Vector Machine
kernlab, e1071
教師なし学習なら、超平面
をひいたときに最も離れて
いる点をスコア化する(と思
う)。
On unsupervised ML, we
quantify the distance from the
hyperplane as anomaly score.
SVM classification
何も考えずに分類したと
するとこうなる。たぶん
半分がT/Fと勝手に設定
されている。
If we classify the test data
as default settings, result is
like this. The half of data
are T/F.
Kernel? Tuning?
K-nearest neighbor
FNN
ある点に近いk個の点と
の距離を考える。
Compute the distance from
k points around a certain
point.
K-means clustering
kmeans
K個のクラスターを作る。
似ているものを集めるの
で、厳密には外れ値検出
ではない。
Make k clusters. Clustering is
a method gathering looking-
same samples. This is not
anomaly detection.
主成分分析 PCA Principal Component Analysis
prcomp
もとの変数を相関のない別の
変数にする手続き。
an orthogonal transformation
to convert a set of observations
of possibly correlated variables
into a set of values of linearly
uncorrelated variables.
決定木 decision tree
分岐した図。
maps observations about
an item to conclusions
about the item's target
value.
Random Forest
randomForest
決定木をたくさん作る分類器
A classifier to make many
decision trees.
LOF Local Outlier Factor
Rlof
ある点のまわりMinPts個の点の密度を計算する。
Compute the density of MinPts points around a
certain point.
MinPts = 3
LOF Local Outlier Factor
MinPts = 3
1 付近は同一集団
Nomal data are around 1.
Anomaly scoreが大きいと外れ値
しかし閾値はわからない
Anomal data has large anomaly score
but threshold is unknown.
Feature model approach
色々な外れ値検出法から算出されるanomaly
scoreを利用する(?)
Combine many anomaly scores computed from
other anomaly detection analysis (?).
CFA Cross-Feature Analysis (?)
FRaC Feature Regression and Classification
n Dimension vector → one anomaly score
[1,] 69.613 129.070 52.111 → a1
[2,] 70.670 128.161 52.446 → a2
[3,] 72.303 128.450 52.853 → a3
…
尺度でも連続値でもいい
Nominal or continuous
i 番目を他のデータで予測する
Prdict ith data from the others
p番目の予測モデルでの特徴(?) predictor of type
実データと予測との誤差 The total error of a test set
nominal
continuous
Anomaly score
FRaC
色々な手法をパクるのが一番精度がいい(黒)
Decision tree, SVM, decision stump
SVM
LOF
KNN

Mais conteúdo relacionado

Destaque

切らない巻き爪・陥入爪治療 【動画無し】
切らない巻き爪・陥入爪治療 【動画無し】切らない巻き爪・陥入爪治療 【動画無し】
切らない巻き爪・陥入爪治療 【動画無し】Akinari Moriya
 
公立昭和病院25年度講演会 第1回:あなたは何が分からなくて何を知りたいのか?:公開版
公立昭和病院25年度講演会 第1回:あなたは何が分からなくて何を知りたいのか?:公開版公立昭和病院25年度講演会 第1回:あなたは何が分からなくて何を知りたいのか?:公開版
公立昭和病院25年度講演会 第1回:あなたは何が分からなくて何を知りたいのか?:公開版Akinari Moriya
 
倉敷中央病院 救命救急センター 救急統計2013 2014
倉敷中央病院 救命救急センター 救急統計2013 2014倉敷中央病院 救命救急センター 救急統計2013 2014
倉敷中央病院 救命救急センター 救急統計2013 2014敏雄 福岡
 
Anomaly Detection Using Isolation Forests
Anomaly Detection Using Isolation ForestsAnomaly Detection Using Isolation Forests
Anomaly Detection Using Isolation ForestsTuri, Inc.
 
臨床医からみた医学統計
臨床医からみた医学統計臨床医からみた医学統計
臨床医からみた医学統計Noriyuki Katsumata
 
不均衡データのクラス分類
不均衡データのクラス分類不均衡データのクラス分類
不均衡データのクラス分類Shintaro Fukushima
 

Destaque (8)

切らない巻き爪・陥入爪治療 【動画無し】
切らない巻き爪・陥入爪治療 【動画無し】切らない巻き爪・陥入爪治療 【動画無し】
切らない巻き爪・陥入爪治療 【動画無し】
 
公立昭和病院25年度講演会 第1回:あなたは何が分からなくて何を知りたいのか?:公開版
公立昭和病院25年度講演会 第1回:あなたは何が分からなくて何を知りたいのか?:公開版公立昭和病院25年度講演会 第1回:あなたは何が分からなくて何を知りたいのか?:公開版
公立昭和病院25年度講演会 第1回:あなたは何が分からなくて何を知りたいのか?:公開版
 
L14. Anomaly Detection
L14. Anomaly DetectionL14. Anomaly Detection
L14. Anomaly Detection
 
倉敷中央病院 救命救急センター 救急統計2013 2014
倉敷中央病院 救命救急センター 救急統計2013 2014倉敷中央病院 救命救急センター 救急統計2013 2014
倉敷中央病院 救命救急センター 救急統計2013 2014
 
Anomaly Detection Using Isolation Forests
Anomaly Detection Using Isolation ForestsAnomaly Detection Using Isolation Forests
Anomaly Detection Using Isolation Forests
 
外れ値
外れ値外れ値
外れ値
 
臨床医からみた医学統計
臨床医からみた医学統計臨床医からみた医学統計
臨床医からみた医学統計
 
不均衡データのクラス分類
不均衡データのクラス分類不均衡データのクラス分類
不均衡データのクラス分類
 

Mais de Med_KU

20160730tokyor55
20160730tokyor5520160730tokyor55
20160730tokyor55Med_KU
 
20151205japanr
20151205japanr20151205japanr
20151205japanrMed_KU
 
20140308 第四回 ニコニコ学会β データ研究会 アニメ・声優・二次創作における百合ネットワーク
20140308 第四回 ニコニコ学会β データ研究会 アニメ・声優・二次創作における百合ネットワーク20140308 第四回 ニコニコ学会β データ研究会 アニメ・声優・二次創作における百合ネットワーク
20140308 第四回 ニコニコ学会β データ研究会 アニメ・声優・二次創作における百合ネットワークMed_KU
 
20131216 Stat Journal
20131216 Stat Journal20131216 Stat Journal
20131216 Stat JournalMed_KU
 
20131207 Japan.R#4 LT
20131207 Japan.R#4 LT20131207 Japan.R#4 LT
20131207 Japan.R#4 LTMed_KU
 
20131110 第3回ニコニコ学会β データ研究会
20131110 第3回ニコニコ学会β データ研究会20131110 第3回ニコニコ学会β データ研究会
20131110 第3回ニコニコ学会β データ研究会Med_KU
 
20131109 TokyoR#35 Rでネットワーク解析とGIS
20131109 TokyoR#35 Rでネットワーク解析とGIS20131109 TokyoR#35 Rでネットワーク解析とGIS
20131109 TokyoR#35 Rでネットワーク解析とGISMed_KU
 
20131019 生物物理若手 Journal Club
20131019 生物物理若手 Journal Club20131019 生物物理若手 Journal Club
20131019 生物物理若手 Journal ClubMed_KU
 
20131011 KashiwaR#9
20131011 KashiwaR#920131011 KashiwaR#9
20131011 KashiwaR#9Med_KU
 
20121120 検査と臨床判断
20121120 検査と臨床判断20121120 検査と臨床判断
20121120 検査と臨床判断Med_KU
 
20130701 統計論文勉強会 遺伝的差異の定量的解析法
20130701 統計論文勉強会 遺伝的差異の定量的解析法20130701 統計論文勉強会 遺伝的差異の定量的解析法
20130701 統計論文勉強会 遺伝的差異の定量的解析法Med_KU
 
20130609 アイドルマスター解析
20130609 アイドルマスター解析20130609 アイドルマスター解析
20130609 アイドルマスター解析Med_KU
 
20130201 脳神経外科 脳腫瘍の浸潤数理モデル
20130201 脳神経外科 脳腫瘍の浸潤数理モデル20130201 脳神経外科 脳腫瘍の浸潤数理モデル
20130201 脳神経外科 脳腫瘍の浸潤数理モデルMed_KU
 
20130609 Wako.R トピックモデルを用いたボーカロイド楽曲の流行解析
20130609 Wako.R トピックモデルを用いたボーカロイド楽曲の流行解析20130609 Wako.R トピックモデルを用いたボーカロイド楽曲の流行解析
20130609 Wako.R トピックモデルを用いたボーカロイド楽曲の流行解析Med_KU
 
20130608 Kashiwa.R#8 Rでプロット
20130608 Kashiwa.R#8 Rでプロット20130608 Kashiwa.R#8 Rでプロット
20130608 Kashiwa.R#8 RでプロットMed_KU
 
20130220 Kashiwa.R#6
20130220 Kashiwa.R#620130220 Kashiwa.R#6
20130220 Kashiwa.R#6Med_KU
 
20121210 統計論文勉強会
20121210 統計論文勉強会20121210 統計論文勉強会
20121210 統計論文勉強会Med_KU
 
20121130 Kashiwa.R#5
20121130 Kashiwa.R#520121130 Kashiwa.R#5
20121130 Kashiwa.R#5Med_KU
 
20130727niconico
20130727niconico20130727niconico
20130727niconicoMed_KU
 
20130727niconicoLT
20130727niconicoLT20130727niconicoLT
20130727niconicoLTMed_KU
 

Mais de Med_KU (20)

20160730tokyor55
20160730tokyor5520160730tokyor55
20160730tokyor55
 
20151205japanr
20151205japanr20151205japanr
20151205japanr
 
20140308 第四回 ニコニコ学会β データ研究会 アニメ・声優・二次創作における百合ネットワーク
20140308 第四回 ニコニコ学会β データ研究会 アニメ・声優・二次創作における百合ネットワーク20140308 第四回 ニコニコ学会β データ研究会 アニメ・声優・二次創作における百合ネットワーク
20140308 第四回 ニコニコ学会β データ研究会 アニメ・声優・二次創作における百合ネットワーク
 
20131216 Stat Journal
20131216 Stat Journal20131216 Stat Journal
20131216 Stat Journal
 
20131207 Japan.R#4 LT
20131207 Japan.R#4 LT20131207 Japan.R#4 LT
20131207 Japan.R#4 LT
 
20131110 第3回ニコニコ学会β データ研究会
20131110 第3回ニコニコ学会β データ研究会20131110 第3回ニコニコ学会β データ研究会
20131110 第3回ニコニコ学会β データ研究会
 
20131109 TokyoR#35 Rでネットワーク解析とGIS
20131109 TokyoR#35 Rでネットワーク解析とGIS20131109 TokyoR#35 Rでネットワーク解析とGIS
20131109 TokyoR#35 Rでネットワーク解析とGIS
 
20131019 生物物理若手 Journal Club
20131019 生物物理若手 Journal Club20131019 生物物理若手 Journal Club
20131019 生物物理若手 Journal Club
 
20131011 KashiwaR#9
20131011 KashiwaR#920131011 KashiwaR#9
20131011 KashiwaR#9
 
20121120 検査と臨床判断
20121120 検査と臨床判断20121120 検査と臨床判断
20121120 検査と臨床判断
 
20130701 統計論文勉強会 遺伝的差異の定量的解析法
20130701 統計論文勉強会 遺伝的差異の定量的解析法20130701 統計論文勉強会 遺伝的差異の定量的解析法
20130701 統計論文勉強会 遺伝的差異の定量的解析法
 
20130609 アイドルマスター解析
20130609 アイドルマスター解析20130609 アイドルマスター解析
20130609 アイドルマスター解析
 
20130201 脳神経外科 脳腫瘍の浸潤数理モデル
20130201 脳神経外科 脳腫瘍の浸潤数理モデル20130201 脳神経外科 脳腫瘍の浸潤数理モデル
20130201 脳神経外科 脳腫瘍の浸潤数理モデル
 
20130609 Wako.R トピックモデルを用いたボーカロイド楽曲の流行解析
20130609 Wako.R トピックモデルを用いたボーカロイド楽曲の流行解析20130609 Wako.R トピックモデルを用いたボーカロイド楽曲の流行解析
20130609 Wako.R トピックモデルを用いたボーカロイド楽曲の流行解析
 
20130608 Kashiwa.R#8 Rでプロット
20130608 Kashiwa.R#8 Rでプロット20130608 Kashiwa.R#8 Rでプロット
20130608 Kashiwa.R#8 Rでプロット
 
20130220 Kashiwa.R#6
20130220 Kashiwa.R#620130220 Kashiwa.R#6
20130220 Kashiwa.R#6
 
20121210 統計論文勉強会
20121210 統計論文勉強会20121210 統計論文勉強会
20121210 統計論文勉強会
 
20121130 Kashiwa.R#5
20121130 Kashiwa.R#520121130 Kashiwa.R#5
20121130 Kashiwa.R#5
 
20130727niconico
20130727niconico20130727niconico
20130727niconico
 
20130727niconicoLT
20130727niconicoLT20130727niconicoLT
20130727niconicoLT
 

20130318 統計手法勉強会 外れ値検出 FRaC