Mais conteúdo relacionado
Semelhante a Jubatusで始める機械学習/セキュリティと機械学習 (20)
Mais de Preferred Networks (20)
Jubatusで始める機械学習/セキュリティと機械学習
- 2. 自己紹介
柏原 秀蔵 (@suma90h)
Jubatus 中の人( 2012 年 5 月頃から参加)
JubatusOSS(github) のリリースマネジメント
アーキテクチャ設計など
専門
分散システム・システムプログラミング
セキュリティとの関わり
趣味で難読化、パッカー作成、マルウェア解析(最近はご無沙汰)
2005 年 セキュリティキャンプ参加 (2006 年チューター )
2008 〜 2010 年: 某セキュリティ会社にて製品開発
AVTokyo 2008, AVTokyo 2012 発表
2
- 3. アジェンダ
機械学習の導入(スキップ ? )
http://www.slideshare.net/pfi/
機械学習の理論と実践 など !
Jubatus
概要
分散の仕組み
分類器のアルゴリズム紹介
開発コミュニティ(中の人より)
セキュリティと機械学習への期待
3
- 6. セキュリティへの応用はこれから進む?
研究レベル
ウェブのストリームからの攻撃検知(特徴抽出)
マルウェアのクラスタリングや分類
プログラム実行ファイル (PE ヘッダ ) からの特徴抽出
データセット
DARPA データセット ( パケット ) ← 入手しやすい
日本国内 : MWS Dataset, CCC Dataset
Malware Analytics at Stream Rate: Higher Analyst Productivity and
Reduced Threat Exposure [Harold Jones, GFIRST 2012]
イギリス BAE System 社による IDS/IPS へ機械学習の適用例
- 7. セキュリティあるある
未知の攻撃 / マルウェアを発見したい!
ルールベースでは未知の物に対応できない
欠点:精度が高くても、誤検知は避けられない
– 99.9% の精度で、 10,000 件につき 1 件は誤検知する可能性
誤検知が増えても、人手で処理しきれない
ルールベースでも、人手が入るとそこがボトルネックになる
未知の物は人手で確認しないと判断がつかない・機械には無理・人間
でも判断に迷うことがある
問題設定や、トレードオフを見極める必要がある
誤検知が多いことを許容したシステム?
「誤検知からいかに未知のマルウェアを発見するか・受け身に回らな
いで攻めに転じるか」策?
7
- 8. 例:機械学習を用いた検出エンジン (IDS)
IDS に期待される要望
攻撃らしき怪しいデータを即座(リアルタイム)に検知したい
被害が出る前・広がる前に見つけたい。すぐに止めたい
機会学習と検索を用いた IDS
…でも誤検知は ?
1 回目の攻撃からすぐに防ぐというのは諦める
専門家が絶対に怪しいと感じるデータを 1 回発見できたとする
しかし未知のデータなので、単体では攻撃と断定できない!
– パケットを停止したときの被害 vs 攻撃を許したときの被害
では過去に、同じ IP アドレスから攻撃の予兆と断定できる痕跡が
あったとしたら? → 直感的には、どう考えてもアウト
攻撃者視点で考える: 1 分以内に、攻撃・侵入・機密データを流出
させる仕組みを仕掛ける。機密データを盗むまでに N 分以内で終わ
らせる → 無理ゲー
8
- 9. 例:機械学習と検索を用いた IDS
機械学習と検索によるアプローチ
ログには属性を付与し、後から追跡できるように蓄積する
データがくるたびに機械学習は用いる
蓄積したログから検索・集計し、それを元にアラートを出すか判断
判断手法
– 人手・ルールベース・機械学習
– 組み合わせは自由・集計結果を機械学習の特徴にしても良い
問題点
貯めたデータから即時に集計・検索するのは困難
→ ここで Preferred Infrastructure の Sedue( 次スライドへ )
9
- 10. セキュリティとビッグデータ
ビッグデータ /Hadoop/ 他 , 製品群
ストレージ屋さんが儲けている雰囲気?
頑張って Hadoop 使わなくても実現できることは多い
採用事例が増えるほど、デファクトスタンダードとなった
企業・ OSS コミュニティ(エコシステム)の成熟
SIEM(Security Information and Event Management)
よくわかりません><
貯まったデータをどう扱うか
大規模なログデータから、即座に検索・集計するのは難しい
→ 解析ソリューション「 Sedue for BigData 」
Preferred Infrastructure までお問い合わせを
10
- 12. コンテストを考える
Poisoning Attacks against Support Vector Machines (Biggio+)
機械学習の精度を落とすようなデータを学習させる
解説: ICML2012 読み会で発表しました && SVM の性能をガタ落
ちさせるためには - kisa12012 の日記
http://d.hatena.ne.jp/kisa12012/20120728/1343486425
( 「 ICML 機械学習 攻撃」 などで検索)
コンテスト競技者への攻撃するのに使えるかも
機械学習の普及とどうなるか?
12