Jubatusで始める機械学習／セキュリティと機械学習

Jubatus で始める機械学習
と
そのアルゴリズム
株式会社 Preferred Infrastructure 柏原秀蔵
2013 年 6 月 28 日
〜 Jubatus の使い方は説明しません〜

自己紹介
 柏原秀蔵 (@suma90h) 　　　
 Jubatus 中の人（ 2012 年 5 月頃から参加）
 JubatusOSS(github) のリリースマネジメント
 アーキテクチャ設計など
 専門
 分散システム・システムプログラミング
 セキュリティとの関わり
 趣味で難読化、パッカー作成、マルウェア解析（最近はご無沙汰）
 2005 年セキュリティキャンプ参加 (2006 年チューター )
 2008 〜 2010 年：某セキュリティ会社にて製品開発
 AVTokyo 2008, AVTokyo 2012 発表
2

アジェンダ
 機械学習の導入（スキップ ? ）
 http://www.slideshare.net/pfi/
 機械学習の理論と実践など !
 Jubatus
 概要
 分散の仕組み
 分類器のアルゴリズム紹介
 開発コミュニティ（中の人より）
 セキュリティと機械学習への期待
3

機械学習とセキュリティ
4

セキュリティに対する期待
 製品化・実用化はあまり進んでいない？
 機械学習とセキュリティに関する研究も見かける
 ただ、製品・実運用で耐えうるレベルへ活用しきれていない印象
 参入のチャンス！
 セキュリティ以外の事例
 自然言語処理の分野は、機械学習によって既存研究・製品が荒らさ
れたらしい
 これからセキュリティにも波がきてもおかしくない！
5

セキュリティへの応用はこれから進む？
 研究レベル
 ウェブのストリームからの攻撃検知（特徴抽出）
 マルウェアのクラスタリングや分類
 プログラム実行ファイル (PE ヘッダ ) からの特徴抽出
 データセット

DARPA データセット ( パケット ) ← 入手しやすい

日本国内 : MWS Dataset, CCC Dataset
 Malware Analytics at Stream Rate: Higher Analyst Productivity and
Reduced Threat Exposure [Harold Jones, GFIRST 2012]

イギリス BAE System 社による IDS/IPS へ機械学習の適用例

セキュリティあるある
 未知の攻撃 / マルウェアを発見したい！

ルールベースでは未知の物に対応できない

欠点：精度が高くても、誤検知は避けられない
– 99.9% の精度で、 10,000 件につき 1 件は誤検知する可能性
 誤検知が増えても、人手で処理しきれない
 ルールベースでも、人手が入るとそこがボトルネックになる

未知の物は人手で確認しないと判断がつかない・機械には無理・人間
でも判断に迷うことがある

問題設定や、トレードオフを見極める必要がある

誤検知が多いことを許容したシステム？

「誤検知からいかに未知のマルウェアを発見するか・受け身に回らな
いで攻めに転じるか」策？
7

例：機械学習を用いた検出エンジン (IDS)
 IDS に期待される要望
 攻撃らしき怪しいデータを即座（リアルタイム）に検知したい
 被害が出る前・広がる前に見つけたい。すぐに止めたい
 機会学習と検索を用いた IDS
 …でも誤検知は ?
 1 回目の攻撃からすぐに防ぐというのは諦める

専門家が絶対に怪しいと感じるデータを 1 回発見できたとする

しかし未知のデータなので、単体では攻撃と断定できない！
– パケットを停止したときの被害 vs 攻撃を許したときの被害

では過去に、同じ IP アドレスから攻撃の予兆と断定できる痕跡が
あったとしたら？ → 直感的には、どう考えてもアウト
 攻撃者視点で考える： 1 分以内に、攻撃・侵入・機密データを流出
させる仕組みを仕掛ける。機密データを盗むまでに N 分以内で終わ
らせる　→　無理ゲー
8

例：機械学習と検索を用いた IDS
 機械学習と検索によるアプローチ
 ログには属性を付与し、後から追跡できるように蓄積する
 データがくるたびに機械学習は用いる

蓄積したログから検索・集計し、それを元にアラートを出すか判断

判断手法
– 人手・ルールベース・機械学習
– 組み合わせは自由・集計結果を機械学習の特徴にしても良い
 問題点

貯めたデータから即時に集計・検索するのは困難

→ ここで Preferred Infrastructure の Sedue( 次スライドへ )
9

セキュリティとビッグデータ
 ビッグデータ /Hadoop/ 他 , 製品群
 ストレージ屋さんが儲けている雰囲気？
 頑張って Hadoop 使わなくても実現できることは多い

採用事例が増えるほど、デファクトスタンダードとなった

企業・ OSS コミュニティ（エコシステム）の成熟
 SIEM(Security Information and Event Management)
 よくわかりません＞＜
 貯まったデータをどう扱うか
 大規模なログデータから、即座に検索・集計するのは難しい
 → 解析ソリューション「 Sedue for BigData 」

Preferred Infrastructure までお問い合わせを
10

まとめ：頑張ればセキュリティでも実用化できそう
 機械学習とセキュリティには期待！
 セキュリティで実用化するには、工夫が必要
 何かの制約を捨てて、別のパフォーマンスを最大化する案
 時系列
 精度（検出率）が高い・低いだけの問題ではない

矛と盾のいたちごっこにおいて、効率的に盾を新調するには？

21 世紀だけどあと何年、人が張り付くことになるの？ (´д ｀ )
 セキュリティって、コンピュータ技術で解決できる範囲は狭い
 『セキュリティはなぜ破られたのか』ブルース・シュナイアー
 とはいえ、コンピュータへの攻撃がある以上は、防ぎたい

コンテストを考える
 Poisoning Attacks against Support Vector Machines (Biggio+)
 機械学習の精度を落とすようなデータを学習させる
 解説： ICML2012 読み会で発表しました && SVM の性能をガタ落
ちさせるためには - kisa12012 の日記
 http://d.hatena.ne.jp/kisa12012/20120728/1343486425
 ( 「 ICML 機械学習攻撃」などで検索）
 コンテスト競技者への攻撃するのに使えるかも
 機械学習の普及とどうなるか？
12

Jubatusで始める機械学習／セキュリティと機械学習

Recomendados

Recomendados

Mais conteúdo relacionado

Semelhante a Jubatusで始める機械学習／セキュリティと機械学習

Semelhante a Jubatusで始める機械学習／セキュリティと機械学習 (20)

Mais de Preferred Networks

Mais de Preferred Networks (20)

Último

Último (7)

Jubatusで始める機械学習／セキュリティと機械学習