Mais conteúdo relacionado
Semelhante a [db tech showcase Tokyo 2015] D32:HPの全方位インメモリDB化に向けた取り組みとSAP HANAインメモリDB の効果を、SAP社とともに読み解く by 日本ヒューレット・パッカード株式会社 小森博之 (20)
Mais de Insight Technology, Inc. (20)
[db tech showcase Tokyo 2015] D32:HPの全方位インメモリDB化に向けた取り組みとSAP HANAインメモリDB の効果を、SAP社とともに読み解く by 日本ヒューレット・パッカード株式会社 小森博之
- 1. © Copyright 2014 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
~HPPresents:インメモリDBを見据えた、スケールアップへの回帰その1~
インメモリデータベースSAPHANA
を使ったデータ分析基盤性能検証
2015年6月12日
日本ヒューレット・パッカード株式会社
プリセールス統括本部 / ソリューションセンター
小森 博之
1
- 2. © Copyright 2015 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.2
データ分析環境の変化
データ量の爆発的増加
• サービスのネットワーク化
• あらゆる情報のデジタル化
• モバイル
• IoT
HPDA基盤
ビジネス環境
の変化
テクノロジの進歩
要求されるサービスの高度化
• 全数分析、フル・バリュエーション
• リアルタイム
• ダイレクトマーケティング
• 不正検知
• 高頻度金融取引
• ゲノム解析、パスウェイ
• パーソナライズケア
半導体技術の進歩
• メモリの大容量化、高速化
• メモリの低価格化
• CPUの高性能化
• CPUのマルチコア化
データ分析技術の進歩
• ベイズ統計学の進歩、深化
• 機械学習、ディープラーニング
• MCMC(マルコフ連鎖モンテカルロ法),
HMC(ハイブリッド・モンテカルロ法)
データベースの進歩
• インメモリデータベース
• 統計処理の実装
- 3. © Copyright 2015 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.3
サンプリング(標本抽出)が有効でない分野
データを1件ずつ分析する必要があるもの
• ダイレクト・マーケティング
• スマートメータ
• スマートカー
すべてのデータを分析する必要があるもの
• クレジットカードの不正検知
• マネーロンダリング取引の検知
• 不正アクセスの発見
個々の行動に基づくアクション
顧客属性に基づくアクション
社会的な要請
• 犯罪による収益の移転防止に関する法律
• 情報漏えい対策
大量のデータを高速に処理したい
• データベースから分析サーバーへのデータ転送時間の削減
• データベースのデータ読み込み時間の削減
• 計算時間の削減
- 4. © Copyright 2015 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.4
High Performance Data Analysis
High Performance Data Analysisで
今までできなかったことを可能にします!
データベースから分析サーバーへの
データ転送時間の削減
データベースのデータ読み込み時間の
削減
計算時間の削減
インメモリデータベース
大容量メモリ
マルチスレッドでの並列処理
多くのCPUコア
データベース内で分析処理
- 5. © Copyright 2015 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.5
High Performance Data Analysisアーキテクチャ
16CPU(240コア)
12TBメモリ
PAL
(Predictive Analysis Library)
多数のCPUコア
大容量メモリ
インメモリデータベース
DB内分析関数
分析手法
今までできなかったことを可能にする新しい取り組み
クラスタリング Clustering
クラス別け Classification
回帰分析 Regression
アソシエーション Association
時系列分析 Time Series
前処理用関数 Preprocessing
ソーシャルネットワーク分析
- 6. © Copyright 2015 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.6
SAP HANAの高速化テクノロジー
HW Technology
Innovations
SAP SW Technology
Innovations
パーティションニング
集計テーブルなし
読込、書込の最適化
+
+
+ +
圧縮
行およびカラムストア
+
マルチコア アーキテクチャ
大規模並列スケールアウト
64-bit アドレススペース
12TB メインメモリ
100GB/s データスループット
SAPのHWとSWの革新と融合により実現された
インメモリ・コンピューティング
SAPのインメモリ・コンピューティングが
もたらす主な効果
全てのデータをメモリ上に置くことでDISK I/Oボ
トルネックを解消
カラム単位とパーティショニング単位で並列処理
を行うことにより処理速度向上
カラム単位の圧縮によりメモリ
最適化によるデータ処理効率向上
集計テーブルが不要になることで
開発&運用面での工数削減
高圧縮率と高速書込、高速読込を同時に実現
カラムストア アーキテクチャー
HW&SW
HW&SW
SW
SW
SW
- 7. © Copyright 2015 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.7
ノード内での並列処理
パーティショニング
CPU
Core 1
CPU
Core 2
列 A
1306289
66380481
892
1803922
92
368899
3888
10638383
922
61830283
753836
388361811
730183
・
・
・
・
列 B
1083
32
839103875
38291050
883927
128037
903
658103875
7305817
130593827
10395303
578
40382
・
・
・
・
列 B
738593
4895
9382003
71
530183
57839
・
・
・
・
385730
63959
991
10
35830011
・
・
・
・
CPU
Core 3
CPU
Core 4
各CPUコアに列単位もしくは列内でデータを分割して処
理を割り当て、CPUコア毎に並列処理。コア数の多い
サーバーとの組み合わせで、高速の処理を実現します。
コア数
10
20
20142010
Xeon MP最大コア数の推移
- 8. © Copyright 2015 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.8
単なるデータベースを超えたプラットフォームへ
HANA Platform
SQL, SQL Script, JavaScript
インテグレーション・プロビジョニングサービス
地理空間
ビジネス関数
ライブラリ
サーチ
統計解析
ライブラリ
テキスト分析
データベース
機能
プロシージャ
データモデル
計画エンジン
アプリ・
UIサービス
ルールエンジン
トランザクション 非構造化 マシン Hadoop データベース リアルタイム アプリケーション
多様な
デバイス SQL MDX R JSON JDBC,ODBC
アプリケー
ション
SAP Business Suite
SAP HANA基盤は、データベース、データ処理とアプリケーション機能を統合。
予測統計、計画、テキスト、地理空間、統計解析などのライブラリを実装し、
リアルタイムなビジネスの遂行を実現しています。
- 9. © Copyright 2015 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.9
1.業界最大、16P/240C/12TB
2.業界最速、ベンチマーク世界記録を更新
信頼性
3.業界最高クラスの高可用性と高信頼性
4.SAP-HP協調、ワンストップサポート
HP ConvergedSystem 900 for SAP HANA
新しいデータベース基盤の台頭、遂にインメモリデータベースがITシステムの主役へ
OLTPとOLAPの共存
スケーラビリティ
真のリアルタイムビジネスの実現
- 10. © Copyright 2015 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.10
スケールアップX86サーバー HP Superdome X
異次元の拡張性
標準のOSで稼動サーバーを分割しての使用が可能
高信頼性を実現
Xeon E7 v2 16CPU, 240コア
12TBメモリ
データベース
データ分析
運用・管理
完全に電気的に分離され、
障害の影響を他に及ぼさ
ないパーティションに分
割することが可能。
標準のオペレーティングシステムをサポート
• Red Hat Enterprise Linux 6.5, 6.6, 7.1
• SUSE Linux Enterprise Server 11 SP3
• Windows Server 2012 R2
• VMWare vSphere 5.5Update 2
1点障害を極限まで減らしたハイエンドUNIX
サーバー譲りの高い信頼性
• 故障箇所のブート時自動切り離し
• クロック・ジェネレーターの冗長化
• DDDCによるメモリ保護
- 11. © Copyright 2015 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.11
Xeon E7プロセッサには QPIリンクが 3つ
何故 X86 16CPUサーバーが作れないのか?
コア コア
コア コア
メモリ
コア コア
コア コア
メモリ
コア コア
コア コア
メモリ
コア コア
コア コア
メモリ
どのCPU間もQPIで直接接続
4CPUサーバー 8CPUサーバー
コア コア
コア コア
メモリ
コア
メモリ
コア
コア コア
コア
メモリ
コア
コア コア
コア コア
コア コア
メモリ
コア コア
コア コア
メモリ
コア
メモリ
コア
コア コア
コア
メモリ
コア
コア コア
コア コア
コア コア
メモリ
QPIで直接接続さ
れていないCPU
ができてしまう
メモリアクセス
遅延
- 12. © Copyright 2015 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.12
驚異のスケーラビリティを実現するシステム間接続
Blade #1
XNC2 = HP 開発のノードコントローラー
Blade #2 Blade #3 Blade #4
sx3000 Xbar Fabric HP 開発の高速システム・インターコネクト
Blade #5
CPU ソケットごとに用意された大
容量のタグ・キャッシュ
Blade #6 Blade #7 Blade #8
各ブレード間を 1 HOP で接続 = 低レイテンシー
キャッシュ一貫性保持のための余計なトラフィッ
クを大幅に削減! 性能向上に貢献!
CPU
CPU
XNC2 XNC2 XNC2 XNC2
CPU CPU CPU CPU CPU CPU CPU
XNC2 XNC2 XNC2 XNC2
CPU CPU CPU CPU CPU CPU CPU
- 13. © Copyright 2015 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.13
Xeonサーバーのメモリ容量はCPU搭載数で決まる
Intel社資料 「Intel Xeon Processor E7 v2
2800/4800/8800 Product Family Datasheet –
Volume Two」より
CPU当り最大 24 DIMMを
実装可能
Superdome X 16CPUなら、
32GB x 24 x 16 = 12TB
を実装可能
- 14. © Copyright 2015 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.14
HP Superdome X の驚異のスケーラビリティ
Superdome X: 15-cores/socket scaling with SPECjbb2013-MultiJVM
18,980
37,553
71,766
139,471
259,778
74,631
142,514
269,987
526,229
1,010,123
0 200,000 400,000 600,000 800,000 1,000,000 1,200,000
1s / 15c /.25TB
SLES 11sp3
2s / 30c / .5TB
SLES 11sp3
4s / 60c / 1TB
SLES 11sp3
8s / 120c / 2TB
SLES 11sp3
16s / 240c / 4TB
SLES 11sp3
max-jOPS critical-jOPS
SPEC and the benchmark name SPECjbb are registered trademarks of the Standard Performance Evaluation Corporation (SPEC), see spec.org.
1s から2s で 1.91 倍 の性能向上
2s から 4s で 1.9倍 の性能向上
4s から 8s で 1.95倍 の性能向上
8s から 16s で 1.89倍 の性能向上
Configuration key: “s”: Socket count, “c”: Core count, “TB”: memory in TB
1s から 16s ま
で比類なきスケー
ラビリティ
- 15. © Copyright 2015 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.15
スケールアップの利点
スケールアップ スケールアウト
or
スケールアウト(並列分散処理)が苦手な処理
① データ分散と異なるキーでのデータ結合が必要な処理
• ノード間のネットワーク経由でのデータ移動が大量に発生するため遅い
• 処理内容を事前に予測し、データ配置を合わせておくことが必要
② 内部で大規模密行列計算が必要な処理 (クラスタリング、相関分析)
• スケールアウトでは単一の大規模なメモリ空間を確保できない
• 大規模単一メモリ空間
• サーバー内での多数ス
レッド処理
- 16. © Copyright 2015 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.16
スケールアウト(並列分散処理)が苦手な処理①
ネットワークを経由したデータ移動が大量に発生し、処理が遅延
サーバー1 口座情報 : 2,000万件
口座番号 (Hash分散)
トランザクション: 2億件
口座番号
取引日付(Hash分散)
トランザクション: 2億件
入出金口座番号(Hash分散)
取引日付
集計処理 : 2,000万件
口座番号
集計金額
サーバー2 口座情報 : 2,000万件
口座番号 (Hash分散)
トランザクション: 2億件
口座番号
取引日付(Hash分散)
トランザクション: 2億件
入出金口座番号(Hash分散)
取引日付
集計処理 : 2,000万件
口座番号
集計金額
サーバー3 口座情報 : 2,000万件
口座番号 (Hash分散)
トランザクション: 2億件
口座番号
取引日付(Hash分散)
トランザクション: 2億件
入出金口座番号(Hash分散)
取引日付
集計処理 : 2,000万件
入金口座番号
集計金額
集計処理 : 2,000万件
出金口座番号
集計金額
集計処理 : 2,000万件
入金口座番号
集計金額
集計処理 : 2,000万件
入金口座番号
集計金額
- 17. © Copyright 2015 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.17
スケールアウト(並列分散処理)が苦手な処理②
サーバー1
口座情報 : 2,000万件
口座番号 (Hash分散)
トランザクション: 2億件
口座番号(Hash分散)
取引日付
集計処理 : 2,000万件
口座番号
集計金額
サーバー2
口座情報 : 2,000万件
口座番号 (Hash分散)
トランザクション: 2億件
口座番号(Hash分散)
取引日付
集計処理 : 2,000万件
口座番号
集計金額
サーバー3
口座情報 : 2,000万件
口座番号 (Hash分散)
トランザクション: 2億件
口座番号(Hash分散)
取引日付
集計処理 : 2,000万件
口座番号
集計金額
分析用サーバー
大規模
密行列
スレッド1
口座情報 : 2,000万件
口座番号 (Hash分散)
トランザクション: 2億件
口座番号(Hash分散)
取引日付
集計処理 : 2,000万件
口座番号
集計金額
スレッド2
口座情報 : 2,000万件
口座番号 (Hash分散)
トランザクション: 2億件
口座番号(Hash分散)
取引日付
集計処理 : 2,000万件
口座番号
集計金額
スレッド3
口座情報 : 2,000万件
口座番号 (Hash分散)
トランザクション: 2億件
口座番号(Hash分散)
取引日付
集計処理 : 2,000万件
口座番号
集計金額
SuperdomeX
大規模
密行列
分析処理プロセス
単一の大規模メモリ空間を使用して大規模密行列を使ったデータ分析が可能
メモリ不足で
計算できない
重回帰分析やクラスタリングなどの分析処理で大規模密行列が必要になったときにメモリ不足で計算できない
- 18. © Copyright 2015 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
HighPerformanceDataAnalysis
性能検証
- 19. © Copyright 2015 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.19
検証内容
HP ConvergedSystem 900 for SAP HANA
Xeon E7-2890 v2 (2.8GHz, 15core) x 16
12TBメモリ
シナリオ1
銀行口座取引情報からマネー
ロンダリングを検知する
シナリオ2
スマートメータのデータから
電力使用パターンを見出す
16CPU(240コア)
12TBメモリ
- 20. © Copyright 2015 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.20
シナリオ1: 不正検知
マネーロンダリングの疑いがある取引・口座の検知を想定したシナリオ
検証目的:リアルタイムでの不正検知が可能な性能を出せるか?
検証①
検証②
トランザクションの履歴から作成した口座間の関連グラフ
口座x
口座b
口座a 口座c
トランザクション①
口座y
条件1: 今まで関連のなかった口座からの高額な入金
トランザクション②
トランザクション③
トランザクション④
トランザクション⑤
トランザクション⑥
200万円
43.5万円
46.5万円
47.3万円
44.2万円
18.5万円
ATMからの引出 条件2: 30日の間にトランザクション①で振り
込まれた金額と同額の引出が発生
口座x
口座b口座a 口座c
トランザクション①口座d
トランザクション② トランザクション③
トランザクション④
トランザクション⑤
トランザクション⑥
口座e
口座h
口座f
口座g
トランザクション⑦
トランザクション⑧
トランザクションを解析して疑わしい口座に関連のある口座を探す。
疑わしい口座(下図の口座X)からの距離を「口座の疑わしい度合」としてred flagの値を更新する。
- 21. © Copyright 2015 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.21
検証①
カレント・トランザクション (TRAN_CRRNT : 5.25億件) トランザクション履歴 (TRAN_HIST : 5億件)
口座番号(DBTR_ID)
相手先口座番号(CDTR_ID)口座番号(DBTR_ID)
相手先口座番号(CDTR_ID)
金額(AMOUNT)
トランザクション番号
0..1
n
口座 (ACCOUNT : 5,000万件)
口座番号 (ID)
疑わしさ(初期値 0 ) (RED_FLAG)
条件1 今まで関連のなかった口座からの高額な入金
トランザクション履歴の相手先口座番号に無い口座からの入金を探す。
条件2 条件1のトランザクションにより入金された口座のうち、短期間の出金の合計が高額な口座を探す。
n
1
1
n
HPDA処理時間(秒)
Overall time
18.926
- 22. © Copyright 2015 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.22
検証②
口座番号
相手先口座番号
口座番号
RED_FLAG (9)
口座トランザクション履歴
口座番号
相手先口座番号
口座番号
RED_FLAG (9)
口座トランザクション履歴
疑わしい口座 (BLACK_LIST)
口座番号 口座番号
RED_FLAG (10)
口座 (ACCOUNT)
口座番号
RED_FLAG (10)
口座
口座番号
RED_FLAG (10)
口座
疑わしい口座テーブルにある口座番号の口座データのRED_FLAG値を10にする。
RED_FLAG 10の口座と関連のある口座のRED_FLAGを 9にする。(既に9以上になっているものは更新しない)
カレント・トランザクション(TRAN_CRRNT : 5.25億件)
口座番号(DBTR_ID)
相手先口座番号 (CDTR_ID)
トランザクション番号
口座 (ACCOUNT : 5,000万件)
口座番号 (ACC_ID)
疑わしさ (RED_FLAG)
HPDA処理時間(秒)
Overall time
2.927
- 23. © Copyright 2015 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.23
シナリオ2: スマートメータ分析
グリーンボタンのサンプルデータを使用し、ロードカーブの形状でクラスタ
リングを行い、顧客属性、季節、曜日等の影響を調べる。
クラスタ毎 地域別件数
お客様番号 日付 30分値: MT30_01~MT30_48
お客様情報
お客様番号
住所
契約種別
契約A
地区番号
口座振替
…
カレンダー メータデータ (日次)
曜日
祝祭日
…
イベント
日付
お客様番号 曜日 30分値平均値: AT30_01~AT30_48月
メータデータ 月別曜日別30分毎平均値
集計
お客様番号 日付 30分値: MT30_01~MT30_48
お客様番号 曜日 30分値平均値: AT30_01~AT30_48月
お客様番号 曜日月
お客様番号 曜日月
お客様番号 曜日月
お客様番号 曜日月
お客様番号 曜日月
お客様番号 曜日月
お客様番号 曜日月
お客様番号 曜日月
お客様番号 曜日月
お客様番号 曜日月
お客様番号 曜日月
お客様番号 曜日月
ロードカーブでクラスタリング (K-means)
クラスタ毎 曜日別件数
クラスタ毎 月別件数
各クラスタ内で属性情報(月、曜日、地区、契約種
別 等)ごとの件数をヒストグラムで表示
件数
月
ロードカーブ
件数に偏りのあるクラスタを探すことにより、ロー
ドカーブの形状と関連のある属性変数を見つける。
夏季、日中の電力消
費量が多いクラスタ
冬季、朝晩の電力消費量
が多いクラスタ
正規化
する / しない
- 24. © Copyright 2015 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.24
グリーンボタン・イニシアティブ
アメリカエネルギー省が主導する、消費者が自分の電力消費データを簡単にダ
ウンロードできるようにする取り組みです。一定のXML形式で13ヶ月分の自分
の電力消費データをダウンロードでき、消費者はグリーンボタン対応のアプリ
ケーションを使って、データを活用することができます。
50社以上の電力会社が参加しており、6,000万世帯以上がデータを使用できるよ
うになる予定です。
このグリーンボタンの活用方法のコンテストが実施されており、このコンテス
ト用のサンプルデータを今回の検証では使用しています。
http://services.greenbuttondata.org/sample-data.html
- 25. © Copyright 2015 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.25
予測分析ライブラリ (PAL)
• バスケット分析の例
– HANAは60倍の性能
• 8000万件の売上明細データ
• 組合数=8000万×8000万=6400兆
• 突合>ソート>評価
Predictive Analysis Library
SAP HANAに組み込まれた予測関数群
クラスタリング、分類、関連性、時系列、加重平均等
の予測関数群の機能を組み込み
55個のアルゴリズムをサポート(SPS09)
Predictive Analysis Library の価値
全件対象分析のニーズへの対応
サンプリングに適さない分析アルゴリズム
サンプリングへの裏付け
短期間でのアプリケーション開発を提供し、投資に対
する迅速なリターンを提供
大規模メモリ並列処理を活用した優れた性能を提供
バスケット分析で60倍のパフォーマンス
外部の分析系との相互運用が可能(PMML)
HANAの
In DB Analytics
伝統的な
3層型分析システム
- 26. © Copyright 2015 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.26
K-means 処理フロー
お客様番号 日付 30分値: MT30_01~MT30_48
メータデータ (日次) METER_DATA
サンプリング
select * from ~ TABLESAMPLE 1
V_METER_DATA_SMPL_NORM
メータデータ月別曜日別30分毎平均値
METER_DATA_AVG
メータデータ K-means入力用VIEW
V_METER_DATA__1~3
K-means Center Point用VIEW
V_METER_DATA_TRAIN
ID = CENTER_ID
Class No. = CENTER_ID
ID (お客様番号+月+曜日) 30分値正規化平均値: NORM_01~NORM_48
ID Class No. 30分値正規化平均値: NORM_01~NORM_48
ID (お客様番号+月+曜日) Class No.
K-means 出力データ
PAL_KNN_RESULTS_TBL
月別曜日別集計
K-means
プロシジャ作成
K-means
実行
K-means
プロシジャ作成
K-means
実行
ID (お客様番号+月+曜日) 30分値正規化平均値: NORM_01~NORM_48
Signature Table
PAL_KMEANS_PDATA_TBL
Signature Table
PAL_KNN_PDATA_TBL
お客様番号 曜日 30分値平均値: AVG_01~AVG_48月 最大値
K-means実行結果
PAL_METER_DATA_CENTER_TBL
CENTER_ID 30分値正規化平均値: NORM_01~NORM_48
一度に計算できないので、分割して計算する。
ID (お客様番号+月+曜日) 30分値正規化平均値: NORM_01~NORM_48
ID (お客様番号+月+曜日) 30分値正規化平均値: NORM_01~NORM_48
データを分割してK-meansを行う。
Center initialization typeのfirst Kオプションを利用して、共通のCenter Pointでクラスタリングを行う。
Center Point用データを縦結合
CALL "SYS".AFLLANG_WRAPPER_PROCEDURE_CREATE('AFLPAL', 'KMEANS', 'DM_PAL', 'PAL_KMEANS_PROC', PAL_KMEANS_PDATA_TBL);
パラメータ・テーブルの作成
入力・出力テーブルの作成
データのローディング
K-Meansプロシージャ作成
K-Means実行
CALL "DM_PAL".PAL_KMEANS_PROC(PAL_KMEANS_DATA_TBL, #PAL_CONTROL_TBL, PAL_KMEANS_ASSIGNED_TBL,
PAL_KMEANS_CENTERS_TBL, PAL_KMEANS_SIL_CENTERS_TBL, PAL_KMEANS_STATISTIC_TBL) with OVERVIEW;
出力テーブルの参照
- 27. © Copyright 2015 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.27
48変数3億5千万件のクラスタリングを70分で実行
• メータデータをロードカーブの形で20個のクラスタに分けて、それぞれのクラスに属しているデータの属性を調べる。
• データの属性に偏りのあるクラスタを見つける。
地域,ファミリータイプ(1~6)
曜日
(月~日)
月
(1~12)
曜日ごとの偏りは少ない
クラスタ1
クラスタ1
クラスタ1
クラスタ20
ロードカーブ (最大、中央値、最少)
地域3(Desert Single Family )
の顧客は、12~2月の
20時頃の電力消費が多い
クラスタ20
クラスタ20
- 28. © Copyright 2015 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.28
まとめ
今までできなかったことが可能になります
• 5,000万口座、5億トランザクションに対してリアルタイ
ムに不正検知を実行できます
• 48変数、3億5千万件のK-Meansクラスタリング処理を70
分で実行できます
SAP, CTC, HPの3社は、今後もHigh Performance Data
Analysisに取り組んでまいります
- 29. © Copyright 2015 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.29
High Performance Data Analysis
High Performance Data Analysisで
今までできなかったことを可能にします!
スケールアップ・アーキテクチャ
単一かつ広大なメモリ空間
高度な分析ロジックを備えた
インメモリーデータベース
・金融系
リアルタイム不正検知
ソリューション
・電力系
スマートメーター分析
- 30. © Copyright 2015 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
日本HP:ベンダーデイセッション
HP Presents : インメモリDBを見据えた、スケールアップへの回帰
12:30-13:20
D32
その1
HPの全方位インメモリDB化に向けた取り組みとSAP HANAインメモ
リDB の効果
13:30-14:20
D33
その2
Superdome X 上の SQL Server 2014 OLTP 検証結果と SQL Server vNext
最新情報
14:30-15:20
D34
その3
In-Database Analyticsが実現する圧倒的なデータ分析パフォーマンス
- 31. © Copyright 2015 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.31
アンケートにご協力ください
- 32. © Copyright 2015 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
Thank you! Danke !
小森 博之
プリセールス統括本部
ソリューションセンター
ソリューション一部
Tel: 090-7906-4517
Mail: hiroyuki.komori@hp.com日本ヒューレット・パッカード
株式会社
〒136-8711
東京都江東区大島2-2-1