SlideShare a Scribd company logo
1 of 43
Download to read offline
1| © 2017 Pure Storage Inc.
DEEP LEARNINGや、ANALYTICSのワーク
ロードを加速するには
-TENSORFLOW /VGG/CAFFE/SPARK
2017年9月
ピュア・ストレージ・ジャパン株式会社
大浦譲太郎
FLASH BLADE セールスリード
永年保証、陳腐化しないオールフラッシュ
2| © 2017 Pure Storage Inc.
自己紹介
大浦 譲太郎 Twitter:@JOOOURA
趣味:2児の子育て、ガジェット、健康(糖質制限ダイエットで-9kg)
大手グローバルベンダーを経て、フラッシュメモリストレージ企業Fusion-ioの日本オフィ
ス立ち上げに参画、セールス、広報、エバンジェリスト活動に従事。
その後、BigData PlatformのHortonworksで日本市場の拡大に寄与。現在は、
AI/Bigdata時代に求められる新しいフラッシュ製品の立ち上げ役として、ピュアスト
レージに参画し、エヴァンジェリスト活動及びエンタープライズ向けセールス、
パートナー支援を行なっている。
3| © 2017 Pure Storage Inc.
4年連続でリーダー(業界を牽引する企業) の評価
高まる市場での存在感と評価
ソリッド・ステート・アレイに関して実施されたガートナーの
マジック・クアドラント で4年連続リーダーの位置付けを獲得
http://www.purestorage.com/microsites/gartner-mq-2016.html
2017年
7月発表
リーダー
• 他ベンダーよりも優秀!!
• テクノロジーが素晴らしい
• 売れてる/市場性/顧客満足度が高い
Pure Storageは、価格設定、コントローラアップグレー
ドの保証プログラム、SSDワランティ、保守価格設定な
どを通じて、顧客のペインポイントを理解し、ビジネス
を展開している。
Pure Storageは、新製品開発とマインドシェアの獲得の
維持により、SSAユースケースの拡大によって、市場
シェアを維持、拡大し続けている
いまがんばってる
製品
マニアック製品
ビジョンがいい製
品
リーダー
(テクノロジーリーダー)
(売れてる/市場性/満足度が高い)
Source, : Gartner Magic Quadrant for Solid State Arrays 13 July 2017.
4| © 2017 Pure Storage Inc.
企業向けストレージインフラの変革
13
2
2
4
4
6
6
8
10
10
10
10
13
13
17
19
19
23
23
28
Other
Infinidat
Huawei
Tintri
DataDirect Networks
Tegile
SimpliVity
EMC
Oracle
NetApp
IBM
Hitachi Data Systems
Hewlett Packard…
Dell
Nimble Storage
VMware (VSAN)
Nutanix
Pure Storage
Amazon Web Services
Microsoft Azure
Source: 451 Research, Voice of the Enterprise: Storage, Vendor Evaluations 2016
次のストレージ更改ではどのベンダーを検討しますか?
従来のストレージインフラ
5| © 2017 Pure Storage Inc.
AIは各業界で活用されている
Smart Kitchen- Innit
Identifies food in refrigerator, notifies when food will
expire, and recommends recipes
Brain Cancer MRI- Mayo Clinic
Finds genetic markers in images to avoid surgery for
tumor samples & recommend treatments
Farming- Blue River
10% of lettuce in the US is harvested by LettuceBot, using
AI to maximize crop yield & minimize chemicals
Fraud Detection- Capital One
Industry loses $20B annually in fraud- Capitol One
detects suspicious activities in real-time
Crowd-Source Reviews- Yelp
Helps users discover new experiences with targeted
recommendations while filtering suspicious content
Self-Driving Air Taxi- Airbus
By 2020, Airbus A3 plans to fly autonomously in
San Francisco Bay Area’s skies for commuters
6| © 2017 Pure Storage Inc.
第3次AIブーム
統計学習や、Deep Learning(深層学習)など、汎用性が高
まり実用性が期待される。
OSSベースのFrameworkやライブラリが充実し、間口が拡
がった。
7| © 2017 Pure Storage Inc.
機械学習の裾野の拡がり
https://www.slideshare.net/TakeshiHasegawa1/20151016ssmjpikalog
8| © 2017 Pure Storage Inc.
ニューアルゴリズム
超並列化による
人知を超えた正確性
CPU- 数十以上のコア
現在のコンピュートモデル
超並列アーキテクチャ
性能を極大化
GPU- 数千以上のコア
BIG DATA
“データは新たな油田である”
2020年には50 ZBに
インテリジェンスの創出
FUELED BY PARALLEL COMPUTE, NEW ALGORITHMS, AND BIG DATA
9| © 2017 Pure Storage Inc.
データ活用のための新たな要求
LEGACY, RETROFIT STORAGE BUILT ON SERIAL TECHNOLOGIES, PERFORMANCE GAP GROWING
STORAGE の性能GAP
〜拡がり続けるGAP〜
PERFORMANCE
2015
Deep Learning
で求められる計算能力は2年
で15倍に
計算能力は2年で10倍
を実現
20172016
SSD/Disk 性能は2年で
18%しか増加していな
い
レガシーなストレージアーキテクチャ
Built on Decade-Old Serial Technology
Disk Emulation
Software
SAS (Serial Attached SCSI)
SATA
NFS Software Stack
Object Translation Layer
Decade-old
Protocol & SW
Newer
Technologies
Retrofitted
GAP
10| © 2017 Pure Storage Inc.
謎のAI半導体メーカー
新たなコンピュートのスタイル
11| © 2017 Pure Storage Inc.
http://www.nvidia.co.jp/object/volvo-autoliv-select-drive-px-self-driving-cars-20170628-jp.html
12| © 2017 Pure Storage Inc.
GTC2017でのFacebookによる発表(引用)
http://on-demand.gputechconf.com/gtc/2017/presentation/s7815-soumith-chintala-building-scale-out-deep-learning-infrastructure-lessons-learned-facebook-ai-research.pdf
13| © 2017 Pure Storage Inc.
http://on-demand.gputechconf.com/gtc/2017/presentation/s7815-soumith-chintala-building-scale-out-deep-learning-infrastructure-
lessons-learned-facebook-ai-research.pdf
14| © 2017 Pure Storage Inc.
http://on-demand.gputechconf.com/gtc/2017/presentation/s7815-soumith-chintala-building-scale-out-deep-learning-infrastructure-
lessons-learned-facebook-ai-research.pdf
15| © 2017 Pure Storage Inc.
http://on-demand.gputechconf.com/gtc/2017/presentation/s7815-soumith-chintala-building-scale-out-deep-learning-infrastructure-
lessons-learned-facebook-ai-research.pdf
16| © 2017 Pure Storage Inc.
http://on-demand.gputechconf.com/gtc/2017/presentation/s7815-soumith-chintala-building-scale-out-deep-learning-infrastructure-
lessons-learned-facebook-ai-research.pdf
17| © 2017 Pure Storage Inc.
拡大します
18| © 2017 Pure Storage Inc.
MEGA-SCALE AI
SUPERCOMPUTER
POWERED BY FLASHBLADE
19| © 2017 Pure Storage Inc.
FLASHBLADE
BLADE ELASTICITY ELASTIC FABRIC
SCALE-OUT
PROCESSING + FLASH
SCALE-OUT STORAGE SOFTWARE LOW-LATENCY, SW-DEFINED
ETHERNET INTERCONNECT
20| © 2017 Pure Storage Inc.
MODERN ANALYTICSを支える大きな躍進とは
Amount of Data
Accuracy
Older Learning
Algorithms
Deep Learning
MODERN ANALYTICS
Improves Linearly with Growing Data
Deep learning chart courtesy of Andrew Ng
IO sizes, 16 load generators (48 core CPU’s each with 2x10GbE), 256 Containers total, NFSv3
Data capacity assumes 3:1 compression, 75 blade feature is subject to GA
0
10
20
30
40
50
60
70
80
15 30 45 60 75
GB/s
# of Blades(1.6PB) (8.0PB)
FLASHBLADE
Improves Linearly with Growing Data
PERFORMANCE OF 20 RACKS
Power of Purpose-Built vs Legacy
Leading Information Services Company
20 RACKS DISK  4U
21| © 2017 Pure Storage Inc.
“全てにおあつらえ向きの” デザイン
BIG DATA IS UNPREDICTABLE DATA- FLASHBLADE DELIVERS PERFORMANCE FOR ANY DATA
ELASTIC な性能
Designed to deliver maximum performance,
from small & metadata-heavy to large
streaming files
Delivers linear scaling performance
that grows with your data, from TBs to
PBs, to thousands of clients
高速なランダムI/O
Offers predictable, ultra-fast performance
for any access pattern, random or
sequential
極小から巨大FILEまで
22| © 2017 Pure Storage Inc.
Training ImageNet in 1 Hour
Facebookの論文
Accurate, Large Minibatch SGD: Training ImageNet in 1 Hour
https://research.fb.com/wp-
content/uploads/2017/06/imagenet1kin1h5.pdf?
23| © 2017 Pure Storage Inc.
FlashBlade パフォーマンス
高スループット、リニアなスケールアウトを実現
※ 512KB IO sizes、16 load generators(48 core CPU’s each with 2x10GbE)、256 Containers total、NFSv3
7 8 9 10 11 12 13 14 15
Read 7.4 8.4 9.3 10.3 11.2 12.2 13.1 14.1 15.0
Write 2.2 2.5 2.8 3.1 3.4 3.6 3.9 4.2 4.5
0.0
1.5
3.0
4.5
6.0
7.5
9.0
10.5
12.0
13.5
15.0
GB/sec
Blades
24| © 2017 Pure Storage Inc.
FlashBladeへ直接のアクセスにより、データプリパレーションの時間を大
幅に短縮が可能。
25| © 2017 Pure Storage Inc.
NVIDIA Test Case
Machine Learning
▪ 20 cpu wide run
▪ Machine learning storage test
program from NVIDIA
▪ 7+ GB/s Read at Peak
▪ 1-4GB/s Write
▪ “Fasted we have ever seen”
(compared to NFS and
Infiniband connected storage)
– NVIDIA storage team
26| © 2017 Pure Storage Inc.
AIに必要なデータスループットを提供
Deep Learning Needs Maximum Read Performance, Mostly Small Files, To Keep Training Computers Busy
DGX-1
13K Images/Sec for each DGX-1
Assume 115KB on average for images
For DGX-1 13K images per second performance: http://files.shareholder.com/downloads/AMDA-1XAJD4/4389242263x0x918093/50C3BC56-468D-4A02-941B-C0599570915A/JHH_SC16_FINAL_PUBLISHED.pdf
1.5GB/s
1.5GB/s
1.5GB/s
1.5GB/s
1.5GB/s
1.5GB/s
1.5GB/s
1.5GB/s
1.5GB/s
1.5GB/s
FlashBlade
1.5GB/Sec of Throughput to
Keep Each DGX-1 Busy
27| © 2017 Pure Storage Inc.
SPARKも速くなるの?
28| © 2017 Pure Storage Inc.
FLASHBLADEの ソフトウェア 開発での活用例
33% additional build time
reduction with 15 Blades
More clients
15X Faster Build Time for same # clients
– 6 concurrent builds per minute
Linear scalability of Builds
– Add more Blades and Clients to increase Build rate
– Boost performance SW Dev/Build
Do more Builds with Less Storage
– Minimize concerns with Storage bottlenecking
– Consolidate multiple workloads and Spark
Environment
29| © 2017 Pure Storage Inc.
SW開発におけるデバッグ解析パイプライン
10 FB
20
clients
100+ tests
12
12
12
12
rsyslog
12
12
12
12
12
12
12
12
30| © 2017 Pure Storage Inc.
SW開発におけるデバッグ解析パイプライン
100 FB
200 clients
1,000+ tests
12
12
12
12
rsyslog
12
12
12
12
12
12
12
12
12
12
12
12
12
12
31| © 2017 Pure Storage Inc.
SW開発におけるデバッグ解析パイプライン
1,000+
VMs
120+
FBs
20+
Jenkins
400+
clients
16
16
16
16
rsyslog
12
12
12
12
12
12
12
12
12
12
6G
40
40
40
40
18T 18T6T
6G 12
Custom code
✓ Duplicate bug
✓ Infrastructure failure
✓ Performance regression
20,000+ tests
32| © 2017 Pure Storage Inc.
ADAMでスケーラブルなゲノムツールを構築する。
⎯ ADAM is an open source, high performance, distributed library
for genomic analysis
⎯ ADAM defines a:
⎯ Data schema and layout on disk
⎯ Programming interface for distributed processing of
genomic data using Spark + Scala
⎯ Goal is to enable both batch and exploratory analysis of all
types of genomic data
33| © 2017 Pure Storage Inc.
APACHE MAPS WELL TO GENOMICS
Apache
⎯ An in-memory data parallel computing framework
⎯ Optimized for iterative jobs → unlike Hadoop
⎯ Provides an easy to use programming model (Resilient Distributed Dataset
→ parallel array over cluster) + Python/R/SQL support
Question is: how can we make a next-gen map-reduce platform like Apache
Spark easy and efficient to use for processing genomic data?
val kmers = sc.loadAlignments(“/path/to/my/reads.sam”)
.flatMap(_.getSequence.sliding(21).map(k => (k, 1L)))
.reduceByKey(_ + _)
34| © 2017 Pure Storage Inc.
CLUSTER 構成例
FlashBlade
Switch
…
64 node Hadoop YARN/HDFS cluster
16 cores, 256GB RAM, 4TB per node
Running Spark on NFS
35| © 2017 Pure Storage Inc.
HIGHER LEVEL PRIMITIVES ENABLE OPTIMIZATIONS...
⎯ Maintain sort order across runs and
optimize to reduce data skew
⎯ Leverage indices/sort orders
⎯ Push down join/filter queries into
storage
⎯ Use join optimizations to develop
BEDtools equivalent
36| © 2017 Pure Storage Inc.
SCALABILITYを提供するプラットフォーム
⎯ 30–50x speedup over traditional
implementations
⎯ Speedup extends to O (16MB data / core)
⎯ 3x improvement in analysis cost
37| © 2017 Pure Storage Inc.
1m + IOPsAND
>18 GB/s
*>75 GB/sPerformance
NFSv3, Object/S3AND
1.1 PBs (2:1)
*5.3 PBs (2:1)
N+2 redundancy
PurityPLUS
Pure1
8TB & 17TBOR
52TBBLADES
PowerMAX
1850WattFully Loaded
FLASHBLADE
38| © 2017 Pure Storage Inc.
WATCH
FLASHBLADE
SCALE-OUT INSTANTLY
7 Blades
56TBs Raw
66 TBs Effective*
30 Blades Preview
1,560 TBs非圧縮容量
2,144 TBs有効容量*
最大 30GB/Sec
1M IOPS以上
Mix/Match
8.8TB, 52.8TB,
or Future Blades
リニアな拡張:各ブレードを即座に追加
容量 – IOPS – METADATA – NVRAM – 帯域
9 Blades
15 Blades
8.8TB
Blades
52.8TB
Blades
364 TBs Raw
394 TBs Effective*
72TBs Raw
95 TBs Effective*
468 TBs Raw
570 TBs Effective*
120TBs Raw
179 TBs Effective*
780 TBs Raw
1,072 TBs Effective*
17TB
Blades
64TBs Raw
128 TBs Effective*
91.8 TBs Raw
183.6 TBs Effective*
172.6TBs Raw
345 TBs Effective*
*圧縮時の有効容量は参考でありその容量を保証するものではありません。
39| © 2017 Pure Storage Inc.
Proprietary & Confidential – Do Not Share Outside of Pure
FlashBlade Hardware Designed for High Concurrency and
High Performance Environments
Blades
• Capacity & Performance
• Embedded NVRAM
FLASHBLADE Chassis
• Up to 15 Blades
• 4RU Height
• N+2 Redundant, Heals in Place
Fabric Module
• 8 x 40GbE External ports
System Resources (15x52)
• >200 (x86+ARM) cores
• ~2 TB RAM
• 780TB NAND Flash
• 8x40GbE Ports
System Power ~ 2KW
40| © 2017 Pure Storage Inc.
FLASHBLADE
ブレード
INTEL XEON
SoC
演算 + ネットワーキング +
チップセット
低電力、低コスト設計
8個の完全XEONコア
DRAM
メモリー
プログラマブル
プロセッサー
1個のFPGA、2個のARMコア
ELASTIC
FABRIC
コネクター
NANDフラッシュ
17TB または 52TB
PURITY FB
ソフトウェア
すべてのプロセッサー
上で分散して稼働
統合
NV-RAM
スーパーコンデンサーが
支える書き込みバッファ
PCIE 接続
PCIe上でCPUとフラッシュが独
自仕様のプロトコルを介して通信
FLASHBLADEの仕様、機能、価格はすべて暫定であり、一般提供時に変更される可能性があります。有効容量はすべてのオーバーヘッドとデータ削減率3:1を想定しています。
41| © 2017 Pure Storage Inc.
REAL RESILIENCY
DESIGNED FOR 99.9999% AVAILABILITY
N+2
Data, Metadata, and NV-RAM all
protected with N+2 redundancy
1/N Loss on Failure
Blade failure results in
predictable 1/N loss in IO and
metadata performance
Rebuilds in Place
Heals around blade failure to
return the array to full parity
within hours
Advanced ECC
Software-based Flash ECC
protects against flash aging and
bit errors over time
Multi-Layer Integrity
Multiple layers of checksums and
protection for both data and
metadata ensure integrity
42| © 2017 Pure Storage Inc.
FLASHBLADE
INDUSTRY’S FIRST CLOUD-ERA FLASH PURPOSE-BUILT FOR MODERN ANALYTICS
SIMPLE
Evergreen
No Manual Tuning
Just Add Blades for Performance
BIG
10’s of Thousands of Clients
10’s of Billions of Objects & Files
8 Petabytes with Single IP
FAST
Elastic Performance Up to 75 GB/s
Always-Fast, Small to Large Files
Massively Parallel from SW to Flash
75 blade feature is subject to GA release
Deep LearningやAnalyticsの環境に、新たなアプローチで
ワークロードを改善するデータプラットフォームソ
リューションがあります。
詳細のお問い合わせ、検証のご相談などお待ちしており
ます。
まとめ
有り難う御座いまし
た。

More Related Content

What's hot

What's hot (20)

[db tech showcase Tokyo 2015] C17:MySQL Cluster ユーザー事例紹介~JR東日本情報システム様における導入事例...
[db tech showcase Tokyo 2015] C17:MySQL Cluster ユーザー事例紹介~JR東日本情報システム様における導入事例...[db tech showcase Tokyo 2015] C17:MySQL Cluster ユーザー事例紹介~JR東日本情報システム様における導入事例...
[db tech showcase Tokyo 2015] C17:MySQL Cluster ユーザー事例紹介~JR東日本情報システム様における導入事例...
 
HAWQをCDHで動かしてみた
HAWQをCDHで動かしてみたHAWQをCDHで動かしてみた
HAWQをCDHで動かしてみた
 
今こそクラウドへ!データの移行、連携、統合のコツ
今こそクラウドへ!データの移行、連携、統合のコツ今こそクラウドへ!データの移行、連携、統合のコツ
今こそクラウドへ!データの移行、連携、統合のコツ
 
MySQL InnoDB Clusterによる高可用性構成(DB Tech Showcase 2017)
MySQL InnoDB Clusterによる高可用性構成(DB Tech Showcase 2017)MySQL InnoDB Clusterによる高可用性構成(DB Tech Showcase 2017)
MySQL InnoDB Clusterによる高可用性構成(DB Tech Showcase 2017)
 
Hadoopエコシステムのデータストア振り返り
Hadoopエコシステムのデータストア振り返りHadoopエコシステムのデータストア振り返り
Hadoopエコシステムのデータストア振り返り
 
[db tech showcase Tokyo 2017] D21: ついに Red Hat Enterprise Linuxで SQL Serverが使...
[db tech showcase Tokyo 2017] D21: ついに Red Hat Enterprise Linuxで SQL Serverが使...[db tech showcase Tokyo 2017] D21: ついに Red Hat Enterprise Linuxで SQL Serverが使...
[db tech showcase Tokyo 2017] D21: ついに Red Hat Enterprise Linuxで SQL Serverが使...
 
事例から見るNoSQLの使い方 - db tech showcase Tokyo 2015 2015/06/11
事例から見るNoSQLの使い方 - db tech showcase Tokyo 2015 2015/06/11事例から見るNoSQLの使い方 - db tech showcase Tokyo 2015 2015/06/11
事例から見るNoSQLの使い方 - db tech showcase Tokyo 2015 2015/06/11
 
Distributed data stores in Hadoop ecosystem
Distributed data stores in Hadoop ecosystemDistributed data stores in Hadoop ecosystem
Distributed data stores in Hadoop ecosystem
 
Apache Hadoop and YARN, current development status
Apache Hadoop and YARN, current development statusApache Hadoop and YARN, current development status
Apache Hadoop and YARN, current development status
 
Oracle Cloudで始める、DBエンジニアのためのHadoop超入門(db tech showcase 2016 Oracle セッション資料)
Oracle Cloudで始める、DBエンジニアのためのHadoop超入門(db tech showcase 2016 Oracle セッション資料)Oracle Cloudで始める、DBエンジニアのためのHadoop超入門(db tech showcase 2016 Oracle セッション資料)
Oracle Cloudで始める、DBエンジニアのためのHadoop超入門(db tech showcase 2016 Oracle セッション資料)
 
[data analytics showcase] B16: Live Demo! データ分析基盤を支えるデータレプリケーション技術とデータワークロード分...
[data analytics showcase] B16: Live Demo! データ分析基盤を支えるデータレプリケーション技術とデータワークロード分...[data analytics showcase] B16: Live Demo! データ分析基盤を支えるデータレプリケーション技術とデータワークロード分...
[data analytics showcase] B16: Live Demo! データ分析基盤を支えるデータレプリケーション技術とデータワークロード分...
 
ビッグデータ処理データベースの全体像と使い分け - 2017年 Version -
ビッグデータ処理データベースの全体像と使い分け - 2017年 Version - ビッグデータ処理データベースの全体像と使い分け - 2017年 Version -
ビッグデータ処理データベースの全体像と使い分け - 2017年 Version -
 
HiveとImpalaのおいしいとこ取り
HiveとImpalaのおいしいとこ取りHiveとImpalaのおいしいとこ取り
HiveとImpalaのおいしいとこ取り
 
[db tech showcase Tokyo 2015] B12:カラムストアデータベースの技術と活用法 by 日本電気株式会社 田村稔
[db tech showcase Tokyo 2015] B12:カラムストアデータベースの技術と活用法 by 日本電気株式会社 田村稔[db tech showcase Tokyo 2015] B12:カラムストアデータベースの技術と活用法 by 日本電気株式会社 田村稔
[db tech showcase Tokyo 2015] B12:カラムストアデータベースの技術と活用法 by 日本電気株式会社 田村稔
 
[db tech showcase Tokyo 2017] E23: クラウド異種データベース(AWS)へのデータベース移行時の注意点 ~レプリケーション...
[db tech showcase Tokyo 2017] E23: クラウド異種データベース(AWS)へのデータベース移行時の注意点 ~レプリケーション...[db tech showcase Tokyo 2017] E23: クラウド異種データベース(AWS)へのデータベース移行時の注意点 ~レプリケーション...
[db tech showcase Tokyo 2017] E23: クラウド異種データベース(AWS)へのデータベース移行時の注意点 ~レプリケーション...
 
Apache Kafkaって本当に大丈夫?~故障検証のオーバービューと興味深い挙動の紹介~
Apache Kafkaって本当に大丈夫?~故障検証のオーバービューと興味深い挙動の紹介~Apache Kafkaって本当に大丈夫?~故障検証のオーバービューと興味深い挙動の紹介~
Apache Kafkaって本当に大丈夫?~故障検証のオーバービューと興味深い挙動の紹介~
 
20190314 PGStrom Arrow_Fdw
20190314 PGStrom Arrow_Fdw20190314 PGStrom Arrow_Fdw
20190314 PGStrom Arrow_Fdw
 
最新版Hadoopクラスタを運用して得られたもの
最新版Hadoopクラスタを運用して得られたもの最新版Hadoopクラスタを運用して得られたもの
最新版Hadoopクラスタを運用して得られたもの
 
[db tech showcase Tokyo 2015] D32:HPの全方位インメモリDB化に向けた取り組みとSAP HANAインメモリDB の効果を...
[db tech showcase Tokyo 2015] D32:HPの全方位インメモリDB化に向けた取り組みとSAP HANAインメモリDB の効果を...[db tech showcase Tokyo 2015] D32:HPの全方位インメモリDB化に向けた取り組みとSAP HANAインメモリDB の効果を...
[db tech showcase Tokyo 2015] D32:HPの全方位インメモリDB化に向けた取り組みとSAP HANAインメモリDB の効果を...
 
今さら聞けない HANAのハナシの基本のほ
今さら聞けない HANAのハナシの基本のほ今さら聞けない HANAのハナシの基本のほ
今さら聞けない HANAのハナシの基本のほ
 

Similar to [db tech showcase Tokyo 2017] D33: Deep Learningや、Analyticsのワークロードを加速するには-TensorFlow /VGG/Caffe/Spark by ピュア・ストレージ・ジャパン株式会社 大浦譲太郎

OpenStack Object Storage; Usage
OpenStack Object Storage; UsageOpenStack Object Storage; Usage
OpenStack Object Storage; Usage
irix_jp
 

Similar to [db tech showcase Tokyo 2017] D33: Deep Learningや、Analyticsのワークロードを加速するには-TensorFlow /VGG/Caffe/Spark by ピュア・ストレージ・ジャパン株式会社 大浦譲太郎 (20)

Cloud Foundry Summit 2017 Recap
Cloud Foundry Summit 2017 RecapCloud Foundry Summit 2017 Recap
Cloud Foundry Summit 2017 Recap
 
Attunity社のソリューションの日本国内外適用事例及びロードマップ紹介[ATTUNITY & インサイトテクノロジー IoT / Big Data フ...
Attunity社のソリューションの日本国内外適用事例及びロードマップ紹介[ATTUNITY & インサイトテクノロジー IoT / Big Data フ...Attunity社のソリューションの日本国内外適用事例及びロードマップ紹介[ATTUNITY & インサイトテクノロジー IoT / Big Data フ...
Attunity社のソリューションの日本国内外適用事例及びロードマップ紹介[ATTUNITY & インサイトテクノロジー IoT / Big Data フ...
 
20170303 java9 hadoop
20170303 java9 hadoop20170303 java9 hadoop
20170303 java9 hadoop
 
分散処理基盤Apache Hadoopの現状と、NTTデータのHadoopに対する取り組み
分散処理基盤Apache Hadoopの現状と、NTTデータのHadoopに対する取り組み分散処理基盤Apache Hadoopの現状と、NTTデータのHadoopに対する取り組み
分散処理基盤Apache Hadoopの現状と、NTTデータのHadoopに対する取り組み
 
オープン・クラウド・プラットフォーム構築の秘訣
オープン・クラウド・プラットフォーム構築の秘訣オープン・クラウド・プラットフォーム構築の秘訣
オープン・クラウド・プラットフォーム構築の秘訣
 
OSSプロジェクトへのコントリビューション はじめの一歩を踏み出そう!(Open Source Conference 2022 Online/Spring...
OSSプロジェクトへのコントリビューション はじめの一歩を踏み出そう!(Open Source Conference 2022 Online/Spring...OSSプロジェクトへのコントリビューション はじめの一歩を踏み出そう!(Open Source Conference 2022 Online/Spring...
OSSプロジェクトへのコントリビューション はじめの一歩を踏み出そう!(Open Source Conference 2022 Online/Spring...
 
Hadoop/Spark を使うなら Bigtop を使い熟そう! ~並列分散処理基盤のいま、から Bigtop の最近の取り組みまで一挙ご紹介~(Ope...
Hadoop/Spark を使うなら Bigtop を使い熟そう! ~並列分散処理基盤のいま、から Bigtop の最近の取り組みまで一挙ご紹介~(Ope...Hadoop/Spark を使うなら Bigtop を使い熟そう! ~並列分散処理基盤のいま、から Bigtop の最近の取り組みまで一挙ご紹介~(Ope...
Hadoop/Spark を使うなら Bigtop を使い熟そう! ~並列分散処理基盤のいま、から Bigtop の最近の取り組みまで一挙ご紹介~(Ope...
 
(2017.6.2) Azure HDInsightで実現するスケーラブル分析環境
(2017.6.2) Azure HDInsightで実現するスケーラブル分析環境(2017.6.2) Azure HDInsightで実現するスケーラブル分析環境
(2017.6.2) Azure HDInsightで実現するスケーラブル分析環境
 
Beginner must-see! A future that can be opened by learning Hadoop
Beginner must-see! A future that can be opened by learning HadoopBeginner must-see! A future that can be opened by learning Hadoop
Beginner must-see! A future that can be opened by learning Hadoop
 
Ahead-of-Time Compilation with JDK 9 [Java Day Tokyo 2017 D1-A1]
Ahead-of-Time Compilation with JDK 9 [Java Day Tokyo 2017 D1-A1]Ahead-of-Time Compilation with JDK 9 [Java Day Tokyo 2017 D1-A1]
Ahead-of-Time Compilation with JDK 9 [Java Day Tokyo 2017 D1-A1]
 
[db tech showcase Tokyo 2015] D16:マイケルストーンブレーカー発の超高速データベースで実現する分析基盤の簡単構築・運用ステ...
[db tech showcase Tokyo 2015] D16:マイケルストーンブレーカー発の超高速データベースで実現する分析基盤の簡単構築・運用ステ...[db tech showcase Tokyo 2015] D16:マイケルストーンブレーカー発の超高速データベースで実現する分析基盤の簡単構築・運用ステ...
[db tech showcase Tokyo 2015] D16:マイケルストーンブレーカー発の超高速データベースで実現する分析基盤の簡単構築・運用ステ...
 
PostgreSQLによるデータ分析ことはじめ
PostgreSQLによるデータ分析ことはじめPostgreSQLによるデータ分析ことはじめ
PostgreSQLによるデータ分析ことはじめ
 
de:code 2019 Cloud トラック 総まとめ!
de:code 2019 Cloud トラック 総まとめ!de:code 2019 Cloud トラック 総まとめ!
de:code 2019 Cloud トラック 総まとめ!
 
Dataworks Summit 2017 SanJose StreamProcessing - Hadoop Source Code Reading #...
Dataworks Summit 2017 SanJose StreamProcessing - Hadoop Source Code Reading #...Dataworks Summit 2017 SanJose StreamProcessing - Hadoop Source Code Reading #...
Dataworks Summit 2017 SanJose StreamProcessing - Hadoop Source Code Reading #...
 
DeNA private cloud のその後 - OpenStack最新情報セミナー(2017年3月)
DeNA private cloud のその後 - OpenStack最新情報セミナー(2017年3月)DeNA private cloud のその後 - OpenStack最新情報セミナー(2017年3月)
DeNA private cloud のその後 - OpenStack最新情報セミナー(2017年3月)
 
ML Ops NYC 19 & Strata Data Conference 2019 NewYork 注目セッションまとめ
ML Ops NYC 19 & Strata Data Conference 2019 NewYork 注目セッションまとめML Ops NYC 19 & Strata Data Conference 2019 NewYork 注目セッションまとめ
ML Ops NYC 19 & Strata Data Conference 2019 NewYork 注目セッションまとめ
 
"Global Distcloud File System" ~インタークラウド広域分散ファイルシステム 大陸間横断ライブマイグレーションを実現する技術
"Global Distcloud File System" ~インタークラウド広域分散ファイルシステム 大陸間横断ライブマイグレーションを実現する技術"Global Distcloud File System" ~インタークラウド広域分散ファイルシステム 大陸間横断ライブマイグレーションを実現する技術
"Global Distcloud File System" ~インタークラウド広域分散ファイルシステム 大陸間横断ライブマイグレーションを実現する技術
 
OpenStack Object Storage; Usage
OpenStack Object Storage; UsageOpenStack Object Storage; Usage
OpenStack Object Storage; Usage
 
Gmo media.inc 第9回西日本ossの普及を考える会
Gmo media.inc 第9回西日本ossの普及を考える会Gmo media.inc 第9回西日本ossの普及を考える会
Gmo media.inc 第9回西日本ossの普及を考える会
 
20210731_OSC_Kyoto_PGStrom3.0
20210731_OSC_Kyoto_PGStrom3.020210731_OSC_Kyoto_PGStrom3.0
20210731_OSC_Kyoto_PGStrom3.0
 

More from Insight Technology, Inc.

コモディティサーバー3台で作る高速処理 “ハイパー・コンバージド・データベース・インフラストラクチャー(HCDI)” システム『Insight Qube』...
コモディティサーバー3台で作る高速処理 “ハイパー・コンバージド・データベース・インフラストラクチャー(HCDI)” システム『Insight Qube』...コモディティサーバー3台で作る高速処理 “ハイパー・コンバージド・データベース・インフラストラクチャー(HCDI)” システム『Insight Qube』...
コモディティサーバー3台で作る高速処理 “ハイパー・コンバージド・データベース・インフラストラクチャー(HCDI)” システム『Insight Qube』...
Insight Technology, Inc.
 

More from Insight Technology, Inc. (20)

グラフデータベースは如何に自然言語を理解するか?
グラフデータベースは如何に自然言語を理解するか?グラフデータベースは如何に自然言語を理解するか?
グラフデータベースは如何に自然言語を理解するか?
 
Docker and the Oracle Database
Docker and the Oracle DatabaseDocker and the Oracle Database
Docker and the Oracle Database
 
Great performance at scale~次期PostgreSQL12のパーティショニング性能の実力に迫る~
Great performance at scale~次期PostgreSQL12のパーティショニング性能の実力に迫る~Great performance at scale~次期PostgreSQL12のパーティショニング性能の実力に迫る~
Great performance at scale~次期PostgreSQL12のパーティショニング性能の実力に迫る~
 
事例を通じて機械学習とは何かを説明する
事例を通じて機械学習とは何かを説明する事例を通じて機械学習とは何かを説明する
事例を通じて機械学習とは何かを説明する
 
仮想通貨ウォレットアプリで理解するデータストアとしてのブロックチェーン
仮想通貨ウォレットアプリで理解するデータストアとしてのブロックチェーン仮想通貨ウォレットアプリで理解するデータストアとしてのブロックチェーン
仮想通貨ウォレットアプリで理解するデータストアとしてのブロックチェーン
 
MBAAで覚えるDBREの大事なおしごと
MBAAで覚えるDBREの大事なおしごとMBAAで覚えるDBREの大事なおしごと
MBAAで覚えるDBREの大事なおしごと
 
グラフデータベースは如何に自然言語を理解するか?
グラフデータベースは如何に自然言語を理解するか?グラフデータベースは如何に自然言語を理解するか?
グラフデータベースは如何に自然言語を理解するか?
 
DBREから始めるデータベースプラットフォーム
DBREから始めるデータベースプラットフォームDBREから始めるデータベースプラットフォーム
DBREから始めるデータベースプラットフォーム
 
SQL Server エンジニアのためのコンテナ入門
SQL Server エンジニアのためのコンテナ入門SQL Server エンジニアのためのコンテナ入門
SQL Server エンジニアのためのコンテナ入門
 
Lunch & Learn, AWS NoSQL Services
Lunch & Learn, AWS NoSQL ServicesLunch & Learn, AWS NoSQL Services
Lunch & Learn, AWS NoSQL Services
 
db tech showcase2019オープニングセッション @ 森田 俊哉
db tech showcase2019オープニングセッション @ 森田 俊哉 db tech showcase2019オープニングセッション @ 森田 俊哉
db tech showcase2019オープニングセッション @ 森田 俊哉
 
db tech showcase2019 オープニングセッション @ 石川 雅也
db tech showcase2019 オープニングセッション @ 石川 雅也db tech showcase2019 オープニングセッション @ 石川 雅也
db tech showcase2019 オープニングセッション @ 石川 雅也
 
db tech showcase2019 オープニングセッション @ マイナー・アレン・パーカー
db tech showcase2019 オープニングセッション @ マイナー・アレン・パーカー db tech showcase2019 オープニングセッション @ マイナー・アレン・パーカー
db tech showcase2019 オープニングセッション @ マイナー・アレン・パーカー
 
難しいアプリケーション移行、手軽に試してみませんか?
難しいアプリケーション移行、手軽に試してみませんか?難しいアプリケーション移行、手軽に試してみませんか?
難しいアプリケーション移行、手軽に試してみませんか?
 
Attunityのソリューションと異種データベース・クラウド移行事例のご紹介
Attunityのソリューションと異種データベース・クラウド移行事例のご紹介Attunityのソリューションと異種データベース・クラウド移行事例のご紹介
Attunityのソリューションと異種データベース・クラウド移行事例のご紹介
 
そのデータベース、クラウドで使ってみませんか?
そのデータベース、クラウドで使ってみませんか?そのデータベース、クラウドで使ってみませんか?
そのデータベース、クラウドで使ってみませんか?
 
コモディティサーバー3台で作る高速処理 “ハイパー・コンバージド・データベース・インフラストラクチャー(HCDI)” システム『Insight Qube』...
コモディティサーバー3台で作る高速処理 “ハイパー・コンバージド・データベース・インフラストラクチャー(HCDI)” システム『Insight Qube』...コモディティサーバー3台で作る高速処理 “ハイパー・コンバージド・データベース・インフラストラクチャー(HCDI)” システム『Insight Qube』...
コモディティサーバー3台で作る高速処理 “ハイパー・コンバージド・データベース・インフラストラクチャー(HCDI)” システム『Insight Qube』...
 
複数DBのバックアップ・切り戻し運用手順が異なって大変?!運用性の大幅改善、その先に。。
複数DBのバックアップ・切り戻し運用手順が異なって大変?!運用性の大幅改善、その先に。。 複数DBのバックアップ・切り戻し運用手順が異なって大変?!運用性の大幅改善、その先に。。
複数DBのバックアップ・切り戻し運用手順が異なって大変?!運用性の大幅改善、その先に。。
 
レガシーに埋もれたデータをリアルタイムでクラウドへ [ATTUNITY & インサイトテクノロジー IoT / Big Data フォーラム 2018]
レガシーに埋もれたデータをリアルタイムでクラウドへ [ATTUNITY & インサイトテクノロジー IoT / Big Data フォーラム 2018]レガシーに埋もれたデータをリアルタイムでクラウドへ [ATTUNITY & インサイトテクノロジー IoT / Big Data フォーラム 2018]
レガシーに埋もれたデータをリアルタイムでクラウドへ [ATTUNITY & インサイトテクノロジー IoT / Big Data フォーラム 2018]
 
エンタープライズでのAI活用を支援する新世代データウェアハウスのあり方[ATTUNITY & インサイトテクノロジー IoT / Big Data フォー...
エンタープライズでのAI活用を支援する新世代データウェアハウスのあり方[ATTUNITY & インサイトテクノロジー IoT / Big Data フォー...エンタープライズでのAI活用を支援する新世代データウェアハウスのあり方[ATTUNITY & インサイトテクノロジー IoT / Big Data フォー...
エンタープライズでのAI活用を支援する新世代データウェアハウスのあり方[ATTUNITY & インサイトテクノロジー IoT / Big Data フォー...
 

Recently uploaded

Recently uploaded (11)

LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
 
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
 

[db tech showcase Tokyo 2017] D33: Deep Learningや、Analyticsのワークロードを加速するには-TensorFlow /VGG/Caffe/Spark by ピュア・ストレージ・ジャパン株式会社 大浦譲太郎

  • 1. 1| © 2017 Pure Storage Inc. DEEP LEARNINGや、ANALYTICSのワーク ロードを加速するには -TENSORFLOW /VGG/CAFFE/SPARK 2017年9月 ピュア・ストレージ・ジャパン株式会社 大浦譲太郎 FLASH BLADE セールスリード 永年保証、陳腐化しないオールフラッシュ
  • 2. 2| © 2017 Pure Storage Inc. 自己紹介 大浦 譲太郎 Twitter:@JOOOURA 趣味:2児の子育て、ガジェット、健康(糖質制限ダイエットで-9kg) 大手グローバルベンダーを経て、フラッシュメモリストレージ企業Fusion-ioの日本オフィ ス立ち上げに参画、セールス、広報、エバンジェリスト活動に従事。 その後、BigData PlatformのHortonworksで日本市場の拡大に寄与。現在は、 AI/Bigdata時代に求められる新しいフラッシュ製品の立ち上げ役として、ピュアスト レージに参画し、エヴァンジェリスト活動及びエンタープライズ向けセールス、 パートナー支援を行なっている。
  • 3. 3| © 2017 Pure Storage Inc. 4年連続でリーダー(業界を牽引する企業) の評価 高まる市場での存在感と評価 ソリッド・ステート・アレイに関して実施されたガートナーの マジック・クアドラント で4年連続リーダーの位置付けを獲得 http://www.purestorage.com/microsites/gartner-mq-2016.html 2017年 7月発表 リーダー • 他ベンダーよりも優秀!! • テクノロジーが素晴らしい • 売れてる/市場性/顧客満足度が高い Pure Storageは、価格設定、コントローラアップグレー ドの保証プログラム、SSDワランティ、保守価格設定な どを通じて、顧客のペインポイントを理解し、ビジネス を展開している。 Pure Storageは、新製品開発とマインドシェアの獲得の 維持により、SSAユースケースの拡大によって、市場 シェアを維持、拡大し続けている いまがんばってる 製品 マニアック製品 ビジョンがいい製 品 リーダー (テクノロジーリーダー) (売れてる/市場性/満足度が高い) Source, : Gartner Magic Quadrant for Solid State Arrays 13 July 2017.
  • 4. 4| © 2017 Pure Storage Inc. 企業向けストレージインフラの変革 13 2 2 4 4 6 6 8 10 10 10 10 13 13 17 19 19 23 23 28 Other Infinidat Huawei Tintri DataDirect Networks Tegile SimpliVity EMC Oracle NetApp IBM Hitachi Data Systems Hewlett Packard… Dell Nimble Storage VMware (VSAN) Nutanix Pure Storage Amazon Web Services Microsoft Azure Source: 451 Research, Voice of the Enterprise: Storage, Vendor Evaluations 2016 次のストレージ更改ではどのベンダーを検討しますか? 従来のストレージインフラ
  • 5. 5| © 2017 Pure Storage Inc. AIは各業界で活用されている Smart Kitchen- Innit Identifies food in refrigerator, notifies when food will expire, and recommends recipes Brain Cancer MRI- Mayo Clinic Finds genetic markers in images to avoid surgery for tumor samples & recommend treatments Farming- Blue River 10% of lettuce in the US is harvested by LettuceBot, using AI to maximize crop yield & minimize chemicals Fraud Detection- Capital One Industry loses $20B annually in fraud- Capitol One detects suspicious activities in real-time Crowd-Source Reviews- Yelp Helps users discover new experiences with targeted recommendations while filtering suspicious content Self-Driving Air Taxi- Airbus By 2020, Airbus A3 plans to fly autonomously in San Francisco Bay Area’s skies for commuters
  • 6. 6| © 2017 Pure Storage Inc. 第3次AIブーム 統計学習や、Deep Learning(深層学習)など、汎用性が高 まり実用性が期待される。 OSSベースのFrameworkやライブラリが充実し、間口が拡 がった。
  • 7. 7| © 2017 Pure Storage Inc. 機械学習の裾野の拡がり https://www.slideshare.net/TakeshiHasegawa1/20151016ssmjpikalog
  • 8. 8| © 2017 Pure Storage Inc. ニューアルゴリズム 超並列化による 人知を超えた正確性 CPU- 数十以上のコア 現在のコンピュートモデル 超並列アーキテクチャ 性能を極大化 GPU- 数千以上のコア BIG DATA “データは新たな油田である” 2020年には50 ZBに インテリジェンスの創出 FUELED BY PARALLEL COMPUTE, NEW ALGORITHMS, AND BIG DATA
  • 9. 9| © 2017 Pure Storage Inc. データ活用のための新たな要求 LEGACY, RETROFIT STORAGE BUILT ON SERIAL TECHNOLOGIES, PERFORMANCE GAP GROWING STORAGE の性能GAP 〜拡がり続けるGAP〜 PERFORMANCE 2015 Deep Learning で求められる計算能力は2年 で15倍に 計算能力は2年で10倍 を実現 20172016 SSD/Disk 性能は2年で 18%しか増加していな い レガシーなストレージアーキテクチャ Built on Decade-Old Serial Technology Disk Emulation Software SAS (Serial Attached SCSI) SATA NFS Software Stack Object Translation Layer Decade-old Protocol & SW Newer Technologies Retrofitted GAP
  • 10. 10| © 2017 Pure Storage Inc. 謎のAI半導体メーカー 新たなコンピュートのスタイル
  • 11. 11| © 2017 Pure Storage Inc. http://www.nvidia.co.jp/object/volvo-autoliv-select-drive-px-self-driving-cars-20170628-jp.html
  • 12. 12| © 2017 Pure Storage Inc. GTC2017でのFacebookによる発表(引用) http://on-demand.gputechconf.com/gtc/2017/presentation/s7815-soumith-chintala-building-scale-out-deep-learning-infrastructure-lessons-learned-facebook-ai-research.pdf
  • 13. 13| © 2017 Pure Storage Inc. http://on-demand.gputechconf.com/gtc/2017/presentation/s7815-soumith-chintala-building-scale-out-deep-learning-infrastructure- lessons-learned-facebook-ai-research.pdf
  • 14. 14| © 2017 Pure Storage Inc. http://on-demand.gputechconf.com/gtc/2017/presentation/s7815-soumith-chintala-building-scale-out-deep-learning-infrastructure- lessons-learned-facebook-ai-research.pdf
  • 15. 15| © 2017 Pure Storage Inc. http://on-demand.gputechconf.com/gtc/2017/presentation/s7815-soumith-chintala-building-scale-out-deep-learning-infrastructure- lessons-learned-facebook-ai-research.pdf
  • 16. 16| © 2017 Pure Storage Inc. http://on-demand.gputechconf.com/gtc/2017/presentation/s7815-soumith-chintala-building-scale-out-deep-learning-infrastructure- lessons-learned-facebook-ai-research.pdf
  • 17. 17| © 2017 Pure Storage Inc. 拡大します
  • 18. 18| © 2017 Pure Storage Inc. MEGA-SCALE AI SUPERCOMPUTER POWERED BY FLASHBLADE
  • 19. 19| © 2017 Pure Storage Inc. FLASHBLADE BLADE ELASTICITY ELASTIC FABRIC SCALE-OUT PROCESSING + FLASH SCALE-OUT STORAGE SOFTWARE LOW-LATENCY, SW-DEFINED ETHERNET INTERCONNECT
  • 20. 20| © 2017 Pure Storage Inc. MODERN ANALYTICSを支える大きな躍進とは Amount of Data Accuracy Older Learning Algorithms Deep Learning MODERN ANALYTICS Improves Linearly with Growing Data Deep learning chart courtesy of Andrew Ng IO sizes, 16 load generators (48 core CPU’s each with 2x10GbE), 256 Containers total, NFSv3 Data capacity assumes 3:1 compression, 75 blade feature is subject to GA 0 10 20 30 40 50 60 70 80 15 30 45 60 75 GB/s # of Blades(1.6PB) (8.0PB) FLASHBLADE Improves Linearly with Growing Data PERFORMANCE OF 20 RACKS Power of Purpose-Built vs Legacy Leading Information Services Company 20 RACKS DISK  4U
  • 21. 21| © 2017 Pure Storage Inc. “全てにおあつらえ向きの” デザイン BIG DATA IS UNPREDICTABLE DATA- FLASHBLADE DELIVERS PERFORMANCE FOR ANY DATA ELASTIC な性能 Designed to deliver maximum performance, from small & metadata-heavy to large streaming files Delivers linear scaling performance that grows with your data, from TBs to PBs, to thousands of clients 高速なランダムI/O Offers predictable, ultra-fast performance for any access pattern, random or sequential 極小から巨大FILEまで
  • 22. 22| © 2017 Pure Storage Inc. Training ImageNet in 1 Hour Facebookの論文 Accurate, Large Minibatch SGD: Training ImageNet in 1 Hour https://research.fb.com/wp- content/uploads/2017/06/imagenet1kin1h5.pdf?
  • 23. 23| © 2017 Pure Storage Inc. FlashBlade パフォーマンス 高スループット、リニアなスケールアウトを実現 ※ 512KB IO sizes、16 load generators(48 core CPU’s each with 2x10GbE)、256 Containers total、NFSv3 7 8 9 10 11 12 13 14 15 Read 7.4 8.4 9.3 10.3 11.2 12.2 13.1 14.1 15.0 Write 2.2 2.5 2.8 3.1 3.4 3.6 3.9 4.2 4.5 0.0 1.5 3.0 4.5 6.0 7.5 9.0 10.5 12.0 13.5 15.0 GB/sec Blades
  • 24. 24| © 2017 Pure Storage Inc. FlashBladeへ直接のアクセスにより、データプリパレーションの時間を大 幅に短縮が可能。
  • 25. 25| © 2017 Pure Storage Inc. NVIDIA Test Case Machine Learning ▪ 20 cpu wide run ▪ Machine learning storage test program from NVIDIA ▪ 7+ GB/s Read at Peak ▪ 1-4GB/s Write ▪ “Fasted we have ever seen” (compared to NFS and Infiniband connected storage) – NVIDIA storage team
  • 26. 26| © 2017 Pure Storage Inc. AIに必要なデータスループットを提供 Deep Learning Needs Maximum Read Performance, Mostly Small Files, To Keep Training Computers Busy DGX-1 13K Images/Sec for each DGX-1 Assume 115KB on average for images For DGX-1 13K images per second performance: http://files.shareholder.com/downloads/AMDA-1XAJD4/4389242263x0x918093/50C3BC56-468D-4A02-941B-C0599570915A/JHH_SC16_FINAL_PUBLISHED.pdf 1.5GB/s 1.5GB/s 1.5GB/s 1.5GB/s 1.5GB/s 1.5GB/s 1.5GB/s 1.5GB/s 1.5GB/s 1.5GB/s FlashBlade 1.5GB/Sec of Throughput to Keep Each DGX-1 Busy
  • 27. 27| © 2017 Pure Storage Inc. SPARKも速くなるの?
  • 28. 28| © 2017 Pure Storage Inc. FLASHBLADEの ソフトウェア 開発での活用例 33% additional build time reduction with 15 Blades More clients 15X Faster Build Time for same # clients – 6 concurrent builds per minute Linear scalability of Builds – Add more Blades and Clients to increase Build rate – Boost performance SW Dev/Build Do more Builds with Less Storage – Minimize concerns with Storage bottlenecking – Consolidate multiple workloads and Spark Environment
  • 29. 29| © 2017 Pure Storage Inc. SW開発におけるデバッグ解析パイプライン 10 FB 20 clients 100+ tests 12 12 12 12 rsyslog 12 12 12 12 12 12 12 12
  • 30. 30| © 2017 Pure Storage Inc. SW開発におけるデバッグ解析パイプライン 100 FB 200 clients 1,000+ tests 12 12 12 12 rsyslog 12 12 12 12 12 12 12 12 12 12 12 12 12 12
  • 31. 31| © 2017 Pure Storage Inc. SW開発におけるデバッグ解析パイプライン 1,000+ VMs 120+ FBs 20+ Jenkins 400+ clients 16 16 16 16 rsyslog 12 12 12 12 12 12 12 12 12 12 6G 40 40 40 40 18T 18T6T 6G 12 Custom code ✓ Duplicate bug ✓ Infrastructure failure ✓ Performance regression 20,000+ tests
  • 32. 32| © 2017 Pure Storage Inc. ADAMでスケーラブルなゲノムツールを構築する。 ⎯ ADAM is an open source, high performance, distributed library for genomic analysis ⎯ ADAM defines a: ⎯ Data schema and layout on disk ⎯ Programming interface for distributed processing of genomic data using Spark + Scala ⎯ Goal is to enable both batch and exploratory analysis of all types of genomic data
  • 33. 33| © 2017 Pure Storage Inc. APACHE MAPS WELL TO GENOMICS Apache ⎯ An in-memory data parallel computing framework ⎯ Optimized for iterative jobs → unlike Hadoop ⎯ Provides an easy to use programming model (Resilient Distributed Dataset → parallel array over cluster) + Python/R/SQL support Question is: how can we make a next-gen map-reduce platform like Apache Spark easy and efficient to use for processing genomic data? val kmers = sc.loadAlignments(“/path/to/my/reads.sam”) .flatMap(_.getSequence.sliding(21).map(k => (k, 1L))) .reduceByKey(_ + _)
  • 34. 34| © 2017 Pure Storage Inc. CLUSTER 構成例 FlashBlade Switch … 64 node Hadoop YARN/HDFS cluster 16 cores, 256GB RAM, 4TB per node Running Spark on NFS
  • 35. 35| © 2017 Pure Storage Inc. HIGHER LEVEL PRIMITIVES ENABLE OPTIMIZATIONS... ⎯ Maintain sort order across runs and optimize to reduce data skew ⎯ Leverage indices/sort orders ⎯ Push down join/filter queries into storage ⎯ Use join optimizations to develop BEDtools equivalent
  • 36. 36| © 2017 Pure Storage Inc. SCALABILITYを提供するプラットフォーム ⎯ 30–50x speedup over traditional implementations ⎯ Speedup extends to O (16MB data / core) ⎯ 3x improvement in analysis cost
  • 37. 37| © 2017 Pure Storage Inc. 1m + IOPsAND >18 GB/s *>75 GB/sPerformance NFSv3, Object/S3AND 1.1 PBs (2:1) *5.3 PBs (2:1) N+2 redundancy PurityPLUS Pure1 8TB & 17TBOR 52TBBLADES PowerMAX 1850WattFully Loaded FLASHBLADE
  • 38. 38| © 2017 Pure Storage Inc. WATCH FLASHBLADE SCALE-OUT INSTANTLY 7 Blades 56TBs Raw 66 TBs Effective* 30 Blades Preview 1,560 TBs非圧縮容量 2,144 TBs有効容量* 最大 30GB/Sec 1M IOPS以上 Mix/Match 8.8TB, 52.8TB, or Future Blades リニアな拡張:各ブレードを即座に追加 容量 – IOPS – METADATA – NVRAM – 帯域 9 Blades 15 Blades 8.8TB Blades 52.8TB Blades 364 TBs Raw 394 TBs Effective* 72TBs Raw 95 TBs Effective* 468 TBs Raw 570 TBs Effective* 120TBs Raw 179 TBs Effective* 780 TBs Raw 1,072 TBs Effective* 17TB Blades 64TBs Raw 128 TBs Effective* 91.8 TBs Raw 183.6 TBs Effective* 172.6TBs Raw 345 TBs Effective* *圧縮時の有効容量は参考でありその容量を保証するものではありません。
  • 39. 39| © 2017 Pure Storage Inc. Proprietary & Confidential – Do Not Share Outside of Pure FlashBlade Hardware Designed for High Concurrency and High Performance Environments Blades • Capacity & Performance • Embedded NVRAM FLASHBLADE Chassis • Up to 15 Blades • 4RU Height • N+2 Redundant, Heals in Place Fabric Module • 8 x 40GbE External ports System Resources (15x52) • >200 (x86+ARM) cores • ~2 TB RAM • 780TB NAND Flash • 8x40GbE Ports System Power ~ 2KW
  • 40. 40| © 2017 Pure Storage Inc. FLASHBLADE ブレード INTEL XEON SoC 演算 + ネットワーキング + チップセット 低電力、低コスト設計 8個の完全XEONコア DRAM メモリー プログラマブル プロセッサー 1個のFPGA、2個のARMコア ELASTIC FABRIC コネクター NANDフラッシュ 17TB または 52TB PURITY FB ソフトウェア すべてのプロセッサー 上で分散して稼働 統合 NV-RAM スーパーコンデンサーが 支える書き込みバッファ PCIE 接続 PCIe上でCPUとフラッシュが独 自仕様のプロトコルを介して通信 FLASHBLADEの仕様、機能、価格はすべて暫定であり、一般提供時に変更される可能性があります。有効容量はすべてのオーバーヘッドとデータ削減率3:1を想定しています。
  • 41. 41| © 2017 Pure Storage Inc. REAL RESILIENCY DESIGNED FOR 99.9999% AVAILABILITY N+2 Data, Metadata, and NV-RAM all protected with N+2 redundancy 1/N Loss on Failure Blade failure results in predictable 1/N loss in IO and metadata performance Rebuilds in Place Heals around blade failure to return the array to full parity within hours Advanced ECC Software-based Flash ECC protects against flash aging and bit errors over time Multi-Layer Integrity Multiple layers of checksums and protection for both data and metadata ensure integrity
  • 42. 42| © 2017 Pure Storage Inc. FLASHBLADE INDUSTRY’S FIRST CLOUD-ERA FLASH PURPOSE-BUILT FOR MODERN ANALYTICS SIMPLE Evergreen No Manual Tuning Just Add Blades for Performance BIG 10’s of Thousands of Clients 10’s of Billions of Objects & Files 8 Petabytes with Single IP FAST Elastic Performance Up to 75 GB/s Always-Fast, Small to Large Files Massively Parallel from SW to Flash 75 blade feature is subject to GA release Deep LearningやAnalyticsの環境に、新たなアプローチで ワークロードを改善するデータプラットフォームソ リューションがあります。 詳細のお問い合わせ、検証のご相談などお待ちしており ます。 まとめ