SlideShare uma empresa Scribd logo
1 de 21
Baixar para ler offline
1© Copyright 2016 Pivotal. All rights reserved. 1© Copyright 2016 Pivotal. All rights reserved.
データ活用を推進する
「Pivotal HDB(Apache HAWQ(ホーク))」
2016年12月14日	
Pivotalジャパン株式会社	
技術統括部	
松下 正之	
- SQL on Hadoop の決定版、Pivotal HDB2.0技術解説 -
2© Copyright 2016 Pivotal. All rights reserved.
Pivotalの提供するサイクルモデル	
データ活用成功のためのサイクルモデル
3© Copyright 2016 Pivotal. All rights reserved.
Pivotalの主要製品ポートフォリオ
クラウド
アジャイル
Pivotal Cloud Foundry
PaaS基盤 (オープンソース・商用版)
Pivotal Labs
アジャイル開発&データサイエンス
オープンソース
Spring, Rabbit MQ, Redis等
Pivotal
Greenplum
並列処理DB
Pivotal GemFire
インメモリ
データストア
ビッグデータ
Pivotal HDB
Hadoop及びNative SQLエンジン
クラウドサービス=新たなハードウェア
4© Copyright 2016 Pivotal. All rights reserved.
Pivotal HDB
(Apache HAWQ)
5© Copyright 2016 Pivotal. All rights reserved.
Pivotal HDB or Apache HAWQ ?
Ÿ  これまで商用版として提供していた、Pivotal HAWQを昨年OSS化
Ÿ  それに伴い名称変更
–  商用版: Pivotal HDB OSS版: Apache HAWQ
6© Copyright 2016 Pivotal. All rights reserved.
Pivotal HDB 概要	
•  Pivotal HDB
–  オープンソースのApache HAWQの商用版
–  HAWQ: HAdoop With Query、読み方: ホーク
–  参考URL: http://hawq.incubator.apache.org/
–  Pivotal HDB 2.1(最新)の主要機能
–  性能:HDFSに対する標準SQLによる高速クエリ処理	
–  連携:Hive、Hbase、Avro、等 Hadoopデータとの連携
–  エンタープライズストレージ対応	
–  EMC Isilonとの連携
–  Pivotalのデータレーク・アーキテクチャの分析エンジンの要
7© Copyright 2016 Pivotal. All rights reserved.
SQL on Hadoop “HDB(HAWQ)”
Ÿ  HDFS上の高速データベースエンジン	
–  ビッグデータに対する高速クエリ処理	
–  標準SQL準拠	
–  データ・ローカリティ/ショート・サーキット・
リード機能
–  統計解析関数 MADlib に対応
▪  http://madlib.incubator.apache.org/
Ÿ  HDB 2.x - 主なハイライト -
–  Elastic Query Execution Runtime機能
–  Ambariによる統合管理
–  YARN対応
–  HCatalog対応
HDFS
PigMapReduce
Hadoop
8© Copyright 2016 Pivotal. All rights reserved.
Pivotal HDP/HDBのコンポーネント
Apache	
 Pivotal追加機能	
セキュリティ	
 プロビジョ
ニング	
管理	
監視	
Ranger	
Knox	
Atlas	
HDFS	
encrypt
ion	
スケジュー
リング	
Oozie	
Ambari	
Cloudbr
eak	
Zookee
per	
データ	
ライフサイクル	
&	
ガバナンス	
Atlas	
Falcon	
データ	
ワークフロー	
WebHDFS	
NFS	
Kafka	
Flume	
Sqoop	
Xtension

フレームワーク	
カタログ	
サービス	
クエリオプティマイザ	
ANSI SQL + アナリティクス	
Pivotal HDB	
MADlib アルゴリズム	
ダイナミックパイプライニング	
Map	
Reduce	
Solr	
 Spark	
Pig	
Tez	
Hive	
Tez	
Storm	
Slider	
Slider	
Hbase
Accumulo
Phoenix
HDB	
ツール	
Ambari	
User	
Views	
Zeppelin	
Hadoop分散ファイルシステム	
HDFS	
YARN	
データアクセス	
Pivotal HDP
9© Copyright 2016 Pivotal. All rights reserved.
Hadoop処理をより高速に
OS
HDFS
MapReduce
OS
GPDB
データ
処理層
データ
IO層
OS
HDFS
HDB
•  Cプロセスによる低
いオーバヘッド
•  中間データのオン
メモリ処理
•  Javaプロセスによる
高いオーバヘッド
•  中間データのオンディ
スク処理
HDFSレイヤーにIO処理
時のオーバヘッド
•  Cプロセスによる低
いオーバヘッド
•  中間データのオン
メモリ処理
10© Copyright 2016 Pivotal. All rights reserved.
Pivotal HDB2.x系性能検証 (業界標準指標TPC-DSを使用)
Ÿ  TPC-DS Performance Review
–  比較: Pivotal HDB2.0 vs. Cloudera Impala 2.5
Ÿ  別資料で説明致します
–  Pivotal HDBの導入を検討されている方で、本内容にご興味のある方は、
私(松下)もしくはPivotal社員まで別途お問い合せ下さい
11© Copyright 2016 Pivotal. All rights reserved.
Pivotal eXtension Framework(PXF)
Ÿ  HDB(HAWQ)から外部データに対して、
クエリアクセスを可能にする拡張フレー
ムワーク	
Ÿ  HDFS上のファイル、Hiveテーブル、
Hbaseテーブルのデータなどにアクセ
スするためのビルトイン・コネクタ	
–  HDFS/Hive/HBase/AVRO
Ÿ  拡張フレームワークによる、連携対象
データの追加も可能
–  ユーザは他のデータストアにアクセスするた
めのオリジナル・コネクタ(Java)を作成するこ
とも可能
HDFS HBase Hive
Xtension Framework
12© Copyright 2016 Pivotal. All rights reserved.
HDB(HAWQ)高度分析機能の標準実装
Ÿ  パラレル処理による高い性能	
Ÿ  SQLインタフェイス	
Ÿ  分析関数 MADLib の標準実装	
–  線形回帰	
–  ロジスティック回帰	
–  多重ロジスティック回帰	
–  K平均	
–  アソシエーションルール	
–  PLDA
–  …
13© Copyright 2016 Pivotal. All rights reserved.
高度分析機能MADlibの標準実装
予測的モデリングライブラリ
線形システム解析
•  疎行列ソルバー
•  密行列ソルバー
行列因子分解
•  特異値分解 (SVD)
•  低ランク近似
一般化線形モデル
•  線形回帰
•  ロジスティック回帰
•  多項ロジスティック回帰
•  コックス比例ハザード
•  回帰分析
•  エラスティックネット型正規化
•  サンドイッチ推定
機械学習アルゴリズム
•  主成分分析(PCA)
•  アソシエーションルール分析 (アフィニティ分
析,マーケットバスケット分析)
•  トピックモデリング (パラレルLDA)
•  決定木
•  アンサンブル学習(ランダムフォレスト)
•  サポートベクターマシン
•  コンディショナルランダムフィールズ(CRF)
•  クラスタリング (K平均法)
•  クロスバリデーション
記述統計
スケッチベース推定
•  CountMinスケッチ
•  Flajolet-Martinスケッチ
•  最頻値スケッチ	
相関関係
統計値サマリ
サポートモジュール
配列演算
疎ベクトル
ランダムサンプリング	
確率関数
Latest release: MADlib v1.9, URL: madlib.net
14© Copyright 2016 Pivotal. All rights reserved.
Pivotal HDB
(Apache HAWQ)
詳細
15© Copyright 2016 Pivotal. All rights reserved.
HAWQ
Ÿ  HAWQのサービス
Ÿ  マスターサービス
Ÿ  クライアント接続の制御
Ÿ  問い合わせへの回答
Ÿ  クエリプランの作成
Ÿ  スレーブノードへの処理の割り当て、処理
結果のとりまとめ
Ÿ  メタデータ (global system catalog)の保
持・管理(ユーザデータは保持しない)
HAWQ Standby Master
HAWQ Segment Server
HAWQ Master
Ÿ  マスターサービス
Ÿ  HA構成におけるウォーム・スタンバイノード(手動HA)
Ÿ  HAWQ Masterとの間でトランザクションログのレプリ
ケーションを実施(メタデータの同期)
Ÿ  スレーブサービス
Ÿ  Masterからのクエリプランに従いHDFS上のユーザ
データを処理
16© Copyright 2016 Pivotal. All rights reserved.
HAWQ
Ÿ  HAWQの構成
–  マスター/スレーブ構成。マスターサービスはActive – Standby のHA構成
–  HDFS稼働が前提。
–  PXFを通じてHive / HBase連携する場合はその準備も必要
–  スケールアウト (必要に応じてスレーブノードの追加が可能)
HAWQ
Segment Server
HAWQ
Master
HAWQ
Standby Master
マスター系ノード(HA構成)
スレーブ系ノード
HAWQ
Segment Server
HAWQ
Segment Server
HAWQ
Segment Server
HAWQ
Segment Server
HA
HDFS
17© Copyright 2016 Pivotal. All rights reserved.
HAWQ データ書き込み(InsertによるCSVファイルのロード)
Inter Connect
HAWQ
Master
HDFS
DataNode
HAWQ
Segment 2
HDFS
DataNode
HAWQ
Segment 3
HDFS
DataNode
HAWQ
Segment 1
1 1 1
libhdfs3 libhdfs3 libhdfs3
HDFS
DataNode
HAWQ
Segment 4
libhdfs3
2 2 2
3 33
書き込み要求
HDFS
NameNode
HAWQ
Metadata
HDFS
NameNode
Address HDFS
Datanode list
Point!
Pivotalが改良した
libhdfs3(C API)により高
速にHDFSへデータ配置
Point!
<Data Locality>
セグメントに割り振られた
データブロックの1つを必ず
自身のデータノードに配置
gpfdist
18© Copyright 2016 Pivotal. All rights reserved.
Read 要求
HAWQ Data読み込み(Selectによるデータの参照)
Inter Connect
HAWQ
Master
HDFS
NameNode
HDFS
DataNode
HAWQ
Segment 2
HDFS
DataNode
HAWQ
Segment 3
HDFS
DataNode
HAWQ
Segment 1
1 1 1
libhdfs3 libhdfs3
HDFS
DataNode
HAWQ
Segment 4
libhdfs3
2 2 2
3 33
List of file
to read HDFS
Datanode list
Point!
<Short circuit read>
ローカルディスクにあるデータブロッ
クをlibhdfs3を通して、最優先で読
み込む。
DataNode(Java)を介さず直接HDD
より読み込むことで高速化を実現し
ている。
これをShort circuit readをいう。
libhdfs3
19© Copyright 2016 Pivotal. All rights reserved.
Pivotal HDB(Apache HAWQ)がもたらす価値
Ÿ  インタラクティブな分析環境の提供
–  Hiveと比較して数十倍から数百倍の性能向上
Ÿ  既存資産(プログラムとスキル)の活用
–  ANSI SQL92,98,2003への対応
Ÿ  Hadoop環境でBI/BAツールを利用してデータ分析
–  ODBC/JDBC標準インターフェースを提供
Ÿ  データ連携機能により、Hadoop/HDB間のデータ移動が不要
–  PXF機能によるHive、Hbase、Avro、等のHadoopデータへの透過的クエリアクセス
Ÿ  既存DBとのデータ二重持ちコストの削減
–  HDFS上への全データの統合
20© Copyright 2016 Pivotal. All rights reserved.
おまけ
Ÿ  Pivotal HDBをちょっと使ってみたい方には、
–  HDB 2.0 Sandbox on HDP VM をご用意しております
–  https://network.pivotal.io/products/pivotal-hdb#/releases/1695 (無償・ユーザ登録)
Ÿ  Pivotal Japan Tech Community のご紹介
–  Pivotal関連の技術情報を共有するグループ
–  https://pivotal-japan.connpass.com/
21© Copyright 2016 Pivotal. All rights reserved.

Mais conteúdo relacionado

Mais procurados

(LT)Spark and Cassandra
(LT)Spark and Cassandra(LT)Spark and Cassandra
(LT)Spark and Cassandradatastaxjp
 
[db tech showcase Tokyo 2015] D13:PCIeフラッシュで、高可用性高性能データベースシステム?! by 株式会社HGSTジ...
[db tech showcase Tokyo 2015] D13:PCIeフラッシュで、高可用性高性能データベースシステム?! by 株式会社HGSTジ...[db tech showcase Tokyo 2015] D13:PCIeフラッシュで、高可用性高性能データベースシステム?! by 株式会社HGSTジ...
[db tech showcase Tokyo 2015] D13:PCIeフラッシュで、高可用性高性能データベースシステム?! by 株式会社HGSTジ...Insight Technology, Inc.
 
A21 列指向DB HP Vertica ~その圧倒的な高速検索の謎を解き明かす~ byKeizo Aizawa
A21 列指向DB HP Vertica ~その圧倒的な高速検索の謎を解き明かす~ byKeizo AizawaA21 列指向DB HP Vertica ~その圧倒的な高速検索の謎を解き明かす~ byKeizo Aizawa
A21 列指向DB HP Vertica ~その圧倒的な高速検索の謎を解き明かす~ byKeizo AizawaInsight Technology, Inc.
 
Struggle against crossdomain data complexity in Recruit Group
Struggle against crossdomain data complexity in Recruit GroupStruggle against crossdomain data complexity in Recruit Group
Struggle against crossdomain data complexity in Recruit GroupDataWorks Summit/Hadoop Summit
 
[db tech showcase Tokyo 2015] E27: Neo4jグラフデータベース by クリエーションライン株式会社 李昌桓
[db tech showcase Tokyo 2015] E27: Neo4jグラフデータベース by クリエーションライン株式会社 李昌桓[db tech showcase Tokyo 2015] E27: Neo4jグラフデータベース by クリエーションライン株式会社 李昌桓
[db tech showcase Tokyo 2015] E27: Neo4jグラフデータベース by クリエーションライン株式会社 李昌桓Insight Technology, Inc.
 
[db tech showcase Tokyo 2015] D22:インメモリープラットホームSAP HANAのご紹介と最新情報 by SAPジャパン株式...
[db tech showcase Tokyo 2015] D22:インメモリープラットホームSAP HANAのご紹介と最新情報 by SAPジャパン株式...[db tech showcase Tokyo 2015] D22:インメモリープラットホームSAP HANAのご紹介と最新情報 by SAPジャパン株式...
[db tech showcase Tokyo 2015] D22:インメモリープラットホームSAP HANAのご紹介と最新情報 by SAPジャパン株式...Insight Technology, Inc.
 
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017Cloudera Japan
 
Spark 2.0 What's Next (Hadoop / Spark Conference Japan 2016 キーノート講演資料)
Spark 2.0 What's Next (Hadoop / Spark Conference Japan 2016 キーノート講演資料)Spark 2.0 What's Next (Hadoop / Spark Conference Japan 2016 キーノート講演資料)
Spark 2.0 What's Next (Hadoop / Spark Conference Japan 2016 キーノート講演資料)Hadoop / Spark Conference Japan
 
[db tech showcase Tokyo 2015] B36:Hitachi Advanced Data Binder 実践SQLチューニング方法 ...
[db tech showcase Tokyo 2015] B36:Hitachi Advanced Data Binder 実践SQLチューニング方法 ...[db tech showcase Tokyo 2015] B36:Hitachi Advanced Data Binder 実践SQLチューニング方法 ...
[db tech showcase Tokyo 2015] B36:Hitachi Advanced Data Binder 実践SQLチューニング方法 ...Insight Technology, Inc.
 
20190314 PGStrom Arrow_Fdw
20190314 PGStrom Arrow_Fdw20190314 PGStrom Arrow_Fdw
20190314 PGStrom Arrow_FdwKohei KaiGai
 
[db tech showcase Tokyo 2015] E26 Couchbaseの最新情報/JBoss Data Virtualizationで仮想...
[db tech showcase Tokyo 2015] E26 Couchbaseの最新情報/JBoss Data Virtualizationで仮想...[db tech showcase Tokyo 2015] E26 Couchbaseの最新情報/JBoss Data Virtualizationで仮想...
[db tech showcase Tokyo 2015] E26 Couchbaseの最新情報/JBoss Data Virtualizationで仮想...Masahiro Tomisugi
 
【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~
【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~
【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~Developers Summit
 
Introduction to Impala ~Hadoop用のSQLエンジン~ #hcj13w
Introduction to Impala ~Hadoop用のSQLエンジン~ #hcj13wIntroduction to Impala ~Hadoop用のSQLエンジン~ #hcj13w
Introduction to Impala ~Hadoop用のSQLエンジン~ #hcj13wCloudera Japan
 
[data analytics showcase] B16: Live Demo! データ分析基盤を支えるデータレプリケーション技術とデータワークロード分...
[data analytics showcase] B16: Live Demo! データ分析基盤を支えるデータレプリケーション技術とデータワークロード分...[data analytics showcase] B16: Live Demo! データ分析基盤を支えるデータレプリケーション技術とデータワークロード分...
[data analytics showcase] B16: Live Demo! データ分析基盤を支えるデータレプリケーション技術とデータワークロード分...Insight Technology, Inc.
 
Cloudera World Tokyo 2015 Oracleセッション資料 「ビッグデータ/IoTの最新事例とHadoop活用の勘所」
Cloudera World Tokyo 2015 Oracleセッション資料 「ビッグデータ/IoTの最新事例とHadoop活用の勘所」Cloudera World Tokyo 2015 Oracleセッション資料 「ビッグデータ/IoTの最新事例とHadoop活用の勘所」
Cloudera World Tokyo 2015 Oracleセッション資料 「ビッグデータ/IoTの最新事例とHadoop活用の勘所」オラクルエンジニア通信
 
2017年5月26日 オープンソースデータベース比較セミナー「NoSQLとしても使えるMySQLとMySQL Cluster」
2017年5月26日 オープンソースデータベース比較セミナー「NoSQLとしても使えるMySQLとMySQL Cluster」2017年5月26日 オープンソースデータベース比較セミナー「NoSQLとしても使えるMySQLとMySQL Cluster」
2017年5月26日 オープンソースデータベース比較セミナー「NoSQLとしても使えるMySQLとMySQL Cluster」Ryusuke Kajiyama
 

Mais procurados (20)

(LT)Spark and Cassandra
(LT)Spark and Cassandra(LT)Spark and Cassandra
(LT)Spark and Cassandra
 
オラクルのHadoopソリューションご紹介
オラクルのHadoopソリューションご紹介オラクルのHadoopソリューションご紹介
オラクルのHadoopソリューションご紹介
 
0151209 Oracle DDD OracleとHadoop連携の勘所
0151209 Oracle DDD OracleとHadoop連携の勘所0151209 Oracle DDD OracleとHadoop連携の勘所
0151209 Oracle DDD OracleとHadoop連携の勘所
 
[db tech showcase Tokyo 2015] D13:PCIeフラッシュで、高可用性高性能データベースシステム?! by 株式会社HGSTジ...
[db tech showcase Tokyo 2015] D13:PCIeフラッシュで、高可用性高性能データベースシステム?! by 株式会社HGSTジ...[db tech showcase Tokyo 2015] D13:PCIeフラッシュで、高可用性高性能データベースシステム?! by 株式会社HGSTジ...
[db tech showcase Tokyo 2015] D13:PCIeフラッシュで、高可用性高性能データベースシステム?! by 株式会社HGSTジ...
 
A21 列指向DB HP Vertica ~その圧倒的な高速検索の謎を解き明かす~ byKeizo Aizawa
A21 列指向DB HP Vertica ~その圧倒的な高速検索の謎を解き明かす~ byKeizo AizawaA21 列指向DB HP Vertica ~その圧倒的な高速検索の謎を解き明かす~ byKeizo Aizawa
A21 列指向DB HP Vertica ~その圧倒的な高速検索の謎を解き明かす~ byKeizo Aizawa
 
Struggle against crossdomain data complexity in Recruit Group
Struggle against crossdomain data complexity in Recruit GroupStruggle against crossdomain data complexity in Recruit Group
Struggle against crossdomain data complexity in Recruit Group
 
Yahoo! JAPANでのHadoop利用について
Yahoo! JAPANでのHadoop利用についてYahoo! JAPANでのHadoop利用について
Yahoo! JAPANでのHadoop利用について
 
[db tech showcase Tokyo 2015] E27: Neo4jグラフデータベース by クリエーションライン株式会社 李昌桓
[db tech showcase Tokyo 2015] E27: Neo4jグラフデータベース by クリエーションライン株式会社 李昌桓[db tech showcase Tokyo 2015] E27: Neo4jグラフデータベース by クリエーションライン株式会社 李昌桓
[db tech showcase Tokyo 2015] E27: Neo4jグラフデータベース by クリエーションライン株式会社 李昌桓
 
[db tech showcase Tokyo 2015] D22:インメモリープラットホームSAP HANAのご紹介と最新情報 by SAPジャパン株式...
[db tech showcase Tokyo 2015] D22:インメモリープラットホームSAP HANAのご紹介と最新情報 by SAPジャパン株式...[db tech showcase Tokyo 2015] D22:インメモリープラットホームSAP HANAのご紹介と最新情報 by SAPジャパン株式...
[db tech showcase Tokyo 2015] D22:インメモリープラットホームSAP HANAのご紹介と最新情報 by SAPジャパン株式...
 
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017
 
Spark 2.0 What's Next (Hadoop / Spark Conference Japan 2016 キーノート講演資料)
Spark 2.0 What's Next (Hadoop / Spark Conference Japan 2016 キーノート講演資料)Spark 2.0 What's Next (Hadoop / Spark Conference Japan 2016 キーノート講演資料)
Spark 2.0 What's Next (Hadoop / Spark Conference Japan 2016 キーノート講演資料)
 
[db tech showcase Tokyo 2015] B36:Hitachi Advanced Data Binder 実践SQLチューニング方法 ...
[db tech showcase Tokyo 2015] B36:Hitachi Advanced Data Binder 実践SQLチューニング方法 ...[db tech showcase Tokyo 2015] B36:Hitachi Advanced Data Binder 実践SQLチューニング方法 ...
[db tech showcase Tokyo 2015] B36:Hitachi Advanced Data Binder 実践SQLチューニング方法 ...
 
20190314 PGStrom Arrow_Fdw
20190314 PGStrom Arrow_Fdw20190314 PGStrom Arrow_Fdw
20190314 PGStrom Arrow_Fdw
 
[db tech showcase Tokyo 2015] E26 Couchbaseの最新情報/JBoss Data Virtualizationで仮想...
[db tech showcase Tokyo 2015] E26 Couchbaseの最新情報/JBoss Data Virtualizationで仮想...[db tech showcase Tokyo 2015] E26 Couchbaseの最新情報/JBoss Data Virtualizationで仮想...
[db tech showcase Tokyo 2015] E26 Couchbaseの最新情報/JBoss Data Virtualizationで仮想...
 
【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~
【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~
【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~
 
Introduction to Impala ~Hadoop用のSQLエンジン~ #hcj13w
Introduction to Impala ~Hadoop用のSQLエンジン~ #hcj13wIntroduction to Impala ~Hadoop用のSQLエンジン~ #hcj13w
Introduction to Impala ~Hadoop用のSQLエンジン~ #hcj13w
 
[data analytics showcase] B16: Live Demo! データ分析基盤を支えるデータレプリケーション技術とデータワークロード分...
[data analytics showcase] B16: Live Demo! データ分析基盤を支えるデータレプリケーション技術とデータワークロード分...[data analytics showcase] B16: Live Demo! データ分析基盤を支えるデータレプリケーション技術とデータワークロード分...
[data analytics showcase] B16: Live Demo! データ分析基盤を支えるデータレプリケーション技術とデータワークロード分...
 
Cloudera World Tokyo 2015 Oracleセッション資料 「ビッグデータ/IoTの最新事例とHadoop活用の勘所」
Cloudera World Tokyo 2015 Oracleセッション資料 「ビッグデータ/IoTの最新事例とHadoop活用の勘所」Cloudera World Tokyo 2015 Oracleセッション資料 「ビッグデータ/IoTの最新事例とHadoop活用の勘所」
Cloudera World Tokyo 2015 Oracleセッション資料 「ビッグデータ/IoTの最新事例とHadoop活用の勘所」
 
日々進化するHadoopの 「いま」
日々進化するHadoopの 「いま」日々進化するHadoopの 「いま」
日々進化するHadoopの 「いま」
 
2017年5月26日 オープンソースデータベース比較セミナー「NoSQLとしても使えるMySQLとMySQL Cluster」
2017年5月26日 オープンソースデータベース比較セミナー「NoSQLとしても使えるMySQLとMySQL Cluster」2017年5月26日 オープンソースデータベース比較セミナー「NoSQLとしても使えるMySQLとMySQL Cluster」
2017年5月26日 オープンソースデータベース比較セミナー「NoSQLとしても使えるMySQLとMySQL Cluster」
 

Destaque

S3Guard: What's in your consistency model?
S3Guard: What's in your consistency model?S3Guard: What's in your consistency model?
S3Guard: What's in your consistency model?Hortonworks
 
Hortonworks Data Cloud for AWS
Hortonworks Data Cloud for AWS Hortonworks Data Cloud for AWS
Hortonworks Data Cloud for AWS Hortonworks
 
Introduction to Hortonworks Data Cloud for AWS
Introduction to Hortonworks Data Cloud for AWSIntroduction to Hortonworks Data Cloud for AWS
Introduction to Hortonworks Data Cloud for AWSYifeng Jiang
 
患者報告式アウトカム尺度における 臨床的意味のある変化の定め方
患者報告式アウトカム尺度における臨床的意味のある変化の定め方患者報告式アウトカム尺度における臨床的意味のある変化の定め方
患者報告式アウトカム尺度における 臨床的意味のある変化の定め方Yasuyuki Okumura
 
プレゼンテーションデザイン
プレゼンテーションデザインプレゼンテーションデザイン
プレゼンテーションデザイン猛 近藤
 
ジャーナルの批判的吟味と委託研究について
ジャーナルの批判的吟味と委託研究についてジャーナルの批判的吟味と委託研究について
ジャーナルの批判的吟味と委託研究についてk-kajiwara
 
#FTMA15 第一回 鬼コース 全PDF
#FTMA15 第一回 鬼コース 全PDF#FTMA15 第一回 鬼コース 全PDF
#FTMA15 第一回 鬼コース 全PDFYoichi Ochiai
 
THAの適応と成績20130409
THAの適応と成績20130409THAの適応と成績20130409
THAの適応と成績20130409Masatoshi Oba
 
"おもしろい研究"への挑戦 - Challenges for "Omoshiroi" research
"おもしろい研究"への挑戦 - Challenges for "Omoshiroi" research"おもしろい研究"への挑戦 - Challenges for "Omoshiroi" research
"おもしろい研究"への挑戦 - Challenges for "Omoshiroi" researchAkihiko Shirai
 
Tokyo r25 hiro_macchan
Tokyo r25 hiro_macchanTokyo r25 hiro_macchan
Tokyo r25 hiro_macchanHiroki Matsui
 
整形外科外傷理学療法研究会用 足関節 
整形外科外傷理学療法研究会用 足関節 整形外科外傷理学療法研究会用 足関節 
整形外科外傷理学療法研究会用 足関節 orthopedictraumareha
 
第6章 2つの平均値を比較する - TokyoR #28
第6章 2つの平均値を比較する - TokyoR #28第6章 2つの平均値を比較する - TokyoR #28
第6章 2つの平均値を比較する - TokyoR #28horihorio
 
ロジスティック回帰分析を扱った予測モデル作成研究事例の要約
ロジスティック回帰分析を扱った予測モデル作成研究事例の要約ロジスティック回帰分析を扱った予測モデル作成研究事例の要約
ロジスティック回帰分析を扱った予測モデル作成研究事例の要約Michimasa Haga
 
地域包括ケアにおけるICT利活用について
地域包括ケアにおけるICT利活用について地域包括ケアにおけるICT利活用について
地域包括ケアにおけるICT利活用についてHealthcareBitStation
 
無作為化比較試験の方法の批判的な読み方
無作為化比較試験の方法の批判的な読み方無作為化比較試験の方法の批判的な読み方
無作為化比較試験の方法の批判的な読み方Yasuyuki Okumura
 
130411文献検索の方法(講義用)
130411文献検索の方法(講義用)130411文献検索の方法(講義用)
130411文献検索の方法(講義用)Yuko Matsumura
 
状態空間モデルの考え方・使い方 - TokyoR #38
状態空間モデルの考え方・使い方 - TokyoR #38状態空間モデルの考え方・使い方 - TokyoR #38
状態空間モデルの考え方・使い方 - TokyoR #38horihorio
 
ロジスティック回帰分析の入門 -予測モデル構築-
ロジスティック回帰分析の入門 -予測モデル構築-ロジスティック回帰分析の入門 -予測モデル構築-
ロジスティック回帰分析の入門 -予測モデル構築-Koichiro Gibo
 
Rで学ぶ観察データでの因果推定
Rで学ぶ観察データでの因果推定Rで学ぶ観察データでの因果推定
Rで学ぶ観察データでの因果推定Hiroki Matsui
 

Destaque (20)

S3Guard: What's in your consistency model?
S3Guard: What's in your consistency model?S3Guard: What's in your consistency model?
S3Guard: What's in your consistency model?
 
Hortonworks Data Cloud for AWS
Hortonworks Data Cloud for AWS Hortonworks Data Cloud for AWS
Hortonworks Data Cloud for AWS
 
Introduction to Hortonworks Data Cloud for AWS
Introduction to Hortonworks Data Cloud for AWSIntroduction to Hortonworks Data Cloud for AWS
Introduction to Hortonworks Data Cloud for AWS
 
患者報告式アウトカム尺度における 臨床的意味のある変化の定め方
患者報告式アウトカム尺度における臨床的意味のある変化の定め方患者報告式アウトカム尺度における臨床的意味のある変化の定め方
患者報告式アウトカム尺度における 臨床的意味のある変化の定め方
 
疾患を意識した関節所見の取り方
疾患を意識した関節所見の取り方疾患を意識した関節所見の取り方
疾患を意識した関節所見の取り方
 
プレゼンテーションデザイン
プレゼンテーションデザインプレゼンテーションデザイン
プレゼンテーションデザイン
 
ジャーナルの批判的吟味と委託研究について
ジャーナルの批判的吟味と委託研究についてジャーナルの批判的吟味と委託研究について
ジャーナルの批判的吟味と委託研究について
 
#FTMA15 第一回 鬼コース 全PDF
#FTMA15 第一回 鬼コース 全PDF#FTMA15 第一回 鬼コース 全PDF
#FTMA15 第一回 鬼コース 全PDF
 
THAの適応と成績20130409
THAの適応と成績20130409THAの適応と成績20130409
THAの適応と成績20130409
 
"おもしろい研究"への挑戦 - Challenges for "Omoshiroi" research
"おもしろい研究"への挑戦 - Challenges for "Omoshiroi" research"おもしろい研究"への挑戦 - Challenges for "Omoshiroi" research
"おもしろい研究"への挑戦 - Challenges for "Omoshiroi" research
 
Tokyo r25 hiro_macchan
Tokyo r25 hiro_macchanTokyo r25 hiro_macchan
Tokyo r25 hiro_macchan
 
整形外科外傷理学療法研究会用 足関節 
整形外科外傷理学療法研究会用 足関節 整形外科外傷理学療法研究会用 足関節 
整形外科外傷理学療法研究会用 足関節 
 
第6章 2つの平均値を比較する - TokyoR #28
第6章 2つの平均値を比較する - TokyoR #28第6章 2つの平均値を比較する - TokyoR #28
第6章 2つの平均値を比較する - TokyoR #28
 
ロジスティック回帰分析を扱った予測モデル作成研究事例の要約
ロジスティック回帰分析を扱った予測モデル作成研究事例の要約ロジスティック回帰分析を扱った予測モデル作成研究事例の要約
ロジスティック回帰分析を扱った予測モデル作成研究事例の要約
 
地域包括ケアにおけるICT利活用について
地域包括ケアにおけるICT利活用について地域包括ケアにおけるICT利活用について
地域包括ケアにおけるICT利活用について
 
無作為化比較試験の方法の批判的な読み方
無作為化比較試験の方法の批判的な読み方無作為化比較試験の方法の批判的な読み方
無作為化比較試験の方法の批判的な読み方
 
130411文献検索の方法(講義用)
130411文献検索の方法(講義用)130411文献検索の方法(講義用)
130411文献検索の方法(講義用)
 
状態空間モデルの考え方・使い方 - TokyoR #38
状態空間モデルの考え方・使い方 - TokyoR #38状態空間モデルの考え方・使い方 - TokyoR #38
状態空間モデルの考え方・使い方 - TokyoR #38
 
ロジスティック回帰分析の入門 -予測モデル構築-
ロジスティック回帰分析の入門 -予測モデル構築-ロジスティック回帰分析の入門 -予測モデル構築-
ロジスティック回帰分析の入門 -予測モデル構築-
 
Rで学ぶ観察データでの因果推定
Rで学ぶ観察データでの因果推定Rで学ぶ観察データでの因果推定
Rで学ぶ観察データでの因果推定
 

Semelhante a データ活用を推進する「Pivotal HDB(Apache HAWQ(ホーク))」

20160220 MSのビッグデータ分析基盤 - データマイニング+WEB@東京
20160220 MSのビッグデータ分析基盤 - データマイニング+WEB@東京20160220 MSのビッグデータ分析基盤 - データマイニング+WEB@東京
20160220 MSのビッグデータ分析基盤 - データマイニング+WEB@東京Koichiro Sasaki
 
[db tech showcase Tokyo 2018] #dbts2018 #E28 『Hadoop DataLakeにリアルタイムでデータをレプリケ...
[db tech showcase Tokyo 2018] #dbts2018 #E28 『Hadoop DataLakeにリアルタイムでデータをレプリケ...[db tech showcase Tokyo 2018] #dbts2018 #E28 『Hadoop DataLakeにリアルタイムでデータをレプリケ...
[db tech showcase Tokyo 2018] #dbts2018 #E28 『Hadoop DataLakeにリアルタイムでデータをレプリケ...Insight Technology, Inc.
 
Cassandraとh baseの比較して入門するno sql
Cassandraとh baseの比較して入門するno sqlCassandraとh baseの比較して入門するno sql
Cassandraとh baseの比較して入門するno sqlYutuki r
 
もうSQLとNoSQLを選ぶ必要はない!? ~両者を備えたスケールアウトデータベースGridDB~
もうSQLとNoSQLを選ぶ必要はない!? ~両者を備えたスケールアウトデータベースGridDB~もうSQLとNoSQLを選ぶ必要はない!? ~両者を備えたスケールアウトデータベースGridDB~
もうSQLとNoSQLを選ぶ必要はない!? ~両者を備えたスケールアウトデータベースGridDB~griddb
 
WebDB Forum 2012 基調講演資料
WebDB Forum 2012 基調講演資料WebDB Forum 2012 基調講演資料
WebDB Forum 2012 基調講演資料Recruit Technologies
 
クラウドから始めるRのビッグデータ分析- Oracle R Enterprise in Cloud
クラウドから始めるRのビッグデータ分析- Oracle R Enterprise in Cloudクラウドから始めるRのビッグデータ分析- Oracle R Enterprise in Cloud
クラウドから始めるRのビッグデータ分析- Oracle R Enterprise in Cloud幹雄 小川
 
分散KVSをサービス化してみた ~Okuyama(KVS)もFusion-IO(ioDrive)もあるんだよ~
分散KVSをサービス化してみた ~Okuyama(KVS)もFusion-IO(ioDrive)もあるんだよ~分散KVSをサービス化してみた ~Okuyama(KVS)もFusion-IO(ioDrive)もあるんだよ~
分散KVSをサービス化してみた ~Okuyama(KVS)もFusion-IO(ioDrive)もあるんだよ~Masahito Zembutsu
 
ビッグデータ処理データベースの全体像と使い分け - 2017年 Version -
ビッグデータ処理データベースの全体像と使い分け - 2017年 Version - ビッグデータ処理データベースの全体像と使い分け - 2017年 Version -
ビッグデータ処理データベースの全体像と使い分け - 2017年 Version - Tetsutaro Watanabe
 
Object-Functional Analysis and Design : 次世代モデリングパラダイムへの道標
Object-Functional Analysis and Design : 次世代モデリングパラダイムへの道標Object-Functional Analysis and Design : 次世代モデリングパラダイムへの道標
Object-Functional Analysis and Design : 次世代モデリングパラダイムへの道標Tomoharu ASAMI
 
20160121 データサイエンティスト協会 木曜セミナー #5
20160121 データサイエンティスト協会 木曜セミナー #520160121 データサイエンティスト協会 木曜セミナー #5
20160121 データサイエンティスト協会 木曜セミナー #5Koichiro Sasaki
 
RDB技術者のためのNoSQLガイド NoSQLの必要性と位置づけ
RDB技術者のためのNoSQLガイド NoSQLの必要性と位置づけRDB技術者のためのNoSQLガイド NoSQLの必要性と位置づけ
RDB技術者のためのNoSQLガイド NoSQLの必要性と位置づけRecruit Technologies
 
20160127三木会 RDB経験者のためのspark
20160127三木会 RDB経験者のためのspark20160127三木会 RDB経験者のためのspark
20160127三木会 RDB経験者のためのsparkRyuji Tamagawa
 
[db tech showcase Tokyo 2017] A32: Attunity Replicate + Kafka + Hadoop マルチデータ...
[db tech showcase Tokyo 2017] A32: Attunity Replicate + Kafka + Hadoop マルチデータ...[db tech showcase Tokyo 2017] A32: Attunity Replicate + Kafka + Hadoop マルチデータ...
[db tech showcase Tokyo 2017] A32: Attunity Replicate + Kafka + Hadoop マルチデータ...Insight Technology, Inc.
 
sitTokyo2023_DWCで機械学習をやってみた_Shared.pptx
sitTokyo2023_DWCで機械学習をやってみた_Shared.pptxsitTokyo2023_DWCで機械学習をやってみた_Shared.pptx
sitTokyo2023_DWCで機械学習をやってみた_Shared.pptxssuser1525ed
 
経済学のための実践的データ分析 4.SQL ことはじめ
経済学のための実践的データ分析 4.SQL ことはじめ経済学のための実践的データ分析 4.SQL ことはじめ
経済学のための実践的データ分析 4.SQL ことはじめYasushi Hara
 
SparkとCassandraの美味しい関係
SparkとCassandraの美味しい関係SparkとCassandraの美味しい関係
SparkとCassandraの美味しい関係datastaxjp
 
今注目のSpark SQL、知っておきたいその性能とは 20151209 OSC Enterprise
今注目のSpark SQL、知っておきたいその性能とは 20151209 OSC Enterprise今注目のSpark SQL、知っておきたいその性能とは 20151209 OSC Enterprise
今注目のSpark SQL、知っておきたいその性能とは 20151209 OSC EnterpriseYusukeKuramata
 

Semelhante a データ活用を推進する「Pivotal HDB(Apache HAWQ(ホーク))」 (20)

OSC2012 OSC.DB Hadoop
OSC2012 OSC.DB HadoopOSC2012 OSC.DB Hadoop
OSC2012 OSC.DB Hadoop
 
20160220 MSのビッグデータ分析基盤 - データマイニング+WEB@東京
20160220 MSのビッグデータ分析基盤 - データマイニング+WEB@東京20160220 MSのビッグデータ分析基盤 - データマイニング+WEB@東京
20160220 MSのビッグデータ分析基盤 - データマイニング+WEB@東京
 
[db tech showcase Tokyo 2018] #dbts2018 #E28 『Hadoop DataLakeにリアルタイムでデータをレプリケ...
[db tech showcase Tokyo 2018] #dbts2018 #E28 『Hadoop DataLakeにリアルタイムでデータをレプリケ...[db tech showcase Tokyo 2018] #dbts2018 #E28 『Hadoop DataLakeにリアルタイムでデータをレプリケ...
[db tech showcase Tokyo 2018] #dbts2018 #E28 『Hadoop DataLakeにリアルタイムでデータをレプリケ...
 
Cassandraとh baseの比較して入門するno sql
Cassandraとh baseの比較して入門するno sqlCassandraとh baseの比較して入門するno sql
Cassandraとh baseの比較して入門するno sql
 
もうSQLとNoSQLを選ぶ必要はない!? ~両者を備えたスケールアウトデータベースGridDB~
もうSQLとNoSQLを選ぶ必要はない!? ~両者を備えたスケールアウトデータベースGridDB~もうSQLとNoSQLを選ぶ必要はない!? ~両者を備えたスケールアウトデータベースGridDB~
もうSQLとNoSQLを選ぶ必要はない!? ~両者を備えたスケールアウトデータベースGridDB~
 
WebDB Forum 2012 基調講演資料
WebDB Forum 2012 基調講演資料WebDB Forum 2012 基調講演資料
WebDB Forum 2012 基調講演資料
 
クラウドから始めるRのビッグデータ分析- Oracle R Enterprise in Cloud
クラウドから始めるRのビッグデータ分析- Oracle R Enterprise in Cloudクラウドから始めるRのビッグデータ分析- Oracle R Enterprise in Cloud
クラウドから始めるRのビッグデータ分析- Oracle R Enterprise in Cloud
 
分散KVSをサービス化してみた ~Okuyama(KVS)もFusion-IO(ioDrive)もあるんだよ~
分散KVSをサービス化してみた ~Okuyama(KVS)もFusion-IO(ioDrive)もあるんだよ~分散KVSをサービス化してみた ~Okuyama(KVS)もFusion-IO(ioDrive)もあるんだよ~
分散KVSをサービス化してみた ~Okuyama(KVS)もFusion-IO(ioDrive)もあるんだよ~
 
ビッグデータ処理データベースの全体像と使い分け - 2017年 Version -
ビッグデータ処理データベースの全体像と使い分け - 2017年 Version - ビッグデータ処理データベースの全体像と使い分け - 2017年 Version -
ビッグデータ処理データベースの全体像と使い分け - 2017年 Version -
 
Object-Functional Analysis and Design : 次世代モデリングパラダイムへの道標
Object-Functional Analysis and Design : 次世代モデリングパラダイムへの道標Object-Functional Analysis and Design : 次世代モデリングパラダイムへの道標
Object-Functional Analysis and Design : 次世代モデリングパラダイムへの道標
 
20160121 データサイエンティスト協会 木曜セミナー #5
20160121 データサイエンティスト協会 木曜セミナー #520160121 データサイエンティスト協会 木曜セミナー #5
20160121 データサイエンティスト協会 木曜セミナー #5
 
RDB技術者のためのNoSQLガイド NoSQLの必要性と位置づけ
RDB技術者のためのNoSQLガイド NoSQLの必要性と位置づけRDB技術者のためのNoSQLガイド NoSQLの必要性と位置づけ
RDB技術者のためのNoSQLガイド NoSQLの必要性と位置づけ
 
20160127三木会 RDB経験者のためのspark
20160127三木会 RDB経験者のためのspark20160127三木会 RDB経験者のためのspark
20160127三木会 RDB経験者のためのspark
 
[db tech showcase Tokyo 2017] A32: Attunity Replicate + Kafka + Hadoop マルチデータ...
[db tech showcase Tokyo 2017] A32: Attunity Replicate + Kafka + Hadoop マルチデータ...[db tech showcase Tokyo 2017] A32: Attunity Replicate + Kafka + Hadoop マルチデータ...
[db tech showcase Tokyo 2017] A32: Attunity Replicate + Kafka + Hadoop マルチデータ...
 
sitTokyo2023_DWCで機械学習をやってみた_Shared.pptx
sitTokyo2023_DWCで機械学習をやってみた_Shared.pptxsitTokyo2023_DWCで機械学習をやってみた_Shared.pptx
sitTokyo2023_DWCで機械学習をやってみた_Shared.pptx
 
経済学のための実践的データ分析 4.SQL ことはじめ
経済学のための実践的データ分析 4.SQL ことはじめ経済学のための実践的データ分析 4.SQL ことはじめ
経済学のための実践的データ分析 4.SQL ことはじめ
 
JAWS DAYS 2022
JAWS DAYS 2022JAWS DAYS 2022
JAWS DAYS 2022
 
SparkとCassandraの美味しい関係
SparkとCassandraの美味しい関係SparkとCassandraの美味しい関係
SparkとCassandraの美味しい関係
 
Hadoop, NoSQL, GlusterFSの概要
Hadoop, NoSQL, GlusterFSの概要Hadoop, NoSQL, GlusterFSの概要
Hadoop, NoSQL, GlusterFSの概要
 
今注目のSpark SQL、知っておきたいその性能とは 20151209 OSC Enterprise
今注目のSpark SQL、知っておきたいその性能とは 20151209 OSC Enterprise今注目のSpark SQL、知っておきたいその性能とは 20151209 OSC Enterprise
今注目のSpark SQL、知っておきたいその性能とは 20151209 OSC Enterprise
 

データ活用を推進する「Pivotal HDB(Apache HAWQ(ホーク))」

  • 1. 1© Copyright 2016 Pivotal. All rights reserved. 1© Copyright 2016 Pivotal. All rights reserved. データ活用を推進する 「Pivotal HDB(Apache HAWQ(ホーク))」 2016年12月14日 Pivotalジャパン株式会社 技術統括部 松下 正之 - SQL on Hadoop の決定版、Pivotal HDB2.0技術解説 -
  • 2. 2© Copyright 2016 Pivotal. All rights reserved. Pivotalの提供するサイクルモデル データ活用成功のためのサイクルモデル
  • 3. 3© Copyright 2016 Pivotal. All rights reserved. Pivotalの主要製品ポートフォリオ クラウド アジャイル Pivotal Cloud Foundry PaaS基盤 (オープンソース・商用版) Pivotal Labs アジャイル開発&データサイエンス オープンソース Spring, Rabbit MQ, Redis等 Pivotal Greenplum 並列処理DB Pivotal GemFire インメモリ データストア ビッグデータ Pivotal HDB Hadoop及びNative SQLエンジン クラウドサービス=新たなハードウェア
  • 4. 4© Copyright 2016 Pivotal. All rights reserved. Pivotal HDB (Apache HAWQ)
  • 5. 5© Copyright 2016 Pivotal. All rights reserved. Pivotal HDB or Apache HAWQ ? Ÿ  これまで商用版として提供していた、Pivotal HAWQを昨年OSS化 Ÿ  それに伴い名称変更 –  商用版: Pivotal HDB OSS版: Apache HAWQ
  • 6. 6© Copyright 2016 Pivotal. All rights reserved. Pivotal HDB 概要 •  Pivotal HDB –  オープンソースのApache HAWQの商用版 –  HAWQ: HAdoop With Query、読み方: ホーク –  参考URL: http://hawq.incubator.apache.org/ –  Pivotal HDB 2.1(最新)の主要機能 –  性能:HDFSに対する標準SQLによる高速クエリ処理 –  連携:Hive、Hbase、Avro、等 Hadoopデータとの連携 –  エンタープライズストレージ対応 –  EMC Isilonとの連携 –  Pivotalのデータレーク・アーキテクチャの分析エンジンの要
  • 7. 7© Copyright 2016 Pivotal. All rights reserved. SQL on Hadoop “HDB(HAWQ)” Ÿ  HDFS上の高速データベースエンジン –  ビッグデータに対する高速クエリ処理 –  標準SQL準拠 –  データ・ローカリティ/ショート・サーキット・ リード機能 –  統計解析関数 MADlib に対応 ▪  http://madlib.incubator.apache.org/ Ÿ  HDB 2.x - 主なハイライト - –  Elastic Query Execution Runtime機能 –  Ambariによる統合管理 –  YARN対応 –  HCatalog対応 HDFS PigMapReduce Hadoop
  • 8. 8© Copyright 2016 Pivotal. All rights reserved. Pivotal HDP/HDBのコンポーネント Apache Pivotal追加機能 セキュリティ プロビジョ ニング 管理 監視 Ranger Knox Atlas HDFS encrypt ion スケジュー リング Oozie Ambari Cloudbr eak Zookee per データ ライフサイクル & ガバナンス Atlas Falcon データ ワークフロー WebHDFS NFS Kafka Flume Sqoop Xtension
 フレームワーク カタログ サービス クエリオプティマイザ ANSI SQL + アナリティクス Pivotal HDB MADlib アルゴリズム ダイナミックパイプライニング Map Reduce Solr Spark Pig Tez Hive Tez Storm Slider Slider Hbase Accumulo Phoenix HDB ツール Ambari User Views Zeppelin Hadoop分散ファイルシステム HDFS YARN データアクセス Pivotal HDP
  • 9. 9© Copyright 2016 Pivotal. All rights reserved. Hadoop処理をより高速に OS HDFS MapReduce OS GPDB データ 処理層 データ IO層 OS HDFS HDB •  Cプロセスによる低 いオーバヘッド •  中間データのオン メモリ処理 •  Javaプロセスによる 高いオーバヘッド •  中間データのオンディ スク処理 HDFSレイヤーにIO処理 時のオーバヘッド •  Cプロセスによる低 いオーバヘッド •  中間データのオン メモリ処理
  • 10. 10© Copyright 2016 Pivotal. All rights reserved. Pivotal HDB2.x系性能検証 (業界標準指標TPC-DSを使用) Ÿ  TPC-DS Performance Review –  比較: Pivotal HDB2.0 vs. Cloudera Impala 2.5 Ÿ  別資料で説明致します –  Pivotal HDBの導入を検討されている方で、本内容にご興味のある方は、 私(松下)もしくはPivotal社員まで別途お問い合せ下さい
  • 11. 11© Copyright 2016 Pivotal. All rights reserved. Pivotal eXtension Framework(PXF) Ÿ  HDB(HAWQ)から外部データに対して、 クエリアクセスを可能にする拡張フレー ムワーク Ÿ  HDFS上のファイル、Hiveテーブル、 Hbaseテーブルのデータなどにアクセ スするためのビルトイン・コネクタ –  HDFS/Hive/HBase/AVRO Ÿ  拡張フレームワークによる、連携対象 データの追加も可能 –  ユーザは他のデータストアにアクセスするた めのオリジナル・コネクタ(Java)を作成するこ とも可能 HDFS HBase Hive Xtension Framework
  • 12. 12© Copyright 2016 Pivotal. All rights reserved. HDB(HAWQ)高度分析機能の標準実装 Ÿ  パラレル処理による高い性能 Ÿ  SQLインタフェイス Ÿ  分析関数 MADLib の標準実装 –  線形回帰 –  ロジスティック回帰 –  多重ロジスティック回帰 –  K平均 –  アソシエーションルール –  PLDA –  …
  • 13. 13© Copyright 2016 Pivotal. All rights reserved. 高度分析機能MADlibの標準実装 予測的モデリングライブラリ 線形システム解析 •  疎行列ソルバー •  密行列ソルバー 行列因子分解 •  特異値分解 (SVD) •  低ランク近似 一般化線形モデル •  線形回帰 •  ロジスティック回帰 •  多項ロジスティック回帰 •  コックス比例ハザード •  回帰分析 •  エラスティックネット型正規化 •  サンドイッチ推定 機械学習アルゴリズム •  主成分分析(PCA) •  アソシエーションルール分析 (アフィニティ分 析,マーケットバスケット分析) •  トピックモデリング (パラレルLDA) •  決定木 •  アンサンブル学習(ランダムフォレスト) •  サポートベクターマシン •  コンディショナルランダムフィールズ(CRF) •  クラスタリング (K平均法) •  クロスバリデーション 記述統計 スケッチベース推定 •  CountMinスケッチ •  Flajolet-Martinスケッチ •  最頻値スケッチ 相関関係 統計値サマリ サポートモジュール 配列演算 疎ベクトル ランダムサンプリング 確率関数 Latest release: MADlib v1.9, URL: madlib.net
  • 14. 14© Copyright 2016 Pivotal. All rights reserved. Pivotal HDB (Apache HAWQ) 詳細
  • 15. 15© Copyright 2016 Pivotal. All rights reserved. HAWQ Ÿ  HAWQのサービス Ÿ  マスターサービス Ÿ  クライアント接続の制御 Ÿ  問い合わせへの回答 Ÿ  クエリプランの作成 Ÿ  スレーブノードへの処理の割り当て、処理 結果のとりまとめ Ÿ  メタデータ (global system catalog)の保 持・管理(ユーザデータは保持しない) HAWQ Standby Master HAWQ Segment Server HAWQ Master Ÿ  マスターサービス Ÿ  HA構成におけるウォーム・スタンバイノード(手動HA) Ÿ  HAWQ Masterとの間でトランザクションログのレプリ ケーションを実施(メタデータの同期) Ÿ  スレーブサービス Ÿ  Masterからのクエリプランに従いHDFS上のユーザ データを処理
  • 16. 16© Copyright 2016 Pivotal. All rights reserved. HAWQ Ÿ  HAWQの構成 –  マスター/スレーブ構成。マスターサービスはActive – Standby のHA構成 –  HDFS稼働が前提。 –  PXFを通じてHive / HBase連携する場合はその準備も必要 –  スケールアウト (必要に応じてスレーブノードの追加が可能) HAWQ Segment Server HAWQ Master HAWQ Standby Master マスター系ノード(HA構成) スレーブ系ノード HAWQ Segment Server HAWQ Segment Server HAWQ Segment Server HAWQ Segment Server HA HDFS
  • 17. 17© Copyright 2016 Pivotal. All rights reserved. HAWQ データ書き込み(InsertによるCSVファイルのロード) Inter Connect HAWQ Master HDFS DataNode HAWQ Segment 2 HDFS DataNode HAWQ Segment 3 HDFS DataNode HAWQ Segment 1 1 1 1 libhdfs3 libhdfs3 libhdfs3 HDFS DataNode HAWQ Segment 4 libhdfs3 2 2 2 3 33 書き込み要求 HDFS NameNode HAWQ Metadata HDFS NameNode Address HDFS Datanode list Point! Pivotalが改良した libhdfs3(C API)により高 速にHDFSへデータ配置 Point! <Data Locality> セグメントに割り振られた データブロックの1つを必ず 自身のデータノードに配置 gpfdist
  • 18. 18© Copyright 2016 Pivotal. All rights reserved. Read 要求 HAWQ Data読み込み(Selectによるデータの参照) Inter Connect HAWQ Master HDFS NameNode HDFS DataNode HAWQ Segment 2 HDFS DataNode HAWQ Segment 3 HDFS DataNode HAWQ Segment 1 1 1 1 libhdfs3 libhdfs3 HDFS DataNode HAWQ Segment 4 libhdfs3 2 2 2 3 33 List of file to read HDFS Datanode list Point! <Short circuit read> ローカルディスクにあるデータブロッ クをlibhdfs3を通して、最優先で読 み込む。 DataNode(Java)を介さず直接HDD より読み込むことで高速化を実現し ている。 これをShort circuit readをいう。 libhdfs3
  • 19. 19© Copyright 2016 Pivotal. All rights reserved. Pivotal HDB(Apache HAWQ)がもたらす価値 Ÿ  インタラクティブな分析環境の提供 –  Hiveと比較して数十倍から数百倍の性能向上 Ÿ  既存資産(プログラムとスキル)の活用 –  ANSI SQL92,98,2003への対応 Ÿ  Hadoop環境でBI/BAツールを利用してデータ分析 –  ODBC/JDBC標準インターフェースを提供 Ÿ  データ連携機能により、Hadoop/HDB間のデータ移動が不要 –  PXF機能によるHive、Hbase、Avro、等のHadoopデータへの透過的クエリアクセス Ÿ  既存DBとのデータ二重持ちコストの削減 –  HDFS上への全データの統合
  • 20. 20© Copyright 2016 Pivotal. All rights reserved. おまけ Ÿ  Pivotal HDBをちょっと使ってみたい方には、 –  HDB 2.0 Sandbox on HDP VM をご用意しております –  https://network.pivotal.io/products/pivotal-hdb#/releases/1695 (無償・ユーザ登録) Ÿ  Pivotal Japan Tech Community のご紹介 –  Pivotal関連の技術情報を共有するグループ –  https://pivotal-japan.connpass.com/
  • 21. 21© Copyright 2016 Pivotal. All rights reserved.