SlideShare uma empresa Scribd logo
1 de 49
1© Cloudera, Inc. All rights reserved.
Cloudera が提供するエンタープライズ向け運
用、データ管理ツールの使い方
Cloudera 株式会社 川崎 達夫
2© Cloudera, Inc. All rights reserved.
• 創立 2008年
• 社員数 1600人以上
• 機械学習と分析プラットフォーム
• シェアードデータエクスペリエンス
• クラウドネイティブとクラウドの差別化
• オープンソースの革新性と効率性
3© Cloudera, Inc. All rights reserved.
4© Cloudera, Inc. All rights reserved.
• 独自のプロプラのツールとインフラを必要とする多くのデータサイロ
• オンプレとクラウドで、異なるベンダー、製品、サービス
• 細分化されたアプローチは、難解で、高価で、リスクが高い
データ管理における課題
SQL
分析データ
ベース
NoSQLと
リアルタイム
データベース
データエンジ
ニアリングと
ETL環境
データウェアハ
ウスと
データマート
5© Cloudera, Inc. All rights reserved.
Hadoopの始まり…
6© Cloudera, Inc. All rights reserved.
そして、Enterprise Data Hub
7© Cloudera, Inc. All rights reserved. 7
クラウドに最適化された機械学習と分析向けのモダンプラットフォーム
拡張サービス
CORE SERVICES
DATA
ENGINEERING
OPERATIONAL
DATABASE
ANALYTIC
DATABASE
データカタログ
データ投入 &
レプリケーション
セキュリティ ガバナンス ワークロード管理
DATA
SCIENCE
NEW
OFFERINGS
Cloudera Enterprise
Amazon S3 Microsoft ADLS HDFS KUDU
STORAGE
SERVICES
8© Cloudera, Inc. All rights reserved.
運用ツール
9© Cloudera, Inc. All rights reserved.
容易な管理を実現する
• 各サービスを俯瞰的に見る
• 自動化されたデプロイと設定
• カスタマイズ可能な監視とレポート
マルチテナント管理と可視化
• ダイナミックリソースマネジメントやクラス
タ利用レポート
迅速なトラブルシュート
• ワークロードの監視と診断
• 複数のホストに渡ったログ検索、監査
• 診断データの送付、Clouderaサポートに
よるクラスタの予測サポート
Cloudera Manager
10© Cloudera, Inc. All rights reserved.
+
構築・設定 監視 ワークフロー
イベント
アラート
ログ検索 診断 レポート
アクティビティ
監視
Clouderaなしで管理する場合
Clouderaありで管理する場合
Cloudera Managerで全てのプロセスを管理可能
11© Cloudera, Inc. All rights reserved.
サービスとインスタンス
12© Cloudera, Inc. All rights reserved.
設定の変更
13© Cloudera, Inc. All rights reserved.
ログ検索
14© Cloudera, Inc. All rights reserved.
マルチテナントの可視化
15© Cloudera, Inc. All rights reserved.
セキュリティ
16© Cloudera, Inc. All rights reserved.
セキュリティの要素
認証
Authentication
認可
Authorization
暗号化
Encryption
監査
Auditing
17© Cloudera, Inc. All rights reserved.
Hadoopクラスターのセキュア化
レベル0
• 一切セキュア化されていないクラスター
レベル1
• 最低限のセキュア化
• 認証 (Kerberos)、認可 (Apache Sentry) 、監査 (Cloudera Navigator)
レベル2
• データセキュリティとデータガバナンス (Cloudera Navigator)
• リネージによる可視化(Cloudera Navigator)、メタデータ (Cloudera Navigator)、暗号化
(Cloudera Navigator Encrypt)と鍵管理 (Cloudera Navigator Key Trustee Server )
レベル3
• 完全にコンプライアンスに準拠した環境
• 例)PCI-DSS
18© Cloudera, Inc. All rights reserved.
セキュリティ事例: MasterCard
課題: 個人情報を扱う全てのアプリケーション、データベース、
ファイルシステムは完全なPCI認証の環境下に置かなけれ
ばならない
解決策: MasterCard の Cloudera 環境は PCI-DSS V 2.0 セ
キュリティ標準に完全準拠し、PCIデータセットを保存すること
ができるだけでなく、他の社内システムとも連携できるように
なった
Clouderaは世界初のPCI認証取得Hadoop
プラットフォームです
「データプライバシーと保護はMasterCardにとっ
て最優先課題です。パートナーやベンダーの最
新技術を最大限に活用するためには、我々の定
める厳密なセキュリティ標準を満たさねばなりま
せんでした。Clouderaが同一標準を満たしたこと
により、我々はデータセンターを管理するための
新たな選択肢を手にすることができたのです」
Gary VonderHaar
Chief Technology Officer,
Architecture
MasterCard
19© Cloudera, Inc. All rights reserved.
データ管理とガバナンス
20© Cloudera, Inc. All rights reserved.
Hadoop の利点
無制限のデータを一ヶ所に
• あらゆるデータ・タイプ
• 多様なデータ・ソース
• より迅速な、より大規模なデータの取り込み
多様なデータアクセス
• より多くのユーザーが
• より多くのツールを用い
• より頻繁に変更を加える
21© Cloudera, Inc. All rights reserved.
…はデータ管理を困難にする
コンプライアンス
データの追跡、理解、
アクセスの保護
監査の準備はしているか?
機密データにアクセスしているのは誰か
?
彼らはデータで何をしているか?
機密データは管理、保護されているか?
スチュワードシップ
Hadoopスケールのデータ資産を
管理、および編成
インジェストからパージまでのデータ
のライフサイクルを効率的に管理する
にはどうすれば良いか?
私のすべてのデータを効率的に整理し
て分類するにはどうすれば良いか?
エンドユーザーが効率的にデータを利
用できるようにするにはどうすれば良
いか?
エンドユーザーの生産性
最も重要なデータを簡単に
見つけて信頼する
自分でデータセットを検索するにはどう
すれば良いか?
見つけたデータは信頼できるか?
見つけたデータをどう使うか?
関連するデータセットを見つけて使用す
るにはどうすれば良いか?
管理
ユーザーの生産性とクラスターの
パフォーマンスを高める
データは現在のアクセスパターンをサ
ポートするように最適化されているか?
将来のワークロードのためにどのよう
に最適化できるか?
リスクなくワークロードをHadoopに移
行するにはどうすれば良いか?
Hadoopのガバナンスの基盤
22© Cloudera, Inc. All rights reserved.
メタデータ管理こそビッグデータ基盤の急所
• 意味のわからないデータは無価値
• 例:以下のテーブルには何のデータが入っている?
sales_tmp_1_new
• スキーマレスは楽?
• JSONならフィールドを追加するのが簡単!
• しかし、分析する側は非常に大変
• フィールド foo がないレコードは、
• 欠損データなのか
• バージョンが古いため存在していないだけなのか
• 複数のシステムを統合すると、この複雑さはより顕著になる
23© Cloudera, Inc. All rights reserved.
Cloudera Navigator
メタデータ管理ツール
• S3を含む、ビッグデータ基盤の全
アクティビティの監査ログの収集、
閲覧
• データの出所がわかるリネージ機
能
• ファイルやテーブル、クエリのメタ
データの管理、検索
• ポリシーによるメタデータの自動付
与
• データライフサイクル管理
24© Cloudera, Inc. All rights reserved.
テキスト検索可能なメタデータ
技術メタデータとビジネスメタ
データの管理
• 分析したいデータはどこにあるの
か?
• 3年以上前に作成された、ユーザー
training のファイルはどれか
• 営業部門のデータだけを検索した
い例)「空港*」に一致するファイル、
操作、メタ情報等を検索
25© Cloudera, Inc. All rights reserved.
技術メタデータとビジネスメタデータ
ビジネスメタデータ(明示的に付与できる) 技術メタデータ(自動で付与される)
26© Cloudera, Inc. All rights reserved.
大規模データのライフサイクルを自動化
データ管理者向け
効率的なライフサクルポリ
シーの管理
• ポリシーエンジンによるデータ管理
とキュレーションの自動化
• バックアップ&ディザスタリカバリ機
能によるビジネスの継続
• パートナーツールとの統合
例)7年以上前のファイルをアー
カイブするポリシーを作成し、手
動、自動で適用する
27© Cloudera, Inc. All rights reserved.
データの探索と分析
ビジネスユーザー・データサイエンティスト向け
最も関連のある、信頼ある
データを容易に探し出す
• 統一されたメタデータリポジトリから
探索
• コンテキストと可視性をデータセット
に付与
• 類似した関連データを簡単に見つ
ける
自動、または明示的にビジネスメタ情報を
付与しておき、検索できる
28© Cloudera, Inc. All rights reserved.
コンプライアンス・レディなガバナンスと防御
コンプライアンス担当者向け
機密データへのアクセスを
追跡、防御
• 全エコシステムの監査情報の検索
• 直感的なリネージによりデータがど
のように使われ変更されたかを調査
• 高性能な暗号化と鍵管理による
データの保護
• パートナーツールと統合例)training ユーザーの
2016/11/12-2017/11/12の
監査情報を検索
29© Cloudera, Inc. All rights reserved.
Demo (1)
Sqoopでmovieratingテーブルをインポートした時のリネージ
1) Sqoop (MapReduce) ジョブが実行され、
2) mysqlのmovieratingテーブルからデータを取り込み
3) HDFSの/user/hive/warehouse/movieratingに格納され
4) movieratingテーブルが作成された
30© Cloudera, Inc. All rights reserved.
Demo (2)
S3のデータを検索
31© Cloudera, Inc. All rights reserved.
Demo (3)
S3上のデータを使い生成したHiveテーブルに手動でメタデータを付与
32© Cloudera, Inc. All rights reserved.
Demo (4)
Demo(3) で追加したビジネスメタデータを検索
ビジネスメタデータ、DepartmentがSalesのデータを検索
33© Cloudera, Inc. All rights reserved.
これらの領域が今日のデータ
ガバナンスでの大きな課題
現在のビッグデータガバナンスの状態
混沌: 「データハブに
何があるのかわから
ない」
基本コンプライアンス
:
生ガバナンスデータ
をキャプチャ
セルフサービスのた
めのビジネスメタデー
タ:
データのキュレーショ
ンの自動化
情報ライフサイクル
の自動化:
データスチュワード
シップとライフサイク
ルの自動化
継続的改善:
継続的な最適化
1
2
3
4
5
初期
コンプライアンス
探索とコラボレー
ション
データスチュワー
ドシップ
最適化とリファク
タリング
34© Cloudera, Inc. All rights reserved.
Cloudera SDX
35© Cloudera, Inc. All rights reserved.
• 独自のプロプラのツールとインフラを必要とする多くのデータサイロ
• オンプレとクラウドで、異なるベンダー、製品、サービス
• 細分化されたアプローチは、難解で、高価で、リスクが高い
データ管理における課題
SQL
分析データ
ベース
NoSQLと
リアルタイム
データベース
データエンジ
ニアリングと
ETL環境
データウェアハ
ウスと
データマート
36© Cloudera, Inc. All rights reserved.
従来のアプリケーション
36
• 1種類のデータ
• 1つの分析機能
• 統合が困難
Data
Exploration
STORAGE
SECURITY
GOVERNANCE
WORKLOAD MGMT
INGEST &
REPLICATION
DATA CATALOG
SQL & BI
Analytics
STORAGE
SECURITY
GOVERNANCE
WORKLOAD MGMT
INGEST & REPLICATION
DATA CATALOG
Operational
Real-Time DB
STORAGE
SECURITY
GOVERNANCE
WORKLOAD MGMT
INGEST & REPLICATION
DATA CATALOG
ETL & Data
Processing
STORAGE
SECURITY
GOVERNANCE
WORKLOAD MGMT
INGEST &
REPLICATION
DATA CATALOG
Custom
Functions
STORAGE
SECURITY
GOVERNANCE
WORKLOAD MGMT
INGEST & REPLICATION
DATA CATALOG
37© Cloudera, Inc. All rights reserved.
多機能分析の
サポート
ワークロード追加
時間の最小化
エラスティックな
ワークロードに対
応
セルフサービスの
有効化
データを共有する
ためのスケーラブ
ルなモデルを提
供
コスト削減 テナントの分離を
増やす
セキュアな環境
現在のデータ管理チームに重要な設計目標
38© Cloudera, Inc. All rights reserved.
共有ストレージ (HDFS, Kudu)
従来のオンプレミスのデプロイメントには良好
シェアードデータエクスペリエンス (Metadata, Security, Governance)
一つの物理クラスタが、複数のワークロード/テナントに
シェアードデータエクスペリエンスを提供する
… しかし、今後は十分ではない
強: マルチファンクション対応
強: シェアードデータエクスペリエンス
強: 情報セキュリティモデル
中: コスト管理
中: テナントの分離
中: ワークロードの弾力性
弱: セルフサービス
弱: デプロイにかかる時間
39© Cloudera, Inc. All rights reserved.
従来のクラウドへのデプロイは、オンプレミスが弱いところでは強力
だが、ワークロードのサイロが生じるという対価を払う
… しかし、今後は十分ではない
共有オブジェクトストレージ
Cloud
中: マルチファンクション対応
弱: シェアードデータエクスペリエンス
弱: 情報セキュリティモデル
中: コスト管理
強: テナントの分離
強: ワークロードの弾力性
強: セルフサービス
強: デプロイにかかる時間
40© Cloudera, Inc. All rights reserved.
現在: 単一プラットフォーム、複数ワークロード
DATA ENGINEERING OPERATIONAL
DATABASE
ANALYTIC DATABASE DATA
SCIENCE
無制限のデータを、迅速か
つコスト効率よく
保存して処理する
「プログラムによる
データ処理と機械学習」
すべてのデータを
探索、分析して
理解する
「高速かつ柔軟な、
オープンソースの
並列データベース」
データドリブンなアプリケー
ションを構築し、リアルタイム
の洞察を提供する
「オンラインアプリケーション、
Lambda/Kappa アーキテク
チャー」
41© Cloudera, Inc. All rights reserved.
ワークロードとは?
データ + データのコンテキスト + 計算
データのコンテキスト:
• HMS: スキーマ定義
• Sentry: セキュリティ(認可)
• Navigator: 監査ログ
• Navigator: ビジネスグロッサリー
• Navigator: ビジネスメタデータ
• Navigator: リネージ
42© Cloudera, Inc. All rights reserved.
複数のワークロードの場合は?
Cluster
Hive/HMS
Sentry
NavigatorSpark
Keys
HDFS, Kudu, S3, Private Cloud Storage
43© Cloudera, Inc. All rights reserved.
複数のワークロードにおけるデータのコンテキスト
従来のHadoopクラスター
計算、データ、データの
コンテキストを含む
一時的なHadoopクラスター
計算、データのコンテキストを
含むがデータは外部化される
HDFS, Kudu, S3, Private Cloud Storage
データと一緒で
はなく、データ
のコンテキスト
が各クラスター
に格納されてい
るのはなぜか?
?
44© Cloudera, Inc. All rights reserved.
データのコンテキストの一貫性の問題
計算とデータはさらに分離されつつある
• 計算はステートレス: クラウドベース/オンプレミス、一時的/長期間実行かのいずれか
• データはステートフル: クラウドベース、またはオンプレのHDFS, Kudu, S3, ADLS, Isilon な
ど
データのコンテキストは?
• スキーマ定義 (Hive Metastore)
• 権限 (Apache Sentry)
• 暗号鍵 (KMS)
• ガバナンス (Cloudera Navigator)
データのコンテキストはステートフルであるべきだが現在はステートレス
• これにより、管理者とエンドユーザーの両方で同期とユーザビリティの課題が生じる
45© Cloudera, Inc. All rights reserved.
ソリューション: シェアードデータエクスペリエンス
データコンテキストサービスを共有サービス
として外部化する
DATA
ENGINEERING
OPERATIONAL
DATABASE
ANALYTIC
DATABASE
DATA
SCIENCE
利点
• すべてのワークロードにわたる共通スキーマ、アクセス
権限、分類、およびガバナンス
• 所有コストの削減: 管理するハードウェア、ソフトウェアを削
減
• エンドユーザーの生産性向上: データは全クラスターで一貫
して表現される
• より早い拡張: 管理者は新しいクラスターごとにデータコンテ
キストサービスを作り直す必要がない
KEYSHMS SENTRY NAVIGATOR KEYSHMS SENTRY NAVIGATOR
HDFS, Kudu, S3, Private Cloud StorageHDFS, Kudu, S3, Private Cloud Storage
46© Cloudera, Inc. All rights reserved. 46
クラウドに最適化された機械学習と分析向けのモダンプラットフォーム
拡張サービス
CORE SERVICES
DATA
ENGINEERING
OPERATIONAL
DATABASE
ANALYTIC
DATABASE
データカタログ
データ投入 &
レプリケーション
セキュリティ ガバナンス ワークロード管理
DATA
SCIENCE
NEW
OFFERINGS
Cloudera Enterprise
Amazon S3 Microsoft ADLS HDFS KUDU
STORAGE
SERVICES
47© Cloudera, Inc. All rights reserved.
2つのデプロイオプション
Cloudera SDX
Cloudera SDX: Customer-managed
• RDSを使用するHive Metastore
• RDSを使用するApache Sentry
• お客様が管理しているCloudera Navigator
次のような場合に理想的:
• Directorで立ち上げたワークロード
• CMが管理しているワークロード
Cloudera Altus SDX: Cloudera-
managed
• サーバーレスHive Metastore
• サーバーレスApache Sentry
• サーバーレスCloudera Navigator
次のような場合に理想的:
• Altus SDX ワークロード
• ハイブリッドワークロード
48© Cloudera, Inc. All rights reserved.
SDXでのクラウドへのデプロイは全ての設計目標を最適化する
シェアードデータエクスペリエンス (Metadata, Security, Governance)
一つの論理クラスターが、複数のワークロードとテナントにシェ
アードデータエクスペリエンスを提供する
SDXはオンプレの設計の強みをクラウドに移行できるようにする
共有オブジェクトストレージCloud
強: マルチファンクション対応
強: シェアードデータエクスペリエンス
強: 情報セキュリティモデル
強: コスト管理
強: テナントの分離
強: ワークロードの弾力性
強: セルフサービス
強: デプロイにかかる時間
49© Cloudera, Inc. All rights reserved.
Thank you
kawasaki@cloudera.com

Mais conteúdo relacionado

Mais procurados

基調講演: 「データエコシステムへの挑戦」 #cwt2015
基調講演: 「データエコシステムへの挑戦」 #cwt2015基調講演: 「データエコシステムへの挑戦」 #cwt2015
基調講演: 「データエコシステムへの挑戦」 #cwt2015Cloudera Japan
 
MapReduceを置き換えるSpark 〜HadoopとSparkの統合〜 #cwt2015
MapReduceを置き換えるSpark 〜HadoopとSparkの統合〜 #cwt2015MapReduceを置き換えるSpark 〜HadoopとSparkの統合〜 #cwt2015
MapReduceを置き換えるSpark 〜HadoopとSparkの統合〜 #cwt2015Cloudera Japan
 
#cwt2016 Cloudera Managerを用いた Hadoop のトラブルシューティング
#cwt2016 Cloudera Managerを用いた Hadoop のトラブルシューティング #cwt2016 Cloudera Managerを用いた Hadoop のトラブルシューティング
#cwt2016 Cloudera Managerを用いた Hadoop のトラブルシューティング Cloudera Japan
 
クラウド上でHadoopを構築できる Cloudera Director 2.0 の紹介 #dogenzakalt
クラウド上でHadoopを構築できる Cloudera Director 2.0 の紹介 #dogenzakaltクラウド上でHadoopを構築できる Cloudera Director 2.0 の紹介 #dogenzakalt
クラウド上でHadoopを構築できる Cloudera Director 2.0 の紹介 #dogenzakaltCloudera Japan
 
エンタープライズデータハブ活用の落とし穴 2015 08-27
エンタープライズデータハブ活用の落とし穴 2015 08-27エンタープライズデータハブ活用の落とし穴 2015 08-27
エンタープライズデータハブ活用の落とし穴 2015 08-27Cloudera Japan
 
HBase活用事例 #hbase_ca
HBase活用事例 #hbase_caHBase活用事例 #hbase_ca
HBase活用事例 #hbase_caCloudera Japan
 
Hadoopビッグデータ基盤の歴史を振り返る #cwt2015
Hadoopビッグデータ基盤の歴史を振り返る #cwt2015Hadoopビッグデータ基盤の歴史を振り返る #cwt2015
Hadoopビッグデータ基盤の歴史を振り返る #cwt2015Cloudera Japan
 
基調講演:「ビッグデータのセキュリティとガバナンス要件」 #cwt2015
基調講演:「ビッグデータのセキュリティとガバナンス要件」 #cwt2015基調講演:「ビッグデータのセキュリティとガバナンス要件」 #cwt2015
基調講演:「ビッグデータのセキュリティとガバナンス要件」 #cwt2015Cloudera Japan
 
Ibis: すごい pandas ⼤規模データ分析もらっくらく #summerDS
Ibis: すごい pandas ⼤規模データ分析もらっくらく #summerDSIbis: すごい pandas ⼤規模データ分析もらっくらく #summerDS
Ibis: すごい pandas ⼤規模データ分析もらっくらく #summerDSCloudera Japan
 
HBase Meetup Tokyo Summer 2015 #hbasejp
HBase Meetup Tokyo Summer 2015 #hbasejpHBase Meetup Tokyo Summer 2015 #hbasejp
HBase Meetup Tokyo Summer 2015 #hbasejpCloudera Japan
 
大規模データに対するデータサイエンスの進め方 #CWT2016
大規模データに対するデータサイエンスの進め方 #CWT2016大規模データに対するデータサイエンスの進め方 #CWT2016
大規模データに対するデータサイエンスの進め方 #CWT2016Cloudera Japan
 
[JAWSBigData#11]Cloudera on AWSと Amazon EMRを両方本番運用し 3つの観点から比較してみる
[JAWSBigData#11]Cloudera on AWSと Amazon EMRを両方本番運用し 3つの観点から比較してみる[JAWSBigData#11]Cloudera on AWSと Amazon EMRを両方本番運用し 3つの観点から比較してみる
[JAWSBigData#11]Cloudera on AWSと Amazon EMRを両方本番運用し 3つの観点から比較してみるTakahiro Moteki
 
機械学習の定番プラットフォームSparkの紹介
機械学習の定番プラットフォームSparkの紹介機械学習の定番プラットフォームSparkの紹介
機械学習の定番プラットフォームSparkの紹介Cloudera Japan
 
Hue 4.0 / Hue Meetup Tokyo #huejp
Hue 4.0 / Hue Meetup Tokyo #huejpHue 4.0 / Hue Meetup Tokyo #huejp
Hue 4.0 / Hue Meetup Tokyo #huejpCloudera Japan
 
G-Tech2015 Hadoop/Sparkを中核としたビッグデータ基盤_20151006
G-Tech2015 Hadoop/Sparkを中核としたビッグデータ基盤_20151006G-Tech2015 Hadoop/Sparkを中核としたビッグデータ基盤_20151006
G-Tech2015 Hadoop/Sparkを中核としたビッグデータ基盤_20151006Cloudera Japan
 
Apache Hadoop YARNとマルチテナントにおけるリソース管理
Apache Hadoop YARNとマルチテナントにおけるリソース管理Apache Hadoop YARNとマルチテナントにおけるリソース管理
Apache Hadoop YARNとマルチテナントにおけるリソース管理Cloudera Japan
 
#cwt2016 Apache Kudu 構成とテーブル設計
#cwt2016 Apache Kudu 構成とテーブル設計#cwt2016 Apache Kudu 構成とテーブル設計
#cwt2016 Apache Kudu 構成とテーブル設計Cloudera Japan
 
HBase Across the World #LINE_DM
HBase Across the World #LINE_DMHBase Across the World #LINE_DM
HBase Across the World #LINE_DMCloudera Japan
 
Apache Impalaパフォーマンスチューニング #dbts2018
Apache Impalaパフォーマンスチューニング #dbts2018Apache Impalaパフォーマンスチューニング #dbts2018
Apache Impalaパフォーマンスチューニング #dbts2018Cloudera Japan
 
C5.2 (Cloudera Manager + CDH) アップデート #cwt2014
C5.2 (Cloudera Manager + CDH) アップデート #cwt2014C5.2 (Cloudera Manager + CDH) アップデート #cwt2014
C5.2 (Cloudera Manager + CDH) アップデート #cwt2014Cloudera Japan
 

Mais procurados (20)

基調講演: 「データエコシステムへの挑戦」 #cwt2015
基調講演: 「データエコシステムへの挑戦」 #cwt2015基調講演: 「データエコシステムへの挑戦」 #cwt2015
基調講演: 「データエコシステムへの挑戦」 #cwt2015
 
MapReduceを置き換えるSpark 〜HadoopとSparkの統合〜 #cwt2015
MapReduceを置き換えるSpark 〜HadoopとSparkの統合〜 #cwt2015MapReduceを置き換えるSpark 〜HadoopとSparkの統合〜 #cwt2015
MapReduceを置き換えるSpark 〜HadoopとSparkの統合〜 #cwt2015
 
#cwt2016 Cloudera Managerを用いた Hadoop のトラブルシューティング
#cwt2016 Cloudera Managerを用いた Hadoop のトラブルシューティング #cwt2016 Cloudera Managerを用いた Hadoop のトラブルシューティング
#cwt2016 Cloudera Managerを用いた Hadoop のトラブルシューティング
 
クラウド上でHadoopを構築できる Cloudera Director 2.0 の紹介 #dogenzakalt
クラウド上でHadoopを構築できる Cloudera Director 2.0 の紹介 #dogenzakaltクラウド上でHadoopを構築できる Cloudera Director 2.0 の紹介 #dogenzakalt
クラウド上でHadoopを構築できる Cloudera Director 2.0 の紹介 #dogenzakalt
 
エンタープライズデータハブ活用の落とし穴 2015 08-27
エンタープライズデータハブ活用の落とし穴 2015 08-27エンタープライズデータハブ活用の落とし穴 2015 08-27
エンタープライズデータハブ活用の落とし穴 2015 08-27
 
HBase活用事例 #hbase_ca
HBase活用事例 #hbase_caHBase活用事例 #hbase_ca
HBase活用事例 #hbase_ca
 
Hadoopビッグデータ基盤の歴史を振り返る #cwt2015
Hadoopビッグデータ基盤の歴史を振り返る #cwt2015Hadoopビッグデータ基盤の歴史を振り返る #cwt2015
Hadoopビッグデータ基盤の歴史を振り返る #cwt2015
 
基調講演:「ビッグデータのセキュリティとガバナンス要件」 #cwt2015
基調講演:「ビッグデータのセキュリティとガバナンス要件」 #cwt2015基調講演:「ビッグデータのセキュリティとガバナンス要件」 #cwt2015
基調講演:「ビッグデータのセキュリティとガバナンス要件」 #cwt2015
 
Ibis: すごい pandas ⼤規模データ分析もらっくらく #summerDS
Ibis: すごい pandas ⼤規模データ分析もらっくらく #summerDSIbis: すごい pandas ⼤規模データ分析もらっくらく #summerDS
Ibis: すごい pandas ⼤規模データ分析もらっくらく #summerDS
 
HBase Meetup Tokyo Summer 2015 #hbasejp
HBase Meetup Tokyo Summer 2015 #hbasejpHBase Meetup Tokyo Summer 2015 #hbasejp
HBase Meetup Tokyo Summer 2015 #hbasejp
 
大規模データに対するデータサイエンスの進め方 #CWT2016
大規模データに対するデータサイエンスの進め方 #CWT2016大規模データに対するデータサイエンスの進め方 #CWT2016
大規模データに対するデータサイエンスの進め方 #CWT2016
 
[JAWSBigData#11]Cloudera on AWSと Amazon EMRを両方本番運用し 3つの観点から比較してみる
[JAWSBigData#11]Cloudera on AWSと Amazon EMRを両方本番運用し 3つの観点から比較してみる[JAWSBigData#11]Cloudera on AWSと Amazon EMRを両方本番運用し 3つの観点から比較してみる
[JAWSBigData#11]Cloudera on AWSと Amazon EMRを両方本番運用し 3つの観点から比較してみる
 
機械学習の定番プラットフォームSparkの紹介
機械学習の定番プラットフォームSparkの紹介機械学習の定番プラットフォームSparkの紹介
機械学習の定番プラットフォームSparkの紹介
 
Hue 4.0 / Hue Meetup Tokyo #huejp
Hue 4.0 / Hue Meetup Tokyo #huejpHue 4.0 / Hue Meetup Tokyo #huejp
Hue 4.0 / Hue Meetup Tokyo #huejp
 
G-Tech2015 Hadoop/Sparkを中核としたビッグデータ基盤_20151006
G-Tech2015 Hadoop/Sparkを中核としたビッグデータ基盤_20151006G-Tech2015 Hadoop/Sparkを中核としたビッグデータ基盤_20151006
G-Tech2015 Hadoop/Sparkを中核としたビッグデータ基盤_20151006
 
Apache Hadoop YARNとマルチテナントにおけるリソース管理
Apache Hadoop YARNとマルチテナントにおけるリソース管理Apache Hadoop YARNとマルチテナントにおけるリソース管理
Apache Hadoop YARNとマルチテナントにおけるリソース管理
 
#cwt2016 Apache Kudu 構成とテーブル設計
#cwt2016 Apache Kudu 構成とテーブル設計#cwt2016 Apache Kudu 構成とテーブル設計
#cwt2016 Apache Kudu 構成とテーブル設計
 
HBase Across the World #LINE_DM
HBase Across the World #LINE_DMHBase Across the World #LINE_DM
HBase Across the World #LINE_DM
 
Apache Impalaパフォーマンスチューニング #dbts2018
Apache Impalaパフォーマンスチューニング #dbts2018Apache Impalaパフォーマンスチューニング #dbts2018
Apache Impalaパフォーマンスチューニング #dbts2018
 
C5.2 (Cloudera Manager + CDH) アップデート #cwt2014
C5.2 (Cloudera Manager + CDH) アップデート #cwt2014C5.2 (Cloudera Manager + CDH) アップデート #cwt2014
C5.2 (Cloudera Manager + CDH) アップデート #cwt2014
 

Semelhante a Clouderaが提供するエンタープライズ向け運用、データ管理ツールの使い方 #CW2017

クラウド時代のデータ連携 ~ そして少し SharePoint 連携事例 ~
クラウド時代のデータ連携 ~ そして少し SharePoint 連携事例 ~クラウド時代のデータ連携 ~ そして少し SharePoint 連携事例 ~
クラウド時代のデータ連携 ~ そして少し SharePoint 連携事例 ~CData Software Japan
 
JISAAwards2013講演会資料(hifive)
JISAAwards2013講演会資料(hifive)JISAAwards2013講演会資料(hifive)
JISAAwards2013講演会資料(hifive)Osamu Shimoda
 
早稲田大学 理工メディアセンター 機械学習とAI セミナー: 機械学習中級編
早稲田大学 理工メディアセンター 機械学習とAI セミナー: 機械学習中級編早稲田大学 理工メディアセンター 機械学習とAI セミナー: 機械学習中級編
早稲田大学 理工メディアセンター 機械学習とAI セミナー: 機械学習中級編Daiyu Hatakeyama
 
クラウドDWHにおける観点とAzure Synapse Analyticsの対応
クラウドDWHにおける観点とAzure Synapse Analyticsの対応クラウドDWHにおける観点とAzure Synapse Analyticsの対応
クラウドDWHにおける観点とAzure Synapse Analyticsの対応Ryoma Nagata
 
ITインフラsummit 2017発表資料
ITインフラsummit 2017発表資料ITインフラsummit 2017発表資料
ITインフラsummit 2017発表資料Masayuki Hyugaji
 
OSSではじめるオープン・スタンダードのクラウド @201304
OSSではじめるオープン・スタンダードのクラウド @201304OSSではじめるオープン・スタンダードのクラウド @201304
OSSではじめるオープン・スタンダードのクラウド @201304Shinichiro Arai
 
[Preview] MySQL session at Open Source Conference 2014 .Enterprise Osaka
[Preview] MySQL session at Open Source Conference 2014 .Enterprise Osaka[Preview] MySQL session at Open Source Conference 2014 .Enterprise Osaka
[Preview] MySQL session at Open Source Conference 2014 .Enterprise OsakaRyusuke Kajiyama
 
しばちょう先生が語る!オラクルデータベースの進化の歴史と最新技術動向#1
しばちょう先生が語る!オラクルデータベースの進化の歴史と最新技術動向#1しばちょう先生が語る!オラクルデータベースの進化の歴史と最新技術動向#1
しばちょう先生が語る!オラクルデータベースの進化の歴史と最新技術動向#1オラクルエンジニア通信
 
【2016年3月時点】クラウド型 BI だからできる新たな情報活用方法
【2016年3月時点】クラウド型 BI だからできる新たな情報活用方法【2016年3月時点】クラウド型 BI だからできる新たな情報活用方法
【2016年3月時点】クラウド型 BI だからできる新たな情報活用方法オラクルエンジニア通信
 
クラウドを使って競争優位なビッグデータ活用の実現へ [Oracle Cloud Days Tokyo 2016]
クラウドを使って競争優位なビッグデータ活用の実現へ [Oracle Cloud Days Tokyo 2016]クラウドを使って競争優位なビッグデータ活用の実現へ [Oracle Cloud Days Tokyo 2016]
クラウドを使って競争優位なビッグデータ活用の実現へ [Oracle Cloud Days Tokyo 2016]オラクルエンジニア通信
 
Prestoで実現するインタラクティブクエリ - dbtech showcase 2014 Tokyo
Prestoで実現するインタラクティブクエリ - dbtech showcase 2014 TokyoPrestoで実現するインタラクティブクエリ - dbtech showcase 2014 Tokyo
Prestoで実現するインタラクティブクエリ - dbtech showcase 2014 TokyoTreasure Data, Inc.
 
Microsoft Azureのビッグデータ基盤とAIテクノロジーを活用しよう
Microsoft Azureのビッグデータ基盤とAIテクノロジーを活用しようMicrosoft Azureのビッグデータ基盤とAIテクノロジーを活用しよう
Microsoft Azureのビッグデータ基盤とAIテクノロジーを活用しようHideo Takagi
 
[db tech showcase Tokyo 2014] D33: Prestoで実現するインタラクティブクエリ by トレジャーデータ株式会社 斉藤太郎
[db tech showcase Tokyo 2014] D33: Prestoで実現するインタラクティブクエリ  by トレジャーデータ株式会社 斉藤太郎[db tech showcase Tokyo 2014] D33: Prestoで実現するインタラクティブクエリ  by トレジャーデータ株式会社 斉藤太郎
[db tech showcase Tokyo 2014] D33: Prestoで実現するインタラクティブクエリ by トレジャーデータ株式会社 斉藤太郎Insight Technology, Inc.
 
オブジェクトストレージのユースケース (Cloudweek2014 講演資料)
オブジェクトストレージのユースケース (Cloudweek2014 講演資料)オブジェクトストレージのユースケース (Cloudweek2014 講演資料)
オブジェクトストレージのユースケース (Cloudweek2014 講演資料)CLOUDIAN KK
 
Asahikawa_Ict 20120726
Asahikawa_Ict 20120726Asahikawa_Ict 20120726
Asahikawa_Ict 20120726kspro
 
Strata + Hadoop World 2014 レポート #cwt2014
Strata + Hadoop World 2014 レポート #cwt2014Strata + Hadoop World 2014 レポート #cwt2014
Strata + Hadoop World 2014 レポート #cwt2014Cloudera Japan
 
[db tech showcase Tokyo 2017] E23: クラウド異種データベース(AWS)へのデータベース移行時の注意点 ~レプリケーション...
[db tech showcase Tokyo 2017] E23: クラウド異種データベース(AWS)へのデータベース移行時の注意点 ~レプリケーション...[db tech showcase Tokyo 2017] E23: クラウド異種データベース(AWS)へのデータベース移行時の注意点 ~レプリケーション...
[db tech showcase Tokyo 2017] E23: クラウド異種データベース(AWS)へのデータベース移行時の注意点 ~レプリケーション...Insight Technology, Inc.
 
エンタープライズでのAI活用を支援する新世代データウェアハウスのあり方[ATTUNITY & インサイトテクノロジー IoT / Big Data フォー...
エンタープライズでのAI活用を支援する新世代データウェアハウスのあり方[ATTUNITY & インサイトテクノロジー IoT / Big Data フォー...エンタープライズでのAI活用を支援する新世代データウェアハウスのあり方[ATTUNITY & インサイトテクノロジー IoT / Big Data フォー...
エンタープライズでのAI活用を支援する新世代データウェアハウスのあり方[ATTUNITY & インサイトテクノロジー IoT / Big Data フォー...Insight Technology, Inc.
 
データ基盤の従来~最新の考え方とSynapse Analyticsでの実現
データ基盤の従来~最新の考え方とSynapse Analyticsでの実現データ基盤の従来~最新の考え方とSynapse Analyticsでの実現
データ基盤の従来~最新の考え方とSynapse Analyticsでの実現Ryoma Nagata
 

Semelhante a Clouderaが提供するエンタープライズ向け運用、データ管理ツールの使い方 #CW2017 (20)

クラウド時代のデータ連携 ~ そして少し SharePoint 連携事例 ~
クラウド時代のデータ連携 ~ そして少し SharePoint 連携事例 ~クラウド時代のデータ連携 ~ そして少し SharePoint 連携事例 ~
クラウド時代のデータ連携 ~ そして少し SharePoint 連携事例 ~
 
JISAAwards2013講演会資料(hifive)
JISAAwards2013講演会資料(hifive)JISAAwards2013講演会資料(hifive)
JISAAwards2013講演会資料(hifive)
 
早稲田大学 理工メディアセンター 機械学習とAI セミナー: 機械学習中級編
早稲田大学 理工メディアセンター 機械学習とAI セミナー: 機械学習中級編早稲田大学 理工メディアセンター 機械学習とAI セミナー: 機械学習中級編
早稲田大学 理工メディアセンター 機械学習とAI セミナー: 機械学習中級編
 
クラウドDWHにおける観点とAzure Synapse Analyticsの対応
クラウドDWHにおける観点とAzure Synapse Analyticsの対応クラウドDWHにおける観点とAzure Synapse Analyticsの対応
クラウドDWHにおける観点とAzure Synapse Analyticsの対応
 
ITインフラsummit 2017発表資料
ITインフラsummit 2017発表資料ITインフラsummit 2017発表資料
ITインフラsummit 2017発表資料
 
Oracle Database 12c Release 1 PSR 12.1.0.2 のご紹介
Oracle Database 12c Release 1 PSR 12.1.0.2 のご紹介Oracle Database 12c Release 1 PSR 12.1.0.2 のご紹介
Oracle Database 12c Release 1 PSR 12.1.0.2 のご紹介
 
OSSではじめるオープン・スタンダードのクラウド @201304
OSSではじめるオープン・スタンダードのクラウド @201304OSSではじめるオープン・スタンダードのクラウド @201304
OSSではじめるオープン・スタンダードのクラウド @201304
 
[Preview] MySQL session at Open Source Conference 2014 .Enterprise Osaka
[Preview] MySQL session at Open Source Conference 2014 .Enterprise Osaka[Preview] MySQL session at Open Source Conference 2014 .Enterprise Osaka
[Preview] MySQL session at Open Source Conference 2014 .Enterprise Osaka
 
しばちょう先生が語る!オラクルデータベースの進化の歴史と最新技術動向#1
しばちょう先生が語る!オラクルデータベースの進化の歴史と最新技術動向#1しばちょう先生が語る!オラクルデータベースの進化の歴史と最新技術動向#1
しばちょう先生が語る!オラクルデータベースの進化の歴史と最新技術動向#1
 
【2016年3月時点】クラウド型 BI だからできる新たな情報活用方法
【2016年3月時点】クラウド型 BI だからできる新たな情報活用方法【2016年3月時点】クラウド型 BI だからできる新たな情報活用方法
【2016年3月時点】クラウド型 BI だからできる新たな情報活用方法
 
クラウドを使って競争優位なビッグデータ活用の実現へ [Oracle Cloud Days Tokyo 2016]
クラウドを使って競争優位なビッグデータ活用の実現へ [Oracle Cloud Days Tokyo 2016]クラウドを使って競争優位なビッグデータ活用の実現へ [Oracle Cloud Days Tokyo 2016]
クラウドを使って競争優位なビッグデータ活用の実現へ [Oracle Cloud Days Tokyo 2016]
 
Prestoで実現するインタラクティブクエリ - dbtech showcase 2014 Tokyo
Prestoで実現するインタラクティブクエリ - dbtech showcase 2014 TokyoPrestoで実現するインタラクティブクエリ - dbtech showcase 2014 Tokyo
Prestoで実現するインタラクティブクエリ - dbtech showcase 2014 Tokyo
 
Microsoft Azureのビッグデータ基盤とAIテクノロジーを活用しよう
Microsoft Azureのビッグデータ基盤とAIテクノロジーを活用しようMicrosoft Azureのビッグデータ基盤とAIテクノロジーを活用しよう
Microsoft Azureのビッグデータ基盤とAIテクノロジーを活用しよう
 
[db tech showcase Tokyo 2014] D33: Prestoで実現するインタラクティブクエリ by トレジャーデータ株式会社 斉藤太郎
[db tech showcase Tokyo 2014] D33: Prestoで実現するインタラクティブクエリ  by トレジャーデータ株式会社 斉藤太郎[db tech showcase Tokyo 2014] D33: Prestoで実現するインタラクティブクエリ  by トレジャーデータ株式会社 斉藤太郎
[db tech showcase Tokyo 2014] D33: Prestoで実現するインタラクティブクエリ by トレジャーデータ株式会社 斉藤太郎
 
オブジェクトストレージのユースケース (Cloudweek2014 講演資料)
オブジェクトストレージのユースケース (Cloudweek2014 講演資料)オブジェクトストレージのユースケース (Cloudweek2014 講演資料)
オブジェクトストレージのユースケース (Cloudweek2014 講演資料)
 
Asahikawa_Ict 20120726
Asahikawa_Ict 20120726Asahikawa_Ict 20120726
Asahikawa_Ict 20120726
 
Strata + Hadoop World 2014 レポート #cwt2014
Strata + Hadoop World 2014 レポート #cwt2014Strata + Hadoop World 2014 レポート #cwt2014
Strata + Hadoop World 2014 レポート #cwt2014
 
[db tech showcase Tokyo 2017] E23: クラウド異種データベース(AWS)へのデータベース移行時の注意点 ~レプリケーション...
[db tech showcase Tokyo 2017] E23: クラウド異種データベース(AWS)へのデータベース移行時の注意点 ~レプリケーション...[db tech showcase Tokyo 2017] E23: クラウド異種データベース(AWS)へのデータベース移行時の注意点 ~レプリケーション...
[db tech showcase Tokyo 2017] E23: クラウド異種データベース(AWS)へのデータベース移行時の注意点 ~レプリケーション...
 
エンタープライズでのAI活用を支援する新世代データウェアハウスのあり方[ATTUNITY & インサイトテクノロジー IoT / Big Data フォー...
エンタープライズでのAI活用を支援する新世代データウェアハウスのあり方[ATTUNITY & インサイトテクノロジー IoT / Big Data フォー...エンタープライズでのAI活用を支援する新世代データウェアハウスのあり方[ATTUNITY & インサイトテクノロジー IoT / Big Data フォー...
エンタープライズでのAI活用を支援する新世代データウェアハウスのあり方[ATTUNITY & インサイトテクノロジー IoT / Big Data フォー...
 
データ基盤の従来~最新の考え方とSynapse Analyticsでの実現
データ基盤の従来~最新の考え方とSynapse Analyticsでの実現データ基盤の従来~最新の考え方とSynapse Analyticsでの実現
データ基盤の従来~最新の考え方とSynapse Analyticsでの実現
 

Mais de Cloudera Japan

Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)
Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)
Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)Cloudera Japan
 
HDFS Supportaiblity Improvements
HDFS Supportaiblity ImprovementsHDFS Supportaiblity Improvements
HDFS Supportaiblity ImprovementsCloudera Japan
 
分散DB Apache Kuduのアーキテクチャ DBの性能と一貫性を両立させる仕組み 「HybridTime」とは
分散DB Apache KuduのアーキテクチャDBの性能と一貫性を両立させる仕組み「HybridTime」とは分散DB Apache KuduのアーキテクチャDBの性能と一貫性を両立させる仕組み「HybridTime」とは
分散DB Apache Kuduのアーキテクチャ DBの性能と一貫性を両立させる仕組み 「HybridTime」とはCloudera Japan
 
Cloudera のサポートエンジニアリング #supennight
Cloudera のサポートエンジニアリング #supennightCloudera のサポートエンジニアリング #supennight
Cloudera のサポートエンジニアリング #supennightCloudera Japan
 
Train, predict, serve: How to go into production your machine learning model
Train, predict, serve: How to go into production your machine learning modelTrain, predict, serve: How to go into production your machine learning model
Train, predict, serve: How to go into production your machine learning modelCloudera Japan
 
How to go into production your machine learning models? #CWT2017
How to go into production your machine learning models? #CWT2017How to go into production your machine learning models? #CWT2017
How to go into production your machine learning models? #CWT2017Cloudera Japan
 
Apache Kudu - Updatable Analytical Storage #rakutentech
Apache Kudu - Updatable Analytical Storage #rakutentechApache Kudu - Updatable Analytical Storage #rakutentech
Apache Kudu - Updatable Analytical Storage #rakutentechCloudera Japan
 
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017Cloudera Japan
 
Cloudera + MicrosoftでHadoopするのがイイらしい。 #CWT2016
Cloudera + MicrosoftでHadoopするのがイイらしい。 #CWT2016Cloudera + MicrosoftでHadoopするのがイイらしい。 #CWT2016
Cloudera + MicrosoftでHadoopするのがイイらしい。 #CWT2016Cloudera Japan
 
「新製品 Kudu 及び RecordServiceの概要」 #cwt2015
「新製品 Kudu 及び RecordServiceの概要」 #cwt2015「新製品 Kudu 及び RecordServiceの概要」 #cwt2015
「新製品 Kudu 及び RecordServiceの概要」 #cwt2015Cloudera Japan
 
基調講演: 「パーペイシブ分析を目指して」#cwt2015
基調講演: 「パーペイシブ分析を目指して」#cwt2015基調講演: 「パーペイシブ分析を目指して」#cwt2015
基調講演: 「パーペイシブ分析を目指して」#cwt2015Cloudera Japan
 

Mais de Cloudera Japan (11)

Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)
Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)
Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)
 
HDFS Supportaiblity Improvements
HDFS Supportaiblity ImprovementsHDFS Supportaiblity Improvements
HDFS Supportaiblity Improvements
 
分散DB Apache Kuduのアーキテクチャ DBの性能と一貫性を両立させる仕組み 「HybridTime」とは
分散DB Apache KuduのアーキテクチャDBの性能と一貫性を両立させる仕組み「HybridTime」とは分散DB Apache KuduのアーキテクチャDBの性能と一貫性を両立させる仕組み「HybridTime」とは
分散DB Apache Kuduのアーキテクチャ DBの性能と一貫性を両立させる仕組み 「HybridTime」とは
 
Cloudera のサポートエンジニアリング #supennight
Cloudera のサポートエンジニアリング #supennightCloudera のサポートエンジニアリング #supennight
Cloudera のサポートエンジニアリング #supennight
 
Train, predict, serve: How to go into production your machine learning model
Train, predict, serve: How to go into production your machine learning modelTrain, predict, serve: How to go into production your machine learning model
Train, predict, serve: How to go into production your machine learning model
 
How to go into production your machine learning models? #CWT2017
How to go into production your machine learning models? #CWT2017How to go into production your machine learning models? #CWT2017
How to go into production your machine learning models? #CWT2017
 
Apache Kudu - Updatable Analytical Storage #rakutentech
Apache Kudu - Updatable Analytical Storage #rakutentechApache Kudu - Updatable Analytical Storage #rakutentech
Apache Kudu - Updatable Analytical Storage #rakutentech
 
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017
 
Cloudera + MicrosoftでHadoopするのがイイらしい。 #CWT2016
Cloudera + MicrosoftでHadoopするのがイイらしい。 #CWT2016Cloudera + MicrosoftでHadoopするのがイイらしい。 #CWT2016
Cloudera + MicrosoftでHadoopするのがイイらしい。 #CWT2016
 
「新製品 Kudu 及び RecordServiceの概要」 #cwt2015
「新製品 Kudu 及び RecordServiceの概要」 #cwt2015「新製品 Kudu 及び RecordServiceの概要」 #cwt2015
「新製品 Kudu 及び RecordServiceの概要」 #cwt2015
 
基調講演: 「パーペイシブ分析を目指して」#cwt2015
基調講演: 「パーペイシブ分析を目指して」#cwt2015基調講演: 「パーペイシブ分析を目指して」#cwt2015
基調講演: 「パーペイシブ分析を目指して」#cwt2015
 

Clouderaが提供するエンタープライズ向け運用、データ管理ツールの使い方 #CW2017

  • 1. 1© Cloudera, Inc. All rights reserved. Cloudera が提供するエンタープライズ向け運 用、データ管理ツールの使い方 Cloudera 株式会社 川崎 達夫
  • 2. 2© Cloudera, Inc. All rights reserved. • 創立 2008年 • 社員数 1600人以上 • 機械学習と分析プラットフォーム • シェアードデータエクスペリエンス • クラウドネイティブとクラウドの差別化 • オープンソースの革新性と効率性
  • 3. 3© Cloudera, Inc. All rights reserved.
  • 4. 4© Cloudera, Inc. All rights reserved. • 独自のプロプラのツールとインフラを必要とする多くのデータサイロ • オンプレとクラウドで、異なるベンダー、製品、サービス • 細分化されたアプローチは、難解で、高価で、リスクが高い データ管理における課題 SQL 分析データ ベース NoSQLと リアルタイム データベース データエンジ ニアリングと ETL環境 データウェアハ ウスと データマート
  • 5. 5© Cloudera, Inc. All rights reserved. Hadoopの始まり…
  • 6. 6© Cloudera, Inc. All rights reserved. そして、Enterprise Data Hub
  • 7. 7© Cloudera, Inc. All rights reserved. 7 クラウドに最適化された機械学習と分析向けのモダンプラットフォーム 拡張サービス CORE SERVICES DATA ENGINEERING OPERATIONAL DATABASE ANALYTIC DATABASE データカタログ データ投入 & レプリケーション セキュリティ ガバナンス ワークロード管理 DATA SCIENCE NEW OFFERINGS Cloudera Enterprise Amazon S3 Microsoft ADLS HDFS KUDU STORAGE SERVICES
  • 8. 8© Cloudera, Inc. All rights reserved. 運用ツール
  • 9. 9© Cloudera, Inc. All rights reserved. 容易な管理を実現する • 各サービスを俯瞰的に見る • 自動化されたデプロイと設定 • カスタマイズ可能な監視とレポート マルチテナント管理と可視化 • ダイナミックリソースマネジメントやクラス タ利用レポート 迅速なトラブルシュート • ワークロードの監視と診断 • 複数のホストに渡ったログ検索、監査 • 診断データの送付、Clouderaサポートに よるクラスタの予測サポート Cloudera Manager
  • 10. 10© Cloudera, Inc. All rights reserved. + 構築・設定 監視 ワークフロー イベント アラート ログ検索 診断 レポート アクティビティ 監視 Clouderaなしで管理する場合 Clouderaありで管理する場合 Cloudera Managerで全てのプロセスを管理可能
  • 11. 11© Cloudera, Inc. All rights reserved. サービスとインスタンス
  • 12. 12© Cloudera, Inc. All rights reserved. 設定の変更
  • 13. 13© Cloudera, Inc. All rights reserved. ログ検索
  • 14. 14© Cloudera, Inc. All rights reserved. マルチテナントの可視化
  • 15. 15© Cloudera, Inc. All rights reserved. セキュリティ
  • 16. 16© Cloudera, Inc. All rights reserved. セキュリティの要素 認証 Authentication 認可 Authorization 暗号化 Encryption 監査 Auditing
  • 17. 17© Cloudera, Inc. All rights reserved. Hadoopクラスターのセキュア化 レベル0 • 一切セキュア化されていないクラスター レベル1 • 最低限のセキュア化 • 認証 (Kerberos)、認可 (Apache Sentry) 、監査 (Cloudera Navigator) レベル2 • データセキュリティとデータガバナンス (Cloudera Navigator) • リネージによる可視化(Cloudera Navigator)、メタデータ (Cloudera Navigator)、暗号化 (Cloudera Navigator Encrypt)と鍵管理 (Cloudera Navigator Key Trustee Server ) レベル3 • 完全にコンプライアンスに準拠した環境 • 例)PCI-DSS
  • 18. 18© Cloudera, Inc. All rights reserved. セキュリティ事例: MasterCard 課題: 個人情報を扱う全てのアプリケーション、データベース、 ファイルシステムは完全なPCI認証の環境下に置かなけれ ばならない 解決策: MasterCard の Cloudera 環境は PCI-DSS V 2.0 セ キュリティ標準に完全準拠し、PCIデータセットを保存すること ができるだけでなく、他の社内システムとも連携できるように なった Clouderaは世界初のPCI認証取得Hadoop プラットフォームです 「データプライバシーと保護はMasterCardにとっ て最優先課題です。パートナーやベンダーの最 新技術を最大限に活用するためには、我々の定 める厳密なセキュリティ標準を満たさねばなりま せんでした。Clouderaが同一標準を満たしたこと により、我々はデータセンターを管理するための 新たな選択肢を手にすることができたのです」 Gary VonderHaar Chief Technology Officer, Architecture MasterCard
  • 19. 19© Cloudera, Inc. All rights reserved. データ管理とガバナンス
  • 20. 20© Cloudera, Inc. All rights reserved. Hadoop の利点 無制限のデータを一ヶ所に • あらゆるデータ・タイプ • 多様なデータ・ソース • より迅速な、より大規模なデータの取り込み 多様なデータアクセス • より多くのユーザーが • より多くのツールを用い • より頻繁に変更を加える
  • 21. 21© Cloudera, Inc. All rights reserved. …はデータ管理を困難にする コンプライアンス データの追跡、理解、 アクセスの保護 監査の準備はしているか? 機密データにアクセスしているのは誰か ? 彼らはデータで何をしているか? 機密データは管理、保護されているか? スチュワードシップ Hadoopスケールのデータ資産を 管理、および編成 インジェストからパージまでのデータ のライフサイクルを効率的に管理する にはどうすれば良いか? 私のすべてのデータを効率的に整理し て分類するにはどうすれば良いか? エンドユーザーが効率的にデータを利 用できるようにするにはどうすれば良 いか? エンドユーザーの生産性 最も重要なデータを簡単に 見つけて信頼する 自分でデータセットを検索するにはどう すれば良いか? 見つけたデータは信頼できるか? 見つけたデータをどう使うか? 関連するデータセットを見つけて使用す るにはどうすれば良いか? 管理 ユーザーの生産性とクラスターの パフォーマンスを高める データは現在のアクセスパターンをサ ポートするように最適化されているか? 将来のワークロードのためにどのよう に最適化できるか? リスクなくワークロードをHadoopに移 行するにはどうすれば良いか? Hadoopのガバナンスの基盤
  • 22. 22© Cloudera, Inc. All rights reserved. メタデータ管理こそビッグデータ基盤の急所 • 意味のわからないデータは無価値 • 例:以下のテーブルには何のデータが入っている? sales_tmp_1_new • スキーマレスは楽? • JSONならフィールドを追加するのが簡単! • しかし、分析する側は非常に大変 • フィールド foo がないレコードは、 • 欠損データなのか • バージョンが古いため存在していないだけなのか • 複数のシステムを統合すると、この複雑さはより顕著になる
  • 23. 23© Cloudera, Inc. All rights reserved. Cloudera Navigator メタデータ管理ツール • S3を含む、ビッグデータ基盤の全 アクティビティの監査ログの収集、 閲覧 • データの出所がわかるリネージ機 能 • ファイルやテーブル、クエリのメタ データの管理、検索 • ポリシーによるメタデータの自動付 与 • データライフサイクル管理
  • 24. 24© Cloudera, Inc. All rights reserved. テキスト検索可能なメタデータ 技術メタデータとビジネスメタ データの管理 • 分析したいデータはどこにあるの か? • 3年以上前に作成された、ユーザー training のファイルはどれか • 営業部門のデータだけを検索した い例)「空港*」に一致するファイル、 操作、メタ情報等を検索
  • 25. 25© Cloudera, Inc. All rights reserved. 技術メタデータとビジネスメタデータ ビジネスメタデータ(明示的に付与できる) 技術メタデータ(自動で付与される)
  • 26. 26© Cloudera, Inc. All rights reserved. 大規模データのライフサイクルを自動化 データ管理者向け 効率的なライフサクルポリ シーの管理 • ポリシーエンジンによるデータ管理 とキュレーションの自動化 • バックアップ&ディザスタリカバリ機 能によるビジネスの継続 • パートナーツールとの統合 例)7年以上前のファイルをアー カイブするポリシーを作成し、手 動、自動で適用する
  • 27. 27© Cloudera, Inc. All rights reserved. データの探索と分析 ビジネスユーザー・データサイエンティスト向け 最も関連のある、信頼ある データを容易に探し出す • 統一されたメタデータリポジトリから 探索 • コンテキストと可視性をデータセット に付与 • 類似した関連データを簡単に見つ ける 自動、または明示的にビジネスメタ情報を 付与しておき、検索できる
  • 28. 28© Cloudera, Inc. All rights reserved. コンプライアンス・レディなガバナンスと防御 コンプライアンス担当者向け 機密データへのアクセスを 追跡、防御 • 全エコシステムの監査情報の検索 • 直感的なリネージによりデータがど のように使われ変更されたかを調査 • 高性能な暗号化と鍵管理による データの保護 • パートナーツールと統合例)training ユーザーの 2016/11/12-2017/11/12の 監査情報を検索
  • 29. 29© Cloudera, Inc. All rights reserved. Demo (1) Sqoopでmovieratingテーブルをインポートした時のリネージ 1) Sqoop (MapReduce) ジョブが実行され、 2) mysqlのmovieratingテーブルからデータを取り込み 3) HDFSの/user/hive/warehouse/movieratingに格納され 4) movieratingテーブルが作成された
  • 30. 30© Cloudera, Inc. All rights reserved. Demo (2) S3のデータを検索
  • 31. 31© Cloudera, Inc. All rights reserved. Demo (3) S3上のデータを使い生成したHiveテーブルに手動でメタデータを付与
  • 32. 32© Cloudera, Inc. All rights reserved. Demo (4) Demo(3) で追加したビジネスメタデータを検索 ビジネスメタデータ、DepartmentがSalesのデータを検索
  • 33. 33© Cloudera, Inc. All rights reserved. これらの領域が今日のデータ ガバナンスでの大きな課題 現在のビッグデータガバナンスの状態 混沌: 「データハブに 何があるのかわから ない」 基本コンプライアンス : 生ガバナンスデータ をキャプチャ セルフサービスのた めのビジネスメタデー タ: データのキュレーショ ンの自動化 情報ライフサイクル の自動化: データスチュワード シップとライフサイク ルの自動化 継続的改善: 継続的な最適化 1 2 3 4 5 初期 コンプライアンス 探索とコラボレー ション データスチュワー ドシップ 最適化とリファク タリング
  • 34. 34© Cloudera, Inc. All rights reserved. Cloudera SDX
  • 35. 35© Cloudera, Inc. All rights reserved. • 独自のプロプラのツールとインフラを必要とする多くのデータサイロ • オンプレとクラウドで、異なるベンダー、製品、サービス • 細分化されたアプローチは、難解で、高価で、リスクが高い データ管理における課題 SQL 分析データ ベース NoSQLと リアルタイム データベース データエンジ ニアリングと ETL環境 データウェアハ ウスと データマート
  • 36. 36© Cloudera, Inc. All rights reserved. 従来のアプリケーション 36 • 1種類のデータ • 1つの分析機能 • 統合が困難 Data Exploration STORAGE SECURITY GOVERNANCE WORKLOAD MGMT INGEST & REPLICATION DATA CATALOG SQL & BI Analytics STORAGE SECURITY GOVERNANCE WORKLOAD MGMT INGEST & REPLICATION DATA CATALOG Operational Real-Time DB STORAGE SECURITY GOVERNANCE WORKLOAD MGMT INGEST & REPLICATION DATA CATALOG ETL & Data Processing STORAGE SECURITY GOVERNANCE WORKLOAD MGMT INGEST & REPLICATION DATA CATALOG Custom Functions STORAGE SECURITY GOVERNANCE WORKLOAD MGMT INGEST & REPLICATION DATA CATALOG
  • 37. 37© Cloudera, Inc. All rights reserved. 多機能分析の サポート ワークロード追加 時間の最小化 エラスティックな ワークロードに対 応 セルフサービスの 有効化 データを共有する ためのスケーラブ ルなモデルを提 供 コスト削減 テナントの分離を 増やす セキュアな環境 現在のデータ管理チームに重要な設計目標
  • 38. 38© Cloudera, Inc. All rights reserved. 共有ストレージ (HDFS, Kudu) 従来のオンプレミスのデプロイメントには良好 シェアードデータエクスペリエンス (Metadata, Security, Governance) 一つの物理クラスタが、複数のワークロード/テナントに シェアードデータエクスペリエンスを提供する … しかし、今後は十分ではない 強: マルチファンクション対応 強: シェアードデータエクスペリエンス 強: 情報セキュリティモデル 中: コスト管理 中: テナントの分離 中: ワークロードの弾力性 弱: セルフサービス 弱: デプロイにかかる時間
  • 39. 39© Cloudera, Inc. All rights reserved. 従来のクラウドへのデプロイは、オンプレミスが弱いところでは強力 だが、ワークロードのサイロが生じるという対価を払う … しかし、今後は十分ではない 共有オブジェクトストレージ Cloud 中: マルチファンクション対応 弱: シェアードデータエクスペリエンス 弱: 情報セキュリティモデル 中: コスト管理 強: テナントの分離 強: ワークロードの弾力性 強: セルフサービス 強: デプロイにかかる時間
  • 40. 40© Cloudera, Inc. All rights reserved. 現在: 単一プラットフォーム、複数ワークロード DATA ENGINEERING OPERATIONAL DATABASE ANALYTIC DATABASE DATA SCIENCE 無制限のデータを、迅速か つコスト効率よく 保存して処理する 「プログラムによる データ処理と機械学習」 すべてのデータを 探索、分析して 理解する 「高速かつ柔軟な、 オープンソースの 並列データベース」 データドリブンなアプリケー ションを構築し、リアルタイム の洞察を提供する 「オンラインアプリケーション、 Lambda/Kappa アーキテク チャー」
  • 41. 41© Cloudera, Inc. All rights reserved. ワークロードとは? データ + データのコンテキスト + 計算 データのコンテキスト: • HMS: スキーマ定義 • Sentry: セキュリティ(認可) • Navigator: 監査ログ • Navigator: ビジネスグロッサリー • Navigator: ビジネスメタデータ • Navigator: リネージ
  • 42. 42© Cloudera, Inc. All rights reserved. 複数のワークロードの場合は? Cluster Hive/HMS Sentry NavigatorSpark Keys HDFS, Kudu, S3, Private Cloud Storage
  • 43. 43© Cloudera, Inc. All rights reserved. 複数のワークロードにおけるデータのコンテキスト 従来のHadoopクラスター 計算、データ、データの コンテキストを含む 一時的なHadoopクラスター 計算、データのコンテキストを 含むがデータは外部化される HDFS, Kudu, S3, Private Cloud Storage データと一緒で はなく、データ のコンテキスト が各クラスター に格納されてい るのはなぜか? ?
  • 44. 44© Cloudera, Inc. All rights reserved. データのコンテキストの一貫性の問題 計算とデータはさらに分離されつつある • 計算はステートレス: クラウドベース/オンプレミス、一時的/長期間実行かのいずれか • データはステートフル: クラウドベース、またはオンプレのHDFS, Kudu, S3, ADLS, Isilon な ど データのコンテキストは? • スキーマ定義 (Hive Metastore) • 権限 (Apache Sentry) • 暗号鍵 (KMS) • ガバナンス (Cloudera Navigator) データのコンテキストはステートフルであるべきだが現在はステートレス • これにより、管理者とエンドユーザーの両方で同期とユーザビリティの課題が生じる
  • 45. 45© Cloudera, Inc. All rights reserved. ソリューション: シェアードデータエクスペリエンス データコンテキストサービスを共有サービス として外部化する DATA ENGINEERING OPERATIONAL DATABASE ANALYTIC DATABASE DATA SCIENCE 利点 • すべてのワークロードにわたる共通スキーマ、アクセス 権限、分類、およびガバナンス • 所有コストの削減: 管理するハードウェア、ソフトウェアを削 減 • エンドユーザーの生産性向上: データは全クラスターで一貫 して表現される • より早い拡張: 管理者は新しいクラスターごとにデータコンテ キストサービスを作り直す必要がない KEYSHMS SENTRY NAVIGATOR KEYSHMS SENTRY NAVIGATOR HDFS, Kudu, S3, Private Cloud StorageHDFS, Kudu, S3, Private Cloud Storage
  • 46. 46© Cloudera, Inc. All rights reserved. 46 クラウドに最適化された機械学習と分析向けのモダンプラットフォーム 拡張サービス CORE SERVICES DATA ENGINEERING OPERATIONAL DATABASE ANALYTIC DATABASE データカタログ データ投入 & レプリケーション セキュリティ ガバナンス ワークロード管理 DATA SCIENCE NEW OFFERINGS Cloudera Enterprise Amazon S3 Microsoft ADLS HDFS KUDU STORAGE SERVICES
  • 47. 47© Cloudera, Inc. All rights reserved. 2つのデプロイオプション Cloudera SDX Cloudera SDX: Customer-managed • RDSを使用するHive Metastore • RDSを使用するApache Sentry • お客様が管理しているCloudera Navigator 次のような場合に理想的: • Directorで立ち上げたワークロード • CMが管理しているワークロード Cloudera Altus SDX: Cloudera- managed • サーバーレスHive Metastore • サーバーレスApache Sentry • サーバーレスCloudera Navigator 次のような場合に理想的: • Altus SDX ワークロード • ハイブリッドワークロード
  • 48. 48© Cloudera, Inc. All rights reserved. SDXでのクラウドへのデプロイは全ての設計目標を最適化する シェアードデータエクスペリエンス (Metadata, Security, Governance) 一つの論理クラスターが、複数のワークロードとテナントにシェ アードデータエクスペリエンスを提供する SDXはオンプレの設計の強みをクラウドに移行できるようにする 共有オブジェクトストレージCloud 強: マルチファンクション対応 強: シェアードデータエクスペリエンス 強: 情報セキュリティモデル 強: コスト管理 強: テナントの分離 強: ワークロードの弾力性 強: セルフサービス 強: デプロイにかかる時間
  • 49. 49© Cloudera, Inc. All rights reserved. Thank you kawasaki@cloudera.com