O slideshow foi denunciado.
Utilizamos seu perfil e dados de atividades no LinkedIn para personalizar e exibir anúncios mais relevantes. Altere suas preferências de anúncios quando desejar.
* Gartner, Big Data (Stamford, CT.: Gartner, 2016),
URL: http://www.gartner.com/it-glossary/big-data/
ビッグデータとは、より拡張された洞察、
...
Microsoft. FY16 Q4 Results,
URL: http://www.microsoft.com/en-us/Investor/earnings/FY-2016-Q4/press-release-webcast
Source: Gartner
ビジネス価値
ビジネス活用のステージ
バッチレポート
定型検索
分析・アドホック
非定型検索
予測分析
自動化支援
何が起きたのか?
状況の把握
何故起きたのか?
原因を把握
過去を分析し、今後
とるべき行動を判...
https://www.microsoft.com/itshowcase/Article/Content/617/Whats-new-with-the-data-culture-at-Microsoft
マイクロソフト事例サイト:IT Show...
ETL パイプライン
スキーマの定義
Relational
LOB
Applications
Schema-on-Write
直ちに必要でないデータは、全て捨てられるか、アーカイブされている
無限に保存 分析 結果の参照
あらゆるデータ
ソースからの
データ収集
Schema-on-Read
全データ取込
要件にかかわらず
全データ格納
そのままのフォーマットで
スキーマ定義なし
分析実行
Hadoopのような
分析エンジンの利用
インタラクティブクエリ
バッチ型クエリ
機械学習
データウェアハウス
リアルタイム分析
リレーショ
ナ...
クラウドベースの統合ビッグデータ基盤
ビッグデータカタログ
データレイクストア
データウェアハウス
構造化データ
定型分析用
非構造Rawデータ
Tier 1
半構造データ
Tier 2
SQL Data
Warehouse
Data Lake...
データウェアハウスデータレイクストア
非構造Rawデータ
(ログ、文書、バイナリ)
Tier 1
Machine
Learning
Data Lake
Analytics HDInsight
目的に合わせた
データウェハウス分析処理
(売上分析...
統合ビッグデータ基盤
ビッグデータカタログ
構造化データ
定型分析用
非構造Rawデータ
(ログ,文書,バイナリ)
Tier 1
半構造データ
分析用に加工(csv等)
Tier 2
SQL Data
Warehouse
Data Lake
S...
Data Factory Tools for Visual Studio
Azure Portal
Azure Table
Storage
(Web ログ
レコード)
Data Factory
HDInsight
(Web ログを
ファイルにして
バッチ処理で集計)
SQL Database
(集計データを
DB テーブル
に格納)
Powe...
社内システム
Data
Management
Gateway
SQL Database
Data Warehouse
Blob Storage
Table Storage
Analytics
Storage
HDInsight
(“managed clusters”)
Azure Data Lake Analytics
Azure Data Lake Store
Azure Data Lake
LOB Applications
SocialDevices
Clickstream
Sensors
Video
Web
Relational
HDInsight
Data Lake Analytics
Machine Learning
Spa...
実質無制限の容量のファイル群を格納出来るビッグデータストア
(数十、数百ペタバイト以上のクラスのデータを格納可能)
Azure のクラウド基盤上の HDFS (Hadoop 分散ファイルシステム) 互換の
ファイルシステム、全てのファイルをその...
Azure Data Lake Store file
…Block 1 Block 2 Block 2
Backend Storage
Data node Data node Data node Data node Data nodeData ...
アクセス制御
障害時でさえデータは消失しない
Replica 1
Replica 2 Replica 3
Fault/upgrade
domains
Write Commit
高信頼性
AzureAzure
Saas
Azure
Public
Cloud
Office 365Office 365
Control
Node
SQL
DB
Compute
Node
Compute
Node
Compute
Node
Compute
Node
SQL
DB
SQL
DB
SQL
DB
SQL
DB コンピュート層
• スケールアウト・ダウン可...
Azure Data Lake Store
Azure Storage Blob
外部表Azure SQL
Data Warehouse
従来型の処理・分析 Azure Data Lake を中心とした処理・分析
Business
apps
Custom
apps
Sensors
and devices
ADL Store
People
非構造化データも
含めてあらゆる
データを...
HDInsight
開発者は OSS に馴染んでいる:
Java, Eclipse, Hive, etc.
マネージド Hadoop クラスタ
において、カスタマイズ・管理
が可能で、フレキシビリティが
ある
Azure Data Lake A...
(New)
(New)
一般的なパターン
処理読み込み 保存
INSERT
OUTPUT
OUTPUT
SELECT…
FROM…
WHERE…
+
Python、R
EXTRACT
EXTRACT
SELECT
SELECT
Azure
Data
Lake
Azur...
REFERENCE ASSEMBLY WebLogExtASM;
@rs =
EXTRACT
UserID string,
Start DateTime,
End DateTime,
Region string,
SitesVisited st...
U-SQL ジョブのサブミット
Azure PortalやVisual StudioのAzure Data Lake ToolsからU-SQLジョブをサブミット可能
42
進捗
統計情報
Azure
Data Lake
Store
※ Power BI Desktop は下記サイトから無償でダウンロード可能です
https://powerbi.microsoft.com/ja-jp/desktop
• レポートの例
Demo
航空機の遅延分析と可視化
ハイブリッド データ
オンプレミスとクラウドの両方の
データにアクセスすることが可能
インタラクティブ
主要な可視化・BI ツールをサポート
し、インタラクティブなセルフサービス
型のデータ分析を実現
実績のある技術
SQL Server An...
Demo
Azure Data Factoryを用いたデータ連携の実装
Azure Data Factoryを用いたデータ連携の実装
ビックデータは大容量かつ多彩
ADLで処理・分析・評価のサイクルを
シームレスに、よりクイックに
ADLであらゆるデータをビジネスに活用、
管理、運用も Azure にお任せ
セッションアンケートにご協力ください
 専用アプリからご回答いただけます。
decode 2017
 スケジュールビルダーで受講セッションを
登録後、アンケート画面からご回答ください。
 アンケートの回答時間はたったの 15 秒です!
Ask the Speaker のご案内
本セッションの詳細は『Ask the Speaker Room』各コーナーカウンタにて
ご説明させていただきます。是非、お立ち寄りください。
© 2017 Microsoft Corporation. All rights reserved.
本情報の内容(添付文書、リンク先などを含む)は、作成日時点でのものであり、予告なく変更される場合があります。
[DI12] あらゆるデータをビジネスに活用! Azure Data Lake を中心としたビックデータ処理基盤のアーキテクチャと実装
[DI12] あらゆるデータをビジネスに活用! Azure Data Lake を中心としたビックデータ処理基盤のアーキテクチャと実装
[DI12] あらゆるデータをビジネスに活用! Azure Data Lake を中心としたビックデータ処理基盤のアーキテクチャと実装
[DI12] あらゆるデータをビジネスに活用! Azure Data Lake を中心としたビックデータ処理基盤のアーキテクチャと実装
[DI12] あらゆるデータをビジネスに活用! Azure Data Lake を中心としたビックデータ処理基盤のアーキテクチャと実装
[DI12] あらゆるデータをビジネスに活用! Azure Data Lake を中心としたビックデータ処理基盤のアーキテクチャと実装
[DI12] あらゆるデータをビジネスに活用! Azure Data Lake を中心としたビックデータ処理基盤のアーキテクチャと実装
[DI12] あらゆるデータをビジネスに活用! Azure Data Lake を中心としたビックデータ処理基盤のアーキテクチャと実装
[DI12] あらゆるデータをビジネスに活用! Azure Data Lake を中心としたビックデータ処理基盤のアーキテクチャと実装
[DI12] あらゆるデータをビジネスに活用! Azure Data Lake を中心としたビックデータ処理基盤のアーキテクチャと実装
[DI12] あらゆるデータをビジネスに活用! Azure Data Lake を中心としたビックデータ処理基盤のアーキテクチャと実装
[DI12] あらゆるデータをビジネスに活用! Azure Data Lake を中心としたビックデータ処理基盤のアーキテクチャと実装
[DI12] あらゆるデータをビジネスに活用! Azure Data Lake を中心としたビックデータ処理基盤のアーキテクチャと実装
[DI12] あらゆるデータをビジネスに活用! Azure Data Lake を中心としたビックデータ処理基盤のアーキテクチャと実装
[DI12] あらゆるデータをビジネスに活用! Azure Data Lake を中心としたビックデータ処理基盤のアーキテクチャと実装
[DI12] あらゆるデータをビジネスに活用! Azure Data Lake を中心としたビックデータ処理基盤のアーキテクチャと実装
Próximos SlideShares
Carregando em…5
×

[DI12] あらゆるデータをビジネスに活用! Azure Data Lake を中心としたビックデータ処理基盤のアーキテクチャと実装

昨今、データの増大や形態の多様化に伴い、データ レイクが注目されています。
本セッションでは、 Azure Data Lake を中心としてビック データ処理基盤を構築する際のアーキテクチャと、データの収集、蓄積、分析、可視化等の機能を実装する際のポイントをデモを交えてご紹介します。

受講対象: Azure でビック データ分析基盤を構築される方、データ レイクに興味のある方、アーキテクトの方、ぜひご参加下さい。

関連リソース 1: Cortana Intelligence Suite (https://azure.microsoft.com/ja-jp/suites/cortana-intelligence-suite/)
関連リソース 2: Microsoft Japan Data Platform Tech Sales Team Blog (https://blogs.msdn.microsoft.com/dataplatjp/)
関連リソース 3: [DI07] あらゆるデータに価値がある! アンチ断捨離ストのための Azure Data Lake (https://www.microsoft.com/ja-jp/events/decode/2017/sessions.aspx#DI07)

製品/テクノロジ: Machine Learning (機械学習)/Microsoft Azure/SQL Server/アーキテクチャ/クラウド/ビッグ データ/運用

清水 淳也
日本マイクロソフト株式会社
クラウド & ソリューション ビジネス統括本部
データ プラットフォーム & クラウド技術部
データ プラットフォーム ソリューション アーキテクト

  • Entre para ver os comentários

[DI12] あらゆるデータをビジネスに活用! Azure Data Lake を中心としたビックデータ処理基盤のアーキテクチャと実装

  1. 1. * Gartner, Big Data (Stamford, CT.: Gartner, 2016), URL: http://www.gartner.com/it-glossary/big-data/ ビッグデータとは、より拡張された洞察、 意思決定、プロセスの自動化を可能にす る費用効率の高い、革新的な情報処理の 形態で求められる、高ボリューム(high- volume)、高速(high-velocity)、多彩 な(high-variety) 情報資産です。 – ガートナー, ビッグデータの定義*
  2. 2. Microsoft. FY16 Q4 Results, URL: http://www.microsoft.com/en-us/Investor/earnings/FY-2016-Q4/press-release-webcast
  3. 3. Source: Gartner ビジネス価値 ビジネス活用のステージ バッチレポート 定型検索 分析・アドホック 非定型検索 予測分析 自動化支援 何が起きたのか? 状況の把握 何故起きたのか? 原因を把握 過去を分析し、今後 とるべき行動を判断 判断を元にした アクションの自動化 これまでの Business Intelligence 人が戦略的な意思決定をするための支援ツール Advanced Analytics が目指すもの より精度の高い蓄積データを活かして、将来を予測し、 業務判断を自動化する高いビジネス価値を提供 過去の見える化(BI) ・基本統計量 (平均、最大、最小、 標準偏差など) ・クロス集計 ・グラフ等による可視化 ・予測モデリング ・相関、パターン発見 ・セグメンテーション ・最適化 ・シミュレーション ・ディープラーニング +将来予測(発見型) 分析ステージを過去の要因分析から未来の予測分析にシフトし、 高精度の意思決定を実現
  4. 4. https://www.microsoft.com/itshowcase/Article/Content/617/Whats-new-with-the-data-culture-at-Microsoft マイクロソフト事例サイト:IT Showcase 人 データ プロセス テクノロジー 利用する 可能にする 監視する マイクロソフトは過去データの詳細分析 に費やす時間を減らし、様々なデータを もとに将来何が起こるのかという「予測 分析」についてさらに注力していきます。 この先進的なアプローチにより、マイク ロソフトのIT部門は他のビジネス部門を サポートする重要なポジションになって います。
  5. 5. ETL パイプライン スキーマの定義 Relational LOB Applications Schema-on-Write 直ちに必要でないデータは、全て捨てられるか、アーカイブされている
  6. 6. 無限に保存 分析 結果の参照 あらゆるデータ ソースからの データ収集 Schema-on-Read
  7. 7. 全データ取込 要件にかかわらず 全データ格納 そのままのフォーマットで スキーマ定義なし 分析実行 Hadoopのような 分析エンジンの利用 インタラクティブクエリ バッチ型クエリ 機械学習 データウェアハウス リアルタイム分析 リレーショ ナル デバイス 観察/仮説 集まったデータから仮説を たてる
  8. 8. クラウドベースの統合ビッグデータ基盤 ビッグデータカタログ データレイクストア データウェアハウス 構造化データ 定型分析用 非構造Rawデータ Tier 1 半構造データ Tier 2 SQL Data Warehouse Data Lake Store Data Catalog アーカイブデータ Tier 3 アーカイブ 変換 ロード アーカイブ ビッグデータカタログ: • 大量データオブジェクトに対するメタデータのカタログ データウェアハウス: • 大量の構造化データを高速に集約/分析処理を実行 • 領域ごとにデータモデル(スタースキーマ)を設計 (例:売上分析、経理/経営分析) データレイクストア: 第1層(Tier 1) • 非構造データをそのままのフォーマット(Raw)で保存/ 蓄積(IoTデバイス、センサー、ドキュメントなど) 第2層(Tier 2) • 半構造形式のデータ(csv, tsvなど) • Hadoop/Spark、機械学習などから利用される 第3層(Tier 3) • 第2層やデータウェハウスのデータで時間が経過したもの をアーカイブする • データ構造は基本的に半構造形式
  9. 9. データウェアハウスデータレイクストア 非構造Rawデータ (ログ、文書、バイナリ) Tier 1 Machine Learning Data Lake Analytics HDInsight 目的に合わせた データウェハウス分析処理 (売上分析、経営分析) データウェハウスに 格納しきれなかった 過去データ、関連データ を連結して分析 ハードウェアの性能限界 によって行えなかった 処理量の分析を実現 ※ディスク/コンピューティング 非構造データの 分析処理 (画像、音声、映像など) 広範囲のデータを利用した 機械学習、統計解析処理 などによる高度分析 SQL Data Warehouse Data Lake Analytics HDInsight Data Lake Analytics 構造化データ 半構造データ 分析用に加工(csv等) Tier 2 アーカイブデータ Tier 2, DWHのアーカイブ Tier 3
  10. 10. 統合ビッグデータ基盤 ビッグデータカタログ 構造化データ 定型分析用 非構造Rawデータ (ログ,文書,バイナリ) Tier 1 半構造データ 分析用に加工(csv等) Tier 2 SQL Data Warehouse Data Lake Store Data Catalog 情報可視化 経営ダッシュボード 情報アクセス高度化・ 統合検索 レポーティング Power BI 高度予測分析 自然言語認識 翻訳・要約 統計解析・分析 類似・相関分析 機械学習 Deep Learning 仮説設定・検証 Cognitive HDInsight Machine Learning Bot サービス 会話型問合せ Bot Services Data Lake Analytics デ ー タ 収 集 ・ 連 携 Data Factory System of Records (ERP等) 構造化データ コミュニケーション インフラストラクチャ 等の非構造化データ ワード・Excel ・PDF等の 非定型データ 外部ソース (構造化・非構造化) オープンデータ 半構造データ アーカイブ用 Tier 3 データ連携Data Factory Azure Active Directory ユーザ管理/認証/アクセス制御
  11. 11. Data Factory Tools for Visual Studio Azure Portal
  12. 12. Azure Table Storage (Web ログ レコード) Data Factory HDInsight (Web ログを ファイルにして バッチ処理で集計) SQL Database (集計データを DB テーブル に格納) Power BI
  13. 13. 社内システム Data Management Gateway SQL Database Data Warehouse Blob Storage Table Storage
  14. 14. Analytics Storage HDInsight (“managed clusters”) Azure Data Lake Analytics Azure Data Lake Store Azure Data Lake
  15. 15. LOB Applications SocialDevices Clickstream Sensors Video Web Relational HDInsight Data Lake Analytics Machine Learning Spark R Azure Data Lake Store
  16. 16. 実質無制限の容量のファイル群を格納出来るビッグデータストア (数十、数百ペタバイト以上のクラスのデータを格納可能) Azure のクラウド基盤上の HDFS (Hadoop 分散ファイルシステム) 互換の ファイルシステム、全てのファイルをそのままの書式(raw data)で格納可能 並列分散処理(MPP)により高スループットを実現 「企業向けレベルのセキュリティ」に対応 (セキュリティ、アクセス制御、暗号化など) 1つのデータオブジェクトに対して、2つのレプリカを同時に複製 (全体で3つのコピーを保持)することで高可用性を実現 拡張可能 高信頼性 互換性 パフォーマンス アクセス制御
  17. 17. Azure Data Lake Store file …Block 1 Block 2 Block 2 Backend Storage Data node Data node Data node Data node Data nodeData node Block Block Block Block Block Block パフォーマンス
  18. 18. アクセス制御
  19. 19. 障害時でさえデータは消失しない Replica 1 Replica 2 Replica 3 Fault/upgrade domains Write Commit 高信頼性
  20. 20. AzureAzure Saas Azure Public Cloud Office 365Office 365
  21. 21. Control Node SQL DB Compute Node Compute Node Compute Node Compute Node SQL DB SQL DB SQL DB SQL DB コンピュート層 • スケールアウト・ダウン可能 • 停止可能 データはストレージ層 MPP処理 コンピュート層とストレージ層を 分離することで、スケール アウトを容易にし、同時に 課金も柔軟にする DMS DMS DMS DMS DMS Compute Node SQL DB DMS プレミアムストレージ(SSD)
  22. 22. Azure Data Lake Store Azure Storage Blob 外部表Azure SQL Data Warehouse
  23. 23. 従来型の処理・分析 Azure Data Lake を中心とした処理・分析 Business apps Custom apps Sensors and devices ADL Store People 非構造化データも 含めてあらゆる データを格納 Azure SQL DW Azure AD Power BI ADF ADL Analytics • 処理・分析業務の大半はデータ準備作業が占める • 処理・分析業務に手間・時間が必要 Business apps Custom apps Sensors and devices HDInsight ユーザー管理、認証 データの連携 Power BI File System Database Database Hadoop DWH Data Mart
  24. 24. HDInsight 開発者は OSS に馴染んでいる: Java, Eclipse, Hive, etc. マネージド Hadoop クラスタ において、カスタマイズ・管理 が可能で、フレキシビリティが ある Azure Data Lake Analytics C#, SQL & PowerShell のスキ ル・経験を活かせる 利便性、効率性、自動スケール、 ジョブ実行の仕組みが提供され る
  25. 25. (New) (New)
  26. 26. 一般的なパターン 処理読み込み 保存 INSERT OUTPUT OUTPUT SELECT… FROM… WHERE… + Python、R EXTRACT EXTRACT SELECT SELECT Azure Data Lake Azure Data Lake Azure SQL DB Azure Storage Blobs Azure Storage Blobs RowSet RowSet Cognitive Services
  27. 27. REFERENCE ASSEMBLY WebLogExtASM; @rs = EXTRACT UserID string, Start DateTime, End DateTime, Region string, SitesVisited string, PagesVisited string FROM “/Logs/WebLogRecords.txt” USING WebLogExtractor (); @result = SELECT UserID, (End.Subtract(Start)).TotalSeconds AS Duration FROM @rs ORDER BY Duration DESC FETCH 10; OUTPUT @result TO “/Logs/Results/top10.tsv" USING Outputter.Tsv(); • 型定義は C# の型定義と同じ • データをファイルから抽出・読み込み するときに、スキーマが必要 Data Lake Store 内 のファイル 独自形式を解析するカスタム関数 C# の関数 行セット: (中間テーブルの 概念に近い) TSV形式で書き込む関数
  28. 28. U-SQL ジョブのサブミット Azure PortalやVisual StudioのAzure Data Lake ToolsからU-SQLジョブをサブミット可能 42
  29. 29. 進捗 統計情報
  30. 30. Azure Data Lake Store
  31. 31. ※ Power BI Desktop は下記サイトから無償でダウンロード可能です https://powerbi.microsoft.com/ja-jp/desktop
  32. 32. • レポートの例
  33. 33. Demo 航空機の遅延分析と可視化
  34. 34. ハイブリッド データ オンプレミスとクラウドの両方の データにアクセスすることが可能 インタラクティブ 主要な可視化・BI ツールをサポート し、インタラクティブなセルフサービス 型のデータ分析を実現 実績のある技術 SQL Server Analysis Services の テーブル モデルを搭載 クラウド PaaS のため簡単にデプロイでき、 簡単にスケールさせることができる マネージド型サービス セキュリティ管理 データモデリング 分析の高速化 SQL Database などのデータベース Excel、フラットファイル 分析サーバデータソース 可視化・分析機能
  35. 35. Demo Azure Data Factoryを用いたデータ連携の実装
  36. 36. Azure Data Factoryを用いたデータ連携の実装
  37. 37. ビックデータは大容量かつ多彩 ADLで処理・分析・評価のサイクルを シームレスに、よりクイックに ADLであらゆるデータをビジネスに活用、 管理、運用も Azure にお任せ
  38. 38. セッションアンケートにご協力ください  専用アプリからご回答いただけます。 decode 2017  スケジュールビルダーで受講セッションを 登録後、アンケート画面からご回答ください。  アンケートの回答時間はたったの 15 秒です!
  39. 39. Ask the Speaker のご案内 本セッションの詳細は『Ask the Speaker Room』各コーナーカウンタにて ご説明させていただきます。是非、お立ち寄りください。
  40. 40. © 2017 Microsoft Corporation. All rights reserved. 本情報の内容(添付文書、リンク先などを含む)は、作成日時点でのものであり、予告なく変更される場合があります。

×