SlideShare uma empresa Scribd logo
1 de 53
Baixar para ler offline
自己紹介
日本マイクロソフト株式会社
デジタルトランスフォーメーション事業本部
データ & クラウド AI アーキテクト技術部
クラウドソリューションアーキテクト
高木 英朗 (Takagi Hideo)
• Data Platform Tech Sales Team Blog
http://aka.ms/dpblog
本セッションのゴール
• AI / アナリティクスにおける「データレイク」の重要性について理解する
• Azure Data Lake のサービスの概要を理解する
• Azure Data Lake を中心とした AI / アナリティクス基盤のデザインを理解する
Agenda
1. Azure Data Lake の概要
2. 事例紹介
3. Azure Data Lake の仕組みと機能
4. AI / アナリティクスを支えるビッグデータ基盤のデザイン例
1. Azure Data Lake の概要
クラウド、 AI & アナリティクス、ビッグデータ
データの増大
2020 年 44 ZB
クラウド活用企業
現在 80%
AI への投資
2017 年 300% 増加
SQL
クリックストリーム
センサー
動画
SNS
Web
デバイス
リレーショナル
アプリ
データで価値を生み出す
ビッグデータ クラウド AI
アナリティクス
従来のビジネス分析プロセス
専用の ETL ツール
スキーマの定義
クエリ
レポート
リレーショナル
業務
アプリケーション
ETL パイプライン
1. ユーザーが求めるビジネス分析やレポート内容を事前に特定
2. レポート用のスキーマとクエリを定義する
3. データソースを特定する
4. 必要なデータを抽出して変換して、定義したスキーマにロード
するための ETL 処理を作成する (スキーマ オン ライト)
5. レポートを作成して、データを分析する
トップダウン アプローチ
AI 時代のビッグデータ = すべてのデータに価値がある
無限に保存 分析 結果の参照
全てのデータソース
からデータを収集
繰り返し
全てのデータには潜在的な価値がある (データは企業の資産)
全てのデータを蓄積する
ネイティブフォーマットで保存する - スキーマを事前定義しない
クエリを実行する時にスキーマを定義して変換する (スキーマ オン リード).
ボトムアップ アプローチ
スキーマ オン リード
abe, 95, 46, 85, 85
itoh, 89, 72, 46, 76, 34
ueda, 95, 13, 57, 63, 87
emoto, 50, 68, 38, 85, 98
otsuka, 13, 16, 67, 100, 7
katase, 42, 61, 90, 11, 33
{"name" : "cat", "count" : 105}
{"name" : "dog", "count" : 81}
{"name" : "rabbit", "count" : 2030}
{"name" : "turtle", "count" : 1550}
{"name" : "tiger", "count" : 300}
{"name" : "lion", "count" : 533}
{"name" : "whale", "count" : 2934}
xxx.xxx.xxx.xxx - -
[27/Jan/2018:14:20:17 +0000]
"GET /item/giftcards/3720
HTTP/1.1" 200 70 "-" "Mozilla/5.0
(Windows NT 6.1; WOW64;
rv:10.0.1) Gecko/20100101
Firefox/10.0.1"
フォーマットを気にせ
ずデータをためていく
使うときにはじめて
データ構造を意識
SELECT ~~~ FROM ~~~
WHERE ~~~ ORDER BY ~~~;
データを集めてためておく
使うときにデータ構造を定義して処理する
Microsoft AI Platform
Azure AI Services
Azure Infrastructure
Tools
Azure Data Lake とは
HDInsight
Spark, Hive,
Storm, Kafka
Data Lake
Analytics
Data Lake Store
WebHDFS
YARN
Azure
Databricks
ストレージ
Azure Data Lake Store (ADLS)
• どんなフォーマットのデータでも無制限に格納
できるストレージ
• 分散型で分析処理パフォーマンスが高い
• OSS との親和性
分析ツール
Azure Data Lake Analytics (ADLA)
• サーバレスの分析エンジン
• 親しみのある SQL に近い U-SQL 言語
• 柔軟なスケールで大量データ処理が得意
• ジョブ単位の課金
Azure Data Lake 向き / 不向き
向いている
• 大量のデータを保存
• 一か所に構造 / 非構造の様々なデータを統合
• データを作り、変換し、集約する
• 大きなデータセットに対して分析クエリを実行
向いていない
• 頻繁な読み書き
• 多数の細かいデータの参照や書き込み
?
?
?
?
Azure Data Lake Store (ADLS) を作成するには・・・
✓ 暗号化はデフォルトで ON
✓ 基本的な情報の設定のみ
✓ 名前
✓ リソース
✓ 場所
従量課金プランの場合は保存した
データ容量による課金
※1GB あたり ¥4.37/月 (2018-02-15 現在)
✓ 現在は米国中部、米国東部 2、北
ヨーロッパのみ。今後順次展開予定
Azure Data Lake Analytics (ADLA) を作成するには・・・
✓ 基本的な情報の設定のみ
✓ 名前
✓ リソース
✓ 場所
✓ 使用する ADLS
ジョブに使用したスケール設定 (AU) と
実行時間の従量課金
※1AU あたり ¥224/時間 (2018-02-15 現在)
✓ 現在は米国中部、米国東部 2、北
ヨーロッパのみ。今後順次展開予定
2. 事例紹介
事例: 国立大学法人 岐阜大学 様
事例 URL https://customers.microsoft.com/en-us/story/gifu-u
大学本来の価値を向上させる "研究 IR" 実践に向け、膨大な情報資産を多様な書式・形式のま
ま管理し、分析・活用する画期的な情報基盤を、クラウドで実現
<背景と狙い>
• 「岐阜大学の将来ビジョン」を強力に後押しするために、大
学 IR に必要な情報基盤を追求。
• 多種多様な活動を行っている教員たちを正しく評価し、各
人のモチベーションを高めていくためにも、学内にある生の
データを集めることが、もっとも重要なことだった。
• 事務員の PC の中に、Excel などにまとめられた生のデータ
が数多く保存されていたのです。システムが定義するデータ
構造の枠内に納まらなかった、そうした生のデータを集めて、
分析できるように環境を整えることが重要だった。
<導入効果>
• 学内のあらゆるデータを Azure Data Lake Store で管理し、
そのデータを検索する仕組みとして Azure Search を活用。
• 「今までは、漠然と推測していた事柄が、データによって裏
付けられ、グラフなどの形ではっきりと把握できるようになった
ことは、大きな成果」。
事例: 株式会社リコー 様
「SPA=製造小売業」のお客様の抱える課題を解決
<背景>
• コピー機の主戦場は企業の Office だったが、ビジネスを拡大するためにお
客様が活躍する現場、社会に広げて、データを集めて解析して価値の出
るように可視化→ビッグデータの活用
<課題>
• これまでの考え方では ビックデータを始められない
• マシン/IaaSベースでは予算・調達が足かせに
• 試験的な取り組みなので、リソースが少ない
• 多種、多量なデータ管理方法確立に時間がかかる
• 製造小売業において、様々なデータを扱わなければならない
• SNS、店舗画像、POS、etc…
• これらのデータを読み込んだ段階でどういう風に処理するかを決めておくの
は非常に難しい
<導入メリット>
• Azure Data Lake で低コストに始めることができた。
• スキーマ オン リードのためまずデータを保存できる。
• Cognitiveを使ってツイートされた画像を分析して、性別、年齢推定等
AI 時代を生き抜くためのビッグデータ基盤 ~リコーの実案件で見えたAzure Data Lakeの勘所~
https://youtu.be/zfD7d0Kqk_s
3. Azure Data Lake の仕組みと機能
Azure Data Lake Store (ADLS) とは
HDInsight
Azure Data Lake Analytics
形式を問わず無制限に蓄積できる巨大なストレージ
様々なデータ分析処理に最適化
ADLS
業務アプリ
ソーシャル
デバイス
クリックストリーム
センサー
動画
Web
リレーショナル
Batch
MapReduce
Script
Pig
SQL
Hive
NoSQL
HBase
In-Memory
Spark
Predictive
R Server
Batch
U-SQL
利用する
保存する
ADLS のアーキテクチャ
分散ストレージ
• 書き込まれたファイルは最大 250MB のエクステントに
分割
• それぞれのエクステントは複数のデータノードに分散
• ファイルの読み書きは並列で実行されるので、
スループットが出やすい
耐障害性
• それぞれのエクステントは3つのレプリカを保持
• 参照はどのレプリカからも可能
• レプリカに障害があっても別のレプリカから復元
ファイル書き込み
1 2 3 4 5
レプリカ 1
書き込み
レプリカ 2 レプリカ 3
コミット
エクステント
ADLS にデータを保存するには
Azure Event Hubs
Azure Storage Blobs
カスタム プログラム
.NET SDK
Azure CLI
Azure Portal
Azure
PowerShell
Azure Data Factory
Azure SQL DB
Azure SQL DW
Azure tables
オンプレミス DB
ADLS
AdlCopy
Azure Data Factory
Hadoop DistCp
PolyBase
SSIS
Azure Stream
Analytics
ADLS データの操作: Azure 管理ポータル
データのアップロード、プレビュー、アクセス権管理
ADLS データの操作: Visual Studio
Visual Studio でも ADLS 上のファイルやフォルダ管理が可能
データのフォーマットに基づいて、読み取りクエリの自動生成も可能
ADLS データの操作: Azure Data Factory
他のデータソースから ADLS にデータをコピーすることが可能
スケジュール実行や、データの変換アクティビティも実行可能
ADLS と BLOB の比較
Azure Data Lake Azure BLOB Storage
目的 データ分析に最適化されたストレージ 汎用オブジェクト ストア
概念と構造 ファイルとフォルダの階層型の構造 コンテナーと BLOB 形式のフラットな構造
認証 Azure AD アクセスアカウントキーと SAS(Shared Access Signature)
承認
POSIX アクセス制御リスト (ACL)
Azure AD の ID に基づく
ファイルやフォルダレベルに設定可能。
アカウントレベルの承認はアカウントアクセスキー
アカウント、コンテナー、BLOB レベルの承認は SAS
分析パフォーマンス
並列分散で分析に最適化
高スループットおよび高 IOPS
分析ワークロードに最適化されていない
容量制限 無制限 ストレージアカウントあたり 500TiB まで
VS
Azure Data Lake Analytics (ADLA) とは
ADLA
Azure SQL DW Azure SQL DB
Azure
Storage Blobs
ADLS SQL Server
Azure VM
サーバ レスの分析クエリ サービス
きめ細かい分析処理を大量データに最適化
「U-SQL」クエリ言語を使用 @rows =
EXTRACT
name string,
id int
FROM “/data.csv”
USING Extractors.Csv( );
OUTPUT @rows
TO “/output.csv”
USING Outputters.Csv();
規定のストレージ (ADLS or Blob)
だけでなく、SQL DW、SQL
Server などにもクエリ実行が可能
U-SQL という言語
U-SQL で分析処理を記述し、
ADLA にサブミット。
分散処理の実行プランを自動
的に生成。
実行プランに基づいて、ノード
が自動的に割り当てられ、処
理が実行される。
@rows =
EXTRACT
name string,
id int
FROM “/data.csv”
USING Extractors.Csv( );
OUTPUT @rows
TO “/output.csv”
USING Outputters.Csv();
✓ SQL ライクなシンプルなクエリ言語
✓ C#, R, Python, Cognitive Services 等での拡張
✓ スキーマ定義済み、未定義のどちらでもクエリ可能
SELECT … FROM …
WHERE
GROUP BY …
HAVING
JOIN
OVER
+
シンプルな U-SQL の例
@tweet =
EXTRACT date string,
time string,
author string,
tweet string,
FROM “/Input/TwitterHistory.csv”
USING Extractors.Csv();
@result =
SELECT author AS author,
COUNT(*) AS tweetcount
FROM @tweet
GROUP BY author;
OUTPUT @result
TO “/Output/TwitterAnalysis.csv”
ORDER BY tweetcount DESC
USING Outputters.Csv();
① 保存されているファイルのフォー
マットを読み取って、カラム名を
付与
② 付与したカラム名を使ってクエリ
を実行
③ 結果を CSV 形式で出力
ユーザーごとのツイート数を数えたい
C# 関数を利用した U-SQL
@attribute =
SELECT new SQL.ARRAY<string>(col1.Split(',')) AS y
FROM @csv;
@country =
SELECT new SQL.ARRAY<string>(y[3].Split('=')) AS z
FROM @attribute;
@output =
SELECT
Region.ToUpper() AS NewRegion
FROM @searchlog;
文字列を大文字に変換
[col1] の中をカンマで分割
U-SQL 内で C# 関数を使用することで柔軟な処理を実行することが可能
col1 col2
name=hideo,age=50,div=tech,country=jp Microsoft
name=toshio,age=60,div=sales,country=us Microsoft
こういう CSV ファイルがあったとして
“jp”や”us”を取り出したい
4番目の要素を = で分割
→”jp” や “us” が取り出せる
サンプルジョブ・チュートリアル
Azure 管理ポータルからサンプルジョブ実行やチュートリアルを実施することが可能。
Analytics Unit (AU)
✓ AU = コンピュートリソースの単位 (2CPU, 6GB RAM *2018/2/15現在)
✓ 1AU は 1タスクを担当する
✓ AU の数と実行時間でコストが決まる
前のステージでの必要なタ
スクの処理 (クリティカルパ
ス) が終ってから次のステー
ジが実行される
ジョブ (AU = 4)
完了
4タスクずつ並列実行される
4AU でも 2タスク しか
並列実行できない
ジョブの処理の順番
タスクを Vertex と呼び
タスクのグルーピングを SuperVertex と呼びます
同時に実行できるタスクの
グループ
U-SQL クエリを実行するには
Azure 管理ポータル
Visual Studio
Visual Studio Code
Azure CLI, PowerShell
SDK for .NET, Python,
Java, Node.JS
U-SQL / カスタムコード開発、
チューニング等
アドホック クエリ、管理操作等
ADLA
自動化、バッチジョブ、
管理操作等
カスタム アプリケーション開発
管理操作等
ADLA の操作: Azure 管理ポータル
U-SQL を書く
U-SQL ジョブを実行する
実行中のジョブを停止する
ユーザーの追加や権限の設定をする
リソースやコストの使用状況を可視化する
ジョブ実行状況を可視化する
ADLA アカウントの作成
ADLA の操作: Visual Studio
ジョブの進捗の
可視化
クエリパフォーマンスの
チューニング
U-SQL 実行プランの
可視化
メタデータ カタログ
(テーブル, ビュー等) の
参照
U-SQL や
C# カスタムコードの
作成
メタデータ オブジェクト
(テーブル, ビュー等) の
作成
U-SQL ジョブの
実行と停止
U-SQL と C# の
デバッグ
Visual Studio: U-SQL ジョブのサブミット
Visual Studio から ADLA に直接ジョブをサブミットすることが可能
ジョブのサブミット時に並列処理等の調整も可能
Federated Queries
Data Lake
Analytics
Azure のデータストアにクエリを実行する
✓ データを移動させずに各データスト
アにクエリを実行
✓ データの移動にかかる時間やコスト
を抑える
✓ クエリをプッシュダウンしてリモート側
で実行することも可能
Azure SQL
DW
Azure SQL DB
SQL Server
Azure VM
Azure Data
Lake Store
Azure
Storage Blobs
非構造化データと AI ~ Cognitive 拡張
Cognitive Services の学習済みモデルを使っ
た AI 拡張機能を U-SQL で実行
イメージング:
• 顔を検出する
• 感情を検出する
• 画像の内容を読み取ってタグ付けする
• OCR (文字認識)
テキスト:
• キー フレーズ抽出
• 感情分析
▼ビルトインの Cognitive 機能
顔を検出する
REFERENCE ASSEMBLY ImageCommon;
REFERENCE ASSEMBLY FaceSdk;
REFERENCE ASSEMBLY ImageEmotion;
REFERENCE ASSEMBLY ImageTagging;
REFERENCE ASSEMBLY ImageOcr;
@faces_from_extractor =
EXTRACT FileName string,
NumFaces int,
FaceIndex int,
RectX float,
RectY float,
Width float,
Height float,
FaceAge int,
FaceGender string
FROM @"/usqlext/samples/cognition/{FileName}.jpg"
USING new Cognition.Vision.FaceDetectionExtractor();
https://github.com/Azure-Samples/usql-cognitive-imaging-face-detection-hello-world
画像から顔の位置等の検出や性別、年齢の推定を行う
感情を検出する
REFERENCE ASSEMBLY ImageCommon;
REFERENCE ASSEMBLY FaceSdk;
REFERENCE ASSEMBLY ImageEmotion;
REFERENCE ASSEMBLY ImageTagging;
REFERENCE ASSEMBLY ImageOcr;
@emotions_from_extractor =
EXTRACT FileName string,
NumFaces int,
FaceIndex int,
RectX float,
RectY float,
Width float,
Height float,
Emotion string,
Confidence float
FROM @"/usqlext/samples/cognition/{FileName}.jpg"
USING new Cognition.Vision.EmotionExtractor();
画像から顔を検出し、感情を推定する
https://github.com/Azure-Samples/usql-cognitive-imaging-emotion-detection-hello-world
OCR (文字認識)
REFERENCE ASSEMBLY ImageCommon;
REFERENCE ASSEMBLY FaceSdk;
REFERENCE ASSEMBLY ImageEmotion;
REFERENCE ASSEMBLY ImageTagging;
REFERENCE ASSEMBLY ImageOcr;
@imgs =
EXTRACT
FileName string,
ImgData byte[]
FROM @"/usqlext/samples/cognition/{FileName}.jpg"
USING new Cognition.Vision.ImageExtractor();
@ocrs =
PROCESS @imgs
PRODUCE FileName,
Text string
READONLY FileName
USING new Cognition.Vision.OcrExtractor();
画像に含まれるテキストを抽出する
https://github.com/Azure-Samples/usql-cognitive-imaging-ocr-hello-world
R / Python による高度な分析
U-SQL に R や Python を組み込んで高度な分析処理を実行することが可能
• 不正検知
• 販売予測
• 倉庫効率化
• 予知保全
• など
組み込み方法は以下の 2 つ
✓ U-SQL 内に直接スクリプトを記述
✓ スクリプトファイルを作成して U-SQL 内に読み込み
https://docs.microsoft.com/ja-jp/azure/data-lake-analytics/data-lake-analytics-u-sql-python-extensions
https://docs.microsoft.com/ja-jp/azure/data-lake-analytics/data-lake-analytics-u-sql-r-extensions
Azure Data Lake のセキュリティ
4. AI / アナリティクスを支える
ビッグデータ基盤のデザイン例
Data Warehouse とどう違うのか?
Data Lake / HDInsight SQL Data Warehouse (SQL DW)
スキーマ オン リード スキーマ オン ライト
未評価データの物理的収集 評価済みのデータ
未知のデータで実験/データ発見を行う 十分に理解されたデータをもとにレポーティングを行う
あらゆる種類のデータ(構造化 / 非構造化データ) ある程度型の限定されたデータセット
(リレーショナルデータ等)
SQL、プログラミングを含む様々なスキル 慣れている SQL をベースとしたスキル
すべてのワークロード - バッチ、インタラクティブ、ストリーミ
ング、機械学習
インタラクティブクエリに最適化
お互いの機能が歩み寄ってきているが、ユースケース次第でどちらも必要!!
データのリポジトリ
HDInsight + Spark とどう違うのか?
ADLA HDInsight + Spark
コンセプト サーバレスのジョブサービス Hadoop / Spark クラスターサービス
コスト ジョブを実行している時間 ノードが稼働している時間
AI / アナリティク
ス系機能
Cognitive 機能
Python, R ライブラリ
Has GraphX, Spark ML and MLlib
SQL の拡張 U-SQL + .NET C# UDFs/UDOs + Python
UDOs + R
Hive, SparkSQL + Python/Scala + R
カスタマイズ性 中 高
構造/非構造化データ
ローデータ蓄積
(データ レイク)
ビッグ データウェアハウス アクセス/パフォーマンス
レイヤ
ホットデータ収集
コールドデータ収集
ビッグデータ プロセッシング
レイヤ
定型/非定型 BI
カスタム アプリケーション
高度な分析
クライアント
広
帯
域
ネ
ッ
ト
ワ
ー
ク
データソース
Operational
Systems
ERP
Master Data
Social
Sensors
Click Stream
正規化・共通化
サービス管理・メタデータ管理・認証管理
抽出
ExpressRoute
Azure Data Factory
Azure Data Lake Store
Azure SQL DW
Azure Analysis Services Power BI
高度分析&AI
Azure Machine
Learning
Cognitive
Services
R Server
Microsoft Bot
Framework
Web App
Integration
Runtime
Data Catalog
Python
分析
処理
Azure AD, AD DS
Azure Data Lake 中心の AI / アナリティクス 基盤 デザイン例
蓄積
蓄積
蓄積
Excel
まとめ
• AI / アナリティクスにおける「データレイク」の重要性について理解する
➢ すべてのデータに潜在的には価値があるとみなして、すべてのデータをそのまま蓄積
することが AI / アナリティクスを加速する
• Azure Data Lake のサービスの概要を理解する
➢ ビッグデータ基盤導入の障壁を取り払い、本来の目的である AI やアナリティクスに
フォーカスできる、「サーバレス」サービスである
• Azure Data Lake で実現できるビッグデータ基盤について理解する
➢ Azure Data Lake にデータを生データのまま蓄積しておき、必要な時に必要な
サービスを組み合わせる
次回:2018年3月8日 (木) 16:30-17:30
【ウェブ セミナー】AI / アナリティクスを支えるビッグデータ基盤 Azure Data Lake [概要編]

Mais conteúdo relacionado

Mais procurados

20160220 MSのビッグデータ分析基盤 - データマイニング+WEB@東京
20160220 MSのビッグデータ分析基盤 - データマイニング+WEB@東京20160220 MSのビッグデータ分析基盤 - データマイニング+WEB@東京
20160220 MSのビッグデータ分析基盤 - データマイニング+WEB@東京Koichiro Sasaki
 
Azure Purview Linage for Dataflow/Spark
Azure Purview Linage for Dataflow/SparkAzure Purview Linage for Dataflow/Spark
Azure Purview Linage for Dataflow/SparkRyoma Nagata
 
トレジャーデータのバッチクエリとアドホッククエリを理解する
トレジャーデータのバッチクエリとアドホッククエリを理解するトレジャーデータのバッチクエリとアドホッククエリを理解する
トレジャーデータのバッチクエリとアドホッククエリを理解するTakahiro Inoue
 
SQL Server 使いのための Azure Synapse Analytics - Spark 入門
SQL Server 使いのための Azure Synapse Analytics - Spark 入門SQL Server 使いのための Azure Synapse Analytics - Spark 入門
SQL Server 使いのための Azure Synapse Analytics - Spark 入門Daiyu Hatakeyama
 
Data x AI x API で考えるビジネスインフラ
Data x AI x API で考えるビジネスインフラData x AI x API で考えるビジネスインフラ
Data x AI x API で考えるビジネスインフラDaiyu Hatakeyama
 
Hadoop / Elastic MapReduceつまみ食い
Hadoop / Elastic MapReduceつまみ食いHadoop / Elastic MapReduceつまみ食い
Hadoop / Elastic MapReduceつまみ食いRyuji Tamagawa
 
やりたいことから考えるMicrosoft Azure 上の データストアの選び方とデータサイエンティスト向け活用法。KVSからDWHまで
やりたいことから考えるMicrosoft Azure 上の データストアの選び方とデータサイエンティスト向け活用法。KVSからDWHまでやりたいことから考えるMicrosoft Azure 上の データストアの選び方とデータサイエンティスト向け活用法。KVSからDWHまで
やりたいことから考えるMicrosoft Azure 上の データストアの選び方とデータサイエンティスト向け活用法。KVSからDWHまでDaisuke Masubuchi
 
Microsoft Ignite 2019 最新アップデート - Azure Big Data Services を俯瞰的に眺める
Microsoft Ignite 2019 最新アップデート - Azure Big Data Services を俯瞰的に眺めるMicrosoft Ignite 2019 最新アップデート - Azure Big Data Services を俯瞰的に眺める
Microsoft Ignite 2019 最新アップデート - Azure Big Data Services を俯瞰的に眺めるDaiyu Hatakeyama
 
並列データベースシステムの概念と原理
並列データベースシステムの概念と原理並列データベースシステムの概念と原理
並列データベースシステムの概念と原理Makoto Yui
 
[db tech showcase Tokyo 2017] E23: クラウド異種データベース(AWS)へのデータベース移行時の注意点 ~レプリケーション...
[db tech showcase Tokyo 2017] E23: クラウド異種データベース(AWS)へのデータベース移行時の注意点 ~レプリケーション...[db tech showcase Tokyo 2017] E23: クラウド異種データベース(AWS)へのデータベース移行時の注意点 ~レプリケーション...
[db tech showcase Tokyo 2017] E23: クラウド異種データベース(AWS)へのデータベース移行時の注意点 ~レプリケーション...Insight Technology, Inc.
 
[db tech showcase Tokyo 2017] AzureでOSS DB/データ処理基盤のPaaSサービスを使ってみよう (Azure Dat...
[db tech showcase Tokyo 2017] AzureでOSS DB/データ処理基盤のPaaSサービスを使ってみよう (Azure Dat...[db tech showcase Tokyo 2017] AzureでOSS DB/データ処理基盤のPaaSサービスを使ってみよう (Azure Dat...
[db tech showcase Tokyo 2017] AzureでOSS DB/データ処理基盤のPaaSサービスを使ってみよう (Azure Dat...Naoki (Neo) SATO
 
SQL Server 2019 とともに知る Microsoft Data Platform
SQL Server 2019 とともに知る Microsoft Data PlatformSQL Server 2019 とともに知る Microsoft Data Platform
SQL Server 2019 とともに知る Microsoft Data PlatformDaiyu Hatakeyama
 
Nosqlの基礎知識(2013年7月講義資料)
Nosqlの基礎知識(2013年7月講義資料)Nosqlの基礎知識(2013年7月講義資料)
Nosqlの基礎知識(2013年7月講義資料)CLOUDIAN KK
 
Developers.IO 2019 Effective Datalake
Developers.IO 2019 Effective DatalakeDevelopers.IO 2019 Effective Datalake
Developers.IO 2019 Effective DatalakeSatoru Ishikawa
 
Data platformdesign
Data platformdesignData platformdesign
Data platformdesignRyoma Nagata
 
Treasure Data Intro for Data Enthusiast!!
Treasure Data Intro for Data Enthusiast!!Treasure Data Intro for Data Enthusiast!!
Treasure Data Intro for Data Enthusiast!!Takahiro Inoue
 
1000人規模で使う分析基盤構築 〜redshiftを活用したeuc
1000人規模で使う分析基盤構築  〜redshiftを活用したeuc1000人規模で使う分析基盤構築  〜redshiftを活用したeuc
1000人規模で使う分析基盤構築 〜redshiftを活用したeucKazuhiro Miyajima
 

Mais procurados (20)

Azure Datalake 大全
Azure Datalake 大全Azure Datalake 大全
Azure Datalake 大全
 
20160220 MSのビッグデータ分析基盤 - データマイニング+WEB@東京
20160220 MSのビッグデータ分析基盤 - データマイニング+WEB@東京20160220 MSのビッグデータ分析基盤 - データマイニング+WEB@東京
20160220 MSのビッグデータ分析基盤 - データマイニング+WEB@東京
 
Azure Purview Linage for Dataflow/Spark
Azure Purview Linage for Dataflow/SparkAzure Purview Linage for Dataflow/Spark
Azure Purview Linage for Dataflow/Spark
 
トレジャーデータのバッチクエリとアドホッククエリを理解する
トレジャーデータのバッチクエリとアドホッククエリを理解するトレジャーデータのバッチクエリとアドホッククエリを理解する
トレジャーデータのバッチクエリとアドホッククエリを理解する
 
SQL Server 使いのための Azure Synapse Analytics - Spark 入門
SQL Server 使いのための Azure Synapse Analytics - Spark 入門SQL Server 使いのための Azure Synapse Analytics - Spark 入門
SQL Server 使いのための Azure Synapse Analytics - Spark 入門
 
Data x AI x API で考えるビジネスインフラ
Data x AI x API で考えるビジネスインフラData x AI x API で考えるビジネスインフラ
Data x AI x API で考えるビジネスインフラ
 
Hadoop / Elastic MapReduceつまみ食い
Hadoop / Elastic MapReduceつまみ食いHadoop / Elastic MapReduceつまみ食い
Hadoop / Elastic MapReduceつまみ食い
 
やりたいことから考えるMicrosoft Azure 上の データストアの選び方とデータサイエンティスト向け活用法。KVSからDWHまで
やりたいことから考えるMicrosoft Azure 上の データストアの選び方とデータサイエンティスト向け活用法。KVSからDWHまでやりたいことから考えるMicrosoft Azure 上の データストアの選び方とデータサイエンティスト向け活用法。KVSからDWHまで
やりたいことから考えるMicrosoft Azure 上の データストアの選び方とデータサイエンティスト向け活用法。KVSからDWHまで
 
Microsoft Ignite 2019 最新アップデート - Azure Big Data Services を俯瞰的に眺める
Microsoft Ignite 2019 最新アップデート - Azure Big Data Services を俯瞰的に眺めるMicrosoft Ignite 2019 最新アップデート - Azure Big Data Services を俯瞰的に眺める
Microsoft Ignite 2019 最新アップデート - Azure Big Data Services を俯瞰的に眺める
 
並列データベースシステムの概念と原理
並列データベースシステムの概念と原理並列データベースシステムの概念と原理
並列データベースシステムの概念と原理
 
[db tech showcase Tokyo 2017] E23: クラウド異種データベース(AWS)へのデータベース移行時の注意点 ~レプリケーション...
[db tech showcase Tokyo 2017] E23: クラウド異種データベース(AWS)へのデータベース移行時の注意点 ~レプリケーション...[db tech showcase Tokyo 2017] E23: クラウド異種データベース(AWS)へのデータベース移行時の注意点 ~レプリケーション...
[db tech showcase Tokyo 2017] E23: クラウド異種データベース(AWS)へのデータベース移行時の注意点 ~レプリケーション...
 
[db tech showcase Tokyo 2017] AzureでOSS DB/データ処理基盤のPaaSサービスを使ってみよう (Azure Dat...
[db tech showcase Tokyo 2017] AzureでOSS DB/データ処理基盤のPaaSサービスを使ってみよう (Azure Dat...[db tech showcase Tokyo 2017] AzureでOSS DB/データ処理基盤のPaaSサービスを使ってみよう (Azure Dat...
[db tech showcase Tokyo 2017] AzureでOSS DB/データ処理基盤のPaaSサービスを使ってみよう (Azure Dat...
 
Azure Search 大全
Azure Search 大全Azure Search 大全
Azure Search 大全
 
SQL Server 2019 とともに知る Microsoft Data Platform
SQL Server 2019 とともに知る Microsoft Data PlatformSQL Server 2019 とともに知る Microsoft Data Platform
SQL Server 2019 とともに知る Microsoft Data Platform
 
Nosqlの基礎知識(2013年7月講義資料)
Nosqlの基礎知識(2013年7月講義資料)Nosqlの基礎知識(2013年7月講義資料)
Nosqlの基礎知識(2013年7月講義資料)
 
Developers.IO 2019 Effective Datalake
Developers.IO 2019 Effective DatalakeDevelopers.IO 2019 Effective Datalake
Developers.IO 2019 Effective Datalake
 
Data platformdesign
Data platformdesignData platformdesign
Data platformdesign
 
About NoSQL
About NoSQLAbout NoSQL
About NoSQL
 
Treasure Data Intro for Data Enthusiast!!
Treasure Data Intro for Data Enthusiast!!Treasure Data Intro for Data Enthusiast!!
Treasure Data Intro for Data Enthusiast!!
 
1000人規模で使う分析基盤構築 〜redshiftを活用したeuc
1000人規模で使う分析基盤構築  〜redshiftを活用したeuc1000人規模で使う分析基盤構築  〜redshiftを活用したeuc
1000人規模で使う分析基盤構築 〜redshiftを活用したeuc
 

Semelhante a 【ウェブ セミナー】AI / アナリティクスを支えるビッグデータ基盤 Azure Data Lake [概要編]

アプリのロギングからデータ収集・分析・活用
アプリのロギングからデータ収集・分析・活用アプリのロギングからデータ収集・分析・活用
アプリのロギングからデータ収集・分析・活用Atsushi Yokohama (BEACHSIDE)
 
Qiita x Microsoft - 機械学習セミナー Microsoft AI Platform
Qiita x Microsoft - 機械学習セミナー Microsoft AI PlatformQiita x Microsoft - 機械学習セミナー Microsoft AI Platform
Qiita x Microsoft - 機械学習セミナー Microsoft AI PlatformDaiyu Hatakeyama
 
【de:code 2020】 Power Platform で広がるデータ インテグレーションの世界 (1/2)
【de:code 2020】 Power Platform で広がるデータ インテグレーションの世界 (1/2)【de:code 2020】 Power Platform で広がるデータ インテグレーションの世界 (1/2)
【de:code 2020】 Power Platform で広がるデータ インテグレーションの世界 (1/2)日本マイクロソフト株式会社
 
Microsoft Ignite Fall 2021 Data Platform Update Topics
Microsoft Ignite Fall 2021 Data Platform Update TopicsMicrosoft Ignite Fall 2021 Data Platform Update Topics
Microsoft Ignite Fall 2021 Data Platform Update TopicsMicrosoft
 
Synapse lakedatabase
Synapse lakedatabaseSynapse lakedatabase
Synapse lakedatabaseRyoma Nagata
 
[Oracle Innovation Summit Tokyo 2018] 水環境の持続を支えるクラウド型ICTプラットフォーム「Water Busine...
[Oracle Innovation Summit Tokyo 2018] 水環境の持続を支えるクラウド型ICTプラットフォーム「Water Busine...[Oracle Innovation Summit Tokyo 2018] 水環境の持続を支えるクラウド型ICTプラットフォーム「Water Busine...
[Oracle Innovation Summit Tokyo 2018] 水環境の持続を支えるクラウド型ICTプラットフォーム「Water Busine...オラクルエンジニア通信
 
ビッグデータ活用を加速する!分散SQLエンジン Spark SQL のご紹介 20161105 OSC Tokyo Fall
ビッグデータ活用を加速する!分散SQLエンジン Spark SQL のご紹介 20161105 OSC Tokyo Fallビッグデータ活用を加速する!分散SQLエンジン Spark SQL のご紹介 20161105 OSC Tokyo Fall
ビッグデータ活用を加速する!分散SQLエンジン Spark SQL のご紹介 20161105 OSC Tokyo FallYusukeKuramata
 
[de:code 2019 振り返り Night!] Data Platform
[de:code 2019 振り返り Night!] Data Platform[de:code 2019 振り返り Night!] Data Platform
[de:code 2019 振り返り Night!] Data PlatformNaoki (Neo) SATO
 
データレイクを基盤としたAWS上での機械学習サービス構築
データレイクを基盤としたAWS上での機械学習サービス構築データレイクを基盤としたAWS上での機械学習サービス構築
データレイクを基盤としたAWS上での機械学習サービス構築Amazon Web Services Japan
 
G-Tech2015 Hadoop/Sparkを中核としたビッグデータ基盤_20151006
G-Tech2015 Hadoop/Sparkを中核としたビッグデータ基盤_20151006G-Tech2015 Hadoop/Sparkを中核としたビッグデータ基盤_20151006
G-Tech2015 Hadoop/Sparkを中核としたビッグデータ基盤_20151006Cloudera Japan
 
DeNA のデータ活用を支える BigQuery データの民主化とガバナンス強化の軌跡 | Google Cloud INSIDE Games & App...
DeNA のデータ活用を支える BigQuery データの民主化とガバナンス強化の軌跡 | Google Cloud INSIDE Games & App...DeNA のデータ活用を支える BigQuery データの民主化とガバナンス強化の軌跡 | Google Cloud INSIDE Games & App...
DeNA のデータ活用を支える BigQuery データの民主化とガバナンス強化の軌跡 | Google Cloud INSIDE Games & App...Google Cloud Platform - Japan
 
【de:code 2020】 Azure Synapse Analytics 技術編 ~ 最新の統合分析プラットフォームによる新しい価値の創出(前編)
【de:code 2020】 Azure Synapse Analytics 技術編 ~ 最新の統合分析プラットフォームによる新しい価値の創出(前編)【de:code 2020】 Azure Synapse Analytics 技術編 ~ 最新の統合分析プラットフォームによる新しい価値の創出(前編)
【de:code 2020】 Azure Synapse Analytics 技術編 ~ 最新の統合分析プラットフォームによる新しい価値の創出(前編)日本マイクロソフト株式会社
 
Data Scientists Love SQL Server
Data Scientists Love SQL ServerData Scientists Love SQL Server
Data Scientists Love SQL ServerTomoyuki Oota
 
[Cloud OnAir] 最新アップデート Google Cloud データ関連ソリューション 2020年5月14日 放送
[Cloud OnAir] 最新アップデート Google Cloud データ関連ソリューション 2020年5月14日 放送[Cloud OnAir] 最新アップデート Google Cloud データ関連ソリューション 2020年5月14日 放送
[Cloud OnAir] 最新アップデート Google Cloud データ関連ソリューション 2020年5月14日 放送Google Cloud Platform - Japan
 
Learn, build, and scale with elastic - realizing great programming experience...
Learn, build, and scale with elastic - realizing great programming experience...Learn, build, and scale with elastic - realizing great programming experience...
Learn, build, and scale with elastic - realizing great programming experience...Shotaro Suzuki
 
Gpu accelerates aimodeldevelopmentandanalyticsutilizingelasticsearchandazure ai
Gpu accelerates aimodeldevelopmentandanalyticsutilizingelasticsearchandazure aiGpu accelerates aimodeldevelopmentandanalyticsutilizingelasticsearchandazure ai
Gpu accelerates aimodeldevelopmentandanalyticsutilizingelasticsearchandazure aiShotaro Suzuki
 
データ仮想化を活用したデータ分析のフローと分析モデル作成の自動化のご紹介
データ仮想化を活用したデータ分析のフローと分析モデル作成の自動化のご紹介データ仮想化を活用したデータ分析のフローと分析モデル作成の自動化のご紹介
データ仮想化を活用したデータ分析のフローと分析モデル作成の自動化のご紹介Denodo
 

Semelhante a 【ウェブ セミナー】AI / アナリティクスを支えるビッグデータ基盤 Azure Data Lake [概要編] (20)

アプリのロギングからデータ収集・分析・活用
アプリのロギングからデータ収集・分析・活用アプリのロギングからデータ収集・分析・活用
アプリのロギングからデータ収集・分析・活用
 
Qiita x Microsoft - 機械学習セミナー Microsoft AI Platform
Qiita x Microsoft - 機械学習セミナー Microsoft AI PlatformQiita x Microsoft - 機械学習セミナー Microsoft AI Platform
Qiita x Microsoft - 機械学習セミナー Microsoft AI Platform
 
【de:code 2020】 Power Platform で広がるデータ インテグレーションの世界 (1/2)
【de:code 2020】 Power Platform で広がるデータ インテグレーションの世界 (1/2)【de:code 2020】 Power Platform で広がるデータ インテグレーションの世界 (1/2)
【de:code 2020】 Power Platform で広がるデータ インテグレーションの世界 (1/2)
 
Microsoft Ignite Fall 2021 Data Platform Update Topics
Microsoft Ignite Fall 2021 Data Platform Update TopicsMicrosoft Ignite Fall 2021 Data Platform Update Topics
Microsoft Ignite Fall 2021 Data Platform Update Topics
 
Big Data Architecture 全体概要
Big Data Architecture 全体概要Big Data Architecture 全体概要
Big Data Architecture 全体概要
 
Synapse lakedatabase
Synapse lakedatabaseSynapse lakedatabase
Synapse lakedatabase
 
[Oracle Innovation Summit Tokyo 2018] 水環境の持続を支えるクラウド型ICTプラットフォーム「Water Busine...
[Oracle Innovation Summit Tokyo 2018] 水環境の持続を支えるクラウド型ICTプラットフォーム「Water Busine...[Oracle Innovation Summit Tokyo 2018] 水環境の持続を支えるクラウド型ICTプラットフォーム「Water Busine...
[Oracle Innovation Summit Tokyo 2018] 水環境の持続を支えるクラウド型ICTプラットフォーム「Water Busine...
 
ビッグデータ活用を加速する!分散SQLエンジン Spark SQL のご紹介 20161105 OSC Tokyo Fall
ビッグデータ活用を加速する!分散SQLエンジン Spark SQL のご紹介 20161105 OSC Tokyo Fallビッグデータ活用を加速する!分散SQLエンジン Spark SQL のご紹介 20161105 OSC Tokyo Fall
ビッグデータ活用を加速する!分散SQLエンジン Spark SQL のご紹介 20161105 OSC Tokyo Fall
 
[de:code 2019 振り返り Night!] Data Platform
[de:code 2019 振り返り Night!] Data Platform[de:code 2019 振り返り Night!] Data Platform
[de:code 2019 振り返り Night!] Data Platform
 
データレイクを基盤としたAWS上での機械学習サービス構築
データレイクを基盤としたAWS上での機械学習サービス構築データレイクを基盤としたAWS上での機械学習サービス構築
データレイクを基盤としたAWS上での機械学習サービス構築
 
Azure Data Platform
Azure Data PlatformAzure Data Platform
Azure Data Platform
 
G-Tech2015 Hadoop/Sparkを中核としたビッグデータ基盤_20151006
G-Tech2015 Hadoop/Sparkを中核としたビッグデータ基盤_20151006G-Tech2015 Hadoop/Sparkを中核としたビッグデータ基盤_20151006
G-Tech2015 Hadoop/Sparkを中核としたビッグデータ基盤_20151006
 
DeNA のデータ活用を支える BigQuery データの民主化とガバナンス強化の軌跡 | Google Cloud INSIDE Games & App...
DeNA のデータ活用を支える BigQuery データの民主化とガバナンス強化の軌跡 | Google Cloud INSIDE Games & App...DeNA のデータ活用を支える BigQuery データの民主化とガバナンス強化の軌跡 | Google Cloud INSIDE Games & App...
DeNA のデータ活用を支える BigQuery データの民主化とガバナンス強化の軌跡 | Google Cloud INSIDE Games & App...
 
【de:code 2020】 Azure Synapse Analytics 技術編 ~ 最新の統合分析プラットフォームによる新しい価値の創出(前編)
【de:code 2020】 Azure Synapse Analytics 技術編 ~ 最新の統合分析プラットフォームによる新しい価値の創出(前編)【de:code 2020】 Azure Synapse Analytics 技術編 ~ 最新の統合分析プラットフォームによる新しい価値の創出(前編)
【de:code 2020】 Azure Synapse Analytics 技術編 ~ 最新の統合分析プラットフォームによる新しい価値の創出(前編)
 
Data Scientists Love SQL Server
Data Scientists Love SQL ServerData Scientists Love SQL Server
Data Scientists Love SQL Server
 
[Cloud OnAir] 最新アップデート Google Cloud データ関連ソリューション 2020年5月14日 放送
[Cloud OnAir] 最新アップデート Google Cloud データ関連ソリューション 2020年5月14日 放送[Cloud OnAir] 最新アップデート Google Cloud データ関連ソリューション 2020年5月14日 放送
[Cloud OnAir] 最新アップデート Google Cloud データ関連ソリューション 2020年5月14日 放送
 
Learn, build, and scale with elastic - realizing great programming experience...
Learn, build, and scale with elastic - realizing great programming experience...Learn, build, and scale with elastic - realizing great programming experience...
Learn, build, and scale with elastic - realizing great programming experience...
 
Gpu accelerates aimodeldevelopmentandanalyticsutilizingelasticsearchandazure ai
Gpu accelerates aimodeldevelopmentandanalyticsutilizingelasticsearchandazure aiGpu accelerates aimodeldevelopmentandanalyticsutilizingelasticsearchandazure ai
Gpu accelerates aimodeldevelopmentandanalyticsutilizingelasticsearchandazure ai
 
データ仮想化を活用したデータ分析のフローと分析モデル作成の自動化のご紹介
データ仮想化を活用したデータ分析のフローと分析モデル作成の自動化のご紹介データ仮想化を活用したデータ分析のフローと分析モデル作成の自動化のご紹介
データ仮想化を活用したデータ分析のフローと分析モデル作成の自動化のご紹介
 
IoT のシナリオを変える Azure SQL Edge
IoT のシナリオを変える Azure SQL EdgeIoT のシナリオを変える Azure SQL Edge
IoT のシナリオを変える Azure SQL Edge
 

Último

Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsUtilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsWSO2
 
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptxsn679259
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video UnderstandingToru Tamaki
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...Toru Tamaki
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。iPride Co., Ltd.
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルCRI Japan, Inc.
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイスCRI Japan, Inc.
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Gamesatsushi061452
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。iPride Co., Ltd.
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。iPride Co., Ltd.
 

Último (10)

Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsUtilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native Integrations
 
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
 

【ウェブ セミナー】AI / アナリティクスを支えるビッグデータ基盤 Azure Data Lake [概要編]

  • 1.
  • 2. 自己紹介 日本マイクロソフト株式会社 デジタルトランスフォーメーション事業本部 データ & クラウド AI アーキテクト技術部 クラウドソリューションアーキテクト 高木 英朗 (Takagi Hideo) • Data Platform Tech Sales Team Blog http://aka.ms/dpblog
  • 3. 本セッションのゴール • AI / アナリティクスにおける「データレイク」の重要性について理解する • Azure Data Lake のサービスの概要を理解する • Azure Data Lake を中心とした AI / アナリティクス基盤のデザインを理解する
  • 4. Agenda 1. Azure Data Lake の概要 2. 事例紹介 3. Azure Data Lake の仕組みと機能 4. AI / アナリティクスを支えるビッグデータ基盤のデザイン例
  • 5. 1. Azure Data Lake の概要
  • 6. クラウド、 AI & アナリティクス、ビッグデータ データの増大 2020 年 44 ZB クラウド活用企業 現在 80% AI への投資 2017 年 300% 増加 SQL クリックストリーム センサー 動画 SNS Web デバイス リレーショナル アプリ データで価値を生み出す ビッグデータ クラウド AI アナリティクス
  • 7. 従来のビジネス分析プロセス 専用の ETL ツール スキーマの定義 クエリ レポート リレーショナル 業務 アプリケーション ETL パイプライン 1. ユーザーが求めるビジネス分析やレポート内容を事前に特定 2. レポート用のスキーマとクエリを定義する 3. データソースを特定する 4. 必要なデータを抽出して変換して、定義したスキーマにロード するための ETL 処理を作成する (スキーマ オン ライト) 5. レポートを作成して、データを分析する トップダウン アプローチ
  • 8. AI 時代のビッグデータ = すべてのデータに価値がある 無限に保存 分析 結果の参照 全てのデータソース からデータを収集 繰り返し 全てのデータには潜在的な価値がある (データは企業の資産) 全てのデータを蓄積する ネイティブフォーマットで保存する - スキーマを事前定義しない クエリを実行する時にスキーマを定義して変換する (スキーマ オン リード). ボトムアップ アプローチ
  • 9. スキーマ オン リード abe, 95, 46, 85, 85 itoh, 89, 72, 46, 76, 34 ueda, 95, 13, 57, 63, 87 emoto, 50, 68, 38, 85, 98 otsuka, 13, 16, 67, 100, 7 katase, 42, 61, 90, 11, 33 {"name" : "cat", "count" : 105} {"name" : "dog", "count" : 81} {"name" : "rabbit", "count" : 2030} {"name" : "turtle", "count" : 1550} {"name" : "tiger", "count" : 300} {"name" : "lion", "count" : 533} {"name" : "whale", "count" : 2934} xxx.xxx.xxx.xxx - - [27/Jan/2018:14:20:17 +0000] "GET /item/giftcards/3720 HTTP/1.1" 200 70 "-" "Mozilla/5.0 (Windows NT 6.1; WOW64; rv:10.0.1) Gecko/20100101 Firefox/10.0.1" フォーマットを気にせ ずデータをためていく 使うときにはじめて データ構造を意識 SELECT ~~~ FROM ~~~ WHERE ~~~ ORDER BY ~~~; データを集めてためておく 使うときにデータ構造を定義して処理する
  • 10. Microsoft AI Platform Azure AI Services Azure Infrastructure Tools
  • 11. Azure Data Lake とは HDInsight Spark, Hive, Storm, Kafka Data Lake Analytics Data Lake Store WebHDFS YARN Azure Databricks ストレージ Azure Data Lake Store (ADLS) • どんなフォーマットのデータでも無制限に格納 できるストレージ • 分散型で分析処理パフォーマンスが高い • OSS との親和性 分析ツール Azure Data Lake Analytics (ADLA) • サーバレスの分析エンジン • 親しみのある SQL に近い U-SQL 言語 • 柔軟なスケールで大量データ処理が得意 • ジョブ単位の課金
  • 12. Azure Data Lake 向き / 不向き 向いている • 大量のデータを保存 • 一か所に構造 / 非構造の様々なデータを統合 • データを作り、変換し、集約する • 大きなデータセットに対して分析クエリを実行 向いていない • 頻繁な読み書き • 多数の細かいデータの参照や書き込み ? ? ? ?
  • 13. Azure Data Lake Store (ADLS) を作成するには・・・ ✓ 暗号化はデフォルトで ON ✓ 基本的な情報の設定のみ ✓ 名前 ✓ リソース ✓ 場所 従量課金プランの場合は保存した データ容量による課金 ※1GB あたり ¥4.37/月 (2018-02-15 現在) ✓ 現在は米国中部、米国東部 2、北 ヨーロッパのみ。今後順次展開予定
  • 14. Azure Data Lake Analytics (ADLA) を作成するには・・・ ✓ 基本的な情報の設定のみ ✓ 名前 ✓ リソース ✓ 場所 ✓ 使用する ADLS ジョブに使用したスケール設定 (AU) と 実行時間の従量課金 ※1AU あたり ¥224/時間 (2018-02-15 現在) ✓ 現在は米国中部、米国東部 2、北 ヨーロッパのみ。今後順次展開予定
  • 16. 事例: 国立大学法人 岐阜大学 様 事例 URL https://customers.microsoft.com/en-us/story/gifu-u 大学本来の価値を向上させる "研究 IR" 実践に向け、膨大な情報資産を多様な書式・形式のま ま管理し、分析・活用する画期的な情報基盤を、クラウドで実現 <背景と狙い> • 「岐阜大学の将来ビジョン」を強力に後押しするために、大 学 IR に必要な情報基盤を追求。 • 多種多様な活動を行っている教員たちを正しく評価し、各 人のモチベーションを高めていくためにも、学内にある生の データを集めることが、もっとも重要なことだった。 • 事務員の PC の中に、Excel などにまとめられた生のデータ が数多く保存されていたのです。システムが定義するデータ 構造の枠内に納まらなかった、そうした生のデータを集めて、 分析できるように環境を整えることが重要だった。 <導入効果> • 学内のあらゆるデータを Azure Data Lake Store で管理し、 そのデータを検索する仕組みとして Azure Search を活用。 • 「今までは、漠然と推測していた事柄が、データによって裏 付けられ、グラフなどの形ではっきりと把握できるようになった ことは、大きな成果」。
  • 17. 事例: 株式会社リコー 様 「SPA=製造小売業」のお客様の抱える課題を解決 <背景> • コピー機の主戦場は企業の Office だったが、ビジネスを拡大するためにお 客様が活躍する現場、社会に広げて、データを集めて解析して価値の出 るように可視化→ビッグデータの活用 <課題> • これまでの考え方では ビックデータを始められない • マシン/IaaSベースでは予算・調達が足かせに • 試験的な取り組みなので、リソースが少ない • 多種、多量なデータ管理方法確立に時間がかかる • 製造小売業において、様々なデータを扱わなければならない • SNS、店舗画像、POS、etc… • これらのデータを読み込んだ段階でどういう風に処理するかを決めておくの は非常に難しい <導入メリット> • Azure Data Lake で低コストに始めることができた。 • スキーマ オン リードのためまずデータを保存できる。 • Cognitiveを使ってツイートされた画像を分析して、性別、年齢推定等 AI 時代を生き抜くためのビッグデータ基盤 ~リコーの実案件で見えたAzure Data Lakeの勘所~ https://youtu.be/zfD7d0Kqk_s
  • 18. 3. Azure Data Lake の仕組みと機能
  • 19.
  • 20. Azure Data Lake Store (ADLS) とは HDInsight Azure Data Lake Analytics 形式を問わず無制限に蓄積できる巨大なストレージ 様々なデータ分析処理に最適化 ADLS 業務アプリ ソーシャル デバイス クリックストリーム センサー 動画 Web リレーショナル Batch MapReduce Script Pig SQL Hive NoSQL HBase In-Memory Spark Predictive R Server Batch U-SQL 利用する 保存する
  • 21. ADLS のアーキテクチャ 分散ストレージ • 書き込まれたファイルは最大 250MB のエクステントに 分割 • それぞれのエクステントは複数のデータノードに分散 • ファイルの読み書きは並列で実行されるので、 スループットが出やすい 耐障害性 • それぞれのエクステントは3つのレプリカを保持 • 参照はどのレプリカからも可能 • レプリカに障害があっても別のレプリカから復元 ファイル書き込み 1 2 3 4 5 レプリカ 1 書き込み レプリカ 2 レプリカ 3 コミット エクステント
  • 22. ADLS にデータを保存するには Azure Event Hubs Azure Storage Blobs カスタム プログラム .NET SDK Azure CLI Azure Portal Azure PowerShell Azure Data Factory Azure SQL DB Azure SQL DW Azure tables オンプレミス DB ADLS AdlCopy Azure Data Factory Hadoop DistCp PolyBase SSIS Azure Stream Analytics
  • 23. ADLS データの操作: Azure 管理ポータル データのアップロード、プレビュー、アクセス権管理
  • 24. ADLS データの操作: Visual Studio Visual Studio でも ADLS 上のファイルやフォルダ管理が可能 データのフォーマットに基づいて、読み取りクエリの自動生成も可能
  • 25. ADLS データの操作: Azure Data Factory 他のデータソースから ADLS にデータをコピーすることが可能 スケジュール実行や、データの変換アクティビティも実行可能
  • 26. ADLS と BLOB の比較 Azure Data Lake Azure BLOB Storage 目的 データ分析に最適化されたストレージ 汎用オブジェクト ストア 概念と構造 ファイルとフォルダの階層型の構造 コンテナーと BLOB 形式のフラットな構造 認証 Azure AD アクセスアカウントキーと SAS(Shared Access Signature) 承認 POSIX アクセス制御リスト (ACL) Azure AD の ID に基づく ファイルやフォルダレベルに設定可能。 アカウントレベルの承認はアカウントアクセスキー アカウント、コンテナー、BLOB レベルの承認は SAS 分析パフォーマンス 並列分散で分析に最適化 高スループットおよび高 IOPS 分析ワークロードに最適化されていない 容量制限 無制限 ストレージアカウントあたり 500TiB まで VS
  • 27.
  • 28. Azure Data Lake Analytics (ADLA) とは ADLA Azure SQL DW Azure SQL DB Azure Storage Blobs ADLS SQL Server Azure VM サーバ レスの分析クエリ サービス きめ細かい分析処理を大量データに最適化 「U-SQL」クエリ言語を使用 @rows = EXTRACT name string, id int FROM “/data.csv” USING Extractors.Csv( ); OUTPUT @rows TO “/output.csv” USING Outputters.Csv(); 規定のストレージ (ADLS or Blob) だけでなく、SQL DW、SQL Server などにもクエリ実行が可能
  • 29. U-SQL という言語 U-SQL で分析処理を記述し、 ADLA にサブミット。 分散処理の実行プランを自動 的に生成。 実行プランに基づいて、ノード が自動的に割り当てられ、処 理が実行される。 @rows = EXTRACT name string, id int FROM “/data.csv” USING Extractors.Csv( ); OUTPUT @rows TO “/output.csv” USING Outputters.Csv(); ✓ SQL ライクなシンプルなクエリ言語 ✓ C#, R, Python, Cognitive Services 等での拡張 ✓ スキーマ定義済み、未定義のどちらでもクエリ可能 SELECT … FROM … WHERE GROUP BY … HAVING JOIN OVER +
  • 30. シンプルな U-SQL の例 @tweet = EXTRACT date string, time string, author string, tweet string, FROM “/Input/TwitterHistory.csv” USING Extractors.Csv(); @result = SELECT author AS author, COUNT(*) AS tweetcount FROM @tweet GROUP BY author; OUTPUT @result TO “/Output/TwitterAnalysis.csv” ORDER BY tweetcount DESC USING Outputters.Csv(); ① 保存されているファイルのフォー マットを読み取って、カラム名を 付与 ② 付与したカラム名を使ってクエリ を実行 ③ 結果を CSV 形式で出力 ユーザーごとのツイート数を数えたい
  • 31. C# 関数を利用した U-SQL @attribute = SELECT new SQL.ARRAY<string>(col1.Split(',')) AS y FROM @csv; @country = SELECT new SQL.ARRAY<string>(y[3].Split('=')) AS z FROM @attribute; @output = SELECT Region.ToUpper() AS NewRegion FROM @searchlog; 文字列を大文字に変換 [col1] の中をカンマで分割 U-SQL 内で C# 関数を使用することで柔軟な処理を実行することが可能 col1 col2 name=hideo,age=50,div=tech,country=jp Microsoft name=toshio,age=60,div=sales,country=us Microsoft こういう CSV ファイルがあったとして “jp”や”us”を取り出したい 4番目の要素を = で分割 →”jp” や “us” が取り出せる
  • 33. Analytics Unit (AU) ✓ AU = コンピュートリソースの単位 (2CPU, 6GB RAM *2018/2/15現在) ✓ 1AU は 1タスクを担当する ✓ AU の数と実行時間でコストが決まる 前のステージでの必要なタ スクの処理 (クリティカルパ ス) が終ってから次のステー ジが実行される ジョブ (AU = 4) 完了 4タスクずつ並列実行される 4AU でも 2タスク しか 並列実行できない ジョブの処理の順番 タスクを Vertex と呼び タスクのグルーピングを SuperVertex と呼びます 同時に実行できるタスクの グループ
  • 34. U-SQL クエリを実行するには Azure 管理ポータル Visual Studio Visual Studio Code Azure CLI, PowerShell SDK for .NET, Python, Java, Node.JS U-SQL / カスタムコード開発、 チューニング等 アドホック クエリ、管理操作等 ADLA 自動化、バッチジョブ、 管理操作等 カスタム アプリケーション開発 管理操作等
  • 35. ADLA の操作: Azure 管理ポータル U-SQL を書く U-SQL ジョブを実行する 実行中のジョブを停止する ユーザーの追加や権限の設定をする リソースやコストの使用状況を可視化する ジョブ実行状況を可視化する ADLA アカウントの作成
  • 36. ADLA の操作: Visual Studio ジョブの進捗の 可視化 クエリパフォーマンスの チューニング U-SQL 実行プランの 可視化 メタデータ カタログ (テーブル, ビュー等) の 参照 U-SQL や C# カスタムコードの 作成 メタデータ オブジェクト (テーブル, ビュー等) の 作成 U-SQL ジョブの 実行と停止 U-SQL と C# の デバッグ
  • 37. Visual Studio: U-SQL ジョブのサブミット Visual Studio から ADLA に直接ジョブをサブミットすることが可能 ジョブのサブミット時に並列処理等の調整も可能
  • 38. Federated Queries Data Lake Analytics Azure のデータストアにクエリを実行する ✓ データを移動させずに各データスト アにクエリを実行 ✓ データの移動にかかる時間やコスト を抑える ✓ クエリをプッシュダウンしてリモート側 で実行することも可能 Azure SQL DW Azure SQL DB SQL Server Azure VM Azure Data Lake Store Azure Storage Blobs
  • 39. 非構造化データと AI ~ Cognitive 拡張 Cognitive Services の学習済みモデルを使っ た AI 拡張機能を U-SQL で実行 イメージング: • 顔を検出する • 感情を検出する • 画像の内容を読み取ってタグ付けする • OCR (文字認識) テキスト: • キー フレーズ抽出 • 感情分析 ▼ビルトインの Cognitive 機能
  • 40. 顔を検出する REFERENCE ASSEMBLY ImageCommon; REFERENCE ASSEMBLY FaceSdk; REFERENCE ASSEMBLY ImageEmotion; REFERENCE ASSEMBLY ImageTagging; REFERENCE ASSEMBLY ImageOcr; @faces_from_extractor = EXTRACT FileName string, NumFaces int, FaceIndex int, RectX float, RectY float, Width float, Height float, FaceAge int, FaceGender string FROM @"/usqlext/samples/cognition/{FileName}.jpg" USING new Cognition.Vision.FaceDetectionExtractor(); https://github.com/Azure-Samples/usql-cognitive-imaging-face-detection-hello-world 画像から顔の位置等の検出や性別、年齢の推定を行う
  • 41. 感情を検出する REFERENCE ASSEMBLY ImageCommon; REFERENCE ASSEMBLY FaceSdk; REFERENCE ASSEMBLY ImageEmotion; REFERENCE ASSEMBLY ImageTagging; REFERENCE ASSEMBLY ImageOcr; @emotions_from_extractor = EXTRACT FileName string, NumFaces int, FaceIndex int, RectX float, RectY float, Width float, Height float, Emotion string, Confidence float FROM @"/usqlext/samples/cognition/{FileName}.jpg" USING new Cognition.Vision.EmotionExtractor(); 画像から顔を検出し、感情を推定する https://github.com/Azure-Samples/usql-cognitive-imaging-emotion-detection-hello-world
  • 42. OCR (文字認識) REFERENCE ASSEMBLY ImageCommon; REFERENCE ASSEMBLY FaceSdk; REFERENCE ASSEMBLY ImageEmotion; REFERENCE ASSEMBLY ImageTagging; REFERENCE ASSEMBLY ImageOcr; @imgs = EXTRACT FileName string, ImgData byte[] FROM @"/usqlext/samples/cognition/{FileName}.jpg" USING new Cognition.Vision.ImageExtractor(); @ocrs = PROCESS @imgs PRODUCE FileName, Text string READONLY FileName USING new Cognition.Vision.OcrExtractor(); 画像に含まれるテキストを抽出する https://github.com/Azure-Samples/usql-cognitive-imaging-ocr-hello-world
  • 43. R / Python による高度な分析 U-SQL に R や Python を組み込んで高度な分析処理を実行することが可能 • 不正検知 • 販売予測 • 倉庫効率化 • 予知保全 • など 組み込み方法は以下の 2 つ ✓ U-SQL 内に直接スクリプトを記述 ✓ スクリプトファイルを作成して U-SQL 内に読み込み https://docs.microsoft.com/ja-jp/azure/data-lake-analytics/data-lake-analytics-u-sql-python-extensions https://docs.microsoft.com/ja-jp/azure/data-lake-analytics/data-lake-analytics-u-sql-r-extensions
  • 44.
  • 45. Azure Data Lake のセキュリティ
  • 46. 4. AI / アナリティクスを支える ビッグデータ基盤のデザイン例
  • 47. Data Warehouse とどう違うのか? Data Lake / HDInsight SQL Data Warehouse (SQL DW) スキーマ オン リード スキーマ オン ライト 未評価データの物理的収集 評価済みのデータ 未知のデータで実験/データ発見を行う 十分に理解されたデータをもとにレポーティングを行う あらゆる種類のデータ(構造化 / 非構造化データ) ある程度型の限定されたデータセット (リレーショナルデータ等) SQL、プログラミングを含む様々なスキル 慣れている SQL をベースとしたスキル すべてのワークロード - バッチ、インタラクティブ、ストリーミ ング、機械学習 インタラクティブクエリに最適化 お互いの機能が歩み寄ってきているが、ユースケース次第でどちらも必要!!
  • 49. HDInsight + Spark とどう違うのか? ADLA HDInsight + Spark コンセプト サーバレスのジョブサービス Hadoop / Spark クラスターサービス コスト ジョブを実行している時間 ノードが稼働している時間 AI / アナリティク ス系機能 Cognitive 機能 Python, R ライブラリ Has GraphX, Spark ML and MLlib SQL の拡張 U-SQL + .NET C# UDFs/UDOs + Python UDOs + R Hive, SparkSQL + Python/Scala + R カスタマイズ性 中 高
  • 50. 構造/非構造化データ ローデータ蓄積 (データ レイク) ビッグ データウェアハウス アクセス/パフォーマンス レイヤ ホットデータ収集 コールドデータ収集 ビッグデータ プロセッシング レイヤ 定型/非定型 BI カスタム アプリケーション 高度な分析 クライアント 広 帯 域 ネ ッ ト ワ ー ク データソース Operational Systems ERP Master Data Social Sensors Click Stream 正規化・共通化 サービス管理・メタデータ管理・認証管理 抽出 ExpressRoute Azure Data Factory Azure Data Lake Store Azure SQL DW Azure Analysis Services Power BI 高度分析&AI Azure Machine Learning Cognitive Services R Server Microsoft Bot Framework Web App Integration Runtime Data Catalog Python 分析 処理 Azure AD, AD DS Azure Data Lake 中心の AI / アナリティクス 基盤 デザイン例 蓄積 蓄積 蓄積 Excel
  • 51. まとめ • AI / アナリティクスにおける「データレイク」の重要性について理解する ➢ すべてのデータに潜在的には価値があるとみなして、すべてのデータをそのまま蓄積 することが AI / アナリティクスを加速する • Azure Data Lake のサービスの概要を理解する ➢ ビッグデータ基盤導入の障壁を取り払い、本来の目的である AI やアナリティクスに フォーカスできる、「サーバレス」サービスである • Azure Data Lake で実現できるビッグデータ基盤について理解する ➢ Azure Data Lake にデータを生データのまま蓄積しておき、必要な時に必要な サービスを組み合わせる