SlideShare uma empresa Scribd logo
1 de 65
Baixar para ler offline
© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
アマゾン ウェブ サービス ジャパン株式会社
ソリューションアーキテクト 川村誠
2018.06.19
【AWS Black Belt Online Seminar】
データレイク入門:
AWS で様々な規模のデータレイクを分析する
効率的な方法
© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
自己紹介
❏ 名前
川村 誠 (かわむら まこと)
❏ 所属
アマゾン ウェブ サービス ジャパン 株式会社
技術統括本部 ストラテジックソリューション本部
ソリューション アーキテクト
❏ 好きな AWS サービス
❖ Amazon EMR
❖ Amazon ECS
❖ Amazon SageMaker
© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
内容についての注意点
• 本資料では2018年6月19日時点のサービス内容および価格についてご説明しています。最新の情報は
AWS公式ウェブサイト(http://aws.amazon.com)にてご確認ください。
• 資料作成には十分注意しておりますが、資料内の価格とAWS公式ウェブサイト記載の価格に相違が
あった場合、AWS公式ウェブサイトの価格を優先とさせていただきます。
• 価格は税抜表記となっています。日本居住者のお客様が東京リージョンを使用する場合、別途消費
税をご請求させていただきます。
• AWS does not offer binding price quotes. AWS pricing is publicly available and is subject to change in
accordance with the AWS Customer Agreement available at http://aws.amazon.com/agreement/. Any
pricing information included in this document is provided only as an estimate of usage charges for AWS
services based on certain information that you have provided. Monthly charges will be based on your
actual use of AWS services, and may vary from the estimates provided.
© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
本セミナーの概要
❏ 本セミナーで学習できること
❖ データレイクのデータを自動的/効率的に分析可能にする方法
❖ データレイクと DWH のデータを効率的に分析する方法
❏ 対象者
❖ データ運用業務に関わるエンジニア、アナリスト、アーキテクトの方
❖ DWH・DB Administrator の方
❖ 次の AWS のサービスの概要レベルの知識が前提になります。
Amazon S3 / AWS Glue / Amazon Redshift など
© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Agenda
❏ データチャレンジ&データレイク
❏ データレイクのデータを自動的/効率的に分析可能に
する方法
❏ データレイクとデータウェアハウスに入っている様々
な規模のデータを効率的に分析する方法
© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
データチャレンジ&データレイク
© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
データチャレンジ
複数のデータ消費者とアプリケーション
データの種類とデータ量が急増している
データを集め、理解
し、データから価値
を見出す
新しい洞察をデータ
からすばやく抽出し、
ビジネスを加速する
© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
何が新しいチャレンジなのか?
Web and mobile
data
Logs
Social Media data
Streaming data IOT data
Spreadsheets
Structured data
Unstructured and Semi-structured data
ダークデータ
© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
ダークデータチャレンジ
Data Volume
ダークデータ
1990 2000 2010 2020
Generated Data
Available for Analysis
生成データ
分析に利用可能なデータ
© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
複数のデータ消費者と複数の要件
Analysts
Business Users
Applications
Agile Real time
Flexible Scale
データの複製が生成されてしまう!
Data Scientists
© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
伝統的なデータウェアハウス
リレーショナルデータ
テラバイト〜ペタバイト規模
データロード前に定義される
スキーマ
運用報告やアドホック分析OLTP ERP CRM LOB
Data Warehouse
Business Intelligence
© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
データウェアハウスを拡張するデータレイク
リレーショナルと非リレーショナル
データ
テラバイト〜エクサバイト規模
分析中に定義するスキーマ
(Schema on Read)
インサイトを得るための多様な分析
エンジン
低コストストレージと分析用に設計
OLTP ERP CRM LOB
Data Warehouse
Business
Intelligence
Data Lake
1001100001001010111
0010101011100101010
0001011111011010
0011110010110010110
0100011000010
Devices Web Sensors Social
Data Catalog
Machine
Learning
DW
Queries
Big data
processing
Interactive Real-time
© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
データレイク on AWS
データを取り込む様々な方法
エクサバイト規模での冗長性と可用性
セキュリティ、コンプライアンス、監査
同一データに対して移動無しでどんな
分析も実行可能
バラバラに拡張可能なストレージと計算
リソース
保存:0.025USD / GB-month ※
クエリ: 0.005USD / GB scanned
Snowball
Snowmobile Kinesis
Data Firehose
Kinesis
Data Streams
Amazon S3 AWS Glue
Redshift
EMR
Athena
Kinesis
Elasticsearch
Service
※東京リージョン 6/19時点の価格
© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
データレイクとは何か?
どんな規模のデータも低コス
トで全て収集し、保存するこ
とが可能
データを配置し、価値を与え、
セキュアに守ることが可能
組織内のデータへの民主化さ
れたアクセスを提供する
すばやく、簡単に新しいデー
タ分析形式を実行可能
© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
データレイクの利点
どんな規模のデータ
も低コストで全て収
集し、保存すること
が可能
信頼できる唯一の情
報源(single source of
truth)を持つことで、
すばやく検索し、関
連データを見つける
ことが可能
統一されたツール郡
を使用し、データを
簡単にクエリ可能
© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
欠けている部品
分析ツールとの統合>
メタデータを自動的に構築し、進化するデータに
合わせてメタデータを同期する方法
>
格納場所に関係なくデータへの統合されたビュー>
© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
データレイクのデータを自動的/効率的に
分析可能にする方法
 AWS Glue
© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
AWS Glue とは何か?
様々なデータソース間でデータをクレンジングし、リッチ化し、
確実に移動するコードが生成される。このコードを簡単にカスタ
マイズしたり、独自のコードを持ち込むことが可能
開発
サーバーレスで完全に管理されたスケールする環境でジョブが実
行される。プロビジョニングまたは管理するための計算リソース
は必要ない
展開
自動的にデータを発見して分類することで、様々なデータソース
をまたいだ検索と参照がすぐに実行可能に発見
© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
AWS Glue 構成要素
発見
Apache Hive メタデータ
ストア互換
AWSサービスと統合され
ている
自動的にクローリング
開発
PySpark・Scalaに対応
したETLコードを自動
的に生成する
編集、デバッグ、共有
可能
展開
サーバレスで実行可能
柔軟なスケジューリング
モニタリングとアラート
実施可能
Data Catalog Job Authoring Job Execution
© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
AWS Glue Data Catalog とは何か?
統合されたメタデータリポジトリ
リレーショナル・データベース、Amazon RDS、Amazon Redshift、
Amazon S3 に至る(…対応製品は今後も増える予定!)まで
❏ データがどこに保存されているとしても単一のView を取得可能
❏ 検索可能な1つの中央リスト内にデータを自動的に分類する
❏ スキーマを版管理することでデータの変化を追跡する
❏ Amazon Athena もしくはAmazon Redshift Spectrum を利用して
データを参照する
❏ Apache Hive metastore 互換なので、Amazon EMR で実行する
アプリケーションの外部メタストアとして利用可能
© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
データレイク on Amazon S3 with AWS Glue
On premises data
Web app data
Amazon RDS
Other databases
Streaming data
Your data
AMAZON
QUICKSIGHT
AWS GLUE ETL
© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Glue Data Catalog をセットアップする方法
手動でテーブルを生成する Hive DDL でテーブルを生成する
Glue のテーブル生成API を利用する
© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Glue Data Catalog を構築するより簡単な方法
1. データが保存されている場所を指定する
2. アップデートを確認する頻度を指定する
これだけで、Data Catalog を検索と参照に利用する準備が完了です!
© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Crawlerとは何か?
Crawler は自動的に Data Catalog を構築し、最新状態を維持する
❏ 様々なデータストアに保存されているデータをスキャンし、メタデータ
とデータの統計量を抽出し、Data Catalog にテーブル定義を追加
❖ 組み込み/カスタム classifier を利用して、データを分類
❖ Grok 式を利用して独自の classifier を定義することができる
❏ 新しいデータを発見し、スキーマ定義を抽出
❖ スキーマの変化を検出し、テーブルのバージョンを更新する
❖ Amazon S3 にあるデータから Hive 形式のパーティションを検出する
❏ 要求に応じて、もしくは、スケジュールに基づいて実行
❖ サーバーレスなので、Crawler が実行されたときだけ課金される
© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Glue Data Catalog 内のテーブル
Nested fields
テーブル属性
データ統計量
テーブルスキーマ
© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
どの様にデータが分類されるのか?
Crawler はデータをスキャンするときにデータに対して classifier の集合を
適用し、結果、テーブルとしてメタデータを DataCatalog に追加する
❏ classifier はデータのフォーマットを認識し、スキーマを生成
❏ classifier が返却する分類に合っているかどうかを示す確からしさの値
(0.0 〜 1.0) を元に、Crawler は分類できたかどうかを判断
❏ 順序付けられた classifier の集合をCrawler にセット、Crawler はマッチす
るまで、提供された順に classifier を実行する
❏ Glue はクロールの際に組込済みの classifier を利用できるだけでなく、独
自のカスタム classifier を定義することも可能!
© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Crawler が分類できるものは何か?
IAM Role
Glue Crawler
Data Lakes
Data Warehouse
Databases
Amazon
RDS
Amazon
Redshift
Amazon S3
JDBC Connection
Object Connection
Built-In Classifiers
MySQL
MariaDB
PostreSQL
Oracle
Microsoft SQL Server
Amazon Aurora
Amazon Redshift
Avro
Parquet
ORC
XML
JSON & BSON
Logs
(Apache (Grok), Linux(Grok), MS(Grok), Ruby, Redis, and
many others)
Delimited
(comma, pipe, tab, semicolon)
Compressions
(ZIP, BZIP, GZIP, LZ4, Snappy)
カスタム classifier を
追加可能
© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
カスタム classifier を定義する方法
❏ Grok パタンと一致したスキーマに割
り当てる分類ラベルを設定すること
で、独自のカスタム classifier を定義
することが可能
❏ Grokパターンは、一度に1行ずつ
データを照合するために使用される
正規表現の名前付き集合
❏ Example:
%{TIMESTAMP_ISO8601:timestamp}
¥[%{MESSAGEPREFIX:message_prefix}¥] %
{CRAWLERLOGLEVEL:loglevel} : %{
GREEDYDATA:message}
© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
カスタム classifier
1. カスタム classifier を定義する 2. Crawler にカスタム classifier を追加する
© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Crawlers: 自動的にスキーマを推測する
semi-structured
unified schema
enumerate
S3 objects
file 1
file 2
file N
…
struct
char
bool int
int
array
char int
identify file type
and parse files
custom classifiers
Grok based parser
built-in classifiers
JSON parser
CSV parser
Parquet parser
…
semi-structured
per-file schema
intchar
struct
char int
arraychar
int
array
intbool
© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
スキーマの類似度の検出
name: str id: num
Schema A
root
addr
street: str city: str zip: num
name: str id: num
Schema B
root
addr: str
Schema similarity heuristic
 名前が一致したら +1 point
 データ型が一致したら +1 point
 sim > 0.7 だったらマッチ
7
8
.875
intersection
min(A,B)
sim
 マッチ!
© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
自動パーティション検出
利用可能なパーティション
© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
パーティションを検出する仕組み
テーブル定義S3 バケット階層構造
半構造化ログ/スキーマの進化を処理するために、各レベルの
ファイル間のスキーマ類似性を見積る
© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
自動スキーマ版管理
データが進化すると自動的にテーブルのバージョンが更新される
© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
メタデータの Import/Export
Apache Hive
Metastore
Apache Hive
Metastore
Import from an external metastore Export to an external metastore
AWS GLUE ETL
AWS GLUE ETL
AWS GLUE
DATA CATALOG
import/export ETL スクリプト
https://github.com/awslabs/aws-glue-samples/tree/master/utilities/Hive_metastore_migration
© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
データレイクのデータが AWS Glue によって、
自動的/効率的に分析可能に
・・・その次は?
© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
データをすばやく発見する
検索結果を保存し、後から参照可能
テーブル属性でのフィルタリング、もしくは、
キーワード検索を実行可能
Amazon Athena でデータ参照可能(Amazon
Athena へのショートカット)
© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
異なるエンジンで同じデータを分析する
© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Amazon Athena
セットアップにコスト
は不要、Amazon S3 を
指定するだけですぐに
データにクエリを実行
可能
クエリ課金/データ圧縮、
パーティショニング、列
指向フォーマットを利用
することで、 1 クエリあ
たりの料金を 30~90% 節
約とパフォーマンスの向
上が可能
ANSI SQL 準拠のイ
ンタフェース、
JDBC/ODBC ドライ
バ、標準データ
フォーマット、圧
縮、そして、 複雑
な join 処理に対応
サーバレスで、サーバ
の設定や管理は不要、
Amazon QuickSight (BI)
と統合されている
❏ 標準 SQL を使用してAmazon S3 でデータを分析するインタラクティブなクエリサービス
❏ 設定または管理するインフラはなく、ロードするデータもない
SQL
Query Instantly Pay per query Open Easy
$
© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Amazon EMR
リリース後30日以
内に最新のオープ
ンソースフレーム
ワークで更新
秒課金、EC2スポット
インスタンス、リザー
ブドインスタンス、
オートスケーリングを
利用した柔軟な課金体
系でコストを50-80%
削減可能
Amazon S3 に構築し
たデータレイクの
データを EMRFSコ
ネクタによるハイ
パフォーマンスで
直接、セキュアに
処理可能
数分で完全マネージド
なApache Hadoop &
Apache Spark を起動可
能。クラスタセット
アップ、ノードプロビ
ジョニング、クラスタ
チューニング不要
❏ 20 のオープンソースプロジェクトによるスケーラブルな分析と機械学習が可能
❏ Apache Spark、Apache Hive、Presto 用に AWS Glue Data Catalog と統合
❏ エンタープライズグレードのセキュリティ
$
Latest versions Low cost Use S3 storage Easy
Data Lake
100110000100101011100
1010101110010101000
00111100101100101
010001100001
© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Amazon Redshift Spectrum
❏ S3 データレイクにデータウェアハウスを拡張する
S3 data lakeAmazon
Redshift data
Amazon Redshift Spectrum
query engine
S3 に対してエクサバイトクラスのAmazon
Redshift SQL クエリを実行可能
Redshift と S3 をまたいだデータ結合
計算リソースとストレージを別々にスケール
可能
安定したクエリのパフォーマンスと無制限の
同時実行性
Parquet, ORC, Grok, Avro, CSV などのフォー
マットに対応
スキャンしたデータ量に対するクエリ課金
© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
データレイクとデータウェアハウス
に入っている様々な規模のデータを
効率的に分析する方法
 Amazon Redshift Spectrum
© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Amazon Redshift – Data Warehousing
I/O 効率を向上させ
る列指向ストレージ
テクノロジーの使用、
および、複数ノード
間のクエリ並列化に
より、高速クエリパ
フォーマンスを実現
最新 SSD 上で最適化さ
れたデータフォーマッ
ト、Amazon S3 にある
全てのオープンデータ
フォーマットを分析可
能
すべてを監査; デー
タをエンドツーエ
ンドで暗号化; 豊富
な認定とコンプラ
イアンス
年間 1 テラバイトあ
たりわずか 1,000
USD。ウェアハウス
ソリューションのコ
ストを従来の 1/10
に抑えることが可能
❏ 1/10 のコストで、高速で、強力で、シンプルで、完全に管理されたデータウェアハウス
❏ 大規模並列、ギガバイトからペタバイトまで拡大
$
Fast at any scale InexpensiveOpen file formats Secure
© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Amazon Redshift Spectrum (再掲)
❏ S3 データレイクにデータウェアハウスを拡張する
S3 data lakeAmazon
Redshift data
Amazon Redshift Spectrum
query engine
S3 に対してエクサバイトクラスのAmazon
Redshift SQL クエリを実行可能
Redshift と S3 をまたいだデータ結合
計算リソースとストレージを別々にスケール
可能
安定したクエリのパフォーマンスと無制限の
同時実行性
Parquet, ORC, Grok, Avro, CSV などのフォー
マットに対応
スキャンしたデータ量に対するクエリ課金
© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Amazon Redshift Spectrum アーキテクチャ
Load
Unload
Backup
Restore
SQL Clients/BI Tools
128GB RAM
16TB disk
16 cores
JDBC/ODBC
128GB RAM
16TB disk
16 cores
Compute
Node
128GB RAM
16TB disk
16 cores
Compute
Node
128GB RAM
16TB disk
16 cores
Compute
Node
Leader
Node
Amazon S3
...
1 2 3 4 N
Amazon
Redshift
Spectrum
超並列、共有なしの列指向アーキテクチャ
❏ Leader Node
❖ SQL エンドポイント
❖ メタデータを保存
❖ 並列クエリ処理をコーディネート
❏ Compute Node
❖ ローカル列指向ストレージ
❖ 並列にクエリを実行
❖ データの load / unload / backup / restore
❏ Amazon Redshift Spectrum Node
❖ Amazon S3 に対して直接クエリを実行
❖ Redshift Spectrum は数千インスタンスにま
で自動的に拡張し、エクサバイトのデータ
に対してさえもクエリは高速に動作
© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Amazon Redshift Spectrum クエリ実行の流れ
Amazon
Redshift
JDBC/ODBC
...
1 2 3 4 N
Amazon S3
Exabyte-scale object storage
Data Catalog
Apache Hive Metastore
1
クエリーを投入
SELECT COUNT(*)
FROM S3.EXT_TABLE
GROUP BY…
2
❖ クエリーはリーダーノード上でオプティマイズされ、
コンパイル
❖ どのデータをローカルストレージから得て、どれを
Spectrum 層にリクエストするかを決定
3 クエリープランを全コンピュートノードに送信
4
コンピュートノードは Data Catalog からパー
ティション情報を取得 (Dynamically
prune partitions)
5
各コンピュートノードは、Amazon Redshift
Spectrum 層に対して複数のリクエストを送信
6
Amazon Redshift Spectrum層のノードがS3
のデータをスキャン
7
Amazon Redshift Spectrum
層でデータの射影、フィ
ルタ、ジョイン、アグリ
ゲーションを実行
8
Amazon Redshiftクラスター内で、
ローカルディスク上とのジョイン
や最終的なアグリゲーションが
実行される
9 結果がクライアントに戻される
© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
データレイクアーティファクトの定義
(Schema on Read)
Data Catalog を利用して Amazon Redshift に外部スキーマを定義する
CREATE external schema archived_trips
from data catalog database 'sampledb'
iam_role 'arn:aws:iam::123456789012:role/MySpectrumRole'
region 'us-east-2’;
外部スキーマを参照する
select * from svv_external_schemas
外部テーブルを参照する
select * from svv_external_tables
© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
権限設定
❏Amazon Redshift は AWS Glue にある Data Catalog と Amazon S3 にあるデー
タファイルにアクセスするための権限を必要とする
❏権限を与えるため、まず最初にAWS Identity and Access Management (IAM)
ロールを生成する必要がある
❏それから、クラスターにロールをアタッチし、Amazon Redshift の 外
部スキーマ生成文の中で、ARN(Amazon Resource Name) を ロールに
指定する
© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
データレイク on Amazon S3 with AWS Glue (再掲)
On premises data
Web app data
Amazon RDS
Other databases
Streaming data
Your data
AMAZON
QUICKSIGHT
AWS GLUE ETL
© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
データレイクとデータウェアハウスに入ってい
る様々な規模のデータを Redshift Spectrum
を利用して効率的に分析可能
・・・ベストプラクティスは?
© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
ベストプラクティス - 1 / 5
Amazon Redshift Spectrum を使用して、スキャン集約的な
同時作業負荷を改善する
❏Redshift Spectrum は、利用している Redshift クラスターとは独立した
専用のサーバー群にある
❏フィルター処理や集約処理といった、多くのコンピュートインテンシブ
な処理を Redshift Spectrum 層で行うことで、クエリが使用する Redshift
クラスターの処理キャパシティが大きく削減される
© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
ベストプラクティス - 2 / 5
クエリはデータレイクを最適化する
– Apache Parquet を使う
❏ Apache Parquet は、データ処理フレームワークやデータモデル、プログラミ
ング言語に依らず利用可能な列指向フォーマット
❏ SVL_S3QUERY_SUMMARY テーブルを調べることで、パーティション分けさ
れた Parquet ファイルを使う際の、S3 に関する様々な興味深いメトリクスを
確認できる
❏ 特に s3_scanned_rows と s3query_returned_rows という 2 つのメトリクスに注
目してみると、CSV ファイルを処理するときと比べて、Redshift Spectrum か
ら Redshift クラスターに送られるデータ総量が驚異的に削減されていること
がわかる
© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
ベストプラクティス - 3 / 5
クエリはデータレイクを最適化する
– Parquet ファイルでパーティションする
❏ 次のSQLは、パーティションプルーニングの有効性を分析する
❏ クエリが少数のパーティションにしか触れない場合は、すべてが
期待通りに動作しているかどうかを確認できる:
SELECT query, segment, max(assigned_partitions) as total_partitions,
max(qualified_partitions) as qualified_partitions FROM svl_s3partitionWHERE
query=<Query-ID> GROUP BY 1,2;
© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
ベストプラクティス - 4 / 5
データレイクに投入するクエリを最適化する
❏ Amazon Redshift Spectrum クエリの同時実行性能は、以下の 2 つの
レベルで制御可能
❖クエリレベル(クエリごと 1 スライスにつき最大 10 の同時実行数)
• いくつのクエリが同時に実行されているかによって、同時実行数が変わる
• 割りあてられた同時実行数によって、S3 をスキャンするスレッド数が制限される
❖ノードレベル(ノード上で動作するすべての S3 をスキャンするクエリに適
用される。ノードタイプによって数が異なる)
• より大きなノードタイプを選択するほど、上限数も高くなる
© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
ベストプラクティス - 5 / 5
Predicate pushdown によるデータレイククエリの
パフォーマンスの向上
❏ AmazonのRedshift Spectrumレイヤーにプッシュダウンできる特定の
SQL 操作があるので、可能であれば、これらの機能を利用する
例):
❖GROUP BY 句やいくつかの文字列関数
❖等価述語や LIKE のようなパターンマッチ条件
❖COUNT/SUM/AVG/MIN/MAX/その他多くの共通集約関数
❖Regex_replace 等の関数
© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
ベストプラクティス - 5 / 5 (Cont.)
Predicate pushdown によるデータレイククエリの
パフォーマンスの向上
❏ DISTINCT や ORDER BY のような特定の SQL 操作は、Amazon Redshift
Spectrum にプッシュダウンできないため、Amazon Redshift で実行され
る。それらの使用を最小限に抑え、できるだけ使用を避ける
例):
❖ DISTINCT を GROUP BY で置き換える
© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Amazon Redshift Spectrum 10 のベストプラクティス
https://aws.amazon.com/jp/blogs/news/10-best-practices-for-amazon-redshift-spectrum/
© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
まとめ
© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
まとめ
❏データレイクにデータを集め始めてから直面する課題の
解決に利用可能な2つの方法
1. データレイクのデータを自動的/効率的に分析可能にする方法
 AWS Glue
2. データレイクとデータウェアハウスに入っている様々な規模の
データを効率的に分析する方法
 Amazon Redshift Spectrum
© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
Data Lake on AWS
データレイクがビッグデータ
ストレージソリューションと
して最大限の柔軟性を提供!
https://d1.awsstatic.com/white
papers/Storage/data-lake-on-
aws.pdf
Snowball
Snowmobile Kinesis
Data Firehose
Kinesis
Data Streams
Amazon S3 AWS Glue
Redshift
EMR
Athena
Kinesis
Elasticsearch
Service
© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
参考資料
❏ AWS Glue
❖ https://aws.amazon.com/jp/glue/
❏ AWS Glue ドキュメント
❖ https://aws.amazon.com/jp/glue/details/
❏ AWS Glue 開発者用リソース
❖ https://aws.amazon.com/jp/glue/developer-resources/
❏ Amazon Redshift
❖ https://aws.amazon.com/jp/redshift/
❏ Amazon Redshift 開発者用リソース
❖ https://aws.amazon.com/jp/redshift/developer-resources/
© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
AWS オンラインセミナースケジュール
AWS オンラインセミナースケジュールは以下より確認できます
https://amzn.to/JPWebinar
© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
公式Twitter/Facebook
AWSの最新情報をお届けします
@awscloud_jp
検索
最新技術情報、イベント情報、お役立ち情報、
お得なキャンペーン情報などを日々更新しています!
もしくは
http://on.fb.me/1vR8yWm
© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
AWSの導入、お問い合わせのご相談
AWSクラウド導入に関するご質問、お見積、資料請求をご希望のお客様は以下
のリンクよりお気軽にご相談下さい。
https://aws.amazon.com/jp/contact-us/aws-sales/
※「AWS 問い合わせ」で検索して下さい。
© 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
AWS Well Architected 個別技術相談会お知らせ
• Well Architectedフレームワークに基づく数十個の質問項目を元に、お客様が
AWS上で構築するシステムに潜むリスクやその回避方法をお伝えする個別相
談会です。
https://pages.awscloud.com/well-architected-consulting-jp.html
• 参加無料
• 毎週火曜・木曜開催

Mais conteúdo relacionado

Mais procurados

AWS Black Belt Online Seminar AWS 認定クラウドプラクティショナー取得に向けて
AWS Black Belt Online Seminar AWS 認定クラウドプラクティショナー取得に向けてAWS Black Belt Online Seminar AWS 認定クラウドプラクティショナー取得に向けて
AWS Black Belt Online Seminar AWS 認定クラウドプラクティショナー取得に向けてAmazon Web Services Japan
 
20200526 AWS Black Belt Online Seminar AWS X-Ray
20200526 AWS Black Belt Online Seminar AWS X-Ray20200526 AWS Black Belt Online Seminar AWS X-Ray
20200526 AWS Black Belt Online Seminar AWS X-RayAmazon Web Services Japan
 
20190130 AWS Black Belt Online Seminar AWS Identity and Access Management (AW...
20190130 AWS Black Belt Online Seminar AWS Identity and Access Management (AW...20190130 AWS Black Belt Online Seminar AWS Identity and Access Management (AW...
20190130 AWS Black Belt Online Seminar AWS Identity and Access Management (AW...Amazon Web Services Japan
 
20200826 AWS Black Belt Online Seminar AWS CloudFormation
20200826 AWS Black Belt Online Seminar AWS CloudFormation 20200826 AWS Black Belt Online Seminar AWS CloudFormation
20200826 AWS Black Belt Online Seminar AWS CloudFormation Amazon Web Services Japan
 
20190514 AWS Black Belt Online Seminar Amazon API Gateway
20190514 AWS Black Belt Online Seminar Amazon API Gateway 20190514 AWS Black Belt Online Seminar Amazon API Gateway
20190514 AWS Black Belt Online Seminar Amazon API Gateway Amazon Web Services Japan
 
20190206 AWS Black Belt Online Seminar Amazon SageMaker Basic Session
20190206 AWS Black Belt Online Seminar Amazon SageMaker Basic Session20190206 AWS Black Belt Online Seminar Amazon SageMaker Basic Session
20190206 AWS Black Belt Online Seminar Amazon SageMaker Basic SessionAmazon Web Services Japan
 
データ活用を加速するAWS分析サービスのご紹介
データ活用を加速するAWS分析サービスのご紹介データ活用を加速するAWS分析サービスのご紹介
データ活用を加速するAWS分析サービスのご紹介Amazon Web Services Japan
 
20200728 AWS Black Belt Online Seminar What's New in Serverless
20200728 AWS Black Belt Online Seminar What's New in Serverless20200728 AWS Black Belt Online Seminar What's New in Serverless
20200728 AWS Black Belt Online Seminar What's New in ServerlessAmazon Web Services Japan
 
週末趣味のAWS Transit Gatewayでの経路制御
週末趣味のAWS Transit Gatewayでの経路制御週末趣味のAWS Transit Gatewayでの経路制御
週末趣味のAWS Transit Gatewayでの経路制御Namba Kazuo
 
20210330 AWS Black Belt Online Seminar AWS Glue -Glue Studioを使ったデータ変換のベストプラクティス-
20210330 AWS Black Belt Online Seminar AWS Glue -Glue Studioを使ったデータ変換のベストプラクティス-20210330 AWS Black Belt Online Seminar AWS Glue -Glue Studioを使ったデータ変換のベストプラクティス-
20210330 AWS Black Belt Online Seminar AWS Glue -Glue Studioを使ったデータ変換のベストプラクティス-Amazon Web Services Japan
 
Amazon Athena で実現する データ分析の広がり
Amazon Athena で実現する データ分析の広がりAmazon Athena で実現する データ分析の広がり
Amazon Athena で実現する データ分析の広がりAmazon Web Services Japan
 
20180322 AWS Black Belt Online Seminar AWS Snowball Edge
20180322 AWS Black Belt Online Seminar AWS Snowball Edge20180322 AWS Black Belt Online Seminar AWS Snowball Edge
20180322 AWS Black Belt Online Seminar AWS Snowball EdgeAmazon Web Services Japan
 
AWS Black Belt Online Seminar 2017 AWSにおけるアプリ認証パターンのご紹介
AWS Black Belt Online Seminar 2017 AWSにおけるアプリ認証パターンのご紹介AWS Black Belt Online Seminar 2017 AWSにおけるアプリ認証パターンのご紹介
AWS Black Belt Online Seminar 2017 AWSにおけるアプリ認証パターンのご紹介Amazon Web Services Japan
 
AWS Black Belt Online Seminar 2017 Amazon DynamoDB
AWS Black Belt Online Seminar 2017 Amazon DynamoDB AWS Black Belt Online Seminar 2017 Amazon DynamoDB
AWS Black Belt Online Seminar 2017 Amazon DynamoDB Amazon Web Services Japan
 
20190326 AWS Black Belt Online Seminar Amazon CloudWatch
20190326 AWS Black Belt Online Seminar Amazon CloudWatch20190326 AWS Black Belt Online Seminar Amazon CloudWatch
20190326 AWS Black Belt Online Seminar Amazon CloudWatchAmazon Web Services Japan
 
20201118 AWS Black Belt Online Seminar 形で考えるサーバーレス設計 サーバーレスユースケースパターン解説
20201118 AWS Black Belt Online Seminar 形で考えるサーバーレス設計 サーバーレスユースケースパターン解説20201118 AWS Black Belt Online Seminar 形で考えるサーバーレス設計 サーバーレスユースケースパターン解説
20201118 AWS Black Belt Online Seminar 形で考えるサーバーレス設計 サーバーレスユースケースパターン解説Amazon Web Services Japan
 
20190814 AWS Black Belt Online Seminar AWS Serverless Application Model
20190814 AWS Black Belt Online Seminar AWS Serverless Application Model  20190814 AWS Black Belt Online Seminar AWS Serverless Application Model
20190814 AWS Black Belt Online Seminar AWS Serverless Application Model Amazon Web Services Japan
 
データ分析を支える技術 DWH再入門
データ分析を支える技術 DWH再入門データ分析を支える技術 DWH再入門
データ分析を支える技術 DWH再入門Satoru Ishikawa
 
AWS Black Belt Online Seminar 2016 AWS CloudFormation
AWS Black Belt Online Seminar 2016 AWS CloudFormationAWS Black Belt Online Seminar 2016 AWS CloudFormation
AWS Black Belt Online Seminar 2016 AWS CloudFormationAmazon Web Services Japan
 

Mais procurados (20)

AWS Black Belt Online Seminar AWS 認定クラウドプラクティショナー取得に向けて
AWS Black Belt Online Seminar AWS 認定クラウドプラクティショナー取得に向けてAWS Black Belt Online Seminar AWS 認定クラウドプラクティショナー取得に向けて
AWS Black Belt Online Seminar AWS 認定クラウドプラクティショナー取得に向けて
 
20200526 AWS Black Belt Online Seminar AWS X-Ray
20200526 AWS Black Belt Online Seminar AWS X-Ray20200526 AWS Black Belt Online Seminar AWS X-Ray
20200526 AWS Black Belt Online Seminar AWS X-Ray
 
20190130 AWS Black Belt Online Seminar AWS Identity and Access Management (AW...
20190130 AWS Black Belt Online Seminar AWS Identity and Access Management (AW...20190130 AWS Black Belt Online Seminar AWS Identity and Access Management (AW...
20190130 AWS Black Belt Online Seminar AWS Identity and Access Management (AW...
 
20200826 AWS Black Belt Online Seminar AWS CloudFormation
20200826 AWS Black Belt Online Seminar AWS CloudFormation 20200826 AWS Black Belt Online Seminar AWS CloudFormation
20200826 AWS Black Belt Online Seminar AWS CloudFormation
 
20190514 AWS Black Belt Online Seminar Amazon API Gateway
20190514 AWS Black Belt Online Seminar Amazon API Gateway 20190514 AWS Black Belt Online Seminar Amazon API Gateway
20190514 AWS Black Belt Online Seminar Amazon API Gateway
 
20190206 AWS Black Belt Online Seminar Amazon SageMaker Basic Session
20190206 AWS Black Belt Online Seminar Amazon SageMaker Basic Session20190206 AWS Black Belt Online Seminar Amazon SageMaker Basic Session
20190206 AWS Black Belt Online Seminar Amazon SageMaker Basic Session
 
データ活用を加速するAWS分析サービスのご紹介
データ活用を加速するAWS分析サービスのご紹介データ活用を加速するAWS分析サービスのご紹介
データ活用を加速するAWS分析サービスのご紹介
 
20200728 AWS Black Belt Online Seminar What's New in Serverless
20200728 AWS Black Belt Online Seminar What's New in Serverless20200728 AWS Black Belt Online Seminar What's New in Serverless
20200728 AWS Black Belt Online Seminar What's New in Serverless
 
週末趣味のAWS Transit Gatewayでの経路制御
週末趣味のAWS Transit Gatewayでの経路制御週末趣味のAWS Transit Gatewayでの経路制御
週末趣味のAWS Transit Gatewayでの経路制御
 
20210330 AWS Black Belt Online Seminar AWS Glue -Glue Studioを使ったデータ変換のベストプラクティス-
20210330 AWS Black Belt Online Seminar AWS Glue -Glue Studioを使ったデータ変換のベストプラクティス-20210330 AWS Black Belt Online Seminar AWS Glue -Glue Studioを使ったデータ変換のベストプラクティス-
20210330 AWS Black Belt Online Seminar AWS Glue -Glue Studioを使ったデータ変換のベストプラクティス-
 
Amazon Athena で実現する データ分析の広がり
Amazon Athena で実現する データ分析の広がりAmazon Athena で実現する データ分析の広がり
Amazon Athena で実現する データ分析の広がり
 
20180322 AWS Black Belt Online Seminar AWS Snowball Edge
20180322 AWS Black Belt Online Seminar AWS Snowball Edge20180322 AWS Black Belt Online Seminar AWS Snowball Edge
20180322 AWS Black Belt Online Seminar AWS Snowball Edge
 
AWS Black Belt Online Seminar 2017 AWSにおけるアプリ認証パターンのご紹介
AWS Black Belt Online Seminar 2017 AWSにおけるアプリ認証パターンのご紹介AWS Black Belt Online Seminar 2017 AWSにおけるアプリ認証パターンのご紹介
AWS Black Belt Online Seminar 2017 AWSにおけるアプリ認証パターンのご紹介
 
AWS Black Belt Online Seminar 2017 Amazon DynamoDB
AWS Black Belt Online Seminar 2017 Amazon DynamoDB AWS Black Belt Online Seminar 2017 Amazon DynamoDB
AWS Black Belt Online Seminar 2017 Amazon DynamoDB
 
20190326 AWS Black Belt Online Seminar Amazon CloudWatch
20190326 AWS Black Belt Online Seminar Amazon CloudWatch20190326 AWS Black Belt Online Seminar Amazon CloudWatch
20190326 AWS Black Belt Online Seminar Amazon CloudWatch
 
AWS Black Belt online seminar 2017 Snowball
AWS Black Belt online seminar 2017 SnowballAWS Black Belt online seminar 2017 Snowball
AWS Black Belt online seminar 2017 Snowball
 
20201118 AWS Black Belt Online Seminar 形で考えるサーバーレス設計 サーバーレスユースケースパターン解説
20201118 AWS Black Belt Online Seminar 形で考えるサーバーレス設計 サーバーレスユースケースパターン解説20201118 AWS Black Belt Online Seminar 形で考えるサーバーレス設計 サーバーレスユースケースパターン解説
20201118 AWS Black Belt Online Seminar 形で考えるサーバーレス設計 サーバーレスユースケースパターン解説
 
20190814 AWS Black Belt Online Seminar AWS Serverless Application Model
20190814 AWS Black Belt Online Seminar AWS Serverless Application Model  20190814 AWS Black Belt Online Seminar AWS Serverless Application Model
20190814 AWS Black Belt Online Seminar AWS Serverless Application Model
 
データ分析を支える技術 DWH再入門
データ分析を支える技術 DWH再入門データ分析を支える技術 DWH再入門
データ分析を支える技術 DWH再入門
 
AWS Black Belt Online Seminar 2016 AWS CloudFormation
AWS Black Belt Online Seminar 2016 AWS CloudFormationAWS Black Belt Online Seminar 2016 AWS CloudFormation
AWS Black Belt Online Seminar 2016 AWS CloudFormation
 

Semelhante a 20180619 AWS Black Belt Online Seminar データレイク入門: AWSで様々な規模のデータレイクを分析する効率的な方法

[CTO Night & Day 2019] AWS で構築するデータレイク基盤と amazon.com での導入事例 #ctonight
[CTO Night & Day 2019] AWS で構築するデータレイク基盤と amazon.com での導入事例 #ctonight[CTO Night & Day 2019] AWS で構築するデータレイク基盤と amazon.com での導入事例 #ctonight
[CTO Night & Day 2019] AWS で構築するデータレイク基盤と amazon.com での導入事例 #ctonightAmazon Web Services Japan
 
Amazon Kinesis Familyを活用したストリームデータ処理
Amazon Kinesis Familyを活用したストリームデータ処理Amazon Kinesis Familyを活用したストリームデータ処理
Amazon Kinesis Familyを活用したストリームデータ処理Amazon Web Services Japan
 
20190122 AWS Black Belt Online Seminar Amazon Redshift Update
20190122 AWS Black Belt Online Seminar Amazon Redshift Update20190122 AWS Black Belt Online Seminar Amazon Redshift Update
20190122 AWS Black Belt Online Seminar Amazon Redshift UpdateAmazon Web Services Japan
 
Effective Data Lakes - ユースケースとデザインパターン
Effective Data Lakes - ユースケースとデザインパターンEffective Data Lakes - ユースケースとデザインパターン
Effective Data Lakes - ユースケースとデザインパターンNoritaka Sekiyama
 
Best Practices for Running PostgreSQL on AWS
Best Practices for Running PostgreSQL on AWSBest Practices for Running PostgreSQL on AWS
Best Practices for Running PostgreSQL on AWSAmazon Web Services Japan
 
Japan Wrap Up re:Invent2018
Japan Wrap Up re:Invent2018Japan Wrap Up re:Invent2018
Japan Wrap Up re:Invent2018Kameda Harunobu
 
[PGConf.ASIA 2018]Deep Dive on Amazon Aurora with PostgreSQL Compatibility
[PGConf.ASIA 2018]Deep Dive on Amazon Aurora with PostgreSQL Compatibility[PGConf.ASIA 2018]Deep Dive on Amazon Aurora with PostgreSQL Compatibility
[PGConf.ASIA 2018]Deep Dive on Amazon Aurora with PostgreSQL CompatibilityAmazon Web Services Japan
 
Amazon Game Tech Night #22 AWSで実現するデータレイクとアナリティクス
Amazon Game Tech Night #22 AWSで実現するデータレイクとアナリティクスAmazon Game Tech Night #22 AWSで実現するデータレイクとアナリティクス
Amazon Game Tech Night #22 AWSで実現するデータレイクとアナリティクスAmazon Web Services Japan
 
エッジコンピューティングで実現できる活用シナリオ3選
エッジコンピューティングで実現できる活用シナリオ3選エッジコンピューティングで実現できる活用シナリオ3選
エッジコンピューティングで実現できる活用シナリオ3選Jun Ichikawa
 
The Twelve-Factor Appで考えるAWSのサービス開発
The Twelve-Factor Appで考えるAWSのサービス開発The Twelve-Factor Appで考えるAWSのサービス開発
The Twelve-Factor Appで考えるAWSのサービス開発Amazon Web Services Japan
 
20180220 AWS Black Belt Online Seminar - Amazon Container Services
20180220 AWS Black Belt Online Seminar - Amazon Container Services20180220 AWS Black Belt Online Seminar - Amazon Container Services
20180220 AWS Black Belt Online Seminar - Amazon Container ServicesAmazon Web Services Japan
 
20180508 AWS Black Belt Online Seminar AWS Greengrassで実現するエッジコンピューティング
20180508 AWS Black Belt Online Seminar AWS Greengrassで実現するエッジコンピューティング20180508 AWS Black Belt Online Seminar AWS Greengrassで実現するエッジコンピューティング
20180508 AWS Black Belt Online Seminar AWS Greengrassで実現するエッジコンピューティングAmazon Web Services Japan
 
20190410 AWS Black Belt Online Seminar Amazon Elastic Container Service for K...
20190410 AWS Black Belt Online Seminar Amazon Elastic Container Service for K...20190410 AWS Black Belt Online Seminar Amazon Elastic Container Service for K...
20190410 AWS Black Belt Online Seminar Amazon Elastic Container Service for K...Amazon Web Services Japan
 
Security Operations and Automation on AWS
Security Operations and Automation on AWSSecurity Operations and Automation on AWS
Security Operations and Automation on AWSNoritaka Sekiyama
 

Semelhante a 20180619 AWS Black Belt Online Seminar データレイク入門: AWSで様々な規模のデータレイクを分析する効率的な方法 (20)

[CTO Night & Day 2019] AWS で構築するデータレイク基盤と amazon.com での導入事例 #ctonight
[CTO Night & Day 2019] AWS で構築するデータレイク基盤と amazon.com での導入事例 #ctonight[CTO Night & Day 2019] AWS で構築するデータレイク基盤と amazon.com での導入事例 #ctonight
[CTO Night & Day 2019] AWS で構築するデータレイク基盤と amazon.com での導入事例 #ctonight
 
Amazon Kinesis Familyを活用したストリームデータ処理
Amazon Kinesis Familyを活用したストリームデータ処理Amazon Kinesis Familyを活用したストリームデータ処理
Amazon Kinesis Familyを活用したストリームデータ処理
 
20190122 AWS Black Belt Online Seminar Amazon Redshift Update
20190122 AWS Black Belt Online Seminar Amazon Redshift Update20190122 AWS Black Belt Online Seminar Amazon Redshift Update
20190122 AWS Black Belt Online Seminar Amazon Redshift Update
 
Effective Data Lakes - ユースケースとデザインパターン
Effective Data Lakes - ユースケースとデザインパターンEffective Data Lakes - ユースケースとデザインパターン
Effective Data Lakes - ユースケースとデザインパターン
 
Best Practices for Running PostgreSQL on AWS
Best Practices for Running PostgreSQL on AWSBest Practices for Running PostgreSQL on AWS
Best Practices for Running PostgreSQL on AWS
 
Japan Wrap Up re:Invent2018
Japan Wrap Up re:Invent2018Japan Wrap Up re:Invent2018
Japan Wrap Up re:Invent2018
 
Japan wrapup reinvent2018
Japan wrapup reinvent2018Japan wrapup reinvent2018
Japan wrapup reinvent2018
 
Serverless analytics on aws
Serverless analytics on awsServerless analytics on aws
Serverless analytics on aws
 
[PGConf.ASIA 2018]Deep Dive on Amazon Aurora with PostgreSQL Compatibility
[PGConf.ASIA 2018]Deep Dive on Amazon Aurora with PostgreSQL Compatibility[PGConf.ASIA 2018]Deep Dive on Amazon Aurora with PostgreSQL Compatibility
[PGConf.ASIA 2018]Deep Dive on Amazon Aurora with PostgreSQL Compatibility
 
Amazon Game Tech Night #22 AWSで実現するデータレイクとアナリティクス
Amazon Game Tech Night #22 AWSで実現するデータレイクとアナリティクスAmazon Game Tech Night #22 AWSで実現するデータレイクとアナリティクス
Amazon Game Tech Night #22 AWSで実現するデータレイクとアナリティクス
 
エッジコンピューティングで実現できる活用シナリオ3選
エッジコンピューティングで実現できる活用シナリオ3選エッジコンピューティングで実現できる活用シナリオ3選
エッジコンピューティングで実現できる活用シナリオ3選
 
The Twelve-Factor Appで考えるAWSのサービス開発
The Twelve-Factor Appで考えるAWSのサービス開発The Twelve-Factor Appで考えるAWSのサービス開発
The Twelve-Factor Appで考えるAWSのサービス開発
 
AWS Nightschool20180618
AWS Nightschool20180618AWS Nightschool20180618
AWS Nightschool20180618
 
Graph Database and Amazon Neptune
Graph Database and Amazon NeptuneGraph Database and Amazon Neptune
Graph Database and Amazon Neptune
 
Data Lake Security on AWS
Data Lake Security on AWSData Lake Security on AWS
Data Lake Security on AWS
 
GraphQL入門 (AWS AppSync)
GraphQL入門 (AWS AppSync)GraphQL入門 (AWS AppSync)
GraphQL入門 (AWS AppSync)
 
20180220 AWS Black Belt Online Seminar - Amazon Container Services
20180220 AWS Black Belt Online Seminar - Amazon Container Services20180220 AWS Black Belt Online Seminar - Amazon Container Services
20180220 AWS Black Belt Online Seminar - Amazon Container Services
 
20180508 AWS Black Belt Online Seminar AWS Greengrassで実現するエッジコンピューティング
20180508 AWS Black Belt Online Seminar AWS Greengrassで実現するエッジコンピューティング20180508 AWS Black Belt Online Seminar AWS Greengrassで実現するエッジコンピューティング
20180508 AWS Black Belt Online Seminar AWS Greengrassで実現するエッジコンピューティング
 
20190410 AWS Black Belt Online Seminar Amazon Elastic Container Service for K...
20190410 AWS Black Belt Online Seminar Amazon Elastic Container Service for K...20190410 AWS Black Belt Online Seminar Amazon Elastic Container Service for K...
20190410 AWS Black Belt Online Seminar Amazon Elastic Container Service for K...
 
Security Operations and Automation on AWS
Security Operations and Automation on AWSSecurity Operations and Automation on AWS
Security Operations and Automation on AWS
 

Mais de Amazon Web Services Japan

202205 AWS Black Belt Online Seminar Amazon VPC IP Address Manager (IPAM)
202205 AWS Black Belt Online Seminar Amazon VPC IP Address Manager (IPAM)202205 AWS Black Belt Online Seminar Amazon VPC IP Address Manager (IPAM)
202205 AWS Black Belt Online Seminar Amazon VPC IP Address Manager (IPAM)Amazon Web Services Japan
 
202205 AWS Black Belt Online Seminar Amazon FSx for OpenZFS
202205 AWS Black Belt Online Seminar Amazon FSx for OpenZFS202205 AWS Black Belt Online Seminar Amazon FSx for OpenZFS
202205 AWS Black Belt Online Seminar Amazon FSx for OpenZFSAmazon Web Services Japan
 
202204 AWS Black Belt Online Seminar AWS IoT Device Defender
202204 AWS Black Belt Online Seminar AWS IoT Device Defender202204 AWS Black Belt Online Seminar AWS IoT Device Defender
202204 AWS Black Belt Online Seminar AWS IoT Device DefenderAmazon Web Services Japan
 
202204 AWS Black Belt Online Seminar Amazon Connect を活用したオンコール対応の実現
202204 AWS Black Belt Online Seminar Amazon Connect を活用したオンコール対応の実現202204 AWS Black Belt Online Seminar Amazon Connect を活用したオンコール対応の実現
202204 AWS Black Belt Online Seminar Amazon Connect を活用したオンコール対応の実現Amazon Web Services Japan
 
202204 AWS Black Belt Online Seminar Amazon Connect Salesforce連携(第1回 CTI Adap...
202204 AWS Black Belt Online Seminar Amazon Connect Salesforce連携(第1回 CTI Adap...202204 AWS Black Belt Online Seminar Amazon Connect Salesforce連携(第1回 CTI Adap...
202204 AWS Black Belt Online Seminar Amazon Connect Salesforce連携(第1回 CTI Adap...Amazon Web Services Japan
 
Amazon Game Tech Night #25 ゲーム業界向け機械学習最新状況アップデート
Amazon Game Tech Night #25 ゲーム業界向け機械学習最新状況アップデートAmazon Game Tech Night #25 ゲーム業界向け機械学習最新状況アップデート
Amazon Game Tech Night #25 ゲーム業界向け機械学習最新状況アップデートAmazon Web Services Japan
 
20220409 AWS BLEA 開発にあたって検討したこと
20220409 AWS BLEA 開発にあたって検討したこと20220409 AWS BLEA 開発にあたって検討したこと
20220409 AWS BLEA 開発にあたって検討したことAmazon Web Services Japan
 
202202 AWS Black Belt Online Seminar AWS Managed Rules for AWS WAF の活用
202202 AWS Black Belt Online Seminar AWS Managed Rules for AWS WAF の活用202202 AWS Black Belt Online Seminar AWS Managed Rules for AWS WAF の活用
202202 AWS Black Belt Online Seminar AWS Managed Rules for AWS WAF の活用Amazon Web Services Japan
 
202203 AWS Black Belt Online Seminar Amazon Connect Tasks.pdf
202203 AWS Black Belt Online Seminar Amazon Connect Tasks.pdf202203 AWS Black Belt Online Seminar Amazon Connect Tasks.pdf
202203 AWS Black Belt Online Seminar Amazon Connect Tasks.pdfAmazon Web Services Japan
 
SaaS テナント毎のコストを把握するための「AWS Application Cost Profiler」のご紹介
SaaS テナント毎のコストを把握するための「AWS Application Cost Profiler」のご紹介SaaS テナント毎のコストを把握するための「AWS Application Cost Profiler」のご紹介
SaaS テナント毎のコストを把握するための「AWS Application Cost Profiler」のご紹介Amazon Web Services Japan
 
Amazon QuickSight の組み込み方法をちょっぴりDD
Amazon QuickSight の組み込み方法をちょっぴりDDAmazon QuickSight の組み込み方法をちょっぴりDD
Amazon QuickSight の組み込み方法をちょっぴりDDAmazon Web Services Japan
 
マルチテナント化で知っておきたいデータベースのこと
マルチテナント化で知っておきたいデータベースのことマルチテナント化で知っておきたいデータベースのこと
マルチテナント化で知っておきたいデータベースのことAmazon Web Services Japan
 
機密データとSaaSは共存しうるのか!?セキュリティー重視のユーザー層を取り込む為のネットワーク通信のアプローチ
機密データとSaaSは共存しうるのか!?セキュリティー重視のユーザー層を取り込む為のネットワーク通信のアプローチ機密データとSaaSは共存しうるのか!?セキュリティー重視のユーザー層を取り込む為のネットワーク通信のアプローチ
機密データとSaaSは共存しうるのか!?セキュリティー重視のユーザー層を取り込む為のネットワーク通信のアプローチAmazon Web Services Japan
 
パッケージソフトウェアを簡単にSaaS化!?既存の資産を使ったSaaS化手法のご紹介
パッケージソフトウェアを簡単にSaaS化!?既存の資産を使ったSaaS化手法のご紹介パッケージソフトウェアを簡単にSaaS化!?既存の資産を使ったSaaS化手法のご紹介
パッケージソフトウェアを簡単にSaaS化!?既存の資産を使ったSaaS化手法のご紹介Amazon Web Services Japan
 
202202 AWS Black Belt Online Seminar Amazon Connect Customer Profiles
202202 AWS Black Belt Online Seminar Amazon Connect Customer Profiles202202 AWS Black Belt Online Seminar Amazon Connect Customer Profiles
202202 AWS Black Belt Online Seminar Amazon Connect Customer ProfilesAmazon Web Services Japan
 
Amazon Game Tech Night #24 KPIダッシュボードを最速で用意するために
Amazon Game Tech Night #24 KPIダッシュボードを最速で用意するためにAmazon Game Tech Night #24 KPIダッシュボードを最速で用意するために
Amazon Game Tech Night #24 KPIダッシュボードを最速で用意するためにAmazon Web Services Japan
 
202202 AWS Black Belt Online Seminar AWS SaaS Boost で始めるSaaS開発⼊⾨
202202 AWS Black Belt Online Seminar AWS SaaS Boost で始めるSaaS開発⼊⾨202202 AWS Black Belt Online Seminar AWS SaaS Boost で始めるSaaS開発⼊⾨
202202 AWS Black Belt Online Seminar AWS SaaS Boost で始めるSaaS開発⼊⾨Amazon Web Services Japan
 
[20220126] JAWS-UG 2022初頭までに葬ったAWSアンチパターン大紹介
[20220126] JAWS-UG 2022初頭までに葬ったAWSアンチパターン大紹介[20220126] JAWS-UG 2022初頭までに葬ったAWSアンチパターン大紹介
[20220126] JAWS-UG 2022初頭までに葬ったAWSアンチパターン大紹介Amazon Web Services Japan
 
202111 AWS Black Belt Online Seminar AWSで構築するSmart Mirrorのご紹介
202111 AWS Black Belt Online Seminar AWSで構築するSmart Mirrorのご紹介202111 AWS Black Belt Online Seminar AWSで構築するSmart Mirrorのご紹介
202111 AWS Black Belt Online Seminar AWSで構築するSmart Mirrorのご紹介Amazon Web Services Japan
 

Mais de Amazon Web Services Japan (20)

202205 AWS Black Belt Online Seminar Amazon VPC IP Address Manager (IPAM)
202205 AWS Black Belt Online Seminar Amazon VPC IP Address Manager (IPAM)202205 AWS Black Belt Online Seminar Amazon VPC IP Address Manager (IPAM)
202205 AWS Black Belt Online Seminar Amazon VPC IP Address Manager (IPAM)
 
202205 AWS Black Belt Online Seminar Amazon FSx for OpenZFS
202205 AWS Black Belt Online Seminar Amazon FSx for OpenZFS202205 AWS Black Belt Online Seminar Amazon FSx for OpenZFS
202205 AWS Black Belt Online Seminar Amazon FSx for OpenZFS
 
202204 AWS Black Belt Online Seminar AWS IoT Device Defender
202204 AWS Black Belt Online Seminar AWS IoT Device Defender202204 AWS Black Belt Online Seminar AWS IoT Device Defender
202204 AWS Black Belt Online Seminar AWS IoT Device Defender
 
Infrastructure as Code (IaC) 談義 2022
Infrastructure as Code (IaC) 談義 2022Infrastructure as Code (IaC) 談義 2022
Infrastructure as Code (IaC) 談義 2022
 
202204 AWS Black Belt Online Seminar Amazon Connect を活用したオンコール対応の実現
202204 AWS Black Belt Online Seminar Amazon Connect を活用したオンコール対応の実現202204 AWS Black Belt Online Seminar Amazon Connect を活用したオンコール対応の実現
202204 AWS Black Belt Online Seminar Amazon Connect を活用したオンコール対応の実現
 
202204 AWS Black Belt Online Seminar Amazon Connect Salesforce連携(第1回 CTI Adap...
202204 AWS Black Belt Online Seminar Amazon Connect Salesforce連携(第1回 CTI Adap...202204 AWS Black Belt Online Seminar Amazon Connect Salesforce連携(第1回 CTI Adap...
202204 AWS Black Belt Online Seminar Amazon Connect Salesforce連携(第1回 CTI Adap...
 
Amazon Game Tech Night #25 ゲーム業界向け機械学習最新状況アップデート
Amazon Game Tech Night #25 ゲーム業界向け機械学習最新状況アップデートAmazon Game Tech Night #25 ゲーム業界向け機械学習最新状況アップデート
Amazon Game Tech Night #25 ゲーム業界向け機械学習最新状況アップデート
 
20220409 AWS BLEA 開発にあたって検討したこと
20220409 AWS BLEA 開発にあたって検討したこと20220409 AWS BLEA 開発にあたって検討したこと
20220409 AWS BLEA 開発にあたって検討したこと
 
202202 AWS Black Belt Online Seminar AWS Managed Rules for AWS WAF の活用
202202 AWS Black Belt Online Seminar AWS Managed Rules for AWS WAF の活用202202 AWS Black Belt Online Seminar AWS Managed Rules for AWS WAF の活用
202202 AWS Black Belt Online Seminar AWS Managed Rules for AWS WAF の活用
 
202203 AWS Black Belt Online Seminar Amazon Connect Tasks.pdf
202203 AWS Black Belt Online Seminar Amazon Connect Tasks.pdf202203 AWS Black Belt Online Seminar Amazon Connect Tasks.pdf
202203 AWS Black Belt Online Seminar Amazon Connect Tasks.pdf
 
SaaS テナント毎のコストを把握するための「AWS Application Cost Profiler」のご紹介
SaaS テナント毎のコストを把握するための「AWS Application Cost Profiler」のご紹介SaaS テナント毎のコストを把握するための「AWS Application Cost Profiler」のご紹介
SaaS テナント毎のコストを把握するための「AWS Application Cost Profiler」のご紹介
 
Amazon QuickSight の組み込み方法をちょっぴりDD
Amazon QuickSight の組み込み方法をちょっぴりDDAmazon QuickSight の組み込み方法をちょっぴりDD
Amazon QuickSight の組み込み方法をちょっぴりDD
 
マルチテナント化で知っておきたいデータベースのこと
マルチテナント化で知っておきたいデータベースのことマルチテナント化で知っておきたいデータベースのこと
マルチテナント化で知っておきたいデータベースのこと
 
機密データとSaaSは共存しうるのか!?セキュリティー重視のユーザー層を取り込む為のネットワーク通信のアプローチ
機密データとSaaSは共存しうるのか!?セキュリティー重視のユーザー層を取り込む為のネットワーク通信のアプローチ機密データとSaaSは共存しうるのか!?セキュリティー重視のユーザー層を取り込む為のネットワーク通信のアプローチ
機密データとSaaSは共存しうるのか!?セキュリティー重視のユーザー層を取り込む為のネットワーク通信のアプローチ
 
パッケージソフトウェアを簡単にSaaS化!?既存の資産を使ったSaaS化手法のご紹介
パッケージソフトウェアを簡単にSaaS化!?既存の資産を使ったSaaS化手法のご紹介パッケージソフトウェアを簡単にSaaS化!?既存の資産を使ったSaaS化手法のご紹介
パッケージソフトウェアを簡単にSaaS化!?既存の資産を使ったSaaS化手法のご紹介
 
202202 AWS Black Belt Online Seminar Amazon Connect Customer Profiles
202202 AWS Black Belt Online Seminar Amazon Connect Customer Profiles202202 AWS Black Belt Online Seminar Amazon Connect Customer Profiles
202202 AWS Black Belt Online Seminar Amazon Connect Customer Profiles
 
Amazon Game Tech Night #24 KPIダッシュボードを最速で用意するために
Amazon Game Tech Night #24 KPIダッシュボードを最速で用意するためにAmazon Game Tech Night #24 KPIダッシュボードを最速で用意するために
Amazon Game Tech Night #24 KPIダッシュボードを最速で用意するために
 
202202 AWS Black Belt Online Seminar AWS SaaS Boost で始めるSaaS開発⼊⾨
202202 AWS Black Belt Online Seminar AWS SaaS Boost で始めるSaaS開発⼊⾨202202 AWS Black Belt Online Seminar AWS SaaS Boost で始めるSaaS開発⼊⾨
202202 AWS Black Belt Online Seminar AWS SaaS Boost で始めるSaaS開発⼊⾨
 
[20220126] JAWS-UG 2022初頭までに葬ったAWSアンチパターン大紹介
[20220126] JAWS-UG 2022初頭までに葬ったAWSアンチパターン大紹介[20220126] JAWS-UG 2022初頭までに葬ったAWSアンチパターン大紹介
[20220126] JAWS-UG 2022初頭までに葬ったAWSアンチパターン大紹介
 
202111 AWS Black Belt Online Seminar AWSで構築するSmart Mirrorのご紹介
202111 AWS Black Belt Online Seminar AWSで構築するSmart Mirrorのご紹介202111 AWS Black Belt Online Seminar AWSで構築するSmart Mirrorのご紹介
202111 AWS Black Belt Online Seminar AWSで構築するSmart Mirrorのご紹介
 

20180619 AWS Black Belt Online Seminar データレイク入門: AWSで様々な規模のデータレイクを分析する効率的な方法

  • 1. © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. アマゾン ウェブ サービス ジャパン株式会社 ソリューションアーキテクト 川村誠 2018.06.19 【AWS Black Belt Online Seminar】 データレイク入門: AWS で様々な規模のデータレイクを分析する 効率的な方法
  • 2. © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. 自己紹介 ❏ 名前 川村 誠 (かわむら まこと) ❏ 所属 アマゾン ウェブ サービス ジャパン 株式会社 技術統括本部 ストラテジックソリューション本部 ソリューション アーキテクト ❏ 好きな AWS サービス ❖ Amazon EMR ❖ Amazon ECS ❖ Amazon SageMaker
  • 3. © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. 内容についての注意点 • 本資料では2018年6月19日時点のサービス内容および価格についてご説明しています。最新の情報は AWS公式ウェブサイト(http://aws.amazon.com)にてご確認ください。 • 資料作成には十分注意しておりますが、資料内の価格とAWS公式ウェブサイト記載の価格に相違が あった場合、AWS公式ウェブサイトの価格を優先とさせていただきます。 • 価格は税抜表記となっています。日本居住者のお客様が東京リージョンを使用する場合、別途消費 税をご請求させていただきます。 • AWS does not offer binding price quotes. AWS pricing is publicly available and is subject to change in accordance with the AWS Customer Agreement available at http://aws.amazon.com/agreement/. Any pricing information included in this document is provided only as an estimate of usage charges for AWS services based on certain information that you have provided. Monthly charges will be based on your actual use of AWS services, and may vary from the estimates provided.
  • 4. © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. 本セミナーの概要 ❏ 本セミナーで学習できること ❖ データレイクのデータを自動的/効率的に分析可能にする方法 ❖ データレイクと DWH のデータを効率的に分析する方法 ❏ 対象者 ❖ データ運用業務に関わるエンジニア、アナリスト、アーキテクトの方 ❖ DWH・DB Administrator の方 ❖ 次の AWS のサービスの概要レベルの知識が前提になります。 Amazon S3 / AWS Glue / Amazon Redshift など
  • 5. © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Agenda ❏ データチャレンジ&データレイク ❏ データレイクのデータを自動的/効率的に分析可能に する方法 ❏ データレイクとデータウェアハウスに入っている様々 な規模のデータを効率的に分析する方法
  • 6. © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. データチャレンジ&データレイク
  • 7. © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. データチャレンジ 複数のデータ消費者とアプリケーション データの種類とデータ量が急増している データを集め、理解 し、データから価値 を見出す 新しい洞察をデータ からすばやく抽出し、 ビジネスを加速する
  • 8. © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. 何が新しいチャレンジなのか? Web and mobile data Logs Social Media data Streaming data IOT data Spreadsheets Structured data Unstructured and Semi-structured data ダークデータ
  • 9. © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. ダークデータチャレンジ Data Volume ダークデータ 1990 2000 2010 2020 Generated Data Available for Analysis 生成データ 分析に利用可能なデータ
  • 10. © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. 複数のデータ消費者と複数の要件 Analysts Business Users Applications Agile Real time Flexible Scale データの複製が生成されてしまう! Data Scientists
  • 11. © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. 伝統的なデータウェアハウス リレーショナルデータ テラバイト〜ペタバイト規模 データロード前に定義される スキーマ 運用報告やアドホック分析OLTP ERP CRM LOB Data Warehouse Business Intelligence
  • 12. © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. データウェアハウスを拡張するデータレイク リレーショナルと非リレーショナル データ テラバイト〜エクサバイト規模 分析中に定義するスキーマ (Schema on Read) インサイトを得るための多様な分析 エンジン 低コストストレージと分析用に設計 OLTP ERP CRM LOB Data Warehouse Business Intelligence Data Lake 1001100001001010111 0010101011100101010 0001011111011010 0011110010110010110 0100011000010 Devices Web Sensors Social Data Catalog Machine Learning DW Queries Big data processing Interactive Real-time
  • 13. © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. データレイク on AWS データを取り込む様々な方法 エクサバイト規模での冗長性と可用性 セキュリティ、コンプライアンス、監査 同一データに対して移動無しでどんな 分析も実行可能 バラバラに拡張可能なストレージと計算 リソース 保存:0.025USD / GB-month ※ クエリ: 0.005USD / GB scanned Snowball Snowmobile Kinesis Data Firehose Kinesis Data Streams Amazon S3 AWS Glue Redshift EMR Athena Kinesis Elasticsearch Service ※東京リージョン 6/19時点の価格
  • 14. © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. データレイクとは何か? どんな規模のデータも低コス トで全て収集し、保存するこ とが可能 データを配置し、価値を与え、 セキュアに守ることが可能 組織内のデータへの民主化さ れたアクセスを提供する すばやく、簡単に新しいデー タ分析形式を実行可能
  • 15. © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. データレイクの利点 どんな規模のデータ も低コストで全て収 集し、保存すること が可能 信頼できる唯一の情 報源(single source of truth)を持つことで、 すばやく検索し、関 連データを見つける ことが可能 統一されたツール郡 を使用し、データを 簡単にクエリ可能
  • 16. © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. 欠けている部品 分析ツールとの統合> メタデータを自動的に構築し、進化するデータに 合わせてメタデータを同期する方法 > 格納場所に関係なくデータへの統合されたビュー>
  • 17. © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. データレイクのデータを自動的/効率的に 分析可能にする方法  AWS Glue
  • 18. © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. AWS Glue とは何か? 様々なデータソース間でデータをクレンジングし、リッチ化し、 確実に移動するコードが生成される。このコードを簡単にカスタ マイズしたり、独自のコードを持ち込むことが可能 開発 サーバーレスで完全に管理されたスケールする環境でジョブが実 行される。プロビジョニングまたは管理するための計算リソース は必要ない 展開 自動的にデータを発見して分類することで、様々なデータソース をまたいだ検索と参照がすぐに実行可能に発見
  • 19. © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. AWS Glue 構成要素 発見 Apache Hive メタデータ ストア互換 AWSサービスと統合され ている 自動的にクローリング 開発 PySpark・Scalaに対応 したETLコードを自動 的に生成する 編集、デバッグ、共有 可能 展開 サーバレスで実行可能 柔軟なスケジューリング モニタリングとアラート 実施可能 Data Catalog Job Authoring Job Execution
  • 20. © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. AWS Glue Data Catalog とは何か? 統合されたメタデータリポジトリ リレーショナル・データベース、Amazon RDS、Amazon Redshift、 Amazon S3 に至る(…対応製品は今後も増える予定!)まで ❏ データがどこに保存されているとしても単一のView を取得可能 ❏ 検索可能な1つの中央リスト内にデータを自動的に分類する ❏ スキーマを版管理することでデータの変化を追跡する ❏ Amazon Athena もしくはAmazon Redshift Spectrum を利用して データを参照する ❏ Apache Hive metastore 互換なので、Amazon EMR で実行する アプリケーションの外部メタストアとして利用可能
  • 21. © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. データレイク on Amazon S3 with AWS Glue On premises data Web app data Amazon RDS Other databases Streaming data Your data AMAZON QUICKSIGHT AWS GLUE ETL
  • 22. © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Glue Data Catalog をセットアップする方法 手動でテーブルを生成する Hive DDL でテーブルを生成する Glue のテーブル生成API を利用する
  • 23. © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Glue Data Catalog を構築するより簡単な方法 1. データが保存されている場所を指定する 2. アップデートを確認する頻度を指定する これだけで、Data Catalog を検索と参照に利用する準備が完了です!
  • 24. © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Crawlerとは何か? Crawler は自動的に Data Catalog を構築し、最新状態を維持する ❏ 様々なデータストアに保存されているデータをスキャンし、メタデータ とデータの統計量を抽出し、Data Catalog にテーブル定義を追加 ❖ 組み込み/カスタム classifier を利用して、データを分類 ❖ Grok 式を利用して独自の classifier を定義することができる ❏ 新しいデータを発見し、スキーマ定義を抽出 ❖ スキーマの変化を検出し、テーブルのバージョンを更新する ❖ Amazon S3 にあるデータから Hive 形式のパーティションを検出する ❏ 要求に応じて、もしくは、スケジュールに基づいて実行 ❖ サーバーレスなので、Crawler が実行されたときだけ課金される
  • 25. © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Glue Data Catalog 内のテーブル Nested fields テーブル属性 データ統計量 テーブルスキーマ
  • 26. © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. どの様にデータが分類されるのか? Crawler はデータをスキャンするときにデータに対して classifier の集合を 適用し、結果、テーブルとしてメタデータを DataCatalog に追加する ❏ classifier はデータのフォーマットを認識し、スキーマを生成 ❏ classifier が返却する分類に合っているかどうかを示す確からしさの値 (0.0 〜 1.0) を元に、Crawler は分類できたかどうかを判断 ❏ 順序付けられた classifier の集合をCrawler にセット、Crawler はマッチす るまで、提供された順に classifier を実行する ❏ Glue はクロールの際に組込済みの classifier を利用できるだけでなく、独 自のカスタム classifier を定義することも可能!
  • 27. © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Crawler が分類できるものは何か? IAM Role Glue Crawler Data Lakes Data Warehouse Databases Amazon RDS Amazon Redshift Amazon S3 JDBC Connection Object Connection Built-In Classifiers MySQL MariaDB PostreSQL Oracle Microsoft SQL Server Amazon Aurora Amazon Redshift Avro Parquet ORC XML JSON & BSON Logs (Apache (Grok), Linux(Grok), MS(Grok), Ruby, Redis, and many others) Delimited (comma, pipe, tab, semicolon) Compressions (ZIP, BZIP, GZIP, LZ4, Snappy) カスタム classifier を 追加可能
  • 28. © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. カスタム classifier を定義する方法 ❏ Grok パタンと一致したスキーマに割 り当てる分類ラベルを設定すること で、独自のカスタム classifier を定義 することが可能 ❏ Grokパターンは、一度に1行ずつ データを照合するために使用される 正規表現の名前付き集合 ❏ Example: %{TIMESTAMP_ISO8601:timestamp} ¥[%{MESSAGEPREFIX:message_prefix}¥] % {CRAWLERLOGLEVEL:loglevel} : %{ GREEDYDATA:message}
  • 29. © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. カスタム classifier 1. カスタム classifier を定義する 2. Crawler にカスタム classifier を追加する
  • 30. © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Crawlers: 自動的にスキーマを推測する semi-structured unified schema enumerate S3 objects file 1 file 2 file N … struct char bool int int array char int identify file type and parse files custom classifiers Grok based parser built-in classifiers JSON parser CSV parser Parquet parser … semi-structured per-file schema intchar struct char int arraychar int array intbool
  • 31. © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. スキーマの類似度の検出 name: str id: num Schema A root addr street: str city: str zip: num name: str id: num Schema B root addr: str Schema similarity heuristic  名前が一致したら +1 point  データ型が一致したら +1 point  sim > 0.7 だったらマッチ 7 8 .875 intersection min(A,B) sim  マッチ!
  • 32. © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. 自動パーティション検出 利用可能なパーティション
  • 33. © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. パーティションを検出する仕組み テーブル定義S3 バケット階層構造 半構造化ログ/スキーマの進化を処理するために、各レベルの ファイル間のスキーマ類似性を見積る
  • 34. © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. 自動スキーマ版管理 データが進化すると自動的にテーブルのバージョンが更新される
  • 35. © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. メタデータの Import/Export Apache Hive Metastore Apache Hive Metastore Import from an external metastore Export to an external metastore AWS GLUE ETL AWS GLUE ETL AWS GLUE DATA CATALOG import/export ETL スクリプト https://github.com/awslabs/aws-glue-samples/tree/master/utilities/Hive_metastore_migration
  • 36. © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. データレイクのデータが AWS Glue によって、 自動的/効率的に分析可能に ・・・その次は?
  • 37. © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. データをすばやく発見する 検索結果を保存し、後から参照可能 テーブル属性でのフィルタリング、もしくは、 キーワード検索を実行可能 Amazon Athena でデータ参照可能(Amazon Athena へのショートカット)
  • 38. © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. 異なるエンジンで同じデータを分析する
  • 39. © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Amazon Athena セットアップにコスト は不要、Amazon S3 を 指定するだけですぐに データにクエリを実行 可能 クエリ課金/データ圧縮、 パーティショニング、列 指向フォーマットを利用 することで、 1 クエリあ たりの料金を 30~90% 節 約とパフォーマンスの向 上が可能 ANSI SQL 準拠のイ ンタフェース、 JDBC/ODBC ドライ バ、標準データ フォーマット、圧 縮、そして、 複雑 な join 処理に対応 サーバレスで、サーバ の設定や管理は不要、 Amazon QuickSight (BI) と統合されている ❏ 標準 SQL を使用してAmazon S3 でデータを分析するインタラクティブなクエリサービス ❏ 設定または管理するインフラはなく、ロードするデータもない SQL Query Instantly Pay per query Open Easy $
  • 40. © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Amazon EMR リリース後30日以 内に最新のオープ ンソースフレーム ワークで更新 秒課金、EC2スポット インスタンス、リザー ブドインスタンス、 オートスケーリングを 利用した柔軟な課金体 系でコストを50-80% 削減可能 Amazon S3 に構築し たデータレイクの データを EMRFSコ ネクタによるハイ パフォーマンスで 直接、セキュアに 処理可能 数分で完全マネージド なApache Hadoop & Apache Spark を起動可 能。クラスタセット アップ、ノードプロビ ジョニング、クラスタ チューニング不要 ❏ 20 のオープンソースプロジェクトによるスケーラブルな分析と機械学習が可能 ❏ Apache Spark、Apache Hive、Presto 用に AWS Glue Data Catalog と統合 ❏ エンタープライズグレードのセキュリティ $ Latest versions Low cost Use S3 storage Easy Data Lake 100110000100101011100 1010101110010101000 00111100101100101 010001100001
  • 41. © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Amazon Redshift Spectrum ❏ S3 データレイクにデータウェアハウスを拡張する S3 data lakeAmazon Redshift data Amazon Redshift Spectrum query engine S3 に対してエクサバイトクラスのAmazon Redshift SQL クエリを実行可能 Redshift と S3 をまたいだデータ結合 計算リソースとストレージを別々にスケール 可能 安定したクエリのパフォーマンスと無制限の 同時実行性 Parquet, ORC, Grok, Avro, CSV などのフォー マットに対応 スキャンしたデータ量に対するクエリ課金
  • 42. © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. データレイクとデータウェアハウス に入っている様々な規模のデータを 効率的に分析する方法  Amazon Redshift Spectrum
  • 43. © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Amazon Redshift – Data Warehousing I/O 効率を向上させ る列指向ストレージ テクノロジーの使用、 および、複数ノード 間のクエリ並列化に より、高速クエリパ フォーマンスを実現 最新 SSD 上で最適化さ れたデータフォーマッ ト、Amazon S3 にある 全てのオープンデータ フォーマットを分析可 能 すべてを監査; デー タをエンドツーエ ンドで暗号化; 豊富 な認定とコンプラ イアンス 年間 1 テラバイトあ たりわずか 1,000 USD。ウェアハウス ソリューションのコ ストを従来の 1/10 に抑えることが可能 ❏ 1/10 のコストで、高速で、強力で、シンプルで、完全に管理されたデータウェアハウス ❏ 大規模並列、ギガバイトからペタバイトまで拡大 $ Fast at any scale InexpensiveOpen file formats Secure
  • 44. © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Amazon Redshift Spectrum (再掲) ❏ S3 データレイクにデータウェアハウスを拡張する S3 data lakeAmazon Redshift data Amazon Redshift Spectrum query engine S3 に対してエクサバイトクラスのAmazon Redshift SQL クエリを実行可能 Redshift と S3 をまたいだデータ結合 計算リソースとストレージを別々にスケール 可能 安定したクエリのパフォーマンスと無制限の 同時実行性 Parquet, ORC, Grok, Avro, CSV などのフォー マットに対応 スキャンしたデータ量に対するクエリ課金
  • 45. © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Amazon Redshift Spectrum アーキテクチャ Load Unload Backup Restore SQL Clients/BI Tools 128GB RAM 16TB disk 16 cores JDBC/ODBC 128GB RAM 16TB disk 16 cores Compute Node 128GB RAM 16TB disk 16 cores Compute Node 128GB RAM 16TB disk 16 cores Compute Node Leader Node Amazon S3 ... 1 2 3 4 N Amazon Redshift Spectrum 超並列、共有なしの列指向アーキテクチャ ❏ Leader Node ❖ SQL エンドポイント ❖ メタデータを保存 ❖ 並列クエリ処理をコーディネート ❏ Compute Node ❖ ローカル列指向ストレージ ❖ 並列にクエリを実行 ❖ データの load / unload / backup / restore ❏ Amazon Redshift Spectrum Node ❖ Amazon S3 に対して直接クエリを実行 ❖ Redshift Spectrum は数千インスタンスにま で自動的に拡張し、エクサバイトのデータ に対してさえもクエリは高速に動作
  • 46. © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Amazon Redshift Spectrum クエリ実行の流れ Amazon Redshift JDBC/ODBC ... 1 2 3 4 N Amazon S3 Exabyte-scale object storage Data Catalog Apache Hive Metastore 1 クエリーを投入 SELECT COUNT(*) FROM S3.EXT_TABLE GROUP BY… 2 ❖ クエリーはリーダーノード上でオプティマイズされ、 コンパイル ❖ どのデータをローカルストレージから得て、どれを Spectrum 層にリクエストするかを決定 3 クエリープランを全コンピュートノードに送信 4 コンピュートノードは Data Catalog からパー ティション情報を取得 (Dynamically prune partitions) 5 各コンピュートノードは、Amazon Redshift Spectrum 層に対して複数のリクエストを送信 6 Amazon Redshift Spectrum層のノードがS3 のデータをスキャン 7 Amazon Redshift Spectrum 層でデータの射影、フィ ルタ、ジョイン、アグリ ゲーションを実行 8 Amazon Redshiftクラスター内で、 ローカルディスク上とのジョイン や最終的なアグリゲーションが 実行される 9 結果がクライアントに戻される
  • 47. © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. データレイクアーティファクトの定義 (Schema on Read) Data Catalog を利用して Amazon Redshift に外部スキーマを定義する CREATE external schema archived_trips from data catalog database 'sampledb' iam_role 'arn:aws:iam::123456789012:role/MySpectrumRole' region 'us-east-2’; 外部スキーマを参照する select * from svv_external_schemas 外部テーブルを参照する select * from svv_external_tables
  • 48. © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. 権限設定 ❏Amazon Redshift は AWS Glue にある Data Catalog と Amazon S3 にあるデー タファイルにアクセスするための権限を必要とする ❏権限を与えるため、まず最初にAWS Identity and Access Management (IAM) ロールを生成する必要がある ❏それから、クラスターにロールをアタッチし、Amazon Redshift の 外 部スキーマ生成文の中で、ARN(Amazon Resource Name) を ロールに 指定する
  • 49. © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. データレイク on Amazon S3 with AWS Glue (再掲) On premises data Web app data Amazon RDS Other databases Streaming data Your data AMAZON QUICKSIGHT AWS GLUE ETL
  • 50. © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. データレイクとデータウェアハウスに入ってい る様々な規模のデータを Redshift Spectrum を利用して効率的に分析可能 ・・・ベストプラクティスは?
  • 51. © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. ベストプラクティス - 1 / 5 Amazon Redshift Spectrum を使用して、スキャン集約的な 同時作業負荷を改善する ❏Redshift Spectrum は、利用している Redshift クラスターとは独立した 専用のサーバー群にある ❏フィルター処理や集約処理といった、多くのコンピュートインテンシブ な処理を Redshift Spectrum 層で行うことで、クエリが使用する Redshift クラスターの処理キャパシティが大きく削減される
  • 52. © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. ベストプラクティス - 2 / 5 クエリはデータレイクを最適化する – Apache Parquet を使う ❏ Apache Parquet は、データ処理フレームワークやデータモデル、プログラミ ング言語に依らず利用可能な列指向フォーマット ❏ SVL_S3QUERY_SUMMARY テーブルを調べることで、パーティション分けさ れた Parquet ファイルを使う際の、S3 に関する様々な興味深いメトリクスを 確認できる ❏ 特に s3_scanned_rows と s3query_returned_rows という 2 つのメトリクスに注 目してみると、CSV ファイルを処理するときと比べて、Redshift Spectrum か ら Redshift クラスターに送られるデータ総量が驚異的に削減されていること がわかる
  • 53. © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. ベストプラクティス - 3 / 5 クエリはデータレイクを最適化する – Parquet ファイルでパーティションする ❏ 次のSQLは、パーティションプルーニングの有効性を分析する ❏ クエリが少数のパーティションにしか触れない場合は、すべてが 期待通りに動作しているかどうかを確認できる: SELECT query, segment, max(assigned_partitions) as total_partitions, max(qualified_partitions) as qualified_partitions FROM svl_s3partitionWHERE query=<Query-ID> GROUP BY 1,2;
  • 54. © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. ベストプラクティス - 4 / 5 データレイクに投入するクエリを最適化する ❏ Amazon Redshift Spectrum クエリの同時実行性能は、以下の 2 つの レベルで制御可能 ❖クエリレベル(クエリごと 1 スライスにつき最大 10 の同時実行数) • いくつのクエリが同時に実行されているかによって、同時実行数が変わる • 割りあてられた同時実行数によって、S3 をスキャンするスレッド数が制限される ❖ノードレベル(ノード上で動作するすべての S3 をスキャンするクエリに適 用される。ノードタイプによって数が異なる) • より大きなノードタイプを選択するほど、上限数も高くなる
  • 55. © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. ベストプラクティス - 5 / 5 Predicate pushdown によるデータレイククエリの パフォーマンスの向上 ❏ AmazonのRedshift Spectrumレイヤーにプッシュダウンできる特定の SQL 操作があるので、可能であれば、これらの機能を利用する 例): ❖GROUP BY 句やいくつかの文字列関数 ❖等価述語や LIKE のようなパターンマッチ条件 ❖COUNT/SUM/AVG/MIN/MAX/その他多くの共通集約関数 ❖Regex_replace 等の関数
  • 56. © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. ベストプラクティス - 5 / 5 (Cont.) Predicate pushdown によるデータレイククエリの パフォーマンスの向上 ❏ DISTINCT や ORDER BY のような特定の SQL 操作は、Amazon Redshift Spectrum にプッシュダウンできないため、Amazon Redshift で実行され る。それらの使用を最小限に抑え、できるだけ使用を避ける 例): ❖ DISTINCT を GROUP BY で置き換える
  • 57. © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Amazon Redshift Spectrum 10 のベストプラクティス https://aws.amazon.com/jp/blogs/news/10-best-practices-for-amazon-redshift-spectrum/
  • 58. © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. まとめ
  • 59. © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. まとめ ❏データレイクにデータを集め始めてから直面する課題の 解決に利用可能な2つの方法 1. データレイクのデータを自動的/効率的に分析可能にする方法  AWS Glue 2. データレイクとデータウェアハウスに入っている様々な規模の データを効率的に分析する方法  Amazon Redshift Spectrum
  • 60. © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Data Lake on AWS データレイクがビッグデータ ストレージソリューションと して最大限の柔軟性を提供! https://d1.awsstatic.com/white papers/Storage/data-lake-on- aws.pdf Snowball Snowmobile Kinesis Data Firehose Kinesis Data Streams Amazon S3 AWS Glue Redshift EMR Athena Kinesis Elasticsearch Service
  • 61. © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. 参考資料 ❏ AWS Glue ❖ https://aws.amazon.com/jp/glue/ ❏ AWS Glue ドキュメント ❖ https://aws.amazon.com/jp/glue/details/ ❏ AWS Glue 開発者用リソース ❖ https://aws.amazon.com/jp/glue/developer-resources/ ❏ Amazon Redshift ❖ https://aws.amazon.com/jp/redshift/ ❏ Amazon Redshift 開発者用リソース ❖ https://aws.amazon.com/jp/redshift/developer-resources/
  • 62. © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. AWS オンラインセミナースケジュール AWS オンラインセミナースケジュールは以下より確認できます https://amzn.to/JPWebinar
  • 63. © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. 公式Twitter/Facebook AWSの最新情報をお届けします @awscloud_jp 検索 最新技術情報、イベント情報、お役立ち情報、 お得なキャンペーン情報などを日々更新しています! もしくは http://on.fb.me/1vR8yWm
  • 64. © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. AWSの導入、お問い合わせのご相談 AWSクラウド導入に関するご質問、お見積、資料請求をご希望のお客様は以下 のリンクよりお気軽にご相談下さい。 https://aws.amazon.com/jp/contact-us/aws-sales/ ※「AWS 問い合わせ」で検索して下さい。
  • 65. © 2018, Amazon Web Services, Inc. or its Affiliates. All rights reserved. AWS Well Architected 個別技術相談会お知らせ • Well Architectedフレームワークに基づく数十個の質問項目を元に、お客様が AWS上で構築するシステムに潜むリスクやその回避方法をお伝えする個別相 談会です。 https://pages.awscloud.com/well-architected-consulting-jp.html • 参加無料 • 毎週火曜・木曜開催