SlideShare a Scribd company logo
Enviar pesquisa
Carregar
Entrar
Cadastre-se
【IVS CTO Night & Day】AWSにおけるビッグデータ活用
Denunciar
Amazon Web Services Japan
Seguir
Amazon Web Services Japan
20 de Dec de 2017
•
0 gostou
•
2,728 visualizações
1
de
78
【IVS CTO Night & Day】AWSにおけるビッグデータ活用
20 de Dec de 2017
•
0 gostou
•
2,728 visualizações
Baixar agora
Baixar para ler offline
Denunciar
Tecnologia
【IVS CTO Night & Day】AWSにおけるビッグデータ活用
Amazon Web Services Japan
Seguir
Amazon Web Services Japan
Recomendados
【IVS CTO Night & Day】AWS Cloud Security
Amazon Web Services Japan
3.1K visualizações
•
81 slides
【IVS CTO Night & Day】AWS re:Invent 2017 振り返り
Amazon Web Services Japan
2.8K visualizações
•
69 slides
【IVS CTO Night & Day】DevOps on AWS 2017
Amazon Web Services Japan
2.6K visualizações
•
20 slides
【IVS CTO Night & Day】Serverless & Mobile Updates
Amazon Web Services Japan
2.5K visualizações
•
28 slides
これからのクラウドネイティブアプリケーションの話をしよう
真吾 吉田
4.7K visualizações
•
76 slides
AWS re:Invent 2017 Security re:Cap Key Messages
Hayato Kiriyama
49.9K visualizações
•
19 slides
Mais conteúdo relacionado
Mais procurados
【IVS CTO Night & Day】IoT Solution
Amazon Web Services Japan
2.8K visualizações
•
40 slides
【IVS CTO Night & Day】Networking Technology
Amazon Web Services Japan
2.6K visualizações
•
11 slides
Introduction to New CloudWatch Agent
Noritaka Sekiyama
1.1K visualizações
•
26 slides
AWS re:Mind for CTOs
Amazon Web Services Japan
1.8K visualizações
•
71 slides
re:Port 2017 #2 「AWS re:Invent 2017 参加レポート」
Mamoru Ohashi
906 visualizações
•
32 slides
Scale Your Business without Servers
Keisuke Nishitani
2K visualizações
•
146 slides
Mais procurados
(20)
【IVS CTO Night & Day】IoT Solution
Amazon Web Services Japan
•
2.8K visualizações
【IVS CTO Night & Day】Networking Technology
Amazon Web Services Japan
•
2.6K visualizações
Introduction to New CloudWatch Agent
Noritaka Sekiyama
•
1.1K visualizações
AWS re:Mind for CTOs
Amazon Web Services Japan
•
1.8K visualizações
re:Port 2017 #2 「AWS re:Invent 2017 参加レポート」
Mamoru Ohashi
•
906 visualizações
Scale Your Business without Servers
Keisuke Nishitani
•
2K visualizações
Gaming cicd-pipeline gaming-technight-2
Amazon Web Services Japan
•
5.8K visualizações
[AWS Summit 2012] 基調講演 Day1: Go Global !
Amazon Web Services Japan
•
2.7K visualizações
AWS IoT Coreを オンプレミス環境と使う際の アーキテクチャ例 (AWS IoT Deep Dive #5)
Amazon Web Services Japan
•
1.9K visualizações
AWS の IoT 向けサービス
Amazon Web Services Japan
•
2K visualizações
Amazon guard duty_security_recap
Tomoaki Sakatoku
•
32.8K visualizações
Security re:Cap 2017
Kwiil Kang
•
25.3K visualizações
Amazon Web Services 最新事例集
SORACOM, INC
•
2.6K visualizações
Aws IoT Security101
Shogo Matsumoto
•
312 visualizações
Serverless backendformobilegame and_aws-appsync_gamingtechnight-2
Amazon Web Services Japan
•
5.6K visualizações
製造業向けSmart Factoryデモと 関連AWSサービスのご紹介
Amazon Web Services Japan
•
905 visualizações
成長していくサービスとAWS
Mitsuharu Hamba
•
1.6K visualizações
awsで実現するミッションクリティカル業務のクラウド利用 VIP編
Ken Sawada
•
1.9K visualizações
AWS IoT SiteWise のご紹介 (AWS IoT Deep Dive #5)
Amazon Web Services Japan
•
1.7K visualizações
AWS Black Belt Online Seminar 2018 AWS上の位置情報
Amazon Web Services Japan
•
7.9K visualizações
Similar a 【IVS CTO Night & Day】AWSにおけるビッグデータ活用
AWS初心者向けWebinar AWSでBig Data活用
Amazon Web Services Japan
15.4K visualizações
•
125 slides
ビックデータ最適解とAWSにおける新しい武器
Akihiro Kuwano
4.8K visualizações
•
52 slides
iOS/Androidにも対応した SQL Anywhere 12の魅力
nisobe58
7.1K visualizações
•
36 slides
Amazon Elastic MapReduce with Hive/Presto ハンズオン(講義)
Amazon Web Services Japan
18K visualizações
•
60 slides
IoTデザインパターン 2015 JAWS沖縄
Toshiaki Enami
8.2K visualizações
•
45 slides
[db tech showcase Tokyo 2017] AzureでOSS DB/データ処理基盤のPaaSサービスを使ってみよう (Azure Dat...
Naoki (Neo) SATO
1.8K visualizações
•
100 slides
Similar a 【IVS CTO Night & Day】AWSにおけるビッグデータ活用
(20)
AWS初心者向けWebinar AWSでBig Data活用
Amazon Web Services Japan
•
15.4K visualizações
ビックデータ最適解とAWSにおける新しい武器
Akihiro Kuwano
•
4.8K visualizações
iOS/Androidにも対応した SQL Anywhere 12の魅力
nisobe58
•
7.1K visualizações
Amazon Elastic MapReduce with Hive/Presto ハンズオン(講義)
Amazon Web Services Japan
•
18K visualizações
IoTデザインパターン 2015 JAWS沖縄
Toshiaki Enami
•
8.2K visualizações
[db tech showcase Tokyo 2017] AzureでOSS DB/データ処理基盤のPaaSサービスを使ってみよう (Azure Dat...
Naoki (Neo) SATO
•
1.8K visualizações
Amazon Redshift 概要 (20分版)
Amazon Web Services Japan
•
8.9K visualizações
クラウド上のデータ活用デザインパターン
Amazon Web Services Japan
•
7.3K visualizações
DLLAB Ignite Update Data Platform
Deep Learning Lab(ディープラーニング・ラボ)
•
420 visualizações
【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~
Developers Summit
•
5.9K visualizações
[日本DCの本命、大阪でWindows Azureを愛でる会] Windows Azure 概要 & 最新情報
Naoki (Neo) SATO
•
1.9K visualizações
2011-04-21 クラウド勉強会
Koichiro Doi
•
2.2K visualizações
現場開発者視点で答えるWindows Azure
Keiichi Hashimoto
•
1.7K visualizações
非公式PaaS勉強会~新宿d社会議室
Daisuke Masubuchi
•
3K visualizações
もうSQLとNoSQLを選ぶ必要はない!? ~両者を備えたスケールアウトデータベースGridDB~
griddb
•
245 visualizações
Microsoft Azure 概要 (2015 年 4 月版)
Osamu Monoe
•
6.5K visualizações
Growing up serverless
Amazon Web Services Japan
•
3.4K visualizações
ビッグデータやIoTシステムを支えるデータベース 『GridDB』
griddb
•
264 visualizações
20210127 AWS Black Belt Online Seminar Amazon Redshift 運用管理
Amazon Web Services Japan
•
4.4K visualizações
ビッグデータ処理データベースの全体像と使い分け - 2017年 Version -
Tetsutaro Watanabe
•
7K visualizações
Mais de Amazon Web Services Japan
202205 AWS Black Belt Online Seminar Amazon VPC IP Address Manager (IPAM)
Amazon Web Services Japan
7K visualizações
•
62 slides
Infrastructure as Code (IaC) 談義 2022
Amazon Web Services Japan
3.3K visualizações
•
21 slides
Amazon Game Tech Night #25 ゲーム業界向け機械学習最新状況アップデート
Amazon Web Services Japan
2K visualizações
•
52 slides
20220409 AWS BLEA 開発にあたって検討したこと
Amazon Web Services Japan
3.6K visualizações
•
28 slides
SaaS テナント毎のコストを把握するための「AWS Application Cost Profiler」のご紹介
Amazon Web Services Japan
4.1K visualizações
•
36 slides
マルチテナント化で知っておきたいデータベースのこと
Amazon Web Services Japan
8.1K visualizações
•
55 slides
Mais de Amazon Web Services Japan
(20)
202205 AWS Black Belt Online Seminar Amazon VPC IP Address Manager (IPAM)
Amazon Web Services Japan
•
7K visualizações
Infrastructure as Code (IaC) 談義 2022
Amazon Web Services Japan
•
3.3K visualizações
Amazon Game Tech Night #25 ゲーム業界向け機械学習最新状況アップデート
Amazon Web Services Japan
•
2K visualizações
20220409 AWS BLEA 開発にあたって検討したこと
Amazon Web Services Japan
•
3.6K visualizações
SaaS テナント毎のコストを把握するための「AWS Application Cost Profiler」のご紹介
Amazon Web Services Japan
•
4.1K visualizações
マルチテナント化で知っておきたいデータベースのこと
Amazon Web Services Japan
•
8.1K visualizações
機密データとSaaSは共存しうるのか!?セキュリティー重視のユーザー層を取り込む為のネットワーク通信のアプローチ
Amazon Web Services Japan
•
866 visualizações
パッケージソフトウェアを簡単にSaaS化!?既存の資産を使ったSaaS化手法のご紹介
Amazon Web Services Japan
•
810 visualizações
202201 AWS Black Belt Online Seminar Apache Spark Performnace Tuning for AWS ...
Amazon Web Services Japan
•
4.4K visualizações
20211209 Ops-JAWS Re invent2021re-cap-cloud operations
Amazon Web Services Japan
•
3.5K visualizações
20211203 AWS Black Belt Online Seminar AWS re:Invent 2021アップデート速報
Amazon Web Services Japan
•
15.1K visualizações
[AWS EXpert Online for JAWS-UG 18] 見せてやるよ、Step Functions の本気ってやつをな
Amazon Web Services Japan
•
5.5K visualizações
20211109 JAWS-UG SRE keynotes
Amazon Web Services Japan
•
2K visualizações
20211109 bleaの使い方(基本編)
Amazon Web Services Japan
•
2.2K visualizações
202110 AWS Black Belt Online Seminar AWS Site-to-Site VPN
Amazon Web Services Japan
•
7.8K visualizações
製造装置データ収集の選択肢 (AWS IoT Deep Dive #5)
Amazon Web Services Japan
•
834 visualizações
IoT@Loft#20 - IoTプラットフォームを進化さ せるAWSの活用方法
Amazon Web Services Japan
•
1.3K visualizações
202106 AWS Black Belt Online Seminar 小売現場のデータを素早くビジネス に活用するAWSデータ基盤
Amazon Web Services Japan
•
2.4K visualizações
03_AWS IoTのDRを考える
Amazon Web Services Japan
•
2.1K visualizações
02B_AWS IoT Core for LoRaWANのご紹介
Amazon Web Services Japan
•
1.7K visualizações
Último
2023情報処理学会関西支部大会-G12.pdf
KoseiShimoda1
113 visualizações
•
11 slides
遠征ドルヲタのための便利サイトを作ってみた
Kenta Fujimoto
91 visualizações
•
24 slides
拡散する画像生成.pdf
NTTDOCOMO-ServiceInnovation
226 visualizações
•
38 slides
ヒアラブルデバイスにおける音漏れ信号を用いた空中ジェスチャ認識
sugiuralab
83 visualizações
•
1 slide
PostgreSQLのバグとの付き合い方 ~バグの調査からコミュニティへの報告、修正パッチ投稿まで~(Open Source Conference 202...
NTT DATA Technology & Innovation
32 visualizações
•
44 slides
インフラチームとCCoEの関係.pptx
ssuser5c7ee4
72 visualizações
•
18 slides
Último
(13)
2023情報処理学会関西支部大会-G12.pdf
KoseiShimoda1
•
113 visualizações
遠征ドルヲタのための便利サイトを作ってみた
Kenta Fujimoto
•
91 visualizações
拡散する画像生成.pdf
NTTDOCOMO-ServiceInnovation
•
226 visualizações
ヒアラブルデバイスにおける音漏れ信号を用いた空中ジェスチャ認識
sugiuralab
•
83 visualizações
PostgreSQLのバグとの付き合い方 ~バグの調査からコミュニティへの報告、修正パッチ投稿まで~(Open Source Conference 202...
NTT DATA Technology & Innovation
•
32 visualizações
インフラチームとCCoEの関係.pptx
ssuser5c7ee4
•
72 visualizações
指側面を入力インタフェース化するリング型デバイス
sugiuralab
•
5 visualizações
MLOps Course Slides_JP(配布用).pdf
Yuya Yamamoto
•
245 visualizações
磁石内臓イヤリングによる磁力変化を利用したジェスチャ識別
sugiuralab
•
90 visualizações
CatBoost on GPU のひみつ
Takuji Tahara
•
982 visualizações
GraphQLはどんな時に使うか
Yutaka Tachibana
•
137 visualizações
骨抜きアジャイルの骨を生み出す 〜私(スクラムマスター)のXP学習記録〜(XP祭り2023 発表資料)
NTT DATA Technology & Innovation
•
321 visualizações
画像生成AIの問題点
iPride Co., Ltd.
•
127 visualizações
【IVS CTO Night & Day】AWSにおけるビッグデータ活用
1.
AWSにおけるビッグデータ活⽤
2.
⾃⼰紹介 桑野 章弘(くわの あきひろ) ソリューションアーキテクト 主にメディア系のお客様を担当しております。 元渋⾕のインフラエンジニア 好きなAWSのサービス:ElastiCache,
Route53 好きなデータストア:MongoDB
3.
Agenda ビッグデータの特性と活⽤の⼼構え AWSを使ったビッグデータ活⽤ 事例 AWS を活⽤した技術課題の解決 • ログ収集のベストプラクティス •
どのように ETL を⾏うか • アジャイルな分析クエリの実⾏ 3
4.
© 2017, Amazon
Web Services, Inc. or its Affiliates. All rights reserved. ビッグデータの特性と活⽤の⼼構え 4
5.
あらゆるものからデータが取れるように IoTデバイスやスマートフォン等から⼤量のログデー タが得られるようになってきた ⼤量データを扱うソフトウェア技術も⾶躍的に発展し てきている 今後も扱うデータ量は増え続けていき, 分析できることの幅も広がっていく 5
6.
6 今あるデータだけをみるのではなく 新しいデータも活⽤していけるように 広がりを持った仕組みづくり
7.
データ活⽤サイクルの特徴 活⽤して初めてみえてくることがたくさんある 試⾏錯誤を前提として,仮説検証サイクルを⾼速に回せる環境 づくり ときには新しいデータを取得したり,前処理したり,というと ころまでさかのぼる必要もある 活⽤法に合わせた適切な⼿法が選択できる必要性 7 最初から分析内容がすべてわかっていることはありえない
8.
データ活⽤は継続的な改善サイクル いろいろな試⾏錯誤して どんどん新しいものを作っていく
9.
AWSを使ったビッグデータ活⽤ 9
10.
ビッグデータ活⽤に適したAWSの特徴 10
11.
Amazon S3 Data Lake Amazon
Kinesis Streams & Firehose Hadoop / Spark Amazon Redshift Data Warehouse Amazon DynamoDB & ElastiCache NoSQL DB & Redis Relational Database Amazon EMR Amazon Aurora Amazon Machine Learning Machine Learning Any Open Source Tool of Choice on EC2 DataSources Amazon S3を中⼼としたデータレイク Clusterless SQL Query Amazon Athena TransactionalData
12.
Amazon S3 Data Lake Amazon
Kinesis Streams & Firehose Hadoop / Spark Amazon Redshift Data Warehouse Amazon DynamoDB & ElastiCache NoSQL DB & Redis Relational Database Amazon EMR Amazon Aurora Amazon Machine Learning Machine Learning Any Open Source Tool of Choice on EC2 DataSources Clusterless SQL Query Amazon Athena TransactionalData Amazon S3を中⼼としたデータレイク すべてのデータを1ヶ所に集めて保存 データストアとデータ処理の分離 ⽤途に応じた適切な処理⽅法の選択
13.
AWSのビッグデータサービス群 収集 前処理 分析
活用 Kinesis S3 EMR Glue EMR Redshift Amazon ML Athena QuickSight Amazon ESIoT
14.
AWSのアナリティクスサービス群 収集 前処理 分析
活用 Kinesis EMR Glue EMR Redshift Amazon ML Athena QuickSight Amazon ESS3 IoT
15.
Amazon S3 ⾼い耐久性と可⽤性を持つスケーラブルなオブジェクトストレージ • 99.999999999%の耐久性と,99.99%の 可⽤性を持つ設計 •
暗号化技術(SSE, CSE)にも対応し,安 全にデータを保存 • 利⽤したデータのぶんだけ従量課⾦ • 多くのAWSにとって仮想的なデータレイヤ
16.
Amazon Kinesis Amazon Kinesis Streams ストリームデータを 処理・分析するための データを格納 Amazon
Kinesis Firehose ストリームデータを S3, Redshift, ESに 簡単にロード Amazon Kinesis Analytics ストリーミングデータを 標準的なSQLクエリで 簡単に分析 ストリームデータを収集・処理・配信するためのマネージドサービス群
17.
AWS IoT • 特徴
(https://aws.amazon.com/jp/iot/) • デバイスとクラウドの双⽅向コミュニ ケーション • HTTP、MQTT、Websocketに対応 • SQLベースのルールとアクション定義 • AWSサービスとのシームレスな連携 • デバイス向けのSDK • 価格体系 (https://aws.amazon.com/jp/iot/pricing/) • 100万メッセージあたり$8(⽇本リー ジョン) • 無料利⽤枠利⽤は25万メッセージ/⽉ を(1年間) 簡単で安全なクラウドへのデバイス接続サービス 様々な産業での利⽤ アーキテクチャ図
18.
AWSのアナリティクスサービス群 収集 前処理 分析
活用 18 Kinesis EMR Glue EMR Redshift Amazon ML Athena QuickSight Amazon ESS3 IoT
19.
Amazon EMR • 低い運⽤コストでHadoopを使⽤ •
ジョブに応じてクラスタのリサイズが可能 • S3上のデータを直接読み込んでジョブを実 ⾏し,結果をS3に吐き出せる • Spark, Hive, Presto, Hbaseなどさまざま なHadoopエコシステムを利⽤可能 • ⼤規模データのETLや機械学習処理などの ワークロードに適している フルマネージドでスケーラブルなHadoopクラスタ
20.
AWS Glue • フルマネージドのデータカタログ
+ ETL サービス • さまざまなデータソースをカタログとして 管理して,バージョン管理やスキーマ更新を実施 • GUI 上で作成した ETL 処理フローから PySpark コードが⽣成され,必要に応じて加⼯編集するこ とも可能 • S3 に取り込んだログおよび RDS に格納された顧 客データに対して,前処理を⾏なって Redshift に 格納するようなワークロードに最適 データソースの把握・準備・データ格納を簡単で確実に
21.
AWSのアナリティクスサービス群 収集 前処理 分析
活用 21 Kinesis EMR Glue EMR Redshift Amazon ML Athena QuickSight Amazon ESS3 IoT
22.
Amazon Redshift • MPPアーキテクチャとカラムナの データ格納により,スケーラブルで ⾼速なクエリが実⾏可能 •
データストアを最⼤2PBまで拡張 • JDBC/ODBC経由でさまざまなBI ツールと連携 • Spectrum を使うことで,S3 上の データに対して直接クエリ可能に • BIツールと連携して,データウェア ハウスとして分析の中⼼に フルマネージドでスケーラブルなデータウェアハウスサービス Leader node Compute nodes SQL Client / BI Tools JDBC / ODBC Driver
23.
Amazon Athena 23 • フルマネージドで運⽤コストがかからない •
Prestoベースで標準SQLが実⾏可能 • ⾛らせたクエリのぶんだけ従量課⾦ • S3に貯めたWebサーバのログに対してク エリを投げてサービス障害の原因を探った り,⼿軽にアドホック分析をおこなう フルマネージドでS3上のデータに対してSQLクエリを実⾏
24.
Amazon Machine Learning フルマネージドの予測モデル
& API を提供 24 • 線形回帰,2項ロジスティック回帰,多項 ロジスティック回帰の3種類のアルゴリズ ムをサポート • Cross Validation や正則化,精度評価ま で含んでおり,簡単にモデル構築が可能 • 構築したモデルを使って,新しいデータを API経由で予測可能 • お⼿軽にシンプルな予測モデルをシステム に組み込んで利⽤できる
25.
AWSのアナリティクスサービス群 収集 前処理 分析
活用 25 Kinesis EMR Glue EMR Redshift Amazon ML Athena QuickSight Amazon ESS3 IoT
26.
Amazon QuickSight フルマネージドで使いやすいBIサービス • ハイパフォーマンスなデータ処理エンジン SPICEを持ち,⾼速に分析が可能 •
Redshift, RDS, S3, Athena, Salesforce, ローカルファイルなどさまざまなソースに 接続できる • フルマネージドでサーバの運⽤作業が不要 • AWSのデータソースをすばやく可視化し て,組織で共有
27.
Amazon Elasticsearch Service 27 フルマネージドで信頼性の⾼いスケーラブルなElasticsearchサービス •
Elasticsearch クラスタを数分で⽴ち上げ られ,APIコール1回で簡単にスケール • Logstash と Kibana が統合されており, Kinesis などから受け取った時系列データ を即座に可視化 • ストリームデータをお⼿軽にモニタリング する⽤途に最適
28.
© 2017, Amazon
Web Services, Inc. or its Affiliates. All rights reserved. Amazon Redshift
29.
Amazon Redshiftの概要 • クラウド上のDWH •
数クリックで起動 • 使った分だけの⽀払い • ⾼いパフォーマンス • ハイ・スケーラビリティ • ⾼い汎⽤性 • PostgreSQL互換のSQL • 多くのBIツールがサポート
30.
MPPとシェアードナッシングがスケールアウトの鍵 MPP : Massive
Parallel Processing • 1つのタスクを複数のノードで分散して実⾏する仕組み • Redshiftではリーダーノードがタスクをコンピュートノードに分 散して実⾏する • ノードを追加する(スケールアウト)でパフォーマンス向上可能 シェアードナッシング • ディスクをノードで共有しない構成 • ディスクを共有するとノード数が増えた時にボトルネックになる ため、それを回避 • ノードとディスクがセットで増えていく
31.
Redshiftの構成① SELECT * FROM lineitem; リーダーノードがクライア ントからSQLを受け取る CPU
CPU CPU CPU CPU CPU Leaderノード Computeノード 1つの表を各ノード のストレージに分散 して保存(シェアー ドナッシング)
32.
Redshiftの構成② SELECT * FROM lineitem; SQLをC⾔語に変換後、 コンパイル。コードを コンピュートノードへ 配信 CPU
CPU CPU CPU CPU CPU Leaderノード Computeノード スライス= メモリとディスクを ノード内で分割した論 理的な処理単位 コンピュートノードの追 加でパフォーマンス向上 (スケールアウト)
33.
Redshiftの特徴と傾向 ノード増加によるスケールアウト • スケールアウトのボトルネックはノード間通信 • 効率を上げる=ノード間通信を減らす 実⾏⽅法 •
SQLはC++に変換、コンパイル、配布して実⾏される • 実⾏済のコードはキャッシュされる =>SQL最初の実⾏には+数秒余分に掛かる
34.
ノードタイプ SSDベースのDCとHDDベースのDSから選択 • データは圧縮されて格納されるため、ストレージ総量より多くのデータが格納可能 最⼤128ノード:2 PByteまで拡張可能 dc1.largeとds2.xlargeは、1ノード~32ノード構成が可能 •
1ノード構成にした場合、LeaderノードとComputeノードが同じインスタンス上で稼働する構成になります dc1.8xlargeとds2.8xlargeは、2ノード~128ノード構成が可能 ※価格は東京リージョンにおいて 2017年8月時点のものです https://aws.amazon.com/jp/redshift/pricing/
35.
フルマネージドサービス 設計・構築・運⽤の⼿間を削減 数クリックで起動 1時間単位の費⽤ ノード数やタイプは後から変更可能 バックアップやモニタリング機能を内蔵 • GUI(マネジメントコンソール) • API経由で操作も可能 パッチ適⽤も⾃動的 •
メンテナンスウィンドウでパッチの時間帯を指定可能
36.
Redshiftが向く⽤途 特化型のデータベースのため、適した⽤途に使うことでパ フォーマンスを発揮します Redshiftに向くワークロード • 巨⼤なデータ・セット(数百GB〜ペタバイト) • 1つ1つのSQLが複雑だが、同時実⾏SQLは少ない •
データの更新は⼀括導⼊ ユースケース • データウェアハウス(DWH) • ユーザがクエリーを作成する(⾃由クエリー)(BI等)
37.
Redshiftの特徴を⽣かせないユースケース SQLの並列実⾏数が多い(※同時接続数ではなく同時実⾏数) • RDS(MySQL ,PostgreSQL,
Oracle, SQL Server)を検討 極めて短いレーテンシが必要なケース • ElastiCache (インメモリDB)やRDSを検討 ランダム、かつパラレルな更新アクセス • RDSもしくはDynamoDB (NoSQL)を検討 巨⼤なデータを格納するが集計等はしない • DynamoDBや⼤きいインスタンスのRDSを検討
38.
1 2 ... N Amazon Redshift
Spectrum •RedshiftからS3上に置いたファイルを外部テーブ ルとして定義し、クエリ可能に •ローカルディスク上のデータと組み合わせたSQL が実⾏可能 •多様なファイルフォーマットに対応 •バージニア北部、オレゴン、オハイオリージョン で利⽤可能 •価格は Redshift 料⾦に加えて,S3 データスキャ ン量に応じて $5/TB がかかる S3 各種データ (CSV,Parquet等) Spectrum層
39.
Amazon S3上のデータに直接クエリできるメリット Amazon Redshiftのクエリがそのまま活⽤できる ローディングにかかる⼿間や時間が不要。分析までの時間を最短に ファイルフォーマットを変更せずクエリーを実⾏可能 Amazon
Redshiftクラスター上のデータとS3上のデータをジョイン 1つのS3データに複数のAmazon Redshiftクラスターから共有アクセス 可能(可⽤性の向上、ワークロードの分散)
40.
ユースケース (1) 定期的に追加されるFACTデータをS3に置く FACTをS3に置き、ディメンジョンを Redshiftローカルに置く FACTへの定期的な追加が発⽣しても ロードせずにクエリ可能 VACUUM や
UNLOAD,Deep Copy などが不要なため運⽤コストが⾮常 に低くなる ⽇付等で効果的なパーティショニン グが実現可能 FACT ディメン ジョン ディメン ジョン ディメン ジョン ディメン ジョン ディメン ジョン ディメン ジョン
41.
ユースケース (2) アクセス頻度が低いデータをS3に 頻繁にアクセスされる直近のデータを ローカルに置き、あまりアクセスされな いデータはS3に置く 直近データの保存に必要なだけのノード 数を維持しながら、多くのデータを分析 対象にできる ※Spectrum層への指⽰はスライス数に 依存するため、データサイズと⽐較して 極端に少ないノード数の構成は推奨され ません Amazon Redshift ... 1 2
3 4 N 2012年 直近データ 2016年~2017年 2013年 2014年 2015年
42.
ユースケース (3) S3上のデータを複数Redshiftクラスターで共有 S3上のデータを複数のRedshift クラスターから共有 1)ジョブ連携を容易に実現 2)ワークロードが分散され、 システム全体での同時実⾏性能 を向上 3)Redshiftクラスターを別AZ に配置して可⽤性の向上を実現 共有データ
43.
まとめ:Redshift概要 MPP型でDWH⽤途に特化したデータベース スケールアウトで拡張 ⾼速な読み取りを可能にする仕組み • カラムナ、圧縮、ゾーンマップ
44.
事例 44
45.
dash:Connected Vehicle by
dash device •Drive Smarter •Save Money •Take Control •Drive Green •Have Fun with it •Engine Light
46.
Copyright(c)2016 PARCO CO.,LTD.
All Rights Reserved 24 新しい取り組み IoT(Internet of Things) 各種センサー、Wi-Fiデータの分析活用 ➢イベント来場者の属性を把握 ➢アプリユーザーの館内での行動を把握 ➢店舗屋上に温度・降雨検知センサー 設置し、気温・降雨データを取得 来店時のお客様行動の分析・可視化 による購買促進施策に活用 パルコさま:「可視化」された事実からPDCA IoTを使った新しいデータの活⽤⽅法のチャレンジ カメラを使った客層分析 気温・降⾬センサーを 使った売上分析 チャレンジ
47.
事例 : 嘉穂無線株式会社(グッデイ本部)さま ビーコンを使った⼈の動線把握 お客様及び従業員の⽅の動線を「可視化」することにより、例えば、1⽇のうち平均約 1
- 2時間は、バックヤードでの作業(発注、倉庫作業など)についやしていたことがわ かり、バックヤード作業を効率化することで、従業員が売り場に⽴つ時間を増やし、お 客様対応に時間を使うことで売上増(5〜10%)に繋がった。 AWS Cloud Roadshow福岡 2015 基調講演資料抜粋
48.
スシローさま: 回転寿司レストラン 380店舗の寿司⽫についたセンサーから送られるストリーム データを収集・分析し⾷材廃棄の削減、オペレーション改善 収集 加⼯
分析 蓄積 デ タ イ ン サ イ ト 48
49.
スシローさま: 回転寿司レストラン 機械学習を活⽤した “待ち時間ほぼゼロ”
の実現 出所:⽇経ビジネスオンライン http://business.nikkeibp.co.jp/atcl/report/15/062600011/070100004/?P=1 “スマートフォン向けアプリ「スシローアプリ」を活⽤した チェックイン機能を、店頭の整理券発券システムに搭載。ス シローの基幹システムとも連携しており、アプリ利⽤者が何 ⼈で利⽤したか(組⼈数)、利⽤⾦額はどれほどか、といっ たデータの分析が可能。スシローはこうしたデータを蓄積し た上で、CRM(顧客関係管理)や広告配信に⽣かすことを⽬ 指す。” 課題:混雑に起因した待ち時間増加による顧客離反 ソリューション:アプリ経由で来店予約による待ち時間 ほぼゼロの実現 49
50.
Kinesis を通じた機械学習 機械学習により待ち時間を効率化 (待ち時間の予測精度が60%向上) 店舗端末 レーン
51.
NAVITIME さまのログ分析,可視化基盤 https://d0.awsstatic.com/events/jp/2017/summit/slide/D2T6-1.pdf
52.
Here.com さま 世界最⼤⼿の地図企業 ⾃動運転に必要なHD Live
Mapの ⽣成基盤にAWSを利⽤ • ⾞載センサーデータの収集 • 分析(道路状況の変化等) • ⾞へのLive データ配信 3PB以上のデータを収集・保存 • 5年以内に150PBを⾒込む https://www.youtube.com/watch?v=Jvg_SsNyR00&feature=youtu.be&t=3544 http://360.here.com/2016/04/20/the-role-of-amazon-web-services-in-autonomous-driving/
53.
© 2017, Amazon
Web Services, Inc. or its Affiliates. All rights reserved. Amazon Elastic MapReduce 53
54.
Amazon EMR • 低い運⽤コストでHadoopを使⽤ •
ジョブに応じてクラスタのリサイズが可能 • S3上のデータを直接読み込んでジョブを実 ⾏し,結果をS3に吐き出せる • Spark, Hive, Presto, Hbaseなどさまざま なHadoopエコシステムを利⽤可能 • ⼤規模データのETLや機械学習処理などの ワークロードに適している フルマネージドでスケーラブルなHadoopクラスタ
55.
Hadoop とは ⼤規模データを保持及び処理するためのクラスタ ミドルウェア,およびそのエコシステム マスターノードとスレーブノードに分かれており, • マスターノードはクラスタの管理を担当 •
スレーブノードは • YARN によるジョブの実⾏ • HDFS によるデータの保持 分散処理基盤として,さまざまなミドル ウェアをその上で実⾏することが可能 55
56.
Task Node Task Instance
Group Amazon EMRのアーキテクチャ security group security group Master Node Master Instance Group Amazon S3 Amazon DynamoDB Amazon Kinesis Core Node Core Instance Group HDFS HDFS HDFS HDFS Task Node Task Instance Group スレーブ群を 管理 HDFS アクセス AWSサービス アクセス
57.
既存の Hadoop クラスタの問題 コンピュートとストレージが⼀体となっている 57 •
どちらかが⾜りないときでも,必ずノードを増やさないといけ ない • HDFS のデータを消さないために,マスターノードを多重化し ておかないといけない • データ利⽤のために,クラスタを常に起動しておく必要がある
58.
EMRFS: Amazon S3
を HDFS のように扱う • 計算資源とストレージを分離できる • クラスタのシャットダウンが可能 • クラスタを消してもデータをロストしない • 複数クラスタ間でデータ共有が簡単 • クラスタのバージョンアップ検証が並⾏可能 • S3 によるデータの⾼い耐久性
59.
Amazon EMR の機能:
インスタンスフリート スポットインスタンスが,より便利に 使えるようになる機能 複数のインスタンスタイプを指定して 起動することで,最適なスポットイン スタンスの組み合わせを⾃動的に選択 してクラスタを⽴ち上げる また起動時に,1-6 時間の範囲で動作 時間を指定することができるため,指 定時間内でのジョブの実⾏を保証する ことができる 59 https://aws.amazon.com/jp/blogs/news/new-amazon-emr-instance-fleets/
60.
© 2017, Amazon
Web Services, Inc. or its Affiliates. All rights reserved. AWS Glue
61.
AWS上のETL(Extract, Transform and
Load)サービス 巨⼤データへのETL処理を... 「スケールアウト」で対応 「サーバレス」で提供 AWS Glue https://aws.amazon.com/jp/glue/
62.
AWS Glue –
全体像 データソースをクロールし、 メタデータを取得 メタデータは データカタログで管理 メタデータを元に ジョブを作成(PySpark) ジョブはサーバレスな環境 で実⾏される
63.
Glueはスケールアウト処理を実現 ベース技術にSparkを採⽤ ⼤規模データに対し⾃動的にス ケールアウト スケールアウトのためのインフラ 設計が不要 JOB
64.
サーバレスのジョブ実⾏ サーバレス:サーバ管理を意識 しないで利⽤できるサービス プロビジョン、コンフィグ、 パッチ等が不要に 処理に掛かったリソースのみへ の⽀払い
65.
分析データレイク ビッグデータ処理もサーバレスで実現可能に サーバレス で、より分析に集中しやすい環境を実現 ※全ての分析がサーバレスで実現できるわけではありません。適材適所の配置が重要です 可視化 Amazon QuickSight Amazon S3 プリプロセス 全データ
変形済 Amazon Athena AWS Glue 収集 AWS Glue
66.
Amazon EMRとAWS Glue Amazon
EMR AWS Glue 用途 汎用Hadoop/Spark環境 ETL処理に特化 (Sparkベース) スケールアウト 可能(ユーザ設計) 可能(パラメータ指定) サーバ管理 数クリックで指定した環境が 準備される サーバ管理が不要 (サーバレス) データレイク(S3)への透 過的なアクセス 可能 可能 プログラミング環境 Hadoopエコシステム上の多 様なアプリケーション PySparkでETL処理をカス タマイズ
67.
その他新サービス 67
68.
エンドトゥエンドのフルマネージドMLサービス Amazon SageMakerを発表 • データサイエンティストや開発者が容易に機械 学習モデルを構築・学習・活⽤できるように –
オーサリング:IDEとしてJupyter notebookを即座に起動。通 常のインスタンスに加えGPUインスタンスでも利⽤可能 – モデルの学習:モデルの構築・学習・確認機能を提供。組み込 みの教師有り/無し学習アルゴリズムやフレームワークを利⽤ し学習モデルを構築できる。学習データやモデルはS3を活⽤ – ホスティング:リアルタイムインタフェースを提供するため、 モデルを利⽤するためのHTTPエンドポイントを提供。 • インスタンスの利⽤料(秒単位)、ストレージ利 ⽤料(GB単位)、データ転送料(GB単位)で利⽤ 可能。AWS無料利⽤枠の対象となる
69.
Speech-to-Textのマネージドサービス Amazon Transcribeを発表 • テキスト起こしを実現するマネージドサービス により、⾳声から得られる情報の利活⽤が容易 になる •
リアルタイム処理のみならずS3に格納された⾳ 声データの処理もサポート。⾳声とテキストの 時刻同期情報も出⼒可能 • ローンチ時点では⽶国英語とスペイン語をサ ポート。他⾔語には順次対応予定
70.
フルマネージドな⾃然⾔語理解サービス Amazon Comprehendを発表 • テキストを⼊⼒することで⾔語の識別やエンティティ、キーフレーズ の抽出、センチメント分析などを実⾏できる •
AWSが構築済みのモデルを利⽤するため、ユーザは解析対象のテキス トを⽤意するだけですぐに利⽤を始められる
71.
Amazon S3 Selectと Amazon
Glacier Selectを発表 • S3 Select(プレビュー):ファイル全体をダウ ンロードせず必要なデータのみをシンプルな SQLでクエリ可能に。最⼤400%の性能改善 – Lambdaファンクションから利⽤すると便利。Athenaや Redshift/EMRがS3 Selectをサポート予定 – プレビュー期間は無料で利⽤でき⾮圧縮のCSV/JSONをサポー ト。暗号化ファイルは現時点では⾮対応 • Glacier Select(⼀般利⽤開始):Glacierにアー カイブされたデータにもS3 Selectと同様に直 接クエリを発⾏可能に。AWS Glueとの連携も – スキャンしたデータ量(GB)、応答データ量(GB)、リクエスト 数にで課⾦。データ取り出しスピードによって単価が異なる
72.
深層学習技術を利⽤した動画認識サービス Amazon Rekognition Videoを発表 •
S3に蓄積された動画やライブストリーミング動画を解析し、物体や顔 やコンテンツを検出し識別することができる • AWS CLI/AWS SDK/REST APIから利⽤でき、⼈物のトラッキングや 顔検出など複数の処理APIが提供される • .mp4または.movの動画を処理可能。エンコード形式はH.264となる
73.
数多くの動画ストリームのインジェストを実現する Amazon Kinesis Video
Streamsを発表 • 数百万のカメラデバイスからアップロードされ る動画ストリームや、時系列データを容易に取 り扱うことができるマネージドサービス • 送信側はProducer SDKを利⽤してKinesis Video Streamsにデータを送信する必要がある • 料⾦体系はデータ量依存。Streamに対する投 ⼊量と読出量、保存量に対して課⾦される • 東京、バージニア、オレゴン、アイルランド、 フランクフルトのリージョンで利⽤可能
74.
AWSマネージドなサービスを使った構成
75.
AWSマネージドなサービスを使った構成 Web/API層: Serverlessや、コン テナ等を活⽤してマイ クロサービスを構築 DBはAuroraや、 DynamoDBを必要に 応じて活⽤
76.
AWSマネージドなサービスを使った構成 ログ層: Kinesis Data Firehose経由でロ グなどのデータをデータレイクで あるS3へ。 機械学習サービスである SageMaker、⾃然⾔語処理のサー ビスであるComprehendや、API Readyのデータを⽣成するための Glue、BIやバッチ系にAthnaを活 ⽤する事が可能
77.
AWSマネージドなサービスを使った構成 セキュリティ: 権限管理はIAM、 CloudTrailでAPI等の リソースに対する監査 ログを取得する。 DDoS等の対策には WAFやShieldを活⽤。 その他: Route53は単純なDNS機能と してだけではなくGLBや、サー ビスディスカバリのサービスと しても使⽤可能。 Pinpointはセグメントプッ シュ配信を⾏うためのマーケ ティング基盤。 TimeSyncといったNTPの サービスもリリースした コールセンタ: Amazon Connectを使⽤す ることでスケールし、かつグ ローバル展開できるコールセ ンタを構築可能 そこから録⾳データ等を SageMaker、Transcribe、 Comprehend等で DeepLearning も。