SlideShare uma empresa Scribd logo
1 de 36
Google Cloud Next ’18
Recap/報告会
~Data関連~
2018/08/01
山田 雄
■山田 雄(ヤマダ ユウ)
株式会社 リクルートライフスタイル
ネットビジネス本部
データプラットフォームT
(株式会社 リクルート)
Twitter:@nii_yan
GitHub:https://github.com/yu-yamada
・以前はメールマーケティング用基盤の作成からデータ分析まで関わる
現在はリクルートライフスタイルの共通分析基盤の開発、運用全般を担当
ビックデータ、Ruby、お祭り、ビール、カップ焼きそばが好き。
自己紹介
Spotify
ユーザー事例
BigQueryへの移行前
4 years ago…
・ほぼ、オンプレとベアメタルを使っていた(Hadoop)
・分析の仕事をするのがとても大変だった
・そこでクラウドへの移行を決断した
BigQueryへ移行してみて
大成功だったよ!!!
Spotifyでは分析にBigQueryを使うのが当たり前になった
・はるかに早く、大きな結果を得ることが出来るようになった
・必要な時に簡単にキャパシティを追加できる(?)
・既存のクラウドとの統合が出来た
・使用するのが簡単なので、サイエンティストからの質問がなくなった
Hiveでは16分かかっていた処理が33秒に!
移行に際して
・Administration
BQの定額料金契約をすることで、定常的にslotを確保
subreservationを切ることで、プロジェクト毎にslotを配布
・Education
batch modeとinteractive modeを使うことで、jobを制御
Dremel architectureを理解してチューニング
BQのbest practiceをみんなに知らせるようにした
移行に際して
・Integration
BQAPIを使用して、独自の開発ツールを作成し、独自のエコシステムと統合
GCPのサービス内では簡単にデータ移動が出来るので、ジョブに最適なツー
ルを柔軟に使える
・Partnership
BQのチームと密接に連携して、機能拡張などを行った
色んなチャンネルでサポートを受けた
Twitter
ユーザー事例
scale
・20TB/day of raw log data
・>100k events/sec
Legacy system
Row
logs
Stream
aggregation
Batch
aggregation
Ephemeral
KV store
Persisted
KV store
Serving
fronted
Lambda architecture
Project goals
・運用コストを減らす
・ビジネスロジック、aggregation、ストレージ、クエリ実行を切り離す
・データへのaccessibilityを上げる
・今の10倍までスケール出来るようにする
Next generation system
Row
logs
Stream
aggregation
Internal
fronted
BigTable
BigQuery
Serving
fronted
Kappa architecture
Work in progress
Row
logs
Hadoop
Internal
fronted
BigTable
BigQuery
Serving
fronted
Dataflow
DDL
BQ新機能紹介
DDL(GA)
Create Table… がGAに
Create Table as Selectも使える
https://cloud.google.com/bigquery/docs/reference/standard-sql/data-definition-language
Clustering
BQ新機能紹介
Clustering(Alpha Beta)
パーティションを切ったテーブルで、パーティションの中をさらにClusterで切
ることが出来る。
secondly indexのようなイメージ
(パーティションテーブル以外には使用不可)
https://cloud.google.com/bigquery/docs/clustered-tables
CREATE TABLE
`mydataset.ClusteredSalesData`
PARTITION BY
DATE(timestamp)
CLUSTER BY
customer_id,
product_id,
order_id AS
SELECT
*
FROM
`mydataset.SalesData`
7/30にBeta
GIS
BQ新機能紹介
GIS(Alpha)
SQLを利用して、地理情報をBQ上で分析可能に
NewUI
BQ新機能紹介
NewUI(Beta)
bigquery.cloud.google.com -> console.cloud.google.com/bigquery
Standard SQLがデフォルト設定に!!
NewConnectors
BQ新機能紹介
New Connectors
・Google AdWords(GA)
・YouTube(GA)
・Google Play Store(Beta)
https://cloud.google.com/bigquery/docs/transfer-service-overview
Integration with
Google Sheets
BQ新機能紹介
Integration with Google Sheets(Alpha)
Google SheetsでSQLを書き、BQからのデータの取り出し、表示が可能
One Click Visualize
BQ新機能紹介
One Click Visualize(Beta)
BQ上(NewUI)からOneClickでDataStudio上でデータの可視化可能
BQML
BQ新機能紹介
BigQueryML(Beta)
SQLだけで機械学習が可能
現在はロジスティック回帰と線形回帰のみ
Stream Analytics
features
Stream Analytics features
・Python streaming(Beta)
Author streaming jobs in Python through Apache Beam.
・Dataflow Streaming Engine
Enable separation of compute and storage for more responsive autoscaling on fewer resources.
・Dataflow Shuffle(batch)
Improve underlying capabilities of Dataflow. Yielding faster and analytics and transformations.
・Better, Faster Pub/Sub
High perf client libraries in 7 languages, GRPC streaming APIs.
・Confluent Kafka Service
Managed Kafka service on GCP from Confluent.
Dataproc and
Composer
features
Dataproc and Composer features
・Cloud Composer GA
Managed Airflow service Cloud Composer now Available in GA.
・Dataproc enhancements release 1.3
Spark 2.3, Hadoop 2.9, Defaults include Tez, YARN timeline server, HCatalog.
・Customer managed Encryption Keys
CMEK support for BQ(GA). GCE(Beta) and GCS(Beta).
・Autoscaling & custom packages(Alpha)
Autoscaling Hadoop and Spark clusters & selection of Apache projects.
・Hortonworks support for GCP
Run HDP and HDF on GCP with GCS as data lake.
Google cloudnext recap_DataAnalytics

Mais conteúdo relacionado

Mais procurados

Machine Learning Casual Talks #4 ビッグデータチームを発足するにあたって気をつけておきたいn個のこと
Machine Learning Casual Talks #4 ビッグデータチームを発足するにあたって気をつけておきたいn個のことMachine Learning Casual Talks #4 ビッグデータチームを発足するにあたって気をつけておきたいn個のこと
Machine Learning Casual Talks #4 ビッグデータチームを発足するにあたって気をつけておきたいn個のこと
Naoto Tamiya
 
セグメント?クラスタリング? ユーザーを分類し、サービスの改善に活かすポイント
セグメント?クラスタリング? ユーザーを分類し、サービスの改善に活かすポイントセグメント?クラスタリング? ユーザーを分類し、サービスの改善に活かすポイント
セグメント?クラスタリング? ユーザーを分類し、サービスの改善に活かすポイント
Naoto Tamiya
 
大規模サイトを支えるビッグデータプラットフォーム技術
大規模サイトを支えるビッグデータプラットフォーム技術大規模サイトを支えるビッグデータプラットフォーム技術
大規模サイトを支えるビッグデータプラットフォーム技術
Yahoo!デベロッパーネットワーク
 
データの見える化で進めるデータドリブンカンパニー #devsumiC
データの見える化で進めるデータドリブンカンパニー #devsumiCデータの見える化で進めるデータドリブンカンパニー #devsumiC
データの見える化で進めるデータドリブンカンパニー #devsumiC
Yahoo!デベロッパーネットワーク
 
データテクノロジースペシャル:Yahoo! JAPANにおけるメタデータ管理の試み
データテクノロジースペシャル:Yahoo! JAPANにおけるメタデータ管理の試みデータテクノロジースペシャル:Yahoo! JAPANにおけるメタデータ管理の試み
データテクノロジースペシャル:Yahoo! JAPANにおけるメタデータ管理の試み
Yahoo!デベロッパーネットワーク
 

Mais procurados (20)

オンプレとクラウドのHadoopを比較して僕の思うとこ
オンプレとクラウドのHadoopを比較して僕の思うとこオンプレとクラウドのHadoopを比較して僕の思うとこ
オンプレとクラウドのHadoopを比較して僕の思うとこ
 
ビックデータ分析基盤の成⻑の軌跡
ビックデータ分析基盤の成⻑の軌跡ビックデータ分析基盤の成⻑の軌跡
ビックデータ分析基盤の成⻑の軌跡
 
Machine Learning Casual Talks #4 ビッグデータチームを発足するにあたって気をつけておきたいn個のこと
Machine Learning Casual Talks #4 ビッグデータチームを発足するにあたって気をつけておきたいn個のことMachine Learning Casual Talks #4 ビッグデータチームを発足するにあたって気をつけておきたいn個のこと
Machine Learning Casual Talks #4 ビッグデータチームを発足するにあたって気をつけておきたいn個のこと
 
Dataflow(python)を使ってelasticsearchにデータを移行した話
Dataflow(python)を使ってelasticsearchにデータを移行した話Dataflow(python)を使ってelasticsearchにデータを移行した話
Dataflow(python)を使ってelasticsearchにデータを移行した話
 
リクルートライフスタイルにおける深層学習の活用とGCPでの実現方法
リクルートライフスタイルにおける深層学習の活用とGCPでの実現方法リクルートライフスタイルにおける深層学習の活用とGCPでの実現方法
リクルートライフスタイルにおける深層学習の活用とGCPでの実現方法
 
Dataflow(python)を触った所感
Dataflow(python)を触った所感Dataflow(python)を触った所感
Dataflow(python)を触った所感
 
セグメント?クラスタリング? ユーザーを分類し、サービスの改善に活かすポイント
セグメント?クラスタリング? ユーザーを分類し、サービスの改善に活かすポイントセグメント?クラスタリング? ユーザーを分類し、サービスの改善に活かすポイント
セグメント?クラスタリング? ユーザーを分類し、サービスの改善に活かすポイント
 
リクルートライフスタイルの考える ストリームデータの活かし方(Hadoop Spark Conference2016)
リクルートライフスタイルの考えるストリームデータの活かし方(Hadoop Spark Conference2016)リクルートライフスタイルの考えるストリームデータの活かし方(Hadoop Spark Conference2016)
リクルートライフスタイルの考える ストリームデータの活かし方(Hadoop Spark Conference2016)
 
The Design for Serverless ETL Pipeline データ分析基盤のレガシーなデータロードをサーバレスでフルリプレースするまで道のり
The Design for Serverless ETL Pipeline データ分析基盤のレガシーなデータロードをサーバレスでフルリプレースするまで道のりThe Design for Serverless ETL Pipeline データ分析基盤のレガシーなデータロードをサーバレスでフルリプレースするまで道のり
The Design for Serverless ETL Pipeline データ分析基盤のレガシーなデータロードをサーバレスでフルリプレースするまで道のり
 
dplyrとは何だったのか
dplyrとは何だったのかdplyrとは何だったのか
dplyrとは何だったのか
 
プロダクト中心のデータ駆動を推進していくために必要なこと
プロダクト中心のデータ駆動を推進していくために必要なことプロダクト中心のデータ駆動を推進していくために必要なこと
プロダクト中心のデータ駆動を推進していくために必要なこと
 
Rとデータベース 第61回 Tokyo.R
Rとデータベース 第61回 Tokyo.RRとデータベース 第61回 Tokyo.R
Rとデータベース 第61回 Tokyo.R
 
WebGISやデータ公開について
WebGISやデータ公開についてWebGISやデータ公開について
WebGISやデータ公開について
 
Yahoo! JAPANを支えるビッグデータプラットフォーム技術
Yahoo! JAPANを支えるビッグデータプラットフォーム技術Yahoo! JAPANを支えるビッグデータプラットフォーム技術
Yahoo! JAPANを支えるビッグデータプラットフォーム技術
 
プロトタイプで終わらせない死の谷を超える機械学習プロジェクトの進め方 #MLCT4
プロトタイプで終わらせない死の谷を超える機械学習プロジェクトの進め方 #MLCT4プロトタイプで終わらせない死の谷を超える機械学習プロジェクトの進め方 #MLCT4
プロトタイプで終わらせない死の谷を超える機械学習プロジェクトの進め方 #MLCT4
 
Microsoft Search @O365JPFUK
Microsoft Search @O365JPFUKMicrosoft Search @O365JPFUK
Microsoft Search @O365JPFUK
 
大規模サイトを支えるビッグデータプラットフォーム技術
大規模サイトを支えるビッグデータプラットフォーム技術大規模サイトを支えるビッグデータプラットフォーム技術
大規模サイトを支えるビッグデータプラットフォーム技術
 
Combined analysis of Watson and Spark
Combined analysis of Watson and SparkCombined analysis of Watson and Spark
Combined analysis of Watson and Spark
 
データの見える化で進めるデータドリブンカンパニー #devsumiC
データの見える化で進めるデータドリブンカンパニー #devsumiCデータの見える化で進めるデータドリブンカンパニー #devsumiC
データの見える化で進めるデータドリブンカンパニー #devsumiC
 
データテクノロジースペシャル:Yahoo! JAPANにおけるメタデータ管理の試み
データテクノロジースペシャル:Yahoo! JAPANにおけるメタデータ管理の試みデータテクノロジースペシャル:Yahoo! JAPANにおけるメタデータ管理の試み
データテクノロジースペシャル:Yahoo! JAPANにおけるメタデータ管理の試み
 

Semelhante a Google cloudnext recap_DataAnalytics

Semelhante a Google cloudnext recap_DataAnalytics (20)

Let's BBQ with us!!
Let's BBQ with us!!Let's BBQ with us!!
Let's BBQ with us!!
 
データプロダクトを支えるビッグデータ基盤
データプロダクトを支えるビッグデータ基盤データプロダクトを支えるビッグデータ基盤
データプロダクトを支えるビッグデータ基盤
 
第29回八子クラウド座談会(当日討議メモ付き) 20181215
第29回八子クラウド座談会(当日討議メモ付き) 20181215第29回八子クラウド座談会(当日討議メモ付き) 20181215
第29回八子クラウド座談会(当日討議メモ付き) 20181215
 
JIRA meets Tableau & AWS
JIRA meets Tableau & AWSJIRA meets Tableau & AWS
JIRA meets Tableau & AWS
 
DataEngConf NYC’18 セッションサマリー #1
DataEngConf NYC’18 セッションサマリー #1DataEngConf NYC’18 セッションサマリー #1
DataEngConf NYC’18 セッションサマリー #1
 
[Gree] DataEngConf NYC’18 セッションサマリー #1
[Gree] DataEngConf NYC’18 セッションサマリー #1[Gree] DataEngConf NYC’18 セッションサマリー #1
[Gree] DataEngConf NYC’18 セッションサマリー #1
 
Trat_sprint5
Trat_sprint5Trat_sprint5
Trat_sprint5
 
Jupyterで運用やってみた
Jupyterで運用やってみたJupyterで運用やってみた
Jupyterで運用やってみた
 
利益を生み出すAnalytics Teamのあり方
利益を生み出すAnalytics Teamのあり方利益を生み出すAnalytics Teamのあり方
利益を生み出すAnalytics Teamのあり方
 
Step functionsとaws batchでオーケストレートするイベントドリブンな機械学習基盤
Step functionsとaws batchでオーケストレートするイベントドリブンな機械学習基盤Step functionsとaws batchでオーケストレートするイベントドリブンな機械学習基盤
Step functionsとaws batchでオーケストレートするイベントドリブンな機械学習基盤
 
Step functionsとaws batchでオーケストレートするイベントドリブンな機械学習基盤
Step functionsとaws batchでオーケストレートするイベントドリブンな機械学習基盤Step functionsとaws batchでオーケストレートするイベントドリブンな機械学習基盤
Step functionsとaws batchでオーケストレートするイベントドリブンな機械学習基盤
 
ストリームデータ処理技術勉強会_イントロセッション
ストリームデータ処理技術勉強会_イントロセッションストリームデータ処理技術勉強会_イントロセッション
ストリームデータ処理技術勉強会_イントロセッション
 
第26回八子クラウド座談会当日メモ付き_20180407
第26回八子クラウド座談会当日メモ付き_20180407第26回八子クラウド座談会当日メモ付き_20180407
第26回八子クラウド座談会当日メモ付き_20180407
 
Google Cloud 一般公開データセット
Google Cloud 一般公開データセットGoogle Cloud 一般公開データセット
Google Cloud 一般公開データセット
 
20190723 mlp lt_bayes_pub
20190723 mlp lt_bayes_pub20190723 mlp lt_bayes_pub
20190723 mlp lt_bayes_pub
 
Go + Pulsar WebSocket APIの利用事例 #pulsarjp
Go + Pulsar WebSocket APIの利用事例 #pulsarjpGo + Pulsar WebSocket APIの利用事例 #pulsarjp
Go + Pulsar WebSocket APIの利用事例 #pulsarjp
 
RのIDEであるRStudioでYouTubeを再生できるようにした話
RのIDEであるRStudioでYouTubeを再生できるようにした話RのIDEであるRStudioでYouTubeを再生できるようにした話
RのIDEであるRStudioでYouTubeを再生できるようにした話
 
今時のオンプレなgithubクローン環境構築
今時のオンプレなgithubクローン環境構築今時のオンプレなgithubクローン環境構築
今時のオンプレなgithubクローン環境構築
 
[社内勉強会]エンジニアな僕の情報収集法
[社内勉強会]エンジニアな僕の情報収集法[社内勉強会]エンジニアな僕の情報収集法
[社内勉強会]エンジニアな僕の情報収集法
 
PyData入門(超初心者編)~野球のデータをカジュアルに可視化
PyData入門(超初心者編)~野球のデータをカジュアルに可視化PyData入門(超初心者編)~野球のデータをカジュアルに可視化
PyData入門(超初心者編)~野球のデータをカジュアルに可視化
 

Último

Último (11)

Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
 
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
 
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
 
Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsUtilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native Integrations
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
 
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
 

Google cloudnext recap_DataAnalytics

Notas do Editor

  1. ユーザの