Submit Search
Upload
初めてのデータ分析基盤構築をまかされた、その時何を考えておくと良いのか
•
1 like
•
940 views
T
Techon Organization
Follow
Tech-on MeetUp Online#02「もしエンタープライズのエンジニアがデータ分析をやることになったら」 @yutah_3 さんの資料です。
Read less
Read more
Engineering
Report
Share
Report
Share
1 of 28
Download now
Download to read offline
Recommended
データ分析を支える技術 データ分析基盤再入門
データ分析を支える技術 データ分析基盤再入門
Satoru Ishikawa
データ分析基盤、どう作る?システム設計のポイント、教えます - Developers.IO 2019 (20191101)
データ分析基盤、どう作る?システム設計のポイント、教えます - Developers.IO 2019 (20191101)
Yosuke Katsuki
Data Engineering Meetup #1 持続可能なデータ基盤のためのデータの多様性に対する取り組み
Data Engineering Meetup #1 持続可能なデータ基盤のためのデータの多様性に対する取り組み
cyberagent
データ収集の基本と「JapanTaxi」アプリにおける実践例
データ収集の基本と「JapanTaxi」アプリにおける実践例
Tetsutaro Watanabe
データ分析を支える技術 DWH再入門
データ分析を支える技術 DWH再入門
Satoru Ishikawa
データウェアハウスモデリング入門(ダイジェスト版)(事前公開版)
データウェアハウスモデリング入門(ダイジェスト版)(事前公開版)
Satoshi Nagayasu
データ分析基盤について
データ分析基盤について
Yuta Inamura
データ仮想化を活用したデータ分析のフローと分析モデル作成の自動化のご紹介
データ仮想化を活用したデータ分析のフローと分析モデル作成の自動化のご紹介
Denodo
Recommended
データ分析を支える技術 データ分析基盤再入門
データ分析を支える技術 データ分析基盤再入門
Satoru Ishikawa
データ分析基盤、どう作る?システム設計のポイント、教えます - Developers.IO 2019 (20191101)
データ分析基盤、どう作る?システム設計のポイント、教えます - Developers.IO 2019 (20191101)
Yosuke Katsuki
Data Engineering Meetup #1 持続可能なデータ基盤のためのデータの多様性に対する取り組み
Data Engineering Meetup #1 持続可能なデータ基盤のためのデータの多様性に対する取り組み
cyberagent
データ収集の基本と「JapanTaxi」アプリにおける実践例
データ収集の基本と「JapanTaxi」アプリにおける実践例
Tetsutaro Watanabe
データ分析を支える技術 DWH再入門
データ分析を支える技術 DWH再入門
Satoru Ishikawa
データウェアハウスモデリング入門(ダイジェスト版)(事前公開版)
データウェアハウスモデリング入門(ダイジェスト版)(事前公開版)
Satoshi Nagayasu
データ分析基盤について
データ分析基盤について
Yuta Inamura
データ仮想化を活用したデータ分析のフローと分析モデル作成の自動化のご紹介
データ仮想化を活用したデータ分析のフローと分析モデル作成の自動化のご紹介
Denodo
「指標」を支えるエンジニアリング: DataOpsNight #1
「指標」を支えるエンジニアリング: DataOpsNight #1
株式会社MonotaRO Tech Team
データ分析基盤を支えるエンジニアリング
データ分析基盤を支えるエンジニアリング
Recruit Lifestyle Co., Ltd.
MonotaRO のデータ活用と基盤の過去、現在、未来
MonotaRO のデータ活用と基盤の過去、現在、未来
株式会社MonotaRO Tech Team
DMBOKをベースにしたデータマネジメント
DMBOKをベースにしたデータマネジメント
Kent Ishizawa
ビッグデータ処理データベースの全体像と使い分け
ビッグデータ処理データベースの全体像と使い分け
Recruit Technologies
データモデリング・テクニック
データモデリング・テクニック
Hidekatsu Izuno
グラフ構造のデータモデルをPower BIで可視化してみた
グラフ構造のデータモデルをPower BIで可視化してみた
CData Software Japan
JDMC LT#1 - なぜモノタロウでデータマネジメントが必要になったのか
JDMC LT#1 - なぜモノタロウでデータマネジメントが必要になったのか
株式会社MonotaRO Tech Team
ビッグデータ処理データベースの全体像と使い分け 2018年version
ビッグデータ処理データベースの全体像と使い分け 2018年version
Tetsutaro Watanabe
データウェアハウス入門 (マーケティングデータ分析基盤技術勉強会)
データウェアハウス入門 (マーケティングデータ分析基盤技術勉強会)
Takeshi Mikami
Cookpad TechConf 2016 - DWHに必要なこと
Cookpad TechConf 2016 - DWHに必要なこと
Minero Aoki
技術者として抑えておきたい Power BI アーキテクチャ
技術者として抑えておきたい Power BI アーキテクチャ
Yugo Shimizu
DeNA のデータ活用を支える BigQuery データの民主化とガバナンス強化の軌跡 | Google Cloud INSIDE Games & App...
DeNA のデータ活用を支える BigQuery データの民主化とガバナンス強化の軌跡 | Google Cloud INSIDE Games & App...
Google Cloud Platform - Japan
データサイエンティスト養成読本の解説+書き忘れたこと
データサイエンティスト養成読本の解説+書き忘れたこと
Tokoroten Nakayama
分析指向データレイク実現の次の一手 ~Delta Lake、なにそれおいしいの?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
分析指向データレイク実現の次の一手 ~Delta Lake、なにそれおいしいの?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
NTT DATA Technology & Innovation
アサヒのデータ活用基盤を支えるデータ仮想化技術
アサヒのデータ活用基盤を支えるデータ仮想化技術
Denodo
Tableauのつまづきポイント
Tableauのつまづきポイント
Shinji Tamura
事業の進展とデータマネジメント体制の進歩(+プレトタイプの話)
事業の進展とデータマネジメント体制の進歩(+プレトタイプの話)
Tokoroten Nakayama
データファブリック実現のためのプロジェクトの進め方とは
データファブリック実現のためのプロジェクトの進め方とは
Denodo
全社のデータ活用を一段階上げる取り組み
全社のデータ活用を一段階上げる取り組み
株式会社MonotaRO Tech Team
20180627 - DEEP LEARNING LAB / Cognitive Services 最新情報 30 分でズバリ!
20180627 - DEEP LEARNING LAB / Cognitive Services 最新情報 30 分でズバリ!
Takashi Okawa
ビッグデータ活用とサーバー基盤
ビッグデータ活用とサーバー基盤
日本ヒューレット・パッカード株式会社
More Related Content
What's hot
「指標」を支えるエンジニアリング: DataOpsNight #1
「指標」を支えるエンジニアリング: DataOpsNight #1
株式会社MonotaRO Tech Team
データ分析基盤を支えるエンジニアリング
データ分析基盤を支えるエンジニアリング
Recruit Lifestyle Co., Ltd.
MonotaRO のデータ活用と基盤の過去、現在、未来
MonotaRO のデータ活用と基盤の過去、現在、未来
株式会社MonotaRO Tech Team
DMBOKをベースにしたデータマネジメント
DMBOKをベースにしたデータマネジメント
Kent Ishizawa
ビッグデータ処理データベースの全体像と使い分け
ビッグデータ処理データベースの全体像と使い分け
Recruit Technologies
データモデリング・テクニック
データモデリング・テクニック
Hidekatsu Izuno
グラフ構造のデータモデルをPower BIで可視化してみた
グラフ構造のデータモデルをPower BIで可視化してみた
CData Software Japan
JDMC LT#1 - なぜモノタロウでデータマネジメントが必要になったのか
JDMC LT#1 - なぜモノタロウでデータマネジメントが必要になったのか
株式会社MonotaRO Tech Team
ビッグデータ処理データベースの全体像と使い分け 2018年version
ビッグデータ処理データベースの全体像と使い分け 2018年version
Tetsutaro Watanabe
データウェアハウス入門 (マーケティングデータ分析基盤技術勉強会)
データウェアハウス入門 (マーケティングデータ分析基盤技術勉強会)
Takeshi Mikami
Cookpad TechConf 2016 - DWHに必要なこと
Cookpad TechConf 2016 - DWHに必要なこと
Minero Aoki
技術者として抑えておきたい Power BI アーキテクチャ
技術者として抑えておきたい Power BI アーキテクチャ
Yugo Shimizu
DeNA のデータ活用を支える BigQuery データの民主化とガバナンス強化の軌跡 | Google Cloud INSIDE Games & App...
DeNA のデータ活用を支える BigQuery データの民主化とガバナンス強化の軌跡 | Google Cloud INSIDE Games & App...
Google Cloud Platform - Japan
データサイエンティスト養成読本の解説+書き忘れたこと
データサイエンティスト養成読本の解説+書き忘れたこと
Tokoroten Nakayama
分析指向データレイク実現の次の一手 ~Delta Lake、なにそれおいしいの?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
分析指向データレイク実現の次の一手 ~Delta Lake、なにそれおいしいの?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
NTT DATA Technology & Innovation
アサヒのデータ活用基盤を支えるデータ仮想化技術
アサヒのデータ活用基盤を支えるデータ仮想化技術
Denodo
Tableauのつまづきポイント
Tableauのつまづきポイント
Shinji Tamura
事業の進展とデータマネジメント体制の進歩(+プレトタイプの話)
事業の進展とデータマネジメント体制の進歩(+プレトタイプの話)
Tokoroten Nakayama
データファブリック実現のためのプロジェクトの進め方とは
データファブリック実現のためのプロジェクトの進め方とは
Denodo
全社のデータ活用を一段階上げる取り組み
全社のデータ活用を一段階上げる取り組み
株式会社MonotaRO Tech Team
What's hot
(20)
「指標」を支えるエンジニアリング: DataOpsNight #1
「指標」を支えるエンジニアリング: DataOpsNight #1
データ分析基盤を支えるエンジニアリング
データ分析基盤を支えるエンジニアリング
MonotaRO のデータ活用と基盤の過去、現在、未来
MonotaRO のデータ活用と基盤の過去、現在、未来
DMBOKをベースにしたデータマネジメント
DMBOKをベースにしたデータマネジメント
ビッグデータ処理データベースの全体像と使い分け
ビッグデータ処理データベースの全体像と使い分け
データモデリング・テクニック
データモデリング・テクニック
グラフ構造のデータモデルをPower BIで可視化してみた
グラフ構造のデータモデルをPower BIで可視化してみた
JDMC LT#1 - なぜモノタロウでデータマネジメントが必要になったのか
JDMC LT#1 - なぜモノタロウでデータマネジメントが必要になったのか
ビッグデータ処理データベースの全体像と使い分け 2018年version
ビッグデータ処理データベースの全体像と使い分け 2018年version
データウェアハウス入門 (マーケティングデータ分析基盤技術勉強会)
データウェアハウス入門 (マーケティングデータ分析基盤技術勉強会)
Cookpad TechConf 2016 - DWHに必要なこと
Cookpad TechConf 2016 - DWHに必要なこと
技術者として抑えておきたい Power BI アーキテクチャ
技術者として抑えておきたい Power BI アーキテクチャ
DeNA のデータ活用を支える BigQuery データの民主化とガバナンス強化の軌跡 | Google Cloud INSIDE Games & App...
DeNA のデータ活用を支える BigQuery データの民主化とガバナンス強化の軌跡 | Google Cloud INSIDE Games & App...
データサイエンティスト養成読本の解説+書き忘れたこと
データサイエンティスト養成読本の解説+書き忘れたこと
分析指向データレイク実現の次の一手 ~Delta Lake、なにそれおいしいの?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
分析指向データレイク実現の次の一手 ~Delta Lake、なにそれおいしいの?~(NTTデータ テクノロジーカンファレンス 2020 発表資料)
アサヒのデータ活用基盤を支えるデータ仮想化技術
アサヒのデータ活用基盤を支えるデータ仮想化技術
Tableauのつまづきポイント
Tableauのつまづきポイント
事業の進展とデータマネジメント体制の進歩(+プレトタイプの話)
事業の進展とデータマネジメント体制の進歩(+プレトタイプの話)
データファブリック実現のためのプロジェクトの進め方とは
データファブリック実現のためのプロジェクトの進め方とは
全社のデータ活用を一段階上げる取り組み
全社のデータ活用を一段階上げる取り組み
Similar to 初めてのデータ分析基盤構築をまかされた、その時何を考えておくと良いのか
20180627 - DEEP LEARNING LAB / Cognitive Services 最新情報 30 分でズバリ!
20180627 - DEEP LEARNING LAB / Cognitive Services 最新情報 30 分でズバリ!
Takashi Okawa
ビッグデータ活用とサーバー基盤
ビッグデータ活用とサーバー基盤
日本ヒューレット・パッカード株式会社
[DI12] あらゆるデータをビジネスに活用! Azure Data Lake を中心としたビックデータ処理基盤のアーキテクチャと実装
[DI12] あらゆるデータをビジネスに活用! Azure Data Lake を中心としたビックデータ処理基盤のアーキテクチャと実装
de:code 2017
For Power BI Beginners
For Power BI Beginners
Tomoyuki Oota
【最小限の学習コスト】効率的なビッグデータ収集・連携とは?
【最小限の学習コスト】効率的なビッグデータ収集・連携とは?
株式会社クライム
【de:code 2020】 Power Platform で広がるデータ インテグレーションの世界 (1/2)
【de:code 2020】 Power Platform で広がるデータ インテグレーションの世界 (1/2)
日本マイクロソフト株式会社
AIOpsで実現する効率化 OSC 2022 Online Spring TIS
AIOpsで実現する効率化 OSC 2022 Online Spring TIS
Daisuke Ikeda
Part 4: Power Platform 概説 (製造リファレンス・アーキテクチャ勉強会)
Part 4: Power Platform 概説 (製造リファレンス・アーキテクチャ勉強会)
Takeshi Fukuhara
カスタマーサクセスのためのデータ整備人の活動記録
カスタマーサクセスのためのデータ整備人の活動記録
syou6162
ビッグデータ分析基盤が直面する課題をオブジェクトストレージで解決
ビッグデータ分析基盤が直面する課題をオブジェクトストレージで解決
CLOUDIAN KK
分析のモダナイズへのヒント:データ価値を最大化するビジュアル分析とエンタープライズ組織への展開 - 経営課題解決シンポジウム (2018/09/28)
分析のモダナイズへのヒント:データ価値を最大化するビジュアル分析とエンタープライズ組織への展開 - 経営課題解決シンポジウム (2018/09/28)
Ryusuke Ashiya
Big data解析ビジネス
Big data解析ビジネス
Mie Mori
先行事例から学ぶ IoT / ビッグデータの始め方
先行事例から学ぶ IoT / ビッグデータの始め方
Cloudera Japan
Data × AI でどんな業務が改善できる? 製造業様向け Data × AI 活用ユースケース & 製造MVPソリューションのご紹介
Data × AI でどんな業務が改善できる? 製造業様向け Data × AI 活用ユースケース & 製造MVPソリューションのご紹介
IoTビジネス共創ラボ
MLOps Course Slides_JP(配布用).pdf
MLOps Course Slides_JP(配布用).pdf
Yuya Yamamoto
リクルート式ビッグデータ活用術
リクルート式ビッグデータ活用術
Recruit Technologies
え?まだフルスクラッチで開発してるの!?Power Platform をフル活用すると普通にシステムができるんですよ
え?まだフルスクラッチで開発してるの!?Power Platform をフル活用すると普通にシステムができるんですよ
Yugo Shimizu
【2017年5月時点】セルフサービスBIからエンタープライズまで展開できるOracle Business Analytics クラウドプラットフォームのご紹介
【2017年5月時点】セルフサービスBIからエンタープライズまで展開できるOracle Business Analytics クラウドプラットフォームのご紹介
オラクルエンジニア通信
[de:code 2019 振り返り Night!] Data Platform
[de:code 2019 振り返り Night!] Data Platform
Naoki (Neo) SATO
E-commerce企業におけるビッグデータへの挑戦と課題‐機械学習への期待について‐
E-commerce企業におけるビッグデータへの挑戦と課題‐機械学習への期待について‐
Rakuten Group, Inc.
Similar to 初めてのデータ分析基盤構築をまかされた、その時何を考えておくと良いのか
(20)
20180627 - DEEP LEARNING LAB / Cognitive Services 最新情報 30 分でズバリ!
20180627 - DEEP LEARNING LAB / Cognitive Services 最新情報 30 分でズバリ!
ビッグデータ活用とサーバー基盤
ビッグデータ活用とサーバー基盤
[DI12] あらゆるデータをビジネスに活用! Azure Data Lake を中心としたビックデータ処理基盤のアーキテクチャと実装
[DI12] あらゆるデータをビジネスに活用! Azure Data Lake を中心としたビックデータ処理基盤のアーキテクチャと実装
For Power BI Beginners
For Power BI Beginners
【最小限の学習コスト】効率的なビッグデータ収集・連携とは?
【最小限の学習コスト】効率的なビッグデータ収集・連携とは?
【de:code 2020】 Power Platform で広がるデータ インテグレーションの世界 (1/2)
【de:code 2020】 Power Platform で広がるデータ インテグレーションの世界 (1/2)
AIOpsで実現する効率化 OSC 2022 Online Spring TIS
AIOpsで実現する効率化 OSC 2022 Online Spring TIS
Part 4: Power Platform 概説 (製造リファレンス・アーキテクチャ勉強会)
Part 4: Power Platform 概説 (製造リファレンス・アーキテクチャ勉強会)
カスタマーサクセスのためのデータ整備人の活動記録
カスタマーサクセスのためのデータ整備人の活動記録
ビッグデータ分析基盤が直面する課題をオブジェクトストレージで解決
ビッグデータ分析基盤が直面する課題をオブジェクトストレージで解決
分析のモダナイズへのヒント:データ価値を最大化するビジュアル分析とエンタープライズ組織への展開 - 経営課題解決シンポジウム (2018/09/28)
分析のモダナイズへのヒント:データ価値を最大化するビジュアル分析とエンタープライズ組織への展開 - 経営課題解決シンポジウム (2018/09/28)
Big data解析ビジネス
Big data解析ビジネス
先行事例から学ぶ IoT / ビッグデータの始め方
先行事例から学ぶ IoT / ビッグデータの始め方
Data × AI でどんな業務が改善できる? 製造業様向け Data × AI 活用ユースケース & 製造MVPソリューションのご紹介
Data × AI でどんな業務が改善できる? 製造業様向け Data × AI 活用ユースケース & 製造MVPソリューションのご紹介
MLOps Course Slides_JP(配布用).pdf
MLOps Course Slides_JP(配布用).pdf
リクルート式ビッグデータ活用術
リクルート式ビッグデータ活用術
え?まだフルスクラッチで開発してるの!?Power Platform をフル活用すると普通にシステムができるんですよ
え?まだフルスクラッチで開発してるの!?Power Platform をフル活用すると普通にシステムができるんですよ
【2017年5月時点】セルフサービスBIからエンタープライズまで展開できるOracle Business Analytics クラウドプラットフォームのご紹介
【2017年5月時点】セルフサービスBIからエンタープライズまで展開できるOracle Business Analytics クラウドプラットフォームのご紹介
[de:code 2019 振り返り Night!] Data Platform
[de:code 2019 振り返り Night!] Data Platform
E-commerce企業におけるビッグデータへの挑戦と課題‐機械学習への期待について‐
E-commerce企業におけるビッグデータへの挑戦と課題‐機械学習への期待について‐
More from Techon Organization
心理学・行動経済学を活用した行動変容とAI
心理学・行動経済学を活用した行動変容とAI
Techon Organization
ポスター掲示板オープンデータ化の裏側
ポスター掲示板オープンデータ化の裏側
Techon Organization
静岡県が目指す「VIRTUAL SHIZUOKA構想」とは?
静岡県が目指す「VIRTUAL SHIZUOKA構想」とは?
Techon Organization
マルチクラウドの悩み
マルチクラウドの悩み
Techon Organization
Tech-on MeetUp#10 「NW-JAWS × Tech-on 勉強会#01」アンケート集計結果
Tech-on MeetUp#10 「NW-JAWS × Tech-on 勉強会#01」アンケート集計結果
Techon Organization
NW-JAWS × Tech-on#01 LT NWaaS(ナース)って、なんなーすか?
NW-JAWS × Tech-on#01 LT NWaaS(ナース)って、なんなーすか?
Techon Organization
Tech on#9
Tech on#9
Techon Organization
Tech-on MeetUp#09_closing
Tech-on MeetUp#09_closing
Techon Organization
Tech-on MeetUp#09 Microsoft資料
Tech-on MeetUp#09 Microsoft資料
Techon Organization
Tech-on MeetUp#09 hitachi資料
Tech-on MeetUp#09 hitachi資料
Techon Organization
Tech-on MeetUp#09 KDDI資料
Tech-on MeetUp#09 KDDI資料
Techon Organization
Tech-on#8 「ロボティクス〜人と生活を支えるTech〜」 アンケート集計結果
Tech-on#8 「ロボティクス〜人と生活を支えるTech〜」 アンケート集計結果
Techon Organization
Tech-on MeetUp#08クロージング
Tech-on MeetUp#08クロージング
Techon Organization
Connected Robotics「ロボットと一緒に働くお店をつくる」
Connected Robotics「ロボットと一緒に働くお店をつくる」
Techon Organization
Techh on#7 アンケート集計結果
Techh on#7 アンケート集計結果
Techon Organization
Tech-on1周年のあゆみと#07クロージング
Tech-on1周年のあゆみと#07クロージング
Techon Organization
Tech-on MeetUp#06「What can AI(I) do?」 アンケート集計結果
Tech-on MeetUp#06「What can AI(I) do?」 アンケート集計結果
Techon Organization
Tech on#06 SXSW2019に見るAIの未来 帆足啓一郎様@KDDI総合研究所
Tech on#06 SXSW2019に見るAIの未来 帆足啓一郎様@KDDI総合研究所
Techon Organization
Tech on#06 強化学習を使った次世代シミュレーション最適化 Eduardo Gonzalez様@skymind
Tech on#06 強化学習を使った次世代シミュレーション最適化 Eduardo Gonzalez様@skymind
Techon Organization
Tech-on MeetUp#05「xR meets Everything 〜VR/AR/MRが変える日常と取り巻く技術たち〜」 アンケート集計結果
Tech-on MeetUp#05「xR meets Everything 〜VR/AR/MRが変える日常と取り巻く技術たち〜」 アンケート集計結果
Techon Organization
More from Techon Organization
(20)
心理学・行動経済学を活用した行動変容とAI
心理学・行動経済学を活用した行動変容とAI
ポスター掲示板オープンデータ化の裏側
ポスター掲示板オープンデータ化の裏側
静岡県が目指す「VIRTUAL SHIZUOKA構想」とは?
静岡県が目指す「VIRTUAL SHIZUOKA構想」とは?
マルチクラウドの悩み
マルチクラウドの悩み
Tech-on MeetUp#10 「NW-JAWS × Tech-on 勉強会#01」アンケート集計結果
Tech-on MeetUp#10 「NW-JAWS × Tech-on 勉強会#01」アンケート集計結果
NW-JAWS × Tech-on#01 LT NWaaS(ナース)って、なんなーすか?
NW-JAWS × Tech-on#01 LT NWaaS(ナース)って、なんなーすか?
Tech on#9
Tech on#9
Tech-on MeetUp#09_closing
Tech-on MeetUp#09_closing
Tech-on MeetUp#09 Microsoft資料
Tech-on MeetUp#09 Microsoft資料
Tech-on MeetUp#09 hitachi資料
Tech-on MeetUp#09 hitachi資料
Tech-on MeetUp#09 KDDI資料
Tech-on MeetUp#09 KDDI資料
Tech-on#8 「ロボティクス〜人と生活を支えるTech〜」 アンケート集計結果
Tech-on#8 「ロボティクス〜人と生活を支えるTech〜」 アンケート集計結果
Tech-on MeetUp#08クロージング
Tech-on MeetUp#08クロージング
Connected Robotics「ロボットと一緒に働くお店をつくる」
Connected Robotics「ロボットと一緒に働くお店をつくる」
Techh on#7 アンケート集計結果
Techh on#7 アンケート集計結果
Tech-on1周年のあゆみと#07クロージング
Tech-on1周年のあゆみと#07クロージング
Tech-on MeetUp#06「What can AI(I) do?」 アンケート集計結果
Tech-on MeetUp#06「What can AI(I) do?」 アンケート集計結果
Tech on#06 SXSW2019に見るAIの未来 帆足啓一郎様@KDDI総合研究所
Tech on#06 SXSW2019に見るAIの未来 帆足啓一郎様@KDDI総合研究所
Tech on#06 強化学習を使った次世代シミュレーション最適化 Eduardo Gonzalez様@skymind
Tech on#06 強化学習を使った次世代シミュレーション最適化 Eduardo Gonzalez様@skymind
Tech-on MeetUp#05「xR meets Everything 〜VR/AR/MRが変える日常と取り巻く技術たち〜」 アンケート集計結果
Tech-on MeetUp#05「xR meets Everything 〜VR/AR/MRが変える日常と取り巻く技術たち〜」 アンケート集計結果
初めてのデータ分析基盤構築をまかされた、その時何を考えておくと良いのか
1.
初めてのデータ分析基盤構築をまかされた、 その時何を考えておくと良いのか 2020/07/27 Tech-on MeetUp
Online #2 「もしエンタープライズのエンジニアがデータ分析をやることになったら」 @yutah_3
2.
自己紹介 普段のお仕事 ● データ分析や DB
周りで困っているお客様への技術的ご支援を しております ● チームを動きやすく、データドリブン/データインスパイアな意思 決定をするべく社内 DWH のデータマートの整備やデータ分析 を日常的にやっています ● BigQuery ユーザーでもあり、コンサルでもあります ● 日経 xTech Learning 等に寄稿したりしています ” Googleエンジニアと学ぶ GCP[ビッグデータ]” https://xtech.nikkei.com/atcl/learning/lecture/19/00089/ #本日は個人としての登壇であり、所属する企業、 団体を代表する意見ではありませんが、 私の経験上 GCP (Google Cloud) の話が多くなります。 寳野 雄太 | Yuta Hono Head of Specialist Customer Engineering (Analytics & DB) Google Cloud Twitter : @yutah_3
3.
本日のお話 ● 気をつけたいデータ分析プロジェクト ● そもそも、「データ分析をするぞ!」って・・・? ●
あるある注意点とその解決例
4.
気をつけたい データ分析プロジェクト
5.
こんな経験、ありませんか? DX※ に力入れたくて、データ 分析、始めたいんだよね、い い感じにしてよ! あ、はい、わかりました 何をすればいいん だろう・・・ ※ Digital Transformation
の略 以下、いらすとや さんのイラストを利用させていただき、 ゆるーくいきます。
6.
気をつけたいデータ分析プロジェクト とりあえず箱をつくろう。 アプリ DB アプリ サーバーログ その他 (IoT, 非構造, 半 構造データ ) データレイク 完
7.
そもそも、 「データ分析をするぞ!」 って・・・?
8.
そもそも何をしたいのか掘り下げ なぜデータ分析するんでしょうか? いまはやっていないのでしょうか? 進捗把握をしたい ● 定形ダッシュボード 原因見つけたい ● アドホック分析 ●
データマイニング ● BIツールのドリルダウン 売上をあげたい ● レコメンド(ML) ● セグメンテーション (ML) データ分析の例(MECEではない) 意思決定したい (データインスパイア、データドリブン) ● カスタマイズしたレポート (含む、データの裏側の理由)
9.
そもそも何をしたいのか掘り下げ なぜデータ分析するんでしょうか? いまはやっていないのでしょうか? 進捗把握をしたい ● 定形ダッシュボード 原因見つけたい ● アドホック分析 ●
データマイニング ● BIツールのドリルダウン 売上をあげたい ● レコメンド(ML) ● セグメンテーション (ML) データ分析の例(MECEではない) 意思決定したい (データインスパイア、データドリブン) ● カスタマイズしたレポート (含む、データの裏側の理由) 本日は時間の都合上割愛 データ分析ではドメイン知識や ビジネス課題の発見、設定がとても重要ですが 今日はエンジニア向けなので、基盤の話に振ります。
10.
(データ基盤の) あるある注意点と その解決例
11.
課題1 . 初期投資できない アプリ DB アプリ サーバーログ その他 (IoT,
非構造, 半構造 データ ) データレイク 将来的には 10 PiB でもまずは 1 GiB / 月 10 PiBはサービスがあたったときの試算 データソースは徐々に増やしていく 総インフラ XX 億円の 稟議、取れますか?
12.
解決例 1 .
クラウドを利用する データレイク オブジェクトストレージ等、 クラスタを作らず利用できるもの が相性良 例 : Google Cloud Storage データ分析基盤と 従量課金のクラウドは相性が良い。 大抵の場合、 データ分析基盤自体は お金を直接産まない。 ビジネス成果を 見せて投資を増やしてもらう。 アプリ DB アプリ サーバーログ その他 (IoT, 非構造, 半構造 データ )
13.
課題2 . (狭義の)データレイクにデータ入れっぱなし アプリ DB アプリ サーバーログ その他 (IoT,
非構造, 半構造 データ ) データレイク 分析できない / しない ?
14.
解決例 2. DWH
にデータを入れる データは DWH に格納 あるいはデータレイクとしている ストレージに 分析クエリをかけられる技術を利用 (トレードオフ : パフォーマンス) 理想的な アーキテクチャでは こうだが・・・ ※ETL : Extract, Transform, Load の略 データを取り出し、変換し整形しながら DB などにロードをすることを指す。 アプリ DB アプリ サーバーログ その他 (IoT, 非構造, 半構造 データ ) データレイク DWH ※ETL
15.
課題3. DWH が用途・部署ごとに乱立(サイロ化) アプリ DB アプリ サーバーログ その他 (IoT,
非構造, 半構造 データ ) データレイク (例:物理ストレージが 異なる、バケットやアカ ウントが異なる) 実態は: ● 用途・責任別に乱立 各 DWH がクラスタやアカウントが異な る ● 隣の DWH に欲しいデータがあるの で、DWH から DWH へのデータコピー も発生、二重持ち ● 同じデータが気づかず隣りにあって、同 じ ETL を隣でしていることも ● どこにどのデータがコピーされたのか 管理が難しく、混乱 / 高コストへ DWH (例:クラスタが異なる) ETL
16.
解決例 3. 組織を超えてデータの全社最適化 DWH マルチテナントの
DWH を活用: (例 : BigQuery 等 - Google 社内でもよく使ってます。) ● リージョンで1つの仮想的な「箱」 ● 権限で制御、社内でデータシェアしたい場合には 権限を付与するだけ 外部漏洩防止機能は要確認 ● データコピーなしにデータ共有、 JOIN ができる ● データを社外から買い付けて即時利用可能 (商用データセット, トムソン・ロイターとCitibank の市場データ事例) ● 副次的に、規模の経済が活きる 自分だけで大きな DWHクラスタを構築する必要なく 十分なパフォーマンスを得られる. コストもクエリ・ストレージとも に従量課金。(!= クラスタ課金) アプリ A ログ アプリ B ログ 基幹 DB データ 課金データ デバイスログ IAMや 追加の制御機構 ※ 経済産業省の DX推進指標とそのガイダンス でも「データを、部門を超えて全社最適で活用できる か」というテーマが入ってますね ※追加の制御機構には BigQuery の場合、データ持ち出しや IP 制限などを実現する VPC Service Controls や列レベルアクセス 、テーブル ACL などがあります
17.
結論? データがかんたんにシェア できるシステムが整った! 社内のデータ資産を活かし、 データ活用が加速! No. これだけではベースライン. 体制やスキルなども考慮.
18.
このデータどこから来てる? 信用できるデータ? 課題4. データマート責任者不在、効率低下 BI ツール スプレッドシート Jupyter
Notebooks クエリ DWH ビジネスユーザー/ データアナリスト データ サイエンティスト 情報系アプリ もっとこういうデータが欲しいけど・・・ 自分で交渉しないとだめ? もっとこういう集計形式にしてほしいけ ど、BI ツール側の計算フィールド追加 するの嫌だなぁ・・・ トランザクション日だけでなく、四半期 とかのカラムもほしい。 このデータどういう意味だっけ?
19.
解決例 4. データのイテレーションを回す データ追加、フォーマット整備、マート整備、カタログ、リネージュ
etc. ビジネスユーザー/ データアナリスト データサイエンティスト データアーキテクト/ データエンジニア ELT/ETL を見直し要望に答える データマート整備を実現& データソース交渉は任せろ! データカタログやリネージュも 整備してくけど、ドメインナレッジは手伝ってね! よりビジネスの貢献に つかう時間が増えた! もっと X できる? データから知見を 発見する部分やモデルの開 発に専念できる! もっと Y できる? BI ツール スプレッドシート Jupyter Notebooks クエリ DWH 情報系アプリ ※データガバナンスの世界ではデータ スチュワードと呼びます。エンジニアが 兼務するのか業務側がやるのか別途 悩ましい。
20.
課題5. データ分析する人のスキルとツールが合わない BI ツール スプレッドシート クエリ DWH ビジネスユーザー 情報系アプリ データ基盤を整えた後、 よくある声: ●
やっぱりスプレッドシートで ダウンロードしたい (ダウンロードした時期が違うデータを VLOOKUP とか、あ りますよね・・・) ● BI ツールの使い方覚えるの難しい ● クエリ書くのに黒い画面(コンソール) 見るの嫌だ ● クエリ書くときにデータセットをselect * (snip) LIMIT 10 とかして 中身みるのは面倒・・・ アナリスト IT 部門 基盤・ツール整備したのに データ抽出依頼が減らない ・・・
21.
解決例 5. ユーザーフレンドリーなツールをつかいながら ユーザー教育する(外部の力もつかうことを検討) ※G
Suite Update ブログから引用 例. Connected Sheets ※: Spreadsheet の関数やピボットテーブルを BigQuery のクエリにして実行し、描写や使い勝手は Spreadsheet だが、最新の情報を取り出せる。 =使い勝手 Spreadsheet そのまま =ローカル取り出しでデータが stale しない =スケーラビリティは BigQuery が担保 例. BigQuery コンソール : データセットが UI から探せる。テーブルの中身をプレ ビューしながらクエリをかけるのはイメージが湧きやす い。テーブルのカラムに説明を加えることもできる。 メタ データ管理の Data Catalog とも連動。 =スキーマ設計書と行き来しなくてよい =こんなデータあるかな?を検索できる
22.
課題6. データの活用による新しい課題 従来: ● 限られたユーザーが限られたデータ活用しかし ないので、 インデックスチューニングを頑張るOR
DWH を ユーザーごとにわける データ活用が進むと: ● 全データ、一箇所にあってほしい ● アドホックが増えるので、パターンが読めず、イ ンデックスチューニングできない ● セルフサービスBI などにより、クエリ数が増え るので、クエリづまりが起きる ● データアーキテクトの仕事も増えるので、定期 的な DWH のメンテなども時間をかけられない DWH ビジネスユーザー アナリスト IT 部門 気合でインデックスチューニング しようとしたけど次々と新しいユース ケースが。もう無理なので、新しい データ入れるのやめてください! 重いクエリ投げた 人が一人いて DWH が動いてい ません・・・
23.
解決例 6a. 力技 ※
BigQuery ドキュメント「スロット」より引用。 データセンターレベルのスケーラビリティを利用すると インデックスを持たずともあらゆるクエリパターンに高速な分析可能に(力技) 例. BigQuery のクエリ処理の様子: ● 基本的にクエリを複数のワーカーで分散して処理 する ● 複数のワーカーの単位を「スロット」とよぶ ● 場合によっては普通に1 万以上つかうこともある ● 最速で終わるように自動で分散処理を最適化 ● 力技でクエリを実行するのでインデックスを持た ず、基本は対象データのフルスキャンをする = インデックスを持たなくても高速 マスタ ワーカー 分散ディスク ワーカー ワーカー... ... 分散 インメモリ シャッフル 横にスケールさせる (スケールアウトの思想)
24.
解決例 6b. 動的なクエリプラン ※
BigQuery ドキュメント「スロット」より引用。 ※ 優先順位はBigQuery Reservations で設定する 先に実行されたクエリが DB のリソースを 食いつぶしたまま居残り、後続をブロックしない 例. BigQuery のクエリ処理の様子: ● クエリプランは全て動的 ● 全クエリでのパフォーマンス最適化を行うために、 後続の並列クエリが来たら、実行中のクエリの割 当リソースを最適化して後続のクエリも実行できる ようにする ● (実行優先順位、割当優先も設定できる) ● よくいう「クエリづまり」が起きづらい
25.
解決例 6c. サーバーレス
DWH をつかう ハードウェア クラウド上の DWH インデックス、 クラスタ管理、高可用 性担保 データの整理 データマートの管理 メタデータ管理 データ活用 BI, MLデータ サイエンティスト, サービス企画 データアーキテクト クラウドエンジニア よりよいデータ活用には、 データアーキテクトが必要 クラウド管理から、データ活用にフォーカス サーバーレス DWH に 任せる 例 : BigQuery よりビジネス付加価値の高い 技術にフォーカス より使いやすいデータ、 でデータ活用を推進
26.
まとめ データ基盤を考える際には、データ要件に対応できるイテレーションを回せるような体制づくりが重要 ● データ整備にフォーカスできるようなリソースのかけ方を目指す ● 新しいスキル習得が必要な場合もある、ギャップを小さくするツールからまず慣れる データ活用がエンタープライズで進むと、アドホックなクエリが増える(あるいは
BI ツールを通したアドホッ ク) ● インデックスチューニングは諦めて、並列分散処理するような DWH で力技を検討 ● クエリの並列性に対応しやすい、動的なクエリプランで実行できる DWH を考慮に入れる ● マルチテナントだと規模の経済が生きる! ビジネス成果を出すことにフォーカスできるような 基盤を考えて段々と作っていきましょう!
27.
おわり? いい感じのデータ基盤が できた!
28.
さいごに データエンジニアの戦いはまだまだ続く! で、今度はリアルタイムに 指標見たいな! あと、売上着地予想出してほし いな!AI ってやつで! 投資とセットなら 喜んで! データガバナンスとか Trusted Data
ってやつをね。やっていこ うと思うんですよ。 この間のアレ(ダッシュボード)す ごい良かったよ! etc. (データ基盤はビジネス要求と密接に関わります。こういうことを言われなくても、常にビジネス要求を 先取りして進化させる必要があります。一緒に頑張りましょう。)
Download now