SlideShare uma empresa Scribd logo
1 de 28
Baixar para ler offline
データエンジニア”と”作る
データ文化
6/25 オープンセミナー2022@広島 YUKI SAITO
@yuki_saito_en
斎藤 友樹(SAITO YUKI)
システムでも野菜でもお菓子でも作ることが好きです
2
https://menta.work/plan/2650
https://www.udemy.com/user/yuki-saito-7/
@yuki_saito_en
https://service.visasq.com/users/6078548267368448
@yuki_saito_en
データプロフェッショナルとしての
データエンジニアの活躍場面は多岐に渡る
3
データ活用
ETL
データ理解
(ビジネスメタ
データ)
データパイプラ
イン
データマート データ分析
ETL
データアクセス
の提供
BI
NoteBook
etc…
データ品質
データテスト
育苗 輸送 仕分け 中継 販売 受取り 調理
データモデリング
@yuki_saito_en
データエンジニアとエンジニア
組織や文化を戦略的に作るところに視点が置かれているかどうか
4
エンジニア データエンジニア
テクニカル
(Python、Java、
などなど)
テクニカル
(Python、Java、
などなど)
データエンジニアリング
(秘伝のたれ解消、再現性
を高める活動、文化の構
築)
@yuki_saito_en
データドリブン文化の事情
障壁や変化を起こすポイント 1 5
@yuki_saito_en
よし!
データドリブンだ
6
データ活用で生産性をあげる(ハードスキルな世界)
データ活用の生産性をあげる(ソフトスキルな世界)
≒
@yuki_saito_en
データドリブン
「データ活用で生産性をあげる」だけで解決しようとする
7
業務アプリ データ分析基盤 ETL 活用/利用
@yuki_saito_en
8
@yuki_saito_en
9
出典:Gartner (2021年6月)
@yuki_saito_en
人とデータ
10
との戦い
データドリブン文化は
活用に向かない
@yuki_saito_en
エンジニアリング
11
を使って人や組織に働きかけ改善したい
そこで
データ
@yuki_saito_en
SaaS時代 変化を起こすエンジニアリング着眼ポイント
12
育苗 輸送 仕分け 中継 販売 受取り 調理
10
SaaS SaaS SaaS
理解 品質、ETL
データ分
析
@yuki_saito_en
宣伝 10を知るためのおすすめの書籍
13
● データ分析基盤の開発に携わっている方
● より良いデータ活用環境を実現したい方
● エンジニアリングを使ってデータ系開発を成
功させたい方
@yuki_saito_en
データドリブンな文化を創る
千里の道も一歩から 214
@yuki_saito_en
データドリブンファネル
15
継続
文化
発見
試行
理解
納得
社内での活動やコミュニティでの活動でより多くの人を巻き込む
テクニカルな面も含め理解や共通認識がある
(通
信不確実性の排除)
小さく、素早く試せる環境がある
(アジリティ&アジャイル
)
結果に対して納得感がある
(成果不確実性の排除
)
難しいルールがなく、続けられる
(取引コスト(コミュニケーションコスト
)の最小化)
当たり前になる
(データ活用で/の生産性の向上)
()は内エンジニアリングのポイント
@yuki_saito_en
メタデータの整備を通した通信不確実性の排除
データ参画者間の共通言語(共通指標)としてメタデータを利用
自分の頭だけにメタデータを残さないように、後に残るシステムを作る
16
メタデータの調査
メタデータの理解
(言語化)
データ活用
データの活用はメタデータの理解から始まる
データ活用
の生産性を
高める
理解
@yuki_saito_en
言語化のプロセス データのテスト
17
Primary Key
重複したデータを発見すること。重
複データは算出結果のノイズや
データ。操作の複雑化に繋がるの
でビッグデータの世界でも PKを意
識する。
Dictionary
特定の辞書(Pythonのディクショナ
リみたいな)で事前に定義した値に
データが収まっているか確認す
る。やってみるとボロボロ見つか
る。
Record Num
テーブルや日々 ETLしているデー
タの件数が異常な状態になってい
ないかを確認する。処理するデー
タが多くなってきた際には一々全
部見切れないので必須
Check Null
データのNull具合を確認。内外的
な要因でいきなり Nullが急激に増
えたりする。また、レコード内に
Nullが多い場合はETLするかそも
そも取り込まないなどすることも検
討する。
Zero Control
足し算の結果など、数値の整合性
が取れていることを確認すること。
エラーとなることは少ないものの
数値の計算にはミスがあると大変
なのでダブルチェックの意味でも
確認する。
Format
特定のフォーマットに沿っているか
確認をすること。
男、女、0、1、郵便番号、社内で利
用している業務用のコードなど。大
抵これらが揃っておらず大いに苦
労する。
データのテストはデータの定義を言語化するプロセスに等しい
データ活用
の生産性を
高める
理解
@yuki_saito_en
データ品質担保を通した成果不確実性の排除
自身の勘と答え合わせすることにより納得感のアップに繋がるが、
データが間違えていると間違った納得感を生み出す
18
50%
くらいだろう
65% 15%
くらいだろう
くらいだろう
データ活用
の生産性を
高める
納得
@yuki_saito_en
もう少し考えてみるデータ品質
19
id 性別
1 男
2 1
3 男
4 女
5 0
6 男
id 性別
1 1
2 1
3 1
4 0
5 0
6 1
検索の条件(where 性別=’男’
や’1’)によっては50%にも15%
にもなり得る。どんな条件でも
それっぽい結果が出る点が
中々にあくどい。
検索の条件(where 性別=’男’
や’1’)によっては0%か65%と
なる。変な検索条件の場合は
人間の違和感を発動させる。
データセット1 データセット2
データ活用
の生産性を
高める
納得
@yuki_saito_en
データドリブンな文化を醸成する
シンプルな方法で継続する 320
@yuki_saito_en
周りの社員の教育と実践を通して組織の情報処理能力を上げる
全員がSQL記述して自身でデータ解釈できるレベルを目指す
21
研修や勉強会
外部研修、内部研修、
勉強会など時間、お金
を人材に投資する。
SQLはもはやエンジニア
のものではない。
実践
研修しただけでは、なか
なか実際に使えないの
が現実
小さな変化を起こし続け
芽がで始めることを期
待
成功体験
データ系組織の小さな
変化や泥臭さも含め、
成功体験から実践を後
押しする。
Excelを使ってXXしてみ
たのような経験談の方
が響く場合もある
データ活用
の生産性を
高める
理解
試行
@yuki_saito_en
取引コストを最小限にすることを意識する
シンプルイズベスト
22
民主化
面倒なプロセスの一つに「データのアクセス権限」がある。
データのアクセス権限に勾配をつけずできる限り平坦にすることを
「データの民主化」と呼んでいる。
人間はめんどくさがりの生き物なので、
● 金曜の夕方に申請とかめんどくさいから来週にしよう
● アクセス権が適用されている多くは認知されず利用されない
( 探索をするコストが大きい )
データ活用
の生産性を
高める
試行
継続
@yuki_saito_en
レギュレーション(ルール)を作り成果不確実性を減らす
少しづつ関係や文化の芽吹きを感じたらデータ活用を前提とす
るようなルールを作る
23
業務アプリとのコラボ
社内で新しく作るプロダクトから発
生するデータ(例えばアクセスログ
や分析を前提としたログなど)は
データ分析基盤へ取り込むことを
前提に構築やプロセスの設計(KPI
設計など)を行う。
入社時オリエンテーション
データ利活用を前提としている会
社なのだと認識してもらうために入
社と共にアカウントを発行する。
入社後研修の内容としてデータ分
析のお試しができると良い。
データ活用
で生産性を
高める
継続
@yuki_saito_en
データ活用で生産性高くデータ分析基盤開発をしよう
データ分析基盤開発の継続的改善をユーザ起点で
24
Google Form
構造化アンケートの代
表格。手軽に情報を集
めるために必須のツー
ル。内容はUX調査の基
本でOK
ログ解析/SQL解析
人間の意識に出てこな
い情報を引き出すため
の源泉になる。
アクセスログでもアクセ
スだけでなく、どこでス
クロールが途切れたか
などを細かくみる。
ユーザインタビュー
ログ解析やGoogle 
Form回答の結果から仮
説を立て、より深く聞き
たい部分はデプスイン
タビューを行う。
インタビューばかりだと
取引コストが増える
データ活用
で生産性を
高める
継続
@yuki_saito_en
まとめ
エンジニアリングを通して人を知りデータを知ろう 425
@yuki_saito_en
まとめ
エンジニアリングを使って文化の成長にドライブをかけよう
26
メタデータで言語化
言語化の先にデータの理解と活
用がある。メタデータは組織の総
合力。不確実性軽減のためにエン
ジニア以外も積極的にデータや事
柄を言語化していこう。
データのテスト
間違えた意思決定を防ぐだけでな
く、思わぬ発見や理解に繋がる。
プログラムだけでなく、データも積
極的にテストをしていこう。
シンプルイズベスト
無法地帯とならないように、窮屈
になりすぎないように。現状に合
わせすぎるのではなく、現状を変
えてシンプルなルールを作ってい
こう。
人の特性を理解する
人はめんどくさがり。「やってくださ
い」ではやってくれない。取引コス
トは最低限にルールや仕組みは
シンプルになるように元の仕組み
を変えることを考えよう。
科学的に人との関係を大切に
簡単なアンケートからでも良いの
で事業を進めるヒントを得よう。ま
たユーザは優しい嘘をつく。プロダ
クトを科学的に改善していこう
教育と実践
研修だけでなく、データ系組織の
成功事例や苦労を積極的に発信
しよう。また、いつでも気軽にデー
タに扱える環境を用意して実践で
きる環境を作ろう。
@yuki_saito_en
ご参考のURL
◉ https://www.kdnuggets.com/2021/05/most-demand-skills-d
ata-engineers-2021.html
◉ https://www.amazon.co.jp/-/en/%E6%96%8E%E8%97%A
4-%E5%8F%8B%E6%A8%B9/dp/4297127245/ref=tmm_p
ap_swatch_0?_encoding=UTF8&qid=&sr=
27
@yuki_saito_en
ありがとう
ございました!
28

Mais conteúdo relacionado

Semelhante a データエンジニアと作るデータ文化

Do you wanna be a V-ROCK star?
Do you wanna be a V-ROCK star?Do you wanna be a V-ROCK star?
Do you wanna be a V-ROCK star?Yugo Shimizu
 
DXはなぜ進まないのか? 経営とITの観点からの課題と提言(NTTデータ テクノロジーカンファレンス 2020 発表資料)
DXはなぜ進まないのか? 経営とITの観点からの課題と提言(NTTデータ テクノロジーカンファレンス 2020 発表資料)DXはなぜ進まないのか? 経営とITの観点からの課題と提言(NTTデータ テクノロジーカンファレンス 2020 発表資料)
DXはなぜ進まないのか? 経営とITの観点からの課題と提言(NTTデータ テクノロジーカンファレンス 2020 発表資料)NTT DATA Technology & Innovation
 
Tableau Desktop データ準備の新機能: ユニオン、ピボット、データインタープリタ、など
Tableau Desktop データ準備の新機能: ユニオン、ピボット、データインタープリタ、などTableau Desktop データ準備の新機能: ユニオン、ピボット、データインタープリタ、など
Tableau Desktop データ準備の新機能: ユニオン、ピボット、データインタープリタ、などRyusuke Ashiya
 
座談会資料(当日メモ)_20230408.pdf
座談会資料(当日メモ)_20230408.pdf座談会資料(当日メモ)_20230408.pdf
座談会資料(当日メモ)_20230408.pdf知礼 八子
 
座談会資料(当日メモ)_20230408.pdf
座談会資料(当日メモ)_20230408.pdf座談会資料(当日メモ)_20230408.pdf
座談会資料(当日メモ)_20230408.pdf知礼 八子
 
28 201-5 まだまだ間に合う文系理系の就職活動に役立つitキーワード解説
28 201-5 まだまだ間に合う文系理系の就職活動に役立つitキーワード解説28 201-5 まだまだ間に合う文系理系の就職活動に役立つitキーワード解説
28 201-5 まだまだ間に合う文系理系の就職活動に役立つitキーワード解説Kazuya Sugimoto
 
Office 365 / GSuite による機械学習を活用した生産性向上
Office 365 / GSuite による機械学習を活用した生産性向上Office 365 / GSuite による機械学習を活用した生産性向上
Office 365 / GSuite による機械学習を活用した生産性向上Mari Miyakawa
 
AI_IoTを活用する企業のあり方
AI_IoTを活用する企業のあり方AI_IoTを活用する企業のあり方
AI_IoTを活用する企業のあり方Osaka University
 
Power BI の可能性?見(魅)せてやるよ!!!その本気ってやつをな
Power BI の可能性?見(魅)せてやるよ!!!その本気ってやつをなPower BI の可能性?見(魅)せてやるよ!!!その本気ってやつをな
Power BI の可能性?見(魅)せてやるよ!!!その本気ってやつをなYugo Shimizu
 
八子クラウド座談会 当日討議メモ付き資料 20180721
八子クラウド座談会 当日討議メモ付き資料 20180721八子クラウド座談会 当日討議メモ付き資料 20180721
八子クラウド座談会 当日討議メモ付き資料 20180721知礼 八子
 
Data × AI でどんな業務が改善できる? ​製造業様向け Data × AI 活用ユースケース & 製造MVPソリューションのご紹介
Data × AI でどんな業務が改善できる? ​製造業様向け Data × AI 活用ユースケース & 製造MVPソリューションのご紹介Data × AI でどんな業務が改善できる? ​製造業様向け Data × AI 活用ユースケース & 製造MVPソリューションのご紹介
Data × AI でどんな業務が改善できる? ​製造業様向け Data × AI 活用ユースケース & 製造MVPソリューションのご紹介IoTビジネス共創ラボ
 
第29回八子クラウド座談会(当日討議メモ付き) 20181215
第29回八子クラウド座談会(当日討議メモ付き) 20181215第29回八子クラウド座談会(当日討議メモ付き) 20181215
第29回八子クラウド座談会(当日討議メモ付き) 20181215知礼 八子
 
デジタル時代の企業変革 2019
デジタル時代の企業変革 2019デジタル時代の企業変革 2019
デジタル時代の企業変革 2019Ikuo Misao
 
チャットボットの自然言語処理
チャットボットの自然言語処理チャットボットの自然言語処理
チャットボットの自然言語処理Yoshitaka Seo
 
Microsoft graphofintelligentcloud
Microsoft graphofintelligentcloudMicrosoft graphofintelligentcloud
Microsoft graphofintelligentcloudTakao Tetsuro
 
統計データを楽しむ 「新しいアクティブ・ラーニング教材」の提案
統計データを楽しむ 「新しいアクティブ・ラーニング教材」の提案統計データを楽しむ 「新しいアクティブ・ラーニング教材」の提案
統計データを楽しむ 「新しいアクティブ・ラーニング教材」の提案E2D3.org
 
スマートエスイー: 超スマート社会&DX時代のAI・IoT×ビジネスの人材育成と調査研究
スマートエスイー: 超スマート社会&DX時代のAI・IoT×ビジネスの人材育成と調査研究スマートエスイー: 超スマート社会&DX時代のAI・IoT×ビジネスの人材育成と調査研究
スマートエスイー: 超スマート社会&DX時代のAI・IoT×ビジネスの人材育成と調査研究Hironori Washizaki
 
Power Automate の他では聞けない使い方 (UI flows は除く)
Power Automate の他では聞けない使い方 (UI flows は除く)Power Automate の他では聞けない使い方 (UI flows は除く)
Power Automate の他では聞けない使い方 (UI flows は除く)Yugo Shimizu
 
第30回八子クラウド座談会(当日メモ付き)190413
第30回八子クラウド座談会(当日メモ付き)190413第30回八子クラウド座談会(当日メモ付き)190413
第30回八子クラウド座談会(当日メモ付き)190413知礼 八子
 
青山幹雄先生を偲んで(開拓、理論、実践、コミュニティ&国際)
青山幹雄先生を偲んで(開拓、理論、実践、コミュニティ&国際)青山幹雄先生を偲んで(開拓、理論、実践、コミュニティ&国際)
青山幹雄先生を偲んで(開拓、理論、実践、コミュニティ&国際)Hironori Washizaki
 

Semelhante a データエンジニアと作るデータ文化 (20)

Do you wanna be a V-ROCK star?
Do you wanna be a V-ROCK star?Do you wanna be a V-ROCK star?
Do you wanna be a V-ROCK star?
 
DXはなぜ進まないのか? 経営とITの観点からの課題と提言(NTTデータ テクノロジーカンファレンス 2020 発表資料)
DXはなぜ進まないのか? 経営とITの観点からの課題と提言(NTTデータ テクノロジーカンファレンス 2020 発表資料)DXはなぜ進まないのか? 経営とITの観点からの課題と提言(NTTデータ テクノロジーカンファレンス 2020 発表資料)
DXはなぜ進まないのか? 経営とITの観点からの課題と提言(NTTデータ テクノロジーカンファレンス 2020 発表資料)
 
Tableau Desktop データ準備の新機能: ユニオン、ピボット、データインタープリタ、など
Tableau Desktop データ準備の新機能: ユニオン、ピボット、データインタープリタ、などTableau Desktop データ準備の新機能: ユニオン、ピボット、データインタープリタ、など
Tableau Desktop データ準備の新機能: ユニオン、ピボット、データインタープリタ、など
 
座談会資料(当日メモ)_20230408.pdf
座談会資料(当日メモ)_20230408.pdf座談会資料(当日メモ)_20230408.pdf
座談会資料(当日メモ)_20230408.pdf
 
座談会資料(当日メモ)_20230408.pdf
座談会資料(当日メモ)_20230408.pdf座談会資料(当日メモ)_20230408.pdf
座談会資料(当日メモ)_20230408.pdf
 
28 201-5 まだまだ間に合う文系理系の就職活動に役立つitキーワード解説
28 201-5 まだまだ間に合う文系理系の就職活動に役立つitキーワード解説28 201-5 まだまだ間に合う文系理系の就職活動に役立つitキーワード解説
28 201-5 まだまだ間に合う文系理系の就職活動に役立つitキーワード解説
 
Office 365 / GSuite による機械学習を活用した生産性向上
Office 365 / GSuite による機械学習を活用した生産性向上Office 365 / GSuite による機械学習を活用した生産性向上
Office 365 / GSuite による機械学習を活用した生産性向上
 
AI_IoTを活用する企業のあり方
AI_IoTを活用する企業のあり方AI_IoTを活用する企業のあり方
AI_IoTを活用する企業のあり方
 
Power BI の可能性?見(魅)せてやるよ!!!その本気ってやつをな
Power BI の可能性?見(魅)せてやるよ!!!その本気ってやつをなPower BI の可能性?見(魅)せてやるよ!!!その本気ってやつをな
Power BI の可能性?見(魅)せてやるよ!!!その本気ってやつをな
 
八子クラウド座談会 当日討議メモ付き資料 20180721
八子クラウド座談会 当日討議メモ付き資料 20180721八子クラウド座談会 当日討議メモ付き資料 20180721
八子クラウド座談会 当日討議メモ付き資料 20180721
 
Data × AI でどんな業務が改善できる? ​製造業様向け Data × AI 活用ユースケース & 製造MVPソリューションのご紹介
Data × AI でどんな業務が改善できる? ​製造業様向け Data × AI 活用ユースケース & 製造MVPソリューションのご紹介Data × AI でどんな業務が改善できる? ​製造業様向け Data × AI 活用ユースケース & 製造MVPソリューションのご紹介
Data × AI でどんな業務が改善できる? ​製造業様向け Data × AI 活用ユースケース & 製造MVPソリューションのご紹介
 
第29回八子クラウド座談会(当日討議メモ付き) 20181215
第29回八子クラウド座談会(当日討議メモ付き) 20181215第29回八子クラウド座談会(当日討議メモ付き) 20181215
第29回八子クラウド座談会(当日討議メモ付き) 20181215
 
デジタル時代の企業変革 2019
デジタル時代の企業変革 2019デジタル時代の企業変革 2019
デジタル時代の企業変革 2019
 
チャットボットの自然言語処理
チャットボットの自然言語処理チャットボットの自然言語処理
チャットボットの自然言語処理
 
Microsoft graphofintelligentcloud
Microsoft graphofintelligentcloudMicrosoft graphofintelligentcloud
Microsoft graphofintelligentcloud
 
統計データを楽しむ 「新しいアクティブ・ラーニング教材」の提案
統計データを楽しむ 「新しいアクティブ・ラーニング教材」の提案統計データを楽しむ 「新しいアクティブ・ラーニング教材」の提案
統計データを楽しむ 「新しいアクティブ・ラーニング教材」の提案
 
スマートエスイー: 超スマート社会&DX時代のAI・IoT×ビジネスの人材育成と調査研究
スマートエスイー: 超スマート社会&DX時代のAI・IoT×ビジネスの人材育成と調査研究スマートエスイー: 超スマート社会&DX時代のAI・IoT×ビジネスの人材育成と調査研究
スマートエスイー: 超スマート社会&DX時代のAI・IoT×ビジネスの人材育成と調査研究
 
Power Automate の他では聞けない使い方 (UI flows は除く)
Power Automate の他では聞けない使い方 (UI flows は除く)Power Automate の他では聞けない使い方 (UI flows は除く)
Power Automate の他では聞けない使い方 (UI flows は除く)
 
第30回八子クラウド座談会(当日メモ付き)190413
第30回八子クラウド座談会(当日メモ付き)190413第30回八子クラウド座談会(当日メモ付き)190413
第30回八子クラウド座談会(当日メモ付き)190413
 
青山幹雄先生を偲んで(開拓、理論、実践、コミュニティ&国際)
青山幹雄先生を偲んで(開拓、理論、実践、コミュニティ&国際)青山幹雄先生を偲んで(開拓、理論、実践、コミュニティ&国際)
青山幹雄先生を偲んで(開拓、理論、実践、コミュニティ&国際)
 

データエンジニアと作るデータ文化