Anúncio
Anúncio

Mais conteúdo relacionado

Similar a データアナリシスを もっと知ろう! - JFPUG 語らいの夕べ(20)

Anúncio

データアナリシスを もっと知ろう! - JFPUG 語らいの夕べ

  1. データアナリシスを もっと知ろう! 〜データ活用型の業務形態へ〜 野田隆広 - JDMC 特別研究員 - 2023年2月15日 - JFPUG “語らいの夕べ"
  2. 本日話題にする「データアナリシス」の範囲 企業経営観点の データ分析・手法 (会社・事業・商売) 含む 芸術・政策・医療・教育など 企業経営観点から外れる データ分析・手法 2022年の話題 Stable Di ff usion (text-to-image) Chat GPT 自動運転・ドローン 含まない
  3. 「データ分析」の生息域 会社・経営 目的 利益 のために を産み続ける 方針 実行 を決めて する 目的: 最近は「パーパス」と呼ばれたりします。(参考)名和高史「パーパス経営: 30年先の視点から現在を捉える」東洋経済新報社,2021. 意思決定 自動化 データ分析
  4. 意思決定
  5. 意思決定とは? 方針 意思決定 自動化 データ分析 不完全,かつ, 限られた情報をもとに, 経営者が即断・即決 =経営者の役割 データ分析が無い場合でも, 経営者は即断・即決しなければならない → データ分析は経営に必須ではない
  6. 意思決定のパターン 選択 数量 例. 柔軟剤の新商品を発売したい。これまでより,柔軟効果を高めた新商品を開発 するのか,それとも,防臭効果を追加した新商品を開発するのか? 例. 来年度の主力商品の生産・販売個数を決めたい。今年並みの数量とするのか, それとも,増産・拡販するのか。増産するとすれば300万個か450万個か?
  7. 意思決定でデータ分析が登場する理由 • 意思決定を加速したい(経営者が即決できない) • 意思決定できない(経営者としての資質,権限の移譲) • 意思決定精度の向上(誤りを減らす。リスクマネジメント) • データ分析の目的化(なんとなく流行りだから)
  8. 意思決定におけるデータ分析のパターン 集計 視覚化 介入効果 予測 帳票・レポーティング ダッシュボード・BI 例. 前日の売上・客数をエリア別に集計する。売上 top 20レポート。在庫レポート。財務分析 例. 前日の売上が予算未達であれば赤色で警告。欠品が生じているエリアを地図で表示 例. 消臭機能をもつ柔軟剤を市場に投入した際の初年度の売上予測 例. 新規顧客獲得キャンペーンでクーポンを配布した場合の3年度累計の収益改善効果 ??? ???
  9. 意思決定におけるデータ分析のパターン 集計 視覚化 介入効果 予測 帳票・レポーティング ダッシュボード・BI ??? ??? } } かなりの企業で活用されている 相当程度 IT システムで支援 活用していない企業が多い 人力で頑張っている
  10. 人手で頑張る「データ分析」活用 集計 視覚化 介入効果 予測 帳票・レポーティング ダッシュボード・BI ??? ??? Excel で毎週つくる定型レポート PowerPoint でつくるダッシュボード 予測モデルではなくフェルミ推定 データサインティストが頑張る データ分析をしてモデルをつくったのではなく,勘と経験でつくっ た秘伝のExcelファイルで数字をつくっている。 社内会議のたびに,PowerPoint で毎回それっぽいダッシュボード を描いている。 毎回同じレイアウトで表をつくっているが,この表を出力できる社 内システムがなく,データをかき集めて作る。
  11. データ分析 =「未システム化データ活用」 • データ分析のシステム化を意思決定できない • 意思決定のコスト(CEO/CFOは意思決定のコストを正確に把握しているのか?) • 経営者の報酬 • システム投資予算超過を「データ分析」の人力化で補う • 予算超過時に人が頑張ればできる部分はシステム化が見送られる • システム企画の際に正しく費用(開発規模)を見積れない • 「予測」「介入効果」につきまとう精度の問題。費用をかければ精度を上げることはできるが,どこまで精度を上 げるのにどの程度の費用が必要か? • 意思決定案件だけ単独で見積ると費用が高額に(データマネジメント・データ戦略=後述) • システム開発費用 + モデリング費用(データサイエンティストによる分析・研究稼動) ITシステムによる支援の少ないデータ活用のことを「データ分析」と呼ぶようになった? 集計・可視化については比較的精度高い見積。予測・介入効果推定 での課題(JFPUG・定量化手法への今後の期待)
  12. 意思決定の事例③: デジタルマーケティング Web上の行動データをビッグデータ として利用できるので,データ分析 と相性が良い 最近はプライバシー強化の流れで制 約が大きくなってきている 広告媒体の選択 ターゲティング広告 広告媒体毎に介入効果を推定。どの媒体に出稿するのが 最適か,媒体の貢献度をもとに意思決定 サイトの閲覧履歴・サービスの利用履歴に応じて,最も 効果の高いと推定される顧客に広告を出稿
  13. 意思決定に対してどのような手法があるのか (データ分析でできることの例) 回帰 数量を予測する。過去データ(表形式になっているものが望ましい)から予測モデルを作成。予 測モデルに新しいパラメータを入力することで,未知の事象の数値を予測する。過去データに存 在しない事象,モデル作成時に存在しないパラメータが影響すると予測が外れることがある。 例. 売上予測(プロ野球の優勝記念セール) A/Bテスト ある施策を実施 (A) した際に,その施策を実施しないグループ (B) を意図的に用意。A/B 両グルー プを比較することで,その施策の効果があったのかを推定する。A/Bテストはデータサイエンティ ストにとって設計・実施が難しく,意外と正しくテストできている例は少ない。 例. お得意様へのノベルティ配布により客単価・買い上げ率は上昇したのか? 介入効果推定 ある施策を実施した際に,その施策を実施しなかった(と想定した場合)との差がどの程度あっ たのか介入効果として推定する。計量経済学で開発されてきた手法で,ここ数年ライブラリが整 備されてきてデータサイエンティストが使えるようになってきた。 例. マーケティングキャンペーンを実施したところ実施前週と比較して,売上が15%上昇した。 マーケティングキャンペーンの効果はあったといえるか? あったとすれば何%に相当する効果か?
  14. 自動化
  15. 自動化とは? 実行 意思決定 自動化 データ分析 人手で行なっていた作業を ITシステムで代替(自動化) あるいは, 一部をシステム化(省力化)
  16. 自動化の効果(データ分析によって得られる) • 作業水準の向上 • 担当者毎にバラツキのあった水準を高い水準で統一 • リードタイム短縮 • 人手で数日かかっていた作業を一瞬で完了 • 働き方改革 • 繰り返し作業からの解放。生産性の高い業務により多くの時間を使えるように • コスト削減 • 削減できた人件費を新たな領域に投資
  17. 自動化に対してどのような手法があるのか (データ分析でできることの例) 回帰 (意思決定で使える手法と同じ) 分類 ある入力(表形式データ,メディア(動画・画像・音声),文章)に対して,予め用意しておいた 複数の分類先のどれに該当するのかを識別して分類するモデルを開発する。入力=正解の組み合わ せ(学習データ)を大量に用意し,機械学習モデルに学習させる。 例. 災害で被害に遭った家屋の写真を読み込み,全壊・半壊・被害なし・その他に分類 ルール作成 決定木という手法を使う。表形式の入力(以下説明変数)に対して,分類するモデルを樹形状の モデルとして作成。作成したモデルはルールベースのモデルとして自動化システムに組込み 例. どの顧客にダイレクトメールを送るのか?, 簡易な売上予測デル 数理最適化 過去データを元に統計的にモデルを作成する上記の方法とは異なり,データ・ルールが決まって いる制約の元で,最適(に近い)解を求める手法。 例. 病棟看護師のシフト作成(看護師配置基準・休暇希望・年収の壁・労働基準法)。複数工場で の生産計画(どの工場で何を生産すると,最も安く生産でき早く顧客に届けることができか?)
  18. 自動化への「データ分析」の進出 • 計算機資源の大容量化・低廉化 • クラウド・大規模分散処理技術のコモディティ化(誰でも使える価格に下がってきた) • 統計的機械学習技術のコモディティ化 • 標準的な手法・アルゴリズムのライブラリ化 (Python),クラウド事業者によるサービス化 • データ人材の増加 • 教育に力を入れる大学の増加 • 国外からの就労 • 大規模データセット + 統計的機械学習により • 従来人手で実施していた自動化のためのルール作成を,機械学習エンジニアがモデリング • 人手では不可能だった,多数のパラメータ・条件を扱うルールを機械学習エンジニアがモデリング ITシステムによる自動化は特段新しいものではないが,なぜ「データ分析」が進出してきているのか ルールベースの自動化はこれまでもあったが,以上の背景で今までできなかったことが可能に
  19. データ活用プロジェクトでよくある課題 • データ活用でどのような課題を解決できるのか分からない • システム開発経験 + 業務経験 + データサイエンスのスキル・経験 = 人材難 • データ活用が目的となっている • 経営課題「発注業務の自動化」 • データ活用プロジェクト「需要予測」(発注業務を自動化しようとすれば需要予測だけではだめで,SCMや要員計画も含めて最適化する必要) • 費用がかかりすぎる • 「社内にある全てのデータを使いたい」「外部データを購入したい」 • 情報管理・個人情報保護 • 社外の第三者にデータを渡して分析してもらう・モデリングしてもらう際の制約 データマネジメント の役割
  20. データマネジメントについて データ分析を最大限活用するために 必要なこと
  21. 回帰 A/Bテスト 介入効果推定 分類 ルール作成 数理最適化 意思決定 自動化 (数理最適化を除き) どれも過去データ(これまでの実績値 + 過去につくった予測・計画)を利用
  22. 例)あなたはドラッグストアの仕入れ担当者,マスクの売上を予測したい 問. 過去何日間の販売データがあればよいか? 1) 90 日間 2) 360 日間 3) 1440 日間
  23. 機械学習・データサイエンスに必要な データの種類 • 実績値(例: 販売実績,在庫実績) • 計画値(例: 売上目標,展開店舗数) • マーケティング計画(広告,チラシ,POP) • 外部環境(天候,ニュース,事件)
  24. DWH DWH データマネジメント データサイエンティスト 機械学習エンジニア BI/レポーティング用に, 既に DWH が整備されている 「データウェアハウス ありますか?」
  25. その DWH 全部入りですか?
  26. もっと重要なのは 1) データ一箇所に集っていること 2) インタフェースが提供されていること 3) 高頻度のアクセス・高負荷に耐えること
  27. Data Lake 財務会計 販売 (POS) 在庫 物流 マーケティング 顧客 店舗 Web アプリ 天候 イベント 経済指標 SQL API 高頻度・大量データへのアクセス
  28. Data Lake から DWH へ Data Lake (初期) Data Lake (全部入り) DWH (理想) 必要なデータから揃えていく (優先順位づけ) Raw データでよい (機械学習エンジニア・データサ イエンティストが自力で何とか する) SQL で問合せできればよい (プログラムからアクセスでき ればよい) ただし,高負荷・高頻度のアク セスには耐える必要 データ収集の待ち時間を無くし てスピードアップ Raw データでよい,が,構造 化・前処理されていて,テーブ ルデータになっていると嬉しい SQL で問合せできればよい, が,高度な API があるとなお よい ただし,高負荷・高頻度のアク セスには耐える必要 Data mart/cubu が用意されて いて自分でつくる必要がない データベースが最適化されてい て,必要なデータを最速で取得 できる データ品質が担保されており, クレンジングなどの工程をス キップできる メタデータリポジトリが整備さ れていて業務担当者に問い合わ せなくてもデータを理解できる
  29. Data Lake/DWH の課題 • ここに書いたことを実現しようとすると投資負担が重い • 単一のデータ分析・活用プロジェクトでは採算がとれない • 社内でデータ戦略を作り,データ活用プロジェクト・具体的なアク ションを全て洗い出し。戦略パッケージとして投資判断 • もちろん,単一の自動化プロジェクトで収益が見込める場合もある ので,最初のプロジェクトも重要
  30. 機械学習エンジニア データサイエンティストの 立場から, データマネジメントでお願いしたいこと データマネジメントの有無, その仕事の品質が,機械学習・データサイエンスの成果の質, アウトプットまでの時間に影響する。 すなわち,費用と便益に影響する。
  31. 例)One-to-one マーケティング ある商品の DM を送るべき人を見つけよう。 北海道在住 30 代女性 過去 28-42 日 で類似購入履歴あり 顧客 販売 商品 過去5年分
  32. 例)One-to-one マーケティング ある商品の DM を送るべき人を見つけよう。 北海道在住 30 代女性 過去 28-42 日 で類似購入履歴あり 東京都在住 1年前 顧客 販売 商品
  33. 過去の任意の時点を 今日再現できるデータ マスターデータマネジメントが最重要 • タイムマシン • エンコーディングの変更 北海道在住 30 代女性 過去 28-42 日 で類似購入履歴あり 顧客 販売 商品
  34. Data Lake はあるが,。。。 財務会計 販売 (POS) 在庫 物流 マーケティン グ 顧客 店舗 Web アプリ 天候 イベント 経済指標 SQL API 高頻度・大量データへのアクセス
  35. よくある言い訳 • どこに欲しいデータがあるか分からない • コードの定義が分からない • データをどこまで信用してよいのか分からな い。汚いデータでもよいのだが,さすがに全て の項目を目視で確認していられない。 • どのようにデータが作られているか分からない
  36. 機械学習エンジニア, データサイエンティスト向けの セルフサービス メタデータマネジメントが重要 • どのようにデータが生成されるか • データ品質の定義 • ビジネスプロセス • 検索可能なメタデータリポジトリ
  37. 仕事は RDBMS ではなく Computing Engine (別のサーバー)で行う DWH ダッシュボード 帳票 BI 的な使い方 機械学習・データサイエンス 集計値だけが DWH の外に出て Raw データはコピーされない Data Lake から raw データが 外の環境(別サーバ)にコピーされる サーバー 成果物
  38. これはとてもこわい使い方
  39. GDPR, 個人情報保護法対応 • Data deletion • 個人から要望があった場合に,その個人に関す る全ての情報を確実に消去できる仕組みが必要 • 開示 • その個人に関して,どのような情報を収集し, 保有しているかを開示する義務
  40. Data lake からコピーされて外に出たデー タについて追跡する必要 機械学習・データサイエンス Data Lake から raw データが 外の環境(別サーバ)にコピーされる サーバー 成果物 Data Linage の 仕組みを data lake だけでなく, 機械学習・データサイエンスの 実務環境にも導入する必要 データライフサイクルマネジメント の仕組みを導入して,確実に 不要なデータが消去される仕組み
  41. データマネジメントまとめ • マスターデータマネジメント • 機械学習・データサイエンスは「過去」のデータを利用するが,これは「過去の任意の時点 を現在基準で再現する」という意味。 • メタデータマネジメント • 機械学習エンジニア・データサイエンティストが自力でデータに関する疑問を解消できるよ うにする • そもそも,疑問が起きないようにして,彼らの業務をスピードアップする • Data Linage/データライフサイクルマネジメント • GDPR, 個人情報保護対応 • Raw データを扱う機械学習・データサイエンス業務は,個人情報が DWH/Data lake 外にコ ピーされる。これを適切に管理する仕組み
  42. おわりに • 経営観点でのデータ活用 • 意思決定か自動化か • データ分析で何ができるのか? • 集計/視覚化/予測/介入効果の推定 → 意思決定 • 予測/分類/ルール作成/数理最適化 → 自動化 • データ活用の前提条件としてのデータマネジメント • BI/レポーティングのためのDWHとデータサイエンス・機械学習のためのDWH • マスターデータマネジメント・メタデータマネジメント・data linage/ライフライクルマネジメント • JDMC (https://japan-dmc.org/)
Anúncio