O slideshow foi denunciado.
Utilizamos seu perfil e dados de atividades no LinkedIn para personalizar e exibir anúncios mais relevantes. Altere suas preferências de anúncios quando desejar.

BIerのためのAI入門

1.809 visualizações

Publicada em

Power Platform Day Winter '19 (2019/12/07 開催)
「AI と Power BI と Power Platform」セッション関連資料

Publicada em: Tecnologia
  • Entre para ver os comentários

BIerのためのAI入門

  1. 1. 瀬尾ソフト 瀬尾佳隆 Microsoft MVP for AI BIer のための AI 入門 BI と AI とは違うんだよ Power Platform Day Winter ‘19 2019年12月7日
  2. 2. 自己紹介 瀬尾 佳隆 (せお よしたか) • MVP for AI (Jul 2018 – Jun 2020) / MVP (Jan 2009 – Jun 2018) • https://github.com/seosoft • https://twitter.com/seosoft • Humans of IT Community Event Leader / Speaker • Ignite The Tour Tokyo • BRK30055 「開発者のための機械学習 : Azure Machine Learning サービスで構造化データから予測分析」 • THR10003 「Humans of IT Empower Breakfast – 人に寄り添う アクセシビリティ技術の現在と未来」 • Tech Summit 2018 – DA09 「ユーザーインターフェースとしての チャットボット開発手法と Microsoft Bot Framework v4」 • Microsoft Azure 自習書シリーズ 「Cognitive Services と Bot Service で作る業務アプリケーション」 2
  3. 3. 覚えて帰っていただきたいこと BI と AI とは違うんだよ ついでに従来のアプリ開発と AI 開発も違うんだよ 3 ≠ ≠
  4. 4. “AI” (機械学習) とは データを反復的に学習して、特徴を見つける 見つけた特徴を新しいデータに適用して、予測を行う 4 引数を受け取り、それに応じた結果を返す “関数” や “メソッド” などを プログラミングする 4
  5. 5. データの意味合いの違い AI ◼特徴量を見つけるための “材料” • 必要なら “ウソ” があってもいい • データ件数は多数必要 • データに偏りがないこと • 良品 10,000 件、不良品 10件 では “不良品” の予測はできない • そもそも特徴量を見つけられる データか? • サイコロを何回振っても 次に出る目は予測できない BI ◼過去から現在の “事実” • “ウソ” はダメ、絶対! • 分析可能な件数で必要十分 • 多ければいいわけではない ◼特徴がないなら、それが特徴 • サイコロを振って、10,000回のうち、 1 が 1,600 回出たとしたら、 それは事実として大事なこと 5
  6. 6. 特徴量を見つけるために注意すること データの偏りや欠損に注意する 偏りがあると正しい学習ができない データ欠損が多いと、特徴量の考慮を間違える可能性が高くなる スキーマに注意する 文字列か数値か “Jan” / “Feb” / “Mar” よりは 1 / 2 / 3 数値の場合、連続値か離散値か 温度、湿度の実測値 ・・・連続値(小数値で表す) 人数、個数の実測値 ・・・離散値(整数値で表す)
  7. 7. そこで Power BI を利用してみる ◼Correlation Plot ◼主要なインフルエンサー 7
  8. 8. Power BI + Correlation Plot ◼各カラムの相関係数をヒートマップで視覚化 • ただし標準の視覚化機能ではない 8
  9. 9. Power BI + 主要なインフルエンサー ◼どの要素が予測対象に影響を与えるか ◼視覚的な UI で直感的に理解しやすい 9
  10. 10. 参考) 正の相関関係がありそう 10
  11. 11. 参考) 負の相関関係がありそう 11
  12. 12. 参考) 非線形な関係があるかも 12
  13. 13. 参考) データ欠損の影響があるかも 13
  14. 14. 事前の特徴量エンジニアリングの結果 相関関係がありそう 非線形な関係があるかも データ欠損の影響があるかも 14
  15. 15. Azure Machine Learning studio ◼機械学習の全てのフローとリソースに対応 • データセットの管理 • 学習モデルのトレーニング • デプロイ • デプロイ済みモデルの 運用管理 ◼Automated ML が神! 15
  16. 16. Dataset の基本統計量 データの偏り、データ欠損などを確認
  17. 17. データの確認事項 (Data guardrails) 分類ラベルに 偏りはない “Age” 列の欠損を 平均値で置換してくれた “Name”, “Cabin” 列には データの偏りがある
  18. 18. モデルの品質 (1)
  19. 19. モデルの品質 (2)
  20. 20. 解釈可能性の確認 (1) モデル全体の中での各変数の重要度
  21. 21. 解釈可能性の確認 (2) 重要度の概要 (各特徴が予測値に与える影響)
  22. 22. 最後に ◼BI と AI とは違うんだよ ◼AI では事前の特徴量の分析が大事 ◼Power BI でサクッとデータの分析 • やりすぎ注意!(つい、やりたくなる気持ちは分かります) ◼ML studio でデータ分析 & モデルの品質を確認 • Automated ML なら、やるのは PC、人間は指示するだけ ◼いいモデルができたらデプロイ • その先は BIer の腕の見せ所 22

×