SlideShare uma empresa Scribd logo
1 de 16
Baixar para ler offline
CONFIDENTIAL : copyright © by 2017 AnyPay inc. all rights reserved.
0
スタートアップが始める機械学習はじめの一歩
CONFIDENTIAL : copyright © by 2017 AnyPay inc. all rights reserved.
1
Agenda
1. 自己紹介
2. データサイエンスの領域
3. データサイエンス・チームの作り方
4. データ解析のエコシステム
5. 例:レシート仕分けモデル
6. リサーチ・フェーズ
7. プロダクショナイズ・フェーズ
8. モニタリング・フェーズ(Airflowの紹介)
9. まとめ
CONFIDENTIAL : copyright © by 2017 AnyPay inc. all rights reserved.
2
自己紹介
CDO/Data Scientist
中澤 公貴
これまで
• データ解析、事業開発@サンフランシスコ&東京
• 事業会社で、コンサルファームで、提案から実装まで経験
• 現在は、データ整備〜不正検知、ユーザー行動分析まで幅広にデータまわり見てます
CONFIDENTIAL : copyright © by 2017 AnyPay inc. all rights reserved.
3
データサイエンスの領域
データ・サイエンス
AI
ディープ
ラーニング
機械学習
ルール
ベース
データ・エンジニアリング
Big
Data
SQL
ABテスト
実験
プラットフォーム
ベイズ統計
CONFIDENTIAL : copyright © by 2017 AnyPay inc. all rights reserved.
4
データサイエンス・チームの作り方
1人目 3人目以降2人目
データサイエンティスト データエンジニア
• NLP
• ビックデータ
• ディープラーニング
• ベイス統計 etc
職種
タスク
• ゼロからデータ解析
エコシステムを構築
• 機械学習
• モデルのプロダクショ
ン導入
• 事業側との連携(レポ
ーティング)
• データデザイン・選定
• 社内の啓蒙活動
• ETL
• 解析基盤デザイン・構
築
• データベース・SQL
• ビックデータ
各分野の専門家
CONFIDENTIAL : copyright © by 2017 AnyPay inc. all rights reserved.
5
データ解析のエコシステム
①探索的データ解析
データ可視化
基礎統計
②リサーチ ③プロダクショナイズ
④モニタリング
レポーティング
学習
CONFIDENTIAL : copyright © by 2017 AnyPay inc. all rights reserved.
6
例:レシート仕分けモデル
CS:
レシート確認がつら
いっす。。
CTO:機械学習で
自動化したらいい
んじゃない?
中澤:
やってみましょか
Image source
CONFIDENTIAL : copyright © by 2017 AnyPay inc. all rights reserved.
7
リサーチ・フェーズ
概
要
• 社内の担当者にヒ
アリング
• 説明・⽬的変数に
使えそうなデータ
取得
データ取得 前処理 モデル開発
• 変数処理
• 変数エンジニアリ
ング
• 情報量の多い変数
のランク付け
• アルゴリズム選定
• Ensemble⼿法
• チューニング
期
間
2⽇
(通常は2週間)
1⽇
(通常は4週間)
1⽇
(通常は1週間)
モデル評価
• 評価メトリクスの
選定
1⽇
(通常は1週間)
具
体
例
• 説明変数:画像
• ⽬的変数:1(レシ
ート)、0(⾮レシ
ート)
• 回転
• ねじり
• Zoom in
• ⾊を0-1の値に変
換 など
• たたみ込みNN
• 過学習コントロー
ル(Maxpooling)
など
• Accuracy(正解率)
• レシート取りこぼ
し率
CONFIDENTIAL : copyright © by 2017 AnyPay inc. all rights reserved.
8
プロダクショナイズ・フェーズ
※画像は中澤のもの
3
5
CONFIDENTIAL : copyright © by 2017 AnyPay inc. all rights reserved.
9
モニタリング・フェーズ:Airflow紹介
Airflowについて
• Airbnbが開発したパイプライン管理
のオープンソース・ツール(Apacheの
Incubator枠に⼊っています)
• 簡単に⾔えば、Cronの代替ツール
• シリコンバレーのスタートアップ界隈
ではデフォルト化してきつつあります
素晴らしい点:
• きれいなUI
• 実⾏状況のトレーサビリティ
• 直感的なパイプラインを作るメソッド
DAGで実⾏フローを管理
CONFIDENTIAL : copyright © by 2017 AnyPay inc. all rights reserved.
10
• タスク管理画面
• 現在動いているタスクを把握
モニタリング・フェーズ:Airflow
CONFIDENTIAL : copyright © by 2017 AnyPay inc. all rights reserved.
11
• Graph View:パイプラインのロジック/フローが間違っていないか等を確認
モニタリング・フェーズ:Airflow
CONFIDENTIAL : copyright © by 2017 AnyPay inc. all rights reserved.
12
• Tree View:各工程の進捗を把握
モニタリング・フェーズ:Airflow
CONFIDENTIAL : copyright © by 2017 AnyPay inc. all rights reserved.
13
• 各工程のログを簡単にトラック可能
モニタリング・フェーズ:Airflow
CONFIDENTIAL : copyright © by 2017 AnyPay inc. all rights reserved.
14
• 各工程の実行にどのくらい時間がかかったのかを視覚的に把握
モニタリング・フェーズ:Airflow
CONFIDENTIAL : copyright © by 2017 AnyPay inc. all rights reserved.
15
まとめ
• データサイエンスは色々な領域があるので総合力で勝負
• まずはデータサイエンティスト、そしてデータエンジニアを採用
• データ解析は4つのフェーズがある
(探索、リサーチ、プロダクショナイズ、モニタリング)
• Airflowは、すばらしい

Mais conteúdo relacionado

Semelhante a スタートアップが始める機械学習はじめの一歩

「企業のデジタルトランスフォーメーション ビッグデータ利活用に関する活動と課題」
「企業のデジタルトランスフォーメーション   ビッグデータ利活用に関する活動と課題」「企業のデジタルトランスフォーメーション   ビッグデータ利活用に関する活動と課題」
「企業のデジタルトランスフォーメーション ビッグデータ利活用に関する活動と課題」scirexcenter
 
20160225 interspace system_summary
20160225 interspace system_summary20160225 interspace system_summary
20160225 interspace system_summarySmz Nbys
 
エッジヘビーコンピューティングと機械学習
エッジヘビーコンピューティングと機械学習エッジヘビーコンピューティングと機械学習
エッジヘビーコンピューティングと機械学習Preferred Networks
 
データサイエンスセミナー 【found IT project #8】
データサイエンスセミナー 【found IT project #8】データサイエンスセミナー 【found IT project #8】
データサイエンスセミナー 【found IT project #8】Tetsuya Yoshida
 
Base 20141011 1_for_slideshre
Base 20141011 1_for_slideshreBase 20141011 1_for_slideshre
Base 20141011 1_for_slideshre正善 大島
 
melonDesignerの説明
melonDesignerの説明melonDesignerの説明
melonDesignerの説明Hisashi Sakai
 
高卒でIT企業に入った体験談
高卒でIT企業に入った体験談高卒でIT企業に入った体験談
高卒でIT企業に入った体験談ishikawa_mizuki
 
オープンデータプラグイン紹介資料
オープンデータプラグイン紹介資料オープンデータプラグイン紹介資料
オープンデータプラグイン紹介資料Naokazu Nohara
 
オープンソースカンファレンスBi勉強会20141018
オープンソースカンファレンスBi勉強会20141018オープンソースカンファレンスBi勉強会20141018
オープンソースカンファレンスBi勉強会20141018Hisashi Nakayama
 
シラサギ紹介20161119
シラサギ紹介20161119シラサギ紹介20161119
シラサギ紹介20161119Naokazu Nohara
 
プロトタイプで終わらせない死の谷を超える機械学習プロジェクトの進め方 #MLCT4
プロトタイプで終わらせない死の谷を超える機械学習プロジェクトの進め方 #MLCT4プロトタイプで終わらせない死の谷を超える機械学習プロジェクトの進め方 #MLCT4
プロトタイプで終わらせない死の谷を超える機械学習プロジェクトの進め方 #MLCT4shakezo
 
【20170414みんなのAI】機械学習の民主化を促進するAI活用術
【20170414みんなのAI】機械学習の民主化を促進するAI活用術【20170414みんなのAI】機械学習の民主化を促進するAI活用術
【20170414みんなのAI】機械学習の民主化を促進するAI活用術ナレッジコミュニケーション
 
意思決定を早めて採用加速
意思決定を早めて採用加速意思決定を早めて採用加速
意思決定を早めて採用加速Katsuhiro Honda
 
シラサギ紹介20170525
シラサギ紹介20170525シラサギ紹介20170525
シラサギ紹介20170525Naokazu Nohara
 
脆弱性の探し方 ~発見と対応のノウハウ in NTTDATA~
脆弱性の探し方 ~発見と対応のノウハウ in NTTDATA~脆弱性の探し方 ~発見と対応のノウハウ in NTTDATA~
脆弱性の探し方 ~発見と対応のノウハウ in NTTDATA~apkiban
 

Semelhante a スタートアップが始める機械学習はじめの一歩 (20)

AWSでの金融系システム構築・運用勘所
AWSでの金融系システム構築・運用勘所AWSでの金融系システム構築・運用勘所
AWSでの金融系システム構築・運用勘所
 
「企業のデジタルトランスフォーメーション ビッグデータ利活用に関する活動と課題」
「企業のデジタルトランスフォーメーション   ビッグデータ利活用に関する活動と課題」「企業のデジタルトランスフォーメーション   ビッグデータ利活用に関する活動と課題」
「企業のデジタルトランスフォーメーション ビッグデータ利活用に関する活動と課題」
 
20160225 interspace system_summary
20160225 interspace system_summary20160225 interspace system_summary
20160225 interspace system_summary
 
エッジヘビーコンピューティングと機械学習
エッジヘビーコンピューティングと機械学習エッジヘビーコンピューティングと機械学習
エッジヘビーコンピューティングと機械学習
 
【LTセッション】Brainwave 使ってみた_DEEP LEARNING LAB
【LTセッション】Brainwave 使ってみた_DEEP LEARNING LAB【LTセッション】Brainwave 使ってみた_DEEP LEARNING LAB
【LTセッション】Brainwave 使ってみた_DEEP LEARNING LAB
 
データサイエンスセミナー 【found IT project #8】
データサイエンスセミナー 【found IT project #8】データサイエンスセミナー 【found IT project #8】
データサイエンスセミナー 【found IT project #8】
 
データサイエンス業務と「ツール」
データサイエンス業務と「ツール」データサイエンス業務と「ツール」
データサイエンス業務と「ツール」
 
Base 20141011 1_for_slideshre
Base 20141011 1_for_slideshreBase 20141011 1_for_slideshre
Base 20141011 1_for_slideshre
 
広告における機械学習の適用例とシステムについて
広告における機械学習の適用例とシステムについて広告における機械学習の適用例とシステムについて
広告における機械学習の適用例とシステムについて
 
melonDesignerの説明
melonDesignerの説明melonDesignerの説明
melonDesignerの説明
 
高卒でIT企業に入った体験談
高卒でIT企業に入った体験談高卒でIT企業に入った体験談
高卒でIT企業に入った体験談
 
オープンデータプラグイン紹介資料
オープンデータプラグイン紹介資料オープンデータプラグイン紹介資料
オープンデータプラグイン紹介資料
 
オープンソースカンファレンスBi勉強会20141018
オープンソースカンファレンスBi勉強会20141018オープンソースカンファレンスBi勉強会20141018
オープンソースカンファレンスBi勉強会20141018
 
シラサギ紹介20161119
シラサギ紹介20161119シラサギ紹介20161119
シラサギ紹介20161119
 
プロトタイプで終わらせない死の谷を超える機械学習プロジェクトの進め方 #MLCT4
プロトタイプで終わらせない死の谷を超える機械学習プロジェクトの進め方 #MLCT4プロトタイプで終わらせない死の谷を超える機械学習プロジェクトの進め方 #MLCT4
プロトタイプで終わらせない死の谷を超える機械学習プロジェクトの進め方 #MLCT4
 
【20170414みんなのAI】機械学習の民主化を促進するAI活用術
【20170414みんなのAI】機械学習の民主化を促進するAI活用術【20170414みんなのAI】機械学習の民主化を促進するAI活用術
【20170414みんなのAI】機械学習の民主化を促進するAI活用術
 
意思決定を早めて採用加速
意思決定を早めて採用加速意思決定を早めて採用加速
意思決定を早めて採用加速
 
(2017.9.7) Neo4jご紹介
(2017.9.7) Neo4jご紹介(2017.9.7) Neo4jご紹介
(2017.9.7) Neo4jご紹介
 
シラサギ紹介20170525
シラサギ紹介20170525シラサギ紹介20170525
シラサギ紹介20170525
 
脆弱性の探し方 ~発見と対応のノウハウ in NTTDATA~
脆弱性の探し方 ~発見と対応のノウハウ in NTTDATA~脆弱性の探し方 ~発見と対応のノウハウ in NTTDATA~
脆弱性の探し方 ~発見と対応のノウハウ in NTTDATA~
 

スタートアップが始める機械学習はじめの一歩

  • 1. CONFIDENTIAL : copyright © by 2017 AnyPay inc. all rights reserved. 0 スタートアップが始める機械学習はじめの一歩
  • 2. CONFIDENTIAL : copyright © by 2017 AnyPay inc. all rights reserved. 1 Agenda 1. 自己紹介 2. データサイエンスの領域 3. データサイエンス・チームの作り方 4. データ解析のエコシステム 5. 例:レシート仕分けモデル 6. リサーチ・フェーズ 7. プロダクショナイズ・フェーズ 8. モニタリング・フェーズ(Airflowの紹介) 9. まとめ
  • 3. CONFIDENTIAL : copyright © by 2017 AnyPay inc. all rights reserved. 2 自己紹介 CDO/Data Scientist 中澤 公貴 これまで • データ解析、事業開発@サンフランシスコ&東京 • 事業会社で、コンサルファームで、提案から実装まで経験 • 現在は、データ整備〜不正検知、ユーザー行動分析まで幅広にデータまわり見てます
  • 4. CONFIDENTIAL : copyright © by 2017 AnyPay inc. all rights reserved. 3 データサイエンスの領域 データ・サイエンス AI ディープ ラーニング 機械学習 ルール ベース データ・エンジニアリング Big Data SQL ABテスト 実験 プラットフォーム ベイズ統計
  • 5. CONFIDENTIAL : copyright © by 2017 AnyPay inc. all rights reserved. 4 データサイエンス・チームの作り方 1人目 3人目以降2人目 データサイエンティスト データエンジニア • NLP • ビックデータ • ディープラーニング • ベイス統計 etc 職種 タスク • ゼロからデータ解析 エコシステムを構築 • 機械学習 • モデルのプロダクショ ン導入 • 事業側との連携(レポ ーティング) • データデザイン・選定 • 社内の啓蒙活動 • ETL • 解析基盤デザイン・構 築 • データベース・SQL • ビックデータ 各分野の専門家
  • 6. CONFIDENTIAL : copyright © by 2017 AnyPay inc. all rights reserved. 5 データ解析のエコシステム ①探索的データ解析 データ可視化 基礎統計 ②リサーチ ③プロダクショナイズ ④モニタリング レポーティング 学習
  • 7. CONFIDENTIAL : copyright © by 2017 AnyPay inc. all rights reserved. 6 例:レシート仕分けモデル CS: レシート確認がつら いっす。。 CTO:機械学習で 自動化したらいい んじゃない? 中澤: やってみましょか Image source
  • 8. CONFIDENTIAL : copyright © by 2017 AnyPay inc. all rights reserved. 7 リサーチ・フェーズ 概 要 • 社内の担当者にヒ アリング • 説明・⽬的変数に 使えそうなデータ 取得 データ取得 前処理 モデル開発 • 変数処理 • 変数エンジニアリ ング • 情報量の多い変数 のランク付け • アルゴリズム選定 • Ensemble⼿法 • チューニング 期 間 2⽇ (通常は2週間) 1⽇ (通常は4週間) 1⽇ (通常は1週間) モデル評価 • 評価メトリクスの 選定 1⽇ (通常は1週間) 具 体 例 • 説明変数:画像 • ⽬的変数:1(レシ ート)、0(⾮レシ ート) • 回転 • ねじり • Zoom in • ⾊を0-1の値に変 換 など • たたみ込みNN • 過学習コントロー ル(Maxpooling) など • Accuracy(正解率) • レシート取りこぼ し率
  • 9. CONFIDENTIAL : copyright © by 2017 AnyPay inc. all rights reserved. 8 プロダクショナイズ・フェーズ ※画像は中澤のもの 3 5
  • 10. CONFIDENTIAL : copyright © by 2017 AnyPay inc. all rights reserved. 9 モニタリング・フェーズ:Airflow紹介 Airflowについて • Airbnbが開発したパイプライン管理 のオープンソース・ツール(Apacheの Incubator枠に⼊っています) • 簡単に⾔えば、Cronの代替ツール • シリコンバレーのスタートアップ界隈 ではデフォルト化してきつつあります 素晴らしい点: • きれいなUI • 実⾏状況のトレーサビリティ • 直感的なパイプラインを作るメソッド DAGで実⾏フローを管理
  • 11. CONFIDENTIAL : copyright © by 2017 AnyPay inc. all rights reserved. 10 • タスク管理画面 • 現在動いているタスクを把握 モニタリング・フェーズ:Airflow
  • 12. CONFIDENTIAL : copyright © by 2017 AnyPay inc. all rights reserved. 11 • Graph View:パイプラインのロジック/フローが間違っていないか等を確認 モニタリング・フェーズ:Airflow
  • 13. CONFIDENTIAL : copyright © by 2017 AnyPay inc. all rights reserved. 12 • Tree View:各工程の進捗を把握 モニタリング・フェーズ:Airflow
  • 14. CONFIDENTIAL : copyright © by 2017 AnyPay inc. all rights reserved. 13 • 各工程のログを簡単にトラック可能 モニタリング・フェーズ:Airflow
  • 15. CONFIDENTIAL : copyright © by 2017 AnyPay inc. all rights reserved. 14 • 各工程の実行にどのくらい時間がかかったのかを視覚的に把握 モニタリング・フェーズ:Airflow
  • 16. CONFIDENTIAL : copyright © by 2017 AnyPay inc. all rights reserved. 15 まとめ • データサイエンスは色々な領域があるので総合力で勝負 • まずはデータサイエンティスト、そしてデータエンジニアを採用 • データ解析は4つのフェーズがある (探索、リサーチ、プロダクショナイズ、モニタリング) • Airflowは、すばらしい