Mais conteúdo relacionado
Semelhante a MLOps Yearning ~ 実運用システムを構築する前にデータサイエンティストが考えておきたいこと (20)
Mais de Rakuten Group, Inc. (20)
MLOps Yearning ~ 実運用システムを構築する前にデータサイエンティストが考えておきたいこと
- 2. 2
⾃⼰紹介
• ⽒名: 三浦 航
• 略歴:
• 2014/03: 東京⼯業⼤学⼤学院総合理⼯学研究科知能システム科学専攻
• ⽇本企業100万社の取引ネットワークの解析
• 2014/04 ~ 2018/06: 株式会社ブレインパッド
• 機械学習を⽤いた各種プロジェクトの推進
• 2018/07 ~ : 楽天株式会社
• 機械学習を⽤いた楽天における各種サービスの改善
最近の興味
• 機械学習を⽤いたシステムの開発・運⽤ (MLOps)
• 機械学習モデルの継続的な改善
お話しすること
• ⾃然⾔語処理のバッチ予測システムを構築した際に取り組んだこと・反省など
• 事業会社のデータサイエンティストの役割やワークスタイルなど
- 6. 6
アイテム名, 店舗名に対する⾃然⾔語処理
アイテム名, 店舗名に対する⾃然⾔語処理は様々なタスクが考えられ、⼀般的にその需要も⾼いと考えられる。
• 家計簿アプリにおけるアイテム名, 店舗名の費⽬分類
→ OCRで読み込んだレシートを、⾃動で費⽬の登録まで完了してくれる
• ショッピング・オークションサイトにおける同⼀アイテムのマッチング1
→ ユーザが付与した同⼀のアイテム名称を認識できることで、価格を⽐較できるようになる
• アイテム名からの型番・ブランド名などの固有表現抽出2
→ 検索時に⾊やメーカーなど、属性を指定した検索が可能となる
• レシピサイトにおける材料名の正規化3
→ 材料名の表記ゆれに対する、カロリー登録のコストの削減
本⽇は店舗名のカテゴリ分類というタスクについて考え、その予測システムを構築する際の話をします。
店舗名のカテゴリ分類タスクのイメージ
様々な特徴量が存在するものの、基本的には店舗名のみから業種カテゴリを予測する。
店舗ID 店舗名称
100000 ミウラ薬局
100001 ミウラストア
カテゴリ スコア
ドラッグストア 0.8
スーパーマーケット 0.6
1. A. Kannan et al., Matching Unstructured Product Offers to Structured Product Specifications, KDD 2011
2. M. Joshi et al., Distributed Word Representations Improve NER for e-Commerce, NAACL-HLT 2015
3. Encoder-Decoder でレシピの材料名を正規化する - クックパッド開発者ブログ
https://techlife.cookpad.com/entry/2017/10/30/080102
- 9. 9
MLOps: 考えたことなど
1. 全体のワークフローは機械学習基盤上のAirflowで管理
• 前処理のパイプラインは学習・推論時で同⼀のコードを使⽤
2. 学習した機械学習モデルは次回実⾏時に更新させる
(予測時は前回学習時のモデルを⽤いる)
• 即時性が必要かどうかはケースバイケース
• 予測が⽉次なら1ヶ⽉、週次なら1週間の猶予ができる
3. 精度指標・集計結果をSlackに通知
4. 実際の実装はさておき、全体のフローはデータサイエンティスト
も考慮できると良いのでは
• どの段階でどの形式のデータを出⼒・保存すべきか︖
• 機械学習モデル以外の予測ロジックはどう追加/削除する︖
• 何をモニタリングするべきなのか︖
• 運⽤時に前処理⽅法を変えたくなった場合は︖
( )
( )