MLOps Course Slides_JP(配布用).pdf

Yuya Yamamoto
Yuya YamamotoI'm a materials chemist, DataScientist and Kaggle Master
1
W&Bハンズオンウェビナー
山本 祐也 (Yuya YAMAMOTO)
● 機械学習エンジニア
- Customer Success@W&B
● Kaggle Competitions Grandmaster
○ ID: nejumi
Weights & Biasesのサインアップとインストール
こちらからサインアップして
ください
URLはこちら
:https://www.wandb.j
p/
Team Background | チームの出身会社
Lukas Biewald, CEO
Co-Founder & CEO
Figure Eight, Powerset, OpenAI
Chris Van Pelt, CISO
Co-Founder & CISO
Figure Eight, Powerset
Shawn Lewis, CTO
Co-Founder & CTO
Beep, Google
● OpenAI
● Google
● Waymo
● Microsoft
● DataRobot
● Stanford
● Harvard
● Berkeley
● Twitter
● Databricks
Figure Eight (acquired by Appen)
● Meta
● Github
● Domino
● JP Morgan
● Alteryx
$200m in Funding | $200Mを超える資金調達
Angels & Advisors | アドバイザー
Richard Socher — Chief Scientist, Salesforce
Greg Brockman — CTO, OpenAI
Nat Friedman — CEO, GitHub
Tom Preston-Werner — Founder, GitHub
Anthony Goldbloom — Founder and CEO, Kaggle
Vladlen Koltun — Chief Scientist, Intel
W&Bは2017年にSFで創業
W&B日本展開
MLエンジニアのためのミートアップを毎月開催
(https://wandb.connpass.com)
2023年
3月 ● 東京-京橋を拠点に日本法人を設立
4月 ● JDLA協会正会員に
5月 ● AI Expoに出展ドキュメンテーションな
どを日本語化
6月 ● 人工知能学会大会をスポンサー
7月 ● llm-jpに参画
8月 ● 日本語タスクLLMリーダーボード
が国内最大規模に
私たちのお客様は機械学習で
あらゆるインダストリーを変革しています
TRIではコンピュータビジョンを使って
完全自動運転車の開発を進めてい
ます
「W&Bは早いペースで最先端の開発
を大規模に行うチームにはなくては
ならないインフラです。」
Adrien Gaidon
Toyota Research Institute
OpenAIは深層学習と自然言語処理を
使って、超高性能なチャットボットを開
発しています
「W&Bは、一人の研究者のインサイトを
チームに波及させ、一台のマシンに閉
じ込めず、何千台にスケールさせること
ができます。」
WOJCIECH ZAREMBA
Co-founder of OpenAI
Genentechは深層学習を使って感染
病に有効な新しい抗生物質を
探しています
「W&Bのおかげで、私たちは意味の
ある科学研究により多くの時間を費
やすことができます。」
Stephen Ra
Machine Learning Lead
データ収集
探索的解析
データ準備
モデリング・
チューニング
結果の共有と
評価
モデル・サービス
監視
異常・ドリフト
検知
ビジネス評価
モニタリング
データサイ
エンティスト
MLエンジニア
プロダクト
マネージャー
プロダクト
マネージャー
データ
エンジニア
システム実装
結合テスト
サービスイン
システム
エンジニア
MLOps
エンジニア
推論API実装
リスク評価
モデルリリース
評価・デプロイメント
サーバー
エンジニア
プロダクト
マネージャー
監査担当
モデル開発
監査担当
バージョン管理と継続開発
モデルライフサイクルを支えるWeights & Biases
Tables
Sweeps
Artifacts
Experiments
Reports Prompt
Launch Models Weave Monitoring
Automation
W&B Courses
8
W&Bの基本的な使い方に関する
初心者向けコース
W&Bを用いてMLプロジェクトに
取り組むコアとなるコース
LLM特化コース
https://www.wandb.courses/
W&B Coursesで一番人気のコースをギュッと圧縮
9
EDA
Data
Prep
Create
Baseline
Refactoring
Team
Collaboration
Hyperparam
Optimization
Evaluation Best
Practices
Model
Versioning
Model
Evaluation and
Diagnostics
Lesson 1 Lesson 2 Lesson 3
EDA
Data
Prep
Create
Baseline
Refactoring Team
Collaboration
Hyperparam
Optimization
オリジナルコース
本コース(日本語ダイジェスト)
+解説 +解説
Effective MLOps
Model Development and
Evaluation
Lesson 1 - End-To-Endプロトタイプの構築
11
Agenda - End-to-Endプロトタイプの構築
アーティファ
クト
実験管理 レポート
テーブル
ビジネス
コンテクストを
理解する
Data Science
課題に
落とし込む
自身のデータを
探索し
理解する
ベースライン指
標とモデルを構
築する
チームと
結果を共有する
12
ケーススタディ - 自動運転における認識技術
BDD100Kデータセットにおける
セマンティックセグメンテーション
は、予測、動きの計画などのよ
り多くのサブタスクを含むより大
きな自動運転システムを構成す
るタスク群のうちの一つです
W&B テーブル
● モデルの予測を視覚化し分析
する
● 探索的データ分析を一元化す
る
● データセットから目的行を素早く
特定する
# Quickly log your first table
wandb.log({“table”: my_dataframe})
W&B レポート
● ライブダッシュボードでの共同分析
● チームメイトとの情報共有
● リアルタイムでのコメント機能、実
験結果の説明、作業のスナップ
ショットの取得
● LaTeXまたはPDFにエクスポート
W&B アーティファクト
● 軽量なデータセットとモデルの
バージョン管理機能
● パイプラインの各ステップを保
存
● モデルのトラッキングとモデル
のリネージ追跡
● 手軽な監視可能性(オブザーバ
ビリティ)
● データアクセス制御
# Log an artifact
artifact = wandb.Artifact('mnist',
type='dataset')
artifact.add_dir('mnist/')
wandb.log_artifact(artifact)
# Use artifact in your pipeline
artifact = run.use_artifact(mnist:v1')
artifact_dir = artifact.download()
W&B 実験管理
● モデル訓練の記録システム
● 全実験の視覚化と比較
● 以前のモデルのチェックポイン
トを素早く見つけて再実行
● 計算リソースの監視する
● リアルタイムでパフォーマンスを
デバッグ
# Integrate with any Python script
import wandb
# 1. Start a W&B run
wandb.init(project=’gpt3’)
# 2. Save model inputs and hyperparams
config = wandb.config
config.learning_rate = 0.01
# Model training here
# 3. Log metrics over time to visualize
performance
wandb.log({“loss”: loss})
Training (学習)
Validation (検定),
多くの場合CVする
Holdout (ホールドアウト)
17
データのパーティショニング
一般的なルールとして、データを以下
の3つに分割する
しかしながら、いくつかのハマりポイントがあ
り、以下に気をつける必要がある :
これらのパーティションは同じ分布か
ら取得しますが、特に validationとtest
はデプロイ後に想定される分布になっ
ているべき
パーティション間でリーケー
ジが無いようにする
いくつか例を見てみましょう
18
Data Partitioning: グループパーティショニング
多くのケースで、データは真
に独立ではありません
例:運転データセットでは、一部の写真が同
じカメラからわずかな時間隔で撮影されてい
る
Train
Lemon 2
Validation Holdout
そのため、データをランダムに
分割してはならない
カメラ 3 カメラ 4
カメラ 1 カメラ 2
19
Combining Concepts: 層化抽出 + グループパーティショニング
Validation
Train Holdout
同一パーティション内では同一カメラ
由来の画像が複数含まれるのを許容
する
同じカメラからの画像がパーティションを跨いで出現しないようにする
各パーティションでクラス比を同等にする (例: 歩行
者)
リーケージ防止 + 各fold間でクラス比が略同等になるようにする
20
Code: 層化パーティショニング
ファイル名のprefixでグルーピングする
10分割もいらないので、 testとvalid以外の残りは全てtrainにする
21
Effective MLOps
Model
Development
July 2022
Lesson 2 - ハイパーパラメータ最適化とモデルトレーニ
ングにおけるチームコラボレーション
Back from vacation
22
23
ハイパーパラメータ最適化とモデルトレーニングにおける
チームコラボレーション
LESSON 2
実験を
実施する
実験結果を
分析する
実験のために
コードを整理する
結果をチームと共
有し、チームでブレ
ストする
実験管理 レポート スイープ
リファクタリング
24
1 セルを関数にリファクタする
2 ノートブックをスクリプトにリファクタする
3 コマンドラインで使えるように argparseを追加する
スイープ
25
● 最適なハイパーパラメータを探索する
● パラメータの変数重要度を理解し、相
関をプロットする
● 多数のマシンを跨いでスイープを実行
する
● ランダムサーチ、グリッドサーチ、ベイ
ズ最適化から選択
● さらにOptunaとの連携により、より高度
な最適化も簡単かつスケーラブルに可
能
実験結果の分析
26
ダッシュボード
● Runsのフィルターやグルーピング、ソートが簡単にできる
● 新しいプロットも簡単に作成できる
レポート
● サマライズして、あなたが見出したインサイトをチームと共有する
アンケートにご協力ください
日本語ワークスペースができました!
W&B Japan
コミュニティー
wandb.me/jp-slack
https://note.com/wandb_jp
日本語の記事を投稿しています
是非フォローしてください!
MLOps Course Slides_JP(配布用).pdf
MLOps Course Slides_JP(配布用).pdf
1 de 31

Mais conteúdo relacionado

Similar a MLOps Course Slides_JP(配布用).pdf(20)

アジャイルマネジメントとは?アジャイルマネジメントとは?
アジャイルマネジメントとは?
Kiro Harada4.4K visualizações
DRIVE CHARTを支えるAI技術DRIVE CHARTを支えるAI技術
DRIVE CHARTを支えるAI技術
Yusuke Uchida2.3K visualizações
Intalio japan special cloud workshopIntalio japan special cloud workshop
Intalio japan special cloud workshop
Daisuke Sugai725 visualizações
データ分析チームの振り返りデータ分析チームの振り返り
データ分析チームの振り返り
Satoshi Noto5K visualizações
ビッグデータ活用支援フォーラムビッグデータ活用支援フォーラム
ビッグデータ活用支援フォーラム
Recruit Technologies3.4K visualizações
Big data解析ビジネスBig data解析ビジネス
Big data解析ビジネス
Mie Mori3.5K visualizações
20181206 Jazug DataScience TeamBuilding and DevOps20181206 Jazug DataScience TeamBuilding and DevOps
20181206 Jazug DataScience TeamBuilding and DevOps
Yukako Shimizu292 visualizações
データ分析を支える技術 DWH再入門データ分析を支える技術 DWH再入門
データ分析を支える技術 DWH再入門
Satoru Ishikawa3.9K visualizações
Offshore Agile Development in XPOffshore Agile Development in XP
Offshore Agile Development in XP
Kenji Hiranabe1.9K visualizações
Iot algyan jhirono 20190111Iot algyan jhirono 20190111
Iot algyan jhirono 20190111
Hirono Jumpei861 visualizações
Cloud Native and Agile ApproachCloud Native and Agile Approach
Cloud Native and Agile Approach
Shinya Yanagihara167 visualizações
JAWS DAYS 2022JAWS DAYS 2022
JAWS DAYS 2022
陽平 山口79 visualizações

MLOps Course Slides_JP(配布用).pdf