Mais conteúdo relacionado
Semelhante a 2019-04-17 「不適切コンテンツ検出」の機械化と安定運用 (20)
2019-04-17 「不適切コンテンツ検出」の機械化と安定運用
- 5. 事業紹介 : SNS mixi
• 2004年3月開始のソーシャル・ネットワーキ
ング サービス(祝15周年)
• 「心地よいつながり」を軸に、日記、コミュ
ニティ、イベント、ニュース、ゲームなど多
様なコミュニケーション機会を提供
- 10. 課題への対策 : 機械化による負荷軽減
• 規約違反投稿の検出を機械化する取り組みを実施
(2018年)
• 過去行ってきた不適切判断を学習データとして、
投稿の 危険度を判定するモデル を作成し、人間
に代わって判断を行う ことを目指した
- 20. 推論:REST API として組み込む
• API Gateway と Lambda を経由させて
REST API とする
• SageMaker の作成するエンドポイント
は AWS SDK による認証を必要とする
ため、アプリケーション側で AWS SDK
が使えない場合は REST API 化が必須
• アプリケーションから投稿ごとにAPIへ
推論リクエストを投げ、危険度判定結
果を得る
- 25. カスタムアルゴリズム
• SageMaker には組み込みアルゴリズ
ムや Tensorflow 等のフレームワーク
で学習/推論を行う環境が多く提供さ
れている(コンテナを暗黙的に利用)
• 提供されているアルゴリズム/環境で
実現できないロジックがある場合、独
自にコンテナ作成し、ECRへ登録し
て呼び出す必要がある
Built-in
Algorithms
Machine
Learning
Frameworks
Custom
Algorithms
&
Custom
Container
- 27. 独自コンテナのベース/サンプル
• Github の SageMaker Examples に
、独自アルゴリズムのためのテンプ
レートDockerfile があり、それをベ
ースにコンテナ作成できる
• scikit_bring_your_own など
- 32. SageMaker による入出力管理
• SageMaker では、仕様に従って入出力
を行うことにより、トレーニングジョブ
とコンテナイメージ、入力データ、モデ
ル、エンドポイント等の関連付けが記録
され、管理できるようになっている
• 関連づけはマネジメントコンソール
(WebUI)から確認可能
Training
Jobs
Algorithms
(ECR)
Model
Artifacts
(S3)
Input Data
(S3)
Preprocess
Jobs
Endpoints
Vocab /
Vectorizer
etc.(S3)
- 33. SageMaker による入出力管理
• SDK( describe_training_job 等)からも
関連づけが確認できる
• 入出力データの実体を把握できる(それ
ぞれ s3://.../{training_data}、
s3://.../output/ 等に存在している)
- 42. 解決策:ECS Scheduled Task
• バッチスクリプトの動作環境をコンテナとし
てECRへ登録し、ECS Scheduled Task とし
て起動させる
• cron 設定/起動が可能
• タスクごとに使い切りの環境のため経済的
• 細かな設定が不要でメンテナンスコスト低い
- 46. まとめ(ビジネス面)
• SNS mixi では、サービス運営において負担の大きかった
領域を機械化し、80% 以上の負荷削減を実現できた
• 負荷削減によって、人的資源をより複雑な課題へ集中投下
できるようになった
- 47. まとめ(技術面)
• SageMaker をはじめ AWS のサービス群を組み合わせるこ
とによって、MLモデルの開発と導入、モデル更新などの
運用を低コストで実現できた
• SageMaker で自然言語(とくに日本語)を扱う場合には、現
状細かな工夫が必要になるが、サーバセットアップや諸々
のインフラ管理コストを削減できるメリットは大きい