O slideshow foi denunciado.
Utilizamos seu perfil e dados de atividades no LinkedIn para personalizar e exibir anúncios mais relevantes. Altere suas preferências de anúncios quando desejar.

ITサービスマネジメントとSRE

6.615 visualizações

Publicada em

2016.4.20 OpsJAWS #5 発表資料

Publicada em: Tecnologia
  • Seja o primeiro a comentar

ITサービスマネジメントとSRE

  1. 1. ITサービスマネジメントと Site Reliability Engineering 2016.4.20 @yoshidashingo
  2. 2. 吉田真吾 ☁ バックグラウンド 証券システム基盤開発 p 基盤開発、Oracleチューニングなど APNプレミアコンサルティングパートナー エバンジェリスト p 講演年間113回(2013年実績) p AWS設計・構築・移行(2014-2015) ☁ 現在のしごと (株)セクションナイン 社長 p AWSコンサルティング Mobingi, K.K. VP of Eng p サービスデベロップメント ☁ 実績等 p AWSウルトラクイズ 初代チャンピオン (2012年) p AWS Samurai 2014 p AWSエキスパート養成読本 執筆 p AWS認定全資格(5種類)保持 p Oracle Database 11g認定 (OCP, Performance Tuning)保持
  3. 3. キーワード ☁ ITサービスマネジメント ☁ 冗長化、キャパプラ、レジリエンス ☁ 自動化 ☁ DevOps ☁ コードが書けるインフラエンジニア ☁ Site Reliability Engineering
  4. 4. ITサービスマネジメントとは • 顧客のニーズに合致した適切なITサービスを提 供するマネジメント活動全般 • ITサービスマネジメントの各種規格は、組織が サービスマネジメントシステムを計画、確立、 導入、運用、監視、レビュー、維持するための サービス提供者に対する要求事項を規定した規 格 • 必要な能力はITスキル標準(ITSS)や情報システ ムユーザースキル標準(UISS)にて明確化・体系 化されている
  5. 5. ITサービスマネジメントの規格 • ITIL (ITインフラストラクチャライブラリ) • 要求プロセス&ベストプラクティス集 • 現在 ITIL V3 • BS 15000 • 英国規格 • ISO/IEC 20000 • ISO規格 • ISO/IEC 20000-1:2011, ISO/IEC 20000-2:2011 • JIS Q 20000 • JIS規格 • JIS Q 20000-1:2012, JIS Q 20000-2:2012 • ITSMS適合性評価制度
  6. 6. JIS Q 20000:2012 • 規格 • JIS Q 20000-1 • 情報技術 ― サービスマネジメント ― 第1部:仕様 • ITサービスマネジメントの実施基準 • JIS Q 20000-2 • 情報技術 ― サービスマネジメント ― 第2部:実践のため の規範要求プロセス群 • ITサービスマネジメントの認証基準
  7. 7. ITSMSの導入 http://www.isms.jipdec.or.jp/itsms/itsms/index.html
  8. 8. ITSMSの運用プロセス n設計及び移行 • 新規サービス又はサービス 変更の設計及び移行 nサービス提供プロセス • サービスレベル管理 • サービスの報告 • サービス継続及び可用性管 理 • サービスの予算業務及び会 計業務 • 容量・能力管理 • 情報セキュリティ管理 n関係プロセス • 事業関係管理 • 供給者管理 n解決プロセス • インシデント及びサービス 要求管理 • 問題管理 n統合的制御プロセス • 構成管理 • 変更管理 • リリース及び展開管理
  9. 9. ITSMSにおいてAWSを使うとはどういうことか サービスレベル管理 サービス継続 可用性管理 サービスの予算業務 会計業務 キャパシティ管理 情報セキュリティ管理
  10. 10. ITスキル標準(V3)におけるITサービスマネジメント 共通スキル • 関連知識 • 顧客対応 • 要員管理 • 情報資産管理 • テクノロジ • ビジネスマネジメント • プロジェクトマネジメント • リーダーシップ • コミュニケーション • ネゴシエーション 専門分野固有スキル(運用管理) • ITサービス管理 • ITサービスマネジメント導入計画 立案、セキュリティ管理 • サービスデリバリ • サービスレベル管理、可用性管理、 キャパシティ管理、ITサービス財 務管理、ITサービス継続性管理 • サービスサポート • インシデント管理、問題管理、変 更管理、リリース管理、構成管理 • ファシリティマネジメント • データセンタ施設の防犯と防災等 の安全管理関連知識、ファシリ ティマネジメント関連法規と基準 の基礎知識、設備管理 http://www.ipa.go.jp/jinzai/itss/release20120326.html
  11. 11. ITスキル標準(V3)におけるITサービスマネジメント 専門分野固有スキル(システム管理) • ITサービスマネジメント業務管理 • ITサービスマネジメントの業務フ ロー分析、運用業務管理システムの 導入・設定、運用業務管理システム の運用管理 • アプリケーション管理 • 運行管理、障害時運用方式、性能管 理、構成管理、アプリケーションシ ステムの受け入れ • システムプラットフォーム管理 • 共通基盤としてのプラットフォーム 設計構築、プラットフォームシステ ム管理、システムプラットフォーム の受け入れ • データベース管理 • 共通基盤としてのデータベー ス設計構築、データベースシ ステム管理、データベースシ ステムの受け入れ • ネットワーク管理 • 共通基盤としてのネットワー ク設計構築、ネットワークシ ステム管理、ネットワークシ ステムの受け入れ • セキュリティ管理 • セキュリティ技術、最新セ キュリティ情報の収集 http://www.ipa.go.jp/jinzai/itss/release20120326.html
  12. 12. ITスキル標準(V3)におけるITサービスマネジメント 専門分野固有スキル(オペレーション) • プラットフォームオペレーション • プラットフォーム技術(ハードウェア)、 プラットフォーム技術(ソフトウェア)、 プラットフォーム製品知識 • ネットワークオペレーション • ネットワーク技術、ネットワーク製品知 識 • ITサービスオペレーション • 業務知識、業務システムオペレーション、 ジョブスケジュール、システムの監視、 稼働状況管理、障害管理、帳票デリバリ、 媒体管理 • スタッフィング • 品質・スキルの維持、勤務スケジュール 管理 専門分野固有スキル(サービスデスク) • 顧客サポートスキル • 対人スキル、聞くスキル、会話するスキル、書くスキル • ナレッジマネジメント • ナレッジマネジメントの意義、ナレッジベース、FAQ • サポートセンタのインフラに関する知識 • コンピュータテレフォニー、コールトラッキングシステム、イ ンシデント管理システム、ナレッジマネジメントシステム • 個別業務 • 業務知識 • スタッフィング • 要員の品質・スキルの維持、勤務スケジュール管理 • サービスデスクの管理指標 • 測定指標、モニタリング手法 • サービスサポート • インシデント管理プロセス http://www.ipa.go.jp/jinzai/itss/release20120326.html
  13. 13. ITスキル標準(V3)におけるITサービスマネジメント 共通スキル ITサービスマネジメント 運用管理 システム管理 オペレーション サービスデスク インフラエンジニア オペレーションエンジニア サービスマネージャー
  14. 14. SITE RELIABILITY ENGINEERING How Google Runs Production Systems https://landing.google.com/sre/
  15. 15. Google以外でも現在は 広く採用されている Netflix SRE の職務定義書 ☁ 職責 – 効果的なツールの利用やアラート、信頼性に対するリス クを識別し取り組む責任 – パフォーマンスと信頼性のチームにおいて他のチームと ともにオンコールのローテーションに参加する – 継続的な信頼性を向上させるために、プロダクトの停止 においてトリアージ作業を行い、プロダクトのエンジニ アリングチームと連携し対策を実施する責任 – 信頼性やパフォーマンスを向上させるために、クラウド 関連の最適化やベストプラクティスを定義し伝道する ☁ 必須要件 – 高トラフィックな大規模分散システムで生じる不安定さ の根本原因を解決できる能力 – Linux/Java/Tomcatや他のミドルウェア技術における設 定や障害対応経験 – 信頼性の観点からの大規模で複雑なシステムの理解力 – pythonかperlかJVMベースの言語でのコーディング力 – 信頼性の問題を解決する情熱と今後の戦略を見極める力 Facebook, Netflix, Dropbox, etc… 日本でも • メルカリ→”インフラチーム改 め Site Reliability Engineering (SRE) チームになりました” http://tech.mercari.com/entr y/2015/11/18/153421 ちょっとしたまとめ • Site Reliability Engineering(SRE)チームとは http://yoshidashingo.blogspo t.jp/2016/03/what-is- sre.html
  16. 16. “ソフトウェアシステムの一生の圧倒的大部分を 占めるのはそれを利用している期間であり、設計 したり構築している期間ではありません。なのに なぜ従来の多くの知識体系では、ソフトウェアエ ンジニアが大規模な設計や開発に焦点を当てるこ とばかり主張しているのでしょうか?” “このエッセイ・記事集では、GoogleのSite Reliability Engineeringチームの主要メンバーた ちが、なぜライフサイクル全体へのコミットメン トすることが、世界規模で展開する大規模なソフ トウェアシステムのビルド、デプロイ、モニタリ ング、メンテナンスを可能にするかを説明してい ます。” Site Reliability Engineering @Back Cover https://landing.google.com/sre/book.html
  17. 17. Table of Content Part 1. イントロダクション 1. イントロダクション 2. SRE視点から見る Googleの本番環境 Part 2. 原則編 3. リスクを受け止める 4. サービスレベル目標 5. 苦行を排除する 6. 分散システムの監視 7. Googleの自動化の進化 8. リリースエンジニアリング 9. シンプルさ
  18. 18. Table of Content Part 3. 実践編 10. 時系列データから取得する実用的なア ラート 11. オンコール生活 12. 効果的なトラブルシューティング 13. 緊急対応 14. インシデントの管理 15. ふりかえり(検死)文化:失敗から学ぶ 16. 追跡の停止 17. 信頼性のためのテスト 18. SREのソフトウェアエンジニアリング 19. フロントエンドでおこなう負荷分散 20. データセンターでおこなう負荷分散 21. 過負荷のあつかいかた 22. 連鎖障害への対処 23. 緊急度の管理:信頼性のための分散合 意手法 24. Cronをつかった分散定期スケジューリ ング 25. データ処理パイプライン 26. データ整合性:書いたものを読む 27. 大規模環境での信頼性高い起動方法
  19. 19. Table of Content Part 4. マネジメント編 28. SREをオンコールやその先 に 29. 割り込みへの対処 30. 運用負荷で埋もれてしま うSREをリカバリする 31. SREにおけるコミュニケー ションとコラボレーション 32. 進化するSREエンゲージメ ントモデル Part 5. まとめ 33. 他の業界から学ぶ教訓 34. まとめ 付録 A) 稼働率表 B) 本番サービスのためのベストプラ クティス集 C) インシデント状況報告書(例) D) 障害報告書(検死報告書)(例) E) サービス調整チェックリスト F) 本番議事録(例)
  20. 20. ぐっときたページを紹介
  21. 21. 1. イントロダクション ☁システム管理者のアプローチからサービ スマネジメントへ – ソフトウェア・エンジニアリングで問題解決を 行える人間を採用しはじめた ☁Googleのサービスマネジメントへのアプ ローチ=Site Reliability Engineering
  22. 22. 5. 苦行を排除する ☁苦行の定義 – 苦行=マニュアル作業、反復作業で本番環境に 縛られ、グロースにより直線的に増える作業 ☁なぜ苦行は少ないほうがよいのか – 日々の50%以上を将来の苦行を取り除く作業 に充てることでサービスをスケールアップする
  23. 23. 7. Googleの自動化の進化 ☁自分の仕事をなくすために自動化せよ: すべてのものを自動化せよ! – Borg(クラスタ管理システム)上にアドDBの MySQLを載せて30秒以内の自動フェイルオー バーを実現 ☁信頼性は「基本機能」 – 自動制御やレジリエントな機能が信頼性を作る
  24. 24. 8. リリースエンジニアリング ☁哲学 – セルフサービス:完全自動化 – 高速:すべてのリグレッションテストに通過したら リリースされる – 密封されたビルドプロセス →リリース管理者ではあるがリリース作業者で はない
  25. 25. 15. ふりかえり文化 ☁Postmotem=検死報告書=障害の詳細な 経緯をまとめたレポート ☁項目例→付録D:障害報告書(例) – インシデント#、日付、ステータス、サマリ、 顧客影響、根本原因、発生要因、解決方法、課 題作業、教訓(うまくいったこと、失敗したこ と、ラッキーだったこと)、タイムライン
  26. 26. 22. 連鎖障害への対処 ☁サーバー過負荷 – 連鎖障害をおよぼすもっとも多い原因 – 当該クラスタの切り離し ☁リソースの使いはたし – 原因別に対処 ☁サービス利用不可
  27. 27. SREのスキル体系 共通スキル ITサービスマネジメント 運用管理 システム管理 オペレーション サービスデスク インフラエンジニア オペレーションエンジニア Site Reliability Engineer(ing) サービスマネージャー OS ミドル 応用ソフト Google SREに求められる スキル体系をITSSにマッ ピングしてみる ソフトウェアデベロップメント
  28. 28. まとめ • WHAT is Site Reliability Engineering ? • ITサービスマネジメントの再定義/各社の実装モデルで あり、既存の取り組みの上にアドオン可能 • 次世代型ITサービスマネジメント • HOW? • ITサービスマネジメント+ソフトウェア開発 • WHY? • サービスレベルに沿った運用+将来の苦行からの解放 =信頼性を継続的に高めていけるサイト • SRE本:ITサービスマネジメントに関わる参考書 • エッセイ集なのでどこからでも読みやすいですよ

×