SlideShare uma empresa Scribd logo
1 de 47
Baixar para ler offline
Site Reliability Engineering (SRE)で
拡がる運⽤の世界
Googleでの展開から、エンタープライズへの夢は⾒れるか
2016/9/1
http://www.ossl.co.jp
TWITTER: http://twitter.com/satoruf
LINKEDIN: http://jp.linkedin.com/in/satorufunai/ja
SLIDESHARE: http://www.slideshare.net/sfunai
FACEBOOK: http://www.facebook.com/satoru.funai
2016/9/1 Copyright 2016(C) OSS Laboratories Inc. All Rights Reserved 1
OSC 2016 .Enterprise
Enabling SRE
クラウド時代のIT運⽤管理
〜 OSSツールは商⽤ツールに追いついたか? 〜
9月12日(月) 14:00〜
会場:TIS株式会社 14F TIS研修室
OSS運用管理勉強会
1 ご挨拶 ⽇本仮想化技術 宮原 徹
2
JobScheduler新管理ダッシュボード
"Cockpit"
TIS 安達 貴志
3 OTRS×JobSchedulerでリリース管理 アイオーアーキテクト 平⾒ 知久
4
エンタープライズ⽤途で使えるZabbix
ソリューション
ミラクル・リナックス 松永 貴
5
Site Reliability Engineering (SRE)
を可能にするOpenPIE
OSSラボ 船井 覚
アジェンダ
1. SREの定義
2. dev-opsとの違い
3. エンタープライズとの違い
4. 今やるべき事と理由
2016/9/1 Copyright 2016(C) OSS Laboratories Inc. All Rights Reserved 3
SREとは
l Site Reliability Engineering
l サイト信頼性⼯学?
l 信頼性⼯学とは、システム
の信頼性を分析する⼯学⼿
法である。
l https://ja.wikipedia.org/wiki/%E4%BF%
A1%E9%A0%BC%E6%80%A7%E5%
B7%A5%E5%AD%A6
l しかし、サイト信頼性⼯学
という学問はない
2016/9/1 Copyright 2016(C) OSS Laboratories Inc. All Rights Reserved 4
SREの求⼈
https://www.linkedin.com/jobs/search?keywords=Site%20Reliability%20Engineer&location=united%20st
ates&locationId=&trk=jobs_jserp_search_button_execute&searchOrigin=JSERP
2016/9/1 Copyright 2016(C) OSS Laboratories Inc. All Rights Reserved 5
2016/9/1 Copyright 2016(C) OSS Laboratories Inc. All Rights Reserved 6
今⽇の元ネタ
2016/9/1 Copyright 2016(C) OSS Laboratories Inc. All Rights Reserved 7
こちらも読んでないと、意味わからない
2016/9/1 Copyright 2016(C) OSS Laboratories Inc. All Rights Reserved 8
GoogleでのSREの定義
l “Fundamentally, it’s what happens when you ask a software engineer to design an
operations function.”
l https://landing.google.com/sre/interview/ben-treynor.html
l https://www.usenix.org/conference/srecon14/technical-sessions/presentation/keys-sre
l 「SRE とは、操作機能を作ってくれとソフトウェア エンジニアに頼んだときに起こる
ことだ」
l http://googlecloudplatform-japan.blogspot.jp/2016/07/sre-google-mission-
control.html?1468590211542=1&m=1
l Mr. Benjamin Treynor Sloss
l https://www.linkedin.com/in/benjamin-treynor-sloss-207120
l Terse variant: If Google ever stops working, it's my fault.
Verbose variant : I have been responsible for global operations, networking, and production engineering at
Google since 2003. As of 2016, I manage a team of approximately 4,000 software, hardware, and network
engineers across the globe.
Along the way,
* I coined the term "Site Reliability Engineering" for my team of (now) x,xxx software engineers engaged in
what were traditionally operations functions, and I have watched with some pride as the rest of the SaaS
industry has adopted the SRE name, mission, and practices.
* I built the networking team, from its initial scope of providing a pair of leased OC48s, to its current size --
publicly estimated to be one of the 3 largest networks in the world.
* Since 2010 I've also managed datacenter design, construction and operations, and servers. Public estimates
are that as of 2014 Google has built between 200MW and 680MW of highly-efficient datacenters worldwide.
* Finally, since late 2013 I've been engaged on Google's public cloud product, Google Cloud Platform
2016/9/1 Copyright 2016(C) OSS Laboratories Inc. All Rights Reserved 9
Keys to SRE Presentation by Ben Treynor @ SREcon14
2016/9/1 Copyright 2016(C) OSS Laboratories Inc. All Rights Reserved 10
SREの範囲
How Google Does Planet-Scale Engineering for Planet-Scale Infra @ GCPNext16
2016/9/1 Copyright 2016(C) OSS Laboratories Inc. All Rights Reserved 11
Keys to SRE Presentation by Ben Treynor @ SREcon14
2016/9/1 Copyright 2016(C) OSS Laboratories Inc. All Rights Reserved 12
Google SWエンジニア新卒採⽤
必要な条件/経験
4 年制⼤学卒または関連職種での実務経験
プログラミング能⼒( 特に C++ , Java,
Python)
望ましい経験/スキル
修⼠号または博⼠号を取得していること
Unix / Linux または Windows 環境におけるソフ
トウェア開発や API の経験
ネットワーク プログラミングやソフトウェア シ
ステムの開発または設計の経験
2016/9/1 Copyright 2016(C) OSS Laboratories Inc. All Rights Reserved 13
新卒SWエンジニアが配属される組織
l プロダクト&システム デベロップメント:
l 検索品質を向上させる⾰新的な⽅法の発⾒、コンピューティング プラットフォームやネットワーキング技術
の構築、動画のインデックス登録の⾃動化、複雑なオークション システムの改善・拡⼤など、様々な課題に
対してソリューションを開発します。Google のプロダクトの拡⼤と品質向上を実現するためのソフトウェア
アプリケーションをリサーチ、企画、開発しながら、⼤量のデータや情報アクセスに関わる問題にチームで
取り組むことが求められます。関連する専⾨分野の例として、AJAX および同様の技術を使⽤したユーザー
インターフェース開発、セキュリティ、組み込みシステムとモバイルアプリ(Android および iOS)、デベ
ロッパー ツール(IDE、⼤規模なビルドシステム、コンパイラ)などが挙げられます。
l エンジニアリング プロダクティビティ:
l ソフトウェア設計スキル、分析⼒、プログラミング能⼒を駆使して⾰新的な⾃動テストシステムを構築しま
す。これは、単なるデバッグやテストの実施といった表⾯的な作業のみを指すわけではありません。テスト
チームは⽇々幅広い課題に取り組みながら、分散コンピューティング インフラストラクチャにおける多様な
シナリオに対応するため、インテリジェント システムの設計と構築を担当します。これまでは存在しなかっ
たものに対する⾃動テストシステムを設計、構築しようとするとき、参照できる教科書はありません。この
グループで業務にあたる⼈材として Google が優秀なエンジニアを求めているのはそのためです。
l サイト リライアビリティ:
l Google の製品開発プロセス全体に関与し、クラウドベース コンピューティングの最前線で業務にあたりま
す。この精鋭チームの⼀員として、トラフィック異常のコードレベルのトラブルシューティングから最新
サービスのメンテナンスまで、またモニタリングやアラートから新しい⾃動化インフラストラクチャの構築
まで、Google の運営を維持するあらゆる業務に対応します。このチームのエンジニアは、何千万という数の
ユーザー規模に⾒合う強靭かつ拡張可能なソフトウェアの作成に情熱を傾けています。⽇々新しく出会う
様々な事象に取り組み、ほぼすべてのエンジニアリング チームやオペレーション チームと連携して、すべて
の⼈がアクセスできるような Google ならではのサービスとアプリケーションを提供します。
2016/9/1 Copyright 2016(C) OSS Laboratories Inc. All Rights Reserved 14
GoogleでのSREとは
l 全世界に約2,000⼈(SW/NWエンジニア含めて4,000⼈)
l すべての製品/サイトにSREチームがあるわけではない
l 他のチームと共通採⽤、共通⼈材プール
l チーム間は対等(Dev. vs Ops.ではない)
l チーム間の移動は常に可能
l つまり、SREを増員すれば、開発チームはメンバーが減る
l Mission Controlプログラム:製品開発に携わるエンジニアに SREの仕事を体験させる 6 か⽉のローテーション
プログラム、実際に受けた⼈間の半分はSREのポジションを選択している
l SREの時間の50%以上は、開発プロジェクトに当てられなければならない
l 50%未満になる=運⽤/障害対応時間が50%以上になると、該当製品開発チームに負荷が割り振られる
l SREの開発プロジェクトは、⾃動化や監視ツールにとどまらず、サービスレベルの向上に役⽴つもの全て(ロー
ドバランサ、分散合意システム、分散スケジューリング、etc.)
l サービス運⽤負荷の5%は製品開発チームが負担する
l 運⽤/障害対応には、チケット処理、障害対応、オンコール(当番)が含まれる
l オンコールは、8-12時間交代、時間で25%以下(1週間/⽉)、オンコール中のイベントは2件程度
l オンコールは、プライマリーとセカンダリーの⼆⼈体制で、典型的チームは8⼈体制となる
l オンコールは、「新⼈の仕事ではない」。オンコールは、トレーニングとチェックリストにパスしないとできな
い。
l オンコール中のSREはサービス停⽌を含む、サービスに関する全権を委譲されている。
2016/9/1 Copyright 2016(C) OSS Laboratories Inc. All Rights Reserved 15
SRE as a custodian
“SREs are the custodian of production.
SREs are the custodian of customer
experience”
「SREとは、サービスとユーザー体験の
管理者であり守護者である」
How Google Does Planet-Scale Engineering for Planet-Scale Infra @ GCPNext16
2016/9/1 Copyright 2016(C) OSS Laboratories Inc. All Rights Reserved 16
SLAとエラーバジェット
l SREチームと製品開発チーム間の契約
l エラーバジェット=100%-SLA(例:99.9%)=0.1%
l エラーバジェット(=SLA)は、製品開発チームが定める
l エラーバジェットを超えた場合は、製品開発チームに対応が割り
振られる
l SLAを厳しくすれば、SRE対応可能時間は短くなる
l 殆どのSRE対応は、新機能リリース時に発⽣する
l つまり、エラーバジェットを使い果たすと、新機能リリースは凍
結せざるをえない
l それを避けるためには、リリース前のレビューが重要
2016/9/1 Copyright 2016(C) OSS Laboratories Inc. All Rights Reserved 17
リリース前レビュー
l 必ずPRR:Production Readiness Reviewが、以下の観点でSREと
開発チームで⾏われる
l システムアーキテクチャー、他サービスとの依存性
l エマージェンシーレスポンス
l キャパシティプランニング
l 変更管理
l 計測:信頼性、応答性、リソース
l PPRの中で、SLA/SLO/SLIを合意し、製品設計に必要なフィード
バックを⾏い、トレーニングなどのスケジュールを決定する
l SREの中には、リリース専⾨部隊(LCE: Launch Coordination
Engineering)がある
l 製品開発チームと協⼒して、関連するチームを横断し⾼品質な製品リリースに
向けてコンサルテーションを⾏う
l Google検索から、Andoroidアプリまで全てのGoogle製品に関わる
l もし製品開発チームと合意できなければ、 SREは断れる2016/9/1 Copyright 2016(C) OSS Laboratories Inc. All Rights Reserved 18
Launch Coordination Checklist例
l アーキテクチャー
l アーキテクチャー概要
l クライアントからのリクエスト(API)
l マシン/データセンター
l 使⽤リソース、帯域幅、データセンター
l 冗⻑性、QoS
l DNS、ロードバランス
l キャパシティプランニングと性能予測
l トラフィック予想
l 負荷テスト結果、最⼤応答性能/データセンター
l 他サービスへの影響
l ストレージ容量予想
l 冗⻑化とフェイルオーバー
l サーバー/ラック/クラスター障害発⽣時の挙動
l データセンター間NW障害時の挙動
l バックエンドサービス障害時の挙動
l 障害発⽣時の再起動/回復の⼿順
l バックアップ/リストア/DR回復⼿順
l 監視と運⽤
l 内部状態の監視と外部からの監視、アラートの設計
l 監視システムの監視
l ビジネス的に重要なアラートとログの定義
l アラートメール攻撃の回避
l セキュリティ
l スパム対策、脆弱性対策、認証認可設定
l リリース前のアクセス制御、ブラックリスト設定
l ⾃動化とマニュアルタスク
l 変更管理/プロビジョニング⼿順
l リリース⼿順、継続的ビルド/デプロイ⼿順、カナ
リー/ステージドロールアウト⼿順
l スケーリング
l スペアリソース、バースト対応、あらーちょ
l スケーリングのボトルネック、HW/キャッシュ/
データ分割⽅法
l 外部依存性
l 依存外部システムのキャパシティ
l 外部サービス容量超過時のデグレード⽅法
2016/9/1 Copyright 2016(C) OSS Laboratories Inc. All Rights Reserved 19
Postmortem Culture
l 直訳では検死報告書、障害報告書であるが、内部資料
l Blame-freeポリシー:
l ⼈やチームを咎めない
l 現象と経過、対応内容と結果を記録し、共有するのが⽬的
l 典型的には下記のような障害発⽣、サービス回復後に作成
l ユーザーに影響のあるサービス障害
l データ喪失
l オンコールエンジニアが対応した障害
l 回復に想定以上の時間がかかった場合
l 監視に関する障害により、マニュアル作業が発⽣した場合 (オンコールエンジニアにエスカレーションされな
かった)
l 障害発⽣中の対応(chat/mail etc.)はすべて記録されなければならず、Postmortemに反
映される
l Postmortemを書くのは、新⼈の仕事ではない
l 新⼈教育は、Postmortemを読むことから始まり、Postmortemをベースとしたロールプ
レイトレーニングが実施される
l Postmortem勉強会が常に開催され、優れたPostmortemを書いたエンジニアは、勉強会
の講師となり尊敬される
2016/9/1 Copyright 2016(C) OSS Laboratories Inc. All Rights Reserved 20
Postmortem例
l インシデント#465
l XXシステムPostmortem
l 報告年⽉⽇:
l 著者:
l ステータス:
l 完了、アクションアイテム作業中
l 要約:
l アクセスピーク時間中に66分間XXシステムサイトサイトダ
ウン
l 影響:
l 約12億ビューの喪失、売上への影響はなし
l 根本原因:
l ⾼負荷のためにメモリリークによるリソース不⾜が発⽣し、
ネットワーク負荷が上がった複合障害
l トリガー:
l XXモジュールの潜在バグ
l 解決策:
l トラフィックをリソースを10倍に増やしたクラスターにリ
ダイレクトし、負荷を緩和
l 監視結果:
l Hhttpp500エラーの多発のため、アラート発報
l アクションアイテム:
l 項⽬、タイプ、担当者、チケット番号
l Lessons Learned
l 何がうまくいったか
l 監視システムが正常にエラー検出しアラートを発報
l 何がうまくいかなかったか
l 初めて経験した複合障害のため、障害原因特定に時間がか
かった
l 幸運だった点
l バックアップが残っていた
l 経過詳細:
l 時間、現象、対応
2016/9/1 Copyright 2016(C) OSS Laboratories Inc. All Rights Reserved 21
インシデントレスポンス
l ICS: Incident Command Systemがベース
l https://en.wikipedia.org/wiki/Incident_Command_System
l http://www.bousai.go.jp/kaigirep/kentokai/kentokaigi/04/pdf/shiryo1.pdf
l ⽶国で開発された包括的な危機管理体系であり、種類・規模・場所・複雑さ、あらゆる組織に適⽤できる危機管理の考え⽅、
原則を整理したもの
l 危機管理の標準化(語彙と意味、組織、権限、⼿順など)により、災害対応従事者の協⼒と相互運⽤性を向上させる
l インシデントレスポンスでは、状況に応じて下記の役割を割りあてる
l インシデントコマンダー:指揮調整者
l オペレーショナルワーク:実際にシステム変更作業を⾏うチーム、他の担当者は操作を許されない
l コミュニケーション:記録と関係者への報告
l プランニング:オペレーショナルワークをサポートするための各種⼿配、交代要員調整
l コミュニケーションツール
l 必ず記録が残るように、メールやIRCなどのチャットツールを使う、Googleではトピックやログを⾃動収集するボットも使⽤
l ライブドキュメント:関係者が誰でも読み書きできる掲⽰板、Google Docsなど
l 明確な引き継ぎ:誰もがわかるように、内容と業務を明確に引き継ぐ
l インシデントレスポンスのベストプラクティス
l 優先順位:⽌⾎、回復、証拠保全
l 準備:インシデントレスポンス⼿順の標準化と⽂書化、トレーニング
l 信頼:対応チームメンバーへの信頼と委任
l 内省:パニックになる前に、⽀援を依頼する
l 選択肢の考慮:定期的に選択肢を再検討する
l 演習:⾃然に体が動くまで演習を⾏う
l 役割交代:すべてのメンバーがすべての役割をこなせるように、都度役割は交代する
2016/9/1 Copyright 2016(C) OSS Laboratories Inc. All Rights Reserved 22
⽂書化⼤事
l 優秀なエンジニアは、ドキュメント化しなければなら
ない
l 知識と技術を暗黙知から、共有し活⽤される知識に変
えるのがドキュメント化
l Postmortemだけでなく、チェックリストやマニュアル
など、常にレビュー/アップデートが⾏われる
l そのためのミーティングも重視されている
l 記録するだけでなく、検索や集計など再利⽤できるこ
とが重要
l 勘と度胸の運⽤ではなく、計測とデータによる運⽤
2016/9/1 Copyright 2016(C) OSS Laboratories Inc. All Rights Reserved 23
アジェンダ
1. SREの定義
2. dev-opsとの違い
3. エンタープライズとの違い
4. 今やるべき事と理由
2016/9/1 Copyright 2016(C) OSS Laboratories Inc. All Rights Reserved 24
DevOpsとは
l 「DevOpsとは開発と運⽤が協⼒し、ビジネスリスク
を軽減する」
l http://www.publickey1.jp/blog/11/devops.html
l 初出は、2009年に⾏われた「Velocity 2009」というイ
ベントでFlickrのスタッフが⾏ったプレゼンテーション
「10 deploys per day : Dev&Ops cooperation at
Flickr」らしい。(https://ja.wikipedia.org/wiki/DevOps)
l http://www.slideshare.net/jallspaw/10-deploys-per-day-dev-and-
ops-cooperation-at-flickr
l この時点では、GoogleはSREを始めて既に6年経過し
ていたが、対外的な積極的発信はしていなかった
2016/9/1 Copyright 2016(C) OSS Laboratories Inc. All Rights Reserved 25
「10 deploys per day」から引⽤
DevOpsとは、
1. ⾃動化されたインフラ
2. 共有バージョン管理
3. ワンステップビルドとデプロイ
4. 機能フラグによるリリース機能制
限
5. DevとOpsの共有メトリクス
6. IRCとIMロボット
⽂化
1. 尊敬
2. 信頼
3. 障害への健全な姿勢
4. ⼈のせいにしない
2016/9/1 Copyright 2016(C) OSS Laboratories Inc. All Rights Reserved 26
SREにあって、DevOpsにないもの
l ⽂書化
l コミュニケーション
l レビュー
l エラーバジェットやPRR、Postmotern、ICSなどの仕
組み
2016/9/1 Copyright 2016(C) OSS Laboratories Inc. All Rights Reserved 27
シスアド vs DevOps vs SRE?
l シスアド:何らかの⽬的のためにシステムを設計、構
築、正常運転維持、予防保全を⾏う
l DevOps:同上
l SRE:同上
l 違いは対象とするもの
l シスアド:⼀度構築したら⼤きな変化はないシステム
l DevOps:常に迅速な変化が要求されるシステム
l SRE:Google
2016/9/1 Copyright 2016(C) OSS Laboratories Inc. All Rights Reserved 28
アジェンダ
1. SREの定義
2. dev-opsとの違い
3. エンタープライズとの違い
4. 今やるべき事と理由
2016/9/1 Copyright 2016(C) OSS Laboratories Inc. All Rights Reserved 29
Googleデータセンター
l 全世界に15ヶ所(2016/7現在)
l 1ヶ所あたり10万〜40万台、合計400万台?以
上のサーバー(推測)
2016/9/1 Copyright 2016(C) OSS Laboratories Inc. All Rights Reserved 30
Googleネットワーク
l グローバルSDN WAN
l 内製HW/SW
l Tb/sのセンター間通信、約900Gb/sのパブリック接続
l 世界第3位のISP
2016/9/1 Copyright 2016(C) OSS Laboratories Inc. All Rights Reserved 31
http://postd.cc/how-google-invented-
an-amazing-datacenter-network-
only-they-could-create/
http://www.slideshare.net/oraccha/a-
look-inside-googles-data-center-
networks
Googleハードウェア
l もしかすると世界最⼤のコンピュータメーカー?
l OCP(Open Compute Project)にも参加
l サーバー、ストレージ、スイッチ、ルーター
l 量⼦コンピュータ、TFカスタムチップ
l 携帯、⾞、メガネ、ロケット?
2016/9/1 Copyright 2016(C) OSS Laboratories Inc. All Rights Reserved 32
OCPサーバー
Googleソフトウェア
l Linuxベースの独⾃OS
l MapReduceをはじめとする独⾃MW、ツールで統⼀さ
れた単⼀環境
l Android、Chrome
l その他Kubernetes、TensorFlowなどOSS
2016/9/1 Copyright 2016(C) OSS Laboratories Inc. All Rights Reserved 33
Googleスケール
l 2015年度
l 売上⾼$74,541M
l 営業利益$23,425M
l 営業利益率31%
l 従業員数約6万⼈
l 従業員あたり営業利益$390K
l 全世界84オフィス
l Fortune500の売上⾼94位
l IBM 84位、ソフトバンク92位
2016/9/1 Copyright 2016(C) OSS Laboratories Inc. All Rights Reserved 34
http://toyokeizai.net/articles/-/64182?page=2
⽇本のエンタープライズ環境
l スケール:多くて2,000 - 3,000台のサーバ
l SW/HW/NW:各ベンダーから調達、異種混在環境
l 体制:システム部 -> システム⼦会社 -> Sier -> 2次請
-> 以下⾃粛
2016/9/1 Copyright 2016(C) OSS Laboratories Inc. All Rights Reserved 35
結論
我々はGoogleにはなれない
しかし、知⾒は活⽤できる
2016/9/1 Copyright 2016(C) OSS Laboratories Inc. All Rights Reserved 36
アジェンダ
1. SREの定義
2. dev-opsとの違い
3. エンタープライズとの違い
4. 今やるべき事と理由
2016/9/1 Copyright 2016(C) OSS Laboratories Inc. All Rights Reserved 37
エンタープライズIT
l 広告/ゲーム/Web系とは別世界
l 変化しないシステムと変化するシステムの両極分化
l 情報システム部⾨無⽤論
l 全体的にも、変化速度がゆっくりと増えて⾏く
l 古い酒を新しい器に⼊れるような仕事が増える
l 複雑さが増し、従来の運⽤は破綻する
l しかし予算は減らされる
2016/9/1 Copyright 2016(C) OSS Laboratories Inc. All Rights Reserved 38
今やるべき事:現場
l 開発部⾨も運⽤部⾨も
l Excel/Word/Powerpointの⼿順書はコード化
l コード化すれば、ドキュメントを⽣成する⽅法はある
l コーディング/レビュー/テストを、運⽤と開発で
共通化標準化
l 計測し、記録し、⽂書化し、共有知化する仕組
みを作る
l 記録するだけでなく、検索や集計など再利⽤できることが重要
l 勘と度胸の運⽤ではなく、計測とデータによる運⽤
2016/9/1 Copyright 2016(C) OSS Laboratories Inc. All Rights Reserved 39
SREを実現する
l OpenPIEの⽬的は運⽤⾃動化そのものではなく、すべてのオペ
レーション、機器情報や障害対応を記録し、情報共有・分析による
SRE (Site Reliability Engineering)を可能にすることです。
l 運⽤ポータル:Liferayポートレットにより必要な情報が⼀覧でき、表⽰情報は
ユーザー⾃⾝でカスタマイズ可能です
l プロビジョニング:Excelで作成した設定シートをアップロードするだけで、⾃
動的にサーバーを作成しアプリケーションをインストール・設定します
l インベントリ収集:管理対象機器から、構成情報を⾃動収集します
l システム監視:プロビジョニングされたシステムを、⾃動的に監視開始します
l アラート⾃動対応 (予定):システム監視が発報したアラートから⾃動的にチケッ
トを作成し、予め登録した⼿順に従い対象システムにログイン・ログ収集・プロ
セス再起動などを実⾏します。
Open Programmable Infrastructure
Environment
バージョン管理
サービスデスク
運⽤ポータル
設定シート
アップロード
ミドルウェア/ア
プリ
構成管理
実⾏管理
システム監視
vmware
プロビジョニング
物理サーバ
インベントリ収集
パラメータ作
成
Apply
/Destroy
コマンド実⾏
チケット
⽣成
監視設定
ヒヤリングシート
監視設定
Zabbix
構築設定
監視サーバ
OpenAudIT
GetInfo
インベントリ情報
DB
JobSche
duler
チケット
サーバメール
監視情報
イベント
UI
バージョン
管理
GITlab
TeraForm
Ansible
ServerSpec
JobMonitoring
RedMine
otrs
ZABBIX
Liferay
Packer
イメージ作成
ファイルアップロード
コンフィグ表⽰(コマンド起動)
ダウンロード
パラメータ
作成
GIT連携
AWS
VirtualBOX
OpenStack
GCPX
VMware
OpenPIE
2016.04 ヒヤリング
シート
アップ
ロード
xls2json
各種設定
パラメータ
CMDBuild
構築
cloudconf
コン
フィグ
作成
Register
Config Deliver
CMDB
Scheduler
Monitoring
OpenPIE概要
2016/9/1 Copyright 2016(C) OSS Laboratories Inc. All Rights Reserved 42
ヒヤリングシート例
2016/9/1 Copyright 2016(C) OSS Laboratories Inc. All Rights Reserved 43
Githubで公開中
https://github.com/oss-laboratries/OpenPIE
最後に
企業⽂化は⾃然に醸成されるものではなく、
設計/構築/維持管理が必要な繊細なシステム
2016/9/1 Copyright 2016(C) OSS Laboratories Inc. All Rights Reserved 46
参考資料
l Site Reliability Engineering - How Google Runs Production Systems
l https://www.amazon.co.jp/Site-Reliability-Engineering-Production-Systems/dp/149192912X
l クラウドを⽀える技術 ―データセンターサイズのマシン設計法⼊⾨
l https://www.amazon.co.jp/%E3%82%AF%E3%83%A9%E3%82%A6%E3%83%89%E3%82%92%E6%94%AF%E3%81%88%E3%82%8B%E6%
8A%80%E8%A1%93-
%E2%80%95%E3%83%87%E3%83%BC%E3%82%BF%E3%82%BB%E3%83%B3%E3%82%BF%E3%83%BC%E3%82%B5%E3%82%A4%E3
%82%BA%E3%81%AE%E3%83%9E%E3%82%B7%E3%83%B3%E8%A8%AD%E8%A8%88%E6%B3%95%E5%85%A5%E9%96%80-WEB-
PRESS-plus/dp/4774167304/ref=sr_1_sc_2?ie=UTF8&qid=1468737268&sr=8-2-spell&keywords=datacenter+as+acomputer
l What is ‘Site Reliability Engineering’?
l https://landing.google.com/sre/interview/ben-treynor.html
l Keys to SRE Presentation by Ben Treynor @ SREcon14
l https://www.usenix.org/conference/srecon14/technical-sessions/presentation/keys-sre
l How Google Does Planet-Scale Engineering for Planet-Scale Infra @ GCPNext16
l https://youtu.be/H4vMcD7zKM0
l Love DevOps? Wait 'till you meet SRE
l https://www.atlassian.com/it-service/site-reliability-engineering-sre
l Hiring Site Reliability Engineers
l https://www.usenix.org/system/files/login/articles/login_june_07_jones.pdf
l The Systems Engineering Side of SiteReliability Engineering
l https://www.usenix.org/system/files/login/articles/login_june_08_hixson.pdf
l Weathering the Unexpected
l http://delivery.acm.org/10.1145/2380000/2371516/p30-krishnan.pdf
l Borg, Omega, and Kubernetes
l http://static.googleusercontent.com/media/research.google.com/ja//pubs/archive/44843.pdf
2016/9/1 Copyright 2016(C) OSS Laboratories Inc. All Rights Reserved 47

Mais conteúdo relacionado

Mais procurados

SOS JobScheduler Overview (Japanese)
SOS JobScheduler Overview (Japanese)SOS JobScheduler Overview (Japanese)
SOS JobScheduler Overview (Japanese)OSSラボ株式会社
 
Zabbix監視運用業務の自動化事例
Zabbix監視運用業務の自動化事例Zabbix監視運用業務の自動化事例
Zabbix監視運用業務の自動化事例OSSラボ株式会社
 
CMDBuild overview (Japanese) V2.4 update
CMDBuild overview (Japanese) V2.4 updateCMDBuild overview (Japanese) V2.4 update
CMDBuild overview (Japanese) V2.4 updateOSSラボ株式会社
 
CMDBuildを中心とした運用管理自動化基盤OpenPIEの事例紹介
CMDBuildを中心とした運用管理自動化基盤OpenPIEの事例紹介CMDBuildを中心とした運用管理自動化基盤OpenPIEの事例紹介
CMDBuildを中心とした運用管理自動化基盤OpenPIEの事例紹介OSSラボ株式会社
 
Zabbixをもっと便利に!安全に!
Zabbixをもっと便利に!安全に!Zabbixをもっと便利に!安全に!
Zabbixをもっと便利に!安全に!Takashi Matsunaga
 
ジョブストリーム紹介資料
ジョブストリーム紹介資料ジョブストリーム紹介資料
ジョブストリーム紹介資料OSSラボ株式会社
 
AWS/Openstack integration with openQRM
AWS/Openstack integration with openQRMAWS/Openstack integration with openQRM
AWS/Openstack integration with openQRMOSSラボ株式会社
 
JobScheduler ユーザカンファレンス 2016 東京日産コンピュータシステム様 事例紹介
JobScheduler ユーザカンファレンス 2016 東京日産コンピュータシステム様 事例紹介JobScheduler ユーザカンファレンス 2016 東京日産コンピュータシステム様 事例紹介
JobScheduler ユーザカンファレンス 2016 東京日産コンピュータシステム様 事例紹介Daisuke Ikeda
 
Jtf13 ossジョブ管理システムによる運用自動化事例
Jtf13 ossジョブ管理システムによる運用自動化事例 Jtf13 ossジョブ管理システムによる運用自動化事例
Jtf13 ossジョブ管理システムによる運用自動化事例 OSSラボ株式会社
 
インフラ運用管理ツールとGolang OSS運用管理勉強会LT
インフラ運用管理ツールとGolang OSS運用管理勉強会LTインフラ運用管理ツールとGolang OSS運用管理勉強会LT
インフラ運用管理ツールとGolang OSS運用管理勉強会LTDaisuke Ikeda
 
第2回 OSS運用管理勉強会 運用あるある(Zabbix)
第2回 OSS運用管理勉強会 運用あるある(Zabbix)第2回 OSS運用管理勉強会 運用あるある(Zabbix)
第2回 OSS運用管理勉強会 運用あるある(Zabbix)真治 米田
 
OSS運用管理勉強会LT
OSS運用管理勉強会LTOSS運用管理勉強会LT
OSS運用管理勉強会LTatk1234
 
自動運転業界のSRE活動
自動運転業界のSRE活動自動運転業界のSRE活動
自動運転業界のSRE活動Tier_IV
 
手作業なしの安定環境実現に向けたZabbix活用方法紹介+Zabbix2.4最新機能紹介
手作業なしの安定環境実現に向けたZabbix活用方法紹介+Zabbix2.4最新機能紹介手作業なしの安定環境実現に向けたZabbix活用方法紹介+Zabbix2.4最新機能紹介
手作業なしの安定環境実現に向けたZabbix活用方法紹介+Zabbix2.4最新機能紹介Daisuke Ikeda
 
OSS運用管理勉強会 cockpit
OSS運用管理勉強会 cockpitOSS運用管理勉強会 cockpit
OSS運用管理勉強会 cockpitatk1234
 
MicrosoftのOSSへの取り組み
MicrosoftのOSSへの取り組みMicrosoftのOSSへの取り組み
MicrosoftのOSSへの取り組みShinichiro Arai
 
第8回oss運用管理勉強会 Zabbix入門&Zabbix3.0先取り紹介
第8回oss運用管理勉強会 Zabbix入門&Zabbix3.0先取り紹介第8回oss運用管理勉強会 Zabbix入門&Zabbix3.0先取り紹介
第8回oss運用管理勉強会 Zabbix入門&Zabbix3.0先取り紹介Daisuke Ikeda
 

Mais procurados (20)

201023 jobscheduler os_cfall
201023 jobscheduler os_cfall201023 jobscheduler os_cfall
201023 jobscheduler os_cfall
 
SOS JobScheduler Overview (Japanese)
SOS JobScheduler Overview (Japanese)SOS JobScheduler Overview (Japanese)
SOS JobScheduler Overview (Japanese)
 
Zabbix監視運用業務の自動化事例
Zabbix監視運用業務の自動化事例Zabbix監視運用業務の自動化事例
Zabbix監視運用業務の自動化事例
 
CMDBuild overview (Japanese) V2.4 update
CMDBuild overview (Japanese) V2.4 updateCMDBuild overview (Japanese) V2.4 update
CMDBuild overview (Japanese) V2.4 update
 
180729 jtf open-audit
180729 jtf open-audit180729 jtf open-audit
180729 jtf open-audit
 
CMDBuildを中心とした運用管理自動化基盤OpenPIEの事例紹介
CMDBuildを中心とした運用管理自動化基盤OpenPIEの事例紹介CMDBuildを中心とした運用管理自動化基盤OpenPIEの事例紹介
CMDBuildを中心とした運用管理自動化基盤OpenPIEの事例紹介
 
Zabbixをもっと便利に!安全に!
Zabbixをもっと便利に!安全に!Zabbixをもっと便利に!安全に!
Zabbixをもっと便利に!安全に!
 
NMIS overview
NMIS overviewNMIS overview
NMIS overview
 
ジョブストリーム紹介資料
ジョブストリーム紹介資料ジョブストリーム紹介資料
ジョブストリーム紹介資料
 
AWS/Openstack integration with openQRM
AWS/Openstack integration with openQRMAWS/Openstack integration with openQRM
AWS/Openstack integration with openQRM
 
JobScheduler ユーザカンファレンス 2016 東京日産コンピュータシステム様 事例紹介
JobScheduler ユーザカンファレンス 2016 東京日産コンピュータシステム様 事例紹介JobScheduler ユーザカンファレンス 2016 東京日産コンピュータシステム様 事例紹介
JobScheduler ユーザカンファレンス 2016 東京日産コンピュータシステム様 事例紹介
 
Jtf13 ossジョブ管理システムによる運用自動化事例
Jtf13 ossジョブ管理システムによる運用自動化事例 Jtf13 ossジョブ管理システムによる運用自動化事例
Jtf13 ossジョブ管理システムによる運用自動化事例
 
インフラ運用管理ツールとGolang OSS運用管理勉強会LT
インフラ運用管理ツールとGolang OSS運用管理勉強会LTインフラ運用管理ツールとGolang OSS運用管理勉強会LT
インフラ運用管理ツールとGolang OSS運用管理勉強会LT
 
第2回 OSS運用管理勉強会 運用あるある(Zabbix)
第2回 OSS運用管理勉強会 運用あるある(Zabbix)第2回 OSS運用管理勉強会 運用あるある(Zabbix)
第2回 OSS運用管理勉強会 運用あるある(Zabbix)
 
OSS運用管理勉強会LT
OSS運用管理勉強会LTOSS運用管理勉強会LT
OSS運用管理勉強会LT
 
自動運転業界のSRE活動
自動運転業界のSRE活動自動運転業界のSRE活動
自動運転業界のSRE活動
 
手作業なしの安定環境実現に向けたZabbix活用方法紹介+Zabbix2.4最新機能紹介
手作業なしの安定環境実現に向けたZabbix活用方法紹介+Zabbix2.4最新機能紹介手作業なしの安定環境実現に向けたZabbix活用方法紹介+Zabbix2.4最新機能紹介
手作業なしの安定環境実現に向けたZabbix活用方法紹介+Zabbix2.4最新機能紹介
 
OSS運用管理勉強会 cockpit
OSS運用管理勉強会 cockpitOSS運用管理勉強会 cockpit
OSS運用管理勉強会 cockpit
 
MicrosoftのOSSへの取り組み
MicrosoftのOSSへの取り組みMicrosoftのOSSへの取り組み
MicrosoftのOSSへの取り組み
 
第8回oss運用管理勉強会 Zabbix入門&Zabbix3.0先取り紹介
第8回oss運用管理勉強会 Zabbix入門&Zabbix3.0先取り紹介第8回oss運用管理勉強会 Zabbix入門&Zabbix3.0先取り紹介
第8回oss運用管理勉強会 Zabbix入門&Zabbix3.0先取り紹介
 

Destaque

ITサービスマネジメントとSRE
ITサービスマネジメントとSREITサービスマネジメントとSRE
ITサービスマネジメントとSRE真吾 吉田
 
Google Developer Day 2010 Japan: Google エンジニアの日常 (山内 知昭)
Google Developer Day 2010 Japan: Google エンジニアの日常 (山内 知昭)Google Developer Day 2010 Japan: Google エンジニアの日常 (山内 知昭)
Google Developer Day 2010 Japan: Google エンジニアの日常 (山内 知昭)Google Developer Relations Team
 
TEAMPLUGの使い方(How to use TEAMPLUG)
TEAMPLUGの使い方(How to use TEAMPLUG)TEAMPLUGの使い方(How to use TEAMPLUG)
TEAMPLUGの使い方(How to use TEAMPLUG)Yuuichi Oikawa
 
Cockpit紹介
Cockpit紹介Cockpit紹介
Cockpit紹介atk1234
 
Introducing in-house PaaS in SmartNews
Introducing in-house PaaS in SmartNewsIntroducing in-house PaaS in SmartNews
Introducing in-house PaaS in SmartNewsNobutoshi Ogata
 
Otrsによるシステム運用管理の導入事例
Otrsによるシステム運用管理の導入事例Otrsによるシステム運用管理の導入事例
Otrsによるシステム運用管理の導入事例IO Architect Inc.
 
これから始めるssl対策
これから始めるssl対策これから始めるssl対策
これから始めるssl対策Shohei Kobayashi
 
オープンソースのOTRSで、ITIL準拠の運用管理ができるって、本当ですか?どこから始めればよいですか?OTRS勉強会
オープンソースのOTRSで、ITIL準拠の運用管理ができるって、本当ですか?どこから始めればよいですか?OTRS勉強会オープンソースのOTRSで、ITIL準拠の運用管理ができるって、本当ですか?どこから始めればよいですか?OTRS勉強会
オープンソースのOTRSで、ITIL準拠の運用管理ができるって、本当ですか?どこから始めればよいですか?OTRS勉強会マジセミ by (株)オープンソース活用研究所
 
6 月 18 日 Next - あっという間の、Google Cloud Platform 開発ガイド
6 月 18 日 Next -  あっという間の、Google Cloud Platform 開発ガイド6 月 18 日 Next -  あっという間の、Google Cloud Platform 開発ガイド
6 月 18 日 Next - あっという間の、Google Cloud Platform 開発ガイドGoogle Cloud Platform - Japan
 
Arukasの運用事例と、末永くインフラ運用していくためのTips(SRE Tech Talks #2)
Arukasの運用事例と、末永くインフラ運用していくためのTips(SRE Tech Talks #2)Arukasの運用事例と、末永くインフラ運用していくためのTips(SRE Tech Talks #2)
Arukasの運用事例と、末永くインフラ運用していくためのTips(SRE Tech Talks #2)さくらインターネット株式会社
 
TDDのこれまで、そしてこれから
TDDのこれまで、そしてこれからTDDのこれまで、そしてこれから
TDDのこれまで、そしてこれからHiroyuki Ohnaka
 
サイボウズの開発を支えるKAIZEN文化
サイボウズの開発を支えるKAIZEN文化サイボウズの開発を支えるKAIZEN文化
サイボウズの開発を支えるKAIZEN文化Teppei Sato
 
Fluentdのお勧めシステム構成パターン
Fluentdのお勧めシステム構成パターンFluentdのお勧めシステム構成パターン
Fluentdのお勧めシステム構成パターンKentaro Yoshida
 
[社内合同勉強会]インフラ業務を開発エンジニアへ移譲して 移譲前-移譲後-そして今-
[社内合同勉強会]インフラ業務を開発エンジニアへ移譲して 移譲前-移譲後-そして今-[社内合同勉強会]インフラ業務を開発エンジニアへ移譲して 移譲前-移譲後-そして今-
[社内合同勉強会]インフラ業務を開発エンジニアへ移譲して 移譲前-移譲後-そして今-Takahiro Moteki
 
正規表現リテラルは本当に必要なのか?
正規表現リテラルは本当に必要なのか?正規表現リテラルは本当に必要なのか?
正規表現リテラルは本当に必要なのか?kwatch
 
Dockerの期待と現実~Docker都市伝説はなぜ生まれるのか~
Dockerの期待と現実~Docker都市伝説はなぜ生まれるのか~Dockerの期待と現実~Docker都市伝説はなぜ生まれるのか~
Dockerの期待と現実~Docker都市伝説はなぜ生まれるのか~Masahito Zembutsu
 

Destaque (20)

ITサービスマネジメントとSRE
ITサービスマネジメントとSREITサービスマネジメントとSRE
ITサービスマネジメントとSRE
 
2014_0301_OTRS_OSC2014資料
2014_0301_OTRS_OSC2014資料2014_0301_OTRS_OSC2014資料
2014_0301_OTRS_OSC2014資料
 
SpeechPlatform with Kinect
SpeechPlatform with KinectSpeechPlatform with Kinect
SpeechPlatform with Kinect
 
Google Developer Day 2010 Japan: Google エンジニアの日常 (山内 知昭)
Google Developer Day 2010 Japan: Google エンジニアの日常 (山内 知昭)Google Developer Day 2010 Japan: Google エンジニアの日常 (山内 知昭)
Google Developer Day 2010 Japan: Google エンジニアの日常 (山内 知昭)
 
TEAMPLUGの使い方(How to use TEAMPLUG)
TEAMPLUGの使い方(How to use TEAMPLUG)TEAMPLUGの使い方(How to use TEAMPLUG)
TEAMPLUGの使い方(How to use TEAMPLUG)
 
Cockpit紹介
Cockpit紹介Cockpit紹介
Cockpit紹介
 
Fluentd meetup #2
Fluentd meetup #2Fluentd meetup #2
Fluentd meetup #2
 
Introducing in-house PaaS in SmartNews
Introducing in-house PaaS in SmartNewsIntroducing in-house PaaS in SmartNews
Introducing in-house PaaS in SmartNews
 
Otrsによるシステム運用管理の導入事例
Otrsによるシステム運用管理の導入事例Otrsによるシステム運用管理の導入事例
Otrsによるシステム運用管理の導入事例
 
これから始めるssl対策
これから始めるssl対策これから始めるssl対策
これから始めるssl対策
 
オープンソースのOTRSで、ITIL準拠の運用管理ができるって、本当ですか?どこから始めればよいですか?OTRS勉強会
オープンソースのOTRSで、ITIL準拠の運用管理ができるって、本当ですか?どこから始めればよいですか?OTRS勉強会オープンソースのOTRSで、ITIL準拠の運用管理ができるって、本当ですか?どこから始めればよいですか?OTRS勉強会
オープンソースのOTRSで、ITIL準拠の運用管理ができるって、本当ですか?どこから始めればよいですか?OTRS勉強会
 
6 月 18 日 Next - あっという間の、Google Cloud Platform 開発ガイド
6 月 18 日 Next -  あっという間の、Google Cloud Platform 開発ガイド6 月 18 日 Next -  あっという間の、Google Cloud Platform 開発ガイド
6 月 18 日 Next - あっという間の、Google Cloud Platform 開発ガイド
 
Tidyverseとは
TidyverseとはTidyverseとは
Tidyverseとは
 
Arukasの運用事例と、末永くインフラ運用していくためのTips(SRE Tech Talks #2)
Arukasの運用事例と、末永くインフラ運用していくためのTips(SRE Tech Talks #2)Arukasの運用事例と、末永くインフラ運用していくためのTips(SRE Tech Talks #2)
Arukasの運用事例と、末永くインフラ運用していくためのTips(SRE Tech Talks #2)
 
TDDのこれまで、そしてこれから
TDDのこれまで、そしてこれからTDDのこれまで、そしてこれから
TDDのこれまで、そしてこれから
 
サイボウズの開発を支えるKAIZEN文化
サイボウズの開発を支えるKAIZEN文化サイボウズの開発を支えるKAIZEN文化
サイボウズの開発を支えるKAIZEN文化
 
Fluentdのお勧めシステム構成パターン
Fluentdのお勧めシステム構成パターンFluentdのお勧めシステム構成パターン
Fluentdのお勧めシステム構成パターン
 
[社内合同勉強会]インフラ業務を開発エンジニアへ移譲して 移譲前-移譲後-そして今-
[社内合同勉強会]インフラ業務を開発エンジニアへ移譲して 移譲前-移譲後-そして今-[社内合同勉強会]インフラ業務を開発エンジニアへ移譲して 移譲前-移譲後-そして今-
[社内合同勉強会]インフラ業務を開発エンジニアへ移譲して 移譲前-移譲後-そして今-
 
正規表現リテラルは本当に必要なのか?
正規表現リテラルは本当に必要なのか?正規表現リテラルは本当に必要なのか?
正規表現リテラルは本当に必要なのか?
 
Dockerの期待と現実~Docker都市伝説はなぜ生まれるのか~
Dockerの期待と現実~Docker都市伝説はなぜ生まれるのか~Dockerの期待と現実~Docker都市伝説はなぜ生まれるのか~
Dockerの期待と現実~Docker都市伝説はなぜ生まれるのか~
 

Semelhante a 160901 osce2016sre

GoldenGateテクニカルセミナー1「市場のトレンドと最新事例のご紹介」(2016/5/11)
GoldenGateテクニカルセミナー1「市場のトレンドと最新事例のご紹介」(2016/5/11)GoldenGateテクニカルセミナー1「市場のトレンドと最新事例のご紹介」(2016/5/11)
GoldenGateテクニカルセミナー1「市場のトレンドと最新事例のご紹介」(2016/5/11)オラクルエンジニア通信
 
MLOps NYC 2019 and Strata Data Conference NY 2019 report nttdata
MLOps NYC 2019 and Strata Data Conference NY 2019 report nttdataMLOps NYC 2019 and Strata Data Conference NY 2019 report nttdata
MLOps NYC 2019 and Strata Data Conference NY 2019 report nttdataNTT DATA Technology & Innovation
 
アジャイル事例紹介
アジャイル事例紹介アジャイル事例紹介
アジャイル事例紹介hiko99
 
NoOpsへ舵を切れ
NoOpsへ舵を切れNoOpsへ舵を切れ
NoOpsへ舵を切れHiromasa Oka
 
AITCシニア技術者勉強会 「今さら聞けないWebサイト開発」 vol1
AITCシニア技術者勉強会 「今さら聞けないWebサイト開発」 vol1AITCシニア技術者勉強会 「今さら聞けないWebサイト開発」 vol1
AITCシニア技術者勉強会 「今さら聞けないWebサイト開発」 vol1近藤 繁延
 
企業組織論としてのオープンイノベーション
企業組織論としてのオープンイノベーション企業組織論としてのオープンイノベーション
企業組織論としてのオープンイノベーションOsaka University
 
20161111 java one2016-feedback
20161111 java one2016-feedback20161111 java one2016-feedback
20161111 java one2016-feedbackTakashi Ito
 
2021/02/19 Alterbooth 多忙なアーキテクトのためのクラウド導入フレームワーク (CAF) ダイジェスト
2021/02/19 Alterbooth 多忙なアーキテクトのためのクラウド導入フレームワーク (CAF) ダイジェスト2021/02/19 Alterbooth 多忙なアーキテクトのためのクラウド導入フレームワーク (CAF) ダイジェスト
2021/02/19 Alterbooth 多忙なアーキテクトのためのクラウド導入フレームワーク (CAF) ダイジェストIssei Hiraoka
 
Splunkを使ってKubernetesクラスターとコンテナのログ・メトリクスを可視化
Splunkを使ってKubernetesクラスターとコンテナのログ・メトリクスを可視化Splunkを使ってKubernetesクラスターとコンテナのログ・メトリクスを可視化
Splunkを使ってKubernetesクラスターとコンテナのログ・メトリクスを可視化Kunihiko Ikeyama
 
Open stack概要とよくある議論
Open stack概要とよくある議論Open stack概要とよくある議論
Open stack概要とよくある議論shintaro mizuno
 
AZAREA-Clusterセミナー(クラウドEXPO2013春)
AZAREA-Clusterセミナー(クラウドEXPO2013春)AZAREA-Clusterセミナー(クラウドEXPO2013春)
AZAREA-Clusterセミナー(クラウドEXPO2013春)AzareaCluster
 
DeNAが取り組む Software Engineer in Test
DeNAが取り組む Software Engineer in TestDeNAが取り組む Software Engineer in Test
DeNAが取り組む Software Engineer in TestMasaki Nakagawa
 
1Uサーバーから始めるスケーラブルな「mCloud Project Server」
1Uサーバーから始めるスケーラブルな「mCloud Project Server」1Uサーバーから始めるスケーラブルな「mCloud Project Server」
1Uサーバーから始めるスケーラブルな「mCloud Project Server」Satoshi Konno
 

Semelhante a 160901 osce2016sre (20)

GoldenGateテクニカルセミナー1「市場のトレンドと最新事例のご紹介」(2016/5/11)
GoldenGateテクニカルセミナー1「市場のトレンドと最新事例のご紹介」(2016/5/11)GoldenGateテクニカルセミナー1「市場のトレンドと最新事例のご紹介」(2016/5/11)
GoldenGateテクニカルセミナー1「市場のトレンドと最新事例のご紹介」(2016/5/11)
 
MLOps NYC 2019 and Strata Data Conference NY 2019 report nttdata
MLOps NYC 2019 and Strata Data Conference NY 2019 report nttdataMLOps NYC 2019 and Strata Data Conference NY 2019 report nttdata
MLOps NYC 2019 and Strata Data Conference NY 2019 report nttdata
 
アジャイル事例紹介
アジャイル事例紹介アジャイル事例紹介
アジャイル事例紹介
 
Azure <3 Openness
Azure <3 OpennessAzure <3 Openness
Azure <3 Openness
 
NoOpsへ舵を切れ
NoOpsへ舵を切れNoOpsへ舵を切れ
NoOpsへ舵を切れ
 
AITCシニア技術者勉強会 「今さら聞けないWebサイト開発」 vol1
AITCシニア技術者勉強会 「今さら聞けないWebサイト開発」 vol1AITCシニア技術者勉強会 「今さら聞けないWebサイト開発」 vol1
AITCシニア技術者勉強会 「今さら聞けないWebサイト開発」 vol1
 
企業組織論としてのオープンイノベーション
企業組織論としてのオープンイノベーション企業組織論としてのオープンイノベーション
企業組織論としてのオープンイノベーション
 
20161111 java one2016-feedback
20161111 java one2016-feedback20161111 java one2016-feedback
20161111 java one2016-feedback
 
じげんのサーバサイドエンジニアリング
じげんのサーバサイドエンジニアリングじげんのサーバサイドエンジニアリング
じげんのサーバサイドエンジニアリング
 
2021/02/19 Alterbooth 多忙なアーキテクトのためのクラウド導入フレームワーク (CAF) ダイジェスト
2021/02/19 Alterbooth 多忙なアーキテクトのためのクラウド導入フレームワーク (CAF) ダイジェスト2021/02/19 Alterbooth 多忙なアーキテクトのためのクラウド導入フレームワーク (CAF) ダイジェスト
2021/02/19 Alterbooth 多忙なアーキテクトのためのクラウド導入フレームワーク (CAF) ダイジェスト
 
ベンダーロックインフリーのビジネスクラウドの世界
ベンダーロックインフリーのビジネスクラウドの世界ベンダーロックインフリーのビジネスクラウドの世界
ベンダーロックインフリーのビジネスクラウドの世界
 
Splunkを使ってKubernetesクラスターとコンテナのログ・メトリクスを可視化
Splunkを使ってKubernetesクラスターとコンテナのログ・メトリクスを可視化Splunkを使ってKubernetesクラスターとコンテナのログ・メトリクスを可視化
Splunkを使ってKubernetesクラスターとコンテナのログ・メトリクスを可視化
 
Open stack概要とよくある議論
Open stack概要とよくある議論Open stack概要とよくある議論
Open stack概要とよくある議論
 
Azure Fundamental
Azure FundamentalAzure Fundamental
Azure Fundamental
 
Askusa on aws
Askusa on awsAskusa on aws
Askusa on aws
 
Askusa on aws
Askusa on awsAskusa on aws
Askusa on aws
 
AZAREA-Clusterセミナー(クラウドEXPO2013春)
AZAREA-Clusterセミナー(クラウドEXPO2013春)AZAREA-Clusterセミナー(クラウドEXPO2013春)
AZAREA-Clusterセミナー(クラウドEXPO2013春)
 
DeNAが取り組む Software Engineer in Test
DeNAが取り組む Software Engineer in TestDeNAが取り組む Software Engineer in Test
DeNAが取り組む Software Engineer in Test
 
1Uサーバーから始めるスケーラブルな「mCloud Project Server」
1Uサーバーから始めるスケーラブルな「mCloud Project Server」1Uサーバーから始めるスケーラブルな「mCloud Project Server」
1Uサーバーから始めるスケーラブルな「mCloud Project Server」
 
[Japan Tech summit 2017] MAI 003
[Japan Tech summit 2017] MAI 003[Japan Tech summit 2017] MAI 003
[Japan Tech summit 2017] MAI 003
 

Mais de OSSラボ株式会社

Mais de OSSラボ株式会社 (14)

220523JS7.pdf
220523JS7.pdf220523JS7.pdf
220523JS7.pdf
 
191010 opie2
191010 opie2191010 opie2
191010 opie2
 
CMDBuild V.3 update [Japanese]
CMDBuild V.3 update [Japanese]CMDBuild V.3 update [Japanese]
CMDBuild V.3 update [Japanese]
 
オープンソースNW監視ツールのご紹介
オープンソースNW監視ツールのご紹介オープンソースNW監視ツールのご紹介
オープンソースNW監視ツールのご紹介
 
Ansible2.0と実用例
Ansible2.0と実用例Ansible2.0と実用例
Ansible2.0と実用例
 
150726cmdbuild jtf2015
150726cmdbuild jtf2015150726cmdbuild jtf2015
150726cmdbuild jtf2015
 
Excelからのクラウドオーケストレーション
ExcelからのクラウドオーケストレーションExcelからのクラウドオーケストレーション
Excelからのクラウドオーケストレーション
 
141030ceph
141030ceph141030ceph
141030ceph
 
Openstack+Ceph設定ガイド
Openstack+Ceph設定ガイドOpenstack+Ceph設定ガイド
Openstack+Ceph設定ガイド
 
140917運用管理勉強会job scheduler
140917運用管理勉強会job scheduler140917運用管理勉強会job scheduler
140917運用管理勉強会job scheduler
 
openstack+cephインテグレーション
openstack+cephインテグレーションopenstack+cephインテグレーション
openstack+cephインテグレーション
 
[日本仮想化技術] 2014/6/5 OpenStack最新情報セミナー資料
[日本仮想化技術] 2014/6/5 OpenStack最新情報セミナー資料[日本仮想化技術] 2014/6/5 OpenStack最新情報セミナー資料
[日本仮想化技術] 2014/6/5 OpenStack最新情報セミナー資料
 
JobSchedulerを使ったAsakusaのジョブ管理
JobSchedulerを使ったAsakusaのジョブ管理JobSchedulerを使ったAsakusaのジョブ管理
JobSchedulerを使ったAsakusaのジョブ管理
 
Cephのベンチマークをしました
CephのベンチマークをしましたCephのベンチマークをしました
Cephのベンチマークをしました
 

Último

自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineerYuki Kikuchi
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?akihisamiyanaga1
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfFumieNakayama
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...博三 太田
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfFumieNakayama
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NTT DATA Technology & Innovation
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)UEHARA, Tetsutaro
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)Hiroshi Tomioka
 

Último (8)

自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
 

160901 osce2016sre

  • 1. Site Reliability Engineering (SRE)で 拡がる運⽤の世界 Googleでの展開から、エンタープライズへの夢は⾒れるか 2016/9/1 http://www.ossl.co.jp TWITTER: http://twitter.com/satoruf LINKEDIN: http://jp.linkedin.com/in/satorufunai/ja SLIDESHARE: http://www.slideshare.net/sfunai FACEBOOK: http://www.facebook.com/satoru.funai 2016/9/1 Copyright 2016(C) OSS Laboratories Inc. All Rights Reserved 1 OSC 2016 .Enterprise Enabling SRE
  • 2. クラウド時代のIT運⽤管理 〜 OSSツールは商⽤ツールに追いついたか? 〜 9月12日(月) 14:00〜 会場:TIS株式会社 14F TIS研修室 OSS運用管理勉強会 1 ご挨拶 ⽇本仮想化技術 宮原 徹 2 JobScheduler新管理ダッシュボード "Cockpit" TIS 安達 貴志 3 OTRS×JobSchedulerでリリース管理 アイオーアーキテクト 平⾒ 知久 4 エンタープライズ⽤途で使えるZabbix ソリューション ミラクル・リナックス 松永 貴 5 Site Reliability Engineering (SRE) を可能にするOpenPIE OSSラボ 船井 覚
  • 3. アジェンダ 1. SREの定義 2. dev-opsとの違い 3. エンタープライズとの違い 4. 今やるべき事と理由 2016/9/1 Copyright 2016(C) OSS Laboratories Inc. All Rights Reserved 3
  • 4. SREとは l Site Reliability Engineering l サイト信頼性⼯学? l 信頼性⼯学とは、システム の信頼性を分析する⼯学⼿ 法である。 l https://ja.wikipedia.org/wiki/%E4%BF% A1%E9%A0%BC%E6%80%A7%E5% B7%A5%E5%AD%A6 l しかし、サイト信頼性⼯学 という学問はない 2016/9/1 Copyright 2016(C) OSS Laboratories Inc. All Rights Reserved 4
  • 6. 2016/9/1 Copyright 2016(C) OSS Laboratories Inc. All Rights Reserved 6
  • 7. 今⽇の元ネタ 2016/9/1 Copyright 2016(C) OSS Laboratories Inc. All Rights Reserved 7
  • 9. GoogleでのSREの定義 l “Fundamentally, it’s what happens when you ask a software engineer to design an operations function.” l https://landing.google.com/sre/interview/ben-treynor.html l https://www.usenix.org/conference/srecon14/technical-sessions/presentation/keys-sre l 「SRE とは、操作機能を作ってくれとソフトウェア エンジニアに頼んだときに起こる ことだ」 l http://googlecloudplatform-japan.blogspot.jp/2016/07/sre-google-mission- control.html?1468590211542=1&m=1 l Mr. Benjamin Treynor Sloss l https://www.linkedin.com/in/benjamin-treynor-sloss-207120 l Terse variant: If Google ever stops working, it's my fault. Verbose variant : I have been responsible for global operations, networking, and production engineering at Google since 2003. As of 2016, I manage a team of approximately 4,000 software, hardware, and network engineers across the globe. Along the way, * I coined the term "Site Reliability Engineering" for my team of (now) x,xxx software engineers engaged in what were traditionally operations functions, and I have watched with some pride as the rest of the SaaS industry has adopted the SRE name, mission, and practices. * I built the networking team, from its initial scope of providing a pair of leased OC48s, to its current size -- publicly estimated to be one of the 3 largest networks in the world. * Since 2010 I've also managed datacenter design, construction and operations, and servers. Public estimates are that as of 2014 Google has built between 200MW and 680MW of highly-efficient datacenters worldwide. * Finally, since late 2013 I've been engaged on Google's public cloud product, Google Cloud Platform 2016/9/1 Copyright 2016(C) OSS Laboratories Inc. All Rights Reserved 9
  • 10. Keys to SRE Presentation by Ben Treynor @ SREcon14 2016/9/1 Copyright 2016(C) OSS Laboratories Inc. All Rights Reserved 10
  • 11. SREの範囲 How Google Does Planet-Scale Engineering for Planet-Scale Infra @ GCPNext16 2016/9/1 Copyright 2016(C) OSS Laboratories Inc. All Rights Reserved 11
  • 12. Keys to SRE Presentation by Ben Treynor @ SREcon14 2016/9/1 Copyright 2016(C) OSS Laboratories Inc. All Rights Reserved 12
  • 13. Google SWエンジニア新卒採⽤ 必要な条件/経験 4 年制⼤学卒または関連職種での実務経験 プログラミング能⼒( 特に C++ , Java, Python) 望ましい経験/スキル 修⼠号または博⼠号を取得していること Unix / Linux または Windows 環境におけるソフ トウェア開発や API の経験 ネットワーク プログラミングやソフトウェア シ ステムの開発または設計の経験 2016/9/1 Copyright 2016(C) OSS Laboratories Inc. All Rights Reserved 13
  • 14. 新卒SWエンジニアが配属される組織 l プロダクト&システム デベロップメント: l 検索品質を向上させる⾰新的な⽅法の発⾒、コンピューティング プラットフォームやネットワーキング技術 の構築、動画のインデックス登録の⾃動化、複雑なオークション システムの改善・拡⼤など、様々な課題に 対してソリューションを開発します。Google のプロダクトの拡⼤と品質向上を実現するためのソフトウェア アプリケーションをリサーチ、企画、開発しながら、⼤量のデータや情報アクセスに関わる問題にチームで 取り組むことが求められます。関連する専⾨分野の例として、AJAX および同様の技術を使⽤したユーザー インターフェース開発、セキュリティ、組み込みシステムとモバイルアプリ(Android および iOS)、デベ ロッパー ツール(IDE、⼤規模なビルドシステム、コンパイラ)などが挙げられます。 l エンジニアリング プロダクティビティ: l ソフトウェア設計スキル、分析⼒、プログラミング能⼒を駆使して⾰新的な⾃動テストシステムを構築しま す。これは、単なるデバッグやテストの実施といった表⾯的な作業のみを指すわけではありません。テスト チームは⽇々幅広い課題に取り組みながら、分散コンピューティング インフラストラクチャにおける多様な シナリオに対応するため、インテリジェント システムの設計と構築を担当します。これまでは存在しなかっ たものに対する⾃動テストシステムを設計、構築しようとするとき、参照できる教科書はありません。この グループで業務にあたる⼈材として Google が優秀なエンジニアを求めているのはそのためです。 l サイト リライアビリティ: l Google の製品開発プロセス全体に関与し、クラウドベース コンピューティングの最前線で業務にあたりま す。この精鋭チームの⼀員として、トラフィック異常のコードレベルのトラブルシューティングから最新 サービスのメンテナンスまで、またモニタリングやアラートから新しい⾃動化インフラストラクチャの構築 まで、Google の運営を維持するあらゆる業務に対応します。このチームのエンジニアは、何千万という数の ユーザー規模に⾒合う強靭かつ拡張可能なソフトウェアの作成に情熱を傾けています。⽇々新しく出会う 様々な事象に取り組み、ほぼすべてのエンジニアリング チームやオペレーション チームと連携して、すべて の⼈がアクセスできるような Google ならではのサービスとアプリケーションを提供します。 2016/9/1 Copyright 2016(C) OSS Laboratories Inc. All Rights Reserved 14
  • 15. GoogleでのSREとは l 全世界に約2,000⼈(SW/NWエンジニア含めて4,000⼈) l すべての製品/サイトにSREチームがあるわけではない l 他のチームと共通採⽤、共通⼈材プール l チーム間は対等(Dev. vs Ops.ではない) l チーム間の移動は常に可能 l つまり、SREを増員すれば、開発チームはメンバーが減る l Mission Controlプログラム:製品開発に携わるエンジニアに SREの仕事を体験させる 6 か⽉のローテーション プログラム、実際に受けた⼈間の半分はSREのポジションを選択している l SREの時間の50%以上は、開発プロジェクトに当てられなければならない l 50%未満になる=運⽤/障害対応時間が50%以上になると、該当製品開発チームに負荷が割り振られる l SREの開発プロジェクトは、⾃動化や監視ツールにとどまらず、サービスレベルの向上に役⽴つもの全て(ロー ドバランサ、分散合意システム、分散スケジューリング、etc.) l サービス運⽤負荷の5%は製品開発チームが負担する l 運⽤/障害対応には、チケット処理、障害対応、オンコール(当番)が含まれる l オンコールは、8-12時間交代、時間で25%以下(1週間/⽉)、オンコール中のイベントは2件程度 l オンコールは、プライマリーとセカンダリーの⼆⼈体制で、典型的チームは8⼈体制となる l オンコールは、「新⼈の仕事ではない」。オンコールは、トレーニングとチェックリストにパスしないとできな い。 l オンコール中のSREはサービス停⽌を含む、サービスに関する全権を委譲されている。 2016/9/1 Copyright 2016(C) OSS Laboratories Inc. All Rights Reserved 15
  • 16. SRE as a custodian “SREs are the custodian of production. SREs are the custodian of customer experience” 「SREとは、サービスとユーザー体験の 管理者であり守護者である」 How Google Does Planet-Scale Engineering for Planet-Scale Infra @ GCPNext16 2016/9/1 Copyright 2016(C) OSS Laboratories Inc. All Rights Reserved 16
  • 17. SLAとエラーバジェット l SREチームと製品開発チーム間の契約 l エラーバジェット=100%-SLA(例:99.9%)=0.1% l エラーバジェット(=SLA)は、製品開発チームが定める l エラーバジェットを超えた場合は、製品開発チームに対応が割り 振られる l SLAを厳しくすれば、SRE対応可能時間は短くなる l 殆どのSRE対応は、新機能リリース時に発⽣する l つまり、エラーバジェットを使い果たすと、新機能リリースは凍 結せざるをえない l それを避けるためには、リリース前のレビューが重要 2016/9/1 Copyright 2016(C) OSS Laboratories Inc. All Rights Reserved 17
  • 18. リリース前レビュー l 必ずPRR:Production Readiness Reviewが、以下の観点でSREと 開発チームで⾏われる l システムアーキテクチャー、他サービスとの依存性 l エマージェンシーレスポンス l キャパシティプランニング l 変更管理 l 計測:信頼性、応答性、リソース l PPRの中で、SLA/SLO/SLIを合意し、製品設計に必要なフィード バックを⾏い、トレーニングなどのスケジュールを決定する l SREの中には、リリース専⾨部隊(LCE: Launch Coordination Engineering)がある l 製品開発チームと協⼒して、関連するチームを横断し⾼品質な製品リリースに 向けてコンサルテーションを⾏う l Google検索から、Andoroidアプリまで全てのGoogle製品に関わる l もし製品開発チームと合意できなければ、 SREは断れる2016/9/1 Copyright 2016(C) OSS Laboratories Inc. All Rights Reserved 18
  • 19. Launch Coordination Checklist例 l アーキテクチャー l アーキテクチャー概要 l クライアントからのリクエスト(API) l マシン/データセンター l 使⽤リソース、帯域幅、データセンター l 冗⻑性、QoS l DNS、ロードバランス l キャパシティプランニングと性能予測 l トラフィック予想 l 負荷テスト結果、最⼤応答性能/データセンター l 他サービスへの影響 l ストレージ容量予想 l 冗⻑化とフェイルオーバー l サーバー/ラック/クラスター障害発⽣時の挙動 l データセンター間NW障害時の挙動 l バックエンドサービス障害時の挙動 l 障害発⽣時の再起動/回復の⼿順 l バックアップ/リストア/DR回復⼿順 l 監視と運⽤ l 内部状態の監視と外部からの監視、アラートの設計 l 監視システムの監視 l ビジネス的に重要なアラートとログの定義 l アラートメール攻撃の回避 l セキュリティ l スパム対策、脆弱性対策、認証認可設定 l リリース前のアクセス制御、ブラックリスト設定 l ⾃動化とマニュアルタスク l 変更管理/プロビジョニング⼿順 l リリース⼿順、継続的ビルド/デプロイ⼿順、カナ リー/ステージドロールアウト⼿順 l スケーリング l スペアリソース、バースト対応、あらーちょ l スケーリングのボトルネック、HW/キャッシュ/ データ分割⽅法 l 外部依存性 l 依存外部システムのキャパシティ l 外部サービス容量超過時のデグレード⽅法 2016/9/1 Copyright 2016(C) OSS Laboratories Inc. All Rights Reserved 19
  • 20. Postmortem Culture l 直訳では検死報告書、障害報告書であるが、内部資料 l Blame-freeポリシー: l ⼈やチームを咎めない l 現象と経過、対応内容と結果を記録し、共有するのが⽬的 l 典型的には下記のような障害発⽣、サービス回復後に作成 l ユーザーに影響のあるサービス障害 l データ喪失 l オンコールエンジニアが対応した障害 l 回復に想定以上の時間がかかった場合 l 監視に関する障害により、マニュアル作業が発⽣した場合 (オンコールエンジニアにエスカレーションされな かった) l 障害発⽣中の対応(chat/mail etc.)はすべて記録されなければならず、Postmortemに反 映される l Postmortemを書くのは、新⼈の仕事ではない l 新⼈教育は、Postmortemを読むことから始まり、Postmortemをベースとしたロールプ レイトレーニングが実施される l Postmortem勉強会が常に開催され、優れたPostmortemを書いたエンジニアは、勉強会 の講師となり尊敬される 2016/9/1 Copyright 2016(C) OSS Laboratories Inc. All Rights Reserved 20
  • 21. Postmortem例 l インシデント#465 l XXシステムPostmortem l 報告年⽉⽇: l 著者: l ステータス: l 完了、アクションアイテム作業中 l 要約: l アクセスピーク時間中に66分間XXシステムサイトサイトダ ウン l 影響: l 約12億ビューの喪失、売上への影響はなし l 根本原因: l ⾼負荷のためにメモリリークによるリソース不⾜が発⽣し、 ネットワーク負荷が上がった複合障害 l トリガー: l XXモジュールの潜在バグ l 解決策: l トラフィックをリソースを10倍に増やしたクラスターにリ ダイレクトし、負荷を緩和 l 監視結果: l Hhttpp500エラーの多発のため、アラート発報 l アクションアイテム: l 項⽬、タイプ、担当者、チケット番号 l Lessons Learned l 何がうまくいったか l 監視システムが正常にエラー検出しアラートを発報 l 何がうまくいかなかったか l 初めて経験した複合障害のため、障害原因特定に時間がか かった l 幸運だった点 l バックアップが残っていた l 経過詳細: l 時間、現象、対応 2016/9/1 Copyright 2016(C) OSS Laboratories Inc. All Rights Reserved 21
  • 22. インシデントレスポンス l ICS: Incident Command Systemがベース l https://en.wikipedia.org/wiki/Incident_Command_System l http://www.bousai.go.jp/kaigirep/kentokai/kentokaigi/04/pdf/shiryo1.pdf l ⽶国で開発された包括的な危機管理体系であり、種類・規模・場所・複雑さ、あらゆる組織に適⽤できる危機管理の考え⽅、 原則を整理したもの l 危機管理の標準化(語彙と意味、組織、権限、⼿順など)により、災害対応従事者の協⼒と相互運⽤性を向上させる l インシデントレスポンスでは、状況に応じて下記の役割を割りあてる l インシデントコマンダー:指揮調整者 l オペレーショナルワーク:実際にシステム変更作業を⾏うチーム、他の担当者は操作を許されない l コミュニケーション:記録と関係者への報告 l プランニング:オペレーショナルワークをサポートするための各種⼿配、交代要員調整 l コミュニケーションツール l 必ず記録が残るように、メールやIRCなどのチャットツールを使う、Googleではトピックやログを⾃動収集するボットも使⽤ l ライブドキュメント:関係者が誰でも読み書きできる掲⽰板、Google Docsなど l 明確な引き継ぎ:誰もがわかるように、内容と業務を明確に引き継ぐ l インシデントレスポンスのベストプラクティス l 優先順位:⽌⾎、回復、証拠保全 l 準備:インシデントレスポンス⼿順の標準化と⽂書化、トレーニング l 信頼:対応チームメンバーへの信頼と委任 l 内省:パニックになる前に、⽀援を依頼する l 選択肢の考慮:定期的に選択肢を再検討する l 演習:⾃然に体が動くまで演習を⾏う l 役割交代:すべてのメンバーがすべての役割をこなせるように、都度役割は交代する 2016/9/1 Copyright 2016(C) OSS Laboratories Inc. All Rights Reserved 22
  • 23. ⽂書化⼤事 l 優秀なエンジニアは、ドキュメント化しなければなら ない l 知識と技術を暗黙知から、共有し活⽤される知識に変 えるのがドキュメント化 l Postmortemだけでなく、チェックリストやマニュアル など、常にレビュー/アップデートが⾏われる l そのためのミーティングも重視されている l 記録するだけでなく、検索や集計など再利⽤できるこ とが重要 l 勘と度胸の運⽤ではなく、計測とデータによる運⽤ 2016/9/1 Copyright 2016(C) OSS Laboratories Inc. All Rights Reserved 23
  • 24. アジェンダ 1. SREの定義 2. dev-opsとの違い 3. エンタープライズとの違い 4. 今やるべき事と理由 2016/9/1 Copyright 2016(C) OSS Laboratories Inc. All Rights Reserved 24
  • 25. DevOpsとは l 「DevOpsとは開発と運⽤が協⼒し、ビジネスリスク を軽減する」 l http://www.publickey1.jp/blog/11/devops.html l 初出は、2009年に⾏われた「Velocity 2009」というイ ベントでFlickrのスタッフが⾏ったプレゼンテーション 「10 deploys per day : Dev&Ops cooperation at Flickr」らしい。(https://ja.wikipedia.org/wiki/DevOps) l http://www.slideshare.net/jallspaw/10-deploys-per-day-dev-and- ops-cooperation-at-flickr l この時点では、GoogleはSREを始めて既に6年経過し ていたが、対外的な積極的発信はしていなかった 2016/9/1 Copyright 2016(C) OSS Laboratories Inc. All Rights Reserved 25
  • 26. 「10 deploys per day」から引⽤ DevOpsとは、 1. ⾃動化されたインフラ 2. 共有バージョン管理 3. ワンステップビルドとデプロイ 4. 機能フラグによるリリース機能制 限 5. DevとOpsの共有メトリクス 6. IRCとIMロボット ⽂化 1. 尊敬 2. 信頼 3. 障害への健全な姿勢 4. ⼈のせいにしない 2016/9/1 Copyright 2016(C) OSS Laboratories Inc. All Rights Reserved 26
  • 27. SREにあって、DevOpsにないもの l ⽂書化 l コミュニケーション l レビュー l エラーバジェットやPRR、Postmotern、ICSなどの仕 組み 2016/9/1 Copyright 2016(C) OSS Laboratories Inc. All Rights Reserved 27
  • 28. シスアド vs DevOps vs SRE? l シスアド:何らかの⽬的のためにシステムを設計、構 築、正常運転維持、予防保全を⾏う l DevOps:同上 l SRE:同上 l 違いは対象とするもの l シスアド:⼀度構築したら⼤きな変化はないシステム l DevOps:常に迅速な変化が要求されるシステム l SRE:Google 2016/9/1 Copyright 2016(C) OSS Laboratories Inc. All Rights Reserved 28
  • 29. アジェンダ 1. SREの定義 2. dev-opsとの違い 3. エンタープライズとの違い 4. 今やるべき事と理由 2016/9/1 Copyright 2016(C) OSS Laboratories Inc. All Rights Reserved 29
  • 31. Googleネットワーク l グローバルSDN WAN l 内製HW/SW l Tb/sのセンター間通信、約900Gb/sのパブリック接続 l 世界第3位のISP 2016/9/1 Copyright 2016(C) OSS Laboratories Inc. All Rights Reserved 31 http://postd.cc/how-google-invented- an-amazing-datacenter-network- only-they-could-create/ http://www.slideshare.net/oraccha/a- look-inside-googles-data-center- networks
  • 32. Googleハードウェア l もしかすると世界最⼤のコンピュータメーカー? l OCP(Open Compute Project)にも参加 l サーバー、ストレージ、スイッチ、ルーター l 量⼦コンピュータ、TFカスタムチップ l 携帯、⾞、メガネ、ロケット? 2016/9/1 Copyright 2016(C) OSS Laboratories Inc. All Rights Reserved 32 OCPサーバー
  • 33. Googleソフトウェア l Linuxベースの独⾃OS l MapReduceをはじめとする独⾃MW、ツールで統⼀さ れた単⼀環境 l Android、Chrome l その他Kubernetes、TensorFlowなどOSS 2016/9/1 Copyright 2016(C) OSS Laboratories Inc. All Rights Reserved 33
  • 34. Googleスケール l 2015年度 l 売上⾼$74,541M l 営業利益$23,425M l 営業利益率31% l 従業員数約6万⼈ l 従業員あたり営業利益$390K l 全世界84オフィス l Fortune500の売上⾼94位 l IBM 84位、ソフトバンク92位 2016/9/1 Copyright 2016(C) OSS Laboratories Inc. All Rights Reserved 34 http://toyokeizai.net/articles/-/64182?page=2
  • 35. ⽇本のエンタープライズ環境 l スケール:多くて2,000 - 3,000台のサーバ l SW/HW/NW:各ベンダーから調達、異種混在環境 l 体制:システム部 -> システム⼦会社 -> Sier -> 2次請 -> 以下⾃粛 2016/9/1 Copyright 2016(C) OSS Laboratories Inc. All Rights Reserved 35
  • 37. アジェンダ 1. SREの定義 2. dev-opsとの違い 3. エンタープライズとの違い 4. 今やるべき事と理由 2016/9/1 Copyright 2016(C) OSS Laboratories Inc. All Rights Reserved 37
  • 38. エンタープライズIT l 広告/ゲーム/Web系とは別世界 l 変化しないシステムと変化するシステムの両極分化 l 情報システム部⾨無⽤論 l 全体的にも、変化速度がゆっくりと増えて⾏く l 古い酒を新しい器に⼊れるような仕事が増える l 複雑さが増し、従来の運⽤は破綻する l しかし予算は減らされる 2016/9/1 Copyright 2016(C) OSS Laboratories Inc. All Rights Reserved 38
  • 39. 今やるべき事:現場 l 開発部⾨も運⽤部⾨も l Excel/Word/Powerpointの⼿順書はコード化 l コード化すれば、ドキュメントを⽣成する⽅法はある l コーディング/レビュー/テストを、運⽤と開発で 共通化標準化 l 計測し、記録し、⽂書化し、共有知化する仕組 みを作る l 記録するだけでなく、検索や集計など再利⽤できることが重要 l 勘と度胸の運⽤ではなく、計測とデータによる運⽤ 2016/9/1 Copyright 2016(C) OSS Laboratories Inc. All Rights Reserved 39
  • 40. SREを実現する l OpenPIEの⽬的は運⽤⾃動化そのものではなく、すべてのオペ レーション、機器情報や障害対応を記録し、情報共有・分析による SRE (Site Reliability Engineering)を可能にすることです。 l 運⽤ポータル:Liferayポートレットにより必要な情報が⼀覧でき、表⽰情報は ユーザー⾃⾝でカスタマイズ可能です l プロビジョニング:Excelで作成した設定シートをアップロードするだけで、⾃ 動的にサーバーを作成しアプリケーションをインストール・設定します l インベントリ収集:管理対象機器から、構成情報を⾃動収集します l システム監視:プロビジョニングされたシステムを、⾃動的に監視開始します l アラート⾃動対応 (予定):システム監視が発報したアラートから⾃動的にチケッ トを作成し、予め登録した⼿順に従い対象システムにログイン・ログ収集・プロ セス再起動などを実⾏します。
  • 43. ヒヤリングシート例 2016/9/1 Copyright 2016(C) OSS Laboratories Inc. All Rights Reserved 43
  • 44.
  • 47. 参考資料 l Site Reliability Engineering - How Google Runs Production Systems l https://www.amazon.co.jp/Site-Reliability-Engineering-Production-Systems/dp/149192912X l クラウドを⽀える技術 ―データセンターサイズのマシン設計法⼊⾨ l https://www.amazon.co.jp/%E3%82%AF%E3%83%A9%E3%82%A6%E3%83%89%E3%82%92%E6%94%AF%E3%81%88%E3%82%8B%E6% 8A%80%E8%A1%93- %E2%80%95%E3%83%87%E3%83%BC%E3%82%BF%E3%82%BB%E3%83%B3%E3%82%BF%E3%83%BC%E3%82%B5%E3%82%A4%E3 %82%BA%E3%81%AE%E3%83%9E%E3%82%B7%E3%83%B3%E8%A8%AD%E8%A8%88%E6%B3%95%E5%85%A5%E9%96%80-WEB- PRESS-plus/dp/4774167304/ref=sr_1_sc_2?ie=UTF8&qid=1468737268&sr=8-2-spell&keywords=datacenter+as+acomputer l What is ‘Site Reliability Engineering’? l https://landing.google.com/sre/interview/ben-treynor.html l Keys to SRE Presentation by Ben Treynor @ SREcon14 l https://www.usenix.org/conference/srecon14/technical-sessions/presentation/keys-sre l How Google Does Planet-Scale Engineering for Planet-Scale Infra @ GCPNext16 l https://youtu.be/H4vMcD7zKM0 l Love DevOps? Wait 'till you meet SRE l https://www.atlassian.com/it-service/site-reliability-engineering-sre l Hiring Site Reliability Engineers l https://www.usenix.org/system/files/login/articles/login_june_07_jones.pdf l The Systems Engineering Side of SiteReliability Engineering l https://www.usenix.org/system/files/login/articles/login_june_08_hixson.pdf l Weathering the Unexpected l http://delivery.acm.org/10.1145/2380000/2371516/p30-krishnan.pdf l Borg, Omega, and Kubernetes l http://static.googleusercontent.com/media/research.google.com/ja//pubs/archive/44843.pdf 2016/9/1 Copyright 2016(C) OSS Laboratories Inc. All Rights Reserved 47