GXO
DevOps

SRE / SLO / Error Budget 中堅 3 年ロードマップ 2026

20分で読める

QUICK CHECK

本文を読みながら、自社で進めるべきか、相談前に何を整理するかを確認できます。

自社の場合を相談する
SRE / SLO / Error Budget 中堅 3 年ロードマップ 2026

「ITIL でインシデント管理は回っている。でも MTTR は改善しないし、開発と運用の対立は深まる一方」――2026 年、中堅企業(従業員 500-3,000 名)の情シス部長から繰り返し聞く課題である。 Google が 2003 年に SRE(Site Reliability Engineering)を始めて 20 年以上が経ち、SLO(Service Level Objective)/ Error Budget / トイル削減 という運用思想は世界の業界標準になった。本記事は ITIL 中心の中堅企業が SRE / SLO 文化へ段階的に移行する 3 年ロードマップを、Google SRE Book と Team Topologies の枠組みに沿って整理する。記事内の引用・概念定義は執筆時点(2026 年 4 月)の各書籍 / Google 公式ドキュメントに基づく目安であり、適用時は最新版を必ず参照されたい。


目次

  1. なぜ ITIL 単独では 2026 年の中堅企業に足りないか
  2. SRE / SLO / Error Budget の基礎概念
  3. SLI / SLO / SLA の正しい関係
  4. Team Topologies に基づく SRE 組織設計
  5. 3 年ロードマップ(Year 1 / Year 2 / Year 3)
  6. Error Budget Policy の作り方
  7. トイル削減 と 50% ルール
  8. ITIL からの移行で起きる組織抵抗と対処
  9. よくある質問(FAQ)
  10. 関連記事

なぜ ITIL 単独では 2026 年の中堅企業に足りないか

ITIL(Information Technology Infrastructure Library、現行は ITIL 4)は 「インシデント管理 / 問題管理 / 変更管理」 などのプロセス標準として現在も中堅企業で広く運用されている。しかし以下の構造的な限界が顕在化している。

限界 1:信頼性に「定量目標」がない

ITIL の SLA(Service Level Agreement)は「月次稼働率 99%」など契約目標として存在するが、日次・サービス単位の SLI(実測値)と SLO(運用目標)の階層が緩い。結果として「SLA は達成したが、ユーザー体験は劣化」という現象が発生する。

限界 2:開発と運用の「対立」を構造化してしまう

ITIL の変更管理は「リリースを止める」ことが容易な設計で、開発の速度と運用の安定性が 構造的に対立 する。開発チームは「リリースさせろ」、運用チームは「リスクがあるから止めろ」の二項対立が文化として根付く。

限界 3:トイル(toil)の概念がない

定型的な手作業(アカウント発行 / バックアップ確認 / 月次レポート作成)が運用工数を 60-80% 占めるが、ITIL では 「トイルを工数比率で定量管理する」 概念がない。改善モチベーションが構造化されない。

限界 4:ポストモーテムが「責任追及」になる

ITIL の問題管理は根本原因分析(RCA)を含むが、「Blameless(無責)」が文化として明文化されていない。結果として障害報告が政治化し、本当の原因が共有されない事故が多発する。


FREE CONSULTATION

この記事の内容について、専門家に相談できます

AI・DX・セキュリティに関するご質問やお見積もりなど、お気軽にお問い合わせください。

無料で相談する

SRE / SLO / Error Budget の基礎概念

Google SRE Book(2016 年初版、Niall Murphy / Betsy Beyer 編)で体系化された SRE は、信頼性を 「機能要件と同等のエンジニアリング対象」 として扱う運用思想である。

SRE の 7 大原則(書籍より要約)

  1. 信頼性は機能要件と同等のエンジニアリング対象 である
  2. 100% 信頼性は目標にしない(コストが無限大、ユーザー体験への寄与は逓減)
  3. SLI / SLO / Error Budget で信頼性を定量管理 する
  4. トイル(toil)を 50% 以下に抑え、エンジニアリング工数を確保 する
  5. Blameless ポストモーテム で障害から学ぶ
  6. 自動化が最高のスケール戦略 である
  7. 共有責任(開発と運用の対立構造を解消)

Error Budget の核心アイデア

SLO 99.9%(月次ダウン許容 43.2 分)を設定すると、「43.2 分 / 月のダウン予算」= Error Budget が生まれる。Error Budget が残っている限り 開発チームは積極的にリリースしてよい、Error Budget を使い切ったら リリース凍結 + 信頼性改善優先 にスイッチする。

このルールにより 「リリース速度 vs 信頼性」の経営判断が定量化 され、開発と運用の対立が構造的に解消する。


SLI / SLO / SLA の正しい関係

3 つの S はしばしば混同されるが、階層が異なる。

概念定義主担当
SLI(Indicator)実測指標リクエスト成功率、p95 レイテンシSRE / 観測基盤
SLO(Objective)運用目標リクエスト成功率 99.9%SRE + プロダクト
SLA(Agreement)契約目標(顧客約束)月次稼働率 99%、超過時返金法務 + 営業 + プロダクト

SLO は SLA より「厳しく」設定する

SLA を 99% とした場合、SLO は 99.5-99.9% など SLA より厳しく 設定する。SLO 違反で内部アラート → 改善開始、SLA 違反で顧客対応 / 返金、という二段構えで顧客影響を防ぐ。

SLI 設計の Four Golden Signals

Google SRE Book で提唱された 4 つの基本観測指標。

  1. Latency:応答時間(p50 / p95 / p99)
  2. Traffic:リクエスト数 / 秒
  3. Errors:エラー率
  4. Saturation:リソース使用率(CPU / Memory / Disk)

中堅企業の SLI 設計はこの 4 軸を起点にし、業務固有指標(決済成功率 / 検索結果適切率など)を追加する。

SLO 設計の典型ライン

サービス特性SLO 例Error Budget(月次)
業務基幹システム99.95%(高信頼)21.6 分
顧客向け Web99.9%43.2 分
社内ツール99.5%3.6 時間
バッチ処理99%7.2 時間

100% を目指さない理由は 「100% を目指すコストが線形以上に跳ね、ユーザー体験への寄与は逓減する」 ため。SLO は「ユーザーが不満を感じない最低ライン」を狙う。


FREE DOWNLOAD

記事の論点を、自社向けの実行計画に変えませんか?

FDE+で成果KPI、AI/SaaS選定、PoC、本番化、改善運用までの進め方を整理できます。

Team Topologies に基づく SRE 組織設計

Matthew Skelton / Manuel Pais 著「Team Topologies」(2019)は、組織を 4 種類のチーム + 3 種類の相互作用で設計する枠組みで、SRE 導入の組織設計と相性が良い。

4 つのチームタイプ

  1. Stream-aligned team(ストリーム整合チーム):プロダクト / サービスを End-to-end で担う開発チーム
  2. Platform team(プラットフォームチーム):他チームに内部プロダクトを提供(観測基盤・CI/CD 基盤など)
  3. Enabling team(イネーブリングチーム):Stream-aligned team に専門知識を一時的に移転(SRE / セキュリティ / DBA など)
  4. Complicated subsystem team(複雑サブシステムチーム):高度専門領域の集中チーム(決済エンジン・ML 基盤など)

SRE はどう配置するか(中堅企業の現実解)

中堅企業(SRE 5-15 名規模)では以下の 2 段階移行が推奨される。

Year 1

  • SRE を Enabling team として 3-5 名配置
  • 1 つのストリームチームに 6-12 ヶ月 hands-on 支援
  • SLI / SLO 設計・観測基盤導入を伴走

Year 2-3

  • SRE Enabling team は維持しつつ、観測 / CI 基盤を Platform team として独立化(3-5 名)
  • 各ストリームチームに SRE-aligned engineer(SRE 思考を持つ開発者)が育つ
  • 重要サービスには Embedded SRE(プロダクトチーム常駐 SRE)を 1-2 名配置

Anti-pattern:「SRE = 運用部門の改名」

ITIL 運用部門をそのまま「SRE 部」に改名するだけでは失敗する。Google SRE の核心は 「ソフトウェアエンジニアが運用課題を解く」 であり、コードを書かない SRE は SRE ではない。中堅企業では 採用 + 既存運用エンジニアの再教育 の両輪が必須。


3 年ロードマップ(Year 1 / Year 2 / Year 3)

中堅企業が ITIL から SRE 文化に段階移行する標準ロードマップ。

Year 1:パイロットと文化の種植え

第 1 四半期:基盤整備

  • 経営合意:SRE / SLO 導入の意思決定(CIO + CTO)
  • 観測基盤調達 / 整備(SaaS or 内製)
  • パイロット対象 1 サービス選定(業務クリティカルでない中規模サービス推奨)

第 2-3 四半期:パイロット

  • パイロットサービスで SLI 計測開始(最低 2 ヶ月のベースライン)
  • SLI 分布から SLO 設定(経営 / プロダクトオーナー合意)
  • Error Budget Policy 起草

第 4 四半期:拡大準備

  • パイロット成果のレビュー
  • ポストモーテム文化の Blameless 訓練
  • Year 2 拡大対象サービス 5-10 個選定

Year 2:拡大と Error Budget 運用

  • 5-10 サービスに SLO 適用拡大
  • Error Budget Policy を組織標準化
  • リリース凍結 / 改善期間の運用ルール確立
  • トイル測定開始(工数の何 % がトイルか可視化)
  • ポストモーテム公開化(社内 wiki で共有)

Year 3:標準化とプラットフォーム化

  • 全主要サービスに SLO 適用(カバレッジ 80% 以上)
  • 観測 / CI / リリース基盤の Platform team 独立
  • SRE Embedded をクリティカルサービスに常駐
  • 経営報告に SLO / Error Budget 達成状況を組み込む
  • 全社 KPI に「トイル比率 50% 以下」を組み込む

各年の人員 / 投資目安(中堅企業)

専任 SRE投資額(人件費含む)
Year 13-5 名5,000 万-1 億円
Year 26-10 名1-2 億円
Year 310-15 名1.5-3 億円

初年度の経営合意なくして 3 年継続はない。導入意思決定時に 3 年予算の経営承認を取り付けることが必須。


Error Budget Policy の作り方

Error Budget Policy は SRE 組織の核心ドキュメントで、「Error Budget をどう使い、どう枯渇したら何が起きるか」 を経営合意レベルで明文化する。

標準テンプレート

  1. 対象サービス:このポリシーが適用されるサービス一覧
  2. SLO 一覧:可用性 / レイテンシ / エラー率の SLO 値
  3. 計測期間:月次 / 28 日ローリングウィンドウ など
  4. Error Budget 残量別アクション
    • 残量 50% 以上:通常リリース可
    • 残量 10-50%:高リスクリリースは事前レビュー
    • 残量 10% 未満:リスクのあるリリース凍結、信頼性改善優先
    • 残量ゼロ:全リリース凍結(緊急セキュリティ修正除く)、Postmortem 強制
  5. 承認権限:例外承認の意思決定者(CTO / プロダクトオーナー)
  6. 見直し頻度:四半期ごと

Policy 運用の落とし穴

  • Error Budget を毎月リセットしない:28 日ローリングで「直近の傾向」を反映
  • 凍結を「罰」と認識させない:信頼性改善は開発工数の正当な使い道
  • Policy を経営承認しない:Error Budget 枯渇時のリリース凍結が業務都合で覆されると Policy が形骸化

トイル削減 と 50% ルール

Google SRE Book は 「SRE のトイル工数を 50% 以下に抑える」 を組織ルールとして提唱する。

トイルの定義

  • 手作業(自動化可能だが手でやっている)
  • 反復的(繰り返し発生する)
  • 戦術的(緊急対応・根本解決でない)
  • スケールしない(サービス成長と共に線形以上に増える)
  • 永続的価値を生まない

トイル削減の標準アプローチ

  1. トイル時間の月次計測(タイムトラッキング or ticket 分類)
  2. トイル Top 10 の特定
  3. 自動化バックログ化(プラットフォーム team / SRE team で開発)
  4. 削減後の効果測定

50% ルールが守れない時のアクション

  • SRE 増員(採用 / 再教育)
  • 該当サービスを開発チームに差し戻し(信頼性責務移管)
  • プラットフォーム化投資の前倒し
  • 経営エスカレーション(信頼性投資 vs 機能開発のリソース配分判断)

ITIL からの移行で起きる組織抵抗と対処

抵抗 1:「変更管理を緩めるとリスクが増える」

対処:Error Budget が定量的なリスク管理装置 であることを経営に説明。Budget が枯渇したら自動でリリース凍結が発動するため、ITIL より厳格に運用できる。

抵抗 2:「SRE は開発の言いなりになる」

対処:SRE は Error Budget Policy の執行者 であり、Budget 枯渇時にはリリース凍結を主張する独立した意思決定権限を持つ。

抵抗 3:「ポストモーテム公開は責任追及につながる」

対処:Blameless 文化の経営宣言 を CIO / CTO 名義で発出。匿名化 / 個人名削除 / 「組織課題」フレーミングで運用。

抵抗 4:「ITIL 認定を取得した運用部門の存在意義がなくなる」

対処:ITIL 4 と SRE は 共存可能。ITIL は「ガバナンス・契約・コンプライアンス」、SRE は「信頼性エンジニアリング・自動化」と役割分担する。ITIL 認定は引き続き価値を持つ。

抵抗 5:「3 年は長すぎる、すぐ効果が欲しい」

対処:Year 1 末のパイロット成果(MTTR 改善 / リリース頻度向上 / インシデント件数減)を定量提示 することで継続承認を取る。Year 2 / Year 3 の拡大判断は実績ベース。


よくある質問(FAQ)

Q1. 中堅企業で SRE 採用は可能か

A. 専任 SRE のスキルセット(Kubernetes + プログラミング + 信頼性工学)を持つ人材は希少。既存運用エンジニア + 開発エンジニアの再教育(6-12 ヶ月) が現実解。Google SRE Book の輪読 + ハンズオン研修が標準入門路。

Q2. SLO の値はどう決めるか

A. 2 ヶ月以上のベースライン計測 → ユーザー不満発生ラインを過去データから推定 → プロダクトオーナー合意 が王道。最初から「99.99%」など極端な値を置くと運用破綻する。99% から始めて段階的に厳しくする。

Q3. Error Budget Policy で本当にリリース凍結できるか

A. 経営承認 + 文書化が必須。「ビジネス都合で覆せる」とチームが認識した瞬間に Policy は死ぬ。覆す場合は CTO レベルの正式承認 + 議事録残し + 次月の Budget 増配というフロー化が必要。

Q4. ITIL を完全廃止すべきか

A. 不要。ITIL のガバナンス / 契約 / コンプライアンス機能は引き続き有効。SRE は「日次運用と信頼性エンジニアリング」、ITIL は「組織ガバナンスと契約」 で役割分担する企業が多数派。

Q5. SLO 達成しているのに体感障害が出るのはなぜか

A. SLI が業務指標と乖離している可能性が高い。「リクエスト成功率」だけでなく「ユーザージャーニー成功率」 を SLI に追加する。例えば EC なら「カート → 決済完了の Conversion Rate」を SLI に。

Q6. ポストモーテムのテンプレートは

A. Google SRE Book / Postmortem.io / Atlassian テンプレートが定番。最低項目は (1) サマリ、(2) 影響範囲、(3) 時系列、(4) 根本原因、(5) アクションアイテム + 期限 + 担当者、(6) 学んだこと(Good / Bad / Try)

Q7. SRE と DevOps の違いは

A. SRE は「信頼性に特化した DevOps の具体実装」。DevOps が文化 / 思想なら、SRE は SLO / Error Budget / トイル削減という具体ツールセット。Google が「class SRE implements interface DevOps」と表現する関係。

Q8. プラットフォームエンジニアリング(IDP / Backstage 等)との関係は

A. Year 2-3 で SRE が Platform team に発展 するパターンが多い。Backstage / Spotify Backstage 系の Internal Developer Platform は、SRE 文化が成熟した組織で「開発者体験向上」に投資する次の一手。


関連記事


参考資料

  • Google "Site Reliability Engineering"(2016)/ "The Site Reliability Workbook"(2018)/ "Building Secure and Reliable Systems"(2020)(https://sre.google/books/)
  • Google SRE Book Online(https://sre.google/sre-book/table-of-contents/)
  • Matthew Skelton / Manuel Pais "Team Topologies"(2019)
  • Niall Murphy 他 SRE Book 執筆陣の各種カンファレンス公演
  • ITIL 4 公式(Axelos)
  • CNCF / OpenTelemetry / Prometheus 公式ドキュメント

SRE / SLO / Error Budget 導入のご相談

GXO は中堅企業(従業員 500-3,000 名)向けに、ITIL 中心の運用組織から SRE / SLO / Error Budget 文化への 3 年移行を支援します。SLI / SLO 設計、Error Budget Policy 起草、Team Topologies に基づく組織設計、ポストモーテム文化醸成、トイル削減プログラム、SRE 採用 / 再教育プランまで一貫対応可能です。経営合意形成から Year 1 パイロット選定まで、初期コンサルテーションから承ります。

SRE / SLO 導入のご相談はこちら

お気軽にご相談ください

AI・DXに関するご質問やお見積もりなど

無料相談する

FREE DOWNLOAD

この記事と関連する 実践資料

費用相場、選定チェックリスト、補助金活用など、続きをより深く掘り下げた資料を無料でダウンロードできます(営業電話なし / 即DL / 社内共有OK)。

CONTACT

まずは 無料相談 から始めませんか。

サービスについてのご相談・ご質問などお気軽にお問い合わせください。
※ 営業電話はしません | オンライン対応可 | 相談だけでもOK