「Datadog の年額が 2 年で 1.8 倍になった。来年も 1.5 倍と言われた。SRE 5 名いるのに、ツール代が SRE 人件費を超える」――2026 年、中堅企業(従業員 1,000-3,000 名 / ホスト数 100-300 規模)の SRE 責任者から増えている相談である。 SaaS オブザーバビリティの年額が 1,500-3,000 万円帯に入ると、内製基盤(OpenTelemetry + Grafana スタック)が TCO で 50-70% 削減 できる現実解として浮上する。本記事は中堅 SRE チーム規模で内製化を成立させる構成・TCO・移行ロードマップ・撤退基準を実装視点で整理する。執筆時点(2026 年 4 月)の OpenTelemetry / Grafana 各社公式情報に基づく目安であり、採用時は最新公式ドキュメントの確認が必須である。
目次
- SaaS から内製化に踏み切る判断ライン(年額・チーム規模・主権要件)
- OpenTelemetry を中核に置く理由
- Grafana Tempo / Loki / Mimir / Pyroscope の役割分担
- 中堅企業の典型構成(ホスト 100-300 台)
- SaaS vs 内製の TCO 比較(5 年累計)
- 移行 12 ヶ月ロードマップ
- 必要な SRE 人員とスキルセット
- 内製化の撤退基準(やめどき)
- よくある質問(FAQ)
- 関連記事
SaaS から内製化に踏み切る判断ライン(年額・チーム規模・主権要件)
中堅企業で内製化が成立する条件は経験則として 3 つの軸で判断される。
| 判断軸 | 内製化が成立する閾値 | 補足 |
|---|---|---|
| 現行 SaaS 年額 | 1,500 万円以上 | これ以下では内製人件費の方が高い |
| SRE / プラットフォームチーム人員 | 専任 3 名以上 | Kubernetes + Postgres + ClickHouse / S3 運用ができる構成 |
| データ主権 / 国内保管要件 | 法務 / 業界規制で必須 | 金融 / 医療 / 公共系は SaaS 越境保管が NG な場合 |
内製化が向くケース
- ホスト 200-500 台規模で SaaS 年額が 2,000 万円超
- データ主権法務要件で SaaS 越境保管禁止
- SRE / プラットフォームチームが 5 名以上
- 既に Kubernetes 全社標準で運用ノウハウあり
- 観測データを社内 ML / 分析基盤に二次利用したい
内製化が向かないケース
- ホスト 50 台未満 / SaaS 年額 500 万円未満
- SRE 専任なし、開発チーム兼務
- Kubernetes 未導入 / オンプレ ESXi 中心
- ログ保管要件が標準(30-90 日)
- 「コスト削減」が唯一の動機
OpenTelemetry を中核に置く理由
OpenTelemetry(OTel)は CNCF(Cloud Native Computing Foundation)のインキュベーションプロジェクトで、トレース / メトリクス / ログを統合した ベンダー中立な観測データ標準 である。2026 年時点で Trace / Metrics は GA(一般提供)、Logs は安定化フェーズ。
OTel を採用する 3 つの戦略的理由
- ベンダーロックイン回避:エクスポーター差替えで Datadog / New Relic / Grafana / 自前 ClickHouse へ送り先変更可能
- 計装の共通化:アプリ側のコード変更ゼロで観測先を変更できる
- 業界標準化の波に乗る:W3C Trace Context / Semantic Conventions が業界標準化、各種 SaaS / OSS の対応が進む
OTel Collector が中核アーキテクチャ
OTel Collector は受信(Receiver)→ 加工(Processor)→ 送信(Exporter)の 3 層パイプラインを持ち、複数バックエンドへの fan-out / フィルタリング / サンプリング / 属性追加を実装できる。
OTel Collector の Tail-based Sampling はオブザーバビリティのコスト削減で最重要機能の一つ。エラー / 遅延セッションのみ全送信し、正常セッションは 1-10% のサンプリングで送ることで保管量を 70-90% 削減できる。
Grafana Tempo / Loki / Mimir / Pyroscope の役割分担
Grafana Labs が提供する OSS スタックは、トレース / ログ / メトリクス / プロファイリングをそれぞれ別 OSS で提供し、Grafana UI で統合表示する。
| OSS | 役割 | ストレージ | 特徴 |
|---|---|---|---|
| Tempo | 分散トレース | S3 / GCS / Azure Blob | インデックスレス設計で安価 |
| Loki | ログ | S3 / GCS / Azure Blob | ラベルのみインデックス、ログ本文はオブジェクトストレージ直置 |
| Mimir | メトリクス | S3 / GCS / Azure Blob | Prometheus 互換、長期保管・水平スケール特化 |
| Pyroscope | 継続的プロファイリング | S3 / GCS / Azure Blob | CPU / Memory / Goroutine プロファイル |
| Grafana | 可視化 UI | – | 全データソース統合 |
| Alloy(旧 Grafana Agent) | 観測データ収集 | – | OTel Collector 互換 |
「インデックスレス」設計が安いワケ
従来の Elasticsearch / OpenSearch ベースのログ基盤は 全文インデックス で高速検索を実現するが、ストレージが原本の 3-10 倍に膨張する。Grafana Loki / Tempo は ラベル / トレース ID のみインデックス、本文は S3 直置 で ストレージ単価を 5-20 分の 1 に下げる設計。検索速度はインデックス型より遅いが、観測データの 99% は「特定セッションを掘る」用途であり、ラベル / トレース ID 経由のアクセスで実用十分。
Grafana Mimir の Prometheus 互換性
Mimir は Prometheus PromQL / Remote Write API 完全互換で、既存 Prometheus 環境を 設定変更だけで Mimir に統合 可能。Prometheus 単独での弱点(長期保管・水平スケール・マルチテナント)を解消する。
中堅企業の典型構成(ホスト 100-300 台)
中堅企業(ホスト 100-300 台 / 1 日ログ取込 100-500GB)の典型構成を提示する。
コンポーネント構成
| 層 | コンポーネント | 規模目安 |
|---|---|---|
| 計装 | OpenTelemetry SDK(各言語) | 全アプリ計装 |
| 収集 Agent | Grafana Alloy / OTel Collector | 各ノード 1 台 |
| 集約 Gateway | OTel Collector Gateway(Kubernetes Deployment) | 3-5 レプリカ |
| トレース保管 | Grafana Tempo | S3 互換ストレージ |
| ログ保管 | Grafana Loki | S3 互換ストレージ |
| メトリクス保管 | Grafana Mimir | S3 互換ストレージ |
| 可視化 | Grafana | 3 レプリカ HA |
| アラート | Grafana Alerting + Alertmanager | 3 レプリカ |
インフラ要件(参考値)
- Kubernetes クラスタ:観測基盤専用 6-12 ノード(CPU 32 vCore / Memory 128GB / SSD 500GB)
- オブジェクトストレージ:S3 互換 5-20TB(ログ 90 日保管想定)
- データベース:Postgres(Grafana メタデータ用)+ Memcached / Redis(キャッシュ)
- ロードバランサ:内部 L7 LB(Ingress NGINX 等)
月次運用負荷の現実値
- 定常運用:SRE 1 名で月 20-40 時間
- アップグレード(年 4 回):1 回あたり 8-16 時間
- インシデント対応:年 5-10 件、1 件 4-16 時間
- キャパシティプランニング:四半期 1 回、4-8 時間
合計で SRE 0.3-0.5 名相当の常時稼働 が必要。
SaaS vs 内製の TCO 比較(5 年累計)
ホスト 200 台規模の中堅企業を仮定した 5 年累計 TCO 比較。数字は目安。
| 項目 | SaaS(Datadog 想定) | 内製(OTel + Grafana スタック) |
|---|---|---|
| ライセンス / クラウド費用(年) | 2,000-3,000 万円 | 200-400 万円(S3 + Kubernetes インフラ) |
| 5 年累計ライセンス | 1.0-1.5 億円 | 1,000-2,000 万円 |
| 初期構築(一時) | 100-300 万円 | 1,500-3,000 万円 |
| 運用人件費(SRE 0.5 名 × 5 年) | 0(SaaS が運用) | 3,000-4,500 万円 |
| アップグレード / マイグレーション | 500-1,000 万円 | |
| 5 年累計 TCO | 1.0-1.5 億円 | 6,000-9,500 万円 |
削減効果が消える前提崩れ
- SRE 人員が 0.5 名以下しか割けない → 障害対応が遅延し業務影響増
- Kubernetes 運用未経験 → 学習コスト + 事故対応で工数倍増
- 要件が SaaS 機能(CI Visibility / RUM Session Replay 等)に依存 → 内製で同等機能を作る工数が膨大
- データ量がさらに 5 倍(ホスト 1,000 台規模) → 内製インフラのスケール工数が跳ねる
移行 12 ヶ月ロードマップ
中堅企業で SaaS から内製基盤への並行運用 → 切替の標準ロードマップ。
月 1-2:基盤設計と PoC
- OTel Collector + Grafana Tempo / Loki / Mimir の単体 PoC
- ストレージ S3 / オブジェクトストア決定
- 観測データの分類設計(保管期間 / アクセス頻度別)
- SRE チーム 2-3 名で OSS スタック学習
月 3-4:本番並行投入(10% トラフィック)
- 1 サービスを選定し OTel Collector を導入
- Datadog と Grafana 両方に並行送信(fan-out)
- ダッシュボード / アラートを Grafana 側で再構築
- 機能差分の Gap 分析
月 5-7:本番並行(50% トラフィック)
- 主要 10-20 サービスを OTel 化
- ログ階層設計(Hot / Warm / Cold)実装
- Tail-based Sampling 適用
- インシデント対応訓練(Grafana 単独で対応できるか検証)
月 8-10:本番並行(100% トラフィック)
- 全サービス OTel 化完了
- Grafana 側で全アラート稼働
- SRE on-call ローテーションを Grafana ベースに切替
- Datadog はバックアップとして並行維持
月 11-12:SaaS 撤退
- Datadog 契約縮小 / 解約
- 撤退判断基準クリア確認(後述)
- ポストモーテム / ナレッジ共有
移行プロジェクトの典型工数
- SRE 3 名フルタイム × 12 ヶ月 + アプリ開発チーム協力 1-2 名 × 6 ヶ月
- 初期構築コスト 1,500-3,000 万円(インフラ + 人件費 + 学習)
必要な SRE 人員とスキルセット
内製基盤を支える SRE / プラットフォームエンジニアに必要な技術スタック。
コア スキル(必須)
- Kubernetes 運用(StatefulSet / PVC / オブジェクトストレージ連携)
- Prometheus / PromQL / Grafana 設計
- OpenTelemetry SDK / Collector 設定
- ログ / メトリクス / トレースの設計原則(USE / RED / Four Golden Signals)
- インシデント対応 / ポストモーテム文化
推奨スキル
- Helm / ArgoCD / GitOps
- S3 / オブジェクトストレージ ライフサイクル設計
- Terraform / IaC
- Go / Python(OTel Collector 拡張プラグイン)
- カオスエンジニアリング(Chaos Mesh / Litmus)
チーム構成の現実解
- テックリード SRE 1 名:アーキテクト責務、観測基盤全体設計
- SRE 2-3 名:日次運用、インシデント対応、改善開発
- プラットフォーム連携 1 名:開発チームへの計装支援、コンサルテーション
合計 専任 4-5 名 + アプリチーム協力 が中堅企業の現実規模。
内製化の撤退基準(やめどき)
内製化は やめどきを最初に決めておく ことが重要。撤退判断基準を明文化しないと「サンクコスト」で抜けられなくなる。
撤退基準 6 項目
- SRE 専任が 2 名以下に減少した
- インシデント MTTR が SaaS 時代より 50% 以上悪化した
- 観測基盤自体の障害が四半期 3 件以上発生
- アップグレードに 1 ヶ月以上かかる事態が 2 回連続
- 5 年 TCO 試算で SaaS との差が 20% 未満に縮小
- データ主権要件が緩和され、SaaS の国内 DC で要件を満たせる
撤退時のデータ移行
撤退時は 「内製基盤のデータを SaaS に持ち込めない」 制約に注意。観測データはほぼリアルタイム性が価値であり、過去 30-90 日のデータ移行は通常不要だが、コンプライアンス保管要件があるログは S3 アーカイブで別途保管する設計にしておく。
よくある質問(FAQ)
Q1. Grafana Cloud(マネージド)と完全自社運用、どちらが安いか
A. ホスト 100-200 台規模では Grafana Cloud の方が安い ケースも多い。Grafana Labs が運用責任を持つため SRE 人件費を省略できる。完全自社運用の優位は データ主権要件 + ホスト 300 台超 + SRE 5 名以上の組合せ。
Q2. Prometheus 単独 vs Mimir、どちらを選ぶか
A. Prometheus 単独は 単一インスタンスで保管 1-2 週間 が上限。長期保管・水平スケール・マルチテナント要件があれば Mimir 必須。中堅企業では Prometheus → Mimir 移行が標準パス。
Q3. ログを Loki ではなく Elasticsearch / OpenSearch にすべきか
A. 全文検索が業務必須(セキュリティ捜査・監査対応)なら Elasticsearch / OpenSearch、ラベル + トレース ID 経由のアクセスで十分なら Loki。後者の方がストレージコスト 1/5-1/20 で済む。中堅企業では用途別に併用が現実解。
Q4. OpenTelemetry の Logs Signal は本番運用できる段階か
A. 2026 年時点で安定化フェーズだが、Trace / Metrics に比べて成熟度が低い。当面は OTel Trace + Loki Promtail(または Fluent Bit)の組合せが現実解。OTel Logs は早期採用は推奨せず、2026 年中の GA 移行を待つことを推奨。
Q5. CNCF プロジェクト終了リスクはあるか
A. OpenTelemetry / Prometheus はインキュベーション → Graduated に到達済みで終了リスクは極小。Grafana 各 OSS は Grafana Labs 主導で AGPL ライセンス、商用サポートも継続見込み。ただし AGPL ライセンスを商用配布する場合は法務確認必須。
Q6. 観測基盤自体の監視はどうするか
A. 観測基盤の監視を観測基盤自身でやらない。最低限の Watchdog(外形監視 + Heartbeat)を別 SaaS(UptimeRobot / Pingdom 等)で冗長化する。観測基盤がダウンした時に検知できないと致命的。
Q7. Datadog から Grafana への移行で UI 慣れの抵抗が強い
A. SRE / 開発者の Grafana 学習に 3-6 ヶ月の慣熟期間 を見込む。Datadog の UI 完成度は業界トップクラスで、Grafana で同等 UX を実現するにはダッシュボード設計の作り込みが必要。チェンジマネジメントとして「並行 6 ヶ月 + 段階的切替」が現実的。
Q8. CI / CD パイプラインに観測基盤を組み込むべきか
A. 推奨。ダッシュボード / アラート設定を Git 管理(grafana-as-code)+ CI で diff レビュー することで、本番設定の属人化と消失を防げる。Grafana Provisioning + Terraform / Helm 統合が標準アプローチ。
関連記事
- Datadog / New Relic / Splunk 中堅コスト最適化 2026
- Datadog vs New Relic vs Prometheus 中堅企業 監視 比較 2026|価格・APM・ログ・運用負荷 6 軸スコア
- システム監視・可観測性ガイド|Datadog・New Relic・Grafanaの比較と導入方法
- SLO / Error Budget 導入 3 年ロードマップ 2026
- AI エージェント本番運用ガイド 2026|LangSmith / Langfuse 評価ループの組み方と中堅エンタープライズの実装パターン
参考資料
- OpenTelemetry 公式(https://opentelemetry.io/)
- CNCF OpenTelemetry プロジェクトページ(https://www.cncf.io/projects/opentelemetry/)
- Grafana Labs 公式(https://grafana.com/)
- Grafana Tempo / Loki / Mimir 公式ドキュメント
- Prometheus 公式(https://prometheus.io/)
- Google SRE Book "Site Reliability Engineering"(https://sre.google/sre-book/table-of-contents/)
OpenTelemetry 内製基盤 構築のご相談
GXO は中堅企業(従業員 1,000-3,000 名 / ホスト数 100-500 規模)向けに、OpenTelemetry + Grafana スタックの内製化を支援します。SaaS / 内製 TCO 比較、12 ヶ月移行ロードマップ策定、SRE チーム編成支援、ログ / メトリクス / トレース統合設計、Tail-based Sampling 実装、撤退基準設計まで一貫対応可能です。年額 2,000 万円超のオブザーバビリティ予算の見直しからご相談を承ります。