Stack Overflow Developer Survey 2025 では、開発者の 84% が AI ツールを利用または利用予定と回答し、プロ開発者の 51% が日常的に AI を使用しています。一方で、Google Cloud の DORA Report 2025 は「AI は組織の強み・弱みを増幅するものであり、成果はツールそのものではなく組織・開発プロセス・基盤整備に左右される」と明確に指摘しています。「AI コーディングで開発会社は不要になる」という議論は、DORA の本意を読み違えています。本稿では、AI 時代に開発会社の価値が移る 4 領域、AI を入れたが効果が出ない組織の典型 3 パターン、そして 2026 年の開発会社選定の新基準を整理します。


なぜ「AI コーディングで開発会社不要論」は誤読なのか

「84% が AI を使う」という Stack Overflow の数字を見て、開発会社の役割が縮小するように見えるのは自然な反応です。しかし、この数字は「コードを書く時間」だけが見えていて、ソフトウェア開発の本当の工程を見ていません。

DORA Report 2025 の本質的なメッセージを整理すると、次のようになります。

よくある誤読DORA 2025 の本意
AI でコーディングが速くなれば、開発会社はいらないAI はあくまでツール。組織・プロセス・基盤の品質に応じて成果が「増幅」される
AI を入れれば DevOps の高パフォーマー組織になれるAI は強い組織をさらに強く、弱い組織をさらに弱くする
ツール選定が一番重要な意思決定ツールよりも、要件定義・設計・レビュー・品質保証・運用の体制設計が重要
ソフトウェア開発の工数構成は、コーディング自体は全体の 20〜30% 程度 で、残りは要件定義、設計、レビュー、テスト、ドキュメント、本番運用、障害対応に費やされます。AI でコーディングが 50% 速くなっても、全体工数は 10〜15% しか減りません。

そして、要件定義の品質、設計の妥当性、レビュー文化、テスト・品質保証の自動化基盤、運用・SRE の成熟度――これらは AI ツールが解決してくれる領域ではありません。むしろ、AI コーディングで生成されるコードが急増する時代こそ、人がレビュー・品質保証・運用の品質を上げる体制 が事業成果を分けます。

まとめ:AI コーディングは「コードを書く時間」を短縮します。しかし、要件定義・設計・レビュー・品質・運用という「成果を出す時間」は、組織の体制が決めます。開発会社の価値はここに移行します。


開発会社の価値が移る 4 領域

中堅企業(売上 100〜1,000 億、従業員 200〜3,000 名)が 2026 年に開発会社へ依頼すべき領域を、4 つに整理します。

領域 1:要件定義・設計

AI コーディングは「何を作るか」が決まっていることを前提にします。逆に言えば、「何を作るべきか」「どこまで作るべきか」「どう設計すべきか」を決められない状態では、AI を使っても無駄なコードが量産されるだけです。

旧来の依頼スコープ2026 年の依頼スコープ
「画面仕様書を渡すので作ってほしい」「業務課題を渡すので、解決方法と実装範囲を一緒に決めてほしい」
「画面遷移図を作ってほしい」「ユーザー体験と業務フローを設計し、何を画面化し何を自動化するか決めてほしい」
「ER 図を作ってほしい」「データモデルを将来拡張に耐える形で設計し、変更しやすい境界を決めてほしい」
要件定義の品質が低いまま AI コーディングを使うと、3 ヶ月後に「動くけど誰も使わないシステム」になります。

領域 2:コードレビューと自動化基盤

AI コーディングで生成されるコードは、構文的には正しくても、(a) 既存コードベースとの整合性、(b) セキュリティ脆弱性、(c) パフォーマンス、(d) 可読性で問題を起こすことが頻繁にあります。

レビュー対象AI 出力で頻発する問題自動化のレベル
セキュリティSQL インジェクション、認証バイパス、機密ハードコードSAST / SCA を CI に組み込み、AI で一次レビュー
パフォーマンスN+1 クエリ、無駄なループ、巨大データの一括処理プロファイリング、負荷テスト自動化
既存整合性同じ機能の重複実装、命名規則違反コードベースに対する RAG レビュー、規約 lint
可読性・保守性関数の肥大化、コメント不足、テスト不足静的解析、コードカバレッジ、ペアレビュー
開発会社の価値は、これらレビュー・自動化基盤の構築・運用にあります。AI コーディングを「使わせる」のではなく「品質を担保した使い方ができる体制」を作る役割です。

領域 3:テスト・品質保証

AI コーディングが普及するほど、(a) 1 機能あたりのテストカバレッジ、(b) 回帰テストの自動化、(c) E2E テストの安定性、が事業価値に直結します。

テスト種別AI 時代の重要度自動化の効きどころ
ユニットテスト高(AI 生成コードのテストファースト化)AI による自動生成 + カバレッジ判定
結合テスト高(API 変更が増えるため)コントラクトテスト、API モック自動化
E2E テスト中(不安定だと AI 生成の頻繁な変更で破綻)Playwright / Cypress + AI 自己修復テスト
負荷・パフォーマンス中(性能劣化を検知する基盤が必須)k6 / Locust + 性能リグレッション自動化
セキュリティ必須(AI 生成のセキュリティ穴を防ぐ)SAST / DAST / 依存関係スキャン
中堅企業のシステム開発で、テスト・品質保証を内製化できているケースは多くありません。ここを開発会社に任せるのが、AI 時代の合理的な分担です。

領域 4:運用・SRE・CI/CD

AI コーディングで開発スピードが上がるほど、本番運用の事故リスクも上がります。DORA Report の指標である「デプロイ頻度」「変更失敗率」「平均復旧時間」「変更リードタイム」は、運用基盤の成熟度がないと AI コーディングの効果を打ち消します。

運用指標AI 時代に求められる水準開発会社の関与
デプロイ頻度週 1 回以上を安定運用CI/CD パイプライン整備、デプロイ承認フロー
変更失敗率15% 以下を目標ロールバック設計、フィーチャーフラグ
平均復旧時間 (MTTR)1 時間以内監視・アラート整備、ランブック整備
変更リードタイム1 日以内自動テスト、CI/CD 高速化
中堅企業がこれらを内製化するには、SRE 専任人材の採用とツール整備で年 1,500〜3,000 万円の初期投資が必要です。開発会社に運用基盤の構築・伴走を任せれば、初期投資を抑えながら DORA 高パフォーマー水準を目指せます。

まとめ:開発会社の価値は「コードを書く」から「要件定義・レビュー・品質・運用の体制を作る」に移行しています。中堅企業が依頼すべきスコープも、ここに合わせて変える必要があります。


「AI を入れたが効果が出ない」組織の典型 3 パターン

DORA の「AI は組織を増幅する」原則は、逆方向にも働きます。組織の弱点が AI でさらに増幅されるパターンを 3 つに整理します。

パターン 1:レビュー文化がない組織

コードレビューを「形だけ」「とりあえず承認」で済ませている組織が AI コーディングを導入すると、AI 生成コードのバグ・脆弱性がそのまま本番に流れます。半年後には「動かないシステム」と「障害件数の急増」が同時発生します。

パターン 2:テスト基盤がない組織

ユニットテスト・結合テストの自動化基盤がない状態で AI コーディングを使うと、(a) 生成コードがどこを壊しているか分からない、(b) 既存機能の回帰が増える、(c) リファクタリングが怖くてできない、の連鎖で開発速度がむしろ低下します。

パターン 3:運用基盤・SRE 体制がない組織

CI/CD・監視・ロールバック設計が貧弱な状態で AI コーディングを使うと、デプロイ事故率が急上昇します。DORA で言う「変更失敗率」が悪化し、結果として開発チームがリリースを怖がって AI コーディングの効果が逆に下がります。

パターン症状6 ヶ月後の状態
レビュー文化なしバグ件数・脆弱性件数の急増顧客苦情の急増、事業損害
テスト基盤なし既存機能の回帰、リファクタ恐怖開発速度の低下、技術的負債の累積
運用基盤なしデプロイ事故、ロールバック頻発リリース凍結、AI コーディング撤退
まとめ:AI コーディングを入れる前に、レビュー・テスト・運用の体制を整える必要があります。逆順で進めると、AI ツール費だけが残ります。

中堅企業の現実解:内製+伴走+受託のハイブリッド

中堅企業が AI 時代のシステム開発体制を作る場合、内製・伴走・受託の組合せが現実的です。

役割担当内訳
業務オーナー・要件決定内製(事業部門 + 情シス)何を作るかの意思決定
アーキテクト・設計レビュー伴走(外部 + 内製育成)技術選定、データモデル、API 設計
AI コーディング・実装内製+受託AI ツールを使った実装、複雑領域は受託
コードレビュー受託(開発会社)セキュリティ、パフォーマンス、整合性
テスト・品質保証受託(開発会社)自動テスト基盤、E2E、セキュリティテスト
CI/CD・運用 SRE受託(開発会社)パイプライン、監視、ロールバック設計
このモデルなら、内製チームは「事業価値を決める」ところに集中でき、開発会社は「品質を担保する基盤」に貢献します。役割分担が明確になり、AI 時代でも「誰が何を担保するか」が説明できる体制になります。

まとめ:内製も外注も「やめる/やめない」の二択ではありません。AI コーディングを内製で使いながら、レビュー・テスト・運用は受託に出すハイブリッドが、中堅企業の合理解です。


2026 年の開発会社選定 4 つの新基準

「ツール比較」「実績数」「単価」だけで開発会社を選ぶ時代は終わりました。2026 年の選定基準を 4 つに整理します。

基準 1:AI ツール選定力(AI を使いこなせるか)

  • どの AI コーディングツール(Claude Code / Cursor / Copilot / Cline 等)を実プロジェクトで使っているか
  • AI 生成コードの品質基準を持っているか
  • AI を使わない領域の判断基準を持っているか

基準 2:体制設計力(要件定義・設計の品質)

  • 要件定義フェーズに何 % の工数を割いているか
  • アーキテクト人材が常駐するか
  • データモデル・API 設計のレビュー文化があるか

基準 3:レビュー文化(成果物の品質保証)

  • コードレビューの実施率・レビュー時間を提示できるか
  • セキュリティレビューの自動化基盤を持っているか
  • ペアプログラミング・モブプログラミングの実施実績があるか

基準 4:自動化基盤(CI/CD・テスト・運用)

  • DORA 4 指標(デプロイ頻度・変更失敗率・MTTR・リードタイム)を測定しているか
  • 自動テストカバレッジの実績を提示できるか
  • 監視・ロールバック設計のテンプレートを持っているか

選定時の質問チェックリスト:

質問期待される回答の方向性
AI コーディングツールは何を使っていますか?複数を比較したうえで、案件に応じて選んでいる
コードレビューはどの工程で誰が行いますか?PR 単位で必ず別エンジニアがレビュー、自動レビューも併用
デプロイ頻度・変更失敗率の実績は?DORA 指標を計測しており、四半期ごとに改善
障害発生時の対応プロセスは?ランブック整備、平均復旧時間を測定
内製化支援は可能ですか?Phase 1〜2 は伴走、Phase 3 以降で内製比率を上げる設計
まとめ:4 基準と 5 質問で、AI 時代に通用する開発会社かどうかが見極められます。実績数・単価ではなく、品質を担保する体制で選んでください。

FAQ

Q1. 自社で内製化したい。受託は使わずに進めるべきか。

A. 完全内製化は中堅企業の規模では難しいケースが多いです。事業価値の意思決定とコア業務知識は内製が望ましいですが、レビュー・テスト・運用基盤は受託のほうがコスト効率が良いです。Phase 1〜2 で受託と組んで体制を作り、Phase 3 以降で内製比率を上げるハイブリッドが現実解です。

Q2. AI コーディングで内製チームの生産性を上げる方法は?

A. (1) AI コーディングツールの社内ガイドライン策定、(2) コードレビュー自動化(AI による一次レビュー+人による最終承認)、(3) ユニットテスト自動生成と CI 統合、(4) 月 1 回の事例共有会、の 4 点が効果的です。これらは受託パートナーと一緒に整備するのが速いです。

Q3. 既存システムが古い。AI 時代に向けてどこから手を付けるか。

A. (1) DORA 4 指標を測定する、(2) 自動テスト・CI/CD を整備する、(3) アーキテクチャを見直してマイクロサービス化や API 化を進める、の順序が一般的です。すべてを一括改修するのではなく、Phase 1(測定)→ Phase 2(基盤)→ Phase 3(アーキテクチャ)の順で進めます。

Q4. 開発会社のレベル感をどう判断するか。

A. 4 基準のうち最も差が出るのは「自動化基盤」です。CI/CD パイプラインのデモ、自動テストカバレッジの実績、DORA 4 指標の計測有無を提案フェーズで聞いてください。これらに即答できない開発会社は、AI 時代の中堅企業の伴走パートナーには不向きです。

Q5. 単価が高い開発会社を選ぶ価値はあるか。

A. 単価ではなく「総コスト」で評価してください。レビュー・テスト・運用基盤を内製で揃えれば年 1,500〜3,000 万円の初期投資が必要です。単価が高くてもこれらをセット提供する開発会社のほうが、3 年トータルでは安くなるケースが多いです。

Q6. AI 時代に開発会社の役割は今後 5 年でどう変わるか。

A. 「コードを書く役割」はさらに縮小し、「要件定義のファシリテーター」「アーキテクト」「品質保証の自動化基盤エンジニア」「SRE」の役割が中心になります。中堅企業が選ぶべきは、これらの方向にすでに体制を作っている開発会社です。


まとめ

  • Stack Overflow 2025:開発者 84% / プロ 51% が AI を日常使用
  • DORA 2025:AI は組織を増幅する。ツールより組織・プロセス・基盤が成果を決める
  • 開発会社の価値は要件定義・設計、レビュー、テスト・品質保証、CI/CD・運用の 4 領域へシフト
  • 「AI を入れたが効果が出ない」3 パターン:レビュー文化なし、テスト基盤なし、運用基盤なし
  • 中堅企業は内製+伴走+受託のハイブリッドが現実解
  • 開発会社選定の 4 新基準:AI ツール選定力、体制設計力、レビュー文化、自動化基盤

「AI 時代に通用する開発体制」を一緒に設計しませんか?

GXO は中堅企業の AI 時代のシステム開発を、要件定義・設計から、コードレビュー自動化、テスト・品質保証基盤、CI/CD・SRE 設計まで一貫支援します。DORA 4 指標を測定可能な体制を作り、AI コーディングを安全に高速化する設計をご提案します。NDA 締結可、藤吉ダイレクト窓口で承ります。営業電話はしません。

DX 成熟度診断(AI 開発体制チェック)を申し込む

※ 営業電話はしません | オンライン対応可 | 導入事例はこちら


参考文献

  • Stack Overflow "2025 Developer Survey: AI" — https://survey.stackoverflow.co/2025/ai
  • Google Cloud "DORA State of DevOps Report 2025" — https://cloud.google.com/devops/state-of-devops
  • Anthropic "Model Context Protocol" — https://modelcontextprotocol.io/
  • McKinsey & Company "The State of AI: Global Survey 2025" — https://www.mckinsey.com/capabilities/quantumblack/our-insights/the-state-of-ai

追加の一次情報・確認観点

この記事の内容を社内で検討する場合は、一般論だけで判断せず、次の一次情報と自社データを照合してください。特に、稟議・RFP・ベンダー選定では「何を実装するか」よりも「どのリスクをどの水準まで下げるか」を先に決めると、見積もり比較のブレを抑えられます。

確認領域参照先自社で確認すること
AIリスク管理NIST AI Risk Management Framework用途、リスク、評価方法、運用責任者を確認する
LLMセキュリティOWASP Top 10 for LLM Applicationsプロンプトインジェクション、情報漏えい、権限設計を確認する
AI事業者ガイドライン総務省 AI関連政策説明責任、透明性、安全性、利用者保護の観点を確認する
DX推進IPA デジタル基盤センターDX推進指標、IT人材、デジタル基盤の観点で現状を確認する
個人情報個人情報保護委員会個人情報・委託先管理・利用目的・安全管理措置を確認する

稟議・RFPで使う数値設計

投資判断では、導入前後で測れる指標を3から5個に絞ります。下表のように、現状値・目標値・測定方法・責任者をセットにしておくと、PoC後に本番化するかどうかを判断しやすくなります。

指標現状確認目標の置き方失敗しやすい例
対象業務数現状の対象業務を棚卸し初期は1から3業務に限定対象を広げすぎて要件が固まらない
月間処理件数件数、担当者、例外率を確認上位20%の高頻度業務から改善件数が少ない業務を先に自動化する
例外対応率手戻り、確認待ち、属人判断を計測例外の分類と承認ルールを定義例外をAIやシステムだけで吸収しようとする
正答率・再現率テストデータで評価業務許容ラインを明文化体感評価だけで本番化する
人手確認率承認が必要な判断を分類高リスク判断は人間承認全自動化を前提に設計する

よくある失敗と回避策

失敗パターン起きる理由回避策
目的が曖昧なままツール選定に入る比較軸が価格や機能数に寄る経営課題、業務課題、測定KPIを先に固定する
現場確認が不足する例外処理や非公式運用が見落とされる担当者ヒアリングと実データ確認を必ず行う
運用責任者が決まっていない導入後の改善が止まる業務側とIT側の責任分界をRACIで定義する
AIの回答品質を本番で初めて確認する評価データと禁止事項が未定義テストセット、NG例、監査ログを用意する

GXOに相談する前に整理しておく情報

初回相談では、次の情報があると診断と提案の精度が上がります。すべて揃っていなくても問題ありませんが、分かる範囲で用意しておくと、概算費用・期間・体制の見立てを早く出せます。

  • 対象業務の現行フロー、利用中システム、Excel・紙・チャット運用の一覧
  • 月間件数、担当人数、手戻り件数、確認待ち時間などの概算
  • 個人情報、機密情報、外部委託、権限管理に関する制約
  • 希望開始時期、予算レンジ、社内承認者、決裁までの流れ
  • AIに任せたい業務、任せてはいけない判断、評価に使える過去データ

GXOでは、現状整理、要件定義、RFP作成、ベンダー比較、PoC設計、本番移行計画まで一気通貫で支援できます。記事の内容を自社に当てはめたい場合は、まずは現在の課題と制約を共有してください。