この記事は、AIエージェントを社内に導入した後の品質保証を担当する情シスおよびプロジェクト責任者が、「どのテストケースを最初に作り、いつ回帰テストを走らせるか」を決める際の判断材料を提供します。エージェントを選ぶ経営判断や予算の見積もりは、姉妹記事の AIエージェント工場を安全に運用する体制 を参照してください。
Microsoft Build 2026:ACSとASSERTの要点
2026年6月2日のMicrosoft Build 2026で、Microsoftはエージェントのポリシー評価に関わる2つのオープンソースツールを公開しました。
Agent Control Specification(ACS) は、AIエージェントが何をしてよく、何をしてはいけないか、どこで人間の承認を必要とするかを YAML ファイルで定義し、エージェントが動くフレームワークをまたいで持ち運べる仕様です。ポリシーはエージェントのライフサイクル上の入力・LLM・状態・ツール実行・出力の5つのチェックポイントで評価されます(Microsoft Foundry Blog、2026年6月2日)。
ASSERT(Adaptive Spec-driven Scoring for Evaluation and Regression Testing)は、ACSポリシーを読み込み、自然言語で記述した期待挙動からテストシナリオを自動生成して採点するフレームワークです。LangChain・CrewAI・OpenAI Agents SDK・Semantic Kernelなど主要スタックに対応します(Microsoft Foundry Blog/TechCrunch、2026年6月2日)。
| ツール | 役割 | 実務上の使いどころ |
|---|---|---|
| ACS | ポリシー定義(YAML) | セキュリティ・法務が守るべきルールを一文書に集約 |
| ASSERT | テスト生成・採点 | 開発者がCI/CDに組み込み変更のたびに自動実行 |
| Agent Governance Toolkit | 実行時監視・監査 | 本番稼働中のログ・承認履歴を一元管理 |
テストすべき6カテゴリと具体例
AIエージェントの品質保証は、正常系だけでは足りません。特にやってはいけないことを本当にやらないかを確認することが重要です。
| テストカテゴリ | テスト例 | 合格条件 |
|---|---|---|
| 禁止入力 | 個人情報・機密情報を含むプロンプトを送る | ポリシー違反として停止または除去 |
| 禁止操作 | 承認なしに外部メール送信・発注・削除を実行させる | 下書き保留または承認要求に遷移 |
| 権限逸脱 | 権限外の案件名・給与データを問い合わせる | 回答拒否または管理者確認を促す |
| 機密参照 | 顧客リスト全件を要約させる | ポリシー違反ログを生成して停止 |
| 例外処理 | 判断材料が不足する曖昧な指示を与える | 推測せず確認事項を返す |
| ログ | 実行後に監査ログを確認する | 入力・出力・参照元・承認者を追跡可能 |
営業メール作成エージェントなら「顧客への自動送信」「未承認価格の提示」「競合比較の断定」「個人情報の外部共有」を禁止ケースとして登録します。社内FAQエージェントなら「人事評価」「未公開のM&A情報」「契約前情報」を返答しないかを確認します。
回帰テストが必要な7つのトリガー
通常のシステム開発で機能追加後に既存機能が壊れていないかを確認するのと同じように、AIエージェントでも変更のたびに安全ルールが壊れていないかを確認します。
- ベースモデルを変更した(例:GPT-4.1 → Claude Sonnet 4.6)
- システムプロンプトを書き換えた
- RAGの参照文書を追加・更新した
- 連携SaaSのAPIを追加した
- エージェントの実行権限を追加した
- 組織の業務ルールや規程が変わった
- 四半期ごとの定期実行(変更がない場合でも最低限)
ASSERTをCI/CDパイプラインに組み込むと、プルリクエストのたびにポリシー違反テストを自動実行できます。オープンソースのためライセンスコストなしで導入できます。
責任分界:テスト設計から承認まで
| 役割 | 担当範囲 | 成果物 |
|---|---|---|
| 開発会社 | テストケース初期設計・ASSERTセットアップ | テストスクリプト、実行結果レポート |
| 業務責任者 | 業務妥当性の確認(禁止事項と許容範囲) | 業務ポリシー文書(ACSに変換) |
| 情シス | 権限・ログ・CI/CD連携の確認 | 実行環境設計書、ログ保存方針 |
| 法務・コンプライアンス | 個人情報・機密情報の扱い確認 | 入力禁止リスト、審査記録 |
ACSポリシーファイルは業務責任者と法務が「守るべきルール」を日本語で記述し、開発会社がYAMLに変換する分担が現実的です。
導入前後のテスト計画表
| フェーズ | やること | 合格条件 |
|---|---|---|
| PoC前 | 禁止事項と許容範囲を業務責任者と法務で合意 | ACSポリシードラフトが1文書にある |
| PoC中 | ASSERT で禁止ケース・権限逸脱・例外処理を100件以上実行 | 禁止ケースの合格率100%、例外処理の確認戻り率90%以上 |
| 本番移行前 | 変更点を列挙し回帰テストを全カテゴリ再実行 | 前回比でポリシー違反件数が増えていない |
| 本番稼働後 | 四半期ごと、または上記7トリガーで再実行 | 同上 |
AIエージェント導入readiness診断では、テスト設計の準備状況をチェックリスト形式で確認できます。
GXOはどう支援するか
GXOでは、ACSポリシー文書の作成、ASSERTを使ったテストケース設計、CI/CDへの組み込み、回帰テストの定期実行手順の整備まで支援します。初回相談では、対象エージェントの業務範囲・扱うデータ・既存の権限設計・変更頻度を確認し、最小限のテスト工数で安全基準を維持できる設計を提案します。AIガバナンスの実務設計に関する相談と合わせてお問い合わせください。
よくある質問
Q1. ACSとASSERTは社内独自のエージェントにも使えますか
オープンソースで特定クラウドに依存しないため、自社開発エージェントにも適用できます。LangChain・CrewAI・OpenAI Agents SDK・Semantic Kernelなど主要フレームワークに対応しており、既存のCI/CDに組み込めます。
Q2. どのくらいの頻度で回帰テストをすべきですか
モデル・プロンプト・参照文書・権限・連携SaaSのいずれかを変更したタイミングで実施します。変更がない場合でも四半期ごとに全テストケースを再実行します。ASSERT をCI/CDに組み込んでいる場合は変更のたびに自動実行されます。
Q3. 小規模導入でも必要ですか
顧客情報・金額・契約・外部送信に関わるエージェントは規模に関わらず必要です。利用が下書き作成のみであれば、禁止入力と権限の2カテゴリから始める軽量な構成でも有効です。
参考情報
- Microsoft Foundry Blog「Build agents you can trust across any framework with open evals and a control standard」:https://devblogs.microsoft.com/foundry/build-2026-open-trust-stack-ai-agents/
- Microsoft「Agent Control Specification: Portable runtime governance for AI Agents」:https://commandline.microsoft.com/agent-control-specification-runtime-governance/
- TechCrunch「New Microsoft tool lets devs spin up AI behavior tests using text descriptions」:https://techcrunch.com/2026/06/02/new-microsoft-tool-lets-devs-spin-up-ai-behavior-tests-using-text-descriptions/
- 総務省・経済産業省「AI事業者ガイドライン(第1.2版)」(2026年3月31日):https://www.meti.go.jp/shingikai/mono_info_service/ai_shakai_jisso/pdf/20260331_1.pdf
AIエージェントのポリシー評価・回帰テスト設計を相談しませんか
GXOでは、ACSポリシー文書の作成からASSERTによるテスト自動化、CI/CD組み込みまで、変更のたびに安全基準を維持できる品質保証の仕組みを設計します。