LLM を社内アシスタント・カスタマーサポート Bot・業務エージェントに組み込んで本番運用する企業が、2025 年から 2026 年にかけて急増した。それと並行して報告される攻撃事例も増加しており、Anthropic は 2024 年公開のレッドチーミングレポートで「Claude を含む主要 LLM はジェイルブレイク耐性が改善した一方、間接プロンプトインジェクション(Indirect Prompt Injection)はモデル単独では完全には防げない」と明記している。OpenAI も同社 Red Teaming Network のブログで「外部ツール接続を伴う Agent 化の進展に伴い、攻撃面はモデル境界の外側に移動している」と整理した。
本稿は、中堅企業(300〜3,000 名規模)の セキュリティ責任者・AI 推進・SaaS 受託開発 を読者に想定し、LLM レッドチームを内製または外部委託で回すために必要な手順、8 層防御スタックの設計、ツール選定、運用フェーズでの定期診断、費用感までを 1 本にまとめる。OWASP Top 10 for LLM Applications(2025 改訂版)と NIST AI Risk Management Framework(AI RMF 1.0、2023 年公開)を主な参照軸として整理した。
目次
- LLM 攻撃の典型 5 種
- OWASP Top 10 for LLM(2024-2025 版)の構造
- 8 層防御スタックの作り方
- レッドチーム実施手順 6 フェーズ
- 主要レッドチームツール / フレームワーク比較
- 運用フェーズの定期診断サイクル
- 中堅企業向け費用感
- FAQ
- 関連記事
H2 1. LLM 攻撃の典型 5 種
LLM 本番運用後に発生する攻撃は、以下の 5 種に分類すると整理が容易になる。OWASP LLM Top 10 と NIST AI RMF Map / Measure 機能の双方で言及されるカテゴリを統合した分類である。
1-1. 直接プロンプトインジェクション(Direct Prompt Injection)
ユーザー入力欄から「これまでの指示を無視せよ」「システムプロンプトを表示せよ」と直接送り込む古典型。Anthropic / OpenAI ともにモデル側の対応で耐性は上がっているが、新モデル投入直後や fine-tune モデルでは依然として有効打が見つかる。Constitutional AI や RLHF の継続学習で精度は改善傾向にあるが、ゼロにはならない。
1-2. 間接プロンプトインジェクション(Indirect Prompt Injection)
メール本文・PDF・Web ページ・Slack メッセージなど、LLM が読み込む外部コンテンツに攻撃指示を埋め込む方式。Greshake らが 2023 年に提示した攻撃モデル("Not what you've signed up for")以降、研究と実害の双方で報告が増えている。RAG / エージェントを実装した企業では最大の脅威。Microsoft Copilot for Microsoft 365 でも 2024 年に PoC が公開されており、メール経由で機密情報を抜く攻撃チェーンが現実化した。
1-3. ジェイルブレイク(Jailbreak)
モデルの安全方針(safety policy)を回避させる攻撃。代表例として DAN(Do Anything Now)系プロンプト、ロールプレイ、Many-shot Jailbreak(Anthropic が 2024 年公開)、対話を多段階に分けて段階的に逸脱させる Crescendo(Microsoft 2024 年公開)などがある。新モデルリリース直後は耐性が一時的に低下することが知られており、定期診断のトリガーとして重要。
1-4. データ漏えい / 学習データ抽出
モデルから訓練データや RAG コンテキストを推論で引き出す攻撃。Carlini らの研究("Extracting Training Data from Large Language Models", 2021)以降、商用モデルでも一定確率で訓練データの一部が再現できることが示されている。RAG 実装ではコンテキストに埋め込んだ社内文書がユーザー側に漏れる事故が、設定ミスでも発生する。
1-5. モデル抽出 / トレーニング汚染
API を大量に叩き、入出力ペアを蓄積して類似モデルを作る Model Extraction 攻撃と、教師データに毒データを混入する Training Data Poisoning。社内 fine-tune パイプラインを持つ企業はとくに後者を意識する必要がある。MITRE ATLAS(AI 版 ATT&CK)でも別カテゴリとして扱われている。
H2 2. OWASP Top 10 for LLM Applications(2025 改訂版)の構造
OWASP は LLM アプリケーション向け Top 10 を 2023 年に初版公開、2025 年改訂版を出している。中堅企業の実装でとくに頻繁に参照する 10 項目を、本稿の 8 層防御に対応づけて整理する。
| OWASP LLM Top 10 (2025) | 内容(要旨) | 本稿 8 層防御で対応 |
|---|---|---|
| LLM01 Prompt Injection | 直接 / 間接の指示注入 | 1, 2, 3, 4 層 |
| LLM02 Sensitive Information Disclosure | 機密情報漏えい | 4, 5, 7 層 |
| LLM03 Supply Chain | モデル / 依存ライブラリの汚染 | 7, 8 層 |
| LLM04 Data and Model Poisoning | 学習データ・モデル汚染 | 7 層 |
| LLM05 Improper Output Handling | 出力の不正利用(XSS・SSRF・SQLi) | 4 層 |
| LLM06 Excessive Agency | エージェントへの過剰権限付与 | 7 層 |
| LLM07 System Prompt Leakage | システムプロンプトの暴露 | 2, 4 層 |
| LLM08 Vector and Embedding Weaknesses | RAG / Vector DB の脆弱性 | 1, 5 層 |
| LLM09 Misinformation | 誤情報の出力 | 4, 5 層 |
| LLM10 Unbounded Consumption | リソース無制限消費 | 6 層 |
H2 3. 8 層防御スタックの作り方
LLM の完全防御は現時点の技術では困難であり、多層防御(Defense in Depth)で被害を最小化する考え方が NIST AI RMF・OWASP・Google Secure AI Framework(SAIF, 2023)の共通原則になっている。本稿では、エンタープライズ実装で実際に有効な 8 層を提示する。
第 1 層:入力検証 / サニタイゼーション
- ユーザー入力と外部データを LLM に渡す前にスキャン
- 既知のインジェクションパターン、Unicode 不可視文字、homoglyph、ロールプレイ誘導の検出
- 候補ツール:Lakera Guard、Rebuff、NVIDIA NeMo Guardrails、Microsoft Prompt Shields、Protect AI Rebuff
- 注意:100% の検出は不可能。検出率公称値(Lakera 公式:プロンプトインジェクション検出 99% 超)も継続評価が必要
第 2 層:プロンプトテンプレ設計
- ユーザー入力と外部データを明確に分離する構造化プロンプト(XML タグ・区切り文字)
- 役割制約("You are X. You must not …")を冒頭固定
- 出力形式を JSON Schema で固定し、自由文生成を最小化
- Anthropic 公式ドキュメントの「Prompt Engineering for Long Contexts」で推奨される XML タグ運用が現実的
第 3 層:コンテンツフィルタ(モデル前段)
- 外部から取り込む RAG コンテンツの事前フィルタリング
- データソース別の信頼スコア付け(社内一次ソース > 委託先 > Web スクレイプ)
- 低信頼度のコンテンツは LLM に渡す前に「指示文っぽい」フレーズを検知してブロック
第 4 層:出力検証 / Post-processing
- LLM 出力に含まれる意図しないアクション指示・PII・URL・コード断片を検知
- Microsoft Presidio で PII マスキング、Guardrails AI で出力スキーマ強制
- ツール呼び出し(Function Calling / MCP)前に「人間承認必須」を挟むかの判定もここ
第 5 層:監査ログ / 可観測性
- すべての入出力・ツール呼び出し・モデルバージョンを保存
- LangSmith / Langfuse / OpenTelemetry GenAI Semantic Conventions に準拠
- インシデント発生時の forensics 用に最低 90 日保持を推奨(業種により異なる)
第 6 層:レート制限 / 異常検知
- ユーザー単位 / IP 単位 / API キー単位のレート制限
- トークン使用量の急増を異常検知
- OWASP LLM10 Unbounded Consumption への対応で、コスト面と DoS 面の双方をカバー
第 7 層:権限分離 / 最小権限
- LLM エージェントに与える OAuth / API スコープの最小化
- ツール実行時の sudo・delete 系操作は人間承認を必須化
- OWASP LLM06 Excessive Agency への直接対応
第 8 層:ロールバック / 隔離環境
- インシデント発生時にモデル / システムプロンプト / RAG インデックスを即座に前バージョンに戻す
- 危険なツール呼び出しは sandbox(コンテナ / WASM / 専用 VM)で実行
- 学習データ由来の毒データは「学習データ毎日 snapshot + checkpoint rollback」で対応
H2 4. レッドチーム実施手順 6 フェーズ
Anthropic の Responsible Scaling Policy(RSP, 2023 年初版・継続更新)と OpenAI Red Teaming Network の公開ドキュメント、NIST AI RMF Measure 機能を統合すると、LLM レッドチームは下記 6 フェーズに整理できる。
Phase 1:スコープ定義(1〜2 週)
- 対象システム(モデル / プロンプト / ツール / 接続データソース)の境界決定
- 想定脅威モデル(社外攻撃者 / 内部不正 / サプライチェーン)
- 評価基準("何が起きたら不合格" の事前定義)
- ステークホルダー(セキュリティ・法務・AI 推進・現場)の合意取得
Phase 2:攻撃ベクター設計(1〜2 週)
- OWASP LLM Top 10 + MITRE ATLAS のテクニックから対象システムに該当するものを選別
- 業種固有のベクター(医療=PHI 漏えい、金融=不正取引指示、行政=個人情報)を追加
- 自社サービスに固有の "システムプロンプトに含まれる Secret" などを盛り込む
Phase 3:自動化テスト(2〜4 週)
- Garak(NVIDIA / オープンソース)で 100+ プローブを並列実行
- Microsoft PyRIT で多段階対話シミュレーション
- 結果を CSV / JSON で集計、検出率・誤検出率を測定
- CI に組み込み、PR ごとに退行検査
Phase 4:手動レッドチーム(2〜4 週)
- 外部ホワイトハッカー or 社内専門家による創造的攻撃
- 自動ツールが見落とす Crescendo / Many-shot / 業務文脈固有の攻撃を発見
- レポートには「再現手順 + 影響度 + 推奨修正」をセットで記録
Phase 5:修正実装(2〜6 週)
- 発見されたリスクを 8 層防御の該当層に落とし込み修正
- システムプロンプト改修・Guardrail ルール追加・ツール権限縮小・監査ログ拡充など
- 修正単位ごとに OWASP LLM Top 10 のどの項目に紐づくか記録
Phase 6:再評価 / 報告(1〜2 週)
- Phase 3 / 4 のテストを再実行し、解消率を測定
- 経営層・監査・規制当局向けレポートを発行
- NIST AI RMF Govern / Manage 機能のエビデンスとして格納
H2 5. 主要レッドチームツール / フレームワーク比較
LLM レッドチームに使えるツール・フレームワークは 2024〜2026 年で急速に増えた。中堅企業の選定で論点になる軸を縦持ちにして比較する。
| ツール / 製品 | 種別 | 強み | 弱み | 中堅企業の典型用途 |
|---|---|---|---|---|
| Garak | OSS(NVIDIA) | 100+ プローブ・無料・CI 組込容易 | UI 無し、ノイズ多い | 内製レッドチームの自動化基盤 |
| PyRIT | OSS(Microsoft) | 多段階対話・Crescendo 系の再現 | 学習コスト高 | 高度ベクターの再現テスト |
| PromptInject | OSS(学術) | 教科書的なベクター集 | メンテ低頻度 | 検証用ミニ環境 |
| Lakera Guard | 商用 SaaS | 検出率公称 99%+、SDK 充実、Runtime 防御も兼用 | 月額課金 | Runtime Guardrail と診断兼用 |
| HiddenLayer AISec | 商用 | モデル抽出・回避攻撃・Supply Chain | 価格レンジ広い | 製造業・金融の高セキュリティ要件 |
| Robust Intelligence AI Firewall | 商用 | レッドチーム + Runtime + コンプラ自動評価 | 大企業向け価格 | 社外公開 LLM の総合防御 |
| LLM Guard | OSS(Protect AI) | Lakera 代替の OSS、PII / Toxicity 検知 | カスタムベクターは弱い | コスト圧縮した内製防御 |
| PromptArmor | 商用 | プロンプトリーク検出に特化 | 機能特化 | システムプロンプト保護 |
H2 6. 運用フェーズの定期診断サイクル
レッドチームは「1 回やって終わり」では効果が逓減する。下記サイクルで継続実施することを推奨する。
6-1. 四半期サイクル(必須)
- 全プロブを再実行(Garak + PyRIT)
- システムプロンプト変更・新規ツール追加・新 RAG ソース投入の差分を確認
- 業務影響を伴った発見は 6 週以内に修正
6-2. 新モデルリリース時(必須)
- Anthropic / OpenAI / Google の新モデルにスイッチする際は耐性が一時的に低下することが多い
- 切替前にステージング環境でフルレッドチーム
- ジェイルブレイク耐性の差分を経営層にレポート
6-3. インシデント後(必須)
- 攻撃成立した場合は 72 時間以内に同種攻撃の網羅テストを実施
- 修正後にもう一度 Phase 3〜6 を回す
- 再発防止策を 8 層防御のどこに追加したか文書化
6-4. 年次サードパーティ監査(推奨)
- 外部ホワイトハッカー or AI セキュリティ専門ベンダーに年 1 回依頼
- ISMS / ISO 42001(AI マネジメントシステム、2023 年制定)の認証取得を進める企業はとくに必須
H2 7. 中堅企業向け費用感
中堅 300〜3,000 名の企業で実際にレッドチームを回す場合の予算レンジを提示する(公開料金・複数ベンダーヒアリング・OSS 維持工数を統合した実勢値)。
7-1. 自社実施(OSS 中心)
- 初期構築:100〜300 万円
- 内訳:Garak / PyRIT 整備、CI 統合、Guardrails AI / LLM Guard 導入、初回フルテスト
- 担当:AI セキュリティ 2 名 × 2〜3 か月、外部技術顧問月 30〜50 万
7-2. 外部委託(年 1 回フルレッドチーム)
- 500〜2,000 万円 / 年
- 内訳:スコープ定義 + 自動 + 手動 + 修正提案 + 報告書
- 国内ベンダー:MBSD(三井物産セキュアディレクション)、GMO サイバーセキュリティ byイエラエ、SecureBrain、Citadel AI など
- 海外(英語可なら):Trail of Bits、HiddenLayer、Robust Intelligence
7-3. 継続 SaaS 型 Runtime Guardrail
- 月額 30〜150 万円(ユーザー数・トラフィック量で変動)
- Lakera Guard / Robust Intelligence / Protect AI で年間契約が一般的
- LLM API コストの 5〜15% 程度を予算化するのが実務的目安
7-4. 合計レンジ
- 中堅企業の 1 年目総予算:800〜2,500 万円
- 2 年目以降:年 500〜1,500 万円(初期構築費が落ちる)
- ROI 評価軸:①インシデント未然防止額(ブランド毀損・賠償・ダウンタイム)②監査・取引先要請対応コスト削減
H2 8. FAQ
Q1. 内製レッドチームのスキル要件は?
A. 最低 2 名で「①Web セキュリティ素養(Burp Suite / OWASP ASVS 経験)+ ②Python・LLM API・RAG 実装経験 + ③英語ドキュメント読解」が成立すれば運用可能。新規採用は難しいので、社内 SOC・脆弱性診断チームから AI 担当を兼務化するパスが現実的。
Q2. 外部委託ベンダーの選定軸は?
A. ①国内 LLM 案件の実績本数(最低 5 件)②OWASP LLM Top 10 と MITRE ATLAS の両方を提案書で言及できるか ③自動 + 手動の比率(自動だけのベンダーは要注意)④報告書サンプル開示可能か、の 4 軸を必ず確認する。
Q3. 100% 防御は可能か?
A. 不可能。NIST AI RMF・OWASP・Anthropic RSP のいずれも「リスク低減(risk reduction)」が目標であり、ゼロ化は到達不可能と明記している。経営層には「インシデント発生確率を 1/10〜1/100 に引き下げ、発生時の被害を最小化する」表現で説明する。
Q4. LLM ベンダー側(Anthropic / OpenAI 等)の責任範囲は?
A. ベンダー側は ①モデル安全性(Constitutional AI / RLHF)②利用規約での禁止事項定義 ③サブプロセッサ / データ保管の SOC 2 等の取得 までを責任範囲とする。アプリケーション層(プロンプト・RAG・エージェント)の脆弱性は基本的に自社責任。共同責任モデル(Shared Responsibility Model)が AWS / Azure と同じ構造。
Q5. Vibe Coding(自然言語で実装する開発)プロジェクトでの追加注意点は?
A. 開発時に LLM に渡す指示文に Secret や認証情報が混入しやすく、エージェント実装時は権限が広すぎがち。コードレビューと別軸で「プロンプト & エージェント設定レビュー」を必ず PR 必須項目化する。
Q6. 規制業種(金融 / 医療 / 行政)固有の論点は?
A. 金融は金融庁 AI ディスカッションペーパー(2024)と FISC AI ガイドライン、医療は厚労省「医療 DX 工程表」と PHI 漏えい防止、行政は政府情報システムにおける AI ガイドライン(デジタル庁、2024)への適合を必須要件としてスコープに追加する。
Q7. 発見した脆弱性をベンダーに通報する際のプロトコルは?
A. Anthropic は HackerOne 経由、OpenAI は Bugcrowd 経由、Google は VRP(Vulnerability Reward Program)でいずれも報奨金プログラムが整備されている。コーディネーティドディスクロージャー(90 日猶予)を守ること。
Q8. AI 推進部署とセキュリティ部署の役割分担は?
A. RACI で明文化する。Responsible:AI 推進が実装、セキュリティが診断 / Accountable:CISO / Consulted:法務・監査 / Informed:経営層。ISO 42001 取得を視野に入れる場合はこの分担表が監査エビデンスになる。
中盤 CTA
GXO では、OWASP LLM Top 10 と NIST AI RMF を踏まえた 無料 LLM セキュリティ診断(簡易レッドチーム) を提供している。8 層防御スタックの現状評価レポート(A4 約 12 ページ)と、Phase 1 スコープ定義の壁打ちをセットで実施する。
H2 9. 関連記事
- プロンプトインジェクション対策 企業向け2026|AIアシスタント・エージェントの脆弱性と防御設計
- 総務省 AI セキュリティガイドライン|多層防御の作り方
- Microsoft Agent Governance Toolkit|AI エージェントの権限統制
- AI プラットフォーム脆弱性の最新動向(Langflow / LangChain / LightLLM)
- Semantic Kernel 脆弱性 CVE-2026-26030 と AI フレームワークのリスク
末尾 CTA
社内に LLM を本番導入済み・あるいは本番投入が今期内に控えている企業向けに、GXO は レッドチーム設計から 8 層防御の実装、Runtime Guardrail 選定、運用サイクル整備まで の一気通貫支援を提供している。Phase 1 スコープ定義の無料 1 時間ワークショップから入る形が一般的だ。
LLM レッドチーム / AI セキュリティ実装を相談する(無料 1 時間ワークショップから)
参考資料
- OWASP Top 10 for Large Language Model Applications(2025 改訂版) https://genai.owasp.org/llm-top-10/
- NIST AI Risk Management Framework(AI RMF 1.0、2023) https://www.nist.gov/itl/ai-risk-management-framework
- MITRE ATLAS(Adversarial Threat Landscape for AI Systems) https://atlas.mitre.org/
- Anthropic Responsible Scaling Policy https://www.anthropic.com/news/anthropics-responsible-scaling-policy
- Anthropic Many-shot Jailbreaking 研究公開(2024) https://www.anthropic.com/research/many-shot-jailbreaking
- OpenAI Red Teaming Network https://openai.com/index/red-teaming-network/
- Microsoft Crescendo マルチターン攻撃公開(2024)
- Greshake et al., "Not what you've signed up for: Compromising Real-World LLM-Integrated Applications with Indirect Prompt Injection"(2023)
- Carlini et al., "Extracting Training Data from Large Language Models"(USENIX Security 2021)
- Garak GitHub https://github.com/leondz/garak
- Microsoft PyRIT GitHub https://github.com/Azure/PyRIT
- Lakera Guard https://www.lakera.ai/
- Protect AI LLM Guard https://github.com/protectai/llm-guard
- Google Secure AI Framework(SAIF, 2023) https://safety.google/cybersecurity-advancements/saif/
- ISO/IEC 42001:2023 AI マネジメントシステム https://www.iso.org/standard/81230.html
- 金融庁「AI ディスカッションペーパー」(2024)
- デジタル庁「政府情報システムにおける AI ガイドライン」(2024)