この記事は、AI活用推進を任された情シス責任者・CFO・DX推進担当が、「AIのコストが部門別に把握できない」「月末に請求が予算を超えていた」という問題を防ぐための実装判断に役立てることを目的としています。エージェント単体の安全テストはクラスタ姉妹記事の AIエージェントのポリシー評価と回帰テスト を、エージェント開発体制の整備は AIエージェント工場を安全に運用する体制 を参照してください。
2026年のLLM料金と「費用が見えにくくなる」理由
LLM APIのトークン単価はこの数年で大きく下がってきました(FinOps Foundationの解説によれば、用途あたりの単価低下が続いています。具体的な下落率は提供事業者・モデルによって幅があります)。しかし費用総額は「単価×消費量」であり、単価が下がるほどエージェントの利用量が増えて総額は膨らむ構造があります。実際、FinOps Foundationの2026年レポートはAI・データ基盤を企業支出の最も急成長するカテゴリと位置づけ、トークン課金が従来の予算管理では扱いにくいコスト変動要因になっていると指摘しています。
2026年6月時点の主要モデル実勢価格(入力/出力・100万トークンあたり)は次のとおりです。
| モデル | 入力 | 出力 | 特記 |
|---|---|---|---|
| OpenAI GPT-4.1 | $2 | $8 | バッチ API で50%オフ |
| OpenAI GPT-4.1 Mini | $0.40 | $1.60 | 軽量タスク向け |
| OpenAI o3(推論) | $2 | $8 | 複雑な推論に特化 |
| Anthropic Claude Sonnet 4.6 | $3 | $15 | 100万トークンコンテキスト |
| Anthropic Claude Haiku 4.5 | $1 | $5 | 高頻度・軽量タスク向け |
(出典:各社公式APIページ・2026年6月時点)
チャットボットが1回の応答に平均500〜2,000トークンを消費するのに対し、AIエージェントは複数ステップの計画・ツール呼び出し・再試行を経るため、1タスクあたり5,000〜30,000トークンになることが一般的です。月100件のタスクでもモデル選択と設計次第で月額費用が10倍以上変わります。
費用が見えにくくなる3つの構造的原因
1. 部署ごとにAPIキーを発行している
部署・用途・モデルごとにAPIキーが増えると、費用を誰の予算に帰属させるかが分からなくなります。支払いは一括請求なのに、内訳は各部署が把握していないケースが典型です。
2. エージェントの再試行コストを見積もりに入れていない
エージェントは不確実な状況で自律的に再試行します。「1タスク=1回のAPI呼び出し」という前提で見積もると、実際のコストが2〜5倍になることがあります。再試行上限と中断条件をコードレベルで設定していない場合、無限ループに近い挙動で費用が跳ね上がります。
3. 会計締め後にしかコストが見えない
クラウドや SaaS の費用は通常、翌月の請求書で確認します。AIエージェントが量産フェーズに入ると、発見が1か月遅れるだけで予算超過が部門予算を圧迫します。
部門別コスト統制の4層設計
| 層 | 手段 | 設定例 |
|---|---|---|
| 識別 | 部署・用途別にAPIキーまたはタグを発行 | `dept=sales&agent=proposal-draft` |
| 上限 | モデルごと・部署ごとに月次トークン上限を設定 | 営業部:月200万トークン上限 |
| アラート | 上限の70%到達時と90%到達時に通知 | Slack通知またはメール |
| 停止 | 上限到達時にAPIゲートウェイでリクエストをブロック | 承認者が解除するまで停止 |
LLMゲートウェイ(LiteLLM・PortKey・Heliconeなど)を挟むことで、従業員・アプリ・エージェントのIDに基づいてレート制限・トークンクォータ・モデル制限・予算ポリシーを一元管理できます。Finout・CloudZero・VantageなどのAI FinOpsツールはOpenAIとAnthropicのトークン利用量をチームまたは製品単位に配賦する機能を持ちます。
部門別トークン予算シートの作り方
ステップ1:用途と頻度を洗い出す
対象業務(例:提案書ドラフト・社内FAQ・コード生成)ごとに、1タスクあたりの平均トークン数、月次タスク件数、使用モデルを記入します。
ステップ2:モデル別コストを試算する
用途ごとに入力・出力の比率が異なります(提案書生成は出力多、FAQ照会は入力多)。実際のプロンプトで10〜20件のサンプルを取り、平均トークン数を実測します。
ステップ3:バッファと上限を設定する
月次見積もりに対して20%のバッファを乗せた値を「ソフト上限(アラート閾値)」、見積もりの150%を「ハード上限(自動停止)」として設定します。
| 業務 | 1タスクトークン(入力+出力) | 月次件数 | モデル | 月次見積コスト |
|---|---|---|---|---|
| 提案書ドラフト | 8,000 | 100件 | GPT-4.1 | 約$5 |
| 社内FAQ | 2,000 | 1,000件 | Haiku 4.5 | 約$4 |
| コードレビュー | 5,000 | 200件 | Sonnet 4.6 | 約$7 |
(モデル単価は2026年6月時点の公表値を使用。入力・出力の比率を業務ごとに仮定した概算であり、実際のプロンプト長で変わります)
ステップ4:コスト対価値の測定指標を定める
費用だけを追うと削減圧力しか生まれません。「提案書1件あたりの作成時間削減(時間×人件費)」と「月次トークンコスト」を並列で見て、単価あたりの価値が改善しているかを判断します。
| 指標 | 計算方法 | 判断の使い方 |
|---|---|---|
| タスクあたりコスト | 月次トークン費用 ÷ 月次タスク件数 | モデル変更・プロンプト最適化の効果測定 |
| コスト削減換算額 | 削減工数(時間)× 平均人件費単価 | 稟議時のROI計算 |
| 月次費用成長率 | 当月費用 ÷ 前月費用 | 予算超過前に上限見直しのトリガーとする |
モデル選択と設計でコストを下げる4つのパターン
AIエージェントのコスト削減は、利用量を制限するだけが方法ではありません。設計の工夫でも大きく変わります。
- モデルの使い分け:複雑な推論が不要なタスク(分類・要約の定型)は軽量モデル(Haiku 4.5・GPT-4.1 Mini)に切り替えます。重いモデルの出番を推論が必要な判断フェーズに絞ると、全体の費用が30〜60%下がることがあります。
- プロンプトキャッシュの活用:システムプロンプトが長い場合、キャッシュ有効化で入力コストを最大90%削減できます(Anthropicの場合)。同じ社内規程文書を毎回送るRAGでは特に効果が大きいです。
- 再試行上限の設定:エージェントが判断に迷うと自律的に再試行します。再試行上限(例:最大3回)と中断条件をコードに明記し、無限ループによる費用膨張を防ぎます。
- 非同期バッチ処理:リアルタイム性が不要なタスク(夜間の日報要約・週次レポート生成)はバッチAPIを使うと50%オフになります(OpenAIの場合)。
GXOはどう支援するか
GXOでは、LLMゲートウェイの選定と設定、部門別タグ体系の設計、トークン予算シートの作成、月次コストレビューの仕組みづくりを支援します。初回相談では、現在のAPI利用部署数・使用モデル・月次概算費用・請求管理の現状を確認し、費用の可視化から始められる最小構成を提案します。AIシステムの見積もりの読み方と組み合わせて、稟議資料に落とせる形でお手伝いします。
よくある質問
Q1. トークン費用の予算管理はどの部署が主導すべきですか
情シスが技術的な上限設定を担い、各業務部門が利用計画と費用帰属を承認する形が現実的です。CFOまたは財務部門は月次レポートを受け取り、ROI判断に使います。FinOps担当者がいる場合はそこが統括します。
Q2. 無料プランやトライアルでも予算管理は必要ですか
開発・テスト段階では不要なことが多いですが、本番利用が始まったタイミング、または月次費用が1万円を超えたタイミングで上限設定を入れることを推奨します。早めに仕組みを作る方が、後から直すより工数が少なくて済みます。
Q3. キャッシュやバッチAPIで費用はどのくらい削減できますか
プロンプトキャッシュを使うと入力コストをAnthropicで最大90%、OpenAIで最大75%削減できます。バッチAPIを使うとOpenAIは全モデル50%オフになります。頻繁に繰り返す同一プロンプトが多い用途(FAQや同じ社内文書への参照)では組み合わせると効果が大きいです。
参考情報
- FinOps Foundation「FinOps for AI Overview」:https://www.finops.org/wg/finops-for-ai-overview/
- Gartner「Gartner Identifies Three Pillars for Deriving Value from AI」(2026年3月9日・財務ガードレール導入は44%):https://www.gartner.com/en/newsroom/press-releases/2026-03-09-gartner-identifies-three-pillars-for-deriving-value-from-ai
- OpenAI APIプライシング(2026年6月時点):https://openai.com/api/pricing
- Anthropic APIプライシング(2026年6月時点):https://claude.com/pricing
AIエージェントのコスト可視化と部門別予算設計を相談しませんか
GXOでは、LLMゲートウェイ選定・部門別タグ設計・トークン上限設定・月次コストレビュー体制の構築を、稟議資料と見積に落とせる形で支援します。