経営・DX

「tokenmaxxing」の終わり：トークン消費からvaluemaxxing（価値最大化）へ｜AIコスト再設計の実務

2026年6月28日15分で読める

QUICK CHECK

本文を読みながら、自社で進めるべきか、相談前に何を整理するかを確認できます。

5分で自社の状況を診断する

GXO COLUMN

経営・DX

結論：評価すべきはトークン消費量ではなく「1推論あたりの価値」である

2026年6月26日、CNBCが「OpenAIとAnthropicは、利用企業が"tokenmaxxing"から効率へとシフトする新しい現実に直面している」と報じました。要点はシンプルです。かつて企業は、開発者やチームにフロンティアモデルを"できるだけ多く使わせる"ことを奨励していた。いまは、明確なROIと厳格なコスト管理、そしてより安価な選択肢を求め始めている。

経営層・CFO・FinOps・情シスに向けた本記事の結論は次の一文に集約できます。AI活用の評価軸を「どれだけトークンを使ったか」から「1推論あたりどれだけの価値を生んだか」に置き換えること。 これができていない組織は、単価が下がっても請求総額が膨らみ続ける構造から抜け出せません。

自社のAI予算が想定を超えて膨らんでいる、PoCは増えたが費用対効果を説明できない——そう感じる方は、まずAIアセスメント（現状診断）で、どこにムダな推論が積み上がっているかを棚卸しすることをおすすめします。投資判断の前段としてはROI診断が起点になります。

INSTANT ESTIMATE

計算式より、60秒で概算を出しませんか？

システム種別・規模・連携先を選ぶだけで、開発費用・期間・月額運用費の概算をその場で表示します。

60秒で見積もる

何が起きているのか：tokenmaxxingという計測のゆがみ

「tokenmaxxing」とは、AI支援開発が広がる中で生まれた風潮を指す言葉です。CNBCの整理によれば、これはAI支援コーディングでコストが膨れ上がった時期に、企業が開発者に対し「結果を気にせず、とにかくAIを多く使うこと」を奨励し、AI利用量のリーダーボード（社内ランキング）まで生まれた状態を指します。

ここで起きていたのは、本質的には計測のゆがみです。トークン消費量・コンテキスト長・呼び出し回数といった「投入量（インプット）」を、あたかも成果（アウトプット）の代理指標であるかのように扱ってしまった。使えば使うほど先進的だ、という前提が組織の習慣として定着しました。

しかし2026年に入り、企業はこの前提を見直し始めています。CNBCが挙げた具体例は示唆的です。

Uber は、AI利用ツールに対して月額1,500ドルから始まる利用枠（spending tiers）を設定しました。これは同社が年間のAI予算をわずか4か月で使い切った後の措置です。
AIスタートアップ Lindy のCEO（Flo Crivello氏）は、自社のトラフィックをAnthropicのClaudeから100%、より安価なオープンウェイト代替であるDeepSeekへ切り替えたと述べています。
D.A. Davidsonのアナリストである Gil Luria氏 は、「最大級のエンタープライズ顧客の一部は、制御不能なトークン支出を制限し始める可能性がある」と指摘しています。

供給側も動いています。OpenAIは管理者がワークスペース横断でクレジット消費を可視化し、利用上限を設定できる分析機能を投入。Anthropicも組織単位・個人単位で分析を見て支出上限を設けられる管理機能を提供し始めました。Microsoft・Amazon・Googleも、効率を重視した提供形態を打ち出しています。

押さえるべき1点：単価が下がっても、使う量が増えれば総額は増える。だからこそ「量」ではなく「価値」を計測対象にする発想が要る。

なぜ自社に関係あるのか：単価下落と請求増大の同時進行

per-token（トークン単価）は競争と技術進歩で下落傾向にあります。直感的には「安くなったのだから楽になるはず」です。ところが現実は逆方向に動きます。単価が下がるほど"使ってもいい"という心理的ハードルが下がり、エージェント型AIの常時稼働や多段の推論連鎖によって呼び出し回数が増え、結果として請求総額は膨らむ——この構造がエンタープライズで顕在化しています。

特に推論（inference）コストは、いったん本番運用に乗せると継続的に発生し、AI予算の中で無視できない比重を占めるようになります。実験的なチャットボットから、メールやログ、業務システムを常時監視するエージェントへと用途が広がるほど、計算資源は"使い切る"のではなく"流れ続ける"性質に変わります。財務部門がコスト削減に動くのは当然の帰結です。

ここでGXOとして強調したい独自の論点は次の点です。コスト削減の打ち手（後述）に飛びつく前に、「自社のこのユースケースにおける1推論あたりの価値とは何か」を先に定義しなければ、最適化は"安く失敗する"だけに終わる。モデルルーティングや蒸留は単価を下げますが、そもそも不要な推論や、成果につながらない呼び出しを安く大量に回しても、価値は生まれません。tokenmaxxingが「投入量の計測ミス」だったのと同じ過ちを、コスト側で繰り返すことになります。valuemaxxing（価値最大化）とは、安いモデルに乗り換えることではなく、価値単位（誰の、どの判断や作業を、どれだけ速く・正確にしたか）を先に決めてから、その単位あたりのコストを下げる営みだと整理すべきです。

FREE DOWNLOAD

AI導入チェックリスト（PoC 失敗要因 10項目）

情シス部門が PoC 前に押さえるべき失敗要因を10項目に整理した無料チェックリスト。

30分で相談するチェックリストをDL

対比でみる：tokenmaxxing と valuemaxxing

横にスクロールして確認できます

観点	tokenmaxxing（消費量重視）	valuemaxxing（価値重視）
評価指標	トークン消費量・呼び出し回数・社内利用ランキング	1推論あたりの成果（処理した判断・作業の価値）
前提	使うほど先進的・成果が出ているはず	使うこと自体は成果ではない
モデル選定	常に最上位のフロンティアモデル	用途に応じて最小十分なモデルを選ぶ
コスト構造	単価が下がっても総額は増えがち	価値単位あたりのコストを継続的に下げる
財務の見え方	予算超過が事後に判明する	利用枠・上限・内訳で事前に統制する
失敗の典型	「とりあえずAIに投げる」運用の常態化	価値定義を飛ばして安いモデルに乗り換えるだけ

この表の右側に寄せていくには、技術的な打ち手と、財務・運用のガバナンスの両輪が要ります。技術側の内製化や実装の伴走はAI・DX実装の伴走支援（FDE+）、業務システム全体の作り込みはDX・システム開発が受け皿になります。常時監視エージェントのように「データが流れ続ける」用途では、データ基盤の設計（データプラットフォーム）でログとコストの可視化を土台から整えることが効きます。

「価値単位」を具体化する：問い合わせ対応を例に

抽象論で終わらせないために、社内の問い合わせ対応にAIを使うケースで「価値単位」をどう置くかを考えてみます。tokenmaxxing的な発想では、指標は「AIが処理した問い合わせ件数」や「消費トークン量」になりがちです。しかしこの指標は、AIが的外れな回答を量産しても、人手による差し戻しが増えても、数字としては"伸びて"見えてしまいます。投入量を測っているからです。

valuemaxxing的に置き直すと、価値単位は「人手を介さずに一次解決できた問い合わせ1件」になります。すると評価の関心は自然に変わります。一次解決に至らなかった推論はコストだけが残るムダであり、回答品質を担保できる範囲では安価なモデルで足りる、難しい例外だけ上位モデルへ回せばよい——という判断が、件数や消費量ではなく「解決1件あたりのコスト」を基準に下せるようになります。

重要なのは、この価値単位の置き方によって、後段の打ち手（ルーティング・キャッシュ・蒸留）の効果がはじめて測定可能になる点です。価値単位を決めずに「とにかく安いモデルへ」と動くと、一次解決率が落ちても気づけません。コスト最適化は、価値単位の定義という"ものさし"があって初めて、改善か改悪かを判定できるのです。これはどのユースケースにも共通する設計順序です。

コスト削減チェックリスト：価値単位あたりで効かせる打ち手

CNBCの報道が示す方向性（効率・コスト管理・安価な代替）と、推論コストの構造から導ける実務的な打ち手を、優先順位とともに整理します。上から順に着手するほど、投資対効果が読みやすくなります。

価値単位を定義する。 各ユースケースで「1回の推論が何を完了させれば成功か」を言語化する。これがないと以降の最適化は評価できない。
モデルルーティングを入れる。 すべてを最上位モデルに投げず、難易度に応じて最小十分なモデルへ振り分ける。簡単な分類・要約に高価な推論モデルを使わない。
不要な呼び出しを削る。 リトライ乱発、冗長なエージェント連鎖、無意味なポーリングを棚卸しする。常時稼働の監視系は「本当に常時必要か」を問い直す。
キャッシュを活用する。 同一・類似の問い合わせや繰り返し参照される文脈は、再推論せずキャッシュで返す。プロンプトキャッシュやレスポンス再利用を設計に組み込む。
プロンプトとコンテキストを最適化する。 不要に長いコンテキスト投入はそのまま単価に乗る。必要十分な情報設計で入力トークンを絞る。
蒸留・小型モデルを検討する。 反復する定型タスクは、大型モデルの出力で小型モデルを訓練し、本番は安価なモデルで回す。
利用枠と上限を設定する。 チーム・個人単位で支出上限と可視化を入れる。OpenAI・Anthropicが提供し始めた管理機能を活用し、予算超過を事後でなく事前に止める。
ベンダー分散の余地を残す。 特定ベンダーへの全面依存を避け、安価なオープンウェイト代替への切り替え可能性を設計段階で確保する。ただし切り替えは品質・セキュリティ・運用負荷とのトレードオフで判断する。

これらは「やれば必ず安くなる」リストではありません。価値単位の定義（先頭の項目）を飛ばすと、安く・速く・大量に成果のない推論を回すだけになります。打ち手の選定と優先順位づけそのものを外部の目で点検したい場合は、AIアセスメントで現状のコスト構造とムダの所在を診断するところから始めるのが近道です。

よくある誤解

「単価が下がったからコストは下がる」 → 下がるのは単価であって総額ではありません。利用量の増加が単価下落を上回れば、請求は増えます。
「安いモデルに全面移行すれば解決する」 → 価値単位の定義がないまま乗り換えると、品質低下で手戻りが増え、かえって総コストが上がることがあります。
「利用枠を絞れば効率化だ」 → 上限設定は暴走を止める統制であって、価値最大化そのものではありません。統制と価値設計はセットで考えます。

FAQ

Q. tokenmaxxingとvaluemaxxingの違いを一言で言うと？ A. 前者は「どれだけトークンを使ったか」を評価する発想、後者は「1推論あたりどれだけ価値を生んだか」を評価する発想です。計測対象が投入量か成果かが本質的な違いです。

Q. 推論コストはなぜ予算を圧迫するのですか？ A. 実験段階のチャットボットと違い、本番運用やエージェントの常時稼働では計算資源が継続的に消費されます。単価が下がっても呼び出し回数が増えるため、総額が膨らみやすい構造です。

Q. まず何から手をつけるべきですか？ A. 各ユースケースの「価値単位」を定義し、現状のコスト内訳を可視化することです。打ち手（ルーティング・キャッシュ・蒸留など）はその後で効果を測れるようになります。

Q. 安価な海外オープンウェイトモデルへの切り替えは推奨されますか？ A. コスト面の選択肢ではありますが、品質・セキュリティ・データの取り扱い・運用負荷を含めて評価すべきです。コストだけで判断せず、価値単位あたりの総合的な妥当性で決めることをおすすめします。

GXOに相談すべきタイミング

次のいずれかに心当たりがあれば、コストが構造的に膨らむ前の見直しをおすすめします。

AI予算が想定より早く消化されており、何にいくら使っているか内訳を即答できない
PoCや導入は進んだが、費用対効果を経営や財務に説明できない
すべての処理を最上位モデルに投げており、用途別の使い分けができていない
エージェントの常時稼働や多段連鎖で、推論回数が見えないまま増えている
安価な代替への切り替えを検討したいが、品質・セキュリティ面の判断基準がない

現状のコスト構造とムダな推論の所在を棚卸しするならAIアセスメント、投資判断の前段の効果試算はROI診断、実装まで伴走するならFDE+やDX・システム開発、常時稼働系のログとコスト可視化の土台づくりはデータプラットフォームが起点になります。自社のAI活用がどの段階にあるかを把握したい場合はAI導入レディネス診断もご利用ください。

出典

CNBC「OpenAI and Anthropic face new AI reality as users shift from 'tokenmaxxing' to efficiency」（2026年6月26日）: https://www.cnbc.com/2026/06/26/openai-anthropic-new-ai-spending-reality-as-users-shift-to-efficiency.html

※本記事中の固有数値（Uberの月額1,500ドルの利用枠と年間予算を4か月で消化、LindyのDeepSeekへの100%移行、D.A. Davidson／Gil Luria氏のコメント、OpenAI・Anthropicの管理機能）は上記CNBC報道に基づきます。per-token単価の下落幅、推論がAI予算に占める比率、平均AI予算額などの具体的なパーセンテージ・金額は、一次報道で確認できる数値ではないため本文では断定せず、傾向として定性的に記述しています。