RAG・AI検索

マルチモデル・ルーティングでAIコストを半減する設計｜DeepSeek V4が迫る『build vs buy』再考

2026年6月28日15分で読める

QUICK CHECK

本文を読みながら、自社で進めるべきか、相談前に何を整理するかを確認できます。

5分で自社の状況を診断する

GXO COLUMN

AI・機械学習

結論：「1モデル全任せ」をやめ、難易度でモデル階層を振り分ける

生成AIの運用コストが想定を超えて膨らむとき、原因の多くは利用量そのものではなく構成にある。FAQの言い換え、定型文の整形、分類といった軽い処理にまで、最も高価なフロンティアモデルを一律に呼び出しているケースが少なくない。これを是正する設計が、タスクの難易度を見て安価・中位・フロンティアの各モデル階層へ自動的に振り分けるマルチモデル・ルーティングである。

ルーティングの効果は研究でも裏づけられている。UC Berkeley、Anyscale、CanvaらによるRouteLLMは、学習済みルーターが強モデルの呼び出しをわずか14%に抑えながらGPT-4品質の95%を維持し、ベンチマークによっては85%のコスト削減を達成したと報告している。あらゆる業務でこの数字が再現するわけではないが、「全問を強モデルに投げる」前提を崩せば、品質をほぼ保ったまま支出を大きく圧縮できる余地があることを示している。

そして2026年、この設計に新しい選択肢を加えたのが、MITライセンスでウェイトが公開された低価格モデルの台頭だ。代表例であるDeepSeek V4は、公式APIの安さと自己ホスト可能性の両方を備え、「作るか買うか(build vs buy)」の判断軸そのものを動かしている。

AI ASSESSMENT

PoC の前に「そもそも使えるか」を30分で見極めませんか？

対象業務、データ、権限、ログ、運用責任を確認し、PoC前に失敗要因と本番化条件を整理します。

30分壁打ちを予約

なぜ今「マルチモデル・ルーティング」なのか

理由は2つある。1つは、モデル間の価格差が業務に効くほど大きくなったこと。もう1つは、安価モデルの実力が「軽いタスクなら強モデルと区別がつかない」水準に届いたことだ。

DeepSeekの公式API価格を見ると、同じ提供元の中でも階層差は明確だ。

横にスクロールして確認できます

モデル	入力(キャッシュミス/100万トークン)	出力(100万トークン)
deepseek-v4-flash	$0.14	$0.28
deepseek-v4-pro	$0.435	$0.87

出力単価で見ると、軽量のFlashと上位のProでは約3倍の開きがある。つまり「どのタスクをどの階層に流すか」という設計判断が、そのままコスト構造を決める。高価なモデルを使わないのではなく、高価なモデルを使う場面を絞る——これがルーティングの本質である。

独自分析：価格差からの逆算

検証済みの公式価格を使い、振り分けの効果を逆算してみる。仮に全リクエストの80%を軽量階層(V4-Flash相当)で、残り20%を上位階層(V4-Pro相当)で処理できる業務があるとする。出力単価の加重平均は「0.8×$0.28＋0.2×$0.87＝$0.398/100万トークン」となり、全件を上位階層に投げた場合の$0.87と比べて約54%、つまりおよそ半分まで下がる。入力側も同じ比率で計算すると「0.8×$0.14＋0.2×$0.435＝$0.199」で、やはり$0.435比で約54%減になる。

これはあくまで公式価格から導いた説明用のモデルケースであり、実際の削減率は「軽量階層で正しく処理できるタスクの割合」に強く依存する。だが重要なのは、削減幅を決めるのがモデルの値引きではなく自社業務のタスク分布とルーティング精度だという点だ。コスト最適化は交渉ではなく設計の問題である、と言い換えてもよい。

ルーティング構成：用途×モデル階層の設計表

ルーティングは「賢いルーターを1つ置く」だけでは完成しない。どの用途をどの階層に割り当てるか、誤判定時にどう昇格・フォールバックさせるかをあらかじめ決めておく必要がある。典型的な割り当ては次のように整理できる。

横にスクロールして確認できます

用途・タスク	推奨モデル階層	設計上のポイント
定型分類・タグ付け・要約の下書き	安価(軽量)階層	大量・低リスク。失敗してもコストが小さい。まずここへ寄せる
社内FAQ応答・問い合わせ一次対応	安価〜中位階層	RAGで根拠を渡せば軽量モデルでも実用域。確信度が低い時だけ昇格
文書ドラフト生成・コード補完	中位階層	品質と速度のバランス重視。レビュー前提なら過剰投資を避ける
複雑な推論・設計判断・難解なコード生成	フロンティア(上位)階層	量は少ないが品質が事業価値に直結。ここはケチらない
機微データ・規制対象の処理	自己ホスト or 国内/域内ホスト階層	コストより前にデータ所在で階層を決める(後述)

設計の勘所は3つある。第一に、デフォルトを安価階層に置き、必要な時だけ昇格させること。逆向き(上位を既定にして下げる)にすると削減効果が出にくい。第二に、ルーターの確信度が低い場合の昇格条件と、上位モデルが落ちた時のフォールバック先を明文化すること。第三に、振り分けの判断ログを残し、誤ルーティングを継続的に補正することだ。RAGを併用すると軽量モデルでも根拠に基づいた回答ができるため、ルーティングとRAG基盤は組み合わせて設計すると効果が高い。社内文書を扱う一次対応の自動化は、AIエージェントの構築と一体で検討するのが現実的だ。

FREE DOWNLOAD

AI導入チェックリスト（PoC 失敗要因 10項目）

情シス部門が PoC 前に押さえるべき失敗要因を10項目に整理した無料チェックリスト。

30分で相談するチェックリストをDL

build vs buy 再考：MITウェイトが判断軸を増やした

従来「作るか買うか」は、自前でモデルを訓練するか、商用APIを契約するかの二択に近かった。だがMITライセンスでウェイトが公開されたモデルの登場で、選択肢は三層になった。

買う(API)：提供元の公式APIを呼ぶ。最も手軽だが、データの所在は提供元のサーバ条件に従う。
借りた重みを自社で動かす(self-host)：公開ウェイトを自社環境やクラウドで推論する。インフラ運用は増えるが、データを外に出さずに済む。
借りた重みを第三者の国内/域内基盤で動かす：同じウェイトを、データ所在を選べる推論事業者経由で使う。自己ホストの運用負荷を避けつつ、後述のデータ越境リスクを回避しうる。

DeepSeek V4はこの三層すべてを取りうる点に新しさがある。報道・公開情報によれば、V4はウェイトとコードがMITライセンスで公開され、Hugging Face等から入手して商用利用・改変・再配布が可能とされる(ライセンス条件は導入前に必ず原典で確認すること)。MITは制約の少ないライセンスであり、「モデルの能力」と「データの通り道」を切り離せる——これがbuild vs buyを動かした核心だ。能力は買い、通り道は自社で選ぶ、という構成が現実的な選択肢になった。

規制業種のデータ主権：安さの前にデータ所在を決める

ここで金融・医療・公共など、データ主権が論点になる業種は順序を入れ替える必要がある。コストでモデル階層を選ぶ前に、そのデータをどこで処理してよいかで階層を決めるべきだ。

一般に知られた事実として、DeepSeekの公式ホスティング(公式アプリ・公式API)を通じて入力された個人データは中国国内で処理・保存され、中国の関連法令の適用を受けるとされ、各国の規制当局がこの点に注意を促してきた経緯がある。これは特定の断定ではなく、提供元の公式ポリシーや規制当局の公表に基づく一般的な論点である。したがって、機微情報や規制対象データを公式API経由でそのまま投入する判断は、法務・セキュリティ部門の承認と契約上の手当てなしには取りにくい。

一方で、ウェイトがMITで公開されている以上、同じモデルの能力を別の通り道で使うことはできる。具体的には、(a)自社環境やコントロール下のクラウドで自己ホストする、(b)データ所在を国内/域内に限定できる推論事業者経由で使う、という回避策だ。モデルの「賢さ」は中国サーバを経由しなくても享受できる、という点が実務上の要となる。

ルーティング設計に落とすと、ルーターの分岐条件に「データ区分」を一段加える。機微・規制データは価格を見るより先に自己ホスト/域内ホスト階層へ固定し、非機微データだけをコスト最適のルーティングに乗せる。この二段構えなら、削減効果とセキュリティ・データ主権を両立できる。どの業務がどのデータ区分に当たるかの棚卸しは、AI活用の現状診断から始めると整理しやすい。

自己ホスト判断チェックリスト

公式APIで済ませるか、ウェイトを自社で動かすかは、次の観点で判断するとぶれにくい。

データ区分：処理するデータに機微情報・規制対象が含まれるか。含むなら自己ホスト/域内ホストを優先する。
ライセンス確認：利用するモデルのライセンス(MIT等)と条件を原典で確認したか。商用利用・改変・再配布の可否を明文化したか。
インフラ規模：上位モデルは巨大で、推論には相応のGPUリソースが要る。運用できる体制と予算があるか。
トラフィック量：自己ホストは固定費型、APIは従量型。損益分岐となる利用量を試算したか。
運用負荷：モデル更新、監視、スケーリング、障害対応を継続できるか。専任の有無は現実的か。
フォールバック：自己ホストが落ちた時に、非機微データだけでも公式/商用APIへ退避する経路を用意したか。
可監査性：どのリクエストがどの階層・どの基盤で処理されたかをログで追えるか。

これらに自信を持って答えられない項目があるなら、いきなり全面自己ホストへ進まず、非機微データのルーティング最適化と、機微データの限定的な自己ホストから段階的に着手するのが安全だ。

FAQ

Q. マルチモデル・ルーティングは必ずコストが下がりますか。 A. 下がる余地は大きいですが、保証はありません。削減幅は「軽量階層で正しく処理できるタスクの割合」とルーターの精度に依存します。本記事の試算は公式価格からの説明用モデルケースであり、自社のタスク分布で検証してから本番化してください。

Q. 安価モデルに振ると品質が落ちませんか。 A. タスクを選べば実用域です。分類・要約下書き・FAQ一次対応などは軽量モデルでも十分なことが多く、確信度が低い時だけ上位へ昇格させる設計で品質を担保します。複雑な推論や設計判断は上位階層に固定してください。

Q. DeepSeekは規制業種でも使えますか。 A. 公式API経由で機微・規制データをそのまま投入する判断は慎重であるべきです。ただしウェイトがMITで公開されているため、自己ホストやデータ所在を選べる基盤経由なら、データ越境リスクを抑えてモデルの能力を使える可能性があります。最終判断は法務・セキュリティ部門の確認を前提にしてください。

Q. RAGとルーティングはどちらを先に入れるべきですか。 A. 並行設計が望ましいです。RAGで根拠を渡せば軽量モデルでも回答精度が上がり、ルーティングの安価階層を広げられます。両者は相互に効果を高めます。

Q. 何から始めればよいですか。 A. まず業務のタスク分布とデータ区分を棚卸しし、非機微・低リスクのタスクを安価階層へ寄せる小さな範囲から始めるのが安全です。設計の妥当性はAIアセスメントで第三者検証するとリスクを抑えられます。

導入をどう進めるか

マルチモデル・ルーティングは、単発のモデル選定ではなく、タスク分布の把握・データ区分の設計・昇格/フォールバックの運用ルール・可監査なログまでを含むアーキテクチャの問題だ。コスト削減とデータ主権の両立は、ルーターの賢さよりも、この設計の丁寧さで決まる。

自社の業務にルーティングがどれだけ効くか、どのデータをどの階層に固定すべきかを見極めたい場合は、現状のAI活用度を測るAI導入レディネス診断や、設計の妥当性を専門家が検証するAIアセスメントから着手できる。実装段階では、AIエージェント開発や生成AI・LLM活用支援、社内文書を扱うエンタープライズRAG構築と組み合わせ、セキュリティ・データ主権を担保した構成を一体で設計することをおすすめする。

出典

DeepSeek｜API Models & Pricing(公式)：https://api-docs.deepseek.com/quick_start/pricing
DeepSeek｜Hugging Face モデル配布ページ(公式・ライセンス条件の確認元)：https://huggingface.co/deepseek-ai
Ong et al., "RouteLLM: Learning to Route LLMs with Preference Data", arXiv:2406.18665(UC Berkeley/Anyscale/Canva, ICLR 2025)：https://arxiv.org/abs/2406.18665
LMSYS Org｜RouteLLM: An Open-Source Framework for Cost-Effective LLM Routing(一次解説)：https://www.lmsys.org/blog/2024-07-01-routellm/
DeepSeekのデータ所在・規制論点は、提供元の公式プライバシーポリシーおよび各国規制当局の公表報道に基づく一般的論点(二次報道を含む。導入判断時は最新の一次情報を確認のこと)。