AI・自動化

AWS Graviton5がGA｜エージェントAI向け設計で最大25%性能向上——「LLMのAPI代」だけがAIコストではない

2026年6月11日16分で読める

QUICK CHECK

本文を読みながら、自社で進めるべきか、相談前に何を整理するかを確認できます。

5分で自社の状況を診断する

GXO COLUMN

AI・自動化

結論：AIエージェント本番化のコスト設計で「実行基盤のCPU選定」を無視できなくなった

AWSは2026年6月10日、独自設計CPUGraviton5を搭載したAmazon EC2のM9gおよびM9gdインスタンスの一般提供（GA）を開始した。AWSの公表によれば、M9gインスタンスのコンピュート性能は前世代比で最大25%向上し、ウェブアプリケーションで35%、機械学習推論で35%、データベースで30%の高速化を実現するという。

注目すべきは位置づけだ。AWSはGraviton5を**「エージェントAIの要求——リアルタイム推論・コード生成・マルチステップのタスクオーケストレーション——のために設計した」**と明言した。エージェントの本番運用では、LLMのAPI呼び出しの裏でツール実行・データ取得・検証といった大量の並行処理が汎用CPU上で走る。AI運用コストの正体はAPI代だけでなく、この「足回り」のインフラ費を含めた総額であり、その足回りの価格性能比が世代交代したのが本質だ。

なおよく語られる「Graviton移行で3〜4割のコスト改善」は、x86からの移行で報告されてきた一般的な知見・ワークロード依存の経験則であり、Graviton5で保証された削減率ではない。自社の削減幅は自社ワークロードでの計測でしか確定しない。

押さえるべき1点：AIエージェントの本番コスト試算に「LLM API費」しか入っていないなら、実行基盤・データ基盤・監視を加えて見直す必要がある。実行基盤・データ基盤・監視まで含めた総コストで、CPU世代と構成の選択肢を比較すること。

RETAIL & EC DX

実店舗とECの在庫分断、1本のOMSで解消しませんか？

POS／自社EC／モールを統合するオムニチャネル基幹。同規模小売・D2Cの概算費用・導入期間・事例をその場で確認できます。

OMS／ヘッドレスECの概算を見る

Graviton5の公表スペックとコストの読み方

AWSが公表している主な数値は次のとおり（いずれもAWS公式発表値）。

横にスクロールして確認できます

項目	公表値
コンピュート性能（M9g）	前世代比最大25%向上
ウェブアプリケーション	35%高速化
機械学習推論	35%高速化
データベース	30%高速化
コア数	1パッケージ192コア
L3キャッシュ	コアあたりGraviton4比2.6倍
GA対象インスタンス	M9g（汎用）/ M9gd（ローカルNVMeストレージ付き）

コスト面では、AWSの発表ページに顧客事例として、SiemensがGraviton4で他のAWSインスタンス比30%のコンピュートコスト削減を公表したことが掲載されている。削減できるかどうかは、ワークロードのCPUバウンド度合いとARM対応状況で決まる。

推論そのものはGPUや外部APIが担っても、エージェントのループを回す側——計画・ツール呼び出し・結果検証・リトライ——はCPU上の処理だ。並列数が増えるほど、この層のコストが効いてくる。

「AIのコスト」を見積もるときに落ちやすい3つの層

AI導入の稟議で「月額=LLM API費」とだけ書かれた試算は、本番運用で必ず破綻する。落ちやすいのは次の3層だ。

第一に実行基盤。オーケストレーション、RAGの検索・埋め込み、ツール実行サンドボックスなどが常時稼働するコンピュート費だ。Graviton5のような世代・アーキテクチャ選択で総額が変わる（参考：AI・クラウドコストの見積もり方）。

第二にデータ基盤。データの収集・整形・ベクトル化・更新のパイプラインは、モデルと独立に費用が発生し続ける。設計はデータ基盤構築サービスの領域だ。

第三に暴走の保険。エージェントは設計を誤るとループ・過剰呼び出しでコストが青天井になる。トークン予算・停止条件・監視はコスト暴走制御チェックリストで詳説している。

なおAWS利用企業は足元の塩漬け資産も見てほしい。2026年6月30日にはAmazon Linux 2のサポートが終了する。新CPUの検討と旧OSの放置が同居している環境は珍しくない。

FREE DOWNLOAD

AI導入チェックリスト（PoC 失敗要因 10項目）

情シス部門が PoC 前に押さえるべき失敗要因を10項目に整理した無料チェックリスト。

30分で相談するチェックリストをDL

Graviton5移行・採用を検討する際の確認手順

ワークロードを「GPU/外部API」と「CPU実行層」に仕分けする——CPU側の月額が見えなければ比較は始まらない。
ARM（aarch64）対応を確認する——商用ミドルウェアやネイティブ依存ライブラリは個別確認が要る。
代表ワークロードでベンチマークを取る——公表値は条件付きの最大値。自社処理での実測が唯一の根拠になる。
単価×必要台数の総額で比較する——性能向上による台数削減まで含めて試算する。
コミット契約（Savings Plans等）との整合——消化計画と矛盾する移行は割引を失う。
移行の検証コスト自体を見積もる——CI/CDのマルチアーキテクチャ対応・回帰テスト工数を忘れると削減効果を食い潰す。

チェックの勘所：「新世代だから速い・安い」で一括移行を決めない。CPUバウンドでスケールしているワークロードから順に移し、実測で削減率を確定させてから横展開するのが定石だ。

稟議に入れるべきコスト項目

Graviton5の採用可否を判断する稟議では、単価表だけを比較しても意味がない。最低限、実行基盤、RAG検索、ジョブキュー、監視ログ、検証環境、CI/CD、障害時の冗長構成を分けて試算する必要がある。AIエージェントは小さな処理を多数回実行するため、ピーク時の並列数とリトライ回数がCPUコストを押し上げる。

また、ARM対応の確認は「アプリが起動する」だけでは足りない。ネイティブ拡張、商用ミドルウェア、監視エージェント、セキュリティ製品、バックアップ製品が同じアーキテクチャで動くかを確認する。ここを見落とすと、本番移行後に一部の運用機能だけがx86に残り、期待した削減効果が出ない。

よくある質問（FAQ）

Q. Graviton5に移行すれば本当に3〜4割安くなるのか？ A. 保証されない。「3〜4割」はx86からGraviton系への移行事例で報告されてきた一般的な経験則で、CPUバウンド度合い・ARM対応・台数削減効果に依存する。AWS掲載事例のSiemens30%削減もGraviton4・特定条件下の値だ。自社ワークロードでの実測が唯一の根拠になる。

Q. LLMを外部APIで動かしている場合も関係あるか？ A. ある。推論が外部でも、オーケストレーション・RAG検索・ツール実行・ログ処理は自社のコンピュート上で動く。エージェントの並列数が増えるほどこの層の費用が膨らむ。

Q. まだPoC段階の会社は何をすべきか？ A. 移行判断は不要だが、本番化の見積もりに「実行基盤・データ基盤・監視」の3層を含めた総コスト欄を作っておくべきだ。PoCのAPI費を12倍して年額にする試算は本番でほぼ確実に外れる。

社内導入判断に落とすための確認観点

AI関連の発表は、機能名やベンダー名だけで判断すると失敗しやすい。自社で見るべきなのは、利用対象業務、入力してよいデータ、権限管理、ログ取得、費用上限、モデル変更時の再評価、成果測定の方法である。特にエージェントや外部ツール連携を伴う場合は、AIがどのシステムに接続し、どの権限で何を実行できるかを図にしてから判断する必要がある。

導入の可否は「使えるか」ではなく「統制しながら使い続けられるか」で決まる。PoCでは動いても、本番では監査・費用・障害時対応・利用部門教育が必要になる。記事内の発表を自社に適用する場合は、まず1業務に絞り、成功条件と停止条件を明文化する。

GXOへ相談する前に整理しておくと早い情報

相談前には、対象業務、現在の作業時間、利用予定データ、既存システム、禁止したい操作、想定利用者数、月額予算、社内規程の有無を整理する。AI導入はモデル選定から始めるより、業務とデータの整理から始めた方が手戻りが少ない。

90日で本番判断へ進めるロードマップ

最初の30日は、対象業務とガバナンスの整理に使う。AIで置き換えたい作業、AIに渡してよいデータ、利用者、承認者、ログの保管先、費用上限を決める。ここで曖昧なままPoCを始めると、動くものはできても本番承認で止まる。

31日目から60日目は、小さな業務でPoCを行う。評価指標は「便利だったか」ではなく、処理時間、エラー率、再作業率、問い合わせ件数、判断品質など、業務KPIに結びつくものにする。AIの回答だけでなく、人が確認・修正する工程まで含めて測る。

61日目から90日目は、本番化可否を判断する。モデル・調達経路・権限・監査・費用・障害時の手順を揃え、継続運用できる形にする。ここで本番化しない判断になった場合も、入力データや業務プロセスの課題を記録しておくと、次のAI導入の成功率が上がる。

よくある失敗パターン

第一の失敗は、ベンダー発表をそのまま自社の効果見込みに置き換えることだ。発表資料の数値は、特定条件・特定環境・特定業務での値である。自社の業務量、データ品質、利用者の習熟度、承認フローが違えば効果も変わる。

第二の失敗は、PoCの成功条件を「動いたかどうか」に置くことだ。本番化に必要なのは、精度、時間削減、レビュー負荷、費用、ログ、権限、障害時対応、利用者教育まで含めた判断である。動くデモは作れても、業務に入れるための条件が揃わなければ価値は出ない。

第三の失敗は、AI利用規程を導入後に作ることだ。現場が先に使い始めると、入力禁止データ、外部送信、モデル選定、ログ確認、費用上限が後追いになる。AIは導入スピードが速いからこそ、最低限のルールを先に決める必要がある。

成果物として残すべきもの

AI導入の検討では、ユースケース定義書、データ分類表、権限設計、評価指標、費用試算、停止条件、運用責任者を成果物として残す。特に停止条件は重要である。誤回答率、コスト超過、ログ欠落、権限逸脱など、どの条件で利用を止めるかを先に決めておけば、本番後の混乱を抑えられる。

判断表：読むだけで終わらせないための整理

横にスクロールして確認できます

確認項目	見るべきポイント	NGサイン
対象範囲	どの部門・システム・データ・端末が関係するか	「たぶん関係ない」で止まる
責任者	判断者・作業者・承認者が分かれているか	ベンダー任せ、部門任せになっている
期限	いつまでに何を終えるか	次回定例、落ち着いたら、など曖昧
証跡	判断根拠と作業結果を残せるか	口頭確認だけで記録がない
次の一手	今回の対応を仕組みに変えるか	単発対応で終わる

この表を埋めると、記事の内容を「読んだ情報」から「社内で動かすタスク」に変えられる。特に重要なのはNGサインである。NGサインが1つでも出る場合、問題は個別ニュースではなく、社内の判断プロセスにある。

公開情報は日々更新されるため、記事本文の数値や期限をそのまま固定値として扱うのではなく、一次情報の最新版、社内の対象有無、実施記録をセットで確認する。これにより、速報記事を一過性の話題で終わらせず、監査・稟議・改善計画に使える材料へ変換できる。

いつGXOに相談すべきか

AIエージェント・AIシステムの本番化を控え、API費だけでない総インフラコストの試算と構成設計がほしい
AI活用を見据えたクラウド構成・データ基盤の刷新を検討している
エージェントのコスト暴走対策・監視・停止設計を含めた運用設計を固めたい

GXOは、AI開発・導入支援で実行基盤を含むAIシステムの設計・コスト試算を、データ基盤構築でAI前提のデータパイプライン整備を支援している。→ AI実行基盤・コスト設計の相談はこちら

追加確認：社内展開時の合意形成

社内でこの記事を共有する場合は、単にURLを回覧するだけでは不十分である。関係部門に対して、対象有無、対応期限、必要な判断、次回会議で決めることをセットで伝える。情報共有だけで終わると、誰も担当しないまま時間が過ぎる。

また、対応を急ぐほど、後から見たときの判断根拠が重要になる。なぜ今対応するのか、なぜ今回は見送るのか、どの一次情報を見たのか、誰が承認したのかを簡単に残す。短いメモでも、監査・稟議・次回対応の引き継ぎに使える。

編集部注：公開後の更新方針

本記事は速報性のある公開情報をもとに、企業が実務で確認すべき観点を整理したものです。一次情報の更新、ベンダー側の追記、制度要件の変更、悪用状況の変化がある場合は、最新情報もあわせて確認してください。

読者が実務で使う場合は、記事の数値や期限を固定値として扱うのではなく、必ず一次情報と自社環境を突き合わせることが重要である。特に、契約条件、対象バージョン、制度要件、提供リージョン、価格、悪用状況は短期間で変わり得る。この記事の役割は、最新情報を自社の判断項目へ変換することであり、最終判断は一次情報と社内の対象有無確認にもとづいて行う。