title: "画面操作エージェントが「低価格+安全弁つき」で実装段階へ──日本企業はどの業務から自動化するか、3軸で見極める" slug: "gemini-flash-computer-use-agent-automation-20260629" description: "GoogleがComputer UseをGemini 3.5 Flashに標準ツールとして統合。コスト約1/3・精度ほぼ同等・確認/自動停止の安全弁という3条件がそろい、画面操作エージェントは検証から実装へ。日本企業がどの業務から着手すべきかをコスト・精度・安全弁の3軸で判断する実務ガイド。" lead_summary: "画面を見てクリック・入力するAIエージェントが、GPT-5.5比で約1/3の価格・ほぼ同等の精度・不可逆操作の確認や自動停止という安全弁を備えて登場した。RPAや手作業の置換可否を、コスト・精度・安全弁の3軸でどう判断するかを整理する。" date: "2026-06-29" updatedAt: "2026-06-29" category: "AI・機械学習" tags: ["GXOトレンド", "AIエージェント", "業務自動化", "RPA", "Gemini", "Computer Use", "DX"] author: "GXO株式会社"
結論:画面操作エージェントは「選定」のフェーズに入った
2026年6月25日、GoogleはブラウザやモバイルUI、デスクトップを「見て・クリックし・入力して操作する」Computer Use機能を、主力の高速・低価格モデルGemini 3.5 Flashに標準ツールとして統合したと発表しました(Google公式ブログ、2026/6/25)。これまで研究色の強かった「画面操作エージェント」が、実運用を前提とした価格・精度・安全機構をそろえて出てきたことが、今回の本質的な変化です。
日本企業にとっての論点は「使えるか/使えないか」ではなく、どの業務から画面操作エージェントに置き換えるかに移りました。判断を分けるのは、(1)コスト、(2)精度、(3)安全弁の3軸です。本稿はガバナンス論ではなく、この3軸で「自社のどの業務がいま対象になるか」を見極めるための実務的な視点を提示します。
INSTANT ESTIMATE
計算式より、60秒で概算を出しませんか?
システム種別・規模・連携先を選ぶだけで、開発費用・期間・月額運用費の概算をその場で表示します。
何が発表されたか(公式情報)
Google公式ブログによると、要点は次のとおりです。
- Computer UseはGemini 3.5 Flashにネイティブな標準ツールとして統合された(別モデルではなく主力モデルに内蔵)。
- ブラウザ・モバイルUI・デスクトップの画面を認識し、クリック・入力・操作を行う。
- Gemini API と Gemini Enterprise Agent Platform から構築できる。
- 安全策として、重要・不可逆な操作には明示的なユーザー確認を要求し、間接的なプロンプトインジェクションを検知した場合はタスクを自動停止する。Googleは加えて、セキュアなサンドボックス、人による検証(human-in-the-loop)、厳格なアクセス制御の併用を推奨している。
価格とベンチマークの数値については公式ブログのチャート上で示されていますが、本文中での明示が限られるため、本稿では後述の比較で公開情報として扱います。
3軸で見る:コスト・精度・安全弁
コスト(約1/3)
Gemini 3.5 Flashのトークン単価は入力$1.50/出力$9(100万トークンあたり)で、比較対象として報じられるGPT-5.5の$5/$30に対し、おおむね1/3の水準です(llm-stats、digitalapplied)。画面操作エージェントは1タスクで何十回も画面を読み直し試行するため、単価がそのまま運用コストに直結します。価格が1/3になることは、これまで採算に乗らなかった反復業務が対象に入ることを意味します。
精度(OSWorldスコアでほぼ同等)
OSWorld-Verified(実環境に近いPC操作タスクのベンチマーク)で、Gemini 3.5 Flashは約78.4、GPT-5.5は78.7前後と報じられ、差は0.3ポイント程度でほぼ同等です(digitalapplied)。ただしOSWorld-Verifiedのスコアは各モデル提供元の自己申告であり、第三者による独立検証ではない点は割り引いて読む必要があります。重要なのは「最安価格帯のモデルが最上位とほぼ並んだ」という構図で、低価格と高精度のトレードオフが小さくなったことです。
安全弁(確認・自動停止)
不可逆操作の前に確認を挟み、プロンプトインジェクションを検知したら停止する仕組みは、画面操作を「実業務に投入してよいか」の判断を大きく変えます。決済・送信・削除・契約手続きといった「やり直せない操作」に明示確認が入ることで、初めて基幹に近い業務へ近づけられます。
| 比較軸 | Gemini 3.5 Flash | GPT-5.5(比較対象・報道値) |
|---|---|---|
| 入力単価(100万トークン) | $1.50 | $5 |
| 出力単価(100万トークン) | $9 | $30 |
| OSWorld-Verified(自己申告) | 約78.4 | 78.7前後 |
| Computer Useの提供形態 | 主力モデルに標準統合 | 別系統での提供 |
※価格・スコアはいずれも公開情報・報道値(llm-stats/digitalapplied)。確認・自動停止の安全機構はGoogle公式に基づく。
どの業務から始めるか:RPA・手作業の置換可否
3軸を業務選定に落とし込むと、優先順位は次のように整理できます。
- 最優先:画面遷移が多く例外が少ない反復業務。 受発注の転記、複数SaaSをまたぐ情報突合、在庫・価格の照合など。RPAでは画面レイアウト変更のたびにシナリオが壊れていた領域こそ、画面を「見て」判断する方式の強みが出ます。
- 条件つき:判断を伴うが不可逆性が低い業務。 問い合わせの一次対応、申請内容の下書き作成など。安全弁が効く範囲で人の最終承認を残す設計にします。
- 慎重に:不可逆・高リスク業務。 決済確定、対外送信、契約締結。確認機構があっても、サンドボックスとアクセス制御、人の検証を必ず併用します。
RPAをすべて置き換えるという発想ではなく、「RPAが壊れやすかった画面依存タスク」から段階移行するのが現実的です。費用対効果は、対象業務の月間処理件数×1件あたりの想定試行コストで概算し、PoCで実測値に置き換えていく進め方が安全です。AIエージェント導入の進め方や対象業務の切り出しは、AIエージェント導入支援や業務自動化(RPA含む)で要件整理から伴走できます。
誰が読むべきか
- 業務改革・DX推進部門:自動化テーマの優先順位を、コスト1/3という前提で組み直したい方。
- 情報システム部門:安全弁とアクセス制御をどう設計に組み込むかを検討する方。
- 現場マネージャー:日々の画面作業のどこをエージェント化できるか見極めたい方。
- RPA運用部門:壊れやすいシナリオの保守負担を、画面認識型へ移行して減らしたい方。
導入前の自社準備度を測るにはPoC実行レディネス診断、AI活用の全社的な準備状況はAIアセスメントが出発点になります。
GXOに相談すべきタイミング
次のいずれかに当てはまるなら、検証に進む段階です。
- RPAのシナリオ保守に毎月工数を取られ、画面変更で頻繁に止まっている。
- 自動化したい業務はあるが、不可逆操作のリスク設計(確認・停止・権限)に不安がある。
- PoCは作ったが本番運用・既存システム連携の体制が組めず止まっている。
既存システムとの連携や本番移行を含む設計はDX・システム開発で対応します。まずは対象業務の選定から、お問い合わせよりご相談ください。
FAQ
Q. RPAはもう不要になりますか? A. いいえ。定型・安定した業務はRPAが引き続き有効です。画面レイアウト変更で壊れやすい、または判断を伴う業務から画面操作エージェントへ段階移行するのが現実的です。
Q. 価格が1/3なら品質も劣るのでは? A. OSWorld-Verifiedでは上位モデルとほぼ同等(約78.4対78.7前後)と報じられています。ただし自己申告値のため、自社業務での実測(PoC)で確認することを推奨します。
Q. 不可逆な操作を任せても安全ですか? A. 重要・不可逆な操作には明示確認が入り、プロンプトインジェクション検知で自動停止します(Google公式)。ただしサンドボックス・人の検証・アクセス制御の併用が前提です。
出典
- Google「Introducing computer use in Gemini 3.5 Flash」(2026/6/25): https://blog.google/innovation-and-ai/models-and-research/gemini-models/introducing-computer-use-gemini-3-5-flash/
- llm-stats「Gemini 3.5 Flash: Benchmarks, Pricing, and Complete Specs」: https://llm-stats.com/blog/research/gemini-3.5-flash-launch
- digitalapplied「Gemini 3.5 Flash Computer Use: Agentic Automation 2026」: https://www.digitalapplied.com/blog/gemini-3-5-flash-computer-use-agent-automation-2026




