Gemini コンピュータ使用が一般公開、PCを自律操作

GoogleがGemini 3.5 Flashに「コンピュータ使用（Computer Use）」機能を組み込んだことで、AIがPCのブラウザ・デスクトップ・スマートフォン画面をリアルタイムで読み取りながら自律的に操作できるようになった。6月24日に一般公開となり、Gemini APIとEnterprise Agent Platformを通じて即日利用できる。

専用モデルからメインモデルへ、何が変わったか

コンピュータ使用機能はこれまで、「Gemini 2.5 Computer Use」という独立したモデルとして別途提供されていた。今回の変更でGemini 3.5 Flashに統合された。関数呼び出しやGoogle検索グラウンディング、Mapsとの連携と同じモデルで画面操作まで完結できる。複数のモデルを切り替えながら組み合わせる実装が不要になった点が、開発の現場では実質的に大きい。

スクリーンショットを読み取り、次の操作を自分で決める

動き方は一貫したループだ。現在の画面をスクリーンショットで取得し、内容を認識して次の操作（クリック先、キーボード入力、スクロール量）を決める。結果を受け取ってまた次を判断する。フォームの記入・送信から、複数のWebページをまたいだ情報収集、業務アプリの操作まで、自然言語の指示だけで処理できる。これまでRPAや専用スクリプトが必要だった場面の多くをカバーできる。

Web上でのデータ入力、複数サービスをまたいだ情報転記、定期的なシステム確認など「操作手順は決まっているが自動化ツールを導入するほどでもない」という業務に向いている。OSWorld-Verifiedベンチマークでは78.4%を記録し、競合モデルと横並びの水準に達している。

Googleが描くエージェント時代のAI

今年5月のGoogle I/O 2026では「Gemini Spark」も発表された。PCやスマートフォンがオフの状態でもバックグラウンドで独立して動き続けるエージェントだ。Computer Useと組み合わせれば、夜間や外出中に設定したタスクをAIが画面を操作しながら処理し続けるという使い方が現実になる。

ChatGPT Codex の「Record & Replay」のように操作を記録・再生するアプローチとは異なり、GeminiのComputer Useは画面の状態をその場で読み取って判断するため、動的に変化する画面にも対応できる点が特徴だ。

セキュリティ設計を確認してから使う

画面を自律操作するモデルには、悪意あるWebページや画像に埋め込まれた命令（プロンプトインジェクション）のリスクが伴う。Googleは敵対的学習による防御を実施しており、センシティブな操作の前にユーザー確認を求める設計を採用している。インジェクション検知時の自動停止オプションも提供予定で、本番利用前にこれらの設定を確認しておくことが現実的な準備になる。操作対象のシステムやデータの重要度に応じて、段階的に適用範囲を広げていくのが安全だ。