GoogleがGemini 3.5 Flashに「コンピュータ使用(Computer Use)」機能を組み込んだことで、AIがPCのブラウザ・デスクトップ・スマートフォン画面をリアルタイムで読み取りながら自律的に操作できるようになった。6月24日に一般公開となり、Gemini APIとEnterprise Agent Platformを通じて即日利用できる。

専用モデルからメインモデルへ、何が変わったか

コンピュータ使用機能はこれまで、「Gemini 2.5 Computer Use」という独立したモデルとして別途提供されていた。今回の変更でGemini 3.5 Flashに統合された。関数呼び出しやGoogle検索グラウンディング、Mapsとの連携と同じモデルで画面操作まで完結できる。複数のモデルを切り替えながら組み合わせる実装が不要になった点が、開発の現場では実質的に大きい。

スクリーンショットを読み取り、次の操作を自分で決める

動き方は一貫したループだ。現在の画面をスクリーンショットで取得し、内容を認識して次の操作(クリック先、キーボード入力、スクロール量)を決める。結果を受け取ってまた次を判断する。フォームの記入・送信から、複数のWebページをまたいだ情報収集、業務アプリの操作まで、自然言語の指示だけで処理できる。これまでRPAや専用スクリプトが必要だった場面の多くをカバーできる。

Web上でのデータ入力、複数サービスをまたいだ情報転記、定期的なシステム確認など「操作手順は決まっているが自動化ツールを導入するほどでもない」という業務に向いている。OSWorld-Verifiedベンチマークでは78.4%を記録し、競合モデルと横並びの水準に達している。

Googleが描くエージェント時代のAI

今年5月のGoogle I/O 2026では「Gemini Spark」も発表された。PCやスマートフォンがオフの状態でもバックグラウンドで独立して動き続けるエージェントだ。Computer Useと組み合わせれば、夜間や外出中に設定したタスクをAIが画面を操作しながら処理し続けるという使い方が現実になる。

ChatGPT Codex の「Record & Replay」のように操作を記録・再生するアプローチとは異なり、GeminiのComputer Useは画面の状態をその場で読み取って判断するため、動的に変化する画面にも対応できる点が特徴だ。

セキュリティ設計を確認してから使う

画面を自律操作するモデルには、悪意あるWebページや画像に埋め込まれた命令(プロンプトインジェクション)のリスクが伴う。Googleは敵対的学習による防御を実施しており、センシティブな操作の前にユーザー確認を求める設計を採用している。インジェクション検知時の自動停止オプションも提供予定で、本番利用前にこれらの設定を確認しておくことが現実的な準備になる。操作対象のシステムやデータの重要度に応じて、段階的に適用範囲を広げていくのが安全だ。

ドリップドリップ(執筆)

「AIがPC画面を自分で動かす」って、まだSFの話でしょ、と思っていた方も多いのでは。

今回のポイントは「目で見てその場で判断する」という部分です。記録した操作を再生するのではなく、画面の変化に合わせて動ける。これでRPAや専用スクリプトが届かなかった場面まで、言葉の指示だけで自動化できる可能性が広がります。

まず「繰り返してる面倒な作業」を一つ書き出してみてください。そこが入口になります。

FREE DOWNLOAD

実務で使えるお役立ちコンテンツを無料で見る

無料会員登録で、実務で使えるAIテンプレート・プロンプト・PDFを受け取れます。

全PDFにアクセスする(無料)

無料会員登録して受け取る