MicrosoftがCopilot Studioの「コンピューターUseエージェント」をGA(一般提供)にしたことで、画面を視覚的に認識して操作するビジョン型UIオートメーションが企業の本番環境で解禁されました。

APIがなくても動く——視覚AIが画面を「読んで」操作する仕組み

従来のRPA(ロボティックプロセスオートメーション)は、ボタンの座標やHTML要素のIDに依存して動作します。UIのデザインが少し変わっただけで止まり、修正・保守コストがかさむ。そういう課題を現場は長年抱えてきました。

コンピューターUseエージェントは、視覚AIによって画面上に何が表示されているかを理解し、次に何をすべきかを判断します。人間がモニターを見ながらマウスを動かすのと同じ方法で操作するため、APIが公開されていないアプリでも、UIが更新されても動作し続けます。SAPのような大規模ERPや、インターネットに接続していない社内の基幹システム、古い帳票ツール——こうした「APIが届かないシステム」が自動化の対象になります。

Copilot Studioのフローに「画面操作」が加わった意味

Copilot Studioにはもともと、Power AutomateのコネクタやREST APIを経由した自動化機能があります。今回のGAで、それに画面操作が加わりました。

具体的なシーンで言えば、社内の旧システムへのデータ転記、PDFや帳票を別ツールに入力する作業、複数の画面から情報を収集して報告書に自動反映する作業——こういった「人手が残り続けていた処理」が自動化の射程に入ります。

操作の指示は自然言語で書けるため、既存フローへの組み込みも難しくありません。「この画面の○○ボタンをクリックして、次のフォームに値を入力してください」という形で指示を書けばエージェントが実行します。UIが変わっても指示のロジックを書き直す必要はなく、エージェントが視覚的に判断して次の操作を決めます。

GAが意味すること——本番環境で使える品質とサポート

プレビュー期間中は試験利用という位置づけでした。GAになることで、Microsoftは品質・セキュリティ・SLAの観点で本番利用に対して責任を持ちます。

PwCが23万人規模でCopilotを全社展開したように、企業AIの波はMicrosoft Copilotを軸に広がっています。今回の機能はその適用範囲を「コネクタがつながっていないシステム」にまで広げるものです。Azure Active Directoryとの連携で操作権限を細かく管理でき、操作ログが記録されるため、コンプライアンス要件の厳しい金融・医療などの業界でも採用の選択肢に入るようになります。

AIエージェントが「つながっているサービス」だけでなく「見えるすべての画面」を操作できるようになりました。業務自動化の死角が着実に減っています。

ドリップドリップ(執筆)

「うちの古いシステムはAPIがないから自動化できない」という話、あちこちで聞きます。

画面を見て動くというのは、地味に大きな変化です。UIが変わっても壊れない自動化は、保守コストの悩みを根本から変えてくれます。

Copilot Studioをすでに使っている方は、ぜひ試してみる価値があります。

FREE DOWNLOAD

実務で使えるお役立ちコンテンツを無料で見る

無料会員登録で、実務で使えるAIテンプレート・プロンプト・PDFを受け取れます。

全PDFにアクセスする(無料)

無料会員登録して受け取る