MicrosoftがCopilot Studioの「コンピューターUseエージェント」をGA(一般提供)にしたことで、画面を視覚的に認識して操作するビジョン型UIオートメーションが企業の本番環境で解禁されました。
APIがなくても動く——視覚AIが画面を「読んで」操作する仕組み
従来のRPA(ロボティックプロセスオートメーション)は、ボタンの座標やHTML要素のIDに依存して動作します。UIのデザインが少し変わっただけで止まり、修正・保守コストがかさむ。そういう課題を現場は長年抱えてきました。
コンピューターUseエージェントは、視覚AIによって画面上に何が表示されているかを理解し、次に何をすべきかを判断します。人間がモニターを見ながらマウスを動かすのと同じ方法で操作するため、APIが公開されていないアプリでも、UIが更新されても動作し続けます。SAPのような大規模ERPや、インターネットに接続していない社内の基幹システム、古い帳票ツール——こうした「APIが届かないシステム」が自動化の対象になります。
Copilot Studioのフローに「画面操作」が加わった意味
Copilot Studioにはもともと、Power AutomateのコネクタやREST APIを経由した自動化機能があります。今回のGAで、それに画面操作が加わりました。
具体的なシーンで言えば、社内の旧システムへのデータ転記、PDFや帳票を別ツールに入力する作業、複数の画面から情報を収集して報告書に自動反映する作業——こういった「人手が残り続けていた処理」が自動化の射程に入ります。
操作の指示は自然言語で書けるため、既存フローへの組み込みも難しくありません。「この画面の○○ボタンをクリックして、次のフォームに値を入力してください」という形で指示を書けばエージェントが実行します。UIが変わっても指示のロジックを書き直す必要はなく、エージェントが視覚的に判断して次の操作を決めます。
GAが意味すること——本番環境で使える品質とサポート
プレビュー期間中は試験利用という位置づけでした。GAになることで、Microsoftは品質・セキュリティ・SLAの観点で本番利用に対して責任を持ちます。
PwCが23万人規模でCopilotを全社展開したように、企業AIの波はMicrosoft Copilotを軸に広がっています。今回の機能はその適用範囲を「コネクタがつながっていないシステム」にまで広げるものです。Azure Active Directoryとの連携で操作権限を細かく管理でき、操作ログが記録されるため、コンプライアンス要件の厳しい金融・医療などの業界でも採用の選択肢に入るようになります。
AIエージェントが「つながっているサービス」だけでなく「見えるすべての画面」を操作できるようになりました。業務自動化の死角が着実に減っています。
FREE DOWNLOAD
実務で使えるお役立ちコンテンツを無料で見る
無料会員登録で、実務で使えるAIテンプレート・プロンプト・PDFを受け取れます。
全PDFにアクセスする(無料)
無料会員登録して受け取る
「うちの古いシステムはAPIがないから自動化できない」という話、あちこちで聞きます。
画面を見て動くというのは、地味に大きな変化です。UIが変わっても壊れない自動化は、保守コストの悩みを根本から変えてくれます。
Copilot Studioをすでに使っている方は、ぜひ試してみる価値があります。