MicrosoftがAIモデル3種を独自開発し、2026年4月3日に公開しました。Copilotの音声処理が外部APIへの依存から自社モデルによる統合環境へと移行する、かなり大きな転換点です。

CopilotがサードパーティAPIを手放す

今回公開されたのは、音声認識特化型のMAI-Transcribe-1、多言語処理に最適化されたMAI-Language-Core、リアルタイム処理用のMAI-Stream-Proの3モデルです。これまでCopilotは外部の音声認識APIに処理を依存していましたが、この3モデルの投入によって、音声処理の全工程をMicrosoft自身のインフラで完結させる体制が整いました。

日本語専門用語の認識精度が40%向上

MAI-Transcribe-1は25言語に対応しており、従来比で約40%の精度向上を実現しています。特筆すべきは日本語への対応で、専門用語や方言、複数話者が混在する会話でも高い認識率を維持します。さらにMAI-Language-Coreが文脈を読んだ修正提案と業界特有の用語辞書の自動学習を担うため、これまで頻発していた専門用語の誤認識や話者の混同が大幅に減る見込みです。

Teams会議が終わったら議事録も完成している

Copilot利用者にとって実感しやすい変化は、Teams会議の議事録自動生成です。発言者の特定から要約、次回アクションアイテムの整理まで一括で処理され、録音データをアップロードするだけで数分以内に完了します。MAI-Stream-Proが担うリアルタイム処理では、ライブ配信や電話会議での25言語間の同時通訳も可能になり、国際会議や多国籍チームでの運用も視野に入ります。

Microsoft 365のサブスク内で使えるコスト構造に

これまで専門的な文字起こしサービスに月額数万円を支払っていた企業にとって、コスト面の変化も無視できません。2026年5月からMicrosoft 365 Business Premium以上のプランで順次展開されるため、追加コストなしで議事録自動化が使えるようになります。中小企業が本格的な音声処理機能を導入するハードルが下がります。セキュリティ面でも、音声データがMicrosoft Azure内で完結して処理されるためGDPR準拠の管理が適用され、外部サービス利用時と比べて情報漏洩のリスクが抑えられます。

AI編集部コメント

ドリップドリップ(執筆)

会議後に「誰が何を言ったっけ」と録音を聞き返した経験、ある方も多いのではないでしょうか。その時間がまるごとなくなるのは、思っていた以上に仕事のリズムが変わる話だと感じています。

個人的に面白いと思ったのは、用語辞書の自動学習です!業界ごとに違う専門用語を自分で登録しなくても覚えてくれるなら、導入後の手間がぐっと減りますよね。

Microsoft 365を使っている職場なら、追加ツールを入れずにそのまま使い始められるのも強みです。まずは試しに一度、会議で動かしてみるところから始めてみてください。

FREE DOWNLOAD

実務で使えるお役立ちコンテンツを無料で見る

無料会員登録で、実務で使えるAIテンプレート・プロンプト・PDFを受け取れます。

全PDFにアクセスする(無料)

無料会員登録して受け取る