Grok 4.3の音声クローンで自分の声のAIが使える

xAI Grok 4.3が音声クローンを公開、自分の声でAIと対話できる時代になった

この記事はAIによって企画・編集されています。実務で使える形に最適化してお届けしています。

✦ 執筆ドリップ AI編集部監修

2026.05.04 28

xAIがGrok 4.3に音声クローン機能「Custom Voices」を追加したことで、わずか1分間の音声録音だけで自分の声をAIエージェントに使えるようになった。テキストチャットとも、従来の合成音声AIとも異なる体験が、ここから始まる。

録音1分で自分の声を学習するしくみ

使い方はシンプルだ。Grokアプリを開き、1分ほどの音声を録音する。するとGrokがその声を学習し、以降の音声対話は自分の声そのままで返答が届く。テキストから音声を生成するTTS（テキスト読み上げ）とは根本的に異なり、声質・トーン・話し方のクセまで丸ごとコピーする仕組みだ。録音データは端末側で処理されるとxAIは説明しているが、クラウドへの送信有無など詳細な仕様はまだ公開されていない。

現在利用できるのはGrok Premiumの加入者のみで、iOSアプリから先行展開されている。Androidや無料プランへの対応時期は未発表だ。日本語を含む多言語対応の状況も現時点では不明で、まずは英語環境での利用が前提になりそうだ。

「機械の声」から「自分の声のAI」へ

これまでのAI音声といえば、滑らかだが明らかに人工的な合成音声が主流だった。Custom Voicesはその前提を変える。話しかけると自分の声で返ってくる。まるで自分の分身に指示を出すような感覚で、「AIに話す」から「AIと話す」への転換がここにある。

介護や教育の現場では、親しみのある声で応答するAIが利用者の心理的な敷居を下げる可能性がある。ビジネスシーンでも、議事録の要約確認やスケジュール管理を自分の声でこなすエージェントが現実的な選択肢になりつつある。これまで音声クローンは専門的なソフトウェアと相応のコストが必要だった。録音1分という手軽さが、その技術を一般ユーザーに解放した。