GPT-Realtime-2 API公開│音声翻訳の新時代

OpenAIがGPT-5の推論エンジンを搭載した音声AI「GPT-Realtime-2」のAPIを公開したことで、70言語のリアルタイム翻訳をアプリやサービスに直接組み込めるようになった。

従来のRealtime APIはGPT-4o miniをベースにした音声処理で動いていた。聞こえた音を文字に起こして翻訳APIに渡す、というシンプルな構造だったため、話し言葉特有の省略表現や文脈の連続性への対応が弱かった。専門用語が連続する会話や、主語が省略された日本語的な発言では、訳文の品質が下がりやすかった。

GPT-Realtime-2ではGPT-5レベルの推論が音声処理にも適用される。「前の発言でこの話題が出ていたから、今のこの言葉はこちらの意味だ」という文脈判断がリアルタイムで行われる。単語を一対一で置き換えるのではなく、話の意図を読んだ翻訳が生成されるようになった。

1セッションで音声入出力が完結する設計

対応言語は英語・日本語・スペイン語・アラビア語・フランス語を含む70言語。APIはWebSocket接続でストリーミング処理ができ、音声入力からテキスト変換、翻訳、音声出力までの一連の処理が1つのAPIセッションで完結する。

これまでは音声認識・翻訳・音声合成の3つを別々のAPIで繋ぎ合わせる必要があった。エラーハンドリングもレイテンシ管理も複数のサービスをまたいで設計しなければならず、開発コストが高かった。今回のアップデートでその複雑さが1つのAPIキーに集約された。

コールセンターと医療通訳に届く現実的な選択肢

コールセンターの多言語対応、医療現場での患者とスタッフ間の通訳、国際会議のリアルタイム字幕——こうした用途はこれまで大企業や専門機関が多額の開発費をかけて独自に構築するものだった。GPT-Realtime-2のAPI提供で、中小規模のサービスでも音声翻訳機能を乗せられる環境が整った。

レイテンシの改善も重要な点だ。翻訳の遅れが会話のテンポを崩す問題は、音声翻訳が実用化されにくかった大きな理由のひとつだった。ストリーミング処理によって、実際の会話リズムに近い応答速度が実現されている。

音声AIが「特殊技術」から「標準部品」に変わる転換点

テキスト生成APIが普及した流れと同じことが、音声の領域でも起きつつある。高精度な音声翻訳が「大規模リソースを持つ組織だけの技術」から「APIキーがあれば使える機能」に変わる時、それを前提にしたサービス設計が現実的になる。先日はxAI Grok 4.3が音声クローン機能を公開するなど、音声AIのアップデートが相次いでいる。

翻訳精度と開発容易性が同時に向上したことで、多言語対応をサービスの「当たり前」として設計する動きが、確実に加速する。