Fluid, natural voice translation with Gemini 3.5 Live Translate
GoogleがGemini 3.5 Live Translateを公開しました。70以上の言語を自動検出し、発話の抑揚・ペース・ピッチを保ったまま、数秒遅れで自然な音声翻訳を生成します。
開発者向けにはGemini Live APIとGoogle AI Studioでpublic preview、Google Meetでは企業向けprivate preview、Google Translateアプリでは一般向けに展開されます。
Gemini 3.5 Live Translateは、発話終了を待つ逐次翻訳ではなく、音声ストリームを処理しながら継続的に翻訳音声を生成するモデルです。
対応言語は70以上で、多言語入力を手動設定なしで扱い、騒音環境への堅牢性も強調されています。
開発者はGemini Live APIとGoogle AI Studioのpublic previewで利用でき、LiveKit、Pipecat、Agoraなどのリアルタイムメディア基盤との統合例も示されています。
Google Meetでは一部のGoogle Workspace企業顧客向けに今月からprivate previewを開始し、年内により広く展開する予定です。
Google TranslateのAndroid/iOSアプリにはグローバルに展開され、Androidではイヤホンなしで受話口から翻訳音声を聞けるlistening modeも順次展開されます。
生成音声にはSynthIDの透かしが入ります。日本での提供可否はGoogle Translateのグローバル展開としては含まれる可能性がありますが、記事は国別条件を明示していません。
APIの破壊的変更や移行期限は示されていません。