OpenAIが音声AIの新モデル3種を発表、GPT-Realtime-2は128Kトークンコンテキストとマルチツール対応を実装

Latent Space2026年5月8日LINEで送る

こういう要約が、毎朝あなたのメールに届きます。

3つのポイント

OpenAIはRealtime APIで3つの新しいストリーミング音声モデルを提供開始：GPT-Realtime-2（音声対音声推論エージェント向け）、GPT-Realtime-Translate（70以上の入力言語から13の出力言語への同時翻訳対応）、GPT-Realtime-Whisper（ストリーミング文字起こし・キャプション対応）
GPT-Realtime-2はコンテキストウィンドウを32Kから128Kに拡張、最大出力トークン32K対応。複数ツール同時実行、割り込み復帰、推論レベル調整（minimal/low/medium/high/xhigh）が可能で、最小推論時の音声応答開始時間は1.12秒
Scale AIのAudio MultiChallenge S2Sリーダーボードで第1位、指示保持率はGPT-Realtime-1.5比で36.7%から70.8% APRに向上。Artificial AnalysisがBig Bench Audioで96.6%を報告。価格は入力$1.15/時間、出力$4.61/時間（変更なし）

AIが要約して、あなたの選んだトピックだけを1日1通。LINE・Email・Slackで届きます。

登録無料・30秒で完了・いつでも解除できます

まだコメントがありません。最初のコメントを投稿しましょう！

200以上のソースから厳選したAIニュースを毎日無料でお届けします。

登録無料・30秒で完了・いつでも解除できます