AIToday

OpenAIが音声AIの新モデル3種を発表、GPT-Realtime-2は128Kトークンコンテキストとマルチツール対応を実装

Latent Space2026年5月8日2分で読める
OpenAIが音声AIの新モデル3種を発表、GPT-Realtime-2は128Kトークンコンテキストとマルチツール対応を実装

こういう要約が、毎朝あなたのメールに届きます。

無料で登録 →

3つのポイント

  1. 1

    OpenAIはRealtime APIで3つの新しいストリーミング音声モデルを提供開始:GPT-Realtime-2(音声対音声推論エージェント向け)、GPT-Realtime-Translate(70以上の入力言語から13の出力言語への同時翻訳対応)、GPT-Realtime-Whisper(ストリーミング文字起こし・キャプション対応)

  2. 2

    GPT-Realtime-2はコンテキストウィンドウを32Kから128Kに拡張、最大出力トークン32K対応。複数ツール同時実行、割り込み復帰、推論レベル調整(minimal/low/medium/high/xhigh)が可能で、最小推論時の音声応答開始時間は1.12秒

  3. 3

    Scale AIのAudio MultiChallenge S2Sリーダーボードで第1位、指示保持率はGPT-Realtime-1.5比で36.7%から70.8% APRに向上。Artificial AnalysisがBig Bench Audioで96.6%を報告。価格は入力$1.15/時間、出力$4.61/時間(変更なし)

ディスカッション

まだコメントがありません。最初のコメントを投稿しましょう!

ログインして議論に参加

関連記事

AIニュースを毎日お届け

200以上のソースから厳選したAIニュースを毎日無料でお届けします。

無料で始める

登録無料・30秒で完了・いつでも解除できます

毎朝5分、AIの要点だけ。

200媒体以上・Email/LINE/Slack 対応

無料で受け取る →