AIToday

Vercel、AI Gatewayで音声通話機能を提供開始

Vercel AI Blog15時間前4分で読める
Vercel、AI Gatewayで音声通話機能を提供開始

要点

VerizelのAI Gatewayが音声・リアルタイム通話機能をベータ版で提供開始しました。OpenAIとxAIのモデルに対応し、開発者は既存のテキスト・画像機能と同じ方法で音声通話、音声合成、音声認識をアプリケーションに統合できます。従来のように複数モデルを組み合わせる必要がなく、より自然な対話が実現する点が特徴です。

こういう要約が、毎朝あなたのメールに届きます。

無料で登録 →

3つのポイント

  • 何が起きたか

    Vercelの開発者向けプラットフォーム「AI Gateway」が音声・リアルタイム通話機能をベータ版で提供開始しました。OpenAIとxAIのモデルに対応し、テキストや画像と同じ方法で音声通話、音声合成、音声認識を利用できます。

  • なぜ重要か

    これまでは音声認識→言語処理→音声合成という複数モデルのチェーンが必要でしたが、単一の音声モデルが直接音声を入出力するため、より自然な対話が実現します。音声アシスタントやカスタマーサポートなど、ユーザーが話しかける方が自然なアプリケーションを開発しやすくなります。

  • 注目点

    ベータ版はAI SDK 7で利用可能です。既存のAI Gatewayユーザーは同じAPI認証情報や支出管理機能を使いながら、新たに音声機能を追加できます。

よくある質問

どのモデルが対応していますか?
OpenAIとxAIのモデルに対応しています。具体的にはOpenAIのgpt-realtime-2やxAIのgrok-ttsが利用可能です。
リアルタイム音声通話と従来の方法の違いは何ですか?
リアルタイム音声モデルは音声を直接入出力するため、単一のモデルで完結します。一方、従来は音声認識→言語モデル→音声合成という3段階のパイプラインが必要でしたが、この新方式ではそれが不要になります。
いつから利用できますか?
ベータ版はAI SDK 7で利用可能です。また、Vercelのプレイグラウンドでコードを書かずにブラウザ上で試すこともできます。

ディスカッション

この記事のディスカッションはまだありません

AIニュースを毎日お届け

200以上のソースから厳選したAIニュースを毎日無料でお届けします。

無料で始める

登録無料・30秒で完了・いつでも解除できます

毎朝1分、AIの要点だけ。

200媒体以上・Email/LINE/Slack 対応

無料で受け取る →