AIToday

中国・香港・シンガポールの研究者が、0.4秒ごとに発話判断する音声対話モデル「Audio-Interaction」を開発

THE DECODER1日前3分で読める
中国・香港・シンガポールの研究者が、0.4秒ごとに発話判断する音声対話モデル「Audio-Interaction」を開発

こういう要約が、毎朝あなたのメールに届きます。

無料で登録 →

3つのポイント

  1. 1

    Audio-Interactionは3billion parameterの単一モデルで、音声ストリームを連続監視し、0.4秒単位で<silent>または<response>トークンを出力して、発話か沈黙かを決定する。翻訳、文字起こし、チャット、日常音の認識をすべて一つのシステムで実行する。

  2. 2

    MMUAオーディオベンチマークで58.15ポイントを獲得し、ベースモデルのQwen2.5-Omni-3Bをわずかに上回った。英中翻訳ではベースモデルから大幅に改善。ProactiveSound Benchの644件の人工キュレーション済みイベントではGemini 3 Flash、Kimi-Audio-Instruct、Step-Audio 2らに勝った。

  3. 3

    研究チームは2.6 million unitsで約302,000時間の音声を含むStreamAudio-2Mデータセットを構築し、7つのスキル領域と28の副タスク向けに学習データを生成した。

  4. 4

    コードと重みのダウンロード手順はGitHubでApache 2.0ライセンス下で公開されており、商用利用に制限がない。

ディスカッション

まだコメントがありません。最初のコメントを投稿しましょう!

ログインして議論に参加

関連記事

AIニュースを毎日お届け

200以上のソースから厳選したAIニュースを毎日無料でお届けします。

無料で始める

登録無料・30秒で完了・いつでも解除できます

毎朝5分、AIの要点だけ。

200媒体以上・Email/LINE/Slack 対応

無料で受け取る →