
こういう要約が、毎朝あなたのメールに届きます。
無料で登録 →Audio-Interactionは3billion parameterの単一モデルで、音声ストリームを連続監視し、0.4秒単位で<silent>または<response>トークンを出力して、発話か沈黙かを決定する。翻訳、文字起こし、チャット、日常音の認識をすべて一つのシステムで実行する。
MMUAオーディオベンチマークで58.15ポイントを獲得し、ベースモデルのQwen2.5-Omni-3Bをわずかに上回った。英中翻訳ではベースモデルから大幅に改善。ProactiveSound Benchの644件の人工キュレーション済みイベントではGemini 3 Flash、Kimi-Audio-Instruct、Step-Audio 2らに勝った。
研究チームは2.6 million unitsで約302,000時間の音声を含むStreamAudio-2Mデータセットを構築し、7つのスキル領域と28の副タスク向けに学習データを生成した。
コードと重みのダウンロード手順はGitHubでApache 2.0ライセンス下で公開されており、商用利用に制限がない。
まだコメントがありません。最初のコメントを投稿しましょう!
ログインして議論に参加





200以上のソースから厳選したAIニュースを毎日無料でお届けします。
無料で始める登録無料・30秒で完了・いつでも解除できます
毎朝5分、AIの要点だけ。
200媒体以上・Email/LINE/Slack 対応