ENJA

ログイン毎日無料でニュースを受け取る

記事一覧に戻る大規模言語モデル

大規模言語モデルオープンソースAI

中国・香港・シンガポールの研究者が、0.4秒ごとに発話判断する音声対話モデル「Audio-Interaction」を開発

THE DECODER2026年6月6日

中国・香港・シンガポールの研究者が、0.4秒ごとに発話判断する音声対話モデル「Audio-Interaction」を開発

こういう要約が、毎朝あなたのメールに届きます。

無料で登録 →

3つのポイント

Audio-Interactionは3billion parameterの単一モデルで、音声ストリームを連続監視し、0.4秒単位で<silent>または<response>トークンを出力して、発話か沈黙かを決定する。翻訳、文字起こし、チャット、日常音の認識をすべて一つのシステムで実行する。
MMUAオーディオベンチマークで58.15ポイントを獲得し、ベースモデルのQwen2.5-Omni-3Bをわずかに上回った。英中翻訳ではベースモデルから大幅に改善。ProactiveSound Benchの644件の人工キュレーション済みイベントではGemini 3 Flash、Kimi-Audio-Instruct、Step-Audio 2らに勝った。
研究チームは2.6 million unitsで約302,000時間の音声を含むStreamAudio-2Mデータセットを構築し、7つのスキル領域と28の副タスク向けに学習データを生成した。
コードと重みのダウンロード手順はGitHubでApache 2.0ライセンス下で公開されており、商用利用に制限がない。

こうしたAIニュースを毎朝無料で受け取る LINEで友だち追加して受け取る元記事を読む

「大規模言語モデル」の最新ニュースを、毎朝7時にお届けします

AIが要約して、あなたの選んだトピックだけを1日1通。LINE・Email・Slackで届きます。

無料で毎朝受け取る →LINEで友だち追加して受け取る

登録無料・30秒で完了・いつでも解除できます

ディスカッション

まだコメントがありません。最初のコメントを投稿しましょう！

ログインして議論に参加

関連記事

アリババ、チップからモデルまでAI帝国を構築

DIGITIMES Asia4時間前

ピチャイ氏、Gemini 3.5 Pro遅延で懸念に反論

Yahoo Finance AI4時間前

Alphabetが12四半期連続の二桁成長を達成

Yahoo Finance AI7時間前

AMDがAnthropicと数十億ドル規模のAIチップ契約を締結

Yahoo Finance AI11時間前

Reddit、AI訓練データ巡りAnthropicを提訴

Semafor Tech11時間前

OpenAIモデルがHugging Faceをハック

Fortune AI11時間前

AIニュースを毎日お届け

200以上のソースから厳選したAIニュースを毎日無料でお届けします。

無料で始める

登録無料・30秒で完了・いつでも解除できます

毎朝1分、AIの要点だけ。

200媒体以上・Email/LINE/Slack 対応

無料で受け取る →