
Appleの研究者が拡散型言語モデルの復号プロセスを改善する新しい学習手法を発表しました。従来の経験則ベースの手法の代わりに、強化学習で訓練された軽量なポリシーネットワークを用い、どのトークンを復号するかを決定することで、効率性と品質の両面での向上が期待できます。
こういう要約が、毎朝あなたのメールに届きます。
無料で登録 →何が起きたか
Appleの研究者チームが、拡散型言語モデル(dLLM)における改善された学習手法を報告しました。従来の信頼度しきい値などの経験則に代わり、強化学習で訓練された軽量なポリシーを用いて、各ステップでどのトークン(文字の単位)を復号するかを決定する方法を提案しています。
なぜ重要か
dLLMは複数トークンを並列に復号できる点で自己回帰型モデルよりも効率的とみられていますが、既存の経験則はマニュアル調整が必要で、大規模なブロック処理では性能が低下する課題がありました。訓練ベースのアプローチは、これらの制限を改善する可能性があります。
注目点
新手法は、セミ自動回帰生成では最先端の経験則と同等の性能を達成し、完全拡散設定ではそれを上回る結果が得られたとのことです。
まだコメントがありません。最初のコメントを投稿しましょう!
ログインして議論に参加200以上のソースから厳選したAIニュースを毎日無料でお届けします。
無料で始める登録無料・30秒で完了・いつでも解除できます
毎朝1分、AIの要点だけ。
200媒体以上・Email/LINE/Slack 対応