記事一覧に戻る

大規模言語モデルの訓練効率を向上させる新手法「グループファインチューニング」が提案される

arXiv cs.AI · 2026年4月17日

大規模言語モデルの訓練効率を向上させる新手法「グループファインチューニング」が提案される

AI要約

  • 従来の教師あり微調整(SFT)と強化学習(RL)の統合的な訓練フレームワーク「GFT」を提案
  • SFTがスパースな報酬と不安定な逆確率重み付けにより、単一パス依存性とエントロピー崩壊を引き起こすことを分析
  • 複数の応答グループを構築して正規化された対比教師信号を導出するグループ優位性学習メカニズムを実装
  • 逆確率重みを適応的に制限するダイナミック係数補正により、訓練の安定性を向上

関連記事

AIニュースを毎日お届け

200以上のソースから厳選したAIニュースを毎日無料でお届けします。

無料で始める