AIToday

Anthropic等の研究者が、大規模言語モデルが小規模モデルで習得できない能力を習得する理由を解明

THE DECODER19時間前2分で読める
Anthropic等の研究者が、大規模言語モデルが小規模モデルで習得できない能力を習得する理由を解明

こういう要約が、毎朝あなたのメールに届きます。

無料で登録 →

3つのポイント

  1. 1

    Anthropic、Stanford等の研究機関の研究者が、訓練データ内のタスク頻度がモデルの学習能力に与える影響を調査。4百万から4十億パラメータのOLMoモデルをDolmaコーパスの最大210 billion tokensで訓練した結果、頻度が約1,000インスタンス/バッチから10バッチごとに1インスタンスまで変動するタスク混合を用いて測定。

  2. 2

    モデルはN個のニューロンに対して『最も有用な』N個の特徴を割り当て、有用性は頻出度とタスクの重要度に基づいて決定される。大規模モデルは頻繁なタスクの習得後に解放された容量を稀なタスクに充てられるが、小規模モデルは『更新と忘却のループ』に陥り、稀な例は次の訓練ステップで上書きされる。

  3. 3

    訓練データの頻度を増加させることで、モデルサイズを拡大する代わりに特定のスキルを定着させることができる可能性が示唆される。

ディスカッション

まだコメントがありません。最初のコメントを投稿しましょう!

ログインして議論に参加

関連記事

AIニュースを毎日お届け

200以上のソースから厳選したAIニュースを毎日無料でお届けします。

無料で始める

登録無料・30秒で完了・いつでも解除できます

毎朝5分、AIの要点だけ。

200媒体以上・Email/LINE/Slack 対応

無料で受け取る →