ENJA

ログイン毎日無料でニュースを受け取る

記事一覧に戻る大規模言語モデル

大規模言語モデル

Anthropic等の研究者が、大規模言語モデルが小規模モデルで習得できない能力を習得する理由を解明

THE DECODER2026年6月7日

Anthropic等の研究者が、大規模言語モデルが小規模モデルで習得できない能力を習得する理由を解明

こういう要約が、毎朝あなたのメールに届きます。

無料で登録 →

3つのポイント

Anthropic、Stanford等の研究機関の研究者が、訓練データ内のタスク頻度がモデルの学習能力に与える影響を調査。400万から40億パラメータのOLMoモデルをDolmaコーパスの最大210 billion tokensで訓練した結果、頻度が約1,000インスタンス／バッチから10バッチごとに1インスタンスまで変動するタスク混合を用いて測定。
モデルはN個のニューロンに対して『最も有用な』N個の特徴を割り当て、有用性は頻出度とタスクの重要度に基づいて決定される。大規模モデルは頻繁なタスクの習得後に解放された容量を稀なタスクに充てられるが、小規模モデルは『更新と忘却のループ』に陥り、稀な例は次の訓練ステップで上書きされる。
訓練データの頻度を増加させることで、モデルサイズを拡大する代わりに特定のスキルを定着させることができる可能性が示唆される。

こうしたAIニュースを毎朝無料で受け取る LINEで友だち追加して受け取る元記事を読む

「大規模言語モデル」の最新ニュースを、毎朝7時にお届けします

AIが要約して、あなたの選んだトピックだけを1日1通。LINE・Email・Slackで届きます。

無料で毎朝受け取る →LINEで友だち追加して受け取る

登録無料・30秒で完了・いつでも解除できます

ディスカッション

まだコメントがありません。最初のコメントを投稿しましょう！

ログインして議論に参加

関連記事

ITC InfotechがGoogle Cloudと提携、エンタープライズAI展開

Yahoo Finance AI3時間前

アリババ、チップからモデルまでAI帝国を構築

DIGITIMES Asia6時間前

ピチャイ氏、Gemini 3.5 Pro遅延で懸念に反論

Yahoo Finance AI6時間前

OpenAI のAIモデル、数時間でハッキング実行通常は数週間要す

Japan Times Tech6時間前

AIニュースを毎日お届け

200以上のソースから厳選したAIニュースを毎日無料でお届けします。

無料で始める

登録無料・30秒で完了・いつでも解除できます

毎朝1分、AIの要点だけ。

200媒体以上・Email/LINE/Slack 対応

無料で受け取る →