AIToday

AI評価の固定予算では実力を過小評価 英国セキュリティ研究所が指摘

THE DECODER1日前6分で読める
AI評価の固定予算では実力を過小評価 英国セキュリティ研究所が指摘

要点

英国のAI Security Instituteがフロンティアモデルをテストした結果、AIエージェントに与える処理量を増やすほど性能が向上することを発見しました。現在の評価では固定された予算上限でテストされているため、実際のAIの能力が過小評価されている可能性があります。特にサイバーセキュリティやソフトウェア開発タスクでは、より多くの予算を使うほど高い成功率が得られるため、測定方法の改善がAIの導入判断や安全性評価に影響を及ぼすと考えられます。

こういう要約が、毎朝あなたのメールに届きます。

無料で登録 →

3つのポイント

  • 何が起きたか

    英国AI Security Institute(AISI)は、複数のベンチマークテストでAIエージェント(自動で判断して作業するAI)の性能を調べました。結果、テスト時のコンピュータ処理量(トークン予算)を増やすほど、エージェントの成功率が大幅に上がることが分かりました。たとえばソフトウェア開発タスクでは、予算を100万トークンから1000万トークンに増やすと、成功率が約25%向上しました。

  • なぜ重要か

    現在のAI評価は固定された予算上限で測定されているため、実際のAIの能力より低く見積もられている可能性があります。サイバーセキュリティのタスクでは、全体の約8%が1000万トークンを超える予算でしか解けませんでした。評価の方法によって、AIの導入判断や経済的価値の見積もりに大きな影響が出ることになります。

  • 注目点

    新しいモデルほど追加予算の効果が大きく、最新モデルのタスク実行時間は250万トークン予算で約40分でしたが、5000万トークンで約4時間に伸びました。AISIは今後、複数の異なる予算レベルでモデルをテストする方針を取っています。

よくある質問

人間の専門家がかかる時間とAIのトークン消費の関係は?
調査によると、1分で終わるタスクはエージェントに数千トークン、1時間のタスクは数百万トークン、1週間のタスクは数十億トークン必要という、べき乗則に従う関係が見られました。
新しいモデルと古いモデルでは予算の恩恵に差がある?
新しいモデルは追加予算からより大きな利益を得ます。新世代では、より難しいタスクが解けるようになり、同じタスクをより確実に解け、必要なトークン数が減る傾向が見られました。
医療タスク(HealthBench)でも予算を増やすと性能が上がる?
いいえ、医療タスクではすべてのモデルが標準予算内で性能の頭打ちに達しました。追加予算の効果は、コード実行やエクスプロイト検証など自分の成果を確認できるタスクで顕著です。

ディスカッション

まだコメントがありません。最初のコメントを投稿しましょう!

ログインして議論に参加

関連記事

AIニュースを毎日お届け

200以上のソースから厳選したAIニュースを毎日無料でお届けします。

無料で始める

登録無料・30秒で完了・いつでも解除できます

毎朝1分、AIの要点だけ。

200媒体以上・Email/LINE/Slack 対応

無料で受け取る →