
英国のAI Security Instituteがフロンティアモデルをテストした結果、AIエージェントに与える処理量を増やすほど性能が向上することを発見しました。現在の評価では固定された予算上限でテストされているため、実際のAIの能力が過小評価されている可能性があります。特にサイバーセキュリティやソフトウェア開発タスクでは、より多くの予算を使うほど高い成功率が得られるため、測定方法の改善がAIの導入判断や安全性評価に影響を及ぼすと考えられます。
こういう要約が、毎朝あなたのメールに届きます。
無料で登録 →何が起きたか
英国AI Security Institute(AISI)は、複数のベンチマークテストでAIエージェント(自動で判断して作業するAI)の性能を調べました。結果、テスト時のコンピュータ処理量(トークン予算)を増やすほど、エージェントの成功率が大幅に上がることが分かりました。たとえばソフトウェア開発タスクでは、予算を100万トークンから1000万トークンに増やすと、成功率が約25%向上しました。
なぜ重要か
現在のAI評価は固定された予算上限で測定されているため、実際のAIの能力より低く見積もられている可能性があります。サイバーセキュリティのタスクでは、全体の約8%が1000万トークンを超える予算でしか解けませんでした。評価の方法によって、AIの導入判断や経済的価値の見積もりに大きな影響が出ることになります。
注目点
新しいモデルほど追加予算の効果が大きく、最新モデルのタスク実行時間は250万トークン予算で約40分でしたが、5000万トークンで約4時間に伸びました。AISIは今後、複数の異なる予算レベルでモデルをテストする方針を取っています。
まだコメントがありません。最初のコメントを投稿しましょう!
ログインして議論に参加200以上のソースから厳選したAIニュースを毎日無料でお届けします。
無料で始める登録無料・30秒で完了・いつでも解除できます
毎朝1分、AIの要点だけ。
200媒体以上・Email/LINE/Slack 対応