人間の専門家がかかる時間とAIのトークン消費の関係は？

調査によると、1分で終わるタスクはエージェントに数千トークン、1時間のタスクは数百万トークン、1週間のタスクは数十億トークン必要という、べき乗則に従う関係が見られました。

新しいモデルと古いモデルでは予算の恩恵に差がある？

新しいモデルは追加予算からより大きな利益を得ます。新世代では、より難しいタスクが解けるようになり、同じタスクをより確実に解け、必要なトークン数が減る傾向が見られました。

医療タスク（HealthBench）でも予算を増やすと性能が上がる？

いいえ、医療タスクではすべてのモデルが標準予算内で性能の頭打ちに達しました。追加予算の効果は、コード実行やエクスプロイト検証など自分の成果を確認できるタスクで顕著です。

記事一覧に戻る大規模言語モデル

大規模言語モデル

AI評価の固定予算では実力を過小評価英国セキュリティ研究所が指摘

THE DECODER1日前6分で読める

要点

英国のAI Security Instituteがフロンティアモデルをテストした結果、AIエージェントに与える処理量を増やすほど性能が向上することを発見しました。現在の評価では固定された予算上限でテストされているため、実際のAIの能力が過小評価されている可能性があります。特にサイバーセキュリティやソフトウェア開発タスクでは、より多くの予算を使うほど高い成功率が得られるため、測定方法の改善がAIの導入判断や安全性評価に影響を及ぼすと考えられます。

こういう要約が、毎朝あなたのメールに届きます。

無料で登録 →

3つのポイント

何が起きたか
英国AI Security Institute（AISI）は、複数のベンチマークテストでAIエージェント（自動で判断して作業するAI）の性能を調べました。結果、テスト時のコンピュータ処理量（トークン予算）を増やすほど、エージェントの成功率が大幅に上がることが分かりました。たとえばソフトウェア開発タスクでは、予算を100万トークンから1000万トークンに増やすと、成功率が約25%向上しました。
なぜ重要か
現在のAI評価は固定された予算上限で測定されているため、実際のAIの能力より低く見積もられている可能性があります。サイバーセキュリティのタスクでは、全体の約8%が1000万トークンを超える予算でしか解けませんでした。評価の方法によって、AIの導入判断や経済的価値の見積もりに大きな影響が出ることになります。
注目点
新しいモデルほど追加予算の効果が大きく、最新モデルのタスク実行時間は250万トークン予算で約40分でしたが、5000万トークンで約4時間に伸びました。AISIは今後、複数の異なる予算レベルでモデルをテストする方針を取っています。

無料登録して続きを読む元記事を読む

よくある質問

人間の専門家がかかる時間とAIのトークン消費の関係は？: 調査によると、1分で終わるタスクはエージェントに数千トークン、1時間のタスクは数百万トークン、1週間のタスクは数十億トークン必要という、べき乗則に従う関係が見られました。
新しいモデルと古いモデルでは予算の恩恵に差がある？: 新しいモデルは追加予算からより大きな利益を得ます。新世代では、より難しいタスクが解けるようになり、同じタスクをより確実に解け、必要なトークン数が減る傾向が見られました。
医療タスク（HealthBench）でも予算を増やすと性能が上がる？: いいえ、医療タスクではすべてのモデルが標準予算内で性能の頭打ちに達しました。追加予算の効果は、コード実行やエクスプロイト検証など自分の成果を確認できるタスクで顕著です。

ディスカッション

まだコメントがありません。最初のコメントを投稿しましょう！

ログインして議論に参加

AIニュースを毎日お届け

200以上のソースから厳選したAIニュースを毎日無料でお届けします。

無料で始める

登録無料・30秒で完了・いつでも解除できます

毎朝1分、AIの要点だけ。

200媒体以上・Email/LINE/Slack 対応

無料で受け取る →

AI評価の固定予算では実力を過小評価 英国セキュリティ研究所が指摘

要点

3つのポイント

よくある質問

ディスカッション

関連記事

オープンソースツール、Claude Code利用料を70%削減 テキストをPNG画像に変換

Alibaba、Anthropicの開発ツール Claude Code を社員に禁止へ

Mistral AI、年間経常利益4億ドル超え 主要国家とのAI関係を強化

Claude Fable 5、ユーザー自身の「未知」を見つめることが品質向上の鍵

アセンブリ言語パズル『SYSCALL』公開 エージェントAI疲れの開発者向け

Qpilot、AIがテスト手順を実ブラウザで自動実行

AIニュースを毎日お届け

AI評価の固定予算では実力を過小評価英国セキュリティ研究所が指摘

オープンソースツール、Claude Code利用料を70%削減テキストをPNG画像に変換

Mistral AI、年間経常利益4億ドル超え主要国家とのAI関係を強化

アセンブリ言語パズル『SYSCALL』公開エージェントAI疲れの開発者向け