最先端のAIモデルでも、現実のビジネス業務に完全対応できるのはわずか3%——新しいベンチマークが実務的な限界を露呈しました。

THE DECODER11時間前2分で読める

こういう要約が、毎朝あなたのメールに届きます。

3つのポイント

1
何が起きたか：Artificial Analysisが「AA-Briefcase」という新しいベンチマークを発表し、AIモデルを複数週にわたる知識業務に対応させるテストを実施しました。Slackメッセージやメール、会議録音、データ抽出など、現実の業務環境から引き出した数千のファイルを統合して処理する能力を測定したところ、最高性能のClaude Fable 5でも全タスク基準をクリアしたのはわずか3%です。
2
なぜ重要か：91タスク中31タスクでは、どのモデルも50%の達成率に到達できませんでした。精度が低いモデルは必要なファイルを見落とすなど基本的な実行で失敗しますが、高性能なモデルであっても明らかな要件は満たしながら、複数ソースから情報をつなぎ合わせなければ見落とされてしまう細部を逃します。つまり、一見優秀なAIであっても、ビジネスで求められる複雑な知識業務には現在、本質的な課題があることになります。
3
注目点：1タスクあたりのコストは約$0.04（DeepSeek V4 Flash）から$31以上（Claude Fable 5）と、800倍を超える差があります。性能と価格のどちらを重視するかという選択が、企業にとって現実的な課題となる状況を示しています。

この記事のディスカッションはまだありません

200以上のソースから厳選したAIニュースを毎日無料でお届けします。

登録無料・30秒で完了・いつでも解除できます

毎朝5分、AIの要点だけ。

200媒体以上・Email/LINE/Slack 対応