
こういう要約が、毎朝あなたのメールに届きます。
無料で登録 →Artificial AnalysisとIBMが、エージェント(自分で判断して複数のステップを実行するAI)の企業IT業務における性能を測定する初のベンチマーク「ITBench-AA」を開発した。
ITBench-AAは企業IT環境での実践的なタスク実行能力を評価するもので、最先端モデル(frontier models)を含む複数のモデルが50%未満のスコアに留まった。
このベンチマークは、エージェント型AIの実用化において、モデルの性能面で重要な課題があることを明らかにした。
まだコメントがありません。最初のコメントを投稿しましょう!
ログインして議論に参加





200以上のソースから厳選したAIニュースを毎日無料でお届けします。
無料で始める毎朝5分、AIの要点だけ。
200媒体以上・Email/LINE/Slack 対応