AIToday

AWSがエージェント(自分で判断して作業するAI)の評価を自動化するツール「Agent-EvalKit」をオープンソース化し、開発環境内で品質検証できる仕組みを提供します。

Amazon AI Blog3時間前3分で読める
AWSがエージェント(自分で判断して作業するAI)の評価を自動化するツール「Agent-EvalKit」をオープンソース化し、開発環境内で品質検証できる仕組みを提供します。

こういう要約が、毎朝あなたのメールに届きます。

無料で登録 →

3つのポイント

  1. 1

    何が起きたか:AWSがApache 2.0ライセンスのオープンソースツール「Agent-EvalKit」をリリースしました。このツールは、AIコーディングアシスタント(Claude Code、Kiro CLI、Kilo Codeなど)と連携し、エージェントがツールをどう呼び出し、どのデータを取得し、その結果をどう使ったかを追跡する6段階の評価プロセス(計画、テストデータ生成、トレース追加、実行、評価、レポート作成)を自動化します。

  2. 2

    なぜ重要か:AIエージェントは自動的に複数のツールを選択して実行するため、最終的な出力は良くても、根拠となるデータが不正確だったり、必要な検証ステップをスキップしていたりする失敗が表面に現れません。従来の評価手法ではこうした問題を捉えられず、多くの開発チームが自前で評価インフラを構築する余力を持たないため、このツールによって品質検証の負担が軽減されることが期待されます。

  3. 3

    注目点:Agent-EvalKitは開発環境内で動作し、自然言語で品質目標を指定すると、テストケース生成から実行、コード内の改善箇所の特定まで一連のワークフローが自動化されます。Strands Agents SDK、LangGraph、CrewAIなどの主要フレームワークに対応しており、Amazon Bedrockと組み合わせて利用できます。

ディスカッション

まだコメントがありません。最初のコメントを投稿しましょう!

ログインして議論に参加

関連記事

Microsoft の Steve Ballmer 会長が四半期配当で約 $303 million(約480億円) を受け取り、同社の強固なビジネス基盤が長期株保有者に継続的な利益をもたらしていることが浮き彫りになりました。

Yahoo Finance AI3時間前

Anthropic は Claude Corps という1,000人の研修生プログラムに1億5,000万ドルを投じ、非営利団体の AI 導入を支援します。

Fortune AI3時間前

Booking.comのCEOが、Denver空港での足止めから着想を得て、悪天候を事前に警告し代替手段を自動手配するAI旅行アシスタントの構想を語りました。同社は旅行体験全体の最適化をAIの優先課題としています。

Fortune AI3時間前

Anthropic が新モデル「Fable 5」をリリース。前モデル Opus 比でベンチマーク性能が大幅向上し、複数のサブエージェント(自動判断して作業するAI)を並行実行できるようになったため、長時間の複雑なタスク処理が可能に。

Ben's Bites3時間前

X Square Robotがロボット学習データ収集フレームワーク「XRZero-G0」をオープンソース化し、人間が示したタスクを別のロボット機体へ転用できる道を開きました。

The Robot Report6時間前

Google DeepMindが複数のAIエージェント(自分で判断して作業するAI)が相互作用する際のリスク研究に$10 million(約16億円) の資金を投じ、安全性確保を急ぐ動きが広がっている。

MIT Technology Review AI6時間前

AIニュースを毎日お届け

200以上のソースから厳選したAIニュースを毎日無料でお届けします。

無料で始める

登録無料・30秒で完了・いつでも解除できます

毎朝5分、AIの要点だけ。

200媒体以上・Email/LINE/Slack 対応

無料で受け取る →