AIエージェントの動作はコードの層に依存する――研究論文が指摘

THE DECODER2026年5月29日

こういう要約が、毎朝あなたのメールに届きます。

3つのポイント

イリノイ大学アーバナ・シャンペーン校、Meta、Stanfordの研究者が、AIエージェントがコードを推論・実行・協調作業の基盤として使うと主張する論文を発表。ソフトウェア層（「harness」と呼ぶ）がモデルを言語処理から自律的に動作するエージェントに変えると指摘。
harness層はツール、インターフェース、サンドボックス実行環境、メモリ、テスト、権限設定、実行ループ、フィードバックチャネルを含む。コードは実行可能、追跡可能、ステップをまたいで持続するため、モデルの出力を検証可能な操作に変換する。
Anthropic、OpenAI、DeepSeekなど複数の企業がこのパターンを実装。例えばAnthropicのClaude Codeはローカルターミナル、開発環境、ブラウザを統合し、エージェントがファイル編集やコマンド実行時に権限ルールに従う必要がある。DeepSeekは同様の「Harness」チームを北京に設立。
研究者は現在のテスト基準では不十分と指摘。テストが不完全な場合があり、GUIエージェント向けのテストは悪い中間ステップを見落とす可能性があり、シミュレータは物理的リスクを隠蔽する危険があると述べている。

まだコメントがありません。最初のコメントを投稿しましょう！

200以上のソースから厳選したAIニュースを毎日無料でお届けします。

登録無料・30秒で完了・いつでも解除できます

毎朝1分、AIの要点だけ。

200媒体以上・Email/LINE/Slack 対応