AIToday

GitHub Copilot のエージェント実行基盤が複数のAIモデルに対応しながら、同等のタスク完了率を維持して少ないトークン消費を実現。

GitHub Copilot Blog1日前5分で読める
GitHub Copilot のエージェント実行基盤が複数のAIモデルに対応しながら、同等のタスク完了率を維持して少ないトークン消費を実現。

要点

GitHub Copilot の実行基盤は、20以上のフロンティアモデル(GPT、Claude、Gemini、MAI ファミリー、オープンソースモデル対応)をサポートしながら、複数の標準ベンチマーク(SWE-bench Verified、SWE-bench Pro、SkillsBench など)で同等のタスク完了率を保ちながらトークン消費を減らしていることが明らかになりました。開発者はモデルベンダーの公式ハーネスに比べて、同じ結果をより少ないトークンで達成でき、タスク特性に応じて効率か品質かを選択できるようになります。

こういう要約が、毎朝あなたのメールに届きます。

無料で登録 →

3つのポイント

  • 何が起きたか

    GitHub は、GitHub Copilot SDK の中核となるエージェント実行基盤(ハーネス)が、Claude Sonnet 4.6、Claude Opus 4.7、GPT-5.4、GPT-5.5 といった複数の最先端モデルに対応し、ベンチマークテストで同等のタスク完了率を実現しながらトークン消費が少ないことを実証しました。

  • なぜ重要か

    開発者にとって、同じ処理を同等の精度で実現しながらコストを抑える選択肢が生まれます。また、複数モデルに対応する設計により、タスクごとに効率性と品質のトレードオフを自分で選べるようになるため、開発効率とコスト管理の両立が可能になる可能性があります。

  • 注目点

    GitHub Copilot は GPT モデルで最高の費用対効果を、Claude Opus で最高の完了率を実現するなど、モデルごとに異なる特性があることが判明。TerminalBench 2.0 での分析では、GitHub Copilot の紫色のマーカーが競合ハーネスと同等または上回るポジションに位置し、実行から実行への分散は各設定の標準偏差で示されています。

よくある質問

GitHub Copilot のエージェント実行基盤はどのモデルに対応していますか?
20以上のフロンティアモデルに対応しており、GPT、Claude、Gemini、MAI ファミリーのほか、オープンソースやローカルモデルもサポートしています。
従来のモデルベンダーのハーネスと比べて何が違いますか?
GitHub Copilot の実行基盤は、同じモデルとタスクで複数のベンチマークにおいてトークン消費が少ないうえ、複数モデルを柔軟に選択できるマルチモデル設計により、モデルベンダーの単一ハーネスでは提供できないハーネスレベルの機能(例えば Rubber Duck という複数モデル間による相互レビュー機能)が利用できます。
ベンチマークではどのような項目を評価していますか?
SWE-bench Verified(オープンソース Python リポジトリの 500 件のバグ修正タスク)、SWE-bench Pro(複雑な多段階タスク)、SkillsBench(スキル活用能力)、TerminalBench(ターミナルベース作業のパフォーマンス)、Win-Hill(Windows コンテナ内のタスク)など複数の標準およびカスタムベンチマークで評価しています。

ディスカッション

まだコメントがありません。最初のコメントを投稿しましょう!

ログインして議論に参加

関連記事

AIニュースを毎日お届け

200以上のソースから厳選したAIニュースを毎日無料でお届けします。

無料で始める

登録無料・30秒で完了・いつでも解除できます

毎朝5分、AIの要点だけ。

200媒体以上・Email/LINE/Slack 対応

無料で受け取る →