AIToday

AI agents、フリーランス案件の16%を専門家水準で完遂 8ヶ月で6倍超

THE DECODER2時間前5分で読める
AI agents、フリーランス案件の16%を専門家水準で完遂 8ヶ月で6倍超

要点

AI agents による自動化の進捗を測定する Remote Labor Index で、フリーランス案件の完遂率が 8 ヶ月間で 2.5% から 16.1% に急上昇しました。最先端モデルの Fable 5 が記録を更新しましたが、それでも大多数の案件は専門家水準に達しておらず、専門ソフトウェア操作など実務作業の制限が顕在化しています。一方、AI 評価者は人間より大幅に甘い判定をするため、進捗の検証には人間の評価が不可欠となっています。

こういう要約が、毎朝あなたのメールに届きます。

無料で登録 →

3つのポイント

  • 何が起きたか

    AI agents の自動化率(専門家水準で案件を完遂する割合)が、ベンチマーク立ち上げ時の 2.5% から 16.1% に跳ね上がりました。Fable 5 がこの最高記録を達成し、2 位の Opus 4.8(8.3%)のおおよそ 2 倍となっています。

  • なぜ重要か

    リモートワークの自動化が実質的に進んでいることを示す数値です。Remote Labor Index は 3D・CAD、建築、グラフィック設計、動画・音声制作など実務的なフリーランス案件 240 件(総額 $144,000)で測定されており、単なる理論値ではなく、顧客が実際に受け入れる品質水準での達成率です。

  • 注目点

    ただし Fable 5 は 240 件中 218 件しか評価でき、残り 22 件すべてで失敗した場合でも自動化率は 14.6% に留まるため、スコアの堅牢性が確認されています。一方、人間の評価者は置き換えられない状況が明らかになりました。AI 評価者は新しいモデルを過度に高く評価し、GPT-5.5 ではほぼ 3 倍高い点数をつけていました。

よくある質問

この自動化率はどのような案件を対象に測定されていますか?
3D・CAD、建築、グラフィック設計、動画・音声制作、データ分析、Web アプリケーション開発など、フリーランス市場で実際に発注される案件です。240 件の案件は 358 人の認定フリーランサーから調達され、総額は $144,000 に相当します。
なぜ AI 評価者を使わずに人間の評価が必要なのですか?
AI 評価者は新しいモデルを過度に高く評価する傾向があり、GPT-5.5 ではほぼ 3 倍高い点数をつけていました。公正に判定するには、専門ソフトウェアを正しく開く・操作し、顧客のような目線で判断する必要があり、現在の AI agents はこの種の実践的ソフトウェア操作が最も苦手だからです。
Fable 5 のスコアは確定したものですか?
240 件中 218 件しか評価でき、残り 22 件は米国政府によるアクセス制限のため評価できていません。ただし仮に 22 件すべてで失敗した場合でも、自動化率は 14.6% に留まり、他の全モデルを上回ります。

ディスカッション

まだコメントがありません。最初のコメントを投稿しましょう!

ログインして議論に参加

関連記事

AIニュースを毎日お届け

200以上のソースから厳選したAIニュースを毎日無料でお届けします。

無料で始める

登録無料・30秒で完了・いつでも解除できます

毎朝1分、AIの要点だけ。

200媒体以上・Email/LINE/Slack 対応

無料で受け取る →