
AI agents による自動化の進捗を測定する Remote Labor Index で、フリーランス案件の完遂率が 8 ヶ月間で 2.5% から 16.1% に急上昇しました。最先端モデルの Fable 5 が記録を更新しましたが、それでも大多数の案件は専門家水準に達しておらず、専門ソフトウェア操作など実務作業の制限が顕在化しています。一方、AI 評価者は人間より大幅に甘い判定をするため、進捗の検証には人間の評価が不可欠となっています。
こういう要約が、毎朝あなたのメールに届きます。
無料で登録 →何が起きたか
AI agents の自動化率(専門家水準で案件を完遂する割合)が、ベンチマーク立ち上げ時の 2.5% から 16.1% に跳ね上がりました。Fable 5 がこの最高記録を達成し、2 位の Opus 4.8(8.3%)のおおよそ 2 倍となっています。
なぜ重要か
リモートワークの自動化が実質的に進んでいることを示す数値です。Remote Labor Index は 3D・CAD、建築、グラフィック設計、動画・音声制作など実務的なフリーランス案件 240 件(総額 $144,000)で測定されており、単なる理論値ではなく、顧客が実際に受け入れる品質水準での達成率です。
注目点
ただし Fable 5 は 240 件中 218 件しか評価でき、残り 22 件すべてで失敗した場合でも自動化率は 14.6% に留まるため、スコアの堅牢性が確認されています。一方、人間の評価者は置き換えられない状況が明らかになりました。AI 評価者は新しいモデルを過度に高く評価し、GPT-5.5 ではほぼ 3 倍高い点数をつけていました。
まだコメントがありません。最初のコメントを投稿しましょう!
ログインして議論に参加200以上のソースから厳選したAIニュースを毎日無料でお届けします。
無料で始める登録無料・30秒で完了・いつでも解除できます
毎朝1分、AIの要点だけ。
200媒体以上・Email/LINE/Slack 対応