Tsinghua大学の研究チームが開発した「Count Anything」は、群衆の人数から医療画像の細胞まで、あらゆる種類の物体を数えられる汎用AIモデルで、これまで個別システムが必要だった課題を一つのモデルで解決します。

THE DECODER4日前3分で読める

こういう要約が、毎朝あなたのメールに届きます。

3つのポイント

1
何が起きたか：Tsinghua大学などの研究チームが、テキスト指示に従ってあらゆる画像から物体を数える「Count Anything」を発表しました。大きくて見やすい物体を検出するシステムと、小さく密集した物体に対応するシステムを組み合わせることで、風景写真から衛星画像、医療スキャン、細菌培養まで、6つの異なる画像タイプに対応しています。
2
なぜ重要か：物体の正確な計数は医者の診断、農家の収穫量予測、都市計画の交通分析など現実の重要な判断に使われますが、従来はそれぞれの用途に特化した個別システムが必要でした。単一モデルで多様な計数タスクに対応できれば、こうした分野での導入が現実的になると考えられます。
3
注目点：研究チームが構築した「CLOC」データセットは約220,000画像、619カテゴリ、1,500万個のラベル付き物体を含む、テキスト指示型計数の最大規模のクロスドメインデータセットです。Count Anythingは平均して1クエリあたり約9個の誤差で計数し、最高の競合モデルの2倍以上の精度を示しています。コードはGitHubで公開されています。

この記事のディスカッションはまだありません

200以上のソースから厳選したAIニュースを毎日無料でお届けします。

登録無料・30秒で完了・いつでも解除できます

毎朝5分、AIの要点だけ。

200媒体以上・Email/LINE/Slack 対応