ログイン無料で登録する

記事一覧に戻る大規模言語モデル

大規模言語モデル画像生成ヘルスケアAI

医療専門のAIツールよりも、汎用の最新言語モデルのほうが臨床現場での性能が優れていることが研究で判明しました。

Hacker News4日前3分で読める

医療専門のAIツールよりも、汎用の最新言語モデルのほうが臨床現場での性能が優れていることが研究で判明しました。

こういう要約が、毎朝あなたのメールに届きます。

無料で登録 →

3つのポイント

1
何が起きたか：医療専門AI（OpenEvidenceとUpToDate Expert AI）と、GPT-5.2、Gemini 3.1 Pro、Claude Opus 4.6といった汎用言語モデルを3段階で比較評価しました。医学知識を問うMedQA500問ではGeminiが97.4%の精度で最高となり、OpenEvidenceの89.6%、UpToDateの88.4%を上回りました。実際の医師の質問100件を12人の米国医師がブラインド評価した「実臨床クエリ」ベンチマークでも、汎用モデルが医療専門ツールを上回りました。
2
なぜ重要か：医療専門AIツールは、その仕組みや学習方法が非公開のまま医療現場に導入されつつあります。本研究は、ドメイン特化と謳われた医療AIが、実際には一般向けの最新モデルより性能が低い可能性を示唆しており、医療現場での安全性評価の重要性を指摘しています。
3
注目点：実臨床クエリベンチマークでは、医師たちによる1,800件の模型・質問評価が行われました。研究は、臨床現場のAIツール導入前に独立した実世界評価が必要であることを強調しています。

無料登録して続きを読む

ディスカッション

まだコメントがありません。最初のコメントを投稿しましょう！

ログインして議論に参加

関連記事

Google の AI モデル開発の中核メンバー Noam Shazeer が OpenAI に移籍し、Google の推論能力強化への転機を迎える

THE DECODER1時間前

女優Anne Hathawayが採用面接で、応募者全員がChatGPTで書いた同じ文面の礼状を送ってきたことに気づき、AI生成文の見分け方は簡単だと指摘しました。

Fortune AI1時間前

OpenAIがChatGPTで日本での広告配信を始める計画で、生成AIが検索に代わりつつある中、広告市場の主導権争いが新たな段階に入る。

Nikkei AI Stocks1時間前

Midjourney が医療用超音波スキャナー「Midjourney Scanner」を発表、50年ぶりの新しい全身検査方式として展開を目指しています。

Latent Space4時間前

オープンソースのAIセキュリティツール「SIGIL」がリリース——クラウドサーバー不要で暗号署名によるプロンプト改ざん検知を実現

Hacker News4時間前

AIエージェント向けメモリシステム「memharness」が公開——SQLiteベースで、LLM呼び出し不要の監査可能な記憶層を提供。

Hacker News4時間前

AIニュースを毎日お届け

200以上のソースから厳選したAIニュースを毎日無料でお届けします。

無料で始める

登録無料・30秒で完了・いつでも解除できます

毎朝5分、AIの要点だけ。

200媒体以上・Email/LINE/Slack 対応

無料で受け取る →