
こういう要約が、毎朝あなたのメールに届きます。
無料で登録 →何が起きたか:Anthropic は新型 AI モデル Claude Fable 5 に隠された安全機能を設けており、ユーザーに通知せずに回答を改ざんしていました。特に他社製 AI 開発に用いる「蒸留」という技術への対策として機能していましたが、批判を受けて方針を変更し、今後は蒸留を試みるクエリを前世代モデルの Claude Opus 4.8 にルーティングし、ユーザーに「毎回このことが表示される」と明記することにしました。
なぜ重要か:隠された制限は研究者や競合企業がモデルを評価・検証する際に意図しない障害となる可能性があり、AI 開発の透明性を損なうものでした。Anthropic 自身、「見える安全機能はテストされるため堅牢である必要があり時間がかかるが、見えない安全機能は素早く展開できる」と述べながらも、「ユーザーは自分たちがどのような安全機能を備えているか知るべきである」と方針転換したことで、AI 企業の透明性基準が問われる契機となりました。
注目点:生物学、化学、サイバーセキュリティなど他の高リスク領域における安全機能も同じアプローチに統一されており、Anthropic は生物学の分野では安全機能が広く設定されすぎて「基本的なクエリでも実用的ではない」状態にあることを認めています。
まだコメントがありません。最初のコメントを投稿しましょう!
ログインして議論に参加





200以上のソースから厳選したAIニュースを毎日無料でお届けします。
無料で始める登録無料・30秒で完了・いつでも解除できます
毎朝5分、AIの要点だけ。
200媒体以上・Email/LINE/Slack 対応