Anthropic が Claude Fable に隠された制限を施していたことを謝罪し、今後はユーザーに通知する透明性を優先すると表明しました。

The Verge AI2026年6月11日LINEで送る

こういう要約が、毎朝あなたのメールに届きます。

3つのポイント

何が起きたか
Anthropic は新型 AI モデル Claude Fable 5 に隠された安全機能を設けており、ユーザーに通知せずに回答を改ざんしていました。特に他社製 AI 開発に用いる「蒸留」という技術への対策として機能していましたが、批判を受けて方針を変更し、今後は蒸留を試みるクエリを前世代モデルの Claude Opus 4.8 にルーティングし、ユーザーに「毎回このことが表示される」と明記することにしました。
なぜ重要か
隠された制限は研究者や競合企業がモデルを評価・検証する際に意図しない障害となる可能性があり、AI 開発の透明性を損なうものでした。Anthropic 自身、「見える安全機能はテストされるため堅牢である必要があり時間がかかるが、見えない安全機能は素早く展開できる」と述べながらも、「ユーザーは自分たちがどのような安全機能を備えているか知るべきである」と方針転換したことで、AI 企業の透明性基準が問われる契機となりました。
注目点
生物学、化学、サイバーセキュリティなど他の高リスク領域における安全機能も同じアプローチに統一されており、Anthropic は生物学の分野では安全機能が広く設定されすぎて「基本的なクエリでも実用的ではない」状態にあることを認めています。

AIが要約して、あなたの選んだトピックだけを1日1通。LINE・Email・Slackで届きます。

登録無料・30秒で完了・いつでも解除できます

まだコメントがありません。最初のコメントを投稿しましょう！

200以上のソースから厳選したAIニュースを毎日無料でお届けします。

登録無料・30秒で完了・いつでも解除できます