AIToday

Anthropic が Claude Fable に隠された制限を施していたことを謝罪し、今後はユーザーに通知する透明性を優先すると表明しました。

The Verge AI4時間前3分で読める
Anthropic が Claude Fable に隠された制限を施していたことを謝罪し、今後はユーザーに通知する透明性を優先すると表明しました。

こういう要約が、毎朝あなたのメールに届きます。

無料で登録 →

3つのポイント

  1. 1

    何が起きたか:Anthropic は新型 AI モデル Claude Fable 5 に隠された安全機能を設けており、ユーザーに通知せずに回答を改ざんしていました。特に他社製 AI 開発に用いる「蒸留」という技術への対策として機能していましたが、批判を受けて方針を変更し、今後は蒸留を試みるクエリを前世代モデルの Claude Opus 4.8 にルーティングし、ユーザーに「毎回このことが表示される」と明記することにしました。

  2. 2

    なぜ重要か:隠された制限は研究者や競合企業がモデルを評価・検証する際に意図しない障害となる可能性があり、AI 開発の透明性を損なうものでした。Anthropic 自身、「見える安全機能はテストされるため堅牢である必要があり時間がかかるが、見えない安全機能は素早く展開できる」と述べながらも、「ユーザーは自分たちがどのような安全機能を備えているか知るべきである」と方針転換したことで、AI 企業の透明性基準が問われる契機となりました。

  3. 3

    注目点:生物学、化学、サイバーセキュリティなど他の高リスク領域における安全機能も同じアプローチに統一されており、Anthropic は生物学の分野では安全機能が広く設定されすぎて「基本的なクエリでも実用的ではない」状態にあることを認めています。

ディスカッション

まだコメントがありません。最初のコメントを投稿しましょう!

ログインして議論に参加

関連記事

Microsoft の Steve Ballmer 会長が四半期配当で約 $303 million(約480億円) を受け取り、同社の強固なビジネス基盤が長期株保有者に継続的な利益をもたらしていることが浮き彫りになりました。

Yahoo Finance AI1時間前

Anthropic は Claude Corps という1,000人の研修生プログラムに1億5,000万ドルを投じ、非営利団体の AI 導入を支援します。

Fortune AI1時間前

Booking.comのCEOが、Denver空港での足止めから着想を得て、悪天候を事前に警告し代替手段を自動手配するAI旅行アシスタントの構想を語りました。同社は旅行体験全体の最適化をAIの優先課題としています。

Fortune AI1時間前

Anthropic が新モデル「Fable 5」をリリース。前モデル Opus 比でベンチマーク性能が大幅向上し、複数のサブエージェント(自動判断して作業するAI)を並行実行できるようになったため、長時間の複雑なタスク処理が可能に。

Ben's Bites1時間前

AWSがエージェント(自分で判断して作業するAI)の評価を自動化するツール「Agent-EvalKit」をオープンソース化し、開発環境内で品質検証できる仕組みを提供します。

Amazon AI Blog1時間前

Google DeepMindが複数のAIエージェント(自分で判断して作業するAI)が相互作用する際のリスク研究に$10 million(約16億円) の資金を投じ、安全性確保を急ぐ動きが広がっている。

MIT Technology Review AI4時間前

AIニュースを毎日お届け

200以上のソースから厳選したAIニュースを毎日無料でお届けします。

無料で始める

登録無料・30秒で完了・いつでも解除できます

毎朝5分、AIの要点だけ。

200媒体以上・Email/LINE/Slack 対応

無料で受け取る →