AIToday

ロシア産プロパガンダへの耐性を測るベンチマークで、Anthropicの言語モデルが他社を大きく上回り、Mistralは下位3分の1に沈みました。

THE DECODER10時間前3分で読める
ロシア産プロパガンダへの耐性を測るベンチマークで、Anthropicの言語モデルが他社を大きく上回り、Mistralは下位3分の1に沈みました。

こういう要約が、毎朝あなたのメールに届きます。

無料で登録 →

3つのポイント

  1. 1

    何が起きたか:エストニア言語研究所が60個のAI言語モデルをテストし、ロシアのプロパガンダに対する耐性を測定しました。75の質問を3言語で14のプロパガンダ報道を対象に、中立的・偏った・操作的な表現で提示し、1~5段階で採点しています。Anthropic の Claude Fable 5 が 95.2 点でトップ、Claude Opus 4.7 が続きました。一方、Mistral のモデル群は下位3分の1にとどまりました。

  2. 2

    なぜ重要か:ロシアのプロパガンダ組織は意図的にAIシステムに何百万もの虚偽記事を供給しており、OpenAI も最近ドイツの連邦選挙前に ChatGPT を使った宣伝キャンペーンを遮断しています。このベンチマーク結果は、どのモデルがそうした影響に強いかを明確に示す重要な指標となります。Mistral は欧州の有力提供業者として位置付けているだけに、結果は同社のイメージに影響する可能性があります。

  3. 3

    注目点:ベンチマーク評価には Anthropic の Claude Opus 4.5 を使用し、ディスインフォメーション専門機関の Propastop が検証を行いました。モデルはテスト中にウェブ検索などツールへのアクセスを持たず、言語モデル自体のプロパガンダ識別・拒否能力のみを測定しています。Mistral は別の調査で 36.67% のミスインフォメーション率を記録しており、足許の課題が浮き彫りになっています。

ディスカッション

まだコメントがありません。最初のコメントを投稿しましょう!

ログインして議論に参加

関連記事

AIニュースを毎日お届け

200以上のソースから厳選したAIニュースを毎日無料でお届けします。

無料で始める

登録無料・30秒で完了・いつでも解除できます

毎朝5分、AIの要点だけ。

200媒体以上・Email/LINE/Slack 対応

無料で受け取る →