AIToday

OpenAIのGPT、Claudeが金融文書評価で低迷 ファインチューニングモデルが圧倒

THE DECODER6時間前5分で読める
OpenAIのGPT、Claudeが金融文書評価で低迷 ファインチューニングモデルが圧倒

要点

Bridgewaterとその提携企業が、金融文書評価タスクでOpenAIのGPTやGoogleのGeminiといったフロンティアモデルをテストしたところ、専門家が作成したプロンプトでも精度は70%台半ばに留まりました。一方、Bridgewater投資家の判断で再学習したオープンソースモデルは84.7%の精度を達成し、実行コストは約14倍安いという結果が出ました。これは大手AI企業が企業の機密データを持っていないことを示し、企業が自社データを保護しながらAIを改善する可能性を浮き彫りにしています。

こういう要約が、毎朝あなたのメールに届きます。

無料で登録 →

3つのポイント

  • 何が起きたか

    Bridgewater傘下のAIA LabsとThinking Machines Labが、金融文書の関連性判定タスクでOpenAIやGoogleのフロンティアモデルを試験したところ、基本的なプロンプトでは約50%の精度に留まりました。一方、専門家が作成したプロンプトと3段階評価システムを組み合わせると精度は70%台半ばに上昇しましたが、著者らが設定した80%の信頼できるデプロイメント基準には達しませんでした。

  • なぜ重要か

    Bridgewater傘下の投資家の判断を使ってファインチューニング(再学習)したオープンウェイトモデルが84.7%の精度を達成し、最高のフロンティアモデルの78.2%を上回ったうえ、実行コストは約14倍安くなりました。これは大手AIラボが企業の機密データや専門知識をすべて取り込んでいないことを示唆しており、自社データを保有したまま改善する道筋が存在することを意味します。

  • 注目点

    ファインチューニングはThinking Machines Labの「Tinker」プラットフォーム上で行われ、オープンモデルのQwen3-235Bをベースに使用しました。同社はOpenAIの元CTO Mira Muratiが創業した企業です。

よくある質問

フロンティアモデル(GPT、Claude等)は金融文書評価でどの程度の精度でしたか?
基本的なプロンプトでは約50%の精度でした。専門家が作成したプロンプトと3段階評価システムを導入すると精度は70%台半ばに上昇しましたが、著者らが設定した80%の基準には達しませんでした。
どのモデルを改善に使いましたか?
オープンウェイトモデルのQwen3-235Bを、Thinking Machines LabのTinkerプラットフォーム上でファインチューニングしました。
ファインチューニングの成功の鍵は何でしたか?
外部の安い委託業者によるラベル付けには多くの誤りがありましたが、研究者は最初のモデルから異なる結果が出た箇所だけを投資家に検証させることで、全件査読の負担を避けました。その投資家の判断がファインチューニングの重要な素材になりました。

ディスカッション

まだコメントがありません。最初のコメントを投稿しましょう!

ログインして議論に参加

関連記事

AIニュースを毎日お届け

200以上のソースから厳選したAIニュースを毎日無料でお届けします。

無料で始める

登録無料・30秒で完了・いつでも解除できます

毎朝1分、AIの要点だけ。

200媒体以上・Email/LINE/Slack 対応

無料で受け取る →