フロンティアモデル（GPT、Claude等）は金融文書評価でどの程度の精度でしたか？

基本的なプロンプトでは約50%の精度でした。専門家が作成したプロンプトと3段階評価システムを導入すると精度は70%台半ばに上昇しましたが、著者らが設定した80%の基準には達しませんでした。

どのモデルを改善に使いましたか？

オープンウェイトモデルのQwen3-235Bを、Thinking Machines LabのTinkerプラットフォーム上でファインチューニングしました。

ファインチューニングの成功の鍵は何でしたか？

外部の安い委託業者によるラベル付けには多くの誤りがありましたが、研究者は最初のモデルから異なる結果が出た箇所だけを投資家に検証させることで、全件査読の負担を避けました。その投資家の判断がファインチューニングの重要な素材になりました。

記事一覧に戻る大規模言語モデル

大規模言語モデル

OpenAIのGPT、Claudeが金融文書評価で低迷ファインチューニングモデルが圧倒

THE DECODER6時間前5分で読める

要点

Bridgewaterとその提携企業が、金融文書評価タスクでOpenAIのGPTやGoogleのGeminiといったフロンティアモデルをテストしたところ、専門家が作成したプロンプトでも精度は70%台半ばに留まりました。一方、Bridgewater投資家の判断で再学習したオープンソースモデルは84.7%の精度を達成し、実行コストは約14倍安いという結果が出ました。これは大手AI企業が企業の機密データを持っていないことを示し、企業が自社データを保護しながらAIを改善する可能性を浮き彫りにしています。

こういう要約が、毎朝あなたのメールに届きます。

無料で登録 →

3つのポイント

何が起きたか
Bridgewater傘下のAIA LabsとThinking Machines Labが、金融文書の関連性判定タスクでOpenAIやGoogleのフロンティアモデルを試験したところ、基本的なプロンプトでは約50%の精度に留まりました。一方、専門家が作成したプロンプトと3段階評価システムを組み合わせると精度は70%台半ばに上昇しましたが、著者らが設定した80%の信頼できるデプロイメント基準には達しませんでした。
なぜ重要か
Bridgewater傘下の投資家の判断を使ってファインチューニング（再学習）したオープンウェイトモデルが84.7%の精度を達成し、最高のフロンティアモデルの78.2%を上回ったうえ、実行コストは約14倍安くなりました。これは大手AIラボが企業の機密データや専門知識をすべて取り込んでいないことを示唆しており、自社データを保有したまま改善する道筋が存在することを意味します。
注目点
ファインチューニングはThinking Machines Labの「Tinker」プラットフォーム上で行われ、オープンモデルのQwen3-235Bをベースに使用しました。同社はOpenAIの元CTO Mira Muratiが創業した企業です。

無料登録して続きを読む元記事を読む

よくある質問

フロンティアモデル（GPT、Claude等）は金融文書評価でどの程度の精度でしたか？: 基本的なプロンプトでは約50%の精度でした。専門家が作成したプロンプトと3段階評価システムを導入すると精度は70%台半ばに上昇しましたが、著者らが設定した80%の基準には達しませんでした。
どのモデルを改善に使いましたか？: オープンウェイトモデルのQwen3-235Bを、Thinking Machines LabのTinkerプラットフォーム上でファインチューニングしました。
ファインチューニングの成功の鍵は何でしたか？: 外部の安い委託業者によるラベル付けには多くの誤りがありましたが、研究者は最初のモデルから異なる結果が出た箇所だけを投資家に検証させることで、全件査読の負担を避けました。その投資家の判断がファインチューニングの重要な素材になりました。

ディスカッション

まだコメントがありません。最初のコメントを投稿しましょう！

ログインして議論に参加

AIニュースを毎日お届け

200以上のソースから厳選したAIニュースを毎日無料でお届けします。

無料で始める

登録無料・30秒で完了・いつでも解除できます

毎朝1分、AIの要点だけ。

200媒体以上・Email/LINE/Slack 対応

無料で受け取る →

OpenAIのGPT、Claudeが金融文書評価で低迷 ファインチューニングモデルが圧倒

要点

3つのポイント

よくある質問

ディスカッション

関連記事

Ripple、AI決済機能をXRP台帳に追加 ただし保有者への利益は限定的

Meta、AI開発が予想以上に遅延 Zuckerberg幹部に認める

Anthropic、医薬品開発に参入 科学向けAIツール発表

Meta AI開発、Zuckerberg認める「想定より遅れ」

エージェントAI向けセキュリティ市場、32年に135億ドル規模へ

AIエージェントの移植性・統治を実現する Agentrc 公開

AIニュースを毎日お届け

OpenAIのGPT、Claudeが金融文書評価で低迷ファインチューニングモデルが圧倒

Ripple、AI決済機能をXRP台帳に追加ただし保有者への利益は限定的

Anthropic、医薬品開発に参入科学向けAIツール発表