
Mistral AIが形式検証に特化したオープンソースモデル「Leanstral 1.5」を公開しました。miniF2Fで100%、Putnam競技会の672問中587問を正解し、オープンソースモデルとして複数のベンチマークで最高性能です。数学の形式証明だけでなく、実際のコード検査でも未発見のバグを検出する能力があり、HuggingFaceと無料APIで誰でも利用できます。
こういう要約が、毎朝あなたのメールに届きます。
無料で登録 →何が起きたか
Mistral AIが、数学証明とソフトウェアの正確性を形式的に検証する「Leanstral 1.5」をApache 2.0ライセンスで無料公開しました。miniF2Fベンチマークで100%、Putnam数学競技会の672問中587問を解く性能を持っています。
なぜ重要か
オープンソースモデルとしてPutnamBench、FATE-H、FATE-Xで最高性能を達成し、閉鎖モデルのAleph Proverを除いて他を上回っています。実際のテストではRustライブラリvarintegerのオーバーフロー脆弱性を含む、これまで見つかっていなかった5つのバグを検出し、数学だけでなくコード検証でも実用性があることが示されました。
注目点
HuggingFaceと無料APIを通じて利用可能です。訓練には中盤学習(mid-training)、教師あり微調整、強化学習が用いられました。
まだコメントがありません。最初のコメントを投稿しましょう!
ログインして議論に参加200以上のソースから厳選したAIニュースを毎日無料でお届けします。
無料で始める登録無料・30秒で完了・いつでも解除できます
毎朝1分、AIの要点だけ。
200媒体以上・Email/LINE/Slack 対応