マルチモーダルLLMを判定役として使う手法が進化し、動画理解など複雑な評価でも小規模な専門モデルが大規模汎用モデルを上回る性能を発揮できることが明らかになりました。

Hacker News4日前3分で読める

こういう要約が、毎朝あなたのメールに届きます。

3つのポイント

1
何が起きたか：VideoJudgeという3B/7Bサイズの小規模な専門型マルチモーダルLLM（複数種類の情報を理解するAI）が、動画に基づくテキスト回答を評価するために開発されました。このモデルは大型の汎用モデルと同等かそれ以上の性能を発揮し、テスト時に評価基準を生成して詳細で解釈可能なスコア付けができることが示されました。
2
なぜ重要か：従来の判定役としてのLLMは、大規模なモデルが必要と考えられていました。しかしVideoJudgeの研究により、ビデオのような複雑なマルチモーダル入力に対して、専門的に訓練した小規模モデルの方が、テキスト記述だけを見るテキスト専用LLMよりも精度が高く、より効率的に運用できる可能性が示唆されました。
3
注目点：VideoJudgeは、VideoInstruct-100K、VCG-Plus-112K、VideoChat2-ITという3つの大規模ビデオ指示応答データセットから取得した人間の正解回答をもとにトレーニングデータを構築し、生成モデルの評価値と評価モデルの評価値のズレを計算して反復改善する手法を用いました。

まだコメントがありません。最初のコメントを投稿しましょう！

200以上のソースから厳選したAIニュースを毎日無料でお届けします。

登録無料・30秒で完了・いつでも解除できます

毎朝5分、AIの要点だけ。

200媒体以上・Email/LINE/Slack 対応