AIToday

NVIDIAがCosmos 3をリリース——テキスト、画像、ビデオ、アクションを単一モデルで処理する物理AIの基盤モデル

Hugging Face Blog2日前2分で読める
NVIDIAがCosmos 3をリリース——テキスト、画像、ビデオ、アクションを単一モデルで処理する物理AIの基盤モデル

こういう要約が、毎朝あなたのメールに届きます。

無料で登録 →

3つのポイント

  1. 1

    NVIDIAはCosmos 3をHugging Faceで公開。世界生成(ワールド生成)、物理推論、アクション生成を1つの統合モデルで実行できるomni-model(複数の機能を統合したモデル)。Cosmos 3 Nano(8Bパラメータ)とCosmos 3 Super(32Bパラメータ)の2サイズをリリース。

  2. 2

    Mixture-of-Transformers(複数のトランスフォーマーを組み合わせた構造)アーキテクチャを採用。テキスト、画像、ビデオ、音声、アクションの全モダリティを単一アーキテクチャで処理し、自動回帰(推論・理解用)と拡散(生成用)の2つの異なるサブシーケンスが共同注意を通じて相互作用することで、VLM、ビデオジェネレータ、動力学モデル、ロボット方策として柔軟に動作可能。

  3. 3

    ロボット工学、自動運転、スマートスペースなど物理AIシステムの開発向けに設計。テキスト/画像/ビデオからの現実的で物理的に妥当なビデオ世界の生成、動き・因果関係・空間関係といった物理特性の推論、現在の状態に基づく将来のビデオ・アクションシーケンスの予測に対応。

  4. 4

    Hugging Face Diffusers統合により数行のコードでビデオ生成パイプラインを実行可能。GitHubではポストトレーニングスクリプトと合成データ生成(SDG)データセットも公開。

ディスカッション

この記事のディスカッションはまだありません

AIニュースを毎日お届け

200以上のソースから厳選したAIニュースを毎日無料でお届けします。

無料で始める

毎朝5分、AIの要点だけ。

200媒体以上・Email/LINE/Slack 対応

無料で受け取る →