NVIDIAがCosmos 3をリリース——テキスト、画像、ビデオ、アクションを単一モデルで処理する物理AIの基盤モデル

Hugging Face Blog2026年6月1日

こういう要約が、毎朝あなたのメールに届きます。

3つのポイント

NVIDIAはCosmos 3をHugging Faceで公開。世界生成（ワールド生成）、物理推論、アクション生成を1つの統合モデルで実行できるomni-model（複数の機能を統合したモデル）。Cosmos 3 Nano（8Bパラメータ）とCosmos 3 Super（32Bパラメータ）の2サイズをリリース。
Mixture-of-Transformers（複数のトランスフォーマーを組み合わせた構造）アーキテクチャを採用。テキスト、画像、ビデオ、音声、アクションの全モダリティを単一アーキテクチャで処理し、自動回帰（推論・理解用）と拡散（生成用）の2つの異なるサブシーケンスが共同注意を通じて相互作用することで、VLM、ビデオジェネレータ、動力学モデル、ロボット方策として柔軟に動作可能。
ロボット工学、自動運転、スマートスペースなど物理AIシステムの開発向けに設計。テキスト/画像/ビデオからの現実的で物理的に妥当なビデオ世界の生成、動き・因果関係・空間関係といった物理特性の推論、現在の状態に基づく将来のビデオ・アクションシーケンスの予測に対応。
Hugging Face Diffusers統合により数行のコードでビデオ生成パイプラインを実行可能。GitHubではポストトレーニングスクリプトと合成データ生成（SDG）データセットも公開。

AIが要約して、あなたの選んだトピックだけを1日1通。LINE・Email・Slackで届きます。

登録無料・30秒で完了・いつでも解除できます

この記事のディスカッションはまだありません

200以上のソースから厳選したAIニュースを毎日無料でお届けします。

登録無料・30秒で完了・いつでも解除できます

毎朝1分、AIの要点だけ。

200媒体以上・Email/LINE/Slack 対応