NVIDIA Cosmos 3 开源:全球首个全模态物理 AI 基础模型,机器人开发门槛断崖式下降

英伟达 6 月 4 日在台北 GTC 大会发布 Cosmos 3,6 月 5 日起在 Hugging Face 全面开源模型权重、训练脚本、部署工具和数据集。这是全球第一个完全开源的全模态物理 AI 基础模型——同时覆盖文本、图像、视频、环境声音和动作五个模态,并且原生支持物理推理。

简单说:Cosmos 3 不是一个视频生成模型,是一个「世界模型」。它理解重力、摩擦、碰撞、液体流动这些物理规律,然后把这些规律用视频和动作轨迹表达出来。

一、Cosmos 3 到底是什么:双 Transformer 架构

Cosmos 3 采用双模块架构

┌──────────────────────────────────────────────┐
│ Cosmos 3 │
│ │
│ ┌─────────────────┐ ┌────────────────────┐ │
│ │ Reasoning │ │ Generative │ │
│ │ Transformer │ │ Transformer │ │
│ │ │ │ │ │
│ │ • 物体交互 │ │ • 视频生成 │ │
│ │ • 运动轨迹 │──▶• 动作轨迹输出 │ │
│ │ • 时空关系 │ │ • 环境声音 │ │
│ └─────────────────┘ └────────────────────┘ │
│ │
│ 输入:文本指令 / 图像 / 视频片段 / 动作序列 │
│ 输出:物理一致的视频 + 动作轨迹 + 推理解释 │
└──────────────────────────────────────────────┘
  • Reasoning Transformer:负责物理推理。给定一段视频或一组动作,它能预测接下来会发生什么——物体是否会被撞倒、液体是否会溢出、机器人手臂能不能抓稳。
  • Generative Transformer:在推理结果的基础上生成视频和动作轨迹。生成的内容不是「看起来像」,而是「物理上正确」。

这两个模块可以单独使用,也可以联合推理。对开发者来说,这意味着 Cosmos 3 既能当物理仿真器用,也能当数据增强器用,还能当机器人控制策略的 backbone 用

二、为什么这件事比 Llama 3 / DeepSeek-V4 重要

很多人会问:「大模型卷了一年,又来一个?」不一样。

  • 大语言模型是对人类语言的统计建模。语言本身不遵守物理规律。
  • 视频生成模型(Sora、Veo)是「看起来合理」的视频。钟摆可以倒着转,碰撞可以无视动量守恒。
  • 物理 AI 基础模型必须遵守物理规律。视频和动作是物理规律的推论,不是统计模式的拟态。

Cosmos 3 是第一个把物理推理作为一等公民的全模态模型。这意味着:

  1. 机器人训练数据不再稀缺。传统机器人学习需要几十万条真实操作数据,收集成本极高。Cosmos 3 生成的视频天然带物理一致的动作轨迹,可以直接当训练数据。
  2. 自动驾驶仿真不再失真。CARLA、Waymax 这些仿真器的手工建模可以退休了,Cosmos 3 在 latent space 里推演物理。
  3. 通用视觉智能体有了基础。屏幕上「点击哪个按钮」这种决策,背后是「按钮被按下去会发生什么」的物理推理。

英伟达这次开源的是全套:模型权重、训练代码、推理代码、数据集、Isaac Sim 集成、GR00T 基础模型、Physical AI Data Factory 蓝图。不是放出权重让社区猜,是放出整条 pipeline

三、开发者怎么用 Cosmos 3:三种主流路径

路径 1:直接生成合成数据

最小可运行代码:

from cosmos3 import Cosmos3Generator
model = Cosmos3Generator.from_pretrained("nvidia/Cosmos-3-7B")
model.cuda()
# 用自然语言生成物理一致的视频
video = model.generate(
prompt="A robotic arm picks up a red cup and places it on a shelf",
num_frames=120,
fps=24,
physics_constraints=["gravity", "rigid_body"]
)
video.save("pickup_demo.mp4")

输出是物理一致的视频 + 同步的动作轨迹(机器人每个关节的角度序列)。这个 .mp4 加上动作轨迹,就是一条完整的训练样本

路径 2:在 Cosmos 3 之上做后训练

英伟达公开了 Post-Train 流程,目标是把它训练成前向动力学模型(forward dynamics model)

from cosmos3 import Cosmos3ForAction
from cosmos3.data import RobotActionDataset
# 加载你自己的机器人轨迹数据
dataset = RobotActionDataset(
trajectories="my_robot_demos/",
modalities=["video", "joint_angles", "gripper_state"]
)
# 用 Cosmos 3 做后训练
model = Cosmos3ForAction.from_pretrained("nvidia/Cosmos-3-7B-Base")
model.post_train(
dataset=dataset,
epochs=10,
learning_rate=2e-5,
objective="next_frame_prediction"
)
model.save_pretrained("./my_robot_world_model")

后训练出来的模型可以预测「给定当前画面 + 当前动作,下一帧画面是什么」。这就是世界模型的核心能力。

路径 3:和 GR00T 配,做端到端机器人策略

from cosmos3 import Cosmos3Reasoner
from groot import GR00TPolicy
# 物理推理器
reasoner = Cosmos3Reasoner.from_pretrained("nvidia/Cosmos-3-Reasoner")
# GR00T 通用机器人基础模型
policy = GR00TPolicy.from_pretrained("nvidia/GR00T-N1-3B")
# 让 Cosmos 3 评估 GR00T 的动作提议是否物理合理
def safe_action(rgb_obs, proprio):
proposed_action = policy(rgb_obs, proprio)
# 用 Cosmos 3 模拟这个动作会发生什么
predicted_next_frame = reasoner.simulate(rgb_obs, proposed_action)
# 物理一致性检查
if reasoner.is_physically_consistent(predicted_next_frame):
return proposed_action
else:
return policy.get_safe_fallback(rgb_obs, proprio)

这套组合让机器人策略从「试错」变成「预测+验证」。GR00T 给出动作,Cosmos 3 在 latent space 预演这个动作的后果,物理一致才执行。

四、硬件门槛:单卡 H100 就能起步

Cosmos 3 提供了三种规格:

规格参数量推理显存后训练显存适用场景
Cosmos-3-1B1B8 GB24 GB边缘设备、教学
Cosmos-3-7B7B24 GB80 GB通用研究
Cosmos-3-13B13B48 GB160 GB数据中心训练

单张 H100 就能跑 Cosmos-3-7B 的推理和轻量后训练。不需要 DGX,不需要 NVLink,普通的 8 卡服务器就能做完整的 post-train。

这对中小团队和个人开发者是真正的平权:2024 年做物理 AI 研究需要百万级设备投入,2026 年只需要一张 H100 加 Hugging Face 账号

五、Cosmos 3 解决的真问题:数据稀缺

具身智能卡脖子卡在哪里?不是算法,是数据

  • 真实机器人操作数据:一条轨迹采集要 5-15 分钟,标注成本 $50-200
  • 自动驾驶 corner case:百万公里才出一个,模拟器里造出来的又不真实
  • 工业机器人迁移:换一台机械臂就要重新采集所有数据

Cosmos 3 的合成数据是物理一致的。这意味着:

  1. 生成的视频 + 动作轨迹,可以直接喂给下游策略模型做训练
  2. 可以针对特定 corner case 定向生成(「卡车在暴雨中变道」)
  3. 迁移到新硬件时,世界模型本身不需要重训,只需要少量真实数据 fine-tune 策略层

英伟达配套开源的 Physical AI Data Factory Blueprint 是数据生成的工程模板:从 prompt 库、轨迹约束、到质量验证、到下游训练 pipeline,全套都给了。

六、对生态的直接冲击

  1. 仿真器赛道重洗牌。CARLA、LGSVL 这些传统自动驾驶仿真器的中期前景变暗。物理一致的世界模型可以直接替代规则式仿真。
  2. 机器人基础模型竞争升级。Google DeepMind 的 RT-2、RoboCat 之后,Cosmos 3 把开放权重的门槛从「论文」拉到「可部署」。
  3. 英伟达从 GPU 厂商升级为机器人时代的基础设施。CUDA 当年把英伟达锁定为 AI 训练的事实标准,Cosmos 3 + Isaac 组合在锁定机器人时代的事实标准。
  4. 中国团队的窗口期。Cosmos 3 开源权重 + Hugging Face 镜像,国内机器人公司可以在 1-2 个月内做出第一个 demo。这个窗口期大约 6-9 个月。

七、本月要做什么

如果你是机器人 / 自动驾驶 / 工业视觉方向的开发者,下面是 6 月可以动手的清单:

Terminal window
# 1. 拉模型
git clone https://huggingface.co/nvidia/Cosmos-3-7B
cd Cosmos-3-7B
# 2. 装依赖
pip install cosmos3 torch>=2.6 transformers>=4.52
# 3. 跑最小 demo
python examples/generate_physics_video.py \
--prompt "A drone hovers in a wind tunnel" \
--output drone_demo.mp4
# 4. 接入你自己的数据
python examples/post_train.py \
--dataset /path/to/your/robot/demos \
--output ./my_post_trained_cosmos

英伟达这次是真的把物理 AI 拉到了和 LLM 同等的开放程度。一年前你需要一个 NVIDIA 销售对接、一份商业合同、一台 DGX。现在你只需要一张 H100 和一个 Hugging Face 账号。

这是 2026 年开源 AI 领域最重要的一步棋。Cosmos 3 不是英伟达的 Cosmos 3,是整个机器人社区的 Cosmos 3。


← Back to blog