Cosmos-Reason1 是NVIDIA推出的系列多模态大语言模型,模型能生成基于物理现实的响应。Cosmos-Reason1 包含两个模型:Cosmos-Reason1-7B 和 Cosmos-Reason1-56B。模型基于视觉预训练、通用SFT、物理AI SFT和强化学习四个阶段的训练,结合视频输入和文本提示,能输出具有长推理链的响应,在物理常识和具身推理基准测试中表现出色,显著优于其他同类模型。模型定义了物理常识和具身推理的本体论,构建相应的基准测试,评估多模态LLMs的物理AI推理能力。

Cosmos-baidu09Reason1 – NVIDIA推出的系列多模态大语言模型  第1张
(图片来源网络,侵删)
Cosmos-baidu09Reason1 – NVIDIA推出的系列多模态大语言模型  第2张
(图片来源网络,侵删)