NVIDIA Nemotron Nano 2 是英伟达推出的高效推理模型,参数量为9B。模型基于混合Mamba-Transformer架构,在20万亿个token上预训练,支持128k上下文长度。相比Qwen3-8B,推理速度提升6倍,准确率相当或更高。模型具备思考预算控制功能,用户能指定推理token数量。英伟达开源了基础模型和大部分预训练数据集,助力开发者进一步研究与应用。

NVIDIA Nemotron Nano 2 – 英伟达推出的高效推理模型  第1张
(图片来源网络,侵删)
NVIDIA Nemotron Nano 2 – 英伟达推出的高效推理模型  第2张
(图片来源网络,侵删)