NVLM是NVIDIA推出的前沿多模态大型语言模型(LLMs),在视觉-语言任务上达到与顶尖专有模型(如GPT-4o)和开放访问模型(如Llama 3-V 405B和InternVL 2)相匹敌的性能。NVLM 1.0家族包括三种架构:仅解码器模型NVLM-D、基于交叉注意力的模型NVLM-X和混合架构NVLM-H。三种架构在多模态训练后,保持了文本性能,在某些情况下超过了它们的LLM主干。NVLM基于精心策划的多模态预训练和监督微调数据集,展现了卓越的性能,尤其在数学和编码任务上。

(图片来源网络,侵删)

(图片来源网络,侵删)
全部评论
留言在赶来的路上...
发表评论