DAM-baidu093B – 英伟达推出的多模态大语言模型

baidu09_com 2025-08-28 39 0

DAM-3B（Describe Anything 3B）是英伟达推出的多模态大语言模型，专为生成图像和视频中特定区域的详细描述设计。模型通过点、边界框、涂鸦或掩码等方式指定目标区域，能生成精准且符合上下文的描述文本。 DAM-3B的核心创新包括“焦点提示”技术和“局部视觉骨干网络”。焦点提示技术将全图信息与目标区域的高分辨率裁剪图融合，确保细节不失真，同时保留整体背景。局部视觉骨干网络则通过嵌入图像和掩码输入，运用门控交叉注意力机制，将全局特征与局部特征相结合，再传输至大语言模型生成描述。