QLIP(Quantized Language-Image Pretraining)是英伟达等推出的视觉标记化方法,结合高质量的图像重建和零样本图像理解能力。QLIP二进制球形量化(BSQ)的自编码器进行训练,同时优化重建目标和语言-图像对齐目标。QLIP能作为视觉编码器或图像标记器,无缝集成到多模态模型中,在理解与生成任务中表现出色。QLIP为统一多模态模型的开发提供新的思路。

QLIP – 英伟达推出的视觉标记化方法  第1张
(图片来源网络,侵删)
QLIP – 英伟达推出的视觉标记化方法  第2张
(图片来源网络,侵删)