SVDQuant是MIT研究团队推出的后训练量化技术,针对扩散模型,将模型的权重和激活值量化至4位,减少内存占用加速推理过程。SVDQuant引入高精度的低秩分支吸收量化过程中的异常值,在保持图像质量的同时,实现在16GB 4090 GPU上3.5倍的显存优化和8.7倍的延迟减少。SVDQuant支持DiT架构,兼容UNet架构,能无缝集成现成的低秩适配器(LoRAs),无需重新量化,为在资源受限的设备上部署大型扩散模型提供有效的解决方案。

SVDQuant – MIT 推出的扩散模型后训练量化技术  第1张
(图片来源网络,侵删)
SVDQuant – MIT 推出的扩散模型后训练量化技术  第2张
(图片来源网络,侵删)