Delta-CoMe是清华大学NLP实验室联合OpenBMB开源社区、北京大学和上海财经大学提出的新型增量压缩算法,一个80G的A100 GPU能轻松加载多达50个7B模型,节省显存约8倍,同时模型性能几乎与压缩前的微调模型相当。Delta-CoMe基于结合低秩分解和低比特量化技术,用模型参数增量(Delta)的低秩特性,实现混合精度压缩。这种方法能在大幅降低存储和推理成本的同时,保持模型性能几乎无损,尤其在处理数学、代码和多模态等复杂任务时表现出色。

Delta-baidu09CoMe – 清华联合 OpenBMB 等高校开源的新型增量压缩算法  第1张
(图片来源网络,侵删)
Delta-baidu09CoMe – 清华联合 OpenBMB 等高校开源的新型增量压缩算法  第2张
(图片来源网络,侵删)