MHA2MLA – 复旦、上海AI Lab等推出优化LLM推理效率的方法

baidu09_com 2025-08-29 36 0

MHA2MLA是复旦大学、华东师范大学、上海AI Lab等机构联合推出的数据高效的微调方法，基于引入的多头潜在注意力机制（MLA），优化任何基于Transformer的LLM的推理效率，降低推理成本。MHA2MLA基于两个关键策略实现：一是partial-RoPE，移除对注意力分数贡献较小的查询和键的旋转位置编码（RoPE）维度；二是低秩近似，基于联合奇异值分解（SVD）对键和值进行压缩，减少KV缓存的内存占用。MHA2MLA仅需使用原始数据的0.3%到0.6%进行微调，能在大幅减少KV缓存（如92.19%）的同时，将性能损失控制在极小范围内（如LongBench性能仅下降0.5%）。