SPAR是智谱团队推出的自我博弈框架,能增强大型语言模型在遵循指令方面的能力。框架基于内部的生成者和完善者两个角色进行互动,生成者执行指令生成回复,完善者对回复进行分析和改进。SPAR基于树搜索技术精细化和优化回复,排除无关的干扰因素,从而突出对指令遵循至关重要的关键差异。这一过程提升了模型执行指令的准确性,增强了模型的自我完善能力。实验结果显示,SPAR框架能显著提高模型在IFEval等评估基准上的性能,证明在提升大型语言模型指令遵循能力方面的有效性。

SPAR – 智谱团队推出的自我博弈训练框架  第1张
(图片来源网络,侵删)
SPAR – 智谱团队推出的自我博弈训练框架  第2张
(图片来源网络,侵删)