LongReward是清华大学、中国科学院、智谱AI联合推出的,基于AI反馈改进长文本大型语言模型(LLMs)性能的方法。LongReward从有用性、逻辑性、忠实性和完整性四个维度为模型响应打分,提供奖励信号,强化学习的方式优化模型,让模型在处理长文本时更准确、一致,能更好地遵循指令。提升模型的长文本处理能力,增强遵循简短指令的效率。

LongReward – 清华、中科院、智谱AI联合推出提升长文本大语言模型性能的方法  第1张
(图片来源网络,侵删)
LongReward – 清华、中科院、智谱AI联合推出提升长文本大语言模型性能的方法  第2张
(图片来源网络,侵删)