Absolute Zero是清华大学 LeapLab 团队联合北京通用人工智能研究院 NLCo 实验室和宾夕法尼亚州立大学推出的全新语言模型推理训练方法。Absolute Zero基于模型自我提出任务自主解决,实现自我进化式学习,无需依赖人类标注数据或预定义任务。模型在提出任务时获得可学习性奖励,在解决问题时获得解答奖励,基于与环境交互不断优化自身推理能力。Absolute Zero的核心在于推动推理模型从依赖人类监督向依赖环境监督转变,让模型用真实环境的反馈生成可验证的任务提升性能。

Absolute Zero – 清华大学等机构推出的语言模型推理训练方法  第1张
(图片来源网络,侵删)
Absolute Zero – 清华大学等机构推出的语言模型推理训练方法  第2张
(图片来源网络,侵删)