OpenR是一个由伦敦大学学院(UCL)、上海交通大学、利物浦大学、香港科技大学(广州)和西湖大学联合推出的一个开源框架,结合搜索、强化学习和过程监督提升大型语言模型(LLM)的推理能力。框架受到OpenAI的o1模型的启发,模型基于在推理过程中整合强化学习显著提高模型的推理能力。OpenR是第一个提供集成技术开源实现的框架,支持LLM基于有效的数据获取、训练和推理路径实现高级推理。OpenR支持在线强化学习训练和多种搜索策略,遵循测试时扩展法则,支持模型在测试时通过生成或搜索方式提供精细化的输出。OpenR提供一个自动化的数据管道,从结果标签中提取推理步骤,减少人工标注的工作量,同时确保收集有价值的推理信息。

OpenR – 伦敦大学联合多所高校推出提升大模型推理能力的框架  第1张
(图片来源网络,侵删)
OpenR – 伦敦大学联合多所高校推出提升大模型推理能力的框架  第2张
(图片来源网络,侵删)