模型思维24种
-
发布了文章 1个月前
大模型RL不止数学代码!7B奖励模型搞定医学法律经济全学科, 不用思维链也能做题
大模型RL不止数学代码!7B奖励模型搞定医学法律经济全学科, 不用思维链也能做题 一个7B奖励模型搞定全学科,大模型强化学习不止数学和代码。o1/r1的强化学习很强,但主要探索了数学和代码领域,因为这两个领域的数据结构...
-
发布了文章 2个月前
思维链监督和强化的图表推理,7B模型媲美闭源大尺寸模型
思维链监督和强化的图表推理,7B模型媲美闭源大尺寸模型 近期,随着OpenAI-o1/o3和Deepseek-R1的成功,基于强化学习的微调方法(R1-Style)在AI领域引起广泛关注。这些方法在数学推理和代码智能方...
没有更多内容












