首页 > 模型思维24种

模型思维24种

baidu09_com

发布了文章 1个月前

大模型RL不止数学代码！7B奖励模型搞定医学法律经济全学科，不用思维链也能做题

大模型RL不止数学代码！7B奖励模型搞定医学法律经济全学科，不用思维链也能做题一个7B奖励模型搞定全学科，大模型强化学习不止数学和代码。o1/r1的强化学习很强，但主要探索了数学和代码领域，因为这两个领域的数据结构...
AI人工智能

0 26 0
baidu09_com

发布了文章 2个月前

思维链监督和强化的图表推理，7B模型媲美闭源大尺寸模型

思维链监督和强化的图表推理，7B模型媲美闭源大尺寸模型近期，随着OpenAI-o1/o3和Deepseek-R1的成功，基于强化学习的微调方法（R1-Style）在AI领域引起广泛关注。这些方法在数学推理和代码智能方...
AI人工智能

0 26 0

没有更多内容

关灯返回顶部