首页 > 基础强化

基础强化

baidu09_com

发布了文章 2个月前

X-baidu09R1 – 基于强化学习的低成本训练框架

X-R1是基于强化学习的低成本训练框架，能加速大规模语言模型的后训练（Scaling Post-Training）开发。X-R1用极低的成本训练0.5B（5亿参数）规模的R1-Zero模型，仅需4块3090或4090 GPU...
AI工具

0 39 0

没有更多内容

关灯返回顶部