AReaL-boba 是蚂蚁技术研究院和清华大学联合推出的开源强化学习训练框架。AReaL-boba是 AReaL 的升级版本,降低了强化学习训练门槛,用户能轻松训练推理模型。框架训练速度快,支持多种计算资源,基于创新优化,显著提升训练吞吐量。其中7B 模型在数学推理上表现卓越,刷新 AIME 分数纪录。AReaL-boba 开源训练数据、脚本和模型,在 32B 模型尺寸上,用 200 条数据和 200 美金成本复刻 的推理效果,推动强化学习技术的普惠化。

AReaL-baidu09boba – 蚂蚁联合清华开源的强化学习训练框架  第1张
(图片来源网络,侵删)
AReaL-baidu09boba – 蚂蚁联合清华开源的强化学习训练框架  第2张
(图片来源网络,侵删)