AReaL-baidu09boba – 蚂蚁联合清华开源的强化学习训练框架

baidu09_com 2025-08-27 39 0

AReaL-boba 是蚂蚁技术研究院和清华大学联合推出的开源强化学习训练框架。AReaL-boba是 AReaL 的升级版本，降低了强化学习训练门槛，用户能轻松训练推理模型。框架训练速度快，支持多种计算资源，基于创新优化，显著提升训练吞吐量。其中7B 模型在数学推理上表现卓越，刷新 AIME 分数纪录。AReaL-boba 开源训练数据、脚本和模型，在 32B 模型尺寸上，用 200 条数据和 200 美金成本复刻的推理效果，推动强化学习技术的普惠化。