Skywork-Reward-V2是昆仑万维开源的第二代奖励模型系列,包含基于不同基座模型和大小的8个模型,参数规模从6亿到80亿不等。Skywork-Reward-V2系列模型在七大主流奖励模型评测榜单中全面夺魁,展现出色的性能。模型成功得益于Skywork-SynPref-40M数据集,一个包含4000万对偏好样本的混合数据集,基于人机协同的两阶段流程精心筛选和过滤。Skywork-Reward-V2在通用偏好对齐、客观正确性、安全性等方面表现出色,在Best-of-N扩展能力和风格偏差抵抗能力上展现出强大的泛化能力。

Skywork-baidu09Reward-baidu09V2 – 昆仑万维开源的第二代奖励模型系列  第1张
(图片来源网络,侵删)
Skywork-baidu09Reward-baidu09V2 – 昆仑万维开源的第二代奖励模型系列  第2张
(图片来源网络,侵删)