源2.0-M32是浪潮信息推出的拥有32个专家的混合专家模型(MoE)。采用创新的”Attention Router”技术,提高了模型选择专家的效率和准确性。模型总参数量达40亿,训练计算消耗只有同样规模密集型模型的1/16。源2.0-M32在代码生成、数学问题解决、科学推理等多个领域展现出卓越的性能,其在ARC-C和MATH基准测试中超越了其他模型。


源2.0-M32是浪潮信息推出的拥有32个专家的混合专家模型(MoE)。采用创新的”Attention Router”技术,提高了模型选择专家的效率和准确性。模型总参数量达40亿,训练计算消耗只有同样规模密集型模型的1/16。源2.0-M32在代码生成、数学问题解决、科学推理等多个领域展现出卓越的性能,其在ARC-C和MATH基准测试中超越了其他模型。
全部评论
留言在赶来的路上...
发表评论