源2.0-M32是浪潮信息推出的拥有32个专家的混合专家模型(MoE)。采用创新的”Attention Router”技术,提高了模型选择专家的效率和准确性。模型总参数量达40亿,训练计算消耗只有同样规模密集型模型的1/16。源2.0-M32在代码生成、数学问题解决、科学推理等多个领域展现出卓越的性能,其在ARC-C和MATH基准测试中超越了其他模型。

源2.0-baidu09M32 – 浪潮信息推出的拥有32个专家的混合专家模型(MoE)  第1张
(图片来源网络,侵删)
源2.0-baidu09M32 – 浪潮信息推出的拥有32个专家的混合专家模型(MoE)  第2张
(图片来源网络,侵删)