专家能力模型
-
发布了文章 2个月前
专家模型不要专家并行!微软开源MoE新路径
专家模型不要专家并行!微软开源MoE新路径 继Phi家族之后,微软又开源了新的混合专家大模型——GRIN MoE。与Phi-3.5同样的个头(16 * 3.8B),却采用了截然不同的训练方法。...
没有更多内容
专家模型不要专家并行!微软开源MoE新路径 继Phi家族之后,微软又开源了新的混合专家大模型——GRIN MoE。与Phi-3.5同样的个头(16 * 3.8B),却采用了截然不同的训练方法。...
没有更多内容