GO-1(Genie Operator-1,智元启元大模型)是智元机器人推出的首个通用具身基座模型。模型采用Vision-Language-Latent-Action(ViLLA)架构,由VLM(多模态大模型)和MoE(混合专家)组成。VLM借助海量互联网图文数据,赋予模型通用场景感知和语言理解能力;MoE中的Latent Planner(隐式规划器)通过大量跨本体和人类操作视频数据,获得通用的动作理解能力;Action Expert(动作专家)则基于百万真机数据,实现精细的动作执行。

GO-baidu091 – 智元机器人推出的首个通用具身基座模型  第1张
(图片来源网络,侵删)
GO-baidu091 – 智元机器人推出的首个通用具身基座模型  第2张
(图片来源网络,侵删)