EMMA是Waymo基于Gemini模型推出的端到端自动驾驶多模态模型,能将原始相机传感器数据直接映射到驾驶特定输出,如规划轨迹、感知对象和道路图元素。EMMA将非传感器输入和输出表示为自然语言文本,用预训练大型语言模型的世界知识,在统一的语言空间中联合处理多种驾驶任务。EMMA在nuScenes运动规划和Waymo开放数据集上展现了先进性能,但存在局限性,如处理图像帧数量有限、缺少精确3D传感方式集成和高计算成本。模型能推动自动驾驶模型架构的发展,提高自动驾驶系统在复杂场景中的泛化和推理能力。

EMMA – Waymo推出的端到端自动驾驶多模态模型  第1张
(图片来源网络,侵删)
EMMA – Waymo推出的端到端自动驾驶多模态模型  第2张
(图片来源网络,侵删)