CogAgent是清华大学与智谱AI联合推出的多模态视觉大模型,专注于图形用户界面(GUI)的理解和导航。通过视觉模态对GUI界面进行感知,非传统的文本模态,更符合人类的直觉交互方式。CogAgent能处理高达1120×1120像素的高分辨率图像,具备视觉问答、视觉定位和GUI Agent等多种能力。在多个图像理解基准测试中取得了领先成绩,在GUI操作数据集上显著超越了现有的模型,如 Mind2Web 和 AITW。

CogAgent – 清华与智谱AI联合推出的多模态视觉大模型  第1张
(图片来源网络,侵删)
CogAgent – 清华与智谱AI联合推出的多模态视觉大模型  第2张
(图片来源网络,侵删)