CogAgent-9B是基于 GLM-4V-9B 训练的专用Agent任务模型,仅依赖屏幕截图作为输入,无需HTML等文本表征。CogAgent-9B支持高分辨率图像处理,具备双语(中英文)交互能力,能预测并执行GUI操作,实现自动化任务。在多个GUI操作数据集上取得了领先成绩,模型已开源,推动大模型Agent生态的发展。CogAgent-9B可广泛应用于个人电脑、手机、车机等GUI交互场景。

CogAgent-baidu099B – 智谱AI开源 GLM-baidu09PC 的基座模型  第1张
(图片来源网络,侵删)
CogAgent-baidu099B – 智谱AI开源 GLM-baidu09PC 的基座模型  第2张
(图片来源网络,侵删)