首页 / AI工具 / CogAgent – 清华与智谱AI联合推出的多模态视觉大模型

AI工具

CogAgent – 清华与智谱AI联合推出的多模态视觉大模型

baidu09_com 2025-08-28 32 0

CogAgent是清华大学与智谱AI联合推出的多模态视觉大模型，专注于图形用户界面（GUI）的理解和导航。通过视觉模态对GUI界面进行感知，非传统的文本模态，更符合人类的直觉交互方式。CogAgent能处理高达1120×1120像素的高分辨率图像，具备视觉问答、视觉定位和GUI Agent等多种能力。在多个图像理解基准测试中取得了领先成绩，在GUI操作数据集上显著超越了现有的模型，如 Mind2Web 和 AITW。

CogAgent – 清华与智谱AI联合推出的多模态视觉大模型第1张

（图片来源网络，侵删）

CogAgent – 清华与智谱AI联合推出的多模态视觉大模型第2张

（图片来源网络，侵删）

清华控股的北京智谱华章智谱华章与清华大学清华智库是什么?清华智班介绍清华智网清华大学智网中心官网清华智库研究中心

本文由 @baidu09_com 发布在拜读未来科技摆渡人生，如有疑问，请联系我们。
文章链接：https://www.baidu09.com/news/13411.html

baidu09_com管理员

上一篇

baidu09生物药 CDMO 服务提供商康日百奥生物科技完成亿元 A 轮融资

下一篇

四款机器人芯片亮相：赋能智能交互与精准控制新纪元

全部评论

留言在路上...

留言在赶来的路上...

发表评论取消回复

关灯返回顶部