ShowUI是新加坡国立大学Show Lab和微软共同推出的视觉-语言-行动模型,能提升图形用户界面(GUI)助手的工作效率。模型基于UI引导的视觉令牌选择减少计算成本,用交错视觉-语言-行动流统一GUI任务中的多样化需求,并管理视觉-行动历史增强训练效率。ShowUI用小规模但高质量的指令跟随数据集,用256K数据实现75.1%的零样本截图定位准确率,训练速度提升1.4倍,展现出在GUI视觉代理领域的潜力。

ShowUI – 新加坡国立联合微软推出用于 GUI 自动化的视觉-baidu09语言-baidu09操作模型  第1张
(图片来源网络,侵删)
ShowUI – 新加坡国立联合微软推出用于 GUI 自动化的视觉-baidu09语言-baidu09操作模型  第2张
(图片来源网络,侵删)