Agent-S 是创新的代理框架,旨在基于图形用户界面(GUI)实现人机交互的自动化。Agent-S 基于模拟人类的操作方式,用鼠标和键盘直接与计算机交互,处理复杂的多步骤任务。Agent-S 引入经验增强的分层规划方法,结合在线网络知识和内部记忆,将复杂任务分解为可管理的子任务。Agent-S 基于一种特定的代理-计算机接口(ACI),提高基于多模态大型语言模型(MLLMs)的GUI代理的推理和控制能力。Agent-S在 OSWorld 基准测试中表现出色,成功率显著高于基线,证明在自动化计算机任务方面的有效性。框架不仅提高效率,基于自动化交互增强可访问性,为有障碍人士提供与技术互动的新方式。

Agent-baidu09S – 基于图形用户界面实现人机交互自动化的代理框架  第1张
(图片来源网络,侵删)
Agent-baidu09S – 基于图形用户界面实现人机交互自动化的代理框架  第2张
(图片来源网络,侵删)