OmniParser:微软重磅打造的提升GUI代理性能的屏幕解析利器

OmniParser:微软重磅打造的提升GUI代理性能的屏幕解析利器  第1张


OmniParser for Pure Vision Based GUI Agent


介绍:

https://microsoft.github.io/OmniParser/

代码:

https://github.com/microsoft/OmniParser

论文:

https://arxiv.org/abs/2408.00203


OmniParser 是由微软研究院提出的一个创新性工具,旨在通过解析用户界面截图来增强基于视觉的图形用户界面(GUI)代理的性能。


OmniParser:微软重磅打造的提升GUI代理性能的屏幕解析利器  第2张

OmniParser:微软重磅打造的提升GUI代理性能的屏幕解析利器  第3张

OmniParser:微软重磅打造的提升GUI代理性能的屏幕解析利器  第4张


该工具通过识别用户界面中的可交互图标,并理解截图中各种元素的语义,解决了以往多模态模型在跨操作系统和应用程序中应用时的局限性。OmniParser 通过结合微调后的检测模型和描述模型,将截图转换成结构化的元素,显著提升了GPT-4V模型在执行各种用户任务时的准确性和鲁棒性。


OmniParser:微软重磅打造的提升GUI代理性能的屏幕解析利器  第5张


OmniParser 的特点在于其能够处理来自不同平台和应用程序的截图,而无需依赖于额外的信息,如HTML或视图层次结构。它通过一个检测模型来识别屏幕上的可交互区域,并使用一个描述模型来提取这些元素的功能语义。此外,OmniParser还整合了光学字符识别(OCR)模块,以进一步提高对用户界面的理解。在多个基准测试中,OmniParser都显示出了其卓越的性能,证明了它在提高GUI代理的行动预测能力方面的有效性。


技术解读


OmniParser 的思路是将用户界面截图转化为结构化元素,从而提高GUI代理在执行任务时的准确性和效率。这一过程涉及到对截图中可交互图标的识别、元素功能语义的理解,以及将这些信息以结构化形式整合,使得大型视觉语言模型如GPT-4V能够更可靠地将预测的行动转换为屏幕上的具体操作。


OmniParser:微软重磅打造的提升GUI代理性能的屏幕解析利器  第6张


OmniParser 的处理过程包括以下关键步骤:


  • 首先,它利用一个专门微调过的检测模型来识别用户界面中的可交互区域,如按钮和图标。
  • 接着,通过一个描述模型来提取这些元素的功能语义,这个模型能够为每个检测到的图标生成描述其功能的文本。
  • OmniParser还整合了OCR技术来识别和提取屏幕上的文本信息。这些信息被结构化地整合在一起,形成了一个类似于DOM树的表示,使得GPT-4V模型能够更准确地理解用户界面并预测下一步行动。


OmniParser 的技术特点在于其纯视觉的处理方式,不依赖于HTML或其他额外信息,使其能够跨平台、跨应用程序地工作。它通过提供更精确的可交互元素检测和结合功能语义,显著提高了GPT-4V在多个基准测试中的性能。


总的来说,OmniParser 为构建跨平台和跨应用程序的通用GUI代理提供了一种有效的解决方案。它不仅提高了现有模型的性能,还拓宽了这些模型的应用范围,使其能够在更广泛的环境和任务中发挥作用。


论文解读


这篇论文介绍了OmniParser,这是一个用于解析用户界面截图的工具,旨在提高基于视觉的图形用户界面(GUI)代理的性能。


以下是论文内容要点:


摘要


  • 提出了OmniParser,一个综合方法,用于将用户界面截图解析成结构化元素,增强了GPT-4V模型在不同操作系统和应用程序中生成准确动作的能力。
  • 通过创建可交互图标检测数据集和图标描述数据集,微调了专门模型以提高屏幕解析的可靠性。
  • OmniParser在多个基准测试中显著提高了GPT-4V的性能,尤其是在没有额外信息的情况下。


引言


  • 大型语言模型在理解和推理能力上取得了巨大成功,但现有技术与创建跨平台、跨应用程序的通用代理之间存在差距。
  • 行动定位(action grounding)是将大型语言模型(LLMs)预测的行动转换为屏幕上的实际行动的关键挑战。


相关工作


  • 回顾了UI屏幕理解的相关研究,如Screen2Words、UI-BERT等,这些研究依赖于额外信息或特定任务。
  • 介绍了现有的自主GUI代理研究,包括直接预测下一个行动的端到端模型和利用现有多模态模型的研究。


方法


  • OmniParser通过整合微调后的可交互图标检测模型、图标描述模型和OCR模块,生成结构化的UI表示,减轻了GPT-4V的负担。
  • 详细讨论了可交互区域检测和结合局部功能语义的方法。


实验与结果


  • 在SeeAssign任务中,展示了OmniParser在正确预测标签ID方面的能力。
  • 在ScreenSpot基准测试中,OmniParser显著提高了GPT-4V的基线性能。
  • 在Mind2Web和AITW基准测试中,OmniParser在仅使用截图输入的情况下,性能超过了需要额外信息的GPT-4V基线。


讨论


  • 分析了OmniParser的常见失败案例,如重复图标/文本、边界框的粗略预测和图标误解,并提出了潜在的改进方法。


结论


  • OmniParser作为一种通用的视觉方法,能够将UI截图解析为结构化元素,显著提高了GPT-4V在多个基准测试中的性能,且不依赖于额外信息如HTML和Android视图层次结构。


文章来自于“ADFeed”,作者“ADFeed”。


OmniParser:微软重磅打造的提升GUI代理性能的屏幕解析利器  第7张