GTA(a benchmark for General Tool Agents)是上海交通大学和上海AI实验室共同推出的基准测试,评估大型语言模型(LLMs)在真实世界场景中调用工具的能力。GTA基于提供真实的用户问题、真实部署的工具和多模态输入输出,建立一个全面、细粒度的评估框架,有效衡量LLMs在复杂场景下的工具使用能力。GTA包含229个人类设计的问题,覆盖感知、操作、逻辑和创造力等多个类别,要求模型推理合适的工具,规划操作步骤,解决现实世界中的复杂任务。

GTA – 上海AI Lab联合交大推出评估通用工具智能体的基准测试  第1张
(图片来源网络,侵删)
GTA – 上海AI Lab联合交大推出评估通用工具智能体的基准测试  第2张
(图片来源网络,侵删)