GTA(a benchmark for General Tool Agents)是上海交通大学和上海AI实验室共同推出的基准测试,评估大型语言模型(LLMs)在真实世界场景中调用工具的能力。GTA基于提供真实的用户问题、真实部署的工具和多模态输入输出,建立一个全面、细粒度的评估框架,有效衡量LLMs在复杂场景下的工具使用能力。GTA包含229个人类设计的问题,覆盖感知、操作、逻辑和创造力等多个类别,要求模型推理合适的工具,规划操作步骤,解决现实世界中的复杂任务。


GTA(a benchmark for General Tool Agents)是上海交通大学和上海AI实验室共同推出的基准测试,评估大型语言模型(LLMs)在真实世界场景中调用工具的能力。GTA基于提供真实的用户问题、真实部署的工具和多模态输入输出,建立一个全面、细粒度的评估框架,有效衡量LLMs在复杂场景下的工具使用能力。GTA包含229个人类设计的问题,覆盖感知、操作、逻辑和创造力等多个类别,要求模型推理合适的工具,规划操作步骤,解决现实世界中的复杂任务。
全部评论
留言在赶来的路上...
发表评论