基准测试怎么做
-
发布了文章 2个月前
BALROG – 基准测试工具,用于评估LLMs和VLMs在复杂动态环境中的推理能力
BALROG是评估大型语言模型(LLMs)和视觉语言模型(VLMs)在游戏上的推理能力,特别是模型在动态环境中的规划、空间推理和探索能力。基于一系列挑战性的游戏环境,包括程序生成的环境如NetHack,测试模型性能。BALR...
没有更多内容
BALROG是评估大型语言模型(LLMs)和视觉语言模型(VLMs)在游戏上的推理能力,特别是模型在动态环境中的规划、空间推理和探索能力。基于一系列挑战性的游戏环境,包括程序生成的环境如NetHack,测试模型性能。BALR...
没有更多内容