基准测试结果
-
发布了文章 2个月前
如何选择最佳多模态大模型压缩方案?哈工大、度小满开源EFFIVLM-BENCH基准测试框架
如何选择最佳多模态大模型压缩方案?哈工大、度小满开源EFFIVLM-BENCH基准测试框架 在金融科技智能化转型进程中,大语言模型以及多模态大模型(LVLM)正成为核心技术驱动力。尽管 LVLM 展现出卓越的跨模态认知...
-
发布了文章 2个月前
BALROG – 基准测试工具,用于评估LLMs和VLMs在复杂动态环境中的推理能力
BALROG是评估大型语言模型(LLMs)和视觉语言模型(VLMs)在游戏上的推理能力,特别是模型在动态环境中的规划、空间推理和探索能力。基于一系列挑战性的游戏环境,包括程序生成的环境如NetHack,测试模型性能。BALR...
没有更多内容





