HelloBench – 评估LLMs长文本生成能力的开源基准测试工具

baidu09_com 2025-08-29 37 0

HelloBench是一个用于评估大型语言模型（LLMs）长文本生成能力的开源基准测试。HelloBench包含五个基于布鲁姆分类法的子任务：开放式问答、摘要、聊天、文本补全和启发式文本生成。HelloBench用真实场景数据，如Quora和Reddit，确保任务的多样性和实际性。引入HelloEval，一种高效的评估方法，减少人工评估的负担，同时保持与人类评价的高相关性。HelloBench在多个LLMs上的实验显示，现有模型在生成超过4000单词的长文本方面存在挑战。