HelloBench是一个用于评估大型语言模型(LLMs)长文本生成能力的开源基准测试。HelloBench包含五个基于布鲁姆分类法的子任务:开放式问答、摘要、聊天、文本补全和启发式文本生成。HelloBench用真实场景数据,如Quora和Reddit,确保任务的多样性和实际性。引入HelloEval,一种高效的评估方法,减少人工评估的负担,同时保持与人类评价的高相关性。HelloBench在多个LLMs上的实验显示,现有模型在生成超过4000单词的长文本方面存在挑战。

HelloBench – 评估LLMs长文本生成能力的开源基准测试工具  第1张
(图片来源网络,侵删)
HelloBench – 评估LLMs长文本生成能力的开源基准测试工具  第2张
(图片来源网络,侵删)