HelloBench是一个用于评估大型语言模型(LLMs)长文本生成能力的开源基准测试。HelloBench包含五个基于布鲁姆分类法的子任务:开放式问答、摘要、聊天、文本补全和启发式文本生成。HelloBench用真实场景数据,如Quora和Reddit,确保任务的多样性和实际性。引入HelloEval,一种高效的评估方法,减少人工评估的负担,同时保持与人类评价的高相关性。HelloBench在多个LLMs上的实验显示,现有模型在生成超过4000单词的长文本方面存在挑战。


HelloBench是一个用于评估大型语言模型(LLMs)长文本生成能力的开源基准测试。HelloBench包含五个基于布鲁姆分类法的子任务:开放式问答、摘要、聊天、文本补全和启发式文本生成。HelloBench用真实场景数据,如Quora和Reddit,确保任务的多样性和实际性。引入HelloEval,一种高效的评估方法,减少人工评估的负担,同时保持与人类评价的高相关性。HelloBench在多个LLMs上的实验显示,现有模型在生成超过4000单词的长文本方面存在挑战。
全部评论
留言在赶来的路上...
发表评论