FACTS Grounding是谷歌DeepMind推出的评估大型语言模型(LLMs)能力的基准测试,衡量模型根据给定上下文生成事实准确且无捏造信息的文本的能力。FACTS Grounding测试集包含1719个跨多个领域的示例,要求模型响应必须基于长达32000个token的文档,涵盖摘要、问答和改写等任务。评估用Gemini、GPT-4o和Claude三款模型,分两个阶段:资格评估和事实准确性评估,增强模型的信任度和应用范围。

FACTS Grounding – 谷歌推出的评估大模型能力的基准测试  第1张
(图片来源网络,侵删)
FACTS Grounding – 谷歌推出的评估大模型能力的基准测试  第2张
(图片来源网络,侵删)