SimpleQA是OpenAI推出的基准测试,用在评估大型语言模型回答简短、寻求事实问题的能力。SimpleQA包含4326个问题,每个问题设计为只有一个正确答案,易于评分。SimpleQA挑战性强,即使是最先进的大模型如o1-preview和Claude Sonnet 3.5的准确率也不到50%。所有问题经过两位独立标注员验证,确保参考答案的准确性和时效性。SimpleQA能评估模型的事实性回答能力,能测量模型的“校准”程度,即模型对自己回答准确性的自我评估能力。SimpleQA的数据集具有多样性,涵盖多个主题,包括历史、科学、艺术等,用在推动更可靠、可信赖的语言模型的发展。

SimpleQA – OpenAI开源的新基准,用于评估前沿模型的事实准确性  第1张
(图片来源网络,侵删)
SimpleQA – OpenAI开源的新基准,用于评估前沿模型的事实准确性  第2张
(图片来源网络,侵删)