首页 / AI工具 / SimpleQA – OpenAI开源的新基准，用于评估前沿模型的事实准确性

AI工具

SimpleQA – OpenAI开源的新基准，用于评估前沿模型的事实准确性

baidu09_com 2025-08-30 46 0

SimpleQA是OpenAI推出的基准测试，用在评估大型语言模型回答简短、寻求事实问题的能力。SimpleQA包含4326个问题，每个问题设计为只有一个正确答案，易于评分。SimpleQA挑战性强，即使是最先进的大模型如o1-preview和Claude Sonnet 3.5的准确率也不到50%。所有问题经过两位独立标注员验证，确保参考答案的准确性和时效性。SimpleQA能评估模型的事实性回答能力，能测量模型的“校准”程度，即模型对自己回答准确性的自我评估能力。SimpleQA的数据集具有多样性，涵盖多个主题，包括历史、科学、艺术等，用在推动更可靠、可信赖的语言模型的发展。

SimpleQA – OpenAI开源的新基准，用于评估前沿模型的事实准确性第1张

（图片来源网络，侵删）

SimpleQA – OpenAI开源的新基准，用于评估前沿模型的事实准确性第2张

（图片来源网络，侵删）

开源simplefoc spotmini开源平台 plato 开源开源sns snipaste开源吗 paas 开源 pipeline 开源

本文由 @baidu09_com 发布在拜读未来科技摆渡人生，如有疑问，请联系我们。
文章链接：https://www.baidu09.com/news/14819.html

baidu09_com管理员

上一篇

DeburringTec：去毛刺&表面精加工技术的四个等级

下一篇

维克斯机油滤芯怎么样

全部评论

留言在路上...

留言在赶来的路上...

发表评论取消回复

关灯返回顶部