PaperBench是OpenAI开源的AI智能体评测基准,支持评估智能体复现顶级学术论文的能力。PaperBench要求智能体从理解论文内容到编写代码、执行实验,全面展现从理论到实践的自动化能力。PaperBench包含8316个评分节点,基于层次化评分标准,用自动评分系统提高效率。评测结果显示,目前主流AI模型在复现任务中表现不如顶级机器学习专家,表明智能体在长期任务规划和执行方面仍有不足。

PaperBench – OpenAI 开源的 AI 智能体评测基准  第1张
(图片来源网络,侵删)
PaperBench – OpenAI 开源的 AI 智能体评测基准  第2张
(图片来源网络,侵删)