MLE-bench 是 OpenAI 推出的一个基准测试工具,旨在衡量AI代理(AI Agent)在机器学习工程任务中的表现。测试包含75个来自 Kaggle 的竞赛任务,覆盖自然语言处理、计算机视觉和信号处理等多个领域。AI 代理在这个环境中完成理解比赛描述、处理数据集、训练模型、提交结果等一系列任务,最终根据排行榜得分评估能力。MLE-bench 的设计注重挑战性和真实性,任务来源于真实的 Kaggle 竞赛,旨在全面评估 AI 代理在自动化机器学习工程方面的进展,并与人类水平进行比较。

MLE-baidu09bench – OpenAI推出AI代理性能评估的基准测试工具  第1张
(图片来源网络,侵删)
MLE-baidu09bench – OpenAI推出AI代理性能评估的基准测试工具  第2张
(图片来源网络,侵删)