MLE-baidu09bench – OpenAI推出AI代理性能评估的基准测试工具

baidu09_com 2025-08-29 39 0

MLE-bench 是 OpenAI 推出的一个基准测试工具，旨在衡量AI代理（AI Agent）在机器学习工程任务中的表现。测试包含75个来自 Kaggle 的竞赛任务，覆盖自然语言处理、计算机视觉和信号处理等多个领域。AI 代理在这个环境中完成理解比赛描述、处理数据集、训练模型、提交结果等一系列任务，最终根据排行榜得分评估能力。MLE-bench 的设计注重挑战性和真实性，任务来源于真实的 Kaggle 竞赛，旨在全面评估 AI 代理在自动化机器学习工程方面的进展，并与人类水平进行比较。