首页 / AI工具 / CodeElo – 阿里 Qwen 团队推出评估 LLM 编程能力的基准测试

AI工具

CodeElo – 阿里 Qwen 团队推出评估 LLM 编程能力的基准测试

baidu09_com 2025-08-28 35 0

CodeElo 是用于评估大型语言模型（LLMs）在编程竞赛级别能力的基准测试工具。通过与人类程序员的 Elo 评级系统进行比较，来衡量 LLMs 的编程水平。工具从 CodeForces 平台选择题目，按比赛分区、难度级别和算法标签进行分类，确保问题的多样性和代表性。CodeElo 的评估方法非常稳健，提交的代码直接在 CodeForces 平台上进行测试，基于特殊的评估机制，确保准确判断代码的正确性。使用 Elo 评级系统来计算评分，考虑问题难度并对错误进行惩罚。在对多个开源和专有 LLM 进行测试后，OpenAI 的 o1-mini 模型表现最佳，超过了 90% 的人类参与者。CodeElo 的推出旨在解决现有基准测试的局限性，提供一个更全面、准确的评估环境，帮助研究人员和开发者更好地理解和改进 LLMs 的能力。

CodeElo – 阿里 Qwen 团队推出评估 LLM 编程能力的基准测试第1张

（图片来源网络，侵删）

CodeElo – 阿里 Qwen 团队推出评估 LLM 编程能力的基准测试第2张

（图片来源网络，侵删）

阿里leetcode 阿里云code官网阿里云codegithub 阿里quick audience 阿里 cold 阿里toolkit code阿里云

本文由 @baidu09_com 发布在拜读未来科技摆渡人生，如有疑问，请联系我们。
文章链接：https://www.baidu09.com/news/13404.html

baidu09_com管理员

上一篇

baidu09瑞派医疗完成数亿元 C 轮融资，越秀产业基金领投

下一篇

曙光存储出席2025中国人形机器人生态大会

全部评论

留言在路上...

留言在赶来的路上...

发表评论取消回复

关灯返回顶部