阿里云codegithub
-
发布了文章 2个月前
CodeElo – 阿里 Qwen 团队推出评估 LLM 编程能力的基准测试
CodeElo 是用于评估大型语言模型(LLMs)在编程竞赛级别代码生成能力的基准测试工具。通过与人类程序员的 Elo 评级系统进行比较,来衡量 LLMs 的编程水平。工具从 CodeForces 平台选择题目,按比赛分区、...
没有更多内容
CodeElo 是用于评估大型语言模型(LLMs)在编程竞赛级别代码生成能力的基准测试工具。通过与人类程序员的 Elo 评级系统进行比较,来衡量 LLMs 的编程水平。工具从 CodeForces 平台选择题目,按比赛分区、...
没有更多内容