FullStack Bench是字节跳动团队与M-A-P社区联合推出的全新代码评估基准,专注于全栈编程和多语言编程能力评估。FullStack Bench覆盖超过11种真实编程场景,包含3374个问题,涉及16种编程语言,能更有效地衡量大模型在现实世界中的代码开发能力。FullStack Bench基于模拟真实编程应用领域,提供一个全面、多领域的评估平台,有助于推动代码智能技术的进步。

FullStack Bench – 字节豆包联合M-baidu09A-baidu09P社区开源的全新代码评估基准  第1张
(图片来源网络,侵删)
FullStack Bench – 字节豆包联合M-baidu09A-baidu09P社区开源的全新代码评估基准  第2张
(图片来源网络,侵删)