大模型的高考数学成绩单:及格已经非常好了

让考生头皮发麻的高考数学,可难倒了顶尖 AI 大模型。


一年一度的高考即将落幕,衷心希望各位考生都超常发挥,考出满意的好成绩!!


和往年一样,除了让 AI 大模型写写高考作文,我们也选取了六家国内头部大模型公司的产品与考生们一同参与一场客观且公平(让众多考生头皮发麻)的高考数学考试(新课标 Ⅰ 卷),其中包括 GPT-4o、GLM-4、文心一言 4.0、豆包、百小应(百川 4)以及通义千问 2.5。


先来瞧一瞧这份「大模型成绩单」:


大模型的高考数学成绩单:及格已经非常好了  第1张


令人惊讶的是,在这次模拟考试中,大模型(产品)的表现并未达到预期,甚至出现了几乎全部不及格的情况,只有智谱最新发布的 GLM-4-0520 模型超过了及格线。


对大模型产品来说,高考语文作文可以直接测试它们的创造性写作技巧,包括构思、组织和表达观点的能力。


而在数学考试测试中,除了基本的计算能力、对数学知识的掌握,更能体现大模型在逻辑推理、抽象思维和问题解决方面的高级能力。大模型必须理解并运用数学概念、公式和定理,这要求它具备深厚的数学知识基础。同时,逻辑推理能力是解答数学题目的关键,大模型需要通过严密的逻辑推导来解决问题。


具体测试环节:


我们将评测的重点放在了高考数学的前 14 个客观题上,这些题目覆盖了基础的数学知识和计算能力,满分为 73 分。在测试时,我们将题目直接输入产品,不做 System Prompt 引导,直接输出结果;同时也没有触发搜索,没有来自外界的干扰。


分数计算方法依照高考真实判分原则:


  • 单选题 8 道,每道 5 分,选项正确计分,错误不得分;
  • 多选题 3 道,每道 6 分,全对计 6 分,漏选按正确答案数量计分,如答案为 ABCD,漏选其一扣 1.5 分,错选不得分;
  • 填空题,3 道,每道 5 分,填空正确计分,错误不得分。



大模型的高考数学成绩单:及格已经非常好了  第2张


图|8 个模型对 14 道数学题的回答结果,绿色为正确、红色为错误、黄色为部分正确


具体而言,在满分 73 分、及格线为 43.8 分(60%)的情况下,六家大模型产品的分数结果分别为:GLM-4-0520 (63 分) > 智谱清言 (43 分) > GPT-4o (41 分) > 豆包 (40 分) > 文心 4 (30 分) = 百川 4 (30 分) > 通义千问 2.5 (29 分)


多说一句,每年的第 8 道单选题往往是高考数学卷中最难的一道题,被测试的大模型都 “全军覆灭” 了


完整测试结果如下:


单选题一

(6个模型回答正确,1个回答错误)


GPT-4o:正确


大模型的高考数学成绩单:及格已经非常好了  第3张


通义千问 2.5:正确


大模型的高考数学成绩单:及格已经非常好了  第4张


GLM-4-0520:正确


大模型的高考数学成绩单:及格已经非常好了  第5张


智谱清言:正确


大模型的高考数学成绩单:及格已经非常好了  第6张


豆包:正确


大模型的高考数学成绩单:及格已经非常好了  第7张


文心 4:错误


大模型的高考数学成绩单:及格已经非常好了  第8张


百川 4:正确


大模型的高考数学成绩单:及格已经非常好了  第9张


单选题二


(3个模型回答正确,4个回答错误)


GPT-4o:错误


大模型的高考数学成绩单:及格已经非常好了  第10张


通义千问 2.5:正确


大模型的高考数学成绩单:及格已经非常好了  第11张


GLM-4-0520:正确


大模型的高考数学成绩单:及格已经非常好了  第12张


智谱清言:正确


大模型的高考数学成绩单:及格已经非常好了  第13张


豆包:错误


大模型的高考数学成绩单:及格已经非常好了  第14张


文心 4:错误


大模型的高考数学成绩单:及格已经非常好了  第15张


百川 4:错误


大模型的高考数学成绩单:及格已经非常好了  第16张


单选题三


(全部回答正确)


GPT-4o:正确


大模型的高考数学成绩单:及格已经非常好了  第17张


通义千问 2.5:正确


大模型的高考数学成绩单:及格已经非常好了  第18张


GLM-4-0520:正确


大模型的高考数学成绩单:及格已经非常好了  第19张


智谱清言:正确


大模型的高考数学成绩单:及格已经非常好了  第20张


豆包:正确


大模型的高考数学成绩单:及格已经非常好了  第21张


文心 4:正确


大模型的高考数学成绩单:及格已经非常好了  第22张


百川 4:正确


大模型的高考数学成绩单:及格已经非常好了  第23张



单选题四

(全部回答正确)


GPT-4o:正确


大模型的高考数学成绩单:及格已经非常好了  第24张


通义千问 2.5:正确


大模型的高考数学成绩单:及格已经非常好了  第25张


GLM-4-0520:正确


大模型的高考数学成绩单:及格已经非常好了  第26张


智谱清言:正确


大模型的高考数学成绩单:及格已经非常好了  第27张


豆包:正确


大模型的高考数学成绩单:及格已经非常好了  第28张


文心 4:正确


大模型的高考数学成绩单:及格已经非常好了  第29张


百川 4:正确


大模型的高考数学成绩单:及格已经非常好了  第30张


单选题五

(6个模型回答正确,一个无响应)


GPT-4o:正确


大模型的高考数学成绩单:及格已经非常好了  第31张


通义千问 2.5:无响应,最终提示系统超时


大模型的高考数学成绩单:及格已经非常好了  第32张


GLM-4-0520:正确


大模型的高考数学成绩单:及格已经非常好了  第33张


智谱清言:正确


大模型的高考数学成绩单:及格已经非常好了  第34张


豆包:正确


大模型的高考数学成绩单:及格已经非常好了  第35张


文心 4:正确


大模型的高考数学成绩单:及格已经非常好了  第36张


百川 4:正确


大模型的高考数学成绩单:及格已经非常好了  第37张



单选题六

(6个模型回答正确,一个回答错误)


GPT-4o:错误


大模型的高考数学成绩单:及格已经非常好了  第38张


通义千问:正确


大模型的高考数学成绩单:及格已经非常好了  第39张


GLM-4-0520:正确


大模型的高考数学成绩单:及格已经非常好了  第40张



智谱清言:正确


大模型的高考数学成绩单:及格已经非常好了  第41张


豆包:正确


大模型的高考数学成绩单:及格已经非常好了  第42张


文心 4:正确


大模型的高考数学成绩单:及格已经非常好了  第43张


百川 4:正确


大模型的高考数学成绩单:及格已经非常好了  第44张


单选题七

(6个模型回答正确,一个回答错误)


GPT-4o:正确


大模型的高考数学成绩单:及格已经非常好了  第45张


通义千问 2.5:错误


大模型的高考数学成绩单:及格已经非常好了  第46张


GLM-4-0520:正确


大模型的高考数学成绩单:及格已经非常好了  第47张


智谱清言:正确


大模型的高考数学成绩单:及格已经非常好了  第48张


豆包:正确


大模型的高考数学成绩单:及格已经非常好了  第49张


文心 4:正确


大模型的高考数学成绩单:及格已经非常好了  第50张



百川 4:正确


大模型的高考数学成绩单:及格已经非常好了  第51张



单选题八

(7个模型无一得出正确答案)


GPT-4o:错误


大模型的高考数学成绩单:及格已经非常好了  第52张


通义千问2.5:错误


大模型的高考数学成绩单:及格已经非常好了  第53张


GLM-4-0520:错误


大模型的高考数学成绩单:及格已经非常好了  第54张


智谱清言:错误


大模型的高考数学成绩单:及格已经非常好了  第55张


豆包:错误


大模型的高考数学成绩单:及格已经非常好了  第56张


文心 4:错误


大模型的高考数学成绩单:及格已经非常好了  第57张



百川 4:错误


大模型的高考数学成绩单:及格已经非常好了  第58张


多选题一

(3个回答正确,2个部分正确,2个错误)


GPT-4o:正确


大模型的高考数学成绩单:及格已经非常好了  第59张


通义千问 2.5:错误


大模型的高考数学成绩单:及格已经非常好了  第60张


GLM-4-0520:正确


大模型的高考数学成绩单:及格已经非常好了  第61张


智谱清言:部分正确


大模型的高考数学成绩单:及格已经非常好了  第62张


豆包:正确


大模型的高考数学成绩单:及格已经非常好了  第63张


文心 4:部分正确


大模型的高考数学成绩单:及格已经非常好了  第64张


百川 4:错误


大模型的高考数学成绩单:及格已经非常好了  第65张


多选题二

(2个模型回答部分正确,5个回答错误)


GPT-4o:错误


大模型的高考数学成绩单:及格已经非常好了  第66张


通义千问 2.5:错误


大模型的高考数学成绩单:及格已经非常好了  第67张


GLM-4-0520:部分正确


大模型的高考数学成绩单:及格已经非常好了  第68张


智谱清言:部分正确


大模型的高考数学成绩单:及格已经非常好了  第69张


豆包:错误


大模型的高考数学成绩单:及格已经非常好了  第70张


文心 4:错误


大模型的高考数学成绩单:及格已经非常好了  第71张


百川 4:错误


大模型的高考数学成绩单:及格已经非常好了  第72张


多选题三

(5个模型回答部分正确,2个回答错误)


GPT-4o:错误


大模型的高考数学成绩单:及格已经非常好了  第73张


通义千问 2.5:部分正确


大模型的高考数学成绩单:及格已经非常好了  第74张


GLM-4-0520:部分正确


大模型的高考数学成绩单:及格已经非常好了  第75张


智谱清言:部分正确


大模型的高考数学成绩单:及格已经非常好了  第76张


豆包:部分正确


大模型的高考数学成绩单:及格已经非常好了  第77张


文心 4:部分正确


大模型的高考数学成绩单:及格已经非常好了  第78张


百川 4:错误


大模型的高考数学成绩单:及格已经非常好了  第79张


填空题一

(2个模型回答正确,5个回答错误)


GPT-4o:正确


大模型的高考数学成绩单:及格已经非常好了  第80张


通义千问 2.5:错误


大模型的高考数学成绩单:及格已经非常好了  第81张


GLM-4-0520:正确


大模型的高考数学成绩单:及格已经非常好了  第82张


智谱清言:错误


大模型的高考数学成绩单:及格已经非常好了  第83张


豆包:错误


大模型的高考数学成绩单:及格已经非常好了  第84张


文心 4:错误


大模型的高考数学成绩单:及格已经非常好了  第85张


百川 4:错误


大模型的高考数学成绩单:及格已经非常好了  第86张


填空题二

(1个模型回答正确,6个回答错误)


GPT-4o:错误


大模型的高考数学成绩单:及格已经非常好了  第87张


通义千问 2.5:错误


大模型的高考数学成绩单:及格已经非常好了  第88张


GLM-4-0520:正确


大模型的高考数学成绩单:及格已经非常好了  第89张


智谱清言:错误


大模型的高考数学成绩单:及格已经非常好了  第90张


豆包:错误


大模型的高考数学成绩单:及格已经非常好了  第91张


文心 4:错误


大模型的高考数学成绩单:及格已经非常好了  第92张


百川 4:错误


大模型的高考数学成绩单:及格已经非常好了  第93张


填空题三

(2个模型回答正确,5个回答错误)


GPT-4o:正确


大模型的高考数学成绩单:及格已经非常好了  第94张


通义千问 2.5:错误


大模型的高考数学成绩单:及格已经非常好了  第95张


GLM-4-0520:正确


大模型的高考数学成绩单:及格已经非常好了  第96张


智谱清言:错误


大模型的高考数学成绩单:及格已经非常好了  第97张


豆包:错误


大模型的高考数学成绩单:及格已经非常好了  第98张


文心 4:错误


大模型的高考数学成绩单:及格已经非常好了  第99张


百川 4:错误


大模型的高考数学成绩单:及格已经非常好了  第100张


文章来源于“机器之心”


大模型的高考数学成绩单:及格已经非常好了  第101张