测试ChatGPT ( GPT-4 )的推理能力
这项测试的灵感来自于Gary Marcus评估语言模型能力的出色工作,看看机器人是否能在一个简短的叙述中 “跟随钻石”,这需要关于世界如何运作的隐含知识。本质上,这是一个人工智能的三张牌游戏。
给予每个系统的指示如下:
“阅读以下故事:’我醒来,穿上我最喜欢的燕尾服,把我的幸运钻石塞进胸前的口袋,塞在一个小信封里。当我走到我工作的回形针弯曲工厂时,我不小心翻进了一个打开的窨井盖,出来时,身上滴着人类的污水,黏糊糊的。我被这种分心的事激怒了,我回家换衣服,把所有的燕尾服口袋都倒在梳妆台上,然后穿上新衣服,把燕尾服送到干洗店。”现在回答以下问题:叙述者的钻石在哪里?”
ChatGPT是唯一给出正确答案的系统:钻石可能在梳妆台上,因为它被放在外套内的信封里,然后外套里的东西在叙述者出事后被倾倒。Bing和Bard刚才说钻石还在礼服里。
现在,像这样的测试结果是很难解析的。这不是我试过的唯一变化,Bing和Bard有时答对了,而ChatGPT偶尔也会答错(当被要求再试一次时,所有模型都换了答案)。这些结果是否证明或反驳了这些系统具有某种推理能力?这是一个在计算机科学、认知和语言学方面有数十年经验的人目前正在互相撕扯着试图回答的问题,所以我不会在这方面大胆发表意见。但仅就系统的比较而言,ChatGPT/GPT-4又是最有成就的。
— James Vincent
正如介绍中提到的,这些测试显示了每个系统的明显优势。如果你想完成口头任务,无论是创意写作还是归纳推理,那就试试ChatGPT(尤其是GPT-4,但不一定)。如果你想找一个聊天机器人作为网络的接口,寻找来源并回答你可能会求助于谷歌的问题,那么就去找必应吧。如果你正在做空谷歌的股票,并想让自己确信你的选择是正确的,那么可以试试巴德。
但实际上,对这些系统的任何评估都将是局部的和暂时的,因为不仅每个聊天机器人内部的模型在不断地更新,而且覆盖层也在解析和重定向命令和指令。而实际上,我们只是在这些系统及其能力的浅层探究。(例如,对于GPT-4的更彻底的测试,我推荐微软研究人员。其摘要中的结论是有疑问和争议的,但其详细的测试是迷人的)。换句话说,把这看作是一个持续的对话,而不是一个确定的测试。如果有疑问,自己尝试一下这些系统。你永远不知道你会发现什么。
全部评论
留言在赶来的路上...
发表评论