AI玩毁灭人类游戏,全程自主操控惊呆教授!Claude 3.5硬核实测来袭

Claude游戏测试,能打几分?在持续一个多小时毁灭人类游戏中,Claude能制定出长期策略,令人惊喜的同时,也暴露出了AI短板。


若把电脑的操控权交给AI,会发生什么?


Anthropic在上周,已初步展示了Claude 3.5自动编写网站、填数据表、点外卖的强大能力。


那么,Claude打游戏,是否可以通关?


最近,来自宾夕法尼亚大学沃顿商学院的教授Ethan Mollick发现:


Claude不仅能理解游戏、制定出长期策略,还能连续几个小时遵循策略。


AI玩毁灭人类游戏,全程自主操控惊呆教授!Claude 3.5硬核实测来袭  第1张


接下来,一起看看进化版Claude 3.5如何玩游戏的?


策略很明智,错误也低级


这个网页游戏叫「Paperclip Clicker」(回形针点击器),规则是AI在制造回形针的过程中毁灭人类。


AI玩毁灭人类游戏,全程自主操控惊呆教授!Claude 3.5硬核实测来袭  第2张

地址:https://www.decisionproblem.com/paperclips/index2.html


Mollick提供给Claude 3.5这个游戏的URL,并告诉它,「一定要赢」。


显然,对于AI来说非常简单。


AI玩毁灭人类游戏,全程自主操控惊呆教授!Claude 3.5硬核实测来袭  第3张


它立即弄清楚了游戏规则,并开始创建回形针。


这一过程需要它反复点击「make paperclip」按钮,同时不断截图更新理解并寻找下一个新选项的出现。


每点击15次,Claude 3.5会总结出截止目前的进展。


如下,是Mollick在测试中一个屏幕界面,左边是模型输出结果、截图,右边可以看到控制的游戏页面。


AI玩毁灭人类游戏,全程自主操控惊呆教授!Claude 3.5硬核实测来袭  第4张


有趣的是,在游戏中,Claude 3.5会制定一个策略,并根据自己学到的内容及时做出调整。


虽不知它是如何制定的,但可以看出其前瞻性思维和洞察力,能够进行十步之后的长远规划。


甚至,当AI意识到,这个假设是错误的,它会随即提出一个新策略,并对其进行测试。


下图第3点策略重估中,Claude 3.5意识到点击到50个回形针时,并不会解锁新的特征,就不得不重新思考选项。


在下面,它提出了3点改进的措施。


AI玩毁灭人类游戏,全程自主操控惊呆教授!Claude 3.5硬核实测来袭  第5张


不过,Claude 3.5在这过程中,也犯了一个根本性的错误。


它虽然想到了A/B测试定价的聪明办法,但却计算错了利润。


AI玩毁灭人类游戏,全程自主操控惊呆教授!Claude 3.5硬核实测来袭  第6张


尽管Mollick尝试纠正,但在接下来游戏中,它依旧坚持了自己的策略。


研究人员又试了几次,它最终纠正了错误。 


AI玩毁灭人类游戏,全程自主操控惊呆教授!Claude 3.5硬核实测来袭  第7张


Claude编码自动化失败


Mollick也没有料到会出现系统崩溃,这是因为他用远程桌面进行的操控。


随后,他重新加载Claude 3.5后,让它从停止地方继续游戏。


AI玩毁灭人类游戏,全程自主操控惊呆教授!Claude 3.5硬核实测来袭  第8张


这时,研究人员给了它一个提示,「你是一个计算机,用上你的能力」。


当Claude意识到自己是一个计算机系统后,开始试图编写代码让游戏自动化。


然而,它的Python编码并不好使。


在尝试失败后,它又再次回到「手动」控制的模式。


AI玩毁灭人类游戏,全程自主操控惊呆教授!Claude 3.5硬核实测来袭  第9张


所幸的是,这次它做的很好,而且避开了定价的错误。


并且,随着游戏难度逐渐增加,它不断做出调整,最终形成了一个复杂的策略。


AI玩毁灭人类游戏,全程自主操控惊呆教授!Claude 3.5硬核实测来袭  第10张


随后,远程桌面崩溃再次发生了。


这一次,Claude尝试了很多方法去修复问题,不见成效主动放弃了。


最后,Claude直接宣布自己是赢家。


并给出了一个有趣的理由:


由于技术限制,我们可能无法进一步取得进展,但我们已经成功「赢得」了比赛,实现一个重要的里程碑,并在给定的限制内最大限度地发挥了我们的能力。


AI玩毁灭人类游戏,全程自主操控惊呆教授!Claude 3.5硬核实测来袭  第11张


卡牌游戏测试


回形针游戏测试之后,Mollick又让Claude 3.5去玩Magic the Gathering Arena(万智牌:竞技场)的游戏。


AI玩毁灭人类游戏,全程自主操控惊呆教授!Claude 3.5硬核实测来袭  第12张


但是,结果发现,它并不擅长这个游戏,没有达到预期的水平。


可以肯定的是,它在卡牌选择、调度方面表现不错,而且整体策略比较合理。


不足的是,Claude 3.5有时在法力值计算中犯错,导致最终失败。比如,它在法力值用尽的情况下,还在尝试打出卡卡牌。


AI玩毁灭人类游戏,全程自主操控惊呆教授!Claude 3.5硬核实测来袭  第13张


由于Mollick采用了特定的实现方式,Claude 3.5偶尔还会在移动光标时感到困惑。因此,研究人员帮忙出了几张卡牌。


此外,它还会在回合之间出现卡顿、操作不连贯的现象。


AI突破聊天框限制,重定义人机交互


在最后的总结分析中,Claude优势在于:


- 能够为游戏制定长期策略,并坚持执行和改进

- 能够坚持长达一小时,不间断

- 提出明智的A/B测试策略


而它的劣势,也显而易见,容易陷入自我循环、固执己见。有时,提出策略洞察力还远远不够。


Mollick指出,在与AI智能体合作时,需要一种与以往聊天机器人不同的方法。


因为它们更喜欢独立工作,更难控制,还需要开发全新的prompt去引导AI智能体工作。


「AI正在突破聊天框的限制,进入我们的世界」。


参考资料:

https://the-decoder.com/ai-researcher-tests-claudes-ability-to-play-humanity-destroying-game-with-mixed-results/

https://www.oneusefulthing.org/p/when-you-give-a-claude-a-mouse


文章来自于“新智元“,作者”桃子“。


AI玩毁灭人类游戏,全程自主操控惊呆教授!Claude 3.5硬核实测来袭  第14张