首页 / AI人工智能 / Karpathy盛赞「环境中心」！AGI最后一块拼图开源，大厂豪掷百万锁死

Karpathy盛赞「环境中心」！AGI最后一块拼图开源，大厂豪掷百万锁死

baidu09_com 2025-09-02 32 0

Karpathy盛赞「环境中心」！AGI最后一块拼图开源，大厂豪掷百万锁死

强化学习核心是什么？Karpathy一语道破——环境。全新开源Environments Hub横空出世，为强化学习训练带去革命性突破。

强化学习时代，什么最重要？

Karpathy给出了答案，环境！只有环境，才能让LLM真正进行交互、执行动作、观察结果。

Karpathy盛赞「环境中心」！AGI最后一块拼图开源，大厂豪掷百万锁死第1张

如今，一个开源的环境中心——Environments Hub正式登场了，它由一家专注于去中心化AI开发公司Prime Intellect发布。

Karpathy盛赞「环境中心」！AGI最后一块拼图开源，大厂豪掷百万锁死第2张

一直以来，RL环境是割裂的、封闭的，甚至难以共享。

但有且只有环境，定义了世界、规则，以及「状态—动作—奖励」的反馈闭环。

从游戏到编程，再到聊天对话，它们是AI学习发生的场景。没有它们，RL只是一套无从着力的算法。

Karpathy盛赞「环境中心」！AGI最后一块拼图开源，大厂豪掷百万锁死第3张

Environments Hub的诞生，能够让任何人模拟出各种各样、高质量的环境，为开源AGI做出贡献。

AI智能体交互，缺的是环境

RL环境，是智能体学习的试验场。

回想一下，在预训练时代，互联网数据是核心。LLM主要通过大量多样，且高质量的数据来学习。

到了监督微调阶段，重点变成了「对话数据」。

人们会雇佣外包团队，来为问题创建答案，类似Stack Overflow、Quora平台的模式，但又专为LLM使用场景而设计。

如今到了强化学习时代，前两个阶段不会消失，但不同的是，环境成为了重心。

这些环境，可以用于模型训练，也可用于评估。不过，问题在于，如何创建出丰富多样的环境？

Karpathy回忆道，OpenAI最早的一个项目Gym，一个希望用统一框架去构建大规模环境集合。

Karpathy盛赞「环境中心」！AGI最后一块拼图开源，大厂豪掷百万锁死第4张

GitHub地址：https://github.com/openai/gym

不过，这都是近十年前，大模型还未兴起的项目了。所以，当时的环境，都是一些简单的经典控制任务，比如cartpole、ATARI之类的。

而现在，Environments Hub是一个专门针对LLM构建的版本。

Karpathy激动地表示，「这是个非常棒的努力和想法」。今年初，他还发文建议过有人应该做类似的事情。

Karpathy盛赞「环境中心」！AGI最后一块拼图开源，大厂豪掷百万锁死第5张

Environments Hub有个特点，一旦框架构建完成，原则上社区和行业就可以在不同领域并行开发。

而且，环境和智能体交互的方向，是下一个未来。

Karpathy盛赞「环境中心」！AGI最后一块拼图开源，大厂豪掷百万锁死第6张

大厂斥资几百万，搞出围墙花园

为什么需要打造一个Environments Hub呢？

目前，多数强化学习环境是由初创公司构建，并将其出售给少数几家不对外开放的大型实验室。

如果高质量的学习环境一直保持封闭且昂贵，开源模型将进一步落后于闭源模型。

要想扭转这种局势，需要有一个强大的开源学习环境和训练工具生态系统能崛起。

Karpathy盛赞「环境中心」！AGI最后一块拼图开源，大厂豪掷百万锁死第7张

Environments Hub正是承载着这个使命应运而生，旨在让下一波初创公司和AI的发展能够构建于开放的基础设施和开源模型之上。

核心功能，一键生成评估报告

总结来说，Environments Hub具备了以下功能亮点：

通过Hub或CLI（命令行）拉取、推送并管理环境

生成跨模型的评测报告

与verifiers框架深度集成

prime-rl训练器原生支持环境

提供用于代码执行的原生沙箱支持

你可以创建、管理和共享用于强化学习及评估的环境：

Karpathy盛赞「环境中心」！AGI最后一块拼图开源，大厂豪掷百万锁死第8张

可以为不同模型创建和浏览环境评估报告：

Karpathy盛赞「环境中心」！AGI最后一块拼图开源，大厂豪掷百万锁死第9张

可扩展训练器prime-rl原生支持这些环境：

Karpathy盛赞「环境中心」！AGI最后一块拼图开源，大厂豪掷百万锁死第10张

还有沙盒功能，可直接与Verifier Environments对接，以实现安全的代码执行。

Karpathy盛赞「环境中心」！AGI最后一块拼图开源，大厂豪掷百万锁死第11张

如果还有你需求的功能没有满足，你也可以亲自作为该开源项目开发者去贡献代码。

下一步：全栈式开源AGI基础设施

过去几个月中，Environments Hub将基于Agent的强化学习训练扩展到规模最大的开源模型，并取得了显著进展。

随着众多众包环境被引入INTELLECT-3，训练出一个完全开放、最先进的Agent模型将成为可能。

除此之外，Environments Hub关心的重点是，让人人都能用上这套基础设施，使研究人员和初创公司都能为自己的任务训练模型、集成工具、运行强化微调，以及优化Agent支撑框架。

prime-rl的整个技术栈都是开源的，正在扩展到全球的计算资源上无缝运行。

强化学习不仅是通往AGI的必经之路，也是构建AI原生产品的基础。

未来最成功的初创公司，将是那些能根据自身需求，创造出差异化环境的公司。

Karpathy盛赞「环境中心」！AGI最后一块拼图开源，大厂豪掷百万锁死第12张

如今，最大的障碍并非获取强大模型，而在于大规模训练和部署它们所需的基础设施及成本。

通过降低这一门槛，Environments Hub旨在为所有AI构建者提供廉价、无缝的计算、推理和训练资源，以及全套的强化学习基础设施。

参考资料：

https://www.primeintellect.ai/blog/environments

https://x.com/karpathy/status/1960803117689397543

文章来自于微信公众号“新智元”。

本文由 @baidu09_com 发布在拜读未来科技摆渡人生，如有疑问，请联系我们。
文章链接：https://www.baidu09.com/news/21621.html

baidu09_com管理员

上一篇

一个提示，让Llama 2准确率飙至80.3%？Meta提出全新注意力机制S2A，大幅降低模型幻觉

下一篇

一AI日记应用获600万美金融资，顶级VC领投，小众赛道里跑出来的大生意有何特别？

全部评论

留言在路上...

留言在赶来的路上...

发表评论取消回复

关灯返回顶部