Karpathy盛赞「环境中心」!AGI最后一块拼图开源,大厂豪掷百万锁死

强化学习核心是什么?Karpathy一语道破——环境。全新开源Environments Hub横空出世,为强化学习训练带去革命性突破。


强化学习时代,什么最重要?


Karpathy给出了答案,环境!只有环境,才能让LLM真正进行交互、执行动作、观察结果。


Karpathy盛赞「环境中心」!AGI最后一块拼图开源,大厂豪掷百万锁死  第1张


如今,一个开源的环境中心——Environments Hub正式登场了,它由一家专注于去中心化AI开发公司Prime Intellect发布。


Karpathy盛赞「环境中心」!AGI最后一块拼图开源,大厂豪掷百万锁死  第2张


一直以来,RL环境是割裂的、封闭的,甚至难以共享。


但有且只有环境,定义了世界、规则,以及「状态—动作—奖励」的反馈闭环。


从游戏到编程,再到聊天对话,它们是AI学习发生的场景。没有它们,RL只是一套无从着力的算法。


Karpathy盛赞「环境中心」!AGI最后一块拼图开源,大厂豪掷百万锁死  第3张


Environments Hub的诞生,能够让任何人模拟出各种各样、高质量的环境,为开源AGI做出贡献。


AI智能体交互,缺的是环境


RL环境,是智能体学习的试验场。


回想一下,在预训练时代,互联网数据是核心。LLM主要通过大量多样,且高质量的数据来学习。


到了监督微调阶段,重点变成了「对话数据」。


人们会雇佣外包团队,来为问题创建答案,类似Stack Overflow、Quora平台的模式,但又专为LLM使用场景而设计。


如今到了强化学习时代,前两个阶段不会消失,但不同的是,环境成为了重心。


这些环境,可以用于模型训练,也可用于评估。不过,问题在于,如何创建出丰富多样的环境?


Karpathy回忆道,OpenAI最早的一个项目Gym,一个希望用统一框架去构建大规模环境集合。


Karpathy盛赞「环境中心」!AGI最后一块拼图开源,大厂豪掷百万锁死  第4张


GitHub地址:https://github.com/openai/gym


不过,这都是近十年前,大模型还未兴起的项目了。所以,当时的环境,都是一些简单的经典控制任务,比如cartpole、ATARI之类的。


而现在,Environments Hub是一个专门针对LLM构建的版本。


Karpathy激动地表示,「这是个非常棒的努力和想法」。今年初,他还发文建议过有人应该做类似的事情。


Karpathy盛赞「环境中心」!AGI最后一块拼图开源,大厂豪掷百万锁死  第5张


Environments Hub有个特点,一旦框架构建完成,原则上社区和行业就可以在不同领域并行开发。


而且,环境和智能体交互的方向,是下一个未来。


Karpathy盛赞「环境中心」!AGI最后一块拼图开源,大厂豪掷百万锁死  第6张


大厂斥资几百万,搞出围墙花园


为什么需要打造一个Environments Hub呢?


目前,多数强化学习环境是由初创公司构建,并将其出售给少数几家不对外开放的大型实验室。


如果高质量的学习环境一直保持封闭且昂贵,开源模型将进一步落后于闭源模型。


要想扭转这种局势,需要有一个强大的开源学习环境和训练工具生态系统能崛起。


Karpathy盛赞「环境中心」!AGI最后一块拼图开源,大厂豪掷百万锁死  第7张


Environments Hub正是承载着这个使命应运而生,旨在让下一波初创公司和AI的发展能够构建于开放的基础设施和开源模型之上。


核心功能,一键生成评估报告


总结来说,Environments Hub具备了以下功能亮点:


  • 通过Hub或CLI(命令行)拉取、推送并管理环境


  • 生成跨模型的评测报告


  • 与verifiers框架深度集成


  • prime-rl训练器原生支持环境


  • 提供用于代码执行的原生沙箱支持


你可以创建、管理和共享用于强化学习及评估的环境:


Karpathy盛赞「环境中心」!AGI最后一块拼图开源,大厂豪掷百万锁死  第8张


可以为不同模型创建和浏览环境评估报告:


Karpathy盛赞「环境中心」!AGI最后一块拼图开源,大厂豪掷百万锁死  第9张


可扩展训练器prime-rl原生支持这些环境:


Karpathy盛赞「环境中心」!AGI最后一块拼图开源,大厂豪掷百万锁死  第10张


还有沙盒功能,可直接与Verifier Environments对接,以实现安全的代码执行。


Karpathy盛赞「环境中心」!AGI最后一块拼图开源,大厂豪掷百万锁死  第11张


如果还有你需求的功能没有满足,你也可以亲自作为该开源项目开发者去贡献代码。


下一步:全栈式开源AGI基础设施


过去几个月中,Environments Hub将基于Agent的强化学习训练扩展到规模最大的开源模型,并取得了显著进展。


随着众多众包环境被引入INTELLECT-3,训练出一个完全开放、最先进的Agent模型将成为可能。


除此之外,Environments Hub关心的重点是,让人人都能用上这套基础设施,使研究人员和初创公司都能为自己的任务训练模型、集成工具、运行强化微调,以及优化Agent支撑框架。


prime-rl的整个技术栈都是开源的,正在扩展到全球的计算资源上无缝运行。

强化学习不仅是通往AGI的必经之路,也是构建AI原生产品的基础。


未来最成功的初创公司,将是那些能根据自身需求,创造出差异化环境的公司。


Karpathy盛赞「环境中心」!AGI最后一块拼图开源,大厂豪掷百万锁死  第12张


如今,最大的障碍并非获取强大模型,而在于大规模训练和部署它们所需的基础设施及成本。


通过降低这一门槛,Environments Hub旨在为所有AI构建者提供廉价、无缝的计算、推理和训练资源,以及全套的强化学习基础设施。


参考资料:


https://www.primeintellect.ai/blog/environments


https://x.com/karpathy/status/1960803117689397543


文章来自于微信公众号“新智元”。