为什么模型都是1:2.05
-
发布了文章 2个月前
为什么用错奖励,模型也能提分?新研究:模型学的不是新知识,是思维
为什么用错奖励,模型也能提分?新研究:模型学的不是新知识,是思维 最近的一篇论文中,来自人大和腾讯的研究者们的研究表明,语言模型对强化学习中的奖励噪音具有鲁棒性,即使翻转相当一部分的奖励(例如,正确答案得 0 分,错误...
-
发布了文章 2个月前
为什么说大模型无法取代AI Agent ?
为什么说大模型无法取代AI Agent ? 大模型和AI Agent完全属于两个不同品类,一个是思考系统,一个是行动系统,所以并不会由于大模型的迭代优化,而在模型层替代AI Agent的功能。OpenAI CEO Sa...
没有更多内容











