AGI前夜重磅:RL突破模型认知上限,真·学习发生!

2025年10月22日
news

(图片来自网络)

AGI前夜重磅:RL突破模型认知上限,真·学习发生!


【新智元导读】UC Berkeley、UW、AI2等机构联合团队最新研究提出:在恰当的训练范式下,强化学习(RL)不仅能“打磨”已有能力,更能逼出“全新算法”级的推理模式。他们构建了一个专门验证这一命题的测试框架DELTA,并观察到从“零奖励”到接近100%突破式跃迁的“RL grokking”现象。在AI研究圈,一个核心争论是:强化学习(RL)是否能够赋予模型超越其基础模型(base model)的推理能力。


从“打磨”到“顿悟”:RL真学到新算法?


在主流观点中,RL似乎被困在“隐形的绳子”上——模型的pass@1虽然提高,但在大规模采样下(如pass@128)性能并未扩展。这意味着它可能只是重新分配已有策略的概率,而不是创造新的策略。然而,伯克利团队在DELTA测试中发现了“顿悟式跃迁”:在多个基础模型完全失败的任务族中,RL训练经历了一个长时间的“零奖励平台期”,随后突然出现了准确率接近100%的跃迁(RL grokking)。研究者将此描述为“那不是微调的延展,而是‘想通了’的瞬间”。


一个“分布外”任务试炼场,RL突破原有知识边界


为验证该观点,伯克利团队构建了一个全新的“合成编程世界”,包含以下特点:



  • 全新的语言——互联网上从未出现过的合成程序描述语言,仅由“ Puller(读取并移动符号)”和“ Painter(写入标记符号)”两种原始指令组成

  • 全新的任务家族——不是重混关卡,而是全新打造的问题族,难度多样,顶尖模型也难以解决

  • 全新的推理方式——与常规代码推理完全不同,需要发明有限状态机式的推理方式,在无变量环境中“自造算法”


破解零梯度诅咒,两阶段奖励调度关键


伯克利团队突破“零梯度瓶颈”的核心在于重新设计奖励函数。采用两阶段奖励调度:


阶段一:密集奖励(dense reward)——在测试用例上给部分分数,让模型从“全零”获得梯度信号,摸索策略;


阶段二:切换回二值奖励(binary reward)——当模型获得“半正确”策略后,切换为“全对才算赢”,引发陡峭性能提升,模型“顿悟”后进入稳定强化收敛阶段。


在DELTA测试中,研究者观测到高度一致的学习曲线:前几百步内奖励几乎为零,随后陡峭提升,模型学会任务核心逻辑后性能稳定在近乎100%。这条曲线如同人类学习历程——长期摸索后灵光乍现。


深层启示:RL的两种模式与“硬核任务”价值


研究总结出RL在LLM中的两种模式:压缩模式(重新分配概率提升单次采样性能)和发现模式(结构性突破,从完全不会到稳定解题)。进入发现模式的关键在于奖励函数设计、探索持续时间等。同时强调,评测应关注“硬核任务”(基础模型完全无法解答的任务),这类任务是模型创新突破的真实信号。团队维护项目列表,便于研究者聚焦关键子集。


从编程到数学与科学:RL新边疆


由于编程任务具备可验证单元测试、细粒度反馈等特性,RL可精确调节奖励形成探索路径。这一思路可扩展至数学与科学推理领域,为RL在更复杂领域应用铺路。研究认为,强化学习是让模型从模仿走向洞察的路径,可展示LLM真正学习潜能,为AGI发展提供新方向。


结语:模型“悟道”瞬间


该研究的意义不仅在于性能提升,更在于它展示了LLM真正的学习潜能——强化学习让模型学会“如何思考”,在AGI前夜为技术路径提供新方向。当模型在接近零反馈的黑暗中摸索,直到某一刻突然顿悟,这似乎是AI“悟道”的瞬间,让通用智能更近一步。


作者团队介绍:本项研究来自UC Berkeley宋晓东团队,与AI2、华盛顿大学等机构合作。第一作者孙一铀(Yiyou Sun)为加州大学伯克利分校博士后,研究Out-of-Distribution相关问题。团队此前也发表《OMEGA》研究,评估大模型“跳出盒子”式泛化能力,为RL推理研究提供基础。


(声明:该内容经AI精编) 查看原网页

精彩评论(10)

  • 网友10 2025-10-22 05
    从编程到数学推理的拓展,说明RL潜力很大,未来在各领域应用空间广阔。
  • 网友9 2025-10-22 05
    这种顿悟式学习很像人类学习,AI能学到新算法,说明智能模拟有新进展,很兴奋!
  • 网友8 2025-10-22 05
    AI学习方式进步,这也提醒我们关注伦理和规范,不能光追求技术,还要考虑责任。
  • 网友7 2025-10-22 05
    强化学习突破模型上限,这为很多技术领域带来新机会,很看好未来发展趋势。
  • 网友6 2025-10-22 05
    研究里的新任务设计和实验方法很值得借鉴,以后自己研究可以参考这种创新思路。
  • 网友5 2025-10-22 05
    作为学生,看到AI有这种突破,感觉未来学习或工作环境可能变化,需要不断学习新技能。
  • 网友4 2025-10-22 05
    这新闻把复杂研究讲得很通俗,能让人理解AI技术发展,而且强调探索和突破很重要。
  • 网友3 2025-10-22 05
    RL能逼出新算法,这说明AI学习方式有进步,以后可能更智能,需要关注安全方面。
  • 网友2 2025-10-22 05
    从研究过程看,DELTA框架和奖励调度确实创新,为突破模型边界提供了方法,很佩服研究者。
  • 网友1 2025-10-22 05
    哇,AI终于能真正学习了,感觉离AGI更近一步,很期待未来应用!
查看“AGI前夜重磅:RL突破模型认知上限,真·学习发生!”相关搜索 >

最新新闻

An unhandled error has occurred. Reload 🗙