AGI前夜重磅：RL突破模型认知上限，真·学习发生！

2025年10月22日

（图片来自网络）

AGI前夜重磅：RL突破模型认知上限，真·学习发生！

【新智元导读】UC Berkeley、UW、AI2等机构联合团队最新研究提出：在恰当的训练范式下，强化学习（RL）不仅能“打磨”已有能力，更能逼出“全新算法”级的推理模式。他们构建了一个专门验证这一命题的测试框架DELTA，并观察到从“零奖励”到接近100%突破式跃迁的“RL grokking”现象。在AI研究圈，一个核心争论是：强化学习（RL）是否能够赋予模型超越其基础模型（base model）的推理能力。

从“打磨”到“顿悟”：RL真学到新算法？

在主流观点中，RL似乎被困在“隐形的绳子”上——模型的pass@1虽然提高，但在大规模采样下（如pass@128）性能并未扩展。这意味着它可能只是重新分配已有策略的概率，而不是创造新的策略。然而，伯克利团队在DELTA测试中发现了“顿悟式跃迁”：在多个基础模型完全失败的任务族中，RL训练经历了一个长时间的“零奖励平台期”，随后突然出现了准确率接近100%的跃迁（RL grokking）。研究者将此描述为“那不是微调的延展，而是‘想通了’的瞬间”。

一个“分布外”任务试炼场，RL突破原有知识边界

为验证该观点，伯克利团队构建了一个全新的“合成编程世界”，包含以下特点：

全新的语言——互联网上从未出现过的合成程序描述语言，仅由“ Puller（读取并移动符号）”和“ Painter（写入标记符号）”两种原始指令组成

全新的任务家族——不是重混关卡，而是全新打造的问题族，难度多样，顶尖模型也难以解决

全新的推理方式——与常规代码推理完全不同，需要发明有限状态机式的推理方式，在无变量环境中“自造算法”

破解零梯度诅咒，两阶段奖励调度关键

伯克利团队突破“零梯度瓶颈”的核心在于重新设计奖励函数。采用两阶段奖励调度：

阶段一：密集奖励（dense reward）——在测试用例上给部分分数，让模型从“全零”获得梯度信号，摸索策略；

阶段二：切换回二值奖励（binary reward）——当模型获得“半正确”策略后，切换为“全对才算赢”，引发陡峭性能提升，模型“顿悟”后进入稳定强化收敛阶段。

在DELTA测试中，研究者观测到高度一致的学习曲线：前几百步内奖励几乎为零，随后陡峭提升，模型学会任务核心逻辑后性能稳定在近乎100%。这条曲线如同人类学习历程——长期摸索后灵光乍现。

深层启示：RL的两种模式与“硬核任务”价值

研究总结出RL在LLM中的两种模式：压缩模式（重新分配概率提升单次采样性能）和发现模式（结构性突破，从完全不会到稳定解题）。进入发现模式的关键在于奖励函数设计、探索持续时间等。同时强调，评测应关注“硬核任务”（基础模型完全无法解答的任务），这类任务是模型创新突破的真实信号。团队维护项目列表，便于研究者聚焦关键子集。

从编程到数学与科学：RL新边疆

由于编程任务具备可验证单元测试、细粒度反馈等特性，RL可精确调节奖励形成探索路径。这一思路可扩展至数学与科学推理领域，为RL在更复杂领域应用铺路。研究认为，强化学习是让模型从模仿走向洞察的路径，可展示LLM真正学习潜能，为AGI发展提供新方向。

结语：模型“悟道”瞬间

该研究的意义不仅在于性能提升，更在于它展示了LLM真正的学习潜能——强化学习让模型学会“如何思考”，在AGI前夜为技术路径提供新方向。当模型在接近零反馈的黑暗中摸索，直到某一刻突然顿悟，这似乎是AI“悟道”的瞬间，让通用智能更近一步。

作者团队介绍：本项研究来自UC Berkeley宋晓东团队，与AI2、华盛顿大学等机构合作。第一作者孙一铀（Yiyou Sun）为加州大学伯克利分校博士后，研究Out-of-Distribution相关问题。团队此前也发表《OMEGA》研究，评估大模型“跳出盒子”式泛化能力，为RL推理研究提供基础。

（声明：该内容经AI精编）查看原网页

精彩评论（10）

网友10 2025-10-22 05

从编程到数学推理的拓展，说明RL潜力很大，未来在各领域应用空间广阔。
网友9 2025-10-22 05

这种顿悟式学习很像人类学习，AI能学到新算法，说明智能模拟有新进展，很兴奋！
网友8 2025-10-22 05

AI学习方式进步，这也提醒我们关注伦理和规范，不能光追求技术，还要考虑责任。
网友7 2025-10-22 05

强化学习突破模型上限，这为很多技术领域带来新机会，很看好未来发展趋势。
网友6 2025-10-22 05

研究里的新任务设计和实验方法很值得借鉴，以后自己研究可以参考这种创新思路。
网友5 2025-10-22 05

作为学生，看到AI有这种突破，感觉未来学习或工作环境可能变化，需要不断学习新技能。
网友4 2025-10-22 05

这新闻把复杂研究讲得很通俗，能让人理解AI技术发展，而且强调探索和突破很重要。
网友3 2025-10-22 05

RL能逼出新算法，这说明AI学习方式有进步，以后可能更智能，需要关注安全方面。
网友2 2025-10-22 05

从研究过程看，DELTA框架和奖励调度确实创新，为突破模型边界提供了方法，很佩服研究者。
网友1 2025-10-22 05

哇，AI终于能真正学习了，感觉离AGI更近一步，很期待未来应用！

查看“AGI前夜重磅：RL突破模型认知上限，真·学习发生！”相关搜索 >

AGI前夜重磅：RL突破模型认知上限，真·学习发生！

精彩评论（10）

最新新闻