AGI前夜重磅:RL突破模型认知上限,真·学习发生!

(图片来自网络)
AGI前夜重磅:RL突破模型认知上限,真·学习发生!
【新智元导读】UC Berkeley、UW、AI2等机构联合团队最新研究提出:在恰当的训练范式下,强化学习(RL)不仅能“打磨”已有能力,更能逼出“全新算法”级的推理模式。他们构建了一个专门验证这一命题的测试框架DELTA,并观察到从“零奖励”到接近100%突破式跃迁的“RL grokking”现象。在AI研究圈,一个核心争论是:强化学习(RL)是否能够赋予模型超越其基础模型(base model)的推理能力。
从“打磨”到“顿悟”:RL真学到新算法?
在主流观点中,RL似乎被困在“隐形的绳子”上——模型的pass@1虽然提高,但在大规模采样下(如pass@128)性能并未扩展。这意味着它可能只是重新分配已有策略的概率,而不是创造新的策略。然而,伯克利团队在DELTA测试中发现了“顿悟式跃迁”:在多个基础模型完全失败的任务族中,RL训练经历了一个长时间的“零奖励平台期”,随后突然出现了准确率接近100%的跃迁(RL grokking)。研究者将此描述为“那不是微调的延展,而是‘想通了’的瞬间”。
一个“分布外”任务试炼场,RL突破原有知识边界
为验证该观点,伯克利团队构建了一个全新的“合成编程世界”,包含以下特点:
- 全新的语言——互联网上从未出现过的合成程序描述语言,仅由“ Puller(读取并移动符号)”和“ Painter(写入标记符号)”两种原始指令组成
- 全新的任务家族——不是重混关卡,而是全新打造的问题族,难度多样,顶尖模型也难以解决
- 全新的推理方式——与常规代码推理完全不同,需要发明有限状态机式的推理方式,在无变量环境中“自造算法”
破解零梯度诅咒,两阶段奖励调度关键
伯克利团队突破“零梯度瓶颈”的核心在于重新设计奖励函数。采用两阶段奖励调度:
阶段一:密集奖励(dense reward)——在测试用例上给部分分数,让模型从“全零”获得梯度信号,摸索策略;
阶段二:切换回二值奖励(binary reward)——当模型获得“半正确”策略后,切换为“全对才算赢”,引发陡峭性能提升,模型“顿悟”后进入稳定强化收敛阶段。
在DELTA测试中,研究者观测到高度一致的学习曲线:前几百步内奖励几乎为零,随后陡峭提升,模型学会任务核心逻辑后性能稳定在近乎100%。这条曲线如同人类学习历程——长期摸索后灵光乍现。
深层启示:RL的两种模式与“硬核任务”价值
研究总结出RL在LLM中的两种模式:压缩模式(重新分配概率提升单次采样性能)和发现模式(结构性突破,从完全不会到稳定解题)。进入发现模式的关键在于奖励函数设计、探索持续时间等。同时强调,评测应关注“硬核任务”(基础模型完全无法解答的任务),这类任务是模型创新突破的真实信号。团队维护项目列表,便于研究者聚焦关键子集。
从编程到数学与科学:RL新边疆
由于编程任务具备可验证单元测试、细粒度反馈等特性,RL可精确调节奖励形成探索路径。这一思路可扩展至数学与科学推理领域,为RL在更复杂领域应用铺路。研究认为,强化学习是让模型从模仿走向洞察的路径,可展示LLM真正学习潜能,为AGI发展提供新方向。
结语:模型“悟道”瞬间
该研究的意义不仅在于性能提升,更在于它展示了LLM真正的学习潜能——强化学习让模型学会“如何思考”,在AGI前夜为技术路径提供新方向。当模型在接近零反馈的黑暗中摸索,直到某一刻突然顿悟,这似乎是AI“悟道”的瞬间,让通用智能更近一步。
作者团队介绍:本项研究来自UC Berkeley宋晓东团队,与AI2、华盛顿大学等机构合作。第一作者孙一铀(Yiyou Sun)为加州大学伯克利分校博士后,研究Out-of-Distribution相关问题。团队此前也发表《OMEGA》研究,评估大模型“跳出盒子”式泛化能力,为RL推理研究提供基础。
最新新闻
- 2025年10月22日:800多位世界名流联名呼吁禁止开发超级智能
- 2025年10月22日:三星Galaxy S26搭载猎户座Exynos 2600芯片跑分曝光:不及骁龙8至尊版
- 2025年10月22日:余承东宣布鸿蒙5终端设备数突破2300万
- 2025年10月22日:大众电动情怀车ID. Buzz将暂停生产 遭遇市场冷遇
- 2025年10月22日:ICCV最佳论文出炉,朱俊彦团队积木研究摘得桂冠
- 2025年10月22日:奈飞因6亿美元税务支出,三季度营业利润率不及预期 引发股价波动
- 2025年10月22日:AI玩具开启产业‘黄金时代’
- 2025年10月22日:首颗“雄安造”卫星成功下线,实现从“0到1”重大跨越
- 2025年10月22日:广东发布‘AI+制造’三年行动方案 助力制造业智能化升级
- 2025年10月22日:一加Ace 6系列新机曝光:骁龙8 Gen5芯片配超大电池
- 2025年10月22日:OpenAI推出ChatGPT Atlas浏览器 挑战谷歌网络霸权
- 2025年10月22日:核聚变商业化加速,高温超导材料迎来发展机遇
- 2025年10月22日:奇瑞捷途纵横G700水陆两栖SUV横渡长江 展现汽车技术新突破
- 2025年10月22日:Dexbotic开源!具身智能VLA平台性能突破,机器人叠盘子100%成功
- 2025年10月22日:车主购买小米汽车遭品牌销售言论引争议,涉事4S店回应处理
- 2025年10月22日:缅怀杨振宁先生:追思科学贡献与社会情怀
- 2025年10月22日:顶尖科学家探讨抗衰老与AI影响:人类与数学家未来回应
- 2025年10月22日:东莞三场AI座谈会推动规模化应用与产业化落地
- 2025年10月22日:AI时代ERP变革:SAP的战略引领与行业转型
- 2025年10月22日:菜鸟跨境物流拓展拉美市场,三季度单量实现三位数增长
精彩评论(10)