终结Transformer!清华姚班校友主导新架构,破解AI「灾难性遗忘」难题

2025年11月8日
news

(图片来自网络)



终结Transformer!清华姚班校友主导新架构,破解AI「灾难性遗忘」难题


【新智元导读】大模型「灾难性遗忘」问题或将迎来突破。近日,NeurIPS 2025收录了谷歌研究院的一篇论文,其中提出一种全新的「嵌套学习(Nested Learning)」架构。实验中基于该框架的「Hope」模型在语言建模与长上下文记忆任务中超越Transformer模型,这意味着大模型正迈向具备自我改进能力的新阶段。


「灾难性遗忘」是神经网络核心难题,「灾难性遗忘」是神经网络最根深蒂固的毛病之一,比如:刚学会减法就忘记加法、切换新任务模型得分掉到随机水平、微调大模型出现风格漂移与旧知识遗忘。它的存在让大模型难以像人类一样持续学习。在过去十年,机器学习虽取得惊人进步,但「灾难性遗忘」老问题未被根治。为破解难题,谷歌研究人员提出「嵌套学习(Nested Learning)」范式,并被NeurIPS 2025接收。


「嵌套学习」架构原理「嵌套学习」将模型视为一系列更小的、相互嵌套的优化问题,每个问题独立工作。该设计旨在缓解甚至避免大模型「灾难性遗忘」。破解根源在于「持续学习与自我改进」,人类大脑通过「神经可塑性」重构结构应对新任务。大模型缺乏此能力,知识受限或固定在预训练阶段,学习新任务时会牺牲旧知识,这正是「灾难性遗忘」根源。传统通过修改网络结构或优化算法缓解的方法,存在将模型结构与算法视作独立的误区。而「嵌套学习」打破这种界限,将二者统一为层层嵌套的优化系统,以解决难题。


「Hope」模型验证效果研究人员提出「Hope」模型,验证嵌套学习范式。该模型在语言建模与长上下文记忆任务中表现优异,超越Transformer等现有模型。嵌套学习的核心是构建由多层优化问题组成的系统,每个问题有独立信息与更新速率,允许构建更深学习组件,解决「灾难性遗忘」。从联想记忆角度,Transformer的注意力机制可形式化为简单联想记忆模块,类似人类记忆。嵌套学习允许模型中每个组件多时间尺度更新,类似人脑。Hope模型结合连续记忆系统,能扩展到更大上下文窗口,可实现自身自我修改与无限嵌套学习层级,在实验中表现更好。


研究价值与未来方向嵌套学习为AI持续学习提供新范式,弥合大模型与人脑持续学习能力差距,有助于破解「灾难性遗忘」根源。研究人员Peilin Zhong(清华姚班校友,谷歌科学家)等展开这项研究,其成果为AI发展带来新希望,也为机器学习架构设计提供新思路。



(声明:该内容经AI精编) 查看原网页

精彩评论(10)

  • 网友10 2025-11-08 17
    懂不懂也不重要,但感觉以后用AI会更方便,不用总担心它忘东西了,很实用!
  • 网友9 2025-11-08 17
    为清华姚班校友点赞!他们的研究让AI进步很大,期待未来更多突破。
  • 网友8 2025-11-08 17
    虽然技术很新,但还要看实际应用效果,不过研究方向是对的,为AI长期发展打基础。
  • 网友7 2025-11-08 17
    这个嵌套学习到底是怎么嵌套的?像积木一样一层一层吗?
  • 网友6 2025-11-08 17
    从学术角度来说,嵌套学习架构对神经网络理论有重要贡献,解决「灾难性遗忘」难题有长远意义。
  • 网友5 2025-11-08 17
    看到这样的突破很兴奋!以后AI能更好地学习,应该能在更多领域发挥作用,比如教育、医疗这些方面。
  • 网友4 2025-11-08 17
    从技术层面看,嵌套学习架构很有创新性,打破结构与算法的界限,为AI持续学习提供了新思路,很值得期待。
  • 网友3 2025-11-08 17
    终于破了Transformer的垄断!嵌套学习架构好有趣,以后学习AI应该有新思路了。
  • 网友2 2025-11-08 17
    感觉科技发展很快,AI的这个问题解决后,以后很多工作会变得更智能,期待应用起来!
  • 网友1 2025-11-08 17
    这个技术太厉害了,以后AI能像人一样持续学习,再也不用担心它忘东忘西了!
查看“终结Transformer!清华姚班校友主导新架构,破解AI「灾难性遗忘」难题”相关搜索 >

最新新闻

An unhandled error has occurred. Reload 🗙