终结Transformer!清华姚班校友主导新架构,破解AI「灾难性遗忘」难题
(图片来自网络)
【新智元导读】大模型「灾难性遗忘」问题或将迎来突破。近日,NeurIPS 2025收录了谷歌研究院的一篇论文,其中提出一种全新的「嵌套学习(Nested Learning)」架构。实验中基于该框架的「Hope」模型在语言建模与长上下文记忆任务中超越Transformer模型,这意味着大模型正迈向具备自我改进能力的新阶段。
「灾难性遗忘」是神经网络核心难题,「灾难性遗忘」是神经网络最根深蒂固的毛病之一,比如:刚学会减法就忘记加法、切换新任务模型得分掉到随机水平、微调大模型出现风格漂移与旧知识遗忘。它的存在让大模型难以像人类一样持续学习。在过去十年,机器学习虽取得惊人进步,但「灾难性遗忘」老问题未被根治。为破解难题,谷歌研究人员提出「嵌套学习(Nested Learning)」范式,并被NeurIPS 2025接收。
「嵌套学习」架构原理「嵌套学习」将模型视为一系列更小的、相互嵌套的优化问题,每个问题独立工作。该设计旨在缓解甚至避免大模型「灾难性遗忘」。破解根源在于「持续学习与自我改进」,人类大脑通过「神经可塑性」重构结构应对新任务。大模型缺乏此能力,知识受限或固定在预训练阶段,学习新任务时会牺牲旧知识,这正是「灾难性遗忘」根源。传统通过修改网络结构或优化算法缓解的方法,存在将模型结构与算法视作独立的误区。而「嵌套学习」打破这种界限,将二者统一为层层嵌套的优化系统,以解决难题。
「Hope」模型验证效果研究人员提出「Hope」模型,验证嵌套学习范式。该模型在语言建模与长上下文记忆任务中表现优异,超越Transformer等现有模型。嵌套学习的核心是构建由多层优化问题组成的系统,每个问题有独立信息与更新速率,允许构建更深学习组件,解决「灾难性遗忘」。从联想记忆角度,Transformer的注意力机制可形式化为简单联想记忆模块,类似人类记忆。嵌套学习允许模型中每个组件多时间尺度更新,类似人脑。Hope模型结合连续记忆系统,能扩展到更大上下文窗口,可实现自身自我修改与无限嵌套学习层级,在实验中表现更好。
研究价值与未来方向嵌套学习为AI持续学习提供新范式,弥合大模型与人脑持续学习能力差距,有助于破解「灾难性遗忘」根源。研究人员Peilin Zhong(清华姚班校友,谷歌科学家)等展开这项研究,其成果为AI发展带来新希望,也为机器学习架构设计提供新思路。
最新新闻
- 2025年11月8日:蚂蚁集团Alipay+服务超18亿全球消费者 一个钱包连接全球市场
- 2025年11月8日:B站CEO陈睿谈优质创作者价值:投稿5年以上UP主超200万
- 2025年11月8日:苹果因App Store前端代码泄露 向GitHub发函清理仓库
- 2025年11月8日:世界互联网大会发布12项‘携手构建网络空间命运共同体’精品案例
- 2025年11月8日:荣耀李健出席乌镇峰会:Magic8与Robot Phone引领AI软硬件新体验
- 2025年11月8日:中国首批航天员科普课堂开启 科学院2025科学节成都分会场精彩亮相
- 2025年11月8日:2025进博会“未来出行·全球发展”论坛成功举办
- 2025年11月8日:币圈动荡再起,又一稳定币“脱锚”引发连锁反应
- 2025年11月8日:“AI+科研”打造医学创新生态
- 2025年11月8日:‘DNA之父’詹姆斯·沃森去世,千字论文解密遗传学秘密,分享访华理念
- 2025年11月8日:快手马宏彬:AI从技术秀迈向效率革命,为传统治理提供新思路
- 2025年11月8日:马斯克誓言特斯拉Optimus机器人助力消除贫困,1万亿美元薪酬方案获批后再提机器人愿景
- 2025年11月8日:小鹏科技日:物理AI驱动的智能出行革新
- 2025年11月8日:‘DNA之父’詹姆斯·沃森去世 曾在四川留下‘双螺旋’印记
- 2025年11月8日:乌镇峰会蓝皮书发布:披露AI技术发展趋势与全球数字治理新动向
- 2025年11月8日:世界互联网大会电子商务专业委员会成立,推动全球电商合作
- 2025年11月8日:40岁黄希扬两次落泪!1265天后重庆队重返中超联赛
- 2025年11月8日:闲鱼CEO丁健:用AI推动闲置循环,让参与更轻松
- 2025年11月8日:《唐朝诡事录3》获高口碑 网友评价一针见血
- 2025年11月8日:重庆铜梁龙冲超成功 重返中超联赛

精彩评论(10)