谷歌新论文提出嵌套学习新范式 被称为「Attention is all You Need」V2
(图片来自网络)
从小我们常被教导“好记性不如烂笔头”,那么为何不给存在“记忆缺陷”的大模型配备一个小本本,用于总结归纳要点呢?继《Attention Is All You Need》之后,谷歌一项新论文再度引发行业震动,在学术圈内被誉为是“Attention is all you need”V2。这篇题为《Nested Learning: The Illusion of Deep Learning Architectures》的论文,聚焦当前大型语言模型(LLMs)共有的“先天疾病”——数字失忆症,即AI在对话中常遗忘之前知识,仿佛从未经历过。
过去十年,人工智能行业几乎遵循“模型更深、更大”的黄金定律,试图通过堆叠Transformer层、扩大模型参数量来提升能力,但效果有限。然而,谷歌这项研究指出,我们可能忽略了一个与“深度”同等甚至更关键的维度——“频率”——即模型内部组件自我更新的节奏与速度,这一新思路被命名为“嵌套学习”范式。
研究团队重新审视优化器,发现主流优化器本身就是一个持续进行“记忆”的关联记忆系统。它不仅能看当前路况(即时的梯度信息),其内部还隐藏着一个默默做笔记的“黑盒子”,不断压缩、存储一路走来所有梯度变化的“模式”与历史。这意味着,从最底层的优化器,到中层的注意力机制,再到整个神经网络,都可以被统一地重新审视——它们不再是功能各异拼凑的零件,而是在不同时间尺度、不同抽象层级上,嵌套运行的“学习-记忆”模块。从这个全新视角看,我们熟悉的“深度学习”体系,仅仅是这个更宏大、更立体范式的一个扁平化投影。
基于这一核心洞察,论文提出“嵌套学习”新范式,认为真正有效的智能学习需要两个正交的维度:1. 深度(模型的层数与容量,是过去十年全力拓展的);2. 频率(模型内部组件自我更新的节奏与速度,此前几乎被完全忽略)。该范式借鉴人脑多“生物时钟”工作的原理,人类能持续学习成长,正是因为大脑用多种“时钟”处理信息——快速反应的神经元回路处理瞬息万变的感官信息,缓慢坚定的回路巩固长期知识,形成一个连续的时间频谱,信息在不同频率的“通道”间有序流动、加工和储存。而当前的大模型更像患有“顺行性失忆症”的患者,这种病导致患者在病症发作后无法形成新的长期记忆,知识与体验仅局限在“很久远的过去”和“极其短暂的现在”,严重缺失中间频率的“记忆通道”,因此新知识无处安放,要么遗忘要么以高昂成本覆盖旧记忆。
为验证这一理论,研究团队构建了名为HOPE的新型架构,其核心创新是一个连续记忆系统。这不再是一两个孤立的记忆模块,而是一系列像光谱一样排列的多层感知机(MLP)模块,每个模块以预设的不同频率更新。信息输入后,会在这些不同节奏的记忆模块间自动流动与分配:高频模块像“工作记忆”,快速捕捉对话即时细节与上下文;中频模块像“近期记忆”,提炼一段时间内出现的模式;低频模块像“长期记忆”,缓慢稳定地将重要知识沉淀为模型固有能力。这一架构高度模仿了神经科学中信息从海马体向新皮层转移、巩固的经典机制。
初步实验显示,HOPE在标准语言建模和常识推理任务上展现强大竞争力,且具有解决持续学习问题的潜力——新知识可在“记忆光谱”上找到合适位置,逐步消化吸收,而非引发系统崩溃。该论文的意义不仅在于提出新架构,更在于提供一套全新设计逻辑和思考框架,为下一代AI设计能激发潜能的框架,如同“Attention is all you need”统一序列建模视野一样,“嵌套学习”正试图为学习过程构建统一、可解释的“白箱”模型,开启AI新范式。
最新新闻
- 2025年12月21日:谷歌AI逆袭背后的头号功臣
- 2025年12月21日:【上海复兴岛】全球创客岛创新孵化与量子城市空间智能建设交流研讨
- 2025年12月21日:球迷家属拒收债务人额外还款 涉债务纠纷引发关注
- 2025年12月21日:菜鸟九识合作推万元级无人车 劲占万亿城配市场
- 2025年12月21日:星链卫星骤降4000米 或发生爆炸失联事件
- 2025年12月21日:京东业务调整:看似扩张实则聚焦产业供应链
- 2025年12月21日:火箭新星谢泼德两战掘金高光 火箭教练需重视
- 2025年12月21日:奥尔特曼预测未来设备变革:告别屏幕与键盘,OpenAI上市进程推迟
- 2025年12月21日:117家工作站,378场活动、10万+人次!年度科创科普‘答卷’亮眼
- 2025年12月21日:驰为Unitech 24一体机海外上市 多配置适配轻办公场景
- 2025年12月21日:全国顶级动物标本大赛首次登沪 738件作品接受专业评审
- 2025年12月21日:快船103 - 88战胜湖人,赛后3喜1忧分析!
- 2025年12月21日:中央经济工作会议部署:深入推进中小金融机构减量提质
- 2025年12月21日:文化中国行·冬至阳生:传统节气里的文化温情
- 2025年12月21日:LeCun离职前的犀利吐槽:聚焦AI世界模型新方向
- 2025年12月21日:智谱冲刺港股IPO:大模型技术驱动发展
- 2025年12月21日:王力宏演唱会伴舞机器人引俄媒赞叹:俄媒感叹‘这不是科幻,这是中国’
- 2025年12月21日:自变量王潜:具身智能是物理世界的独立基础模型|MEET2026
- 2025年12月21日:深圳福田区功能型无人车累计开通22条线路,科技赋能智慧城市新空间!
- 2025年12月21日:鸿蒙星光盛典见证鸿蒙操作系统成熟之路

精彩评论(10)