线性注意力回归!Kimi新模型引爆,MiniMax却悄悄换回传统架构

2025年11月2日
news

(图片来自网络)

在LLM(大语言模型)技术领域,线性注意力机制正迎来回归热潮,国产模型成为推进主力,同时技术路线之争也持续发酵。近期,Kimi团队发布新模型引发行业热议,而MiniMax却悄然换回传统架构,让这场技术路线之争更添变数。以下是技术发展脉络与核心亮点梳理:


一、背景与现状


工程实践中,线性注意力回归的主要原因包含算力限制与长期技术目标,结合国产模型推进,为注意力机制变革提供动力。国外模型多采用闭源模式,技术细节难以了解,而国产模型在效率与精度平衡上积极探索


二、早期尝试:效率与精度的权衡


线性注意力并非新技术,早在2020年代就有大量学术论文涌现。其核心目标是将注意力机制的时间和内存复杂度从O(n²)降低到O(n),从而在处理长序列时实现更高的效率。然而,这些早期的尝试从未真正获得主流认可——根本原因在于,它们以牺牲模型精度为代价,因此从未被应用在任何一个开源的、达到业界顶尖水平(SOTA)的大语言模型中。


三、新潮流:国产模型引领转折


今年下半年,线性注意力变体迎来了一轮复兴。6月,MiniMax推出拥有4560亿总参数、460亿激活参数的MoE模型(MiniMax-M1),采用“闪电注意力”机制;8月,Qwen3团队推出Qwen3-Next,采用线性注意力变体;9月,DeepSeek团队发布DeepSeek V3.2,采用稀疏注意力(亚二次方复杂度)。这三个模型的共同点是,在大部分层中,都用高效的线性或亚二次方注意力变体取代了传统的二次方注意力。


四、剧情反转:MiniMax悄然“倒戈”


就在线性注意力看似发展前景向好之时,剧情出现了反转。MiniMax团队发布了其新的2300亿参数模型M2,但出人意料地放弃了线性注意力,回归了常规注意力机制。团队给出的解释是,线性注意力在生产环境的LLM中非常棘手——虽然它在处理常规提示时表现尚可,但在推理和多轮对话任务中存在明显的精度问题,而这两项能力对于聊天会话和智能体应用至关重要。这一举动一度让外界认为,线性注意力的探索或许不值得再继续下去。


五、Kimi新模型:混合策略带来新解法


然而,上周,Kimi团队发布了其全新的Kimi Linear模型,再次将线性注意力拉回技术舞台中央。官方数据显示,与常规的全注意力(full attention)相比,Kimi Linear实现了:75%的KV缓存缩减;最高达6倍的解码吞吐量。在架构上,Kimi Linear与Qwen3-Next有诸多相似之处,两者都依赖于一种混合注意力策略。具体来说,它们都将轻量级的线性注意力与重量级的全注意力层结合使用,两者的比例均为3:1,即每三个采用线性注意力(Gated DeltaNet变体)的Transformer块,就搭配一个使用全注意力的块。但Kimi Linear在此基础上进行了改进:线性部分采用了Kimi Delta Attention (KDA)机制(对Gated DeltaNet的精炼),全注意力部分用多头潜在注意力(multi-head latent attention, MLA)取代了标准的全注意力模块。虽然Kimi Linear的论文中没有与Qwen3-Next的直接比较,但与Gated DeltaNet论文中的Gated DeltaNet-H1模型相比,Kimi Linear在保持相同token生成速度的同时,实现了更高的建模精度。目前Kimi Linear中的多头潜在注意力(MLA)尚未整合输出门(sigmoid bypass),但团队计划在未来加入这一特性。


六、技术路线之争的未来


目前,线性注意力回归与返回传统架构的技术路线之争仍在继续,国产模型引领的线性注意力探索、MiniMax的架构反转,以及Kimi新模型的创新,都为这场争论增添了更多维度。从长远来看,注意力机制的发展或许会走向多元化,结合不同复杂度的注意力变体,以平衡效率与精度,满足不同场景下的需求。

(声明:该内容经AI精编) 查看原网页

精彩评论(10)

  • 网友10 2025-11-02 02
    为国产模型喝彩!Kimi新模型体现我国AI进步,线性注意力回归也说明技术多元化
  • 网友9 2025-11-02 02
    Kimi的混合策略很有创意,未来肯定有更多创新架构出现
  • 网友8 2025-11-02 02
    虽然技术不错,但要注意数据合规,这些模型发展得合法安全
  • 网友7 2025-11-02 02
    从工程实现看,线性注意力在长序列处理效率提升明显,Kimi的混合策略值得学习
  • 网友6 2025-11-02 02
    哇,Kimi新模型太酷了,以后聊天机器人肯定更好用,MiniMax换架构也正常
  • 网友5 2025-11-02 02
    作为从业者,更关注实际应用效果,Kimi的性能数据还不错,商业落地要测试
  • 网友4 2025-11-02 02
    这波模型之争像玩游戏一样,Kimi爆,MiniMax倒戈,科技发展真有想象力!
  • 网友3 2025-11-02 02
    现在AI发展太快,线性注意力回归、Kimi爆发,科技圈热闹得很,但得确保安全~
  • 网友2 2025-11-02 02
    从技术角度,线性注意力回归确实能解决效率问题,但精度还是关键,MiniMax换架构也合理,得看长期应用
  • 网友1 2025-11-02 02
    Kimi这波新模型真有意思,感觉以后用AI更流畅了,期待实际效果!
查看“线性注意力回归!Kimi新模型引爆,MiniMax却悄悄换回传统架构”相关搜索 >

最新新闻

An unhandled error has occurred. Reload 🗙