Kimi Linear全新注意力架构横空出世：长文本解码速度飙升6.3倍，KV缓存减损75%，成下一代LLM技术标杆

2025年10月31日

（图片来自网络）

月之暗面刚刚推出了全新注意力架构 Kimi Linear，有望成为下一代人工智能大模型（Agent LLM）的基石技术。月之暗面已开源该技术的核心代码和报告，这是经过严格验证的技术，而非水论文。

该架构的核心目标是解决当前大语言模型（LLMs）在处理长序列任务时面临的计算效率和性能瓶颈。研究团队证明，Kimi Linear在短上下文、长上下文及强化学习等多种场景下，性能全面超越了传统的全注意力机制。

核心创新：Kimi Delta Attention (KDA) 是一种表达力更强且高效的线性注意力模块，通过精细门控机制有效利用循环神经网络的状态记忆，同时实现高表达力与高效能平衡。

对比传统全注意力模型，Kimi Linear在处理百万级长文本时，解码吞吐量提升6.3倍，且将Key-Value (KV) 缓存使用量减少高达75%，大幅优化内存与计算资源利用。

架构采用3:1的混合模式，结合线性注意力层与全局注意力层，既保留模型的长距离依赖建模能力，又最大化计算效率。团队开源了核心代码、技术报告及预训练模型，推动AI社区在高效大模型架构方面的研究。