大模型内存优化新突破:进化算法让KV Cache预算降至1.5%

2025年9月15日
news

(图片来自网络)

大语言模型(LLM)的推理成本优化一直是技术热点,而 KV Cache(键值缓存)效率直接影响模型运行速度与内存占用。如今,一项名为 EvolKV 的技术实现突破,让大模型 KV Cache 预算降至仅1.5%,却仍能保持性能不逊于使用完整缓存的情况!

目前,KV Cache是让大语言模型快速运行的核心“记忆库”,能保存计算结果重复使用,不过长文本处理时内存需求大、速度慢。传统压缩方法虽有效,但未考虑各层信息处理差异与任务性能动态关系。而 EvolKV 采用了进化算法,自适应地为 transformer 各层分配 KV Cache 预算,如图1所示。

来自中国科学院大学、中国科学院自动化研究所与苏黎世联邦理工学院的研发团队(Bohan Yu 和 Yekun Chai)展示了实验成果:在 Mistral 7B-Instruct 和 Llama-3-8B-Instruct 等模型上,当 KV Cache 预算仅占完整模型的 1.5% 时,性能仍能超越使用完整缓存的情况。例如,在 Needle-in-a-Haystack 基准测试中,EvolKV 比 基线方法提升了 13%;在 GSM8K 数学任务中,准确率提升近7个百分点,且保持接近完整模型的性能(达95.7%)。

EvolKV 的进化框架具有 任务驱动优化(根据任务性能直接搜索最优分配)、细粒度分配(为各层匹配合适预算,而非固定模式)、动态调整(无预设规则,能自动适应任务需求)等特点。实验覆盖长上下文检索、推理等多类任务,在 LongBench 等基准测试中持续领先,展现了强大的泛化能力与长上下文处理优势。

(声明:该内容经AI精编) 查看原网页

精彩评论(10)

  • 网友10 2025-09-15 10
    进化算法结合 KV Cache 优化,方法很专业,实验结果也很有说服力,值得推广!
  • 网友9 2025-09-15 10
    如果教育领域大模型用内存少了还快,以后孩子学习用大模型更高效,支持这种技术!
  • 网友8 2025-09-15 10
    大模型内存优化后,企业部署成本降下来,以后项目中用大模型更划算!
  • 网友7 2025-09-15 10
    进化算法优化内存,这种思路对机器学习领域很有启发,希望看到更多应用!
  • 网友6 2025-09-15 10
    这种优化如果真的能降低成本,以后科技产品用起来更方便,性价比高!
  • 网友5 2025-09-15 10
    大模型内存用得少了还能快,以后学习用大模型也不用担心内存不够了?
  • 网友4 2025-09-15 10
    进化算法结合大模型内存优化,这种思路好创新,未来肯定有更多突破!
  • 网友3 2025-09-15 10
    大模型内存优化后,处理数据更快,工作效率能提高不少,太需要这种技术了!
  • 网友2 2025-09-15 10
    现在大模型用内存更少了?以后用手机聊天还不用那么长时间等?
  • 网友1 2025-09-15 10
    这个技术太厉害了,以后大模型用起来更高效,成本降下来对行业应用帮助很大!
查看“大模型内存优化新突破:进化算法让KV Cache预算降至1.5%”相关搜索 >

最新新闻

An unhandled error has occurred. Reload 🗙