大模型内存优化新突破:进化算法让KV Cache预算降至1.5%

(图片来自网络)
大语言模型(LLM)的推理成本优化一直是技术热点,而 KV Cache(键值缓存)效率直接影响模型运行速度与内存占用。如今,一项名为 EvolKV 的技术实现突破,让大模型 KV Cache 预算降至仅1.5%,却仍能保持性能不逊于使用完整缓存的情况!
目前,KV Cache是让大语言模型快速运行的核心“记忆库”,能保存计算结果重复使用,不过长文本处理时内存需求大、速度慢。传统压缩方法虽有效,但未考虑各层信息处理差异与任务性能动态关系。而 EvolKV 采用了进化算法,自适应地为 transformer 各层分配 KV Cache 预算,如图1所示。
来自中国科学院大学、中国科学院自动化研究所与苏黎世联邦理工学院的研发团队(Bohan Yu 和 Yekun Chai)展示了实验成果:在 Mistral 7B-Instruct 和 Llama-3-8B-Instruct 等模型上,当 KV Cache 预算仅占完整模型的 1.5% 时,性能仍能超越使用完整缓存的情况。例如,在 Needle-in-a-Haystack 基准测试中,EvolKV 比 基线方法提升了 13%;在 GSM8K 数学任务中,准确率提升近7个百分点,且保持接近完整模型的性能(达95.7%)。
EvolKV 的进化框架具有 任务驱动优化(根据任务性能直接搜索最优分配)、细粒度分配(为各层匹配合适预算,而非固定模式)、动态调整(无预设规则,能自动适应任务需求)等特点。实验覆盖长上下文检索、推理等多类任务,在 LongBench 等基准测试中持续领先,展现了强大的泛化能力与长上下文处理优势。
(声明:该内容经AI精编)
查看原网页
最新新闻
- 2025年9月15日:杭州数字贸易展展现科技新风采:多领域前沿项目亮点纷呈
- 2025年9月15日:罗永浩提议与西贝创始人贾国龙直播对话化解餐饮争议
- 2025年9月15日:罗永浩称华与华道歉 争议事件告一段落
- 2025年9月15日:马斯克旗下xAI大规模裁员 数据标注团队超1/3员工被裁
- 2025年9月15日:苹果AI再迎高管离职 连失三员大将
- 2025年9月15日:哪吒汽车破产重整遇困境,40万车主自费流量‘自救’引关注
- 2025年9月15日:工信部发布新车申报重点:华为、丰田、日产等品牌新车型与经典车型集中亮相
- 2025年9月15日:蔚来完成百亿融资 股价暴涨 李斌引领企业实现关键转折
- 2025年9月15日:零跑D19全尺寸SUV实车曝光 上市后市场表现成焦点
- 2025年9月15日:奇瑞再创新高!全新发动机热效率48%,插混油耗或达1L级水平
- 2025年9月15日:滚石母公司起诉谷歌AI摘要 功能争议引关注
- 2025年9月15日:外卖行业理性竞争:竞促合绘就多方共赢新格局
- 2025年9月15日:罗永浩直播间炮轰华与华 引发商业舆论风波
- 2025年9月15日:钉钉首款AI硬件DingTalk A1现货开售
- 2025年9月15日:CRISPR基因编辑动物引争议
- 2025年9月15日:鹤壁淇县古镇与5G-A技术融合,激活文旅消费新活力
- 2025年9月15日:华为FreeClip 2耳机升级:电池与充电舱容量双提升 新配色登场
- 2025年9月15日:亚马逊云科技AWS回应大中华区裁员传闻:称报道严重失实
- 2025年9月15日:大模型遭遇500道难题测试,o3 Pro仅通过15%
- 2025年9月15日:知名女星孙菲菲官宣离婚并分享感悟,呼吁女性留意婚恋选择,筹备演艺回归计划
精彩评论(10)