上海AI Lab胡侠研究:KV Cache压缩让2万美元GPU发挥20万美金价值(GAIR 2025)
(图片来自网络)
上海人工智能实验室胡侠团队针对大语言模型超长上下文处理需求,提出“有损计算”方案以提升推理效率。研究显示,大语言模型对低精度计算噪声具备强鲁棒性,团队利用这一特性,通过算法与系统层面优化,实现语境长度扩展与关键缓存压缩。
在算法层面,团队通过粗化远距离标记的位置信息,成功将大语言模型的语境长度扩展至原有水平的8倍;在系统层面,将过去令牌的中间状态(KV Cache)量化为2比特数字,实现8倍内存效率提升和3.5倍实际速度加速,且不影响模型性能。
- 算法优化:粗化远距离标记位置信息,扩展语境长度至原有8倍
- 系统优化:将KV Cache量化为2比特,实现8倍内存效率与3.5倍速度提升
胡侠表示,该方案让价值2万美元的GPU在处理长语境任务时,效能接近20万美元级别,为GPU价值提升提供创新路径。研究成果将在第八届GAIR全球人工智能与机器人大会上发布。
(声明:该内容经AI精编)
查看原网页
最新新闻
- 2025年12月12日:爆哭!陈伟霆官宣生子深层原因曝光,童年创伤催生出最温柔的父爱
- 2025年12月12日:爱奇艺尖叫夜明星社交现‘修罗场’,魏大勋杨幂同框微尴尬 多对CP甜度爆棚
- 2025年12月12日:汪小菲与马筱梅直播互动,半路夫妻情感细节引热议
- 2025年12月12日:2025爱奇艺尖叫之夜明星座位安排成焦点 李一桐白鹿与杨幂同框 宋祖儿有望接力
- 2025年12月12日:《唐诡奇谭》第四季定档!原班人马回归,12月17日爱奇艺独播
- 2025年12月12日:以食为媒 东北菜为冰雪旅游注入文化活力
- 2025年12月12日:巩固壮大实体经济根基|为推进强国建设提供坚实物质支撑
- 2025年12月12日:机器人企业精专广发展,跟随会长看中国制造
- 2025年12月12日:对话U30专题即将上线!聚焦前沿科创力量,感受科创勃勃生机!
- 2025年12月12日:特朗普签署行政令 推动美国人工智能监管统一 硅谷遇关键政策变化
- 2025年12月12日:内存价格上涨或影响中端机配置,12GB内存或在2026年后难再常见?
- 2025年12月12日:发挥群众主体作用 激发脱贫内生动力(时评)
- 2025年12月12日:如何定调2026?中央经济工作会议部署明年经济工作重点任务
- 2025年12月12日:何以中国 | 您有一份‘遗产’待继承
- 2025年12月12日:主播说联播:明年经济工作‘八个坚持’划重点,稳中求进绘蓝图
- 2025年12月12日:微生物合成技术赋能产业新发展——天津武清合成生物产业发展掠影
- 2025年12月12日:腾讯以双倍薪资挖来字节跳动AI研究员
- 2025年12月12日:大疆Pocket 4爆料汇总:下月发布或难抢,性能升级引期待
- 2025年12月12日:黑芝麻智能与元戎启行达成深度合作 推动高阶辅助驾驶技术量产落地
- 2025年12月12日:认准95152!抖音官方推出统一外呼服务热线 助力用户远离诈骗风险

精彩评论(10)