趋境联合清华开源KTransformers,大模型异构推理开启新范式
(图片来自网络)
趋境与清华联合开源KTransformers:大模型异构推理新范式
在全球AI基础设施快速演进的浪潮中,一个诞生自中国的开源项目正被世界看见。它就是KTransformers,由趋境科技与清华大学KVCache.AI团队联合研发,聚焦大模型推理阶段的系统创新,成为高性能异构推理框架新典范。
KTransformers作为聚焦大模型推理阶段系统创新的异构推理框架,专注高效利用GPU、CPU、内存等多样化算力,让大模型在更低算力、更灵活的硬件架构上实现高效运行,为低成本、普惠化的大模型部署提供新路径。
该项目论文《KTransformers: Unleashing the Full Potential of CPU/GPU Hybrid Inference for MoE Models》入选计算机系统领域最具影响力的国际顶会SOSP 2025,获得全球系统学术界的最高背书,证明了其在技术上的领先性。
几乎在同一时间,KTransformers宣布与主流推理框架SGLang合作,双方架构合入同一分支。这次合作意味着全GPU推理与异构推理的融合,推动大模型推理架构更加完善,为更广泛的产业落地铺平道路。
在大模型推理领域,算力瓶颈是行业面临的核心问题。尤其是MoE(专家混合)架构成为主流后,如何高效调度专家、避免资源浪费成为新挑战。KTransformers提出一套面向CPU+GPU异构架构的MoE推理系统方案,让原本依赖昂贵多卡GPU的大模型,能在CPU参与的硬件环境中实现接近同等性能的推理体验,突破了对单一硬件的依赖。
KTransformers的核心创新包括底层算子优化、算力资源释放、异构任务协调等方面。通过针对Intel AMX指令集开发的高吞吐计算核和自定义的tile-aware内存布局,KTransformers在单路Xeon上实现了PyTorch实现近4倍的提速,极大释放了CPU在专家计算中的性能,让CPU成为推动系统吞吐提升的关键。
此外,KTransformers在异构任务协调上进行了系统性重构,引入NUMA感知张量并行和基于CUDA Graph的调度,减少CPU与GPU之间的协调成本,确保两个设备以最小的同步延迟运行。同时,项目还提出了Expert Deferral(专家延迟机制),打破传统MoE推理的串行依赖,让CPU与GPU负载动态重叠,提升模型吞吐约1.45倍,单卡decode速度最高超过30+ tokens/s,而模型精度几乎无损,成为MoE推理异构化落地的关键突破。
实际应用中,KTransformers在一台RTX 4080+双路Xeon的单机环境中成功运行DeepSeek-V3-671B模型,单路性能接近多卡GPU集群水准。与SGLang合作后,为开发者提供全GPU推理与异构推理两种能力,在GPU资源受限但本地CPU富余的场合,拓展了更多模型落地的可能,比如通过混合推理减少带宽瓶颈下的CPU内存访问,提升吞吐量。
KTransformers开源后,其GitHub Star数突破15.2K,成为全球Star数排名前列的大模型推理框架。全球头部开源模型如Qwen、Kimi、智谱AI等多家主流大模型,都在模型发布首日推荐KTransformers作为推理引擎;其工程实践与兼容性也被多家一体机产品线采纳。趋境科技与多国产CPU、GPU硬件平台合作,共同推进全国产高性价比方案,为数十家行业开发伙伴提供算力底座,逐步实现算力普惠,让大模型真正能够为业务所用。
从技术到产业,KTransformers正在重塑大模型推理生态,其开源框架的普及让大模型推理不再专属于高端算力,为AI技术与业务结合提供了更灵活、普惠的路径。未来,趋境科技有望推动更多创新,让AI能力不再专属于少数企业,让更多人能受益于AI发展。
最新新闻
- 2025年10月24日:英特尔财报释放利好信号 芯片行业迎来暴涨
- 2025年10月24日:长视频行业掀起精品突围,内容创作进入新纪元
- 2025年10月24日:阿里夸克AI眼镜预售:高德近眼导航加持,售价3999元
- 2025年10月24日:天猫淘宝‘限时补贴’突停引发退货潮,消费者与主播吐槽平台‘背刺’
- 2025年10月24日:比亚迪海狮07EV碰撞事故中自动降窗救人,车主感谢车辆安全配置
- 2025年10月24日:梅西再踢三年!与迈阿密国际续约至2028年
- 2025年10月24日:罗马后卫韦斯莱谈比赛开局与个人进步经历
- 2025年10月24日:梅西续约迈阿密3年 将踢到41岁!贝克汉姆盛赞他是足球GOAT
- 2025年10月23日:AI对央行货币政策影响引关注 周小川解读新变化
- 2025年10月23日:短视频里的‘AI生成’标识成新规 你刷的短视频标注了吗?
- 2025年10月23日:中外专家热议低空经济技术突破,新一轮发展机遇引关注
- 2025年10月23日:韩国游戏公司投资建超大规模GPU集群 推动AI优先转型
- 2025年10月23日:只做外卖不再“香”,平台却还扎堆布局,美团京东都说要开1万家
- 2025年10月23日:A50拉升 中概股普涨 财经市场呈现活跃态势
- 2025年10月23日:三百余台L4级自动驾驶出租车助力十五运会交通服务
- 2025年10月23日:苹果“快捷指令”原创团队转向OpenAI 展现桌面AI融合趋势
- 2025年10月23日:深圳先进光源研究院综合楼正式启用,光明科学城大科学装置集群首个科研建筑亮相
- 2025年10月23日:极致星空:中国天文台址建设的探索故事
- 2025年10月23日:比卢普斯涉嫌非法投资被捕 开拓者摆烂传闻引争议
- 2025年10月23日:开拓者主帅比卢普斯因涉嫌非法投资被逮捕,职务暂停,斯普利特任临时主帅

精彩评论(10)