趋境联合清华开源KTransformers,大模型异构推理开启新范式

2025年10月23日
news

(图片来自网络)

趋境与清华联合开源KTransformers:大模型异构推理新范式


在全球AI基础设施快速演进的浪潮中,一个诞生自中国的开源项目正被世界看见。它就是KTransformers,由趋境科技与清华大学KVCache.AI团队联合研发,聚焦大模型推理阶段的系统创新,成为高性能异构推理框架新典范。


KTransformers作为聚焦大模型推理阶段系统创新的异构推理框架,专注高效利用GPU、CPU、内存等多样化算力,让大模型在更低算力、更灵活的硬件架构上实现高效运行,为低成本、普惠化的大模型部署提供新路径。


该项目论文《KTransformers: Unleashing the Full Potential of CPU/GPU Hybrid Inference for MoE Models》入选计算机系统领域最具影响力的国际顶会SOSP 2025,获得全球系统学术界的最高背书,证明了其在技术上的领先性。


几乎在同一时间,KTransformers宣布与主流推理框架SGLang合作,双方架构合入同一分支。这次合作意味着全GPU推理与异构推理的融合,推动大模型推理架构更加完善,为更广泛的产业落地铺平道路。


在大模型推理领域,算力瓶颈是行业面临的核心问题。尤其是MoE(专家混合)架构成为主流后,如何高效调度专家、避免资源浪费成为新挑战。KTransformers提出一套面向CPU+GPU异构架构的MoE推理系统方案,让原本依赖昂贵多卡GPU的大模型,能在CPU参与的硬件环境中实现接近同等性能的推理体验,突破了对单一硬件的依赖。


KTransformers的核心创新包括底层算子优化、算力资源释放、异构任务协调等方面。通过针对Intel AMX指令集开发的高吞吐计算核和自定义的tile-aware内存布局,KTransformers在单路Xeon上实现了PyTorch实现近4倍的提速,极大释放了CPU在专家计算中的性能,让CPU成为推动系统吞吐提升的关键。


此外,KTransformers在异构任务协调上进行了系统性重构,引入NUMA感知张量并行和基于CUDA Graph的调度,减少CPU与GPU之间的协调成本,确保两个设备以最小的同步延迟运行。同时,项目还提出了Expert Deferral(专家延迟机制),打破传统MoE推理的串行依赖,让CPU与GPU负载动态重叠,提升模型吞吐约1.45倍,单卡decode速度最高超过30+ tokens/s,而模型精度几乎无损,成为MoE推理异构化落地的关键突破。


实际应用中,KTransformers在一台RTX 4080+双路Xeon的单机环境中成功运行DeepSeek-V3-671B模型,单路性能接近多卡GPU集群水准。与SGLang合作后,为开发者提供全GPU推理与异构推理两种能力,在GPU资源受限但本地CPU富余的场合,拓展了更多模型落地的可能,比如通过混合推理减少带宽瓶颈下的CPU内存访问,提升吞吐量。


KTransformers开源后,其GitHub Star数突破15.2K,成为全球Star数排名前列的大模型推理框架。全球头部开源模型如Qwen、Kimi、智谱AI等多家主流大模型,都在模型发布首日推荐KTransformers作为推理引擎;其工程实践与兼容性也被多家一体机产品线采纳。趋境科技与多国产CPU、GPU硬件平台合作,共同推进全国产高性价比方案,为数十家行业开发伙伴提供算力底座,逐步实现算力普惠,让大模型真正能够为业务所用。


从技术到产业,KTransformers正在重塑大模型推理生态,其开源框架的普及让大模型推理不再专属于高端算力,为AI技术与业务结合提供了更灵活、普惠的路径。未来,趋境科技有望推动更多创新,让AI能力不再专属于少数企业,让更多人能受益于AI发展。


(声明:该内容经AI精编) 查看原网页

精彩评论(10)

  • 网友10 2025-10-23 09
    以后用大模型工具会不会更方便?不用再担心硬件够不够,应该会越来越好用。
  • 网友9 2025-10-23 09
    这种开源方案能降低我们创业做AI产品的成本,让我们能更快落地,很期待!
  • 网友8 2025-10-23 09
    教育领域可以用这种开源框架给学生做实践,让学生接触前沿大模型技术。
  • 网友7 2025-10-23 09
    Expert Deferral机制很巧妙,解决了CPU和GPU的协同问题,技术实现很扎实。
  • 网友6 2025-10-23 09
    虽然老年学习新东西慢,但这种让大模型更普惠的技术,对普通人很重要,支持!
  • 网友5 2025-10-23 09
    KTransformers和SGLang合作后,以后模型推理能更灵活,想试试这个框架。
  • 网友4 2025-10-23 09
    以后用AI工具不用再纠结硬件了,这个开源框架让技术门槛降低,我应该也能用了。
  • 网友3 2025-10-23 09
    从技术角度看,算子优化和任务调度设计很巧妙,对未来系统架构有借鉴意义。
  • 网友2 2025-10-23 09
    异构推理架构很创新,以后建模不用全靠GPU,成本降了,效率也提升了,太香了!
  • 网友1 2025-10-23 09
    这个技术能让普通电脑也能运行大模型,普通人也能体验AI,很棒!
查看“趋境联合清华开源KTransformers,大模型异构推理开启新范式”相关搜索 >

最新新闻

An unhandled error has occurred. Reload 🗙