华为云Tokens服务接入384超节点，算力性能升级至2400TPS

2025年8月28日

（图片来自网络）

在第四届828 B2B企业节开幕式上，华为云宣布其Tokens服务全面接入CloudMatrix 384超节点，通过xDeepServe架构创新，单芯片最高可实现2400TPS、50ms TPOT的超高吞吐、低时延性能，超越行业现有水平。

过去18个月，中国AI算力需求呈现指数级增长。数据显示，2024年初中国日均Token消耗量为1000亿，截至今年6月底，日均Token消耗量已突破30万亿，1年半时间内增长超过300倍，反映了我国人工智能应用规模快速增长，也对算力基础设施提出了更高要求。

在以往按卡时计费的基础上，今年3月，华为云正式推出基于MaaS的Tokens服务。针对不同应用、不同场景的性能和时延要求，还提供了在线版、进线版、离线版乃至尊享版等多种服务规格，为大模型、Agent智能体等AI工具提供了更为灵活、便捷、低成本的先进算力。此次接入CloudMatrix 384超节点后，通过384原生的xDeepServe框架，将吞吐量从年初的1920TPS提升至2400TPS，TPOT仅为50ms。

xDeepServe以Transformerless的极致分离架构为CloudMatrix 384超节点提供服务，把MoE大模型拆分为可独立伸缩的Attention、FFN、Expert三个微模块，相当于在384超节点上把“大模型”拆成“积木”，分派到不同的NPU上同步处理任务。之后，再用基于内存语义的微秒级XCCL通信库与FlowServe自研推理引擎，把它们重新拼成一个超高吞吐的LLM服务平台（即Tokens的“超高速流水线”），通过不断调优，最终实现了从非超节点单卡吞吐600tokens/s至超节点单卡吞吐2400tokens/s的提升。

目前，华为云MaaS服务已支持DeepSeek、Kimi、Qwen等多家主流大模型及versatile、Dify、扣子等主流Agent平台。在应用层面，华为云已与超过100家伙伴携手深入行业场景，共建丰富的Agent，在调研分析、内容创作、智慧办公、智能运维等领域解决产业难题，让企业更便捷地拥抱AI创新，加速智能化。

例如，基于MaaS平台推出的“今日人才数智员工”解决方案，集成了先进的自然语言处理、机器学习和深度学习技术，能实现与用户的智能交互和任务处理，显著提升服务效率与客户满意度；北京方寸无忧科技开发的无忧智慧公文解决方案则可以提升公文处理效能，实现政企办公智能化转型。业内人士表示，以Token为动力的智能社会已经到来，而华为云将以系统级创新能力和全新的Tokens服务构筑先进算力，助力各行各业加速落地AI。

（声明：该内容经AI精编）查看原网页

精彩评论（10）

网友10 2025-08-28 00

从1920到2400TPS，数值提升很明显，说明技术创新力度很大，以后应用场景肯定更多。
网友9 2025-08-28 00

大模型需要算力支持，算力提升直接反映发展速度，这样的技术进步是好事。
网友8 2025-08-28 00

华为云在算力方面的突破，为行业树立了榜样，希望更多企业能跟上脚步。
网友7 2025-08-28 00

感觉这些技术发展太快了，有时候有点跟不上的感觉，但确实很厉害。
网友6 2025-08-28 00

Tokens服务接入超节点，对普通用户来说，以后用大模型可能更流畅，时延低确实很实用。
网友5 2025-08-28 00

算力需求增长这么快，说明人工智能在各行各业的应用越来越广泛了，很看好未来。
网友4 2025-08-28 00

这里的架构创新确实很新颖，把大模型拆成微模块处理，像拼积木一样，很巧妙！
网友3 2025-08-28 00

超节点和TPS提升，说明我国AI算力突破很快，以后发展空间更大了。
网友2 2025-08-28 00

华为云的技术越来越先进了，算力提升对我们日常使用大模型很有帮助，希望价格更亲民一些！
网友1 2025-08-28 00

这项技术进步很厉害，感觉AI发展速度越来越快，期待更多应用！

查看“华为云Tokens服务接入384超节点，算力性能升级至2400TPS”相关搜索 >

华为云Tokens服务接入384超节点，算力性能升级至2400TPS

精彩评论（10）

最新新闻