Arm Lumex 计算子系统平台:端侧AI时代的异构协同新基石

(图片来自网络)
9 月 10 日,Arm 在 Arm Unlocked 2025 峰会上正式推出全新 Arm Lumex 计算子系统(CSS)平台,这款专为旗舰级智能手机及下一代个人电脑打造的先进计算平台,核心目标是加速设备端人工智能(AI)体验。据 Arm 官方介绍,Lumex CSS 平台集成了高性能 Arm CPU、GPU 及系统 IP,不仅能帮助生态伙伴缩短 AI 设备上市周期,还可支持桌面级移动游戏、实时翻译、智能助手等多样化场景,为消费电子设备注入“更智能、更高效、更个性化”的能力。
Lumex 平台的核心组件包括:搭载第二代可伸缩矩阵扩展(SME2)技术的全新 Armv9.3 CPU 集群、配备新一代光线追踪技术的 Arm Mali G1-Ultra GPU、高效的系统 IP 以及针对 3 纳米工艺节点优化的物理实现方案。这一高度集成的平台化交付模式,为 Arm 合作伙伴提供了前所未有的灵活性——他们可直接采用 Arm 交付的平台缩短上市时间,也可根据目标市场需求对平台的寄存器传输级(RTL)设计进行配置,并自行完成核心模块的硬化工作。
Arm 发布的性能指标引人注目:依托 SME2 技术,CPU 的 AI 性能实现高达五倍的提升;全新 Mali G1-Ultra GPU 带来了两倍的光线追踪性能飞跃。Lumex 平台通过构建异构计算体系,为端侧 AI 提供高效协同方案,同时配套 Arm KleidiAI 软件生态进一步释放平台潜能,成为端侧 AI 发展的关键基石。
重塑计算核心:SME2 技术驱动的 C1 CPU 集群
Arm Lumex CSS 平台的心脏是其全新的 C1 CPU 集群。C1 CPU 集群是首个基于 Armv9.3 架构并原生集成 SME2 技术的 CPU 系列。SME2 技术为端侧 AI 带来革命性突破,在同等条件下相比上一代 CPU 集群,其 AI 性能提速高达五倍,同时能效优化达三倍。在实际应用中,语音处理延迟降低、聊天交互性能增长、音频生成速度提升等,为用户带来显著体验飞跃。
C1 CPU 家族精准定位,全面覆盖
为了满足从旗舰到入门级市场的不同需求,Arm 推出了分工明确的 C1 CPU 系列,所有核心均可通过 Arm C1-DSU 进行灵活组合。该 DSU 本身也经过优化,与上一代 DSU-120 相比,功耗节省高达 26%。Arm C1-Ultra 作为旗舰核心,延续了 Arm 连续六年实现两位数 IPC 增长的势头,其单线程峰值性能相较于上一代的 Cortex-X925 提升高达 25%。Arm C1-Premium 是 Arm 首次推出的次旗舰处理器,其核心创新在于卓越的面积效率,在 SPEC 等基准测试中保持了与 C1-Ultra 相当的性能水平,但其核心面积(包含私有 L2 缓存)却缩小了 35%,为次旗舰 SoC 设计提供了更优的成本与性能平衡点。Arm C1-Pro 则聚焦于持续能效表现,与 Cortex-A725 相比,它在相同主频下的持续性能提升了 16%,而在视频播放、社交媒体等日常应用中,同等性能下的能效提高了 12%。Arm C1-Nano 追求极致的能耗和面积效率,相比 Cortex-A520,其能效提升了 26%,同时核心面积还缩小了 2%,是可穿戴设备和紧凑型消费电子的理想选择。
融合真实与智能:Mali G1-Ultra GPU 的深度解析
在 Arm Lumex CSS 平台的图形与 AI 推理环节,全新 Arm Mali G1-Ultra GPU 扮演着核心角色。作为 Arm 迄今为止性能最强的移动 GPU,Mali G1-Ultra 不仅延续了 Arm 在手游领域的优势(截至目前,搭载 Arm GPU 的芯片出货量已逾 120 亿颗),更通过新一代光线追踪技术与 AI 加速设计,将移动设备的图形体验推向桌面级水准,同时强化了端侧 AI 推理能力。从核心技术升级来看,Mali G1-Ultra 的突破集中在第二代光线追踪单元(RTUv2)、AI 加速指令与架构优化三大方面。其中,RTUv2 作为专为移动端实时性能设计的硬件单元,较上一代 Immortalis-G925 GPU 的 RTUv1 实现了两倍光线追踪性能提升,且采用单光线模型与独立电源域设计,大幅增强了对非一致性光线的支持,使移动设备能呈现桌面级的光照、反射与阴影效果。在实际游戏测试中,Mali G1-Ultra 的表现尤为突出:《暗区突围》性能提升 25%,《崩坏:星穹铁道》提升 19%,《原神》提升 17%,《堡垒之夜》提升 11%,在 Arm 内部游戏演示《Mori 林间鼯语》中,性能提升更是达到 26%。此外,在启用硬件光线追踪的游戏中,Mali G1-Ultra 的帧率较上一代提升 40%,彻底改变了移动设备“光追性能不足”的现状。在 AI 加速方面,Mali G1-Ultra 引入了新的矩阵乘法单元(MMUL)FP16 指令,专门针对语义分割、去噪、深度估计、物体检测等端侧关键 AI 工作负载优化,较上一代 Immortalis-G925 GPU,AI 与机器学习网络推理速度提升 20%,部分场景性能提升甚至高达 104%。同时,通过扩大 L2 缓存与优化互连设计,Mali G1-Ultra 实现了 AI 与图形工作负载的并行处理,大幅减少内存瓶颈,确保实时 AI 应用(如计算摄影、AI 滤镜)的流畅运行。架构层面,Mali G1-Ultra 作为 Arm 第五代 GPU 架构的代表,引入了双堆叠着色器核心与快速访问统一寄存器设计,双堆叠着色器核心使内部带宽加倍,减少了数据拥塞;快速访问统一寄存器则在着色器执行期间大幅减少内存提取,显著提升了实时光照、基于物理渲染等计算密集型工作负载的响应速度。此外,新增的 Arm 图像区域依赖(IRD)调度特性,可让 GPU 同时处理屏幕不同部分,在复杂场景中减少空闲时间、提升性能。为满足不同设备层级的需求,Arm 还同时推出了 Mali G1-Premium 与 Mali G1-Pro GPU,与 G1-Ultra 共同构成 Mali G1 系列。该系列提供 1-24 个着色器核心选项,系统级芯片(SoC)设计商可根据目标市场(从旗舰手机到中端设备)灵活配置,实现性能与成本的平衡。
无形的引擎:软件生态如何释放 Lumex 的全部潜能
Lumex 平台的硬件进步固然令人瞩目,但其真正的潜力释放,还离不开一个强大且经过精心构建的软件生态系统。这个生态的核心是 Arm KleidiAI 软件库。可以说,软件是 Arm 确保其硬件创新能够被开发者即时、广泛采纳的战略性工具。KleidiAI 是一个免费的软件库,其核心价值在于,它能让开发者在无需修改任何代码的情况下,无缝利用 SME2 等硬件的加速能力。它通过深度集成到所有主流 AI 框架中来实现这一点,包括 PyTorch ExecuTorch、Google LiteRT、阿里巴巴 MNN 以及微软 ONNX Runtime。当开发者使用这些框架构建应用时,其 AI 工作负载就能在兼容的硬件上自动获得加速。这一策略的成功,从数据上可见一斑。目前,KleidiAI 在搭载 Arm 架构的设备上累计安装量已超过 80 亿次,并且仍在持续增长中。此外 Arm 还为不同操作系统提供了清晰的 AI 加速路径:在安卓平台,加速主要通过 Kleidi 集成到 Google 的 XNNPack 库中实现,而 XNNPack 是 LiteRT 的核心运行时。这意味着数以千计使用标准 Google ML 工具的安卓应用将自动获得性能提升。在 Windows on Arm 平台,主要路径则是通过 ONNX Runtime 框架,该框架为 Copilot、Office 365 等核心应用的 AI 功能提供动力。这种对开发者生态的深度支持,解决了新硬件推广时常遇到的“鸡生蛋,蛋生鸡”的难题。KleidiAI 提供了从 Armv8 的 Neon 指令集到 Armv9 的 SME2 的向上兼容性,创建了一个稳定、统一的软件抽象层。开发者只需面向高层框架开发一次,KleidiAI 便会自动在不同设备上选择最优的执行路径。这极大地降低了开发门槛,并确保当消费者购买一台搭载 Lumex 平台的手机时,已有海量应用能够立即发挥其强大性能。
结语:
总体来说,Arm Lumex CSS 平台的发布,远不止是一次硬件的迭代更新。它是 Arm 从 IP 授权商向平台提供商战略演进的集中体现,也是其为应对当前半导体行业关于端侧 AI 的指数级增长和前沿工艺制造的巨大复杂性这两大核心挑战所给出的明确答案。通过 C1 CPU 集群和 SME2 技术,Arm 重新划分了异构计算中各处理单元的职责,为低延迟 AI 任务开辟了高效的新路径。通过 Mali G1-Ultra 和 RTUv2,它将移动游戏的视觉体验提升至新的高度,并为 AI 与图形的深度融合奠定了基础。而通过 KleidiAI 软件生态,它确保了这些强大的硬件能力能够被开发者轻松、快速地转化为丰富的用户体验。将所有这些创新整合在一个经过 3 纳米工艺优化的、预验证的“计算子系统”中进行交付,这本身就是一项关键创新。它直接解决了芯片设计合作伙伴在转向先进工艺节点时所面临的巨大成本、风险和时间压力。通过同时解决“为 AI 构建什么”(架构挑战)和“如何在 3 纳米上构建”(实现挑战)两大难题,Arm 正在成为未来十年移动和消费电子领域不可或缺的核心伙伴,而 Lumex CSS 平台,正是下一代智能设备赖以构建的坚固基石。
最新新闻
- 2025年9月13日:我国红斑狼疮研究获新突破 浙大团队证实基因缺陷致病机制
- 2025年9月13日:观察|推动“科技-产业-金融”良性循环路径
- 2025年9月13日:2025外滩大会落幕,海外网友热议中国AI日常应用成‘顶流’
- 2025年9月13日:中国AI在外滩大会引发全球网友热议 科技新应用震撼海外
- 2025年9月13日:苹果为多款iOS应用推出Liquid Glass风格图标更新
- 2025年9月13日:常州破解“城市矿山”难题,新能源绿色发展加速度(2025年全国主流媒体看常州)
- 2025年9月13日:上海创智学院与无问芯穹共建院企联合实验室 新大模型同步亮相
- 2025年9月13日:雷军发声:已发起诉讼打击汽车行业黑公关 事件引网友热议
- 2025年9月13日:手术机器人、胶囊机器人……AI赋能医疗 科技与健康双向奔赴
- 2025年9月13日:苹果宣布关闭澳大利亚霍恩斯比门店
- 2025年9月13日:企业AI投入陷ROI迷局,“按效付费”能破解AI落地难题吗?
- 2025年9月13日:我国科学家研发‘液滴打印’新技术,实现柔性电子保形贴附
- 2025年9月13日:2025服贸会:北京数字中医药借AI技术多点开花
- 2025年9月13日:王曼昱4-0复仇朱雨玲,锁定澳门赛女单4强
- 2025年9月13日:羽毛球赛事精彩对决!李诗沣2-0完胜世界第十小波波夫 备战决赛有望打破12年无冠魔咒
- 2025年9月13日:中国队完成世锦赛混合4x400米接力首秀,排名第七无缘决赛
- 2025年9月13日:AMD下一代AI GPU MI450宣称“决定性”,拟挑战英伟达AI领域领先地位
- 2025年9月13日:腾讯优图开源Youtu-GraphRAG,图检索增强技术实现新突破
- 2025年9月13日:支付宝推出AI就业助手‘晓叶’,支持岗位找人等功能
- 2025年9月13日:经历多轮裁员、强推线下办公后,微软CEO坦诚需重建与员工的信任
精彩评论(10)