摩尔线程王华:万卡训练中“不报错”成关键挑战 | GAIR 2025

2025年12月18日
news

(图片来自网络)

摩尔线程王华:万卡训练中“不报错”成关键挑战 | GAIR 2025

摩尔线程王华:万卡训练中“不报错”成关键挑战 | GAIR 2025

2025年12月12 - 13日,第八届GAIR全球人工智能与机器人大会在深圳举办。王华在「AI 算力新十年」专场发表演讲,解析万卡级AI训练实践,指出“最危险的往往是‘不报错’”这一核心挑战。

王华表示,相比引起训练报错中断的数据,静默数据错误对训练影响更严重。在万卡训练规模下,节点故障、性能波动、通信存储瓶颈等问题会被放大,需通过软件栈、自动化与可观测体系提升训练稳定性。

他结合摩尔线程真实集群实践,系统拆解万卡训练难题(如并行策略、异步Checkpoint、慢节点治理、静默数据错误等),并分享工程解法。这些经验对想做万卡训练的企业和机构有借鉴意义。

万卡训练成为大模型必要条件

随着模型参数规模进入万亿级,万卡训练从前沿探索转向基础能力。大模型训练需压缩周期、保障系统长期稳定与工程效率。

  • 模型参数万亿级,训练周期与稳定性成关键变量
  • 海外头部公司建设十万甚至二十万卡集群,显示趋势明确
  • 摩尔线程实践为行业提供借鉴

如何让万卡训练“跑起来”

摩尔线程研发系统性软件栈(集群调度、MUSA平台、训练套件等),优化训练效率。通过模拟、起飞检查、异步Checkpoint、慢节点治理等技术,解决大规模训练问题。

  • 研发全栈软件解决并行、训练模拟、故障处理等问题
  • 通过起飞检查、异步Checkpoint等压缩非训练环节时间
  • 自动化与可观测体系保障训练稳定性

万卡训练挑战:稳定性与可控性

慢节点检测、静默数据错误、Hang与Inf/Nan等问题是万卡训练难点。摩尔线程通过压力测试、硬件监控、分布式分析等技术应对。

  • 慢节点检测:监控训练步骤时间,识别异常节点并剔除
  • 静默数据错误:压力测试与硬件监控识别,避免模型精度下降
  • Hang与Inf/Nan问题:分布式分析与重启机制保障稳定

经验借鉴价值

摩尔线程真实集群实践积累的经验,为想做万卡训练的企业和机构提供重要参考,助力AI算力发展。

(声明:该内容经AI精编) 查看原网页

精彩评论(10)

  • 网友10 2025-12-18 09
    人工智能领域不断突破,万卡训练的进展让人期待未来。
  • 网友9 2025-12-18 09
    万卡训练需要多元化技术手段,王华分享的解法很实用。
  • 网友8 2025-12-18 09
    静默错误这种隐藏问题,必须重视,否则影响模型精度。
  • 网友7 2025-12-18 09
    从千卡到万卡,训练难度确实升级,摩尔线程的经验很宝贵。
  • 网友6 2025-12-18 09
    现在大模型训练竞争激烈,万卡规模下的技术方案很重要。
  • 网友5 2025-12-18 09
    万卡训练的稳定性问题确实麻烦,解决后效果肯定好。
  • 网友4 2025-12-18 09
    王华的演讲把复杂技术讲得通俗易懂,对行业很有启发。
  • 网友3 2025-12-18 09
    大模型发展需要强大算力,万卡训练的技术挑战很考验团队。
  • 网友2 2025-12-18 09
    摩尔线程在万卡训练上的实践很值得学习,稳定性保障太关键了。
  • 网友1 2025-12-18 09
    万卡训练技术太前沿了,静默错误解决很重要,期待行业进步!
查看“摩尔线程王华:万卡训练中“不报错”成关键挑战 | GAIR 2025”相关搜索 >

最新新闻

An unhandled error has occurred. Reload 🗙