摩尔线程王华:万卡训练中“不报错”成关键挑战 | GAIR 2025
(图片来自网络)
摩尔线程王华:万卡训练中“不报错”成关键挑战 | GAIR 2025
2025年12月12 - 13日,第八届GAIR全球人工智能与机器人大会在深圳举办。王华在「AI 算力新十年」专场发表演讲,解析万卡级AI训练实践,指出“最危险的往往是‘不报错’”这一核心挑战。
王华表示,相比引起训练报错中断的数据,静默数据错误对训练影响更严重。在万卡训练规模下,节点故障、性能波动、通信存储瓶颈等问题会被放大,需通过软件栈、自动化与可观测体系提升训练稳定性。
他结合摩尔线程真实集群实践,系统拆解万卡训练难题(如并行策略、异步Checkpoint、慢节点治理、静默数据错误等),并分享工程解法。这些经验对想做万卡训练的企业和机构有借鉴意义。
万卡训练成为大模型必要条件
随着模型参数规模进入万亿级,万卡训练从前沿探索转向基础能力。大模型训练需压缩周期、保障系统长期稳定与工程效率。
- 模型参数万亿级,训练周期与稳定性成关键变量
- 海外头部公司建设十万甚至二十万卡集群,显示趋势明确
- 摩尔线程实践为行业提供借鉴
如何让万卡训练“跑起来”
摩尔线程研发系统性软件栈(集群调度、MUSA平台、训练套件等),优化训练效率。通过模拟、起飞检查、异步Checkpoint、慢节点治理等技术,解决大规模训练问题。
- 研发全栈软件解决并行、训练模拟、故障处理等问题
- 通过起飞检查、异步Checkpoint等压缩非训练环节时间
- 自动化与可观测体系保障训练稳定性
万卡训练挑战:稳定性与可控性
慢节点检测、静默数据错误、Hang与Inf/Nan等问题是万卡训练难点。摩尔线程通过压力测试、硬件监控、分布式分析等技术应对。
- 慢节点检测:监控训练步骤时间,识别异常节点并剔除
- 静默数据错误:压力测试与硬件监控识别,避免模型精度下降
- Hang与Inf/Nan问题:分布式分析与重启机制保障稳定
经验借鉴价值
摩尔线程真实集群实践积累的经验,为想做万卡训练的企业和机构提供重要参考,助力AI算力发展。
(声明:该内容经AI精编)
查看原网页
最新新闻
- 2025年12月18日:星火成炬|2025,总有热情 邀你同行
- 2025年12月18日:「理响中国·经视图」奋进“十五五”:锚定七大主要目标,加油干!
- 2025年12月18日:咱的日子越过越有奔头——“十四五”时期我国脱贫攻坚成果持续巩固拓展
- 2025年12月18日:一图看懂海南自贸港封关
- 2025年12月18日:上海谋划‘十五五’:五个新兴领域瞄准万亿规模
- 2025年12月18日:霞浦临海山村借诗歌文化打造‘诗与远方’新地标
- 2025年12月18日:改革开放:民族发展史上的伟大革命
- 2025年12月18日:[朝闻天下]金上到湖北特高压输电工程建成投运
- 2025年12月18日:ISC.AI 2025第六届创新百强:智能体引领AI创新生态升级
- 2025年12月18日:科学家发现直接调控细胞大小的非编码基因
- 2025年12月18日:腾势汽车搭载DiGuard系统,可联动华为穿戴设备监测生理指标
- 2025年12月18日:百慕大三角‘身世之谜’科学解谜
- 2025年12月18日:告别功勋!蓉城主帅徐正源离队 结束五年成都执教生涯
- 2025年12月18日:中央经济工作会议要求:既“放得活”又“管得好” 做好明年经济工作
- 2025年12月18日:二十届四中全会精神基层宣讲结合实际推进落地 各地区开展多样活动让精神走进群众生活
- 2025年12月18日:大雪中豫剧演出,观众冒雪观看,双向奔赴暖人心
- 2025年12月18日:创业在海南:自贸港人才引力简笔画解读
- 2025年12月18日:海南自由贸易港全岛封关运作,“一线放开二线管住岛内自由”模式解析
- 2025年12月18日:海南自贸港全岛封关启动 建设世界影响力特色自贸港
- 2025年12月18日:抖音近一个月严惩超8000个涉未成年人违规账号:AI擦边等行为被整治

精彩评论(10)