斯坦福研究:优化器性能对比显示AdamW仍为预训练的首选

(图片来自网络)
斯坦福大学团队针对机器学习优化器展开系统研究,对比多种优化器在大模型预训练中的表现后显示,AdamW依然在预训练场景下保持稳健首选地位,而矩阵型优化器在特定数据–模型比例下展现出明显优势。研究通过严谨的实验设计,剖析了优化器选择的影响因素与性能差异。
研究指出,Adam及其改进版AdamW长期占据开放权重语言模型预训练的主导地位,在海量数据下能保持稳定并实现较快收敛。随着模型规模扩大,预训练成为计算密集型任务,优化器设计对收敛速度与计算成本至关重要。斯坦福团队对比了十一种主流优化器,在多种模型与数据比例下进行超参数调优与性能评估。
研究发现存在两个关键问题:一是超参数调优不公平,基线模型调优不足,固定超参数无法保证比较公平;二是测试规模不足,小模型或有限数据比例下的测试结果不可靠。此外,短期评估也具有误导性,不同优化器在训练后期性能可能逆转。
研究表明,“矩阵型预条件子”的优化器(如Muon、Soap、Kron等)相比传统标量缩放优化器,在特定场景下性能领先。所有速度最快的优化器都采用了矩阵方法,且独立调优至关重要,不同优化器最优超参数差异大。研究通过三阶段实验(全面参数扫描、敏感超参数识别、案例研究)验证结论,发现基于矩阵的优化器加速效果在部分场景下可达30–40%,但实际加速比普遍未超过1.4倍,AdamW依然是最稳健的预训练选择。
论文详细展示了研究设计,包括使用四种Transformer模型(参数130M到1.2B)、混合数据集与超参数调优流程,为优化器性能评估提供了严谨方法。
(声明:该内容经AI精编)
查看原网页
最新新闻
- 2025年9月18日:英伟达与英特尔达成定制芯片合作协议,特朗普政府未参与,郭明錤称台积电风险可控
- 2025年9月18日:英伟达斥资50亿美元入股英特尔,推动计算领域合作发展
- 2025年9月18日:拉什福德欧冠梅开二度:进球时感知空隙故直接射门
- 2025年9月18日:丁俊晖英格兰赛1/8决赛惜败无缘8强:3-0领先连输4局出局
- 2025年9月18日:拉什福德欧冠首球献予巴萨,时隔两年多再进欧冠进球
- 2025年9月18日:微软又要砸40亿建AI数据中心2.0,全球最强AI基建新动态
- 2025年9月18日:欧冠比赛中多纳鲁马神扑扑出别克马头球瞬间成焦点
- 2025年9月18日:23年50号秀!黄蜂官方:球队签下自由球员前锋基昂泰-约翰逊
- 2025年9月18日:谷歌Chrome浏览器接入Gemini:智能解读网页与历史记录功能正式上线
- 2025年9月18日:西班牙后卫赫伊森吐槽足球判罚机制引争议
- 2025年9月18日:NBA与英国合作投资数百万美元 扩大英国民间篮球运动 试点欧洲联赛前的布局
- 2025年9月18日:机器人成康复训练‘新帮手’?科技突破助力周期运动精准化
- 2025年9月18日:腾讯阿里市值双涨,科技巨头发展路径引发关注
- 2025年9月18日:2025亚冠小组赛冲突事件:球员扭打球迷投掷杂物 比赛险中断
- 2025年9月18日:鲁伊-科斯塔:穆帅符合选帅标准 本菲卡新帅亮相发布会
- 2025年9月18日:B席谈德布劳内重返伊蒂哈德:宿命感让主场成主场作战
- 2025年9月18日:苹果更实惠MacBook预计2025年第四季度量产
- 2025年9月18日:一代经典旗舰SUV大众途锐停止供应 中国市场车型调整
- 2025年9月18日:苹果计划在台湾建立测试生产中心,为可折叠iPhone做前期准备
- 2025年9月18日:英伟达斥资50亿美元入股英特尔,双方合作定制AI芯片,英特尔股价暴涨近30%
精彩评论(10)