交大与字节跳动联合突破 强化学习训练速度提升2.6倍 攻克‘最慢一环’

2025年9月13日
news

(图片来自网络)

强化学习(RL)作为人工智能领域关键技术,其训练效率长期制约行业发展。上海交通大学与字节跳动研究团队联合攻关,成功突破强化学习训练“效率瓶颈”,让RL训练速度提升2.6倍,攻克行业公认的“最慢一环”。


此前,强化学习训练中,Rollout阶段因内存带宽限制和自回归特性,成为效率低下的“阿喀琉斯之踵”,占据训练超80%时间。团队分析发现,相邻训练周期中,模型对同一问题的响应存在“历史相似性”,为突破提供契机。


上海交通大学与字节跳动研究团队推出技术方案RhymeRL,针对Rollout阶段优化,包含两个核心模块:HistoSpecHistoPipe,从历史数据复用与算力调度两方面发力。


HistoSpec利用历史响应的高相似性,将上一轮的历史响应作为“最佳剧本”,实现“起草-验证”流程,将逐字生成的自回归过程改为“批量验证”,大幅提升单个响应生成速度。其设计示意图显示,历史响应被高效管理以生成树状草稿,验证后接受率极高。


HistoPipe则针对批处理中响应长度不均导致的GPU资源浪费问题,采用“跨步互补”调度策略,在不同步内调整任务处理顺序,实现无空泡的完美流水线,进一步优化整体效率。


经实验验证,RhymeRL在数学、代码等任务上,端到端训练吞吐量提升2.6倍,精度无损,为AI技术迭代加速提供支撑。该研究论文已发布于arXiv平台,链接为https://www.arxiv.org/abs/2508.18588

(声明:该内容经AI精编) 查看原网页

精彩评论(10)

  • 网友10 2025-09-13 16
    原来强化学习一直在等这个突破,现在速度飞起来了,像火箭一样快!
  • 网友9 2025-09-13 16
    技术突破带来的效率提升,对行业有重要意义,希望能持续有创新
  • 网友8 2025-09-13 16
    这个研究让AI发展更迅速,希望能早一点用到实际生活中,解决更多问题
  • 网友7 2025-09-13 16
    科技进步让AI更高效,未来生活肯定更方便,我很期待这些技术落地
  • 网友6 2025-09-13 16
    强化学习终于不是最慢的那一个了,以后AI训练像坐高铁一样快,太期待了!
  • 网友5 2025-09-13 16
    从技术原理看,利用历史相似性和调度优化确实有创新,对强化学习领域发展有帮助
  • 网友4 2025-09-13 16
    能了解强化学习怎么加速吗?这个历史相似性的方法很有趣,以后也想研究这种思路
  • 网友3 2025-09-13 16
    2.6倍加速好厉害,以后学习AI不用等这么久,能更快练模型了,太酷了!
  • 网友2 2025-09-13 16
    科技突破太让人兴奋了,以后模型迭代更快,未来生活肯定更美好
  • 网友1 2025-09-13 16
    这个技术真好,让AI训练快这么多,以后用起来更方便了
查看“交大与字节跳动联合突破 强化学习训练速度提升2.6倍 攻克‘最慢一环’”相关搜索 >

最新新闻

An unhandled error has occurred. Reload 🗙