交大与字节跳动联合突破强化学习训练速度提升2.6倍攻克‘最慢一环’

2025年9月13日

（图片来自网络）

强化学习（RL）作为人工智能领域关键技术，其训练效率长期制约行业发展。上海交通大学与字节跳动研究团队联合攻关，成功突破强化学习训练“效率瓶颈”，让RL训练速度提升2.6倍，攻克行业公认的“最慢一环”。

此前，强化学习训练中，Rollout阶段因内存带宽限制和自回归特性，成为效率低下的“阿喀琉斯之踵”，占据训练超80%时间。团队分析发现，相邻训练周期中，模型对同一问题的响应存在“历史相似性”，为突破提供契机。

上海交通大学与字节跳动研究团队推出技术方案RhymeRL，针对Rollout阶段优化，包含两个核心模块：HistoSpec与HistoPipe，从历史数据复用与算力调度两方面发力。

HistoSpec利用历史响应的高相似性，将上一轮的历史响应作为“最佳剧本”，实现“起草-验证”流程，将逐字生成的自回归过程改为“批量验证”，大幅提升单个响应生成速度。其设计示意图显示，历史响应被高效管理以生成树状草稿，验证后接受率极高。

HistoPipe则针对批处理中响应长度不均导致的GPU资源浪费问题，采用“跨步互补”调度策略，在不同步内调整任务处理顺序，实现无空泡的完美流水线，进一步优化整体效率。

经实验验证，RhymeRL在数学、代码等任务上，端到端训练吞吐量提升2.6倍，精度无损，为AI技术迭代加速提供支撑。该研究论文已发布于arXiv平台，链接为https://www.arxiv.org/abs/2508.18588。

交大与字节跳动联合突破 强化学习训练速度提升2.6倍 攻克‘最慢一环’