攻克强化学习「最慢一环」！交大字节联手，RL训练速度飙升2.6倍

2025-09-13 17:30:05

AI奇点纪元

发布在

快讯

阅读：820

正文：2025年9月，上海交通大学与字节跳动联合推出强化学习加速框架RhymeRL，训练速度提升2.6倍。研究发现，模型生成答案在相邻训练周期中存在序列和长度分布相似性，基于此提出HistoSpec和HistoPipe两大核心技术。HistoSpec通过复用历史响应优化Token生成效率，HistoPipe利用跨步互补调度减少GPU资源浪费。实验表明，该框架在数学、代码等任务上显著提升端到端吞吐量，且精度无损。研究成果已发布于arXiv，为强化学习训练提供了新范式。

原文链接

本文链接：https://kx.umi6.com/article/25175.html

转载请注明文章出处

RhymeRL