RhymeRL - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

攻克强化学习「最慢一环」！交大字节联手，RL训练速度飙升2.6倍

正文：2025年9月，上海交通大学与字节跳动联合推出强化学习加速框架RhymeRL，训练速度提升2.6倍。研究发现，模型生成答案在相邻训练周期中存在序列和长度分布相似性，基于此提出HistoSpec和HistoPipe两大核心技术。HistoSpec通过复用历史响应优化Token生成效率，HistoPipe利用跨步互补调度减少GPU资源浪费。实验表明，该框架在数学、代码等任务上显著提升端到端吞吐量，且精度无损。研究成果已发布于arXiv，为强化学习训练提供了新范式。

原文链接