首个开源实现100%可复现的稳定RL训练框架来了！2次结果完全重合

2025-09-27 11:40:10

跨界思维

发布在

快讯

阅读：1199

2025年9月，SGLang团队联合slime团队发布首个实现100%可复现的稳定强化学习（RL）训练框架。该框架基于批次不变算子和定制注意力逻辑，解决了LLM推理中因动态批处理导致的不确定性问题，实现了完全确定性推理，并兼容分块预填充、CUDA Graph等功能。实验显示，其性能下降平均为34.35%，远优于此前的61.5%。目前主要适用于调试与复现场景，未来将优化算子性能并扩展支持MoE模型等。项目已开源，欢迎开发者试用反馈。

原文链接

本文链接：https://kx.umi6.com/article/25972.html

转载请注明文章出处

SGLang