可复现训练 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

首个开源实现100%可复现的稳定RL训练框架来了！2次结果完全重合

2025年9月，SGLang团队联合slime团队发布首个实现100%可复现的稳定强化学习（RL）训练框架。该框架基于批次不变算子和定制注意力逻辑，解决了LLM推理中因动态批处理导致的不确定性问题，实现了完全确定性推理，并兼容分块预填充、CUDA Graph等功能。实验显示，其性能下降平均为34.35%，远优于此前的61.5%。目前主要适用于调试与复现场景，未来将优化算子性能并扩展支持MoE模型等。项目已开源，欢迎开发者试用反馈。

原文链接