2025年9月,SGLang团队联合slime团队发布首个实现100%可复现的稳定强化学习(RL)训练框架。该框架基于批次不变算子和定制注意力逻辑,解决了LLM推理中因动态批处理导致的不确定性问题,实现了完全确定性推理,并兼容分块预填充、CUDA Graph等功能。实验显示,其性能下降平均为34.35%,远优于此前的61.5%。目前主要适用于调试与复现场景,未来将优化算子性能并扩展支持MoE模型等。项目已开源,欢迎开发者试用反馈。
原文链接
本文链接:https://kx.umi6.com/article/25972.html
转载请注明文章出处
相关推荐
换一换
首个开源实现100%可复现的稳定RL训练框架来了!2次结果完全重合
2025-09-27 11:40:10
SGLang原生支持昇腾,新模型一键拉起无需改代码
2025-12-21 23:08:38
AMD:已将 DeepSeek-V3 模型集成到 Instinct MI300X GPU 上,利用 SGLang 彻底改变 AI 开发
2025-01-25 18:01:34
谨防诈骗!OpenClaw创始人否认入驻微博等中文社交平台
2026-03-08 14:07:08
深圳龙岗拟出台措施 支持OpenClaw&OPC发展
2026-03-08 17:26:26
无需排队工业级漫剧制作:360纳米漫剧流水线抢跑AI影视工业化
2026-03-06 10:46:51
腾讯版“小龙虾”WorkBuddy正式上线
2026-03-09 15:52:31
因拒绝美军方不受限制地使用其AI模型 美国一科技公司被列入“黑名单”
2026-03-06 20:35:09
Meta智能眼镜曝隐私风险 用户AI互动画面会被第三方查看
2026-03-06 18:26:31
火山引擎上线ArkClaw:开箱即用的云上SaaS版OpenClaw
2026-03-09 15:55:48
周鸿祎解读AI短剧:直言有望颠覆Netflix 生产效率提升数十倍
2026-03-08 14:07:20
黑马图像模型被Nano Banana技术负责人点赞!15人华人小队,DDIM之父&CVPR最佳论文作者带队
2026-03-06 23:41:48
鹅厂门口爆满了!腾讯工程师在总部楼下免费安装OpenClaw
2026-03-06 15:12:11
664 文章
497565 浏览
24小时热文
更多
-
2026-03-09 21:13:27 -
2026-03-09 20:09:26 -
2026-03-09 20:09:18