2025年9月,SGLang团队联合slime团队发布首个实现100%可复现的稳定强化学习(RL)训练框架。该框架基于批次不变算子和定制注意力逻辑,解决了LLM推理中因动态批处理导致的不确定性问题,实现了完全确定性推理,并兼容分块预填充、CUDA Graph等功能。实验显示,其性能下降平均为34.35%,远优于此前的61.5%。目前主要适用于调试与复现场景,未来将优化算子性能并扩展支持MoE模型等。项目已开源,欢迎开发者试用反馈。
原文链接
本文链接:https://kx.umi6.com/article/25972.html
转载请注明文章出处
相关推荐
换一换
AMD:已将 DeepSeek-V3 模型集成到 Instinct MI300X GPU 上,利用 SGLang 彻底改变 AI 开发
2025-01-25 18:01:34
SGLang原生支持昇腾,新模型一键拉起无需改代码
2025-12-21 23:08:38
Anthropic二级市场估值升至万亿美元 超越OpenAI
2026-04-23 14:11:46
阶跃与腾讯云合作打造新一代 AI 座舱解决方案
2026-04-23 19:26:30
腾讯云TokenHub上架DeepSeek-V4
2026-04-24 16:22:09
英伟达参投Vast Data新一轮融资 估值升至300亿美元
2026-04-23 06:52:02
特斯拉CEO马斯克:预计未来AI芯片将严重不足
2026-04-23 11:06:01
联通在线申请注册呦爱机器人商标
2026-04-24 13:14:01
荣耀WIN游戏本等多款新品正式发布,荣耀PC家族全面爆发
2026-04-24 17:20:32
联检科技等成立新公司 含AI及物联网业务
2026-04-24 15:19:39
SK海力士完成采购项目的招标 涉及250台人工智能服务器
2026-04-23 16:18:31
占比大幅提升!谷歌:公司内部75%的新代码已由AI生成
2026-04-23 08:57:02
DeepSeek-V4上线国家超算互联网
2026-04-24 18:30:24
702 文章
586573 浏览
24小时热文
更多
-
2026-04-25 00:42:43 -
2026-04-24 23:43:31 -
2026-04-24 23:42:26