蚂蚁开源轻量级推理模型Ring-lite,在多项Benchmark中达到SOTA效果,性能媲美3倍激活参数大小的10B以下Dense模型,验证了MoE架构的潜力。Ring-lite基于此前开源的Ling-lite-1.5(总参数16.8B,激活参数2.75B)开发,并采用独创的C3PO强化学习训练方法提升稳定性。其三大技术亮点包括:首创C3PO方法,解决RL训练中回复长度波动问题;通过熵损失平衡Long-CoT SFT与RL的训练比重,提升token效率;探索多领域任务联合训练,实现数学、代码、科学三重协同增益。在AIME、LiveCodeBench、CodeForces等榜单中,Ring-lite表现优异,数学推理得分76.61、编程竞赛得分60.66,均超过对比模型。此外,Ring-lite在高考数学题中得分约130分,物理题测试也表现良好。团队还构建了高质量的Long-CoT和RL训练数据集,涵盖数学、编程、科学等领域,并通过多阶段质量管控确保数据专业性。未来,团队计划进一步优化C3PO方法,实现动态学习节奏和端到端协同优化,推动AI训练更高效稳定。
原文链接
本文链接:https://kx.umi6.com/article/20662.html
转载请注明文章出处
相关推荐
.png)
换一换
蚂蚁开源轻量级推理模型Ring-lite,多项Benchmark达到SOTA
2025-06-23 21:30:02
小米汽车副总裁李肖爽否认宣传“SOS 1秒接通”:系造谣诋毁 将追责
2025-10-23 08:59:40
广达:今年已扩产8次仍供不应求 英伟达GB300产品11-12月进入主要放量期
2025-10-23 10:07:01
快手进军AICoding赛道
2025-10-23 16:11:06
诺基亚CEO:目前仍处于AI超级周期的早期阶段,就像90年代的互联网
2025-10-23 20:15:12
三星在电视端首发 Perplexity AI 应用程序,带来更具创新性 AI 体验
2025-10-23 10:05:39
快手进军“AI 编程”赛道,推出“工具 + 模型 + 平台”产品矩阵
2025-10-23 16:09:13
百镜大战再添把火!阿里夸克AI眼镜即将开启预售
2025-10-23 15:12:35
Meta削减人工智能部门约600个职位,精简架构以加速组织转型
2025-10-23 02:55:30
对冲基金大佬对AI热潮“敬而远之”,更青睐这项技术……
2025-10-23 16:10:22
慧思开物SDK正式开放 北京人形加速构建具身智能生态新格局
2025-10-23 15:11:25
东软集团新增AI相关业务
2025-10-23 11:03:14
独家|阿里夸克“C计划”揭晓 上线对话助手 把“豆包”塞了进去
2025-10-23 10:05:55
560 文章
276946 浏览
24小时热文
更多

-
2025-10-24 05:23:38
-
2025-10-24 03:21:23
-
2025-10-24 01:20:07