1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

蚂蚁开源轻量级推理模型Ring-lite,在多项Benchmark中达到SOTA效果,性能媲美3倍激活参数大小的10B以下Dense模型,验证了MoE架构的潜力。Ring-lite基于此前开源的Ling-lite-1.5(总参数16.8B,激活参数2.75B)开发,并采用独创的C3PO强化学习训练方法提升稳定性。其三大技术亮点包括:首创C3PO方法,解决RL训练中回复长度波动问题;通过熵损失平衡Long-CoT SFT与RL的训练比重,提升token效率;探索多领域任务联合训练,实现数学、代码、科学三重协同增益。在AIME、LiveCodeBench、CodeForces等榜单中,Ring-lite表现优异,数学推理得分76.61、编程竞赛得分60.66,均超过对比模型。此外,Ring-lite在高考数学题中得分约130分,物理题测试也表现良好。团队还构建了高质量的Long-CoT和RL训练数据集,涵盖数学、编程、科学等领域,并通过多阶段质量管控确保数据专业性。未来,团队计划进一步优化C3PO方法,实现动态学习节奏和端到端协同优化,推动AI训练更高效稳定。

原文链接
本文链接:https://kx.umi6.com/article/20662.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
Windsurf“惊魂 96 小时”AI 闪电并购战:谷歌天价挖人,Cognition 逆袭接盘
2025-07-19 15:54:26
重庆:支持开展“人工智能+消费”行动 打造一批“机器人+”应用场景
2025-07-18 20:45:15
真热AI!米哈游5亿成立新公司
2025-07-18 14:39:40
24小时热文
更多
扫一扫体验小程序