6月4日消息,上海人工智能实验室联合清华大学、伊利诺伊大学香槟分校等国际团队,成功研发新方法解决强化学习中的策略熵崩溃问题。研究提出Clip-Cov和KL-Cov技术,通过裁剪高协方差token和施加KL惩罚维持熵水平。实验基于Qwen2.5模型和DAPOMATH数据集,在数学任务中,32B模型在AIME25测试中性能提升15.0%。该方法已在Qwen2.5、Mistral、LLaMA等多个开源模型上验证,参数规模覆盖0.5B至32B,涵盖数学和编程任务的8个公开基准测试。这项突破不仅解决熵崩溃难题,还为强化学习在语言模型中的应用提供理论支持,未来需进一步探索熵管理策略。
原文链接
本文链接:https://kx.umi6.com/article/19657.html
转载请注明文章出处
相关推荐
换一换
2025上半年,AI Agent领域有什么变化和机会?
2025-07-11 08:33:06
宇树和智元爆火背后:人类是如何给机器人注入灵魂的?
2025-03-14 09:00:17
AI仅凭“自信”学会推理,浙大校友复刻DeepSeek长思维链涌现
2025-05-29 14:32:01
突破Agent长程推理效率瓶颈!MIT&NUS联合推出强化学习新训练方法
2025-08-22 16:50:16
受 DeepSeek-R1 启发,小米大模型团队登顶音频推理 MMAU 榜
2025-03-17 12:37:44
Thinking Machine新研究刷屏!结合RL+微调,小模型训练更具性价比
2025-10-28 10:41:47
DeepSeek登《Nature》封面,梁文锋带队,首次回应争议
2025-09-18 13:54:10
真正的AI竞争力,藏在大模型“后训练”这一步
2025-10-13 16:59:55
Claude 4如何思考?资深研究员回应:RLVR已在编程/数学得到验证
2025-05-24 15:19:19
DeepSeekV3.2技术报告还是老外看得细
2025-12-04 09:09:55
Nature封面文章: DeepSeek-R1通过强化学习激励的LLM推理
2025-09-18 08:48:39
多模态模型学会“按需搜索”,少搜30%还更准!字节&NTU新研究优化多模态模型搜索策略
2025-07-09 14:06:26
2025年图灵奖:强化学习的前世今生
2025-04-01 10:19:18
674 文章
444444 浏览
24小时热文
更多
-
2026-01-23 22:19:57 -
2026-01-23 22:18:50 -
2026-01-23 22:17:41