6月4日消息,上海人工智能实验室联合清华大学、伊利诺伊大学香槟分校等国际团队,成功研发新方法解决强化学习中的策略熵崩溃问题。研究提出Clip-Cov和KL-Cov技术,通过裁剪高协方差token和施加KL惩罚维持熵水平。实验基于Qwen2.5模型和DAPOMATH数据集,在数学任务中,32B模型在AIME25测试中性能提升15.0%。该方法已在Qwen2.5、Mistral、LLaMA等多个开源模型上验证,参数规模覆盖0.5B至32B,涵盖数学和编程任务的8个公开基准测试。这项突破不仅解决熵崩溃难题,还为强化学习在语言模型中的应用提供理论支持,未来需进一步探索熵管理策略。
原文链接
本文链接:https://kx.umi6.com/article/19657.html
转载请注明文章出处
相关推荐
换一换
从蛰伏到王炸,RL启示录
2025-03-25 19:11:14
月之暗面因 DeepSeek 调整工作重心?内部人士:强化学习或许会是个方向
2025-02-15 18:07:16
非技术人10分钟读懂Deepseek R1
2025-02-14 18:44:39
清华 + 北大两部 DeepSeek 原版宝典新出炉!(附九部全集下载)
2025-02-28 21:28:54
最新 AGI 暴论:强化学习的「GPT-3 时刻」实现,还需要 1 万年?
2025-07-14 17:29:16
Pokee.ai 朱哲清:用 RL 搭建智能体的「骨骼与神经」| AI 产品十人谈
2025-05-08 11:29:43
发自 凹非寺量子位 | 公众号 QbitAI 奥特曼点名表扬了两个波兰人。 没有他们,OpenAI就不是今天的样子。 他们是OpenAI首席科学家Jakub Pachocki以及头衔为“Technical Fellow”的Szymon Sidor。 △左:Jakub Pachocki,右:Szymon Sidor 两人不仅是波兰老乡,而且是高中同学,读博时分别选择了计算机科学和机器人,后来又在OpenAI重聚。 在ChatGPT风靡全球、每天服务数亿用户的今天,奥特曼感慨大多数人永远不会想到背
2025-09-09 18:18:27
翁荔最新万字长文:Why We Think
2025-05-18 14:20:10
Epoch AI 预言:最快 1 年内,推理模型步伐将放缓
2025-05-14 09:09:06
强化学习之父:LLM主导只是暂时,扩展计算才是正解
2025-06-10 18:52:34
Meta万引强化学习大佬跑路!用小扎原话作为离别寄语,扎心了
2025-08-26 13:43:07
4B小模型数学推理首超Claude 4,700步RL训练逼近235B性能 | 港大&字节Seed&复旦
2025-07-09 15:04:14
o3拿下IOI 2024金牌!新论文公布RL秘诀:AI自己设计测试时推理策略,无需人类干预
2025-02-12 15:29:54
566 文章
265921 浏览
24小时热文
更多
-
2025-10-25 18:38:20 -
2025-10-25 18:37:15 -
2025-10-25 16:32:54