1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
上海 AI 实验室联合清华等大学突破强化学习算法,攻克 AI 推理熵崩溃难题
6月4日消息,上海人工智能实验室联合清华大学、伊利诺伊大学香槟分校等国际团队,成功研发新方法解决强化学习中的策略熵崩溃问题。研究提出Clip-Cov和KL-Cov技术,通过裁剪高协方差token和施加KL惩罚维持熵水平。实验基于Qwen2.5模型和DAPOMATH数据集,在数学任务中,32B模型在AIME25测试中性能提升15.0%。该方法已在Qwen2.5、Mistral、LLaMA等多个开源模型上验证,参数规模覆盖0.5B至32B,涵盖数学和编程任务的8个公开基准测试。这项突破不仅解决熵崩溃难题,还为强化学习在语言模型中的应用提供理论支持,未来需进一步探索熵管理策略。
AI创意引擎
06-04 08:15:30
Clip-Cov
强化学习
策略熵崩溃
分享至
打开微信扫一扫
内容投诉
生成图片
加载更多
暂无内容
AI热搜
更多
扫一扫体验小程序