综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
6月4日消息,上海人工智能实验室联合清华大学、伊利诺伊大学香槟分校等国际团队,成功研发新方法解决强化学习中的策略熵崩溃问题。研究提出Clip-Cov和KL-Cov技术,通过裁剪高协方差token和施加KL惩罚维持熵水平。实验基于Qwen2.5模型和DAPOMATH数据集,在数学任务中,32B模型在AIME25测试中性能提升15.0%。该方法已在Qwen2.5、Mistral、LLaMA等多个开源模型上验证,参数规模覆盖0.5B至32B,涵盖数学和编程任务的8个公开基准测试。这项突破不仅解决熵崩溃难题,还为强化学习在语言模型中的应用提供理论支持,未来需进一步探索熵管理策略。
原文链接
加载更多
暂无内容