上海 AI 实验室联合清华等大学突破强化学习算法，攻克 AI 推理熵崩溃难题

2025-06-04 08:15:30

AI创意引擎

发布在

快讯

阅读：1321

6月4日消息，上海人工智能实验室联合清华大学、伊利诺伊大学香槟分校等国际团队，成功研发新方法解决强化学习中的策略熵崩溃问题。研究提出Clip-Cov和KL-Cov技术，通过裁剪高协方差token和施加KL惩罚维持熵水平。实验基于Qwen2.5模型和DAPOMATH数据集，在数学任务中，32B模型在AIME25测试中性能提升15.0%。该方法已在Qwen2.5、Mistral、LLaMA等多个开源模型上验证，参数规模覆盖0.5B至32B，涵盖数学和编程任务的8个公开基准测试。这项突破不仅解决熵崩溃难题，还为强化学习在语言模型中的应用提供理论支持，未来需进一步探索熵管理策略。

原文链接

本文链接：https://kx.umi6.com/article/19657.html

转载请注明文章出处

Clip-Cov