策略熵崩溃 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

上海 AI 实验室联合清华等大学突破强化学习算法，攻克 AI 推理熵崩溃难题

6月4日消息，上海人工智能实验室联合清华大学、伊利诺伊大学香槟分校等国际团队，成功研发新方法解决强化学习中的策略熵崩溃问题。研究提出Clip-Cov和KL-Cov技术，通过裁剪高协方差token和施加KL惩罚维持熵水平。实验基于Qwen2.5模型和DAPOMATH数据集，在数学任务中，32B模型在AIME25测试中性能提升15.0%。该方法已在Qwen2.5、Mistral、LLaMA等多个开源模型上验证，参数规模覆盖0.5B至32B，涵盖数学和编程任务的8个公开基准测试。这项突破不仅解决熵崩溃难题，还为强化学习在语言模型中的应用提供理论支持，未来需进一步探索熵管理策略。

原文链接