拒绝“熵崩塌”和“熵爆炸”！这项研究让大模型推理成绩飙升

2025-10-13 18:02:32

E-Poet

发布在

快讯

阅读：630

正文：2024年，大语言模型在数学、代码和科学推理任务上取得突破，得益于RLVR训练方法。然而，RLVR面临‘熵崩塌’和‘熵爆炸’的探索难题。上海人工智能实验室与复旦大学团队提出选择性熵正则化方法（SIREN），通过划定探索范围、聚焦关键决策、稳定训练过程，精准调控探索行为。实验显示，SIREN显著提升模型性能，在Qwen2.5-Math-7B上的maj@k达54.6%，在AIME24/25上提升6.6%。该研究为大规模推理模型的稳定训练提供解决方案，助力复杂任务推理能力提升。

原文链接

本文链接：https://kx.umi6.com/article/26560.html

转载请注明文章出处

大语言模型