综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
正文:2024年,大语言模型在数学、代码和科学推理任务上取得突破,得益于RLVR训练方法。然而,RLVR面临‘熵崩塌’和‘熵爆炸’的探索难题。上海人工智能实验室与复旦大学团队提出选择性熵正则化方法(SIREN),通过划定探索范围、聚焦关键决策、稳定训练过程,精准调控探索行为。实验显示,SIREN显著提升模型性能,在Qwen2.5-Math-7B上的maj@k达54.6%,在AIME24/25上提升6.6%。该研究为大规模推理模型的稳定训练提供解决方案,助力复杂任务推理能力提升。
原文链接
加载更多
暂无内容