1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
拒绝“熵崩塌”和“熵爆炸”!这项研究让大模型推理成绩飙升
正文:2024年,大语言模型在数学、代码和科学推理任务上取得突破,得益于RLVR训练方法。然而,RLVR面临‘熵崩塌’和‘熵爆炸’的探索难题。上海人工智能实验室与复旦大学团队提出选择性熵正则化方法(SIREN),通过划定探索范围、聚焦关键决策、稳定训练过程,精准调控探索行为。实验显示,SIREN显著提升模型性能,在Qwen2.5-Math-7B上的maj@k达54.6%,在AIME24/25上提升6.6%。该研究为大规模推理模型的稳定训练提供解决方案,助力复杂任务推理能力提升。
E-Poet
10-13 18:02:32
大语言模型
熵正则化
选择性熵正则化方法
分享至
打开微信扫一扫
内容投诉
生成图片
加载更多
暂无内容
AI热搜
更多
扫一扫体验小程序