正文:2024年,大语言模型在数学、代码和科学推理任务上取得突破,得益于RLVR训练方法。然而,RLVR面临‘熵崩塌’和‘熵爆炸’的探索难题。上海人工智能实验室与复旦大学团队提出选择性熵正则化方法(SIREN),通过划定探索范围、聚焦关键决策、稳定训练过程,精准调控探索行为。实验显示,SIREN显著提升模型性能,在Qwen2.5-Math-7B上的maj@k达54.6%,在AIME24/25上提升6.6%。该研究为大规模推理模型的稳定训练提供解决方案,助力复杂任务推理能力提升。
原文链接
本文链接:https://kx.umi6.com/article/26560.html
转载请注明文章出处
相关推荐
换一换
LangChain《2024人工智能全景报告出炉》:OpenAI依旧是龙头 开源模型采用率上升
2024-12-24 14:35:00
对话宇树科技创始人王兴兴:人形机器人大模型,还没走到“大力出奇迹”阶段
2024-08-22 09:27:42
495篇参考文献!北交大清华等高校发布多语言大模型综述
2025-01-17 10:12:14
从蛰伏到王炸,RL启示录
2025-03-31 14:32:31
从归因图到AI 的“生物学”:探索Claude3.5 Haiku 的内部机制“中”
2025-06-01 15:22:01
基准测试揭秘大模型“字数危机”:26个模型长文本生成普遍拉胯,最大输出长度过度宣传
2025-05-29 15:34:10
AI 意识更进一步!谷歌 DeepMind 等:LLM 不仅能感受痛苦还能趋利避害
2025-02-10 13:12:02
荣耀 MagicOS 9.0 升级支持 30 亿参数端侧大语言模型:功耗下降 80%,内存占用减少 1.6GB
2024-10-23 16:40:26
“学术剽窃”定义正被AI模糊,我们该如何应对?
2024-08-01 21:09:52
图灵奖得主杨立昆:大语言模型发展已接近瓶颈,AI 仅靠文本训练无法实现人类级智能
2025-03-23 23:28:58
中国科学院科学家首次证实:大语言模型能像人类一样“理解”事物
2025-06-11 10:10:26
自诩无所不知的大模型,能否拯救笨手笨脚的机器人?
2025-05-06 09:49:31
科大讯飞将在港投资 4 亿港元,专注大语言模型等开发;英伟达 Mistral AI 联手发布 12B 参数小模型丨AI情报局
2024-07-22 12:10:41
585 文章
314585 浏览
24小时热文
更多
-
2025-11-07 17:03:30 -
2025-11-07 17:02:24 -
2025-11-07 17:01:15