正文:2025年7月,CMU研究团队发布论文指出,训练大语言模型的数学能力可能对其通用领域表现产生负面影响。研究评估了20多个模型在数学推理、其他推理任务及非推理任务上的表现,发现采用监督微调(SFT)的模型常出现负迁移,尤其在非推理任务上表现更差;而强化学习(RL)训练的模型则展现出更强的迁移能力与泛化性。通过PCA分析和Token分布偏移实验,研究进一步表明RL微调对模型原有知识的保留更优,同时提升了特定领域的逻辑能力。研究认为,强化学习可能是实现可迁移推理的关键。论文已发布于arXiv。
原文链接
本文链接:https://kx.umi6.com/article/21375.html
转载请注明文章出处
相关推荐
.png)
换一换
4o-mini华人领队也离职了,这次不怪小扎
2025-08-19 16:01:05
人类正在被AI「幻觉」欺骗
2025-08-20 10:10:57
蚂蚁密算开源高阶程序HOP框架
2025-07-27 16:06:47
Nature封面文章: DeepSeek-R1通过强化学习激励的LLM推理
2025-09-18 08:48:39
字节跳动、阿里AI“大将”出走
2025-08-25 22:35:04
大模型低调出展,机器人各出奇招
2025-07-26 22:49:04
亚马逊开建AGI实验室,一号位也是华人
2025-09-22 09:54:37
大模型产生幻觉 全怪人类PUA吗
2025-09-12 01:04:40
一场「狼人杀」,考倒了一堆大模型
2025-08-28 14:28:50
我国大模型数量居全球首位,达到 1509 个、占比达 40%
2025-07-27 13:57:47
大模型开始打王者荣耀了
2025-09-02 12:31:33
字节&MAP重塑大模型推理算法优化重点,强化学习重在高效探索助力LLM提升上限
2025-08-11 10:59:04
两部门:到2027年推动五个以上专业大模型在电网、发电、煤炭、油气等行业深度应用
2025-09-08 10:56:26
522 文章
241930 浏览
24小时热文
更多

-
2025-10-24 05:23:38
-
2025-10-24 03:21:23
-
2025-10-24 01:20:07