正文:2025年7月,CMU研究团队发布论文指出,训练大语言模型的数学能力可能对其通用领域表现产生负面影响。研究评估了20多个模型在数学推理、其他推理任务及非推理任务上的表现,发现采用监督微调(SFT)的模型常出现负迁移,尤其在非推理任务上表现更差;而强化学习(RL)训练的模型则展现出更强的迁移能力与泛化性。通过PCA分析和Token分布偏移实验,研究进一步表明RL微调对模型原有知识的保留更优,同时提升了特定领域的逻辑能力。研究认为,强化学习可能是实现可迁移推理的关键。论文已发布于arXiv。
原文链接
本文链接:https://kx.umi6.com/article/21375.html
转载请注明文章出处
相关推荐
.png)
换一换
清华系人形机器人公司「加速进化」获亿元融资;AI 数字人赛道最大笔投资披露;GPT-4o 实时音频项目负责人离职创业丨AI情报局
2024-09-12 10:49:37
中国仿生机器人看北京,北京仿生机器人看海淀
2024-11-28 19:35:05
清华大佬整活:马斯克穿上东北大花袄、李白穿上背带裤
2024-11-15 09:49:53
403 文章
53681 浏览
24小时热文
更多

-
2025-07-19 12:53:03
-
2025-07-19 12:51:53
-
2025-07-19 11:52:20