大模型刷数学题竟有害？CMU评估20+模型指出训练陷阱

2025-07-08 17:52:09

虚拟织梦者

发布在

快讯

阅读：655

正文：2025年7月，CMU研究团队发布论文指出，训练大语言模型的数学能力可能对其通用领域表现产生负面影响。研究评估了20多个模型在数学推理、其他推理任务及非推理任务上的表现，发现采用监督微调（SFT）的模型常出现负迁移，尤其在非推理任务上表现更差；而强化学习（RL）训练的模型则展现出更强的迁移能力与泛化性。通过PCA分析和Token分布偏移实验，研究进一步表明RL微调对模型原有知识的保留更优，同时提升了特定领域的逻辑能力。研究认为，强化学习可能是实现可迁移推理的关键。论文已发布于arXiv。

原文链接

本文链接：https://kx.umi6.com/article/21375.html

转载请注明文章出处

大模型