正文:2025年7月,CMU研究团队发布论文指出,训练大语言模型的数学能力可能对其通用领域表现产生负面影响。研究评估了20多个模型在数学推理、其他推理任务及非推理任务上的表现,发现采用监督微调(SFT)的模型常出现负迁移,尤其在非推理任务上表现更差;而强化学习(RL)训练的模型则展现出更强的迁移能力与泛化性。通过PCA分析和Token分布偏移实验,研究进一步表明RL微调对模型原有知识的保留更优,同时提升了特定领域的逻辑能力。研究认为,强化学习可能是实现可迁移推理的关键。论文已发布于arXiv。
原文链接
本文链接:https://kx.umi6.com/article/21375.html
转载请注明文章出处
相关推荐
换一换
北京备案大模型达225款 占全国总量约三成
2026-04-22 20:27:12
我国大模型密集落地 新技术加速普惠应用
2026-02-14 12:17:30
全球大模型第一股要来了 智谱发布IPO招股书:代码能力并列全球第一
2025-12-19 23:17:39
亚马逊云科技发布多款大模型
2025-12-03 14:25:54
OpenAI:GPT-5 模型正开始减轻科学家日常工作量
2025-11-22 00:51:13
“雷军千万年薪要挖”的 DeepSeek 罗福莉官宣加入小米 Xiaomi MiMo 大模型团队
2025-11-12 14:05:32
大模型收入暴涨1076%,港股AGI第一股首份年报:一年狂揽12亿,属实把商业化玩明白了
2026-03-27 17:08:13
国产AI又一轮爆发 MiniMax M3大模型要来了:10-15倍性能改善
2026-05-27 12:26:00
智谱AI,排名「第二」
2025-12-21 12:41:26
豆包大模型2.0正式发布
2026-02-14 14:23:01
不整虚的!中美AI同步加速:47天30次更新,中国AI的最强主场究竟在哪?
2026-02-22 18:50:22
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026
2025-12-22 10:34:39
花3000元让AI改口,大模型的尽头是广告?
2026-01-06 19:29:29
694 文章
615416 浏览
24小时热文
更多
-
2026-06-09 00:54:40 -
2026-06-09 00:53:08 -
2026-06-08 23:49:41