1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

正文:2025年7月,CMU研究团队发布论文指出,训练大语言模型的数学能力可能对其通用领域表现产生负面影响。研究评估了20多个模型在数学推理、其他推理任务及非推理任务上的表现,发现采用监督微调(SFT)的模型常出现负迁移,尤其在非推理任务上表现更差;而强化学习(RL)训练的模型则展现出更强的迁移能力与泛化性。通过PCA分析和Token分布偏移实验,研究进一步表明RL微调对模型原有知识的保留更优,同时提升了特定领域的逻辑能力。研究认为,强化学习可能是实现可迁移推理的关键。论文已发布于arXiv。

原文链接
本文链接:https://kx.umi6.com/article/21375.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
阿里通义千问推出Qwen3-Max-Thinking尝鲜版
2025-11-04 17:23:23
百度新设两个大模型研发部:直接向CEO李彦宏汇报!
2025-11-25 22:10:22
DeepSeek新大招曝光:下一步智能体
2025-09-05 10:15:28
Q2财报启示录:AI为大厂们带来了新「钱景」
2025-09-03 14:46:42
两部门:到2027年推动五个以上专业大模型在电网、发电、煤炭、油气等行业深度应用
2025-09-08 10:56:26
李开复任命三位新高管:零一万物的“一把手工程”与大模型中场战事
2025-10-27 13:00:52
用DeepSeek改造ERP,到底难在哪?怎么破?
2025-10-11 09:33:30
Meta万引强化学习大佬跑路!用小扎原话作为离别寄语,扎心了
2025-08-26 13:43:07
大模型激战正酣!大厂节前、节中进展不停 争夺下一代操作系统主导权
2025-10-05 18:23:27
比NanoBanana更擅长中文和细节控制!兔展&北大Uniworld V2刷新SOTA
2025-11-05 15:09:36
“雷军千万年薪要挖”的 DeepSeek 罗福莉官宣加入小米 Xiaomi MiMo 大模型团队
2025-11-12 14:05:32
大模型即OS,AI云即计算机:阿里的全栈赌注
2025-09-25 10:00:29
亚马逊云科技发布多款大模型
2025-12-03 14:25:54
24小时热文
更多
扫一扫体验小程序