1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

正文:2025年7月,CMU研究团队发布论文指出,训练大语言模型的数学能力可能对其通用领域表现产生负面影响。研究评估了20多个模型在数学推理、其他推理任务及非推理任务上的表现,发现采用监督微调(SFT)的模型常出现负迁移,尤其在非推理任务上表现更差;而强化学习(RL)训练的模型则展现出更强的迁移能力与泛化性。通过PCA分析和Token分布偏移实验,研究进一步表明RL微调对模型原有知识的保留更优,同时提升了特定领域的逻辑能力。研究认为,强化学习可能是实现可迁移推理的关键。论文已发布于arXiv。

原文链接
本文链接:https://kx.umi6.com/article/21375.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
真正面向大模型的AI Infra,必须同时懂模型、系统、产业|商汤大装置宣善明@MEET2026
2025-12-22 10:35:49
蚂蚁开源 Ring-1T,成就推理、编程、通用智能三冠王
2025-10-24 11:36:00
小米最新大模型成果!罗福莉现身了
2025-10-17 16:21:28
中金:2026年大模型在强化学习、模型记忆、上下文工程等方面将取得更多突破
2026-02-05 08:39:59
上交博士最新思考:仅用两个问题讲清强化学习
2025-11-10 18:29:12
消息称腾讯大模型团队架构调整:前 OpenAI 研究员姚顺雨任要职,校招最高 2 倍薪资挖 AI 人才
2025-12-17 17:57:42
GPT-5≈o3.1!OpenAI首次详解思考机制:RL+预训练才是AGI正道
2025-10-20 16:09:01
豆包大模型2.0正式发布
2026-02-14 14:23:01
备案平均时长缩至2个月 目前已有216款大模型在京完成备案
2026-02-28 19:46:01
豆包们,开始「上链接」
2025-10-27 10:54:08
几乎都在挂羊头卖狗肉!AI Agent泡沫实在太大了
2025-10-20 11:04:42
真正的AI竞争力,藏在大模型“后训练”这一步
2025-10-13 16:59:55
清华刘知远团队论文:在严格可控环境下重新回答「强化学习能否教会大模型新能力」丨ICLR 2026
2026-02-09 19:27:01
24小时热文
更多
扫一扫体验小程序