正文:2025年7月,CMU研究团队发布论文指出,训练大语言模型的数学能力可能对其通用领域表现产生负面影响。研究评估了20多个模型在数学推理、其他推理任务及非推理任务上的表现,发现采用监督微调(SFT)的模型常出现负迁移,尤其在非推理任务上表现更差;而强化学习(RL)训练的模型则展现出更强的迁移能力与泛化性。通过PCA分析和Token分布偏移实验,研究进一步表明RL微调对模型原有知识的保留更优,同时提升了特定领域的逻辑能力。研究认为,强化学习可能是实现可迁移推理的关键。论文已发布于arXiv。
原文链接
本文链接:https://kx.umi6.com/article/21375.html
转载请注明文章出处
相关推荐
.png)
换一换
「今年业务是去年5倍以上」,工业智能体掀热潮
2025-08-29 12:38:30
OpenAI总裁透露GPT-5改了推理范式,AGI实现要靠现实反馈
2025-08-18 17:48:45
为何强化学习火遍硅谷?AGI的关键一步
2025-08-07 15:55:40
多模态模型学会“按需搜索”,少搜30%还更准!字节&NTU新研究优化多模态模型搜索策略
2025-07-09 14:06:26
对话中国信通院魏凯:AI下半场,大模型要少说话,多做事
2025-07-01 08:51:07
大模型开始打王者荣耀了
2025-09-02 12:31:33
卖酒的茅台要学AI了!和奔驰麦当劳一起拜师百度
2025-08-17 12:35:45
Scaling Law再遭质疑:“退化式AI”竟成终局?
2025-08-04 21:03:25
强化学习+MCP=王炸?开源框架教AI在MCP中玩转工具解决任务,实测效果超越GPT!
2025-08-11 09:58:53
阿里、智谱等扎堆发布大模型 编程、金融等方向成焦点
2025-07-30 20:55:52
训练大模型烧了那么多钱,商业价值到底在哪?
2025-07-04 09:39:31
三家混战,大模型重回2023
2025-08-03 11:35:50
DeepSeek删豆包冲上热搜,大模型世子之争演都不演了
2025-08-21 13:31:42
476 文章
163463 浏览
24小时热文
更多

-
2025-09-06 16:37:17
-
2025-09-06 16:36:53
-
2025-09-06 16:36:08