1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

正文:2025年7月,CMU研究团队发布论文指出,训练大语言模型的数学能力可能对其通用领域表现产生负面影响。研究评估了20多个模型在数学推理、其他推理任务及非推理任务上的表现,发现采用监督微调(SFT)的模型常出现负迁移,尤其在非推理任务上表现更差;而强化学习(RL)训练的模型则展现出更强的迁移能力与泛化性。通过PCA分析和Token分布偏移实验,研究进一步表明RL微调对模型原有知识的保留更优,同时提升了特定领域的逻辑能力。研究认为,强化学习可能是实现可迁移推理的关键。论文已发布于arXiv。

原文链接
本文链接:https://kx.umi6.com/article/21375.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
ToC智能体火得快,但更大的价值在企业丨中关村科金@MEET2026
2025-12-12 14:53:17
鏖战2025年,大模型围着开源转
2025-12-25 18:55:44
我国大模型密集落地 新技术加速普惠应用
2026-02-14 12:17:30
Cursor发布首个编程大模型!代码生成250tokens/秒,强化学习+MoE架构
2025-10-30 10:33:49
OpenAI:GPT-5 模型正开始减轻科学家日常工作量
2025-11-22 00:51:13
2025最大赌注:为什么所有厂商都押宝AI手机?
2025-12-25 09:25:38
智谱AI今日正式上市,一文讲透你想知道的6件事
2026-01-09 21:35:10
阿里通义千问推出Qwen3-Max-Thinking尝鲜版
2025-11-04 17:23:23
LLM强化学习新框架!UCSD多智能体训练框架让LLM工具调用能力暴增5.8倍
2025-11-08 13:43:06
Kimi春节档挣超一年钱!这口“龙虾肉”大厂开始抢吃了
2026-02-26 01:05:27
西交大 x A*STAR 论文:让 AI 学会「保持一致」,多图生成迎来关键突破丨CVPR 2026
2026-03-24 11:45:18
大厂AI新战场:AQ狂飙,蚂蚁押注大健康赛道
2025-11-09 16:34:57
腾讯宣布升级大模型研发架构 前OpenAI研究员姚顺雨任要职
2025-12-17 17:58:49
24小时热文
更多
扫一扫体验小程序