1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

正文:2025年7月,CMU研究团队发布论文指出,训练大语言模型的数学能力可能对其通用领域表现产生负面影响。研究评估了20多个模型在数学推理、其他推理任务及非推理任务上的表现,发现采用监督微调(SFT)的模型常出现负迁移,尤其在非推理任务上表现更差;而强化学习(RL)训练的模型则展现出更强的迁移能力与泛化性。通过PCA分析和Token分布偏移实验,研究进一步表明RL微调对模型原有知识的保留更优,同时提升了特定领域的逻辑能力。研究认为,强化学习可能是实现可迁移推理的关键。论文已发布于arXiv。

原文链接
本文链接:https://kx.umi6.com/article/21375.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
全球大模型第一股要来了 智谱发布IPO招股书:代码能力并列全球第一
2025-12-19 23:17:39
智谱、MiniMax争夺「大模型第一股」
2025-12-24 10:30:23
中国AI云,开始「抢座次」了
2025-11-20 11:17:00
中信建投:持续推荐AI算力板块
2025-10-28 08:39:40
美团 LongCat 大模型官方 App 发布:支持联网搜索,还可以发起语音通话
2025-11-03 14:22:48
亚马逊开建AGI实验室,一号位也是华人
2025-09-22 09:54:37
字节Seed发布GR-RL 首次实现真机强化学习穿鞋带
2025-12-02 14:21:13
ToC智能体火得快,但更大的价值在企业丨中关村科金@MEET2026
2025-12-12 14:53:17
Manus救不了Meta
2026-01-08 20:35:12
2025最大赌注:为什么所有厂商都押宝AI手机?
2025-12-25 09:25:38
李开复任命三位新高管:零一万物的“一把手工程”与大模型中场战事
2025-10-27 13:00:52
杭州“十五五”规划建议:实施大模型前沿技术攻关和高端芯片、基础软件、模型算法等研发计划 建设人工智能开源社区
2026-01-16 11:34:57
上海:推动医疗器械相关垂类大模型研发应用
2025-09-15 16:02:14
24小时热文
更多
扫一扫体验小程序