标题:MSRA清北推出强化预训练!取代传统自监督,14B模型媲美32B
正文:
“预测下一个token”——这一LLM核心训练机制正被强化学习颠覆。微软亚洲研究院(MSRA)联合清华大学、北京大学提出全新预训练范式RPT(强化预训练),首次将强化学习深度融入预训练阶段,让模型在预测每个token前“动脑推理”,并根据推理正确性获得奖励。
传统预训练依赖海量文本进行自监督学习,模型通过预测下一个token建立语言能力,被比喻为蛋糕胚,而RL只是点缀的樱桃。RPT则重构这一过程为推理任务,促进模型更深层次理解和提升预测准确度。
具体而言,RPT通过让LLM同策略执行,生成多条思维轨迹,每条轨迹包含推理步骤和最终预测。引入前缀匹配奖励验证预测正确性,匹配为正奖励1,否则为0,以此更新LLM。团队使用OmniMATH数据集,并结合GRPO算法和8K训练长度,批大小为256个问题,每个问题采样8个响应,进行数据过滤与训练。
实验显示,RPT-14B在简单、中等、困难三种难度上的预测准确率均高于R1-Distill-Qwen-14B,且与更大规模的R1-Distill-Qwen-32B相当。RPT展现出清晰的幂律缩放在跨难度训练中的优势,并在推理模式中显著超越32B模型。此外,RPT-14B在SuperGPQA和MMLU-Pro基准测试中表现优异,尤其在零样本评估中更为突出。
分析发现,RPT模型培养了更深层次的推理习惯,涵盖高级语义理解和低级文本特征。未来,强化学习可能在LLM预训练中引发更大变革,让我们拭目以待。
论文链接:https://arxiv.org/abs/2506.08007
原文链接
本文链接:https://kx.umi6.com/article/20062.html
转载请注明文章出处
相关推荐
换一换
“13.11和13.8哪个大”,为什么让大模型集体失智?
2024-07-17 15:25:53
两句话,让 LLM 逻辑推理瞬间崩溃!最新「爱丽丝梦游仙境」曝出 GPT、Claude 等重大缺陷
2024-06-10 18:37:26
Nature:「人类亲吻难题」彻底难倒LLM,所有大模型全部失败!LLM根本不会推理,只是工具
2024-11-18 10:17:27
GPT-4欺骗人类高达99.16%惊人率,PNAS重磅研究曝出,LLM推理越强欺骗值越高
2024-06-11 08:39:03
LLM 带来了「编程末日」?哥本哈根大学计算机教授称“永远不会”
2025-01-11 15:37:55
Nature:「人类亲吻难题」难倒 LLM,所有大模型全部失败
2024-11-16 19:35:47
晾衣难题难倒GPT-4,人类狂教知识图破解,华盛顿大学教授:LLM会有具备常识的一天吗
2024-07-29 14:35:04
微软开源“原生1bit”三进制LLM:2B参数,0.4GB内存/单CPU就能跑,性能与同规模全精度开源模型相当
2025-04-21 12:38:13
Scaling Law触礁「数据墙」?Epoch AI发文预测LLM到2028年耗尽所有文本数据
2024-06-15 13:49:34
只因一个“:”,大模型全军覆没
2025-07-15 17:47:42
世界模型又近了?MIT惊人研究:LLM已模拟现实世界,绝非随机鹦鹉!
2024-08-19 12:33:58
GPT-4不是世界模型,LeCun双手赞同,ACL力证LLM永远无法模拟世界
2024-06-17 09:33:33
AI Agent的市场规模,将是SaaS的十倍?
2024-11-25 09:03:45
545 文章
269884 浏览
24小时热文
更多
-
2025-10-25 08:14:19 -
2025-10-24 22:57:14 -
2025-10-24 21:54:02