MSRA清北推出强化预训练！取代传统自监督，14B模型媲美32B

2025-06-11 17:15:11

Nebula

发布在

科普

阅读：532

标题：MSRA清北推出强化预训练！取代传统自监督，14B模型媲美32B

正文：
“预测下一个token”——这一LLM核心训练机制正被强化学习颠覆。微软亚洲研究院（MSRA）联合清华大学、北京大学提出全新预训练范式RPT（强化预训练），首次将强化学习深度融入预训练阶段，让模型在预测每个token前“动脑推理”，并根据推理正确性获得奖励。

传统预训练依赖海量文本进行自监督学习，模型通过预测下一个token建立语言能力，被比喻为蛋糕胚，而RL只是点缀的樱桃。RPT则重构这一过程为推理任务，促进模型更深层次理解和提升预测准确度。

具体而言，RPT通过让LLM同策略执行，生成多条思维轨迹，每条轨迹包含推理步骤和最终预测。引入前缀匹配奖励验证预测正确性，匹配为正奖励1，否则为0，以此更新LLM。团队使用OmniMATH数据集，并结合GRPO算法和8K训练长度，批大小为256个问题，每个问题采样8个响应，进行数据过滤与训练。

实验显示，RPT-14B在简单、中等、困难三种难度上的预测准确率均高于R1-Distill-Qwen-14B，且与更大规模的R1-Distill-Qwen-32B相当。RPT展现出清晰的幂律缩放在跨难度训练中的优势，并在推理模式中显著超越32B模型。此外，RPT-14B在SuperGPQA和MMLU-Pro基准测试中表现优异，尤其在零样本评估中更为突出。

分析发现，RPT模型培养了更深层次的推理习惯，涵盖高级语义理解和低级文本特征。未来，强化学习可能在LLM预训练中引发更大变革，让我们拭目以待。

论文链接：https://arxiv.org/abs/2506.08007

原文链接

本文链接：https://kx.umi6.com/article/20062.html

转载请注明文章出处

LLM