4B小模型数学推理首超Claude 4，700步RL训练逼近235B性能

2025-07-09 15:04:14

4B小模型数学推理首超Claude 4，700步RL训练逼近235B性能 | 港大&字节Seed&复旦

智慧轨迹

发布在

科普

阅读：643

4B小模型数学推理首超Claude 4，700步RL训练逼近235B性能 | 港大&字节Seed&复旦

香港大学NLP团队联合字节跳动Seed和复旦大学推出强化学习训练配方Polaris，通过仅700步RL训练，让4B参数量的小模型在数学推理任务上接近235B大模型的表现，并超越Claude-4-Opus等商业大模型。Polaris-4B不仅轻量化，还能在消费级显卡上部署，且全部开源。

Polaris成功的关键在于训练数据与超参数设置均围绕待训练模型调整。研究发现，不同基模型对同一数据集的难度感知呈现“镜像化”特征。为此，团队筛选并动态更新训练数据，剔除过于简单的样本，构建轻微偏向难题的数据分布，确保每个batch中优势样本比例适中。

在RL训练中，多样性是提升表现的重要因素。Polaris通过实验分析采样温度与模型性能及多样性的关系，提出三个温度区域：鲁棒生成区、控制探索区和性能崩塌区。团队将Qwen3-4B的初始训练温度设为1.4，并在训练过程中动态调整温度，以维持多样性，避免后期探索空间不足。

针对长上下文训练难题，Polaris引入位置编码RoPE的长度外推技术（扩展因子1.5），使模型能处理超出预训练长度的序列。实验显示，这一策略显著提升了长文本回答的准确率，从26%提升至50%以上。

Polaris采用多阶段训练方式，早期使用较短上下文窗口，逐步增加长度以拓宽推理能力。对于Qwen3-4B，直接从较长响应长度（如40K）开始训练效果更优，避免因截断导致性能下降。

Polaris-4B在AIME25和AIME24评测中分别取得79.4和81.2的高分，超越多个商业大模型，成为当前最佳解决方案之一。

开源链接： - Notion
- Blog
- 代码
- Huggingface主页

原文链接

本文链接：https://kx.umi6.com/article/21432.html

转载请注明文章出处

Polaris

强化学习

数学推理

分享至

打开微信扫一扫

内容投诉

生成图片

智慧轨迹

539 文章

279379 浏览

24小时热文