1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

4B小模型数学推理首超Claude 4,700步RL训练逼近235B性能 | 港大&字节Seed&复旦

香港大学NLP团队联合字节跳动Seed和复旦大学推出强化学习训练配方Polaris,通过仅700步RL训练,让4B参数量的小模型在数学推理任务上接近235B大模型的表现,并超越Claude-4-Opus等商业大模型。Polaris-4B不仅轻量化,还能在消费级显卡上部署,且全部开源。

核心方法:围绕模型定制参数

Polaris成功的关键在于训练数据与超参数设置均围绕待训练模型调整。研究发现,不同基模型对同一数据集的难度感知呈现“镜像化”特征。为此,团队筛选并动态更新训练数据,剔除过于简单的样本,构建轻微偏向难题的数据分布,确保每个batch中优势样本比例适中。

多样性优化:动态温度调整

在RL训练中,多样性是提升表现的重要因素。Polaris通过实验分析采样温度与模型性能及多样性的关系,提出三个温度区域:鲁棒生成区、控制探索区和性能崩塌区。团队将Qwen3-4B的初始训练温度设为1.4,并在训练过程中动态调整温度,以维持多样性,避免后期探索空间不足。

长上下文训练:长度外推技术

针对长上下文训练难题,Polaris引入位置编码RoPE的长度外推技术(扩展因子1.5),使模型能处理超出预训练长度的序列。实验显示,这一策略显著提升了长文本回答的准确率,从26%提升至50%以上。

多阶段训练策略

Polaris采用多阶段训练方式,早期使用较短上下文窗口,逐步增加长度以拓宽推理能力。对于Qwen3-4B,直接从较长响应长度(如40K)开始训练效果更优,避免因截断导致性能下降。

评估结果

Polaris-4B在AIME25和AIME24评测中分别取得79.4和81.2的高分,超越多个商业大模型,成为当前最佳解决方案之一。

开源链接: - Notion
- Blog
- 代码
- Huggingface主页

原文链接
本文链接:https://kx.umi6.com/article/21432.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
性能超OpenAI、Gemini!月之暗面发布首个自主强化学习Agent
2025-06-23 09:22:20
强化学习之于 AI Agent,是灵魂、还是包袱?
2025-04-23 11:56:20
深夜突袭,DeepSeek-Prover-V2加冕数学王者!671B数学推理逆天狂飙
2025-05-05 09:43:44
英伟达发布新 RL 范式:受 DeepSeek-R1 启发,重塑 AI 模型外部工具能力
2025-05-14 15:16:49
英伟达推出 ProRL 方法:强化学习训练至 2000 步,打造全球最佳 1.5B 推理 AI 模型
2025-06-05 15:52:55
4B小模型数学推理首超Claude 4,700步RL训练逼近235B性能 | 港大&字节Seed&复旦
2025-07-09 15:04:14
宇树和智元爆火背后:人类是如何给机器人注入灵魂的?
2025-03-14 09:00:17
机器狗能打羽毛球:仅靠强化学习从 0 自学,还会自己移步
2025-05-30 17:53:28
我们让GPT玩狼人杀,它特别喜欢杀0号和1号,为什么?
2025-05-23 13:51:09
2025年图灵奖:强化学习的前世今生
2025-04-01 10:19:18
用多模态LLM超越YOLOv3!强化学习突破多模态感知极限|开源
2025-05-03 12:31:20
机器狗能当羽毛球搭子了!仅靠强化学习从0自学,还涌现出类人回位行为 | Science子刊
2025-05-30 16:56:50
奖励模型也能Scaling!上海AI Lab突破强化学习短板,提出策略判别学习新范式
2025-07-11 11:34:40
24小时热文
更多
扫一扫体验小程序