1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

4B小模型数学推理首超Claude 4,700步RL训练逼近235B性能 | 港大&字节Seed&复旦

香港大学NLP团队联合字节跳动Seed和复旦大学推出强化学习训练配方Polaris,通过仅700步RL训练,让4B参数量的小模型在数学推理任务上接近235B大模型的表现,并超越Claude-4-Opus等商业大模型。Polaris-4B不仅轻量化,还能在消费级显卡上部署,且全部开源。

核心方法:围绕模型定制参数

Polaris成功的关键在于训练数据与超参数设置均围绕待训练模型调整。研究发现,不同基模型对同一数据集的难度感知呈现“镜像化”特征。为此,团队筛选并动态更新训练数据,剔除过于简单的样本,构建轻微偏向难题的数据分布,确保每个batch中优势样本比例适中。

多样性优化:动态温度调整

在RL训练中,多样性是提升表现的重要因素。Polaris通过实验分析采样温度与模型性能及多样性的关系,提出三个温度区域:鲁棒生成区、控制探索区和性能崩塌区。团队将Qwen3-4B的初始训练温度设为1.4,并在训练过程中动态调整温度,以维持多样性,避免后期探索空间不足。

长上下文训练:长度外推技术

针对长上下文训练难题,Polaris引入位置编码RoPE的长度外推技术(扩展因子1.5),使模型能处理超出预训练长度的序列。实验显示,这一策略显著提升了长文本回答的准确率,从26%提升至50%以上。

多阶段训练策略

Polaris采用多阶段训练方式,早期使用较短上下文窗口,逐步增加长度以拓宽推理能力。对于Qwen3-4B,直接从较长响应长度(如40K)开始训练效果更优,避免因截断导致性能下降。

评估结果

Polaris-4B在AIME25和AIME24评测中分别取得79.4和81.2的高分,超越多个商业大模型,成为当前最佳解决方案之一。

开源链接: - Notion
- Blog
- 代码
- Huggingface主页

原文链接
本文链接:https://kx.umi6.com/article/21432.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
DeepSeek新数学模型刷爆记录!7B小模型自主发现671B模型不会的新技能
2025-05-01 13:22:40
AI仅凭“自信”学会推理,浙大校友复刻DeepSeek长思维链涌现
2025-05-29 14:32:01
4B小模型数学推理首超Claude 4,700步RL训练逼近235B性能 | 港大&字节Seed&复旦
2025-07-09 15:04:14
图灵奖获奖者们, AI 界的「奥本海默」
2025-03-10 13:35:24
50条数据解锁空间智能,RL视觉语言模型3D空间推理框架MetaSpatial |西北大学
2025-03-22 17:26:13
强化学习+MCP=王炸?开源框架教AI在MCP中玩转工具解决任务,实测效果超越GPT!
2025-08-11 09:58:53
汪军对话 Rich Sutton:大模型在一定程度上分散了我们对智能理解的注意力
2025-09-28 11:53:51
图文并茂:DeepSeek R1 是怎么练成的
2025-02-18 11:11:33
宇树和智元爆火背后:人类是如何给机器人注入灵魂的?
2025-03-14 09:00:17
多模态模型学会“按需搜索”,少搜30%还更准!字节&NTU新研究优化多模态模型搜索策略
2025-07-09 14:06:26
性能提升84%-166%!L-Zero仅靠强化学习解锁大模型探索世界的能力 | 已开源
2025-07-01 15:26:33
突破Agent长程推理效率瓶颈!MIT&NUS联合推出强化学习新训练方法
2025-08-22 16:50:16
通义实验室新研究:大模型自己「扮演」搜索引擎,提升推理能力无需搜索API
2025-05-17 13:07:29
24小时热文
更多
扫一扫体验小程序