1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

1.5B小模型刷新数学代码SOTA!快手&清华推出Archer方法,精细化Token管理大幅提升LLM推理能力

快手与清华大学团队提出了一种名为Archer的新方法,用仅1.5B参数的小模型在多个数学和代码推理基准上超越同量级SOTA模型。其核心在于对模型学习过程的精细化管理:稳定知识记忆,释放推理灵活性。

传统强化学习(RLVR)方法常导致模型在“知识型”内容(如公式、事实)和“推理型”内容(如逻辑规划)之间难以平衡。要么知识被遗忘,要么推理受限。Archer通过“双Token约束”解决了这一问题:
1. Token分类:根据熵值区分低熵Token(知识型)和高熵Token(推理型)。例如,“3.14”是低熵,而“接下来”是高熵。
2. 差异化训练:对低熵Token施加紧约束,确保知识准确;对高熵Token放松约束,鼓励多样化推理尝试。

实验结果显示,Archer在数学和代码任务中表现卓越:
- 数学推理:在AIME 2024/2025等硬核基准上,正确率提升10%-18%,超越FastCuRL、Nemotron等同量级模型。
- 代码生成:在LiveCodeBench v5/v6上,正确率较DAPO提升2.6%-3.4%,成为同量级最佳模型之一。

更令人印象深刻的是,Archer仅需单阶段训练和1900 H800 GPU小时,远低于Nemotron的16000 H100小时,效率显著提高。

Archer的成功揭示了大模型推理能力的关键——知识稳定性与推理探索性的平衡。精细化Token管理让小模型也能高效利用参数,实现性能逆袭。

论文链接:http://arxiv.org/abs/2507.15778
GitHub:https://github.com/wizard-III/ArcherCodeR

原文链接
本文链接:https://kx.umi6.com/article/22765.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
大模型下半场:7个趋势判断
2025-04-02 19:40:41
实测o3/o4-mini:3分钟解决欧拉问题,OpenAI最强模型名副其实!
2025-04-17 16:41:08
马斯克:Grok 3表现优于我们所知的任何已发布产品
2025-02-13 17:27:15
实测OpenAI新模型o1 :做题王者,实战青铜
2024-09-15 13:49:20
国产SOTA新模型精准get“画(3+6)条命的动物” | 开源
2025-06-20 17:00:54
苹果最新研究:现有 AI 大模型“更像是在记忆,而非真正的推理”
2025-06-08 17:10:55
“AI小财神”推理能力全面升级 做投资者的“深度思考官”
2025-02-13 11:00:46
RL 是推理神器?清华上交大最新研究指出:RL 让大模型更会“套公式”、却不会真推理
2025-04-23 11:57:26
OpenAI 联合创始人 Ilya Sutskever 谈“超智能 AI”:将具备推理能力,会更加不可预测
2024-12-14 10:44:54
DeepSeek 团队新作:把代码变成思维链,大模型推理各种能力全面提升
2025-02-17 15:53:30
消息称 OpenAI 计划今夏初发布开源语言模型,力争推理能力超越同类
2025-04-24 08:27:01
DeepAI CEO Kevin Baragona:大模型竞争的本质,已经从算力竞争变成了效率竞争 丨2024 T-EDGE
2024-12-12 18:00:58
“起大早赶晚集”的谷歌大模型,这次真的“遥遥领先”了?
2025-03-26 20:07:52
24小时热文
更多
扫一扫体验小程序