1.5B小模型刷新数学代码SOTA!快手&清华推出Archer方法,精细化Token管理大幅提升LLM推理能力
快手与清华大学团队提出了一种名为Archer的新方法,用仅1.5B参数的小模型在多个数学和代码推理基准上超越同量级SOTA模型。其核心在于对模型学习过程的精细化管理:稳定知识记忆,释放推理灵活性。
传统强化学习(RLVR)方法常导致模型在“知识型”内容(如公式、事实)和“推理型”内容(如逻辑规划)之间难以平衡。要么知识被遗忘,要么推理受限。Archer通过“双Token约束”解决了这一问题:
1. Token分类:根据熵值区分低熵Token(知识型)和高熵Token(推理型)。例如,“3.14”是低熵,而“接下来”是高熵。
2. 差异化训练:对低熵Token施加紧约束,确保知识准确;对高熵Token放松约束,鼓励多样化推理尝试。
实验结果显示,Archer在数学和代码任务中表现卓越:
- 数学推理:在AIME 2024/2025等硬核基准上,正确率提升10%-18%,超越FastCuRL、Nemotron等同量级模型。
- 代码生成:在LiveCodeBench v5/v6上,正确率较DAPO提升2.6%-3.4%,成为同量级最佳模型之一。
更令人印象深刻的是,Archer仅需单阶段训练和1900 H800 GPU小时,远低于Nemotron的16000 H100小时,效率显著提高。
Archer的成功揭示了大模型推理能力的关键——知识稳定性与推理探索性的平衡。精细化Token管理让小模型也能高效利用参数,实现性能逆袭。
论文链接:http://arxiv.org/abs/2507.15778
GitHub:https://github.com/wizard-III/ArcherCodeR
.png)

-
2025-10-23 21:15:29
-
2025-10-23 20:16:19
-
2025-10-23 20:15:12