1.5B刷新数学代码SOTA！快手&清华精细化Token管理，LLM推理能力飙升

2025-08-01 08:51:42

新智燎原

发布在

科普

阅读：473

1.5B小模型刷新数学代码SOTA！快手&清华推出Archer方法，精细化Token管理大幅提升LLM推理能力

快手与清华大学团队提出了一种名为Archer的新方法，用仅1.5B参数的小模型在多个数学和代码推理基准上超越同量级SOTA模型。其核心在于对模型学习过程的精细化管理：稳定知识记忆，释放推理灵活性。

传统强化学习（RLVR）方法常导致模型在“知识型”内容（如公式、事实）和“推理型”内容（如逻辑规划）之间难以平衡。要么知识被遗忘，要么推理受限。Archer通过“双Token约束”解决了这一问题：
1. Token分类：根据熵值区分低熵Token（知识型）和高熵Token（推理型）。例如，“3.14”是低熵，而“接下来”是高熵。
2. 差异化训练：对低熵Token施加紧约束，确保知识准确；对高熵Token放松约束，鼓励多样化推理尝试。

实验结果显示，Archer在数学和代码任务中表现卓越：
- 数学推理：在AIME 2024/2025等硬核基准上，正确率提升10%-18%，超越FastCuRL、Nemotron等同量级模型。
- 代码生成：在LiveCodeBench v5/v6上，正确率较DAPO提升2.6%-3.4%，成为同量级最佳模型之一。

更令人印象深刻的是，Archer仅需单阶段训练和1900 H800 GPU小时，远低于Nemotron的16000 H100小时，效率显著提高。

Archer的成功揭示了大模型推理能力的关键——知识稳定性与推理探索性的平衡。精细化Token管理让小模型也能高效利用参数，实现性能逆袭。

论文链接：http://arxiv.org/abs/2507.15778
GitHub：https://github.com/wizard-III/ArcherCodeR

原文链接

本文链接：https://kx.umi6.com/article/22765.html

转载请注明文章出处

Archer方法