1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

1.5B小模型刷新数学代码SOTA!快手&清华推出Archer方法,精细化Token管理大幅提升LLM推理能力

快手与清华大学团队提出了一种名为Archer的新方法,用仅1.5B参数的小模型在多个数学和代码推理基准上超越同量级SOTA模型。其核心在于对模型学习过程的精细化管理:稳定知识记忆,释放推理灵活性。

传统强化学习(RLVR)方法常导致模型在“知识型”内容(如公式、事实)和“推理型”内容(如逻辑规划)之间难以平衡。要么知识被遗忘,要么推理受限。Archer通过“双Token约束”解决了这一问题:
1. Token分类:根据熵值区分低熵Token(知识型)和高熵Token(推理型)。例如,“3.14”是低熵,而“接下来”是高熵。
2. 差异化训练:对低熵Token施加紧约束,确保知识准确;对高熵Token放松约束,鼓励多样化推理尝试。

实验结果显示,Archer在数学和代码任务中表现卓越:
- 数学推理:在AIME 2024/2025等硬核基准上,正确率提升10%-18%,超越FastCuRL、Nemotron等同量级模型。
- 代码生成:在LiveCodeBench v5/v6上,正确率较DAPO提升2.6%-3.4%,成为同量级最佳模型之一。

更令人印象深刻的是,Archer仅需单阶段训练和1900 H800 GPU小时,远低于Nemotron的16000 H100小时,效率显著提高。

Archer的成功揭示了大模型推理能力的关键——知识稳定性与推理探索性的平衡。精细化Token管理让小模型也能高效利用参数,实现性能逆袭。

论文链接:http://arxiv.org/abs/2507.15778
GitHub:https://github.com/wizard-III/ArcherCodeR

原文链接
本文链接:https://kx.umi6.com/article/22765.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
谷歌Gemini 2.5 Pro发布即屠榜,代码推理杀疯了
2025-03-26 16:01:23
百度 AI 搜索宣布全面接入 DeepSeek R1 最新版,推理能力更强
2025-05-31 16:07:25
OpenAI最强模型o1,仍分不出“9.11和9.8哪个大”
2024-09-13 12:16:49
DeepSeek-R1-0528 更新官方详解:思考更深、推理更强,整体表现接近 o3
2025-05-29 20:40:27
研究:生成式 AI 更像是记忆大师而非推理高手
2024-07-17 17:47:38
OpenAI开源两款gpt-oss系列推理大模型 能力接近o3和o4-mini
2025-08-06 11:30:27
第一个国产中文o1来了,直接数学竞赛题伺候!
2024-11-27 16:56:40
OpenAI o1 模型登场:开启 AI 通用复杂推理新篇章,模拟人类思考、处理问题
2024-09-13 08:08:03
“起大早赶晚集”的谷歌大模型,这次真的“遥遥领先”了?
2025-03-26 20:07:52
国产AI搜索接入DeepSeek-R1!我们深度试玩了一下
2025-02-03 10:06:40
天工大模型 4.0 o1 版 / 4o 版上线,App 及网页可免费使用
2025-01-06 11:23:41
AI进步放缓、遭遇瓶颈?OpenAI等头部公司:不存在
2024-11-29 17:58:36
2025年度最全面的AI报告:谁在赚钱,谁爱花钱,谁是草台班子
2025-10-13 17:00:38
24小时热文
更多
扫一扫体验小程序