1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

1.5B小模型刷新数学代码SOTA!快手&清华推出Archer方法,精细化Token管理大幅提升LLM推理能力

快手与清华大学团队提出了一种名为Archer的新方法,用仅1.5B参数的小模型在多个数学和代码推理基准上超越同量级SOTA模型。其核心在于对模型学习过程的精细化管理:稳定知识记忆,释放推理灵活性。

传统强化学习(RLVR)方法常导致模型在“知识型”内容(如公式、事实)和“推理型”内容(如逻辑规划)之间难以平衡。要么知识被遗忘,要么推理受限。Archer通过“双Token约束”解决了这一问题:
1. Token分类:根据熵值区分低熵Token(知识型)和高熵Token(推理型)。例如,“3.14”是低熵,而“接下来”是高熵。
2. 差异化训练:对低熵Token施加紧约束,确保知识准确;对高熵Token放松约束,鼓励多样化推理尝试。

实验结果显示,Archer在数学和代码任务中表现卓越:
- 数学推理:在AIME 2024/2025等硬核基准上,正确率提升10%-18%,超越FastCuRL、Nemotron等同量级模型。
- 代码生成:在LiveCodeBench v5/v6上,正确率较DAPO提升2.6%-3.4%,成为同量级最佳模型之一。

更令人印象深刻的是,Archer仅需单阶段训练和1900 H800 GPU小时,远低于Nemotron的16000 H100小时,效率显著提高。

Archer的成功揭示了大模型推理能力的关键——知识稳定性与推理探索性的平衡。精细化Token管理让小模型也能高效利用参数,实现性能逆袭。

论文链接:http://arxiv.org/abs/2507.15778
GitHub:https://github.com/wizard-III/ArcherCodeR

原文链接
本文链接:https://kx.umi6.com/article/22765.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
GPT新版本猜想:奥特曼草莓图引发推理热潮
2024-09-06 12:03:27
DeepSeek V3.2 正式版发布:推理比肩 GPT-5,首推 Speciale 版本拿下奥数金牌
2025-12-01 19:27:59
智谱版o1终于也来了:直接拿下考研数学,一句话就能做小游戏!
2024-12-31 10:37:09
用“草莓”对抗幻觉?OpenAI新项目隐含人工智能升级关键线索
2024-07-13 12:30:05
RL 是推理神器?清华上交大最新研究指出:RL 让大模型更会“套公式”、却不会真推理
2025-04-23 11:57:26
陈丹琦团队图表解读新基准:新王Claude3.5刚及格,但已是模型最强推理表现
2024-06-28 22:10:00
上海AI实验室版o1已上线!数学题、Leetcode全拿下,还会玩24点
2024-11-28 15:29:46
谷歌 DeepMind 研究:Gemini AI 存“畏死”情绪,导致推理能力明显下降
2025-06-19 09:43:42
AI进步放缓、遭遇瓶颈?OpenAI等头部公司:不存在
2024-11-29 17:58:36
阶跃星辰李璟:2025年将是Agent落地元年 推理能力和多模态是研究重点
2025-03-12 13:29:09
百度 AI 搜索宣布全面接入 DeepSeek R1 最新版,推理能力更强
2025-05-31 16:07:25
DeepSeek 团队新作:把代码变成思维链,大模型推理各种能力全面提升
2025-02-17 15:53:30
实测OpenAI最强模型o1:会做大学数理化,但弱智吧依然难解
2024-09-15 14:50:14
24小时热文
更多
扫一扫体验小程序