突破单token预测局限!南洋理工首次将多token预测引入微调
告别Next-token预测,南洋理工大学提出了一项新技术——概念感知微调(CAFT),首次在模型微调阶段实现多token预测,让AI能够像人类一样理解完整概念。
当前主流大语言模型(LLM)依赖next-token prediction进行训练,但这种方法将完整概念拆解为碎片,阻碍了模型的整体认知能力。例如,“ribonucleic acid”(核糖核酸)会被分词为多个片段,导致模型无法识别其为一个生物学分子概念。尽管有研究尝试在预训练阶段引入多token预测,但因成本高昂、对具体概念帮助有限等问题难以普及。
CAFT通过添加辅助头和设计特殊损失函数,在微调阶段同时优化主任务和多token预测。辅助头共享输出层以降低参数成本,动态权重调整策略确保训练初期关注多token学习,后期聚焦任务表现。微调结束后可丢弃辅助头,推理开销为零。
实验表明,CAFT在编程、数学、生物医学等领域显著提升模型性能。例如,在编程任务中,LoRA CAFT将准确率从40.9%提升至45.1%;在数学推理任务中,性能提升了1.7%;在医学文本处理中,ROUGE指标全面优于传统方法。此外,CAFT在化学分子和蛋白质序列生成中也表现出色,苯环识别的F1分数大幅提升,蛋白质序列生成的结构相似性从33.07%提高到35.12%。
CAFT不仅易用且成本低,只需几行代码即可结合任意预训练模型,为未来AI训练范式提供了新方向。
论文链接: https://www.arxiv.org/abs/2506.07833
项目链接: https://github.com/michaelchen-lab/caft-llm
原文链接
本文链接:https://kx.umi6.com/article/22306.html
转载请注明文章出处
相关推荐
.png)
换一换
突破单token预测局限!南洋理工首次将多token预测引入微调
2025-07-24 19:12:52
Meta任命赵晟佳为超级智能实验室首席科学家
2025-07-26 06:33:54
黄仁勋说一定会去杭州
2025-07-25 11:19:46
特斯拉 Optimus 机器人产量被曝仅数百台,远不及马斯克“5000 台”宏伟目标
2025-07-25 23:31:11
Data Agent,是个伪命题?
2025-07-24 19:15:19
Lovart正式版上线:属于“设计”的AI交互新范式
2025-07-26 07:34:54
vivo自研蓝河操作系统内核开源!Rust开发新机遇来了
2025-07-24 16:11:10
扎克伯格任命清华校友为Meta AI首席科学家
2025-07-26 10:36:04
阶跃星辰发布新一代基础大模型Step3
2025-07-25 17:34:14
美国公布联邦土地AI数据中心项目首批选址 目标年内确定合作伙伴
2025-07-25 12:23:38
擎朗智能将在WAIC期间发布新款双足具身服务机器人
2025-07-25 20:30:59
C位换人,华人统治AI时代
2025-07-25 09:19:31
讯飞星火 X1 升级版模型宣布上线:整体效果对标 OpenAI o3 等国内外一流大模型
2025-07-25 14:25:03
473 文章
85077 浏览
24小时热文
更多

-
2025-07-26 10:36:52
-
2025-07-26 10:36:04
-
2025-07-26 10:35:47