突破单token预测局限!南洋理工首次将多token预测引入微调
告别Next-token预测,南洋理工大学提出了一项新技术——概念感知微调(CAFT),首次在模型微调阶段实现多token预测,让AI能够像人类一样理解完整概念。
当前主流大语言模型(LLM)依赖next-token prediction进行训练,但这种方法将完整概念拆解为碎片,阻碍了模型的整体认知能力。例如,“ribonucleic acid”(核糖核酸)会被分词为多个片段,导致模型无法识别其为一个生物学分子概念。尽管有研究尝试在预训练阶段引入多token预测,但因成本高昂、对具体概念帮助有限等问题难以普及。
CAFT通过添加辅助头和设计特殊损失函数,在微调阶段同时优化主任务和多token预测。辅助头共享输出层以降低参数成本,动态权重调整策略确保训练初期关注多token学习,后期聚焦任务表现。微调结束后可丢弃辅助头,推理开销为零。
实验表明,CAFT在编程、数学、生物医学等领域显著提升模型性能。例如,在编程任务中,LoRA CAFT将准确率从40.9%提升至45.1%;在数学推理任务中,性能提升了1.7%;在医学文本处理中,ROUGE指标全面优于传统方法。此外,CAFT在化学分子和蛋白质序列生成中也表现出色,苯环识别的F1分数大幅提升,蛋白质序列生成的结构相似性从33.07%提高到35.12%。
CAFT不仅易用且成本低,只需几行代码即可结合任意预训练模型,为未来AI训练范式提供了新方向。
论文链接: https://www.arxiv.org/abs/2506.07833
项目链接: https://github.com/michaelchen-lab/caft-llm
原文链接
本文链接:https://kx.umi6.com/article/22306.html
转载请注明文章出处
相关推荐
换一换
突破单token预测局限!南洋理工首次将多token预测引入微调
2025-07-24 19:12:52
Roblox CEO 巴祖基感叹 AI 研究速度:曾博览群书的自己,现在都快看不懂了
2025-12-08 19:43:05
Ubuntu 团队测试 AI 生成代码:总体表现尚可,但一小部分函数“完全错误”
2025-12-07 20:45:46
阴和俊:在量子科技等领域布局建设未来产业 加强对国家重大科技任务和科技型企业的金融支持
2025-12-08 10:23:04
OpenAI:科技、医疗和制造业是人工智能增长最快的行业
2025-12-08 20:47:34
张予彤出任月之暗面总裁
2025-12-08 19:45:13
马斯克谈每年发射100万吨AI卫星:大规模运行AI最低成本方式
2025-12-08 10:20:50
小冰之父李笛智能体创业,公司取名Nextie!陆奇是股东
2025-12-09 09:22:47
摩根大通CEO谈AI:使人们可以工作不那么辛苦 享受美好生活
2025-12-08 11:23:28
打工15年,被大厂裁4次了
2025-12-08 11:21:19
河南“十五五”规划建议:全面实施“人工智能+”行动 建设重点行业领域垂直大模型
2025-12-08 08:15:51
广西“十五五”规划建议:打造面向东盟开放合作高能级平台
2025-12-07 10:24:46
硅片,洗牌进行时
2025-12-07 14:30:16
624 文章
365932 浏览
24小时热文
更多
-
2025-12-09 09:25:02 -
2025-12-09 09:24:52 -
2025-12-09 09:23:55