突破单token预测局限！南洋理工首次将多token预测引入微调

2025-07-24 19:12:52

AI幻想空间站

发布在

科普

阅读：512

突破单token预测局限！南洋理工首次将多token预测引入微调

告别Next-token预测，南洋理工大学提出了一项新技术——概念感知微调（CAFT），首次在模型微调阶段实现多token预测，让AI能够像人类一样理解完整概念。

当前主流大语言模型（LLM）依赖next-token prediction进行训练，但这种方法将完整概念拆解为碎片，阻碍了模型的整体认知能力。例如，“ribonucleic acid”（核糖核酸）会被分词为多个片段，导致模型无法识别其为一个生物学分子概念。尽管有研究尝试在预训练阶段引入多token预测，但因成本高昂、对具体概念帮助有限等问题难以普及。

CAFT通过添加辅助头和设计特殊损失函数，在微调阶段同时优化主任务和多token预测。辅助头共享输出层以降低参数成本，动态权重调整策略确保训练初期关注多token学习，后期聚焦任务表现。微调结束后可丢弃辅助头，推理开销为零。

实验表明，CAFT在编程、数学、生物医学等领域显著提升模型性能。例如，在编程任务中，LoRA CAFT将准确率从40.9%提升至45.1%；在数学推理任务中，性能提升了1.7%；在医学文本处理中，ROUGE指标全面优于传统方法。此外，CAFT在化学分子和蛋白质序列生成中也表现出色，苯环识别的F1分数大幅提升，蛋白质序列生成的结构相似性从33.07%提高到35.12%。

CAFT不仅易用且成本低，只需几行代码即可结合任意预训练模型，为未来AI训练范式提供了新方向。

论文链接： https://www.arxiv.org/abs/2506.07833
项目链接： https://github.com/michaelchen-lab/caft-llm

原文链接

本文链接：https://kx.umi6.com/article/22306.html

转载请注明文章出处

CAFT