1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

突破单token预测局限!南洋理工首次将多token预测引入微调

告别Next-token预测,南洋理工大学提出了一项新技术——概念感知微调(CAFT),首次在模型微调阶段实现多token预测,让AI能够像人类一样理解完整概念。

当前主流大语言模型(LLM)依赖next-token prediction进行训练,但这种方法将完整概念拆解为碎片,阻碍了模型的整体认知能力。例如,“ribonucleic acid”(核糖核酸)会被分词为多个片段,导致模型无法识别其为一个生物学分子概念。尽管有研究尝试在预训练阶段引入多token预测,但因成本高昂、对具体概念帮助有限等问题难以普及。

CAFT通过添加辅助头和设计特殊损失函数,在微调阶段同时优化主任务和多token预测。辅助头共享输出层以降低参数成本,动态权重调整策略确保训练初期关注多token学习,后期聚焦任务表现。微调结束后可丢弃辅助头,推理开销为零。

实验表明,CAFT在编程、数学、生物医学等领域显著提升模型性能。例如,在编程任务中,LoRA CAFT将准确率从40.9%提升至45.1%;在数学推理任务中,性能提升了1.7%;在医学文本处理中,ROUGE指标全面优于传统方法。此外,CAFT在化学分子和蛋白质序列生成中也表现出色,苯环识别的F1分数大幅提升,蛋白质序列生成的结构相似性从33.07%提高到35.12%。

CAFT不仅易用且成本低,只需几行代码即可结合任意预训练模型,为未来AI训练范式提供了新方向。

论文链接: https://www.arxiv.org/abs/2506.07833
项目链接: https://github.com/michaelchen-lab/caft-llm

原文链接
本文链接:https://kx.umi6.com/article/22306.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
突破单token预测局限!南洋理工首次将多token预测引入微调
2025-07-24 19:12:52
上海新增9款已完成登记的生成式人工智能服务
2025-09-11 20:01:56
投洽会期间厦门火炬高新区共41个项目签约 计划总投资约433亿元
2025-09-10 16:41:49
1060亿美元未确认合同!谷歌云透露订单拿到手软 巨头“AI正循环”或正兑现
2025-09-10 16:40:43
落地为王,谁在用AI撬动百亿产业?
2025-09-11 14:59:02
第二次中英产业合作对话在京举行
2025-09-10 21:44:18
“下一个英伟达”诞生?甲骨文股价暴涨背后:一场关于算力的豪赌
2025-09-11 12:54:39
沾了甲骨文的光?软银股价暴涨10% 带动日股创历史新高
2025-09-11 19:03:49
美国加州拟立法严管“陪伴型”聊天机器人:“AI 受害者”可起诉服务提供商
2025-09-11 17:02:10
AI训推一体机销售火热 市场前景被看好
2025-09-11 08:54:34
美国加州拟立法严管AI聊天机器人
2025-09-11 16:00:18
宇树科技创始人王兴兴:目前AI模型难以真正驱动机器人做事
2025-09-11 12:54:53
微信公众号上线“智能回复”功能:腾讯混元 AI 大模型加持、可自学习用户语言风格
2025-09-11 14:57:41
24小时热文
更多
扫一扫体验小程序