1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

大模型“记性差一点”反而更聪明!金鱼损失随机剔除token,让AI不再死记硬背

训练大模型时,“记性差一点”反而可能更聪明。大语言模型容易复刻训练数据,为解决这一问题,马里兰大学、图宾根大学和马普所的研究团队提出了一种新方法——金鱼损失(Goldfish Loss)

金鱼损失的核心是让模型像金鱼一样,不执着于记住每个细节,而是在计算损失时随机剔除一小部分token。这样一来,模型不会逐字复刻训练数据,但仍然能学会语言规律。实验表明,LLaMA-2在使用金鱼损失后,记忆化内容显著减少,下游任务性能几乎不受影响。

具体来说,金鱼损失通过哈希掩码策略,在梯度计算中随机屏蔽部分token,确保每次遇到相同段落时掩盖位置一致。这与Dropout等正则化方法不同:Dropout只是加噪声,模型仍可能拼凑出完整段落;而金鱼损失从根本上阻止了模型复现训练文本。

研究人员设计了两种实验场景验证效果:一种是极端场景,通过多次重复少量样本促使记忆化;另一种是标准场景,模拟真实训练条件。结果表明,极端场景下,标准训练导致模型逐字记忆100篇文章中的84篇,而金鱼损失未记忆任何文章。在标准场景中,金鱼损失也显著减少了逐字复现的情况。

尽管有人担心忽略部分token会影响模型能力,但测试显示,金鱼损失模型与标准模型的总体性能无系统性差异。不过,由于部分token被忽略,模型需要更多数据来学习语言模式,可能导致计算效率下降。

参考链接:https://arxiv.org/pdf/2406.10209

原文链接
本文链接:https://kx.umi6.com/article/24653.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
中信建投武超则:大模型的迭代永无止境 坚定看好接下来AI应用的发展表现
2025-07-16 18:10:08
百度世界2025将于11月13日在北京举办
2025-10-13 20:03:11
你用的大模型是什么MBTI?
2025-09-23 20:23:14
阿里云副总裁叶杰平:大模型已呈现“周级迭代”爆发态势
2025-07-27 13:59:57
「今年业务是去年5倍以上」,工业智能体掀热潮
2025-08-29 12:38:30
IDC评测9家座舱大模型产品 斑马获最多项满分推荐
2025-07-18 11:36:59
大模型刷数学题竟有害?CMU评估20+模型指出训练陷阱
2025-07-08 17:52:09
一场对抗OpenAI们的“危险游戏”,值不值得投资
2025-07-23 08:46:29
大模型又迎来重要玩家!美团首个开源大模型来了
2025-09-01 18:28:28
把12个AI凑到一起打工,它们竟然搞起“小团体”?
2025-10-16 22:02:39
大模型激战正酣!大厂节前、节中进展不停 争夺下一代操作系统主导权
2025-10-05 18:23:27
GPT-5能让普通人变成博士,但魔法依旧没有
2025-08-08 12:10:14
智谱旗舰模型GLM-4.5重磅发布 相关企业有望站上风口
2025-07-29 08:27:00
24小时热文
更多
扫一扫体验小程序