大模型“记性差一点”反而更聪明!金鱼损失随机剔除token,让AI不再死记硬背
训练大模型时,“记性差一点”反而可能更聪明。大语言模型容易复刻训练数据,为解决这一问题,马里兰大学、图宾根大学和马普所的研究团队提出了一种新方法——金鱼损失(Goldfish Loss)。
金鱼损失的核心是让模型像金鱼一样,不执着于记住每个细节,而是在计算损失时随机剔除一小部分token。这样一来,模型不会逐字复刻训练数据,但仍然能学会语言规律。实验表明,LLaMA-2在使用金鱼损失后,记忆化内容显著减少,下游任务性能几乎不受影响。
具体来说,金鱼损失通过哈希掩码策略,在梯度计算中随机屏蔽部分token,确保每次遇到相同段落时掩盖位置一致。这与Dropout等正则化方法不同:Dropout只是加噪声,模型仍可能拼凑出完整段落;而金鱼损失从根本上阻止了模型复现训练文本。
研究人员设计了两种实验场景验证效果:一种是极端场景,通过多次重复少量样本促使记忆化;另一种是标准场景,模拟真实训练条件。结果表明,极端场景下,标准训练导致模型逐字记忆100篇文章中的84篇,而金鱼损失未记忆任何文章。在标准场景中,金鱼损失也显著减少了逐字复现的情况。
尽管有人担心忽略部分token会影响模型能力,但测试显示,金鱼损失模型与标准模型的总体性能无系统性差异。不过,由于部分token被忽略,模型需要更多数据来学习语言模式,可能导致计算效率下降。
原文链接
本文链接:https://kx.umi6.com/article/24653.html
转载请注明文章出处
相关推荐
.png)
换一换
字节对大模型方向加码期权激励 核心技术员工最高可获百万元
2025-09-03 15:50:37
我国大模型数量居全球首位,达到 1509 个、占比达 40%
2025-07-27 13:57:47
中国信通院开展面向大模型的全栈国产软硬件系统适配测试工作
2025-07-23 16:55:22
大模型参与推理崩溃论战!从「思维错觉」到「错觉的错觉」再到「错觉的错觉的错觉」
2025-06-20 18:02:43
我国大模型数量居全球首位
2025-07-27 13:58:52
硅基流动入驻阿里云云市场,核心 API 服务将全面接入百炼平台
2025-06-19 09:45:52
Scaling Law再遭质疑:“退化式AI”竟成终局?
2025-08-04 21:03:25
大模型“记性差一点”反而更聪明!金鱼损失随机剔除token,让AI不再死记硬背
2025-09-03 17:49:26
消费电子将被大模型重新定义?云天励飞董事长陈宁:看好推理算力需求的爆发 全面押注AI芯片
2025-07-25 11:23:59
o3-pro通关“推箱子”,人类怀旧小游戏成了大模型新Benchmark
2025-06-17 13:23:27
对话AI教父辛顿关门弟子:为什么现有的AI方向可能是错的
2025-06-17 18:37:07
国产大模型高考裸分683:选清华 还是北大
2025-06-27 17:18:09
大模型首次直接理解代码图:不用 Agent 自动修 bug,登顶 SWE-Bench 开源模型榜单
2025-06-27 15:12:57
471 文章
165674 浏览
24小时热文
更多

-
2025-09-03 20:52:29
-
2025-09-03 20:51:22
-
2025-09-03 19:54:09