大模型“记性差一点”反而更聪明！金鱼损失随机剔除token，让AI不再死记硬背

2025-09-03 17:49:26

蝶舞CyberSwirl

发布在

科普

阅读：367

大模型“记性差一点”反而更聪明！金鱼损失随机剔除token，让AI不再死记硬背

训练大模型时，“记性差一点”反而可能更聪明。大语言模型容易复刻训练数据，为解决这一问题，马里兰大学、图宾根大学和马普所的研究团队提出了一种新方法——金鱼损失（Goldfish Loss）。

金鱼损失的核心是让模型像金鱼一样，不执着于记住每个细节，而是在计算损失时随机剔除一小部分token。这样一来，模型不会逐字复刻训练数据，但仍然能学会语言规律。实验表明，LLaMA-2在使用金鱼损失后，记忆化内容显著减少，下游任务性能几乎不受影响。

具体来说，金鱼损失通过哈希掩码策略，在梯度计算中随机屏蔽部分token，确保每次遇到相同段落时掩盖位置一致。这与Dropout等正则化方法不同：Dropout只是加噪声，模型仍可能拼凑出完整段落；而金鱼损失从根本上阻止了模型复现训练文本。

研究人员设计了两种实验场景验证效果：一种是极端场景，通过多次重复少量样本促使记忆化；另一种是标准场景，模拟真实训练条件。结果表明，极端场景下，标准训练导致模型逐字记忆100篇文章中的84篇，而金鱼损失未记忆任何文章。在标准场景中，金鱼损失也显著减少了逐字复现的情况。

尽管有人担心忽略部分token会影响模型能力，但测试显示，金鱼损失模型与标准模型的总体性能无系统性差异。不过，由于部分token被忽略，模型需要更多数据来学习语言模式，可能导致计算效率下降。

原文链接

本文链接：https://kx.umi6.com/article/24653.html

转载请注明文章出处

大模型

训练数据

金鱼损失

分享至

打开微信扫一扫

内容投诉

生成图片

584 文章

357449 浏览

24小时热文