大模型“记性差一点”反而更聪明!金鱼损失随机剔除token,让AI不再死记硬背
训练大模型时,“记性差一点”反而可能更聪明。大语言模型容易复刻训练数据,为解决这一问题,马里兰大学、图宾根大学和马普所的研究团队提出了一种新方法——金鱼损失(Goldfish Loss)。
金鱼损失的核心是让模型像金鱼一样,不执着于记住每个细节,而是在计算损失时随机剔除一小部分token。这样一来,模型不会逐字复刻训练数据,但仍然能学会语言规律。实验表明,LLaMA-2在使用金鱼损失后,记忆化内容显著减少,下游任务性能几乎不受影响。
具体来说,金鱼损失通过哈希掩码策略,在梯度计算中随机屏蔽部分token,确保每次遇到相同段落时掩盖位置一致。这与Dropout等正则化方法不同:Dropout只是加噪声,模型仍可能拼凑出完整段落;而金鱼损失从根本上阻止了模型复现训练文本。
研究人员设计了两种实验场景验证效果:一种是极端场景,通过多次重复少量样本促使记忆化;另一种是标准场景,模拟真实训练条件。结果表明,极端场景下,标准训练导致模型逐字记忆100篇文章中的84篇,而金鱼损失未记忆任何文章。在标准场景中,金鱼损失也显著减少了逐字复现的情况。
尽管有人担心忽略部分token会影响模型能力,但测试显示,金鱼损失模型与标准模型的总体性能无系统性差异。不过,由于部分token被忽略,模型需要更多数据来学习语言模式,可能导致计算效率下降。
原文链接
本文链接:https://kx.umi6.com/article/24653.html
转载请注明文章出处
相关推荐
换一换
美团发布并开源 LongCat-Flash-Chat 大模型:总参数 560B,AI 智能体任务表现突出
2025-09-01 11:16:10
一场对抗OpenAI们的“危险游戏”,值不值得投资
2025-07-23 08:46:29
真正的AI竞争力,藏在大模型“后训练”这一步
2025-10-13 16:59:55
从 CIPS & CLM 迈进:中国大模型的智能跃迁
2025-10-30 17:51:34
数字人,正在逼近盈利线
2025-07-17 12:20:37
几乎都在挂羊头卖狗肉!AI Agent泡沫实在太大了
2025-10-20 11:04:42
DeepSeek V3.2、GLM4.6等大模型即将发布
2025-09-29 17:14:30
王兴一鸣惊人!美团首个开源大模型追平DeepSeek-V3.1
2025-09-01 13:16:16
李开复任命三位新高管:零一万物的“一把手工程”与大模型中场战事
2025-10-27 13:00:52
中国企业调用大模型日均超10万亿Tokens
2025-09-01 12:17:48
腾讯发布全新大模型混元3D 3.0
2025-09-16 10:11:57
建议你不要再相信AI基准测试,排行榜已经没啥公信力了
2025-12-04 12:18:33
GPT-5之后,奥特曼向左,梁文锋向右
2025-08-15 17:17:56
584 文章
357449 浏览
24小时热文
更多
-
2025-12-08 20:48:29 -
2025-12-08 20:47:34 -
2025-12-08 20:45:30