1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

大模型“记性差一点”反而更聪明!金鱼损失随机剔除token,让AI不再死记硬背

训练大模型时,“记性差一点”反而可能更聪明。大语言模型容易复刻训练数据,为解决这一问题,马里兰大学、图宾根大学和马普所的研究团队提出了一种新方法——金鱼损失(Goldfish Loss)

金鱼损失的核心是让模型像金鱼一样,不执着于记住每个细节,而是在计算损失时随机剔除一小部分token。这样一来,模型不会逐字复刻训练数据,但仍然能学会语言规律。实验表明,LLaMA-2在使用金鱼损失后,记忆化内容显著减少,下游任务性能几乎不受影响。

具体来说,金鱼损失通过哈希掩码策略,在梯度计算中随机屏蔽部分token,确保每次遇到相同段落时掩盖位置一致。这与Dropout等正则化方法不同:Dropout只是加噪声,模型仍可能拼凑出完整段落;而金鱼损失从根本上阻止了模型复现训练文本。

研究人员设计了两种实验场景验证效果:一种是极端场景,通过多次重复少量样本促使记忆化;另一种是标准场景,模拟真实训练条件。结果表明,极端场景下,标准训练导致模型逐字记忆100篇文章中的84篇,而金鱼损失未记忆任何文章。在标准场景中,金鱼损失也显著减少了逐字复现的情况。

尽管有人担心忽略部分token会影响模型能力,但测试显示,金鱼损失模型与标准模型的总体性能无系统性差异。不过,由于部分token被忽略,模型需要更多数据来学习语言模式,可能导致计算效率下降。

参考链接:https://arxiv.org/pdf/2406.10209

原文链接
本文链接:https://kx.umi6.com/article/24653.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
大厂AI新战场:AQ狂飙,蚂蚁押注大健康赛道
2025-11-09 16:34:57
阿里千问大模型换将,32岁林俊旸官宣告别
2026-03-04 10:27:38
王兴一鸣惊人!美团首个开源大模型追平DeepSeek-V3.1
2025-09-01 13:16:16
大模型产生幻觉,全怪人类PUA吗?
2025-09-10 15:36:03
美图吴欣鸿回应大模型竞争:美图应用数据仍在快速增长
2026-02-05 18:05:31
阿里巴巴CEO吴泳铭:大模型是下一代操作系统 AI Cloud是下一代计算机
2025-09-24 10:37:04
智谱AI今日正式上市,一文讲透你想知道的6件事
2026-01-09 21:35:10
马年4大顶流模型会师阿里云Coding Plan开工!Token量大管饱,自由切换真香
2026-02-26 00:01:12
汪军对话 Rich Sutton:大模型在一定程度上分散了我们对智能理解的注意力
2025-09-28 11:53:51
Kimi春节档挣超一年钱!这口“龙虾肉”大厂开始抢吃了
2026-02-26 01:05:27
智谱与市城投集团合作发布杭州城投人工智能产业大模型项目(一期)建设成果
2025-09-15 20:01:43
2025最大赌注:为什么所有厂商都押宝AI手机?
2025-12-25 09:25:38
宇树科技王兴兴:谁能把机器人用的大模型做出来 谁就是全世界最厉害的AI公司和机器人公司
2026-01-30 12:25:48
24小时热文
更多
扫一扫体验小程序