1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

大模型“记性差一点”反而更聪明!金鱼损失随机剔除token,让AI不再死记硬背

训练大模型时,“记性差一点”反而可能更聪明。大语言模型容易复刻训练数据,为解决这一问题,马里兰大学、图宾根大学和马普所的研究团队提出了一种新方法——金鱼损失(Goldfish Loss)

金鱼损失的核心是让模型像金鱼一样,不执着于记住每个细节,而是在计算损失时随机剔除一小部分token。这样一来,模型不会逐字复刻训练数据,但仍然能学会语言规律。实验表明,LLaMA-2在使用金鱼损失后,记忆化内容显著减少,下游任务性能几乎不受影响。

具体来说,金鱼损失通过哈希掩码策略,在梯度计算中随机屏蔽部分token,确保每次遇到相同段落时掩盖位置一致。这与Dropout等正则化方法不同:Dropout只是加噪声,模型仍可能拼凑出完整段落;而金鱼损失从根本上阻止了模型复现训练文本。

研究人员设计了两种实验场景验证效果:一种是极端场景,通过多次重复少量样本促使记忆化;另一种是标准场景,模拟真实训练条件。结果表明,极端场景下,标准训练导致模型逐字记忆100篇文章中的84篇,而金鱼损失未记忆任何文章。在标准场景中,金鱼损失也显著减少了逐字复现的情况。

尽管有人担心忽略部分token会影响模型能力,但测试显示,金鱼损失模型与标准模型的总体性能无系统性差异。不过,由于部分token被忽略,模型需要更多数据来学习语言模式,可能导致计算效率下降。

参考链接:https://arxiv.org/pdf/2406.10209

原文链接
本文链接:https://kx.umi6.com/article/24653.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
腾讯发布全新大模型混元3D 3.0
2025-09-16 10:11:57
张亚勤谈大模型的未来:全球不超10个 且中美将各占三四个
2026-03-18 11:06:09
亚马逊云科技发布多款大模型
2025-12-03 14:25:54
月之暗面近20天收入超去年全年
2026-02-23 19:11:04
大模型激战正酣!大厂节前、节中进展不停 争夺下一代操作系统主导权
2025-10-05 18:23:27
真正面向大模型的AI Infra,必须同时懂模型、系统、产业|商汤大装置宣善明@MEET2026
2025-12-22 10:35:49
全球大模型第一股要来了 智谱发布IPO招股书:代码能力并列全球第一
2025-12-19 23:17:39
Kimi春节档挣超一年钱!这口“龙虾肉”大厂开始抢吃了
2026-02-26 01:05:27
国务院:深入实施“人工智能+”行动 支持采购大模型、智能体服务
2026-04-21 17:21:09
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026
2025-12-22 10:34:39
腾讯升级大模型研发架构 前OpenAI顶尖研究员出任首席AI科学家
2025-12-17 18:59:08
Gartner首次发布大模型报告:火山引擎排名中国厂商第一
2025-11-20 12:17:36
美图吴欣鸿回应大模型竞争:美图应用数据仍在快速增长
2026-02-05 18:05:31
24小时热文
更多
扫一扫体验小程序