1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:揭开大模型“伪遗忘”,港理工等团队:结构不变就是没忘

近年来,大语言模型(LLMs)能力迅猛发展,但随之而来的隐私风险也日益凸显。训练中暴露的敏感信息常被模型“记住”,引发广泛关注。为此,机器遗忘(Machine Unlearning)技术应运而生,旨在不影响整体能力的前提下,有选择性地抹除特定知识。

香港理工大学、卡内基梅隆大学和加州大学圣克鲁兹分校的研究团队开发了一套表示空间诊断工具,区分了“可逆性遗忘”与“灾难性不可逆遗忘”。研究表明,真正的遗忘需多个网络层协同大幅扰动,而在高敏感区域的轻微更新虽会降低准确率或增加困惑度,但模型内部表示结构仍保持完整。

该团队构建了一个统一的表示层分析工具箱,用于诊断LLM在遗忘、再学习和微调过程中的变化。研究发现,真正的遗忘表现为结构性的抹除,而非行为上的抑制。例如,在可逆遗忘中,模型可通过再学习恢复原状,而在不可逆遗忘中,即使行为表现下降,结构也会严重扰动,难以恢复。

研究者通过PCA Similarity/Shift、CKA相似性分析和Fisher信息矩阵(FIM),揭示了遗忘的可逆边界。实验表明,单次遗忘大多可恢复,但持续性遗忘易导致彻底崩溃。此外,某些遗忘方法可能导致隐式增强效果,提示Unlearning可能具备对比式正则化或课程学习的效果。

研究团队还验证了这些结论在复杂任务中的适用性,并提供了一系列结构诊断工具,以支持实现“可控、局部、不可逆”的安全遗忘机制。这项工作由Xiaoyu Xu、Xiang Yue、Yang Liu、Qingqing Ye、Haibo Hu和Minxin Du共同完成。

论文地址:https://arxiv.org/abs/2505.16831
GitHub地址:https://github.com/XiaoyuXU1/Representational_Analysis_Tools.git

— 完 —

原文链接
本文链接:https://kx.umi6.com/article/19569.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
SU 哈佛亚马逊最新研究:量化能让大模型“恢复记忆”,删掉的隐私版权内容全回来了
2024-11-16 16:31:57
《古墓丽影》新作封面被质疑使用AI 官方回应
2026-06-08 21:46:02
微信公布AI生态布局新进展:肯德基作为首批餐饮企业接入
2026-06-08 23:49:41
中国AI大模型周调用量连续6周超越美国:前4名均为国产模型
2026-06-08 12:24:46
太讽刺了 号称最注重AI安全的Anthropic曝出用户隐私泄露问题
2026-06-07 14:42:06
WPS笔记正式发布:AI贯穿记录、整理与复用全过程
2026-06-05 18:08:52
AI需求井喷!台积电CEO:数年难以填满芯片缺口
2026-06-04 17:14:24
互联网历史上首次!机器人流量首度超越人类:占比57.5%
2026-06-07 14:36:36
4万亿美元 美国AI三巨头集体上市“抢钱”
2026-06-05 19:21:26
AI Agent的门票 MiniMax想先打下来
2026-06-04 17:17:31
一个GPT Plus会员的钱,够机器人跑一个月世界模型了
2026-06-04 13:05:17
App Store年成交1.4万亿美元 AI应用打开增量成长空间
2026-06-05 01:32:40
覆盖20多个垂直场景Agent!腾讯首发效率智能体工具集
2026-06-05 17:08:27
24小时热文
更多
扫一扫体验小程序