标题:揭开大模型“伪遗忘”,港理工等团队:结构不变就是没忘
近年来,大语言模型(LLMs)能力迅猛发展,但随之而来的隐私风险也日益凸显。训练中暴露的敏感信息常被模型“记住”,引发广泛关注。为此,机器遗忘(Machine Unlearning)技术应运而生,旨在不影响整体能力的前提下,有选择性地抹除特定知识。
香港理工大学、卡内基梅隆大学和加州大学圣克鲁兹分校的研究团队开发了一套表示空间诊断工具,区分了“可逆性遗忘”与“灾难性不可逆遗忘”。研究表明,真正的遗忘需多个网络层协同大幅扰动,而在高敏感区域的轻微更新虽会降低准确率或增加困惑度,但模型内部表示结构仍保持完整。
该团队构建了一个统一的表示层分析工具箱,用于诊断LLM在遗忘、再学习和微调过程中的变化。研究发现,真正的遗忘表现为结构性的抹除,而非行为上的抑制。例如,在可逆遗忘中,模型可通过再学习恢复原状,而在不可逆遗忘中,即使行为表现下降,结构也会严重扰动,难以恢复。
研究者通过PCA Similarity/Shift、CKA相似性分析和Fisher信息矩阵(FIM),揭示了遗忘的可逆边界。实验表明,单次遗忘大多可恢复,但持续性遗忘易导致彻底崩溃。此外,某些遗忘方法可能导致隐式增强效果,提示Unlearning可能具备对比式正则化或课程学习的效果。
研究团队还验证了这些结论在复杂任务中的适用性,并提供了一系列结构诊断工具,以支持实现“可控、局部、不可逆”的安全遗忘机制。这项工作由Xiaoyu Xu、Xiang Yue、Yang Liu、Qingqing Ye、Haibo Hu和Minxin Du共同完成。
论文地址:https://arxiv.org/abs/2505.16831
GitHub地址:https://github.com/XiaoyuXU1/Representational_Analysis_Tools.git
— 完 —
-
2026-04-25 00:42:43 -
2026-04-24 23:43:31 -
2026-04-24 23:42:26