1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:揭开大模型“伪遗忘”,港理工等团队:结构不变就是没忘

近年来,大语言模型(LLMs)能力迅猛发展,但随之而来的隐私风险也日益凸显。训练中暴露的敏感信息常被模型“记住”,引发广泛关注。为此,机器遗忘(Machine Unlearning)技术应运而生,旨在不影响整体能力的前提下,有选择性地抹除特定知识。

香港理工大学、卡内基梅隆大学和加州大学圣克鲁兹分校的研究团队开发了一套表示空间诊断工具,区分了“可逆性遗忘”与“灾难性不可逆遗忘”。研究表明,真正的遗忘需多个网络层协同大幅扰动,而在高敏感区域的轻微更新虽会降低准确率或增加困惑度,但模型内部表示结构仍保持完整。

该团队构建了一个统一的表示层分析工具箱,用于诊断LLM在遗忘、再学习和微调过程中的变化。研究发现,真正的遗忘表现为结构性的抹除,而非行为上的抑制。例如,在可逆遗忘中,模型可通过再学习恢复原状,而在不可逆遗忘中,即使行为表现下降,结构也会严重扰动,难以恢复。

研究者通过PCA Similarity/Shift、CKA相似性分析和Fisher信息矩阵(FIM),揭示了遗忘的可逆边界。实验表明,单次遗忘大多可恢复,但持续性遗忘易导致彻底崩溃。此外,某些遗忘方法可能导致隐式增强效果,提示Unlearning可能具备对比式正则化或课程学习的效果。

研究团队还验证了这些结论在复杂任务中的适用性,并提供了一系列结构诊断工具,以支持实现“可控、局部、不可逆”的安全遗忘机制。这项工作由Xiaoyu Xu、Xiang Yue、Yang Liu、Qingqing Ye、Haibo Hu和Minxin Du共同完成。

论文地址:https://arxiv.org/abs/2505.16831
GitHub地址:https://github.com/XiaoyuXU1/Representational_Analysis_Tools.git

— 完 —

原文链接
本文链接:https://kx.umi6.com/article/19569.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
SU 哈佛亚马逊最新研究:量化能让大模型“恢复记忆”,删掉的隐私版权内容全回来了
2024-11-16 16:31:57
DeepSeek-V4发布,华为云首发适配
2026-04-24 18:26:00
存储“超级周期”进入业绩兑现阶段
2026-04-24 06:56:46
德银警示氦气供应风险
2026-04-24 17:27:38
谷歌发布一系列新AI工具
2026-04-22 21:32:58
河南师傅,左手扳手,右手飞书,竟然能搞数据分析!
2026-04-23 23:34:55
谷歌计划向Anthropic投资至多400亿美元 支持后者大幅扩展算力
2026-04-25 00:42:43
国家知识产权局:人工智能、芯片、脑机接口纳入“快保护”通道
2026-04-24 12:10:22
国家药监局:以“人工智能+药品监管”建设为主线 全力推进药品智慧监管建设和统计各项工作
2026-04-24 18:31:29
日本紧急成立网络安全小组 应对Mythos引发的金融系统漏洞危机
2026-04-24 18:29:17
打击P图恶意骗退款!淘宝天猫上线售后AI假图识别模型
2026-04-23 19:25:25
两部门:重点在软件和信息服务、数字交付贸易的数据安全与隐私保护、数据要素跨境流动、数字贸易平台建设等方面率先推进标准研制和体系建设
2026-04-23 12:05:12
印度男子打造AI女网红狂骗美国寂寞男:吸引超百万粉丝
2026-04-23 08:55:54
24小时热文
更多
扫一扫体验小程序