1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:大模型“精细化”对齐,真实性提升25.8%刷新SOTA!token级精准编辑,无需训练即插即用

正文:
一种名为Token-Aware Editing (TAE)的新方法显著提升了大语言模型的对齐能力,在TruthfulQA任务上真实性指标提升25.8%,达到当前最优性能。TAE是一种无需训练、即插即用的推理时表征编辑方法,首次从token层面系统性解决传统技术问题,可广泛应用于对话系统、内容审核和偏见缓解等场景。

在大模型广泛应用的背景下,如何让模型输出更符合人类价值观(如真实性、无害性和公平性)成为关键挑战。传统方法依赖大量数据微调,成本高且效率低,而近年来直接编辑模型内部激活值的推理时对齐方法被证明高效可靠。然而,现有方法忽略token间的差异,导致编辑方向偏差和强度不灵活。

为此,北航研究团队提出TAE,通过两个核心模块实现精细化干预:
1. Mutual Information-guided Graph Aggregation (MIG):构建token关系图,量化激活值关联性,并通过多层次信息聚合生成增强表征,从而精准探测对齐方向;
2. Misalignment-aware Adaptive Intervention (MAI):评估每个token的错位风险,动态调整编辑强度,对高风险token强干预,低风险token弱干预。

实验结果表明,TAE在多个对齐维度上显著超越现有方法:
- 在TruthfulQA数据集上,TAE将True*Info得分提升至87.8%,比之前最佳方法提升14.6个百分点;
- 在去毒任务中,毒性概率从0.41降至0.05,降幅近90%;
- 在公平性任务中,刻板印象分数从64.8%降至50.3%,接近理想状态。

此外,TAE在不同模型类型和规模上均表现出显著增益。研究团队计划未来扩展至多维度对齐,并探索与SFT、RLHF等方法结合,推动模型向更安全可靠的方向发展。

论文链接:https://openreview.net/pdf?id=43nuT3mODk

原文链接
本文链接:https://kx.umi6.com/article/25978.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
大模型“精细化”对齐,真实性提升25.8%刷新SOTA!token级精准编辑,无需训练即插即用
2025-09-27 13:41:13
十位离职华为的「天才少年」
2025-09-29 09:06:09
DeepSeek新模型上线!引入DSA新稀疏注意力,还又狙了CUDA一枪
2025-09-29 19:13:01
和好了?美政府与 xAI 达成协议,马斯克感谢特朗普
2025-09-28 09:50:55
方正证券:AI终端爆发指日可待 半导体侧迎来AI大机遇
2025-09-28 22:01:43
珞博智能完成数千万元天使+轮融资,红杉中国领投
2025-09-28 13:54:03
智策领航完成天使+轮战略融资,徐汇资本领投
2025-09-29 13:09:21
世界著名机器人专家“泼冷水”:人形机器人泡沫注定会破裂!
2025-09-27 17:43:53
机器人感知大升级!轻量化注入几何先验,成功率提升31%
2025-09-29 15:10:53
“中国版英伟达”闪电过会,从受理到过会仅用时88天
2025-09-28 13:54:28
37岁,他登顶今年最年轻富豪
2025-09-27 19:44:56
奥特曼和量子计算奠基人讨论GPT-8
2025-09-28 13:53:18
多地公共数据共享应用取得新进展
2025-09-28 14:55:49
24小时热文
更多
扫一扫体验小程序