标题:大模型“精细化”对齐,真实性提升25.8%刷新SOTA!token级精准编辑,无需训练即插即用
正文:
一种名为Token-Aware Editing (TAE)的新方法显著提升了大语言模型的对齐能力,在TruthfulQA任务上真实性指标提升25.8%,达到当前最优性能。TAE是一种无需训练、即插即用的推理时表征编辑方法,首次从token层面系统性解决传统技术问题,可广泛应用于对话系统、内容审核和偏见缓解等场景。
在大模型广泛应用的背景下,如何让模型输出更符合人类价值观(如真实性、无害性和公平性)成为关键挑战。传统方法依赖大量数据微调,成本高且效率低,而近年来直接编辑模型内部激活值的推理时对齐方法被证明高效可靠。然而,现有方法忽略token间的差异,导致编辑方向偏差和强度不灵活。
为此,北航研究团队提出TAE,通过两个核心模块实现精细化干预:
1. Mutual Information-guided Graph Aggregation (MIG):构建token关系图,量化激活值关联性,并通过多层次信息聚合生成增强表征,从而精准探测对齐方向;
2. Misalignment-aware Adaptive Intervention (MAI):评估每个token的错位风险,动态调整编辑强度,对高风险token强干预,低风险token弱干预。
实验结果表明,TAE在多个对齐维度上显著超越现有方法:
- 在TruthfulQA数据集上,TAE将True*Info得分提升至87.8%,比之前最佳方法提升14.6个百分点;
- 在去毒任务中,毒性概率从0.41降至0.05,降幅近90%;
- 在公平性任务中,刻板印象分数从64.8%降至50.3%,接近理想状态。
此外,TAE在不同模型类型和规模上均表现出显著增益。研究团队计划未来扩展至多维度对齐,并探索与SFT、RLHF等方法结合,推动模型向更安全可靠的方向发展。
论文链接:https://openreview.net/pdf?id=43nuT3mODk
.png)

-
2025-09-29 19:16:24
-
2025-09-29 19:15:14
-
2025-09-29 19:14:08