1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:大模型“精细化”对齐,真实性提升25.8%刷新SOTA!token级精准编辑,无需训练即插即用

正文:
一种名为Token-Aware Editing (TAE)的新方法显著提升了大语言模型的对齐能力,在TruthfulQA任务上真实性指标提升25.8%,达到当前最优性能。TAE是一种无需训练、即插即用的推理时表征编辑方法,首次从token层面系统性解决传统技术问题,可广泛应用于对话系统、内容审核和偏见缓解等场景。

在大模型广泛应用的背景下,如何让模型输出更符合人类价值观(如真实性、无害性和公平性)成为关键挑战。传统方法依赖大量数据微调,成本高且效率低,而近年来直接编辑模型内部激活值的推理时对齐方法被证明高效可靠。然而,现有方法忽略token间的差异,导致编辑方向偏差和强度不灵活。

为此,北航研究团队提出TAE,通过两个核心模块实现精细化干预:
1. Mutual Information-guided Graph Aggregation (MIG):构建token关系图,量化激活值关联性,并通过多层次信息聚合生成增强表征,从而精准探测对齐方向;
2. Misalignment-aware Adaptive Intervention (MAI):评估每个token的错位风险,动态调整编辑强度,对高风险token强干预,低风险token弱干预。

实验结果表明,TAE在多个对齐维度上显著超越现有方法:
- 在TruthfulQA数据集上,TAE将True*Info得分提升至87.8%,比之前最佳方法提升14.6个百分点;
- 在去毒任务中,毒性概率从0.41降至0.05,降幅近90%;
- 在公平性任务中,刻板印象分数从64.8%降至50.3%,接近理想状态。

此外,TAE在不同模型类型和规模上均表现出显著增益。研究团队计划未来扩展至多维度对齐,并探索与SFT、RLHF等方法结合,推动模型向更安全可靠的方向发展。

论文链接:https://openreview.net/pdf?id=43nuT3mODk

原文链接
本文链接:https://kx.umi6.com/article/25978.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
大模型“精细化”对齐,真实性提升25.8%刷新SOTA!token级精准编辑,无需训练即插即用
2025-09-27 13:41:13
摩尔线程大模型对齐研究获国际顶级学术会议认可:URPO 框架入选 AAAI 2026
2025-11-14 00:26:54
中国政府只在特殊情况下批准购买H200芯片?商务部回应
2026-01-22 16:03:57
黄仁勋谈AI泡沫:泡沫产生是因为投资规模空前庞大 巨额投资是为了构建AI基础设施
2026-01-22 16:01:49
韩国施行涉AI指导性法律
2026-01-22 11:54:31
百川发布循证增强医疗大模型M3 Plus
2026-01-22 14:59:21
百度发布文心大模型5.0正式版
2026-01-22 10:49:05
重思启动重塑,美通社成功举办2026新传播年度论坛
2026-01-22 13:58:50
黄仁勋证实英伟达已取代苹果 成为台积电最大客户
2026-01-22 16:02:53
知名游戏女主播怒斥AI修图 花大手笔清除不雅照
2026-01-22 08:43:34
Node.js之父:手写代码已死
2026-01-22 14:57:11
OpenAI:将自行承担“星际之门”项目能源费用
2026-01-21 12:08:12
全球算力产业,正在陪着OpenAI走钢丝
2026-01-22 13:55:20
24小时热文
更多
扫一扫体验小程序