1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:大模型“精细化”对齐,真实性提升25.8%刷新SOTA!token级精准编辑,无需训练即插即用

正文:
一种名为Token-Aware Editing (TAE)的新方法显著提升了大语言模型的对齐能力,在TruthfulQA任务上真实性指标提升25.8%,达到当前最优性能。TAE是一种无需训练、即插即用的推理时表征编辑方法,首次从token层面系统性解决传统技术问题,可广泛应用于对话系统、内容审核和偏见缓解等场景。

在大模型广泛应用的背景下,如何让模型输出更符合人类价值观(如真实性、无害性和公平性)成为关键挑战。传统方法依赖大量数据微调,成本高且效率低,而近年来直接编辑模型内部激活值的推理时对齐方法被证明高效可靠。然而,现有方法忽略token间的差异,导致编辑方向偏差和强度不灵活。

为此,北航研究团队提出TAE,通过两个核心模块实现精细化干预:
1. Mutual Information-guided Graph Aggregation (MIG):构建token关系图,量化激活值关联性,并通过多层次信息聚合生成增强表征,从而精准探测对齐方向;
2. Misalignment-aware Adaptive Intervention (MAI):评估每个token的错位风险,动态调整编辑强度,对高风险token强干预,低风险token弱干预。

实验结果表明,TAE在多个对齐维度上显著超越现有方法:
- 在TruthfulQA数据集上,TAE将True*Info得分提升至87.8%,比之前最佳方法提升14.6个百分点;
- 在去毒任务中,毒性概率从0.41降至0.05,降幅近90%;
- 在公平性任务中,刻板印象分数从64.8%降至50.3%,接近理想状态。

此外,TAE在不同模型类型和规模上均表现出显著增益。研究团队计划未来扩展至多维度对齐,并探索与SFT、RLHF等方法结合,推动模型向更安全可靠的方向发展。

论文链接:https://openreview.net/pdf?id=43nuT3mODk

原文链接
本文链接:https://kx.umi6.com/article/25978.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
摩尔线程大模型对齐研究获国际顶级学术会议认可:URPO 框架入选 AAAI 2026
2025-11-14 00:26:54
大模型“精细化”对齐,真实性提升25.8%刷新SOTA!token级精准编辑,无需训练即插即用
2025-09-27 13:41:13
广东“十五五”规划建议:深入推进数字广东建设 加强人工智能治理
2025-12-08 08:14:45
豆包手机助手:我们无法直接查询银行卡余额,需用户授权及手动确认
2025-12-06 17:41:12
李开复:未来办公司和搭积木一样快,比谁更会用 Agent
2025-12-06 18:42:35
Ilya刚预言完,世界首个原生多模态架构NEO就来了:视觉和语言彻底被焊死
2025-12-06 21:51:03
8 年首次大突破:谷歌祭出 Transformer 杀手,掌门人划出 AGI 死线
2025-12-07 15:34:40
联想天禧AI足球智能体正式上线,亮相咪咕世界杯抽签夜直播
2025-12-06 17:40:08
足球巨星C罗投资Perplexity AI
2025-12-05 20:51:12
马斯克谈每年发射100万吨AI卫星:大规模运行AI最低成本方式
2025-12-08 10:20:50
AI可穿戴公司Limitless宣布被Meta收购
2025-12-06 07:17:46
国产滤波器企业新声半导体完成2.69亿元C轮融资
2025-12-08 18:39:38
英伟达自毁CUDA门槛!15行Python写GPU内核,性能匹敌200行C++
2025-12-08 14:30:13
24小时热文
更多
扫一扫体验小程序