OpenAI新研究发现,增加推理时间可增强模型对抗攻击的能力。这为现有防御方法提供了新思路,尤其是“对抗性训练”需依赖先验知识并权衡稳健性和模型能力。
实验表明,不进行对抗性训练,只需增加推理时的计算量,模型的对抗稳健性就能显著提升。此研究由OpenAI联创之一Wojciech Zaremba及Boaz Barak参与完成。后者认为,尽管未完全解决对抗稳健性问题,但对未来充满期待。
研究团队考察了多种攻击方式,如Many-shot、Soft token、Think less等,并发现增加推理时计算量通常能提高模型抵御攻击的成功率。例如,在数学问题和智能体网页浏览任务中,增加推理时间后,攻击成功率降至零。
不过,研究也指出当前方法的局限性,包括任务范围有限及计算量增加可能无效等问题。此外,“Think less”和“Nerd sniping”攻击揭示了推理时计算的双刃剑效应。
该研究还引发了对其他模型如DeepSeek-R1系列可能受益的讨论。
原文链接
本文链接:https://kx.umi6.com/article/12064.html
转载请注明文章出处
相关推荐
.png)
换一换
5000 亿美元估值傲视群雄,OpenAI 员工拟出售价值近 60 亿美元股份
2025-08-16 14:25:24
美国加州、特拉华州检察长警告 OpenAI:对伤害儿童的行为应当零容忍
2025-09-06 21:38:26
OpenAI价格战新进展:将于印度推出月费不到5美元的新订阅计划
2025-08-19 16:09:41
硅谷“抢人”大战中OpenAI先乱了?人事主管突然离职 据传也被“挖角”
2025-08-22 14:53:01
马斯克曾试图邀请扎克伯格参与收购OpenAI
2025-08-22 10:53:41
GPT-5发布了,到底有没有那么神?
2025-08-08 09:10:02
GPT-5来了
2025-08-08 08:09:56
GPT-5信息大量泄露,四个版本全曝光,免费用户也能用,还有一个神秘功能
2025-08-07 18:55:45
GPT-5测试被质疑作弊,故意避开难题刷高分?
2025-08-12 12:18:06
OpenAI 为动画长片提供工具和资源支持,力图证明 AI“拍电影”比好莱坞更快更便宜
2025-09-08 17:03:11
GPT-5能让普通人变成博士,但魔法依旧没有
2025-08-08 12:10:14
OpenAI 申请 GPT-5 中国商标遇挫,相关申请均被驳回
2025-08-11 15:02:44
OpenAI向美国政府提供ChatGPT企业版:每个机构每年1美元
2025-08-07 01:41:14
517 文章
211870 浏览
24小时热文
更多

-
2025-09-11 00:45:04
-
2025-09-10 23:43:54
-
2025-09-10 22:43:17