OpenAI新研究发现,增加推理时间可增强模型对抗攻击的能力。这为现有防御方法提供了新思路,尤其是“对抗性训练”需依赖先验知识并权衡稳健性和模型能力。
实验表明,不进行对抗性训练,只需增加推理时的计算量,模型的对抗稳健性就能显著提升。此研究由OpenAI联创之一Wojciech Zaremba及Boaz Barak参与完成。后者认为,尽管未完全解决对抗稳健性问题,但对未来充满期待。
研究团队考察了多种攻击方式,如Many-shot、Soft token、Think less等,并发现增加推理时计算量通常能提高模型抵御攻击的成功率。例如,在数学问题和智能体网页浏览任务中,增加推理时间后,攻击成功率降至零。
不过,研究也指出当前方法的局限性,包括任务范围有限及计算量增加可能无效等问题。此外,“Think less”和“Nerd sniping”攻击揭示了推理时计算的双刃剑效应。
该研究还引发了对其他模型如DeepSeek-R1系列可能受益的讨论。
原文链接
本文链接:https://kx.umi6.com/article/12064.html
转载请注明文章出处
相关推荐
换一换
奥尔特曼 400 万年薪急招“末日主管”!上岗即“地狱模式”
2025-12-29 15:34:55
OpenAI首款硬件定型为笔!网友:就叫oPen吧
2026-01-04 16:12:59
OpenAI任命英国前财长奥斯本负责“OpenAI for Countries”项目
2025-12-17 08:30:53
奥尔特曼:OpenAI GPT-5.2 API 上线首日 tokens 超万亿,且增长迅速
2025-12-13 15:55:03
有望挑战传统机翻,OpenAI 低调上线“ChatGPT 翻译”页面
2026-01-15 08:20:52
马斯克诉OpenAI案将于4月下旬进入审判程序
2026-01-16 11:33:52
OpenAI计划于2026年推出首款硬件设备
2026-01-19 23:22:26
OpenAI据称计划以8300亿美元的估值筹资至多1000亿美元 以支持其雄心勃勃的增长计划
2025-12-19 07:34:47
OpenAI 亲自“打预防针”,警告自家新模型存在“高级别”网络安全风险
2025-12-11 16:01:13
OpenAI 向软银集团旗下数字基础设施公司 SB Energy 投资 5 亿美元
2026-01-10 12:10:02
OpenAI据悉正在开发一款对标苹果AirPods的人工智能设备
2026-01-14 15:44:46
年薪 55.5 万美元 + 股权,OpenAI 急招“安全防范负责人”
2025-12-28 08:15:58
OpenAI和谷歌通过免费赠品争夺印度用户和训练数据
2025-12-17 20:03:37
669 文章
471412 浏览
24小时热文
更多
-
2026-01-23 21:15:09 -
2026-01-23 21:14:01 -
2026-01-23 20:15:45