OpenAI新研究发现,增加推理时间可增强模型对抗攻击的能力。这为现有防御方法提供了新思路,尤其是“对抗性训练”需依赖先验知识并权衡稳健性和模型能力。
实验表明,不进行对抗性训练,只需增加推理时的计算量,模型的对抗稳健性就能显著提升。此研究由OpenAI联创之一Wojciech Zaremba及Boaz Barak参与完成。后者认为,尽管未完全解决对抗稳健性问题,但对未来充满期待。
研究团队考察了多种攻击方式,如Many-shot、Soft token、Think less等,并发现增加推理时计算量通常能提高模型抵御攻击的成功率。例如,在数学问题和智能体网页浏览任务中,增加推理时间后,攻击成功率降至零。
不过,研究也指出当前方法的局限性,包括任务范围有限及计算量增加可能无效等问题。此外,“Think less”和“Nerd sniping”攻击揭示了推理时计算的双刃剑效应。
该研究还引发了对其他模型如DeepSeek-R1系列可能受益的讨论。
原文链接
本文链接:https://kx.umi6.com/article/12064.html
转载请注明文章出处
相关推荐
.png)
换一换
OpenAI硬件项目被控“偷创意、抢名字” 奥尔特曼怒斥:荒唐至极
2025-06-25 17:32:03
OpenAI华人AI大牛集体跳槽Meta!清华北大浙大中科大校友各一位,多模态后训练、感知团队负责人全走了
2025-06-29 10:29:23
OpenAI:正对谷歌 TPU 进行早期测试,暂无大规模部署计划
2025-07-01 10:53:28
459 文章
84966 浏览
24小时热文
更多

-
2025-07-21 16:21:09
-
2025-07-21 16:20:01
-
2025-07-21 16:18:51