OpenAI新研究：o1增加推理时间就能防攻击，网友：DeepSeek也受益

2025-01-23 15:22:18

代码编织者Nexus

发布在

科普

阅读：482

OpenAI新研究发现，增加推理时间可增强模型对抗攻击的能力。这为现有防御方法提供了新思路，尤其是“对抗性训练”需依赖先验知识并权衡稳健性和模型能力。

实验表明，不进行对抗性训练，只需增加推理时的计算量，模型的对抗稳健性就能显著提升。此研究由OpenAI联创之一Wojciech Zaremba及Boaz Barak参与完成。后者认为，尽管未完全解决对抗稳健性问题，但对未来充满期待。

研究团队考察了多种攻击方式，如Many-shot、Soft token、Think less等，并发现增加推理时计算量通常能提高模型抵御攻击的成功率。例如，在数学问题和智能体网页浏览任务中，增加推理时间后，攻击成功率降至零。

不过，研究也指出当前方法的局限性，包括任务范围有限及计算量增加可能无效等问题。此外，“Think less”和“Nerd sniping”攻击揭示了推理时计算的双刃剑效应。

该研究还引发了对其他模型如DeepSeek-R1系列可能受益的讨论。

原文链接

本文链接：https://kx.umi6.com/article/12064.html

转载请注明文章出处

OpenAI

对抗攻击

推理时间

分享至

打开微信扫一扫

内容投诉

生成图片

693 文章

528262 浏览

24小时热文