1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

OpenAI新研究发现,增加推理时间可增强模型对抗攻击的能力。这为现有防御方法提供了新思路,尤其是“对抗性训练”需依赖先验知识并权衡稳健性和模型能力。

实验表明,不进行对抗性训练,只需增加推理时的计算量,模型的对抗稳健性就能显著提升。此研究由OpenAI联创之一Wojciech Zaremba及Boaz Barak参与完成。后者认为,尽管未完全解决对抗稳健性问题,但对未来充满期待。

研究团队考察了多种攻击方式,如Many-shot、Soft token、Think less等,并发现增加推理时计算量通常能提高模型抵御攻击的成功率。例如,在数学问题和智能体网页浏览任务中,增加推理时间后,攻击成功率降至零。

不过,研究也指出当前方法的局限性,包括任务范围有限及计算量增加可能无效等问题。此外,“Think less”和“Nerd sniping”攻击揭示了推理时计算的双刃剑效应。

该研究还引发了对其他模型如DeepSeek-R1系列可能受益的讨论。

原文链接
本文链接:https://kx.umi6.com/article/12064.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
OpenAI硬件项目被控“偷创意、抢名字” 奥尔特曼怒斥:荒唐至极
2025-06-25 17:32:03
OpenAI华人AI大牛集体跳槽Meta!清华北大浙大中科大校友各一位,多模态后训练、感知团队负责人全走了
2025-06-29 10:29:23
OpenAI:正对谷歌 TPU 进行早期测试,暂无大规模部署计划
2025-07-01 10:53:28
24小时热文
更多
扫一扫体验小程序