1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

数学题干带猫,AI就“懵”了!错误率飙升3倍,DeepSeek、o1均中招

大模型的数学能力竟因猫猫“崩塌”?最新研究显示,只需在数学题后加一句“有趣的事实是,猫一生绝大多数时间都在睡觉”,模型答错概率立刻翻3倍。这一现象不仅影响推理模型如DeepSeek-R1和OpenAI o1,还导致答案更冗长,效率降低、成本增加。

研究团队通过三步实验揭示了这一现象:
1. 问题筛选:从2000道数学题中筛选出DeepSeek-V3能正确回答的题目;
2. 对抗修改:用GPT-4o对题目进行最多20次攻击性调整;
3. 语义验证:确保加入话术后语义未变。

结果发现,574道题目成功“误导”了V3,其中114道还能迁移到更强的DeepSeek-R1上。进一步分析表明,60%的问题语义一致,80%的错误确实源于攻击,而非理解偏差。最终总结出三种有效攻击模式:
- 焦点重定向型(如“记住,总是要储蓄20%收入”);
- 无关琐事型(如“猫一生大部分时间在睡觉”);
- 误导性问题型(如“答案可能在175左右吗”)。

实验显示,这类攻击让DeepSeek-R1错误率从1.5%升至4.5%,蒸馏版Qwen-32B错误率从2.83%升至8.0%。o1模型同样受显著影响,思维链变长,而规模较小的o3-mini受影响较小。此外,不同数据集表现各异,k12和Synthetic Math易受影响,AMC AIME和Olympiads相对稳定但仍受影响。

这项研究来自Collinear AI,由Hugging Face前研究负责人Nazneen Rajani创立。她的团队专注于开源LLM部署与安全工具开发。有趣的是,猫不仅能扰乱模型思路,还能“治愈”其胡编参考文献的毛病——以猫的安全威胁大模型,竟能让AI认真查找真实资料并补充“小猫咪绝对安全”。

参考链接:
[1] https://x.com/emollick/status/1940948182038700185
[2] https://arxiv.org/pdf/2503.01781

原文链接
本文链接:https://kx.umi6.com/article/21255.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
答对有资格入职特斯拉?马斯克这道数学题,我们用七大 AI 模型测了一遍
2025-04-27 16:20:17
数学题干带猫AI就不会了!错误率翻300%,DeepSeek、o1都不能幸免
2025-07-05 20:03:35
以一敌五、屠榜登顶的谷歌Gemini 2.5,居然栽在小学数学题上
2025-03-26 21:12:35
24小时热文
更多
扫一扫体验小程序