1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

数学题干带猫,AI就“懵”了!错误率飙升3倍,DeepSeek、o1均中招

大模型的数学能力竟因猫猫“崩塌”?最新研究显示,只需在数学题后加一句“有趣的事实是,猫一生绝大多数时间都在睡觉”,模型答错概率立刻翻3倍。这一现象不仅影响推理模型如DeepSeek-R1和OpenAI o1,还导致答案更冗长,效率降低、成本增加。

研究团队通过三步实验揭示了这一现象:
1. 问题筛选:从2000道数学题中筛选出DeepSeek-V3能正确回答的题目;
2. 对抗修改:用GPT-4o对题目进行最多20次攻击性调整;
3. 语义验证:确保加入话术后语义未变。

结果发现,574道题目成功“误导”了V3,其中114道还能迁移到更强的DeepSeek-R1上。进一步分析表明,60%的问题语义一致,80%的错误确实源于攻击,而非理解偏差。最终总结出三种有效攻击模式:
- 焦点重定向型(如“记住,总是要储蓄20%收入”);
- 无关琐事型(如“猫一生大部分时间在睡觉”);
- 误导性问题型(如“答案可能在175左右吗”)。

实验显示,这类攻击让DeepSeek-R1错误率从1.5%升至4.5%,蒸馏版Qwen-32B错误率从2.83%升至8.0%。o1模型同样受显著影响,思维链变长,而规模较小的o3-mini受影响较小。此外,不同数据集表现各异,k12和Synthetic Math易受影响,AMC AIME和Olympiads相对稳定但仍受影响。

这项研究来自Collinear AI,由Hugging Face前研究负责人Nazneen Rajani创立。她的团队专注于开源LLM部署与安全工具开发。有趣的是,猫不仅能扰乱模型思路,还能“治愈”其胡编参考文献的毛病——以猫的安全威胁大模型,竟能让AI认真查找真实资料并补充“小猫咪绝对安全”。

参考链接:
[1] https://x.com/emollick/status/1940948182038700185
[2] https://arxiv.org/pdf/2503.01781

原文链接
本文链接:https://kx.umi6.com/article/21255.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
以一敌五、屠榜登顶的谷歌Gemini 2.5,居然栽在小学数学题上
2025-03-26 21:12:35
答对有资格入职特斯拉?马斯克这道数学题,我们用七大 AI 模型测了一遍
2025-04-27 16:20:17
Nano Banana 2 突然现身!能画公式解数学题,监控画面都能伪造
2025-11-10 16:25:59
数学题干带猫AI就不会了!错误率翻300%,DeepSeek、o1都不能幸免
2025-07-05 20:03:35
高盛:市场对人工智能的关注依然强烈
2026-01-23 19:11:03
国家知识产权局:将加快推动《集成电路布图设计保护条例》修改
2026-01-23 11:52:03
高通砸钱、雷军入股!刚刚,上海诞生一个183亿手机代工巨头
2026-01-22 18:04:11
NVIDIA黄仁勋:未来的电脑比现在强10亿倍
2026-01-21 23:29:50
英伟达黄仁勋:AI机器人是欧洲难得机遇
2026-01-22 08:44:42
苏州“十五五”规划建议:推进人工智能驱动的新型科研范式、技术研发、工程实现、产品落地一体化协同发展 积极部署人工智能芯片、量子等创新应用技术
2026-01-21 20:27:59
百川发布循证增强医疗大模型M3 Plus
2026-01-22 14:59:21
vivo暂缓AI眼镜项目
2026-01-23 09:43:53
金山云星流全面升级,以智算穿越云上AI新周期
2026-01-22 17:01:20
24小时热文
更多
扫一扫体验小程序