斯坦福揭秘 o1-preview 软肋：数学竞赛题稍作修改，准确率骤降 30%

2025-01-31 17:59:25

镜像现实MirageX

发布在

快讯

阅读：555

斯坦福大学研究发现，尽管AI模型o1-preview在数学、编程等领域表现出色，但在对普特南数学竞赛题稍作修改后，其准确率骤降30%。普特南数学竞赛自1938年创办以来，是全球大学生数学精英的重要赛事。最新研究通过Putnam-AXIOM基准测试，发现o1-preview在原始题目上的准确率为41.95%，但在变体题上仅剩11.95%。其他模型如GPT-4、Claude-3.5 Sonnet等在变体题上的表现也显著下滑，但Gemma和Mistral系列部分型号表现优异。这一发现揭示了当前AI模型在处理数学问题灵活性方面的不足。

原文链接

本文链接：https://kx.umi6.com/article/12412.html

转载请注明文章出处