斯坦福大学研究发现,尽管AI模型o1-preview在数学、编程等领域表现出色,但在对普特南数学竞赛题稍作修改后,其准确率骤降30%。普特南数学竞赛自1938年创办以来,是全球大学生数学精英的重要赛事。最新研究通过Putnam-AXIOM基准测试,发现o1-preview在原始题目上的准确率为41.95%,但在变体题上仅剩11.95%。其他模型如GPT-4、Claude-3.5 Sonnet等在变体题上的表现也显著下滑,但Gemma和Mistral系列部分型号表现优异。这一发现揭示了当前AI模型在处理数学问题灵活性方面的不足。
原文链接
本文链接:https://kx.umi6.com/article/12412.html
转载请注明文章出处
相关推荐
换一换
OpenAI o1-preview AI 推理模型“不讲武德”:国际象棋对垒跳出规则外“作弊”取胜
2024-12-31 13:45:43
国产推理大模型决战2025考研数学,看看谁第一个上岸?
2025-01-15 10:28:14
谷歌杀回来了!新版Gemini跑分超o1登顶第一,CEO:这才哪到哪儿
2024-11-15 17:22:43
当 AI 与数学在上海相遇:2025 WAIC背后的智慧革命
2025-07-27 12:55:06
OpenAI新发布:“满血版”o1和每月200刀的“天价会员”
2024-12-06 12:20:58
陶哲轩对谈OpenAI高管,“也许很快OpenAI就能证明陶哲轩是错的”
2024-12-08 13:04:03
OpenAI第一场直播就炸场!o1满血版上线,史上最贵订阅费1450/月
2024-12-06 05:12:39
编码数学击败GPT4-Turbo!DeepSeek-Coder-v2登顶竞技场最强开源编码模型
2024-06-24 19:26:30
大模型全军覆没,中科院自动化所推出多图数学推理新基准
2025-03-11 14:34:37
为什么没人说DeepSeek的数学和代码?
2025-01-31 15:58:10
o1已不是聊天模型了!SpaceX前工程师公开全新使用秘籍:从讨厌它到每天依赖它
2025-01-13 12:51:41
陶哲轩罕见长长长长长访谈:数学、AI和给年轻人的建议
2025-06-21 13:09:58
o1被曝“心机深”:逃避监督还会撒谎,骗人能力一骑绝尘
2024-12-09 17:30:01
682 文章
525373 浏览
24小时热文
更多
-
2026-04-24 20:31:56 -
2026-04-24 20:29:51 -
2026-04-24 19:29:38