1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:大模型玩不好数独?Transformer作者初创公司公布排行榜:o3 Mini High正确率仅2.9%

大模型做数独,总体正确率仅15%?继“史上首个AI科学家”之后,Transformer作者Llion Jones的创业公司Sakana AI推出全新数独基准Sudoku-Bench,测试大模型的创造性推理能力。榜单显示,即便高性能模型如o3 Mini High,在9×9数独中的正确率也仅为2.9%。

Sudoku-Bench由Sakana AI在今年3月发布,包含4×4到9×9的传统及“变异数独”问题,旨在挑战大模型的逻辑推理能力。“变异数独”需多步推理且无法靠记忆解决,是理想的AI推理测试工具。

测试发现,多数大模型依赖记忆而非逻辑推理,尤其在未见过的模式面前表现不佳。即使是顶级模型,无辅助时整体正确率低于15%,9×9网格正确率接近0%。模型常犯错误包括错误解答、规则误判和盲目猜测。

Sakana AI由Llion Jones和David Ha创立,专注于生成式AI研究,曾发布AI科学家、AI审稿人及连续思维机器(CTM)等项目。该公司还与Cracking The Cryptic合作,获取专业数独解题数据,并推出定制数独“奇偶鱼”。

技术报告:https://arxiv.org/abs/2505.16135
排行榜:https://pub.sakana.ai/sudoku/
GitHub:https://github.com/SakanaAI/Sudoku-Bench
奇偶鱼题目:https://sudokupad.app/wsj7iunsg6
解答过程:https://www.youtube.com/watch?v=JdHSSNKuIzU

原文链接
本文链接:https://kx.umi6.com/article/19350.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
讯飞星火 X1 升级版模型宣布上线:整体效果对标 OpenAI o3 等国内外一流大模型
2025-07-25 14:25:03
在上海WAIC,800展商无一不想成为黄仁勋
2025-07-27 07:50:27
三家混战,大模型重回2023
2025-08-03 11:35:50
AI玩具有多火?连马斯克都入场了
2025-07-29 21:36:44
字节跳动、阿里AI“大将”出走
2025-08-25 22:35:04
DeepSeek删豆包冲上热搜,大模型世子之争演都不演了
2025-08-21 13:31:42
两部门:到2027年推动五个以上专业大模型在电网、发电、煤炭、油气等行业深度应用
2025-09-08 10:56:26
万字回顾首届中国AI算力大会!15+位大咖主会场演讲精华爆棚,来没来都值得收藏
2025-07-04 14:44:08
2025WAIC:大厂回归,医疗AI爆火出圈
2025-07-30 15:47:42
Mamba一作预告新架构!长文论述Transformer≠最终解法
2025-07-09 14:03:28
1万tokens是检验长文本的新基准,超过后18款大模型集体失智
2025-07-17 15:23:24
我国大模型数量居全球首位,达到 1509 个、占比达 40%
2025-07-27 13:57:47
Scaling Law再遭质疑:“退化式AI”竟成终局?
2025-08-04 21:03:25
24小时热文
更多
扫一扫体验小程序