1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:大模型玩不好数独?Transformer作者初创公司公布排行榜:o3 Mini High正确率仅2.9%

大模型做数独,总体正确率仅15%?继“史上首个AI科学家”之后,Transformer作者Llion Jones的创业公司Sakana AI推出全新数独基准Sudoku-Bench,测试大模型的创造性推理能力。榜单显示,即便高性能模型如o3 Mini High,在9×9数独中的正确率也仅为2.9%。

Sudoku-Bench由Sakana AI在今年3月发布,包含4×4到9×9的传统及“变异数独”问题,旨在挑战大模型的逻辑推理能力。“变异数独”需多步推理且无法靠记忆解决,是理想的AI推理测试工具。

测试发现,多数大模型依赖记忆而非逻辑推理,尤其在未见过的模式面前表现不佳。即使是顶级模型,无辅助时整体正确率低于15%,9×9网格正确率接近0%。模型常犯错误包括错误解答、规则误判和盲目猜测。

Sakana AI由Llion Jones和David Ha创立,专注于生成式AI研究,曾发布AI科学家、AI审稿人及连续思维机器(CTM)等项目。该公司还与Cracking The Cryptic合作,获取专业数独解题数据,并推出定制数独“奇偶鱼”。

技术报告:https://arxiv.org/abs/2505.16135
排行榜:https://pub.sakana.ai/sudoku/
GitHub:https://github.com/SakanaAI/Sudoku-Bench
奇偶鱼题目:https://sudokupad.app/wsj7iunsg6
解答过程:https://www.youtube.com/watch?v=JdHSSNKuIzU

原文链接
本文链接:https://kx.umi6.com/article/19350.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
GPT-4.1淘汰了4.5!全系列百万上下文,主打一个性价比
2025-04-15 10:24:50
国务院发文推进“高效办成一件事” AI+政务有望加速落地
2025-07-10 08:14:42
WSTS:2025年全球半导体市场规模达7009亿美元 同比增长11.2%
2025-06-03 17:05:29
24小时热文
更多
扫一扫体验小程序