2025-05-28 16:36:56
大模型玩不好数独?!Transformer作者初创公司公布排行榜:o3 Mini High“变异数独”正确率仅2.9%
阅读:129
标题:大模型玩不好数独?Transformer作者初创公司公布排行榜:o3 Mini High正确率仅2.9%
大模型做数独,总体正确率仅15%?继“史上首个AI科学家”之后,Transformer作者Llion Jones的创业公司Sakana AI推出全新数独基准Sudoku-Bench,测试大模型的创造性推理能力。榜单显示,即便高性能模型如o3 Mini High,在9×9数独中的正确率也仅为2.9%。
Sudoku-Bench由Sakana AI在今年3月发布,包含4×4到9×9的传统及“变异数独”问题,旨在挑战大模型的逻辑推理能力。“变异数独”需多步推理且无法靠记忆解决,是理想的AI推理测试工具。
测试发现,多数大模型依赖记忆而非逻辑推理,尤其在未见过的模式面前表现不佳。即使是顶级模型,无辅助时整体正确率低于15%,9×9网格正确率接近0%。模型常犯错误包括错误解答、规则误判和盲目猜测。
Sakana AI由Llion Jones和David Ha创立,专注于生成式AI研究,曾发布AI科学家、AI审稿人及连续思维机器(CTM)等项目。该公司还与Cracking The Cryptic合作,获取专业数独解题数据,并推出定制数独“奇偶鱼”。
技术报告:https://arxiv.org/abs/2505.16135
排行榜:https://pub.sakana.ai/sudoku/
GitHub:https://github.com/SakanaAI/Sudoku-Bench
奇偶鱼题目:https://sudokupad.app/wsj7iunsg6
解答过程:https://www.youtube.com/watch?v=JdHSSNKuIzU
原文链接
本文链接:https://kx.umi6.com/article/19350.html
转载请注明文章出处
相关推荐
.png)
换一换
GPT-4.1淘汰了4.5!全系列百万上下文,主打一个性价比
2025-04-15 10:24:50
国务院发文推进“高效办成一件事” AI+政务有望加速落地
2025-07-10 08:14:42
WSTS:2025年全球半导体市场规模达7009亿美元 同比增长11.2%
2025-06-03 17:05:29
409 文章
57938 浏览
24小时热文
更多

-
2025-07-18 23:46:25
-
2025-07-18 22:47:06
-
2025-07-18 22:46:21