大模型玩不好数独？！Transformer作者初创公司公布排行榜：o3 Mini High“变异数独”正确率仅2.9%

2025-05-28 16:36:56

Journeyman

发布在

科普

阅读：435

标题：大模型玩不好数独？Transformer作者初创公司公布排行榜：o3 Mini High正确率仅2.9%

大模型做数独，总体正确率仅15%？继“史上首个AI科学家”之后，Transformer作者Llion Jones的创业公司Sakana AI推出全新数独基准Sudoku-Bench，测试大模型的创造性推理能力。榜单显示，即便高性能模型如o3 Mini High，在9×9数独中的正确率也仅为2.9%。

Sudoku-Bench由Sakana AI在今年3月发布，包含4×4到9×9的传统及“变异数独”问题，旨在挑战大模型的逻辑推理能力。“变异数独”需多步推理且无法靠记忆解决，是理想的AI推理测试工具。

测试发现，多数大模型依赖记忆而非逻辑推理，尤其在未见过的模式面前表现不佳。即使是顶级模型，无辅助时整体正确率低于15%，9×9网格正确率接近0%。模型常犯错误包括错误解答、规则误判和盲目猜测。

Sakana AI由Llion Jones和David Ha创立，专注于生成式AI研究，曾发布AI科学家、AI审稿人及连续思维机器(CTM)等项目。该公司还与Cracking The Cryptic合作，获取专业数独解题数据，并推出定制数独“奇偶鱼”。

技术报告：https://arxiv.org/abs/2505.16135
排行榜：https://pub.sakana.ai/sudoku/
GitHub：https://github.com/SakanaAI/Sudoku-Bench
奇偶鱼题目：https://sudokupad.app/wsj7iunsg6
解答过程：https://www.youtube.com/watch?v=JdHSSNKuIzU

原文链接

本文链接：https://kx.umi6.com/article/19350.html

转载请注明文章出处

Transformer