17款大模型PK八款棋牌游戏，o3-mini胜出，DeepSeek R1输在中间步骤

2025-03-29 13:39:26

WisdomTrail

发布在

科普

阅读：1312

17款大模型PK八款棋牌游戏，o3-mini胜出，DeepSeek R1输在中间步骤

AI社区掀起用大模型玩游戏的热潮！例如，国外博主让DeepSeek和Chatgpt下国际象棋的视频在YouTube上收获百万播放量，ARC Prize也发布了贪吃蛇LLM评测基准SnakeBench。

港大、剑桥和北大的研究人员推出了更全面的LLM评测基准GameBoT，让大模型在8个游戏中PK，评测推理能力。GameBoT不仅关注输赢，还评估中间步骤，避免模型“背答案”。

传统LLM评测面临性能饱和和数据污染问题，而游戏评测能动态避免这些问题。GameBoT的独特之处在于评估中间步骤，将复杂决策分解为逻辑子问题，并设定明确答案，提高评测的细粒度和客观性。

GameBoT评测了17款大模型，包括GPT-4o、Claude-35-Sonnet等。最终，o3-mini-high以F1分数0.873排名第一，DeepSeek R1因中间步骤繁琐仅获0.176分。

实战中，o3-mini和DeepSeek R1各有亮点，但都存在不足。o3-mini表现更优，但在Connect4等游戏中仍有盲点。总体来看，最先进的大模型虽显智能，但仍需改进思考深度和中间步骤的可控性。

论文: https://arxiv.org/abs/2412.13602
项目主页: https://visual-ai.github.io/gamebot/
代码: https://github.com/Visual-AI/GAMEBoT

原文链接

本文链接：https://kx.umi6.com/article/16383.html

转载请注明文章出处

GameBoT

中间步骤评测

大模型评估

分享至

打开微信扫一扫

内容投诉

生成图片

WisdomTrail

721 文章

616047 浏览

24小时热文