17款大模型PK八款棋牌游戏,o3-mini胜出,DeepSeek R1输在中间步骤
AI社区掀起用大模型玩游戏的热潮!例如,国外博主让DeepSeek和Chatgpt下国际象棋的视频在YouTube上收获百万播放量,ARC Prize也发布了贪吃蛇LLM评测基准SnakeBench。
港大、剑桥和北大的研究人员推出了更全面的LLM评测基准GameBoT,让大模型在8个游戏中PK,评测推理能力。GameBoT不仅关注输赢,还评估中间步骤,避免模型“背答案”。
传统LLM评测面临性能饱和和数据污染问题,而游戏评测能动态避免这些问题。GameBoT的独特之处在于评估中间步骤,将复杂决策分解为逻辑子问题,并设定明确答案,提高评测的细粒度和客观性。
GameBoT评测了17款大模型,包括GPT-4o、Claude-35-Sonnet等。最终,o3-mini-high以F1分数0.873排名第一,DeepSeek R1因中间步骤繁琐仅获0.176分。
实战中,o3-mini和DeepSeek R1各有亮点,但都存在不足。o3-mini表现更优,但在Connect4等游戏中仍有盲点。总体来看,最先进的大模型虽显智能,但仍需改进思考深度和中间步骤的可控性。
论文: https://arxiv.org/abs/2412.13602
项目主页: https://visual-ai.github.io/gamebot/
代码: https://github.com/Visual-AI/GAMEBoT
原文链接
本文链接:https://kx.umi6.com/article/16383.html
转载请注明文章出处
相关推荐
.png)
换一换
陶哲轩回应 OpenAI 新模型 IMO 夺金,GPT-5 测试版曝光
2025-07-20 12:02:31
12个人的AI公司,融了两个亿
2025-07-20 15:10:23
Windsurf“惊魂 96 小时”AI 闪电并购战:谷歌天价挖人,Cognition 逆袭接盘
2025-07-19 15:54:26
450 文章
69503 浏览
24小时热文
更多

-
2025-07-20 23:09:27
-
2025-07-20 22:09:17
-
2025-07-20 21:10:03