17款大模型PK八款棋牌游戏,o3-mini胜出,DeepSeek R1输在中间步骤
AI社区掀起用大模型玩游戏的热潮!例如,国外博主让DeepSeek和Chatgpt下国际象棋的视频在YouTube上收获百万播放量,ARC Prize也发布了贪吃蛇LLM评测基准SnakeBench。
港大、剑桥和北大的研究人员推出了更全面的LLM评测基准GameBoT,让大模型在8个游戏中PK,评测推理能力。GameBoT不仅关注输赢,还评估中间步骤,避免模型“背答案”。
传统LLM评测面临性能饱和和数据污染问题,而游戏评测能动态避免这些问题。GameBoT的独特之处在于评估中间步骤,将复杂决策分解为逻辑子问题,并设定明确答案,提高评测的细粒度和客观性。
GameBoT评测了17款大模型,包括GPT-4o、Claude-35-Sonnet等。最终,o3-mini-high以F1分数0.873排名第一,DeepSeek R1因中间步骤繁琐仅获0.176分。
实战中,o3-mini和DeepSeek R1各有亮点,但都存在不足。o3-mini表现更优,但在Connect4等游戏中仍有盲点。总体来看,最先进的大模型虽显智能,但仍需改进思考深度和中间步骤的可控性。
论文: https://arxiv.org/abs/2412.13602
项目主页: https://visual-ai.github.io/gamebot/
代码: https://github.com/Visual-AI/GAMEBoT
原文链接
本文链接:https://kx.umi6.com/article/16383.html
转载请注明文章出处
相关推荐
.png)
换一换
27个大模型混战电商领域,DeepSeek-R1&V3仍是最强
2025-03-15 23:19:30
17款大模型PK八款棋牌游戏,o3-mini胜出,DeepSeek R1输在中间步骤
2025-03-29 13:39:26
OpenAI杀入招聘市场:打造AI技能认证体系+人才对接平台
2025-09-05 06:12:15
消息称 DeepSeek 正开发更先进模型:具备 AI 智能体能力,剑指年底发布
2025-09-04 18:07:12
支持百万卡扩展,中科曙光发布国内首个开放架构 AI 超集群系统
2025-09-05 21:25:03
OpenAI今年预计通过ChatGPT实现近100亿美元收入,机构称GPT-5将给硬件和应用端这些企业带来机遇
2025-09-06 16:37:17
人形机器人终于学会洗碗了
2025-09-04 18:04:49
2025世界智能产业博览会签约项目金额超2000亿元
2025-09-05 18:26:52
一场会议聊透具身智能:模型、数据、场景,我们梳理出了关键洞察
2025-09-05 10:21:32
趁着HBM热潮加速!SK海力士Q2蝉联全球DRAM市占率第一
2025-09-05 13:22:16
中泰证券:第三季度有望迎来医疗器械板块阶段性拐点
2025-09-05 08:17:22
调整训练数据出场顺序大模型就能变聪明!无需扩大模型/数据规模
2025-09-06 12:36:04
AI时代的平权假象
2025-09-05 08:14:05
494 文章
170905 浏览
24小时热文
更多

-
2025-09-06 16:37:17
-
2025-09-06 16:36:53
-
2025-09-06 16:36:08