17款大模型PK八款棋牌游戏,o3-mini胜出,DeepSeek R1输在中间步骤
AI社区掀起用大模型玩游戏的热潮!例如,国外博主让DeepSeek和Chatgpt下国际象棋的视频在YouTube上收获百万播放量,ARC Prize也发布了贪吃蛇LLM评测基准SnakeBench。
港大、剑桥和北大的研究人员推出了更全面的LLM评测基准GameBoT,让大模型在8个游戏中PK,评测推理能力。GameBoT不仅关注输赢,还评估中间步骤,避免模型“背答案”。
传统LLM评测面临性能饱和和数据污染问题,而游戏评测能动态避免这些问题。GameBoT的独特之处在于评估中间步骤,将复杂决策分解为逻辑子问题,并设定明确答案,提高评测的细粒度和客观性。
GameBoT评测了17款大模型,包括GPT-4o、Claude-35-Sonnet等。最终,o3-mini-high以F1分数0.873排名第一,DeepSeek R1因中间步骤繁琐仅获0.176分。
实战中,o3-mini和DeepSeek R1各有亮点,但都存在不足。o3-mini表现更优,但在Connect4等游戏中仍有盲点。总体来看,最先进的大模型虽显智能,但仍需改进思考深度和中间步骤的可控性。
论文: https://arxiv.org/abs/2412.13602
项目主页: https://visual-ai.github.io/gamebot/
代码: https://github.com/Visual-AI/GAMEBoT
原文链接
本文链接:https://kx.umi6.com/article/16383.html
转载请注明文章出处
相关推荐
换一换
给AI打个分,结果搞出17亿估值独角兽???
2026-01-07 18:23:47
17款大模型PK八款棋牌游戏,o3-mini胜出,DeepSeek R1输在中间步骤
2025-03-29 13:39:26
27个大模型混战电商领域,DeepSeek-R1&V3仍是最强
2025-03-15 23:19:30
黄仁勋:AI时代蓝领更吃香 水管工、电工能拿六位数薪水
2026-01-22 07:42:15
Node.js之父:手写代码已死
2026-01-22 14:57:11
恒者蓬勃!第18届创业邦年会暨创业邦100未来独角兽大会圆满举办
2026-01-21 16:16:19
粤芯半导体年产48万片晶圆生产线启动 总投资252亿元
2026-01-22 22:15:16
苹果首款AI穿戴设备最早可能在2027年发布
2026-01-22 18:06:16
苏州“十五五”规划建议:深化投融资体制改革,积极发展股权、债券等直接融资
2026-01-21 20:29:06
重思启动重塑,美通社成功举办2026新传播年度论坛
2026-01-22 13:58:50
国家电网的供应商冲击IPO,左手能源右手机器人
2026-01-22 13:57:42
马斯克下场抢人!xAI组建「人才狙击队」,极客版HR年薪168万
2026-01-22 12:51:47
中信证券:建议当前核心围绕先进封装和存储封装环节进行布局
2026-01-23 08:40:41
641 文章
415924 浏览
24小时热文
更多
-
2026-01-23 08:40:41 -
2026-01-23 06:34:26 -
2026-01-23 00:20:44