1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

17款大模型PK八款棋牌游戏,o3-mini胜出,DeepSeek R1输在中间步骤

AI社区掀起用大模型玩游戏的热潮!例如,国外博主让DeepSeek和Chatgpt下国际象棋的视频在YouTube上收获百万播放量,ARC Prize也发布了贪吃蛇LLM评测基准SnakeBench。

港大、剑桥和北大的研究人员推出了更全面的LLM评测基准GameBoT,让大模型在8个游戏中PK,评测推理能力。GameBoT不仅关注输赢,还评估中间步骤,避免模型“背答案”。

传统LLM评测面临性能饱和和数据污染问题,而游戏评测能动态避免这些问题。GameBoT的独特之处在于评估中间步骤,将复杂决策分解为逻辑子问题,并设定明确答案,提高评测的细粒度和客观性。

GameBoT评测了17款大模型,包括GPT-4o、Claude-35-Sonnet等。最终,o3-mini-high以F1分数0.873排名第一,DeepSeek R1因中间步骤繁琐仅获0.176分。

实战中,o3-mini和DeepSeek R1各有亮点,但都存在不足。o3-mini表现更优,但在Connect4等游戏中仍有盲点。总体来看,最先进的大模型虽显智能,但仍需改进思考深度和中间步骤的可控性。

论文: https://arxiv.org/abs/2412.13602
项目主页: https://visual-ai.github.io/gamebot/
代码: https://github.com/Visual-AI/GAMEBoT

原文链接
本文链接:https://kx.umi6.com/article/16383.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
17款大模型PK八款棋牌游戏,o3-mini胜出,DeepSeek R1输在中间步骤
2025-03-29 13:39:26
27个大模型混战电商领域,DeepSeek-R1&V3仍是最强
2025-03-15 23:19:30
用 AI 合成死螃蟹视频骗退款 195 元,买家被行拘 8 日
2025-12-05 23:56:50
智元第 5000 台人形机器人“灵犀 X2”量产下线,已具备批量出货能力
2025-12-08 17:37:43
端侧AI更安心!天玑9500强大双NPU:实现智能体验与隐私安全兼得
2025-12-08 11:25:48
编程界“奥斯卡”百度之星决赛揭晓,上千选手激烈角逐,山东16岁中学生王茂骅夺冠!
2025-12-08 16:34:59
英伟达 4B 小模型击败 GPT-5 Pro!单任务成本仅后者 1/36
2025-12-08 16:36:14
马斯克“太空AI”设想:每年发射1百万吨AI卫星、建设月球卫星工厂
2025-12-08 16:37:25
SpaceX据称拟按8000亿美元估值出售内部股份
2025-12-06 03:08:19
智谱 GLM-4.6V 系列多模态 AI 大模型发布并开源,API 降价 50%
2025-12-08 20:45:30
工信部召开务虚会 研究谋划“十五五”及开局之年工作
2025-12-07 15:35:49
谷歌憋了十年的大招,让英伟达好日子到头了?
2025-12-08 12:25:18
戴尔科技集团 x OpenCSG,推出⾯向智能初创企业的⼀体化 IT 基础架构解决方案
2025-12-06 10:23:57
24小时热文
更多
扫一扫体验小程序