1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

17款大模型PK八款棋牌游戏,o3-mini胜出,DeepSeek R1输在中间步骤

AI社区掀起用大模型玩游戏的热潮!例如,国外博主让DeepSeek和Chatgpt下国际象棋的视频在YouTube上收获百万播放量,ARC Prize也发布了贪吃蛇LLM评测基准SnakeBench。

港大、剑桥和北大的研究人员推出了更全面的LLM评测基准GameBoT,让大模型在8个游戏中PK,评测推理能力。GameBoT不仅关注输赢,还评估中间步骤,避免模型“背答案”。

传统LLM评测面临性能饱和和数据污染问题,而游戏评测能动态避免这些问题。GameBoT的独特之处在于评估中间步骤,将复杂决策分解为逻辑子问题,并设定明确答案,提高评测的细粒度和客观性。

GameBoT评测了17款大模型,包括GPT-4o、Claude-35-Sonnet等。最终,o3-mini-high以F1分数0.873排名第一,DeepSeek R1因中间步骤繁琐仅获0.176分。

实战中,o3-mini和DeepSeek R1各有亮点,但都存在不足。o3-mini表现更优,但在Connect4等游戏中仍有盲点。总体来看,最先进的大模型虽显智能,但仍需改进思考深度和中间步骤的可控性。

论文: https://arxiv.org/abs/2412.13602
项目主页: https://visual-ai.github.io/gamebot/
代码: https://github.com/Visual-AI/GAMEBoT

原文链接
本文链接:https://kx.umi6.com/article/16383.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
27个大模型混战电商领域,DeepSeek-R1&V3仍是最强
2025-03-15 23:19:30
给AI打个分,结果搞出17亿估值独角兽???
2026-01-07 18:23:47
独家丨华为天才少年王裕鑫创业,首月完成数千万级首轮融资
2026-06-08 12:28:00
刚刚,李飞飞亲自下场定义世界模型
2026-06-04 09:56:31
微信闷声赚麻了
2026-06-03 17:33:35
AI“吹大”的美股泡沫有多大?高盛:确有过热 但未至历史极端水平
2026-06-08 16:35:40
有余凯不投的地平线离职创业员工吗?
2026-06-07 21:50:41
5分钟AI长视频不翻车!国产开源框架杀到全球第一梯队
2026-06-07 09:22:47
96GB显存运行230B大模型!七彩虹灵创K16笔记本评测:160W性能释放 AMD锐龙AI Max+ 395加持全能移动AI工作站
2026-06-06 15:54:30
港中深王方鑫团队:3D 重建的「玻璃杯难题」,终于被摆上台面丨CVPR 2026
2026-06-04 12:05:02
今年CVPR看点是广东:何恺明再获至高大奖,广工大打破大厂名校垄断
2026-06-06 15:50:06
华为多名AI人才离职创业!90后 "盘古少帅" 新公司估值达1亿美元
2026-06-04 12:03:27
全球首个!材科源图发布有机高分子应用智能体
2026-06-04 22:24:57
24小时热文
更多
扫一扫体验小程序