1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

17款大模型PK八款棋牌游戏,o3-mini胜出,DeepSeek R1输在中间步骤

AI社区掀起用大模型玩游戏的热潮!例如,国外博主让DeepSeek和Chatgpt下国际象棋的视频在YouTube上收获百万播放量,ARC Prize也发布了贪吃蛇LLM评测基准SnakeBench。

港大、剑桥和北大的研究人员推出了更全面的LLM评测基准GameBoT,让大模型在8个游戏中PK,评测推理能力。GameBoT不仅关注输赢,还评估中间步骤,避免模型“背答案”。

传统LLM评测面临性能饱和和数据污染问题,而游戏评测能动态避免这些问题。GameBoT的独特之处在于评估中间步骤,将复杂决策分解为逻辑子问题,并设定明确答案,提高评测的细粒度和客观性。

GameBoT评测了17款大模型,包括GPT-4o、Claude-35-Sonnet等。最终,o3-mini-high以F1分数0.873排名第一,DeepSeek R1因中间步骤繁琐仅获0.176分。

实战中,o3-mini和DeepSeek R1各有亮点,但都存在不足。o3-mini表现更优,但在Connect4等游戏中仍有盲点。总体来看,最先进的大模型虽显智能,但仍需改进思考深度和中间步骤的可控性。

论文: https://arxiv.org/abs/2412.13602
项目主页: https://visual-ai.github.io/gamebot/
代码: https://github.com/Visual-AI/GAMEBoT

原文链接
本文链接:https://kx.umi6.com/article/16383.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
给AI打个分,结果搞出17亿估值独角兽???
2026-01-07 18:23:47
27个大模型混战电商领域,DeepSeek-R1&V3仍是最强
2025-03-15 23:19:30
仅靠219个字!AI耗时12小时设计出完整CPU:传统研发需18-36个月
2026-04-24 17:26:33
天孚通信:1.6T光引擎处于量产状态目前因为个别物料缺料尚未达到预期产量 公司在积极协调供应商努力争取更多交付
2026-04-22 19:25:59
印度男子打造AI女网红狂骗美国寂寞男:吸引超百万粉丝
2026-04-23 08:55:54
中信证券:物理AI蓬勃发展 场景落地有望提速
2026-04-24 09:03:22
昆仑万维2025年营收同比增长44.78%至81.98亿 “4+3”战略构建AI Native平台经济新范式
2026-04-23 21:31:07
AI太烧钱!Meta裁员8000人再冻6000职位
2026-04-24 16:19:57
海光信息宣布Day0适配DeepSeek V4
2026-04-24 15:20:44
英特尔第一季度营收136亿美元 同比增长7.2%
2026-04-24 08:00:05
PixVerse 成为联合国 2026 AI for Good 全球峰会AI合作伙伴
2026-04-23 14:07:34
挖漏洞何必Mythos,国产智能体早跑通了
2026-04-23 08:53:48
赛力斯申请注册天行平台商标
2026-04-23 14:10:41
24小时热文
更多
扫一扫体验小程序