1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

17款大模型PK八款棋牌游戏,o3-mini胜出,DeepSeek R1输在中间步骤

AI社区掀起用大模型玩游戏的热潮!例如,国外博主让DeepSeek和Chatgpt下国际象棋的视频在YouTube上收获百万播放量,ARC Prize也发布了贪吃蛇LLM评测基准SnakeBench。

港大、剑桥和北大的研究人员推出了更全面的LLM评测基准GameBoT,让大模型在8个游戏中PK,评测推理能力。GameBoT不仅关注输赢,还评估中间步骤,避免模型“背答案”。

传统LLM评测面临性能饱和和数据污染问题,而游戏评测能动态避免这些问题。GameBoT的独特之处在于评估中间步骤,将复杂决策分解为逻辑子问题,并设定明确答案,提高评测的细粒度和客观性。

GameBoT评测了17款大模型,包括GPT-4o、Claude-35-Sonnet等。最终,o3-mini-high以F1分数0.873排名第一,DeepSeek R1因中间步骤繁琐仅获0.176分。

实战中,o3-mini和DeepSeek R1各有亮点,但都存在不足。o3-mini表现更优,但在Connect4等游戏中仍有盲点。总体来看,最先进的大模型虽显智能,但仍需改进思考深度和中间步骤的可控性。

论文: https://arxiv.org/abs/2412.13602
项目主页: https://visual-ai.github.io/gamebot/
代码: https://github.com/Visual-AI/GAMEBoT

原文链接
本文链接:https://kx.umi6.com/article/16383.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
17款大模型PK八款棋牌游戏,o3-mini胜出,DeepSeek R1输在中间步骤
2025-03-29 13:39:26
27个大模型混战电商领域,DeepSeek-R1&V3仍是最强
2025-03-15 23:19:30
广达:今年已扩产8次仍供不应求 英伟达GB300产品11-12月进入主要放量期
2025-10-23 10:07:01
AI热潮带动业绩股价双升 微软CEO年薪跃升至近7亿
2025-10-22 17:51:04
刚拿诺奖就登Nature封面!谷歌“量子回声”算法计算提速13000倍,可重复验证结果
2025-10-22 23:53:36
《GTA6》电臀舞玩法被辟谣:网友瞎编的 结果谷歌AI全信了
2025-10-22 18:52:05
OpenAI秘密项目曝光:进军投行业务
2025-10-22 16:49:15
全球最薄仿生视触觉传感器亮相IROS 2025,一目科技引领机器人“触觉革命”
2025-10-23 15:08:17
顶会直聘!大厂ICCV现场玩出新模式,还是鹅会玩
2025-10-23 16:08:51
慧思开物SDK正式开放 北京人形加速构建具身智能生态新格局
2025-10-23 15:11:25
超800名科技领袖联合呼吁:停止研发超级智能 可能导致人类灭绝
2025-10-23 00:54:02
对冲基金大佬对AI热潮“敬而远之”,更青睐这项技术……
2025-10-23 16:10:22
英伟达向左,寒武纪向右
2025-10-23 07:58:12
24小时热文
更多
扫一扫体验小程序