17款大模型PK八款棋牌游戏,o3-mini胜出,DeepSeek R1输在中间步骤
AI社区掀起用大模型玩游戏的热潮!例如,国外博主让DeepSeek和Chatgpt下国际象棋的视频在YouTube上收获百万播放量,ARC Prize也发布了贪吃蛇LLM评测基准SnakeBench。
港大、剑桥和北大的研究人员推出了更全面的LLM评测基准GameBoT,让大模型在8个游戏中PK,评测推理能力。GameBoT不仅关注输赢,还评估中间步骤,避免模型“背答案”。
传统LLM评测面临性能饱和和数据污染问题,而游戏评测能动态避免这些问题。GameBoT的独特之处在于评估中间步骤,将复杂决策分解为逻辑子问题,并设定明确答案,提高评测的细粒度和客观性。
GameBoT评测了17款大模型,包括GPT-4o、Claude-35-Sonnet等。最终,o3-mini-high以F1分数0.873排名第一,DeepSeek R1因中间步骤繁琐仅获0.176分。
实战中,o3-mini和DeepSeek R1各有亮点,但都存在不足。o3-mini表现更优,但在Connect4等游戏中仍有盲点。总体来看,最先进的大模型虽显智能,但仍需改进思考深度和中间步骤的可控性。
论文: https://arxiv.org/abs/2412.13602
项目主页: https://visual-ai.github.io/gamebot/
代码: https://github.com/Visual-AI/GAMEBoT
原文链接
本文链接:https://kx.umi6.com/article/16383.html
转载请注明文章出处
相关推荐
换一换
17款大模型PK八款棋牌游戏,o3-mini胜出,DeepSeek R1输在中间步骤
2025-03-29 13:39:26
27个大模型混战电商领域,DeepSeek-R1&V3仍是最强
2025-03-15 23:19:30
给AI打个分,结果搞出17亿估值独角兽???
2026-01-07 18:23:47
20岁大学生花10天VibeCoding一个开源项目,获盛大3000万投资
2026-03-08 16:13:04
埃斯顿(2715.HK)今日登陆港交所 国产机器人龙头开启A+H新征程
2026-03-09 09:27:00
佛州男子过度迷恋“AI娇妻”自杀身亡 家属起诉谷歌Gemini
2026-03-07 13:35:28
周鸿祎解读AI短剧:直言有望颠覆Netflix 生产效率提升数十倍
2026-03-08 14:07:20
Anthropic研究员:AI对就业市场的冲击尚处早期
2026-03-08 18:29:49
因拒绝美军方不受限制地使用其AI模型 美国一科技公司被列入“黑名单”
2026-03-06 20:35:09
华泰证券:超配电力链中上游品种 内需与AI是能源之外的主要线索
2026-03-06 20:36:01
苏州人工智能专项母基金等成立投资合伙企业 出资额5亿
2026-03-06 17:22:54
和别人用一样的“提示词”生成相同的AI作品 算不算侵权?法院判了
2026-03-09 16:55:46
网文作家遇职业危机!AI写作48小时生成500万字长篇小说
2026-03-08 15:12:48
667 文章
467187 浏览
24小时热文
更多
-
2026-03-09 21:13:27 -
2026-03-09 20:09:26 -
2026-03-09 20:09:18