o3-pro通关“推箱子”,人类怀旧小游戏成大模型新基准
推箱子、俄罗斯方块等经典怀旧小游戏,如今成为大模型的新基准。o3-pro近期挑战了这两款游戏,均突破了现有基准上限。在推箱子游戏中,o3-pro完成了难度更高的第六关,而俄罗斯方块则因模型不停止操作而提前终止。
相较于前SOTA模型o3,o3-pro的成绩直接翻倍。这套名为Lmgame的基准测试包括推箱子、俄罗斯方块、2048、糖果传奇、马里奥兄弟及逆转裁判六款游戏。测试采用迭代交互循环模式,模型根据游戏状态生成动作,动作被执行后依据结果计算奖励并更新状态,进行新一轮决策。
Lmgame引入智能体框架,包含感知、记忆、推理等模块,并实施提示标准化以减少性能波动。各游戏评估方式不同,如推箱子以推动到目标位置的箱子总数计分,俄罗斯方块则结合放置方块数量与清除行数计算得分。此外,该基准开源且无时间限制考量,支持自行下载测试。
Lmgame由UCSD的Hao AI Lab开发,负责人张昊曾在多所顶尖学府深造,并参与创立LMSYS,该组织负责研发大模型竞技场及SGLang、vLLM等知名模型框架。Hao AI Lab的GitHub项目FastVideo获1.5k星标,实验室还接受谷歌和英伟达资助。
原文链接
本文链接:https://kx.umi6.com/article/20308.html
转载请注明文章出处
相关推荐
.png)
换一换
大模型套壳往事
2025-07-14 18:26:03
对话季宇:大模型非必须在GPU跑,CPU内存带宽已足够
2025-05-18 15:21:36
大模型能够自发形成“人类思维地图”!Nature子刊重磅研究揭示多模态大模型类脑机制
2025-06-10 11:45:16
478 文章
78145 浏览
24小时热文
更多

-
2025-07-19 14:57:21
-
2025-07-19 14:56:08
-
2025-07-19 14:55:01