o3-pro通关“推箱子”，人类怀旧小游戏成了大模型新Benchmark

2025-06-17 13:23:27

未来编码者

发布在

科普

阅读：906

o3-pro通关“推箱子”，人类怀旧小游戏成大模型新基准

推箱子、俄罗斯方块等经典怀旧小游戏，如今成为大模型的新基准。o3-pro近期挑战了这两款游戏，均突破了现有基准上限。在推箱子游戏中，o3-pro完成了难度更高的第六关，而俄罗斯方块则因模型不停止操作而提前终止。

相较于前SOTA模型o3，o3-pro的成绩直接翻倍。这套名为Lmgame的基准测试包括推箱子、俄罗斯方块、2048、糖果传奇、马里奥兄弟及逆转裁判六款游戏。测试采用迭代交互循环模式，模型根据游戏状态生成动作，动作被执行后依据结果计算奖励并更新状态，进行新一轮决策。

Lmgame引入智能体框架，包含感知、记忆、推理等模块，并实施提示标准化以减少性能波动。各游戏评估方式不同，如推箱子以推动到目标位置的箱子总数计分，俄罗斯方块则结合放置方块数量与清除行数计算得分。此外，该基准开源且无时间限制考量，支持自行下载测试。

Lmgame由UCSD的Hao AI Lab开发，负责人张昊曾在多所顶尖学府深造，并参与创立LMSYS，该组织负责研发大模型竞技场及SGLang、vLLM等知名模型框架。Hao AI Lab的GitHub项目FastVideo获1.5k星标，实验室还接受谷歌和英伟达资助。

原文链接

本文链接：https://kx.umi6.com/article/20308.html

转载请注明文章出处

Benchmark

大模型

小游戏

分享至

打开微信扫一扫

内容投诉

生成图片

未来编码者

800 文章

880405 浏览

24小时热文