1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

o3-pro通关“推箱子”,人类怀旧小游戏成大模型新基准

推箱子、俄罗斯方块等经典怀旧小游戏,如今成为大模型的新基准。o3-pro近期挑战了这两款游戏,均突破了现有基准上限。在推箱子游戏中,o3-pro完成了难度更高的第六关,而俄罗斯方块则因模型不停止操作而提前终止。

相较于前SOTA模型o3,o3-pro的成绩直接翻倍。这套名为Lmgame的基准测试包括推箱子、俄罗斯方块、2048、糖果传奇、马里奥兄弟及逆转裁判六款游戏。测试采用迭代交互循环模式,模型根据游戏状态生成动作,动作被执行后依据结果计算奖励并更新状态,进行新一轮决策。

Lmgame引入智能体框架,包含感知、记忆、推理等模块,并实施提示标准化以减少性能波动。各游戏评估方式不同,如推箱子以推动到目标位置的箱子总数计分,俄罗斯方块则结合放置方块数量与清除行数计算得分。此外,该基准开源且无时间限制考量,支持自行下载测试。

Lmgame由UCSD的Hao AI Lab开发,负责人张昊曾在多所顶尖学府深造,并参与创立LMSYS,该组织负责研发大模型竞技场及SGLang、vLLM等知名模型框架。Hao AI Lab的GitHub项目FastVideo获1.5k星标,实验室还接受谷歌和英伟达资助。

原文链接
本文链接:https://kx.umi6.com/article/20308.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
智谱AI今日正式上市,一文讲透你想知道的6件事
2026-01-09 21:35:10
杭州“十五五”规划建议:实施大模型前沿技术攻关和高端芯片、基础软件、模型算法等研发计划 建设人工智能开源社区
2026-01-16 11:34:57
华人AI大神霸气离职,一篇博客挑明中美大模型暗战
2025-10-11 10:14:30
腾讯升级大模型研发架构 前OpenAI顶尖研究员出任首席AI科学家
2025-12-17 18:59:08
真正面向大模型的AI Infra,必须同时懂模型、系统、产业|商汤大装置宣善明@MEET2026
2025-12-22 10:35:49
百度推动大模型与搜推业务融合
2026-03-18 15:35:09
大模型的尽头 怎么是费大厨辣椒炒肉?
2026-05-24 15:42:37
18家具身顶尖势力集结,RoboChallenge 打造全球最大具身模型竞技场
2026-04-17 15:04:30
网友疯玩谷歌 Gemini 3:数字拍立得、复刻小游戏,AI 造物 0 门槛
2025-11-20 14:26:06
中国AI云,开始「抢座次」了
2025-11-20 11:17:00
1300000000000000!谷歌每月Tokens消耗量曝光(别数了是千万亿)
2025-10-11 09:26:13
火线解析智谱AI招股书:年营收3亿增速130%,率先冲刺全球大模型第一股
2025-12-19 23:14:23
长三角一体化大模型发布 AI将为区域发展提供决策支撑
2026-01-12 09:40:07
24小时热文
更多
扫一扫体验小程序