Benchmark - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

o3-pro通关“推箱子”，人类怀旧小游戏成了大模型新Benchmark

o3-pro通关“推箱子”，人类怀旧小游戏成大模型新基准推箱子、俄罗斯方块等经典怀旧小游戏，如今成为大模型的新基准。o3-pro近期挑战了这两款游戏，均突破了现有基准上限。在推箱子游戏中，o3-pro完成了难度更高的第六关，而俄罗斯方块则因模型不停止操作而提前终止。相较于前SOTA模型o3，...

原文链接

未来编码者

06-17 13:23:27

Benchmark

大模型

小游戏

分享至

打开微信扫一扫

内容投诉

生成图片

苹果大模型新成果：GPT-4o扮演用户，在场景中考察大模型工具调用，网友：Siri也要努力 | 开源

苹果团队最新发布的开源成果——名为ToolSandbox的模型工具调用能力评估基准，采用创新的场景化测评方法，旨在更好地展现模型在真实环境中的水平。该基准引入了对话交互、状态依赖等传统标准未覆盖的重要场景，显著提高了评估的全面性和实用性。ToolSandbox通过让GPT-4o扮演用户与模型进行交互...

原文链接