1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:李飞飞吴佳俊团队推出具身智能决策能力评价基准,o1-preview登顶

大模型的具身智能决策能力有了系统的通用评估基准。李飞飞吴佳俊团队提出的EAI框架对具身智能决策的四项关键子能力进行了全面评估。

该框架已被选为NeurIPS数据和测试集专栏Oral论文,并收录进PyPI,方便调用。EAI框架通过统一的目标表示方法和模块化的评估方式,提升了模型间的互操作性与可比性。

测试显示,在公开的大模型中,o1-preview综合成绩最佳。EAI采用线性时态逻辑(LTL)统一目标表示,提高模块互操作性,便于比较不同模型在同一任务上的表现。EAI框架将模型能力分为目标解释、子目标分解、动作序列规划、转换建模四大模块,并设计了细致的评估指标。

EAI在BEHAVIOR和VirtualHome两种环境下评估了18款主流模型。在BEHAVIOR环境中,o1-preview得分最高;而在VirtualHome环境中,o1-preview依然领先,但前三名差距不大。各模型在不同子任务上的表现各异,例如Claude 3.5 Sonnet在BEHAVIOR环境中的目标解释能力优于o1-preview,Mistral Large在VirtualHome环境中的动作序列规划表现最佳。

EAI还深入分析了模型的失败情况,发现了一些具体问题,如将中间状态误识别为最终目标状态、对隐含的物理关系理解不足等,为后续研究提供了重要参考。项目主页、论文和代码均已发布,可供进一步探索。

项目主页:https://embodied-agent-interface.github.io/

论文:https://arxiv.org/abs/2410.07166

代码:https://github.com/embodied-agent-interface/embodied-agent-interface

数据集:https://huggingface.co/datasets/Inevitablevalor/EmbodiedAgentInterface

原文链接
本文链接:https://kx.umi6.com/article/8739.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
「一脑多形」圆桌:世界模型、空间智能在具身智能出现了哪些具体进展?|GAIR 2025
2026-01-08 12:14:16
对话英诺王建明:机器人目前面临的核心问题是数据 | GAIR 2025
2025-12-12 14:56:05
世界上第一款手机机器人荣耀 ROBOT PHONE 真机亮相
2025-12-29 08:07:41
达沃斯聚焦技术新前沿,梅卡曼德创始人邵天兰受邀分享具身智能落地实践
2026-01-25 20:24:46
无垠拓界 基筑未来|无问智科重磅发布业界首个物理AI数据基座平台
2026-03-06 15:07:52
捅破具身智能天花板!极佳视界新VLA大模型登场,复杂长时程任务近100%成功率
2026-02-15 14:23:25
具身智能处于「ChatGPT时刻」还是寒冬将至?
2025-11-28 09:17:53
京东副总裁郑宇:未来管理智慧城市,会像玩游戏一样简单丨GAIR 2025
2025-12-31 17:33:18
北京人工智能产业白皮书:各类AI Agent将迎来爆发式增长
2025-11-29 16:28:02
图灵奖得主姚期智:具身智能发展要从模仿走向推理
2025-12-14 23:03:37
基于数万次真机评测,RoboChallenge首份年度报告发布
2026-01-30 20:47:16
微分智飞高飞:我们正处于通用飞行智能爆发前夜丨GAIR 2025
2025-12-31 16:37:49
全自主、更好用!北京人形 “干活机器人” 惊艳亮相 CES2026
2026-01-06 17:14:57
24小时热文
更多
扫一扫体验小程序