1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:李飞飞吴佳俊团队推出具身智能决策能力评价基准,o1-preview登顶

大模型的具身智能决策能力有了系统的通用评估基准。李飞飞吴佳俊团队提出的EAI框架对具身智能决策的四项关键子能力进行了全面评估。

该框架已被选为NeurIPS数据和测试集专栏Oral论文,并收录进PyPI,方便调用。EAI框架通过统一的目标表示方法和模块化的评估方式,提升了模型间的互操作性与可比性。

测试显示,在公开的大模型中,o1-preview综合成绩最佳。EAI采用线性时态逻辑(LTL)统一目标表示,提高模块互操作性,便于比较不同模型在同一任务上的表现。EAI框架将模型能力分为目标解释、子目标分解、动作序列规划、转换建模四大模块,并设计了细致的评估指标。

EAI在BEHAVIOR和VirtualHome两种环境下评估了18款主流模型。在BEHAVIOR环境中,o1-preview得分最高;而在VirtualHome环境中,o1-preview依然领先,但前三名差距不大。各模型在不同子任务上的表现各异,例如Claude 3.5 Sonnet在BEHAVIOR环境中的目标解释能力优于o1-preview,Mistral Large在VirtualHome环境中的动作序列规划表现最佳。

EAI还深入分析了模型的失败情况,发现了一些具体问题,如将中间状态误识别为最终目标状态、对隐含的物理关系理解不足等,为后续研究提供了重要参考。项目主页、论文和代码均已发布,可供进一步探索。

项目主页:https://embodied-agent-interface.github.io/

论文:https://arxiv.org/abs/2410.07166

代码:https://github.com/embodied-agent-interface/embodied-agent-interface

数据集:https://huggingface.co/datasets/Inevitablevalor/EmbodiedAgentInterface

原文链接
本文链接:https://kx.umi6.com/article/8739.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
风起“具身智能”,2025科技创变者大会锚定产业化新征程
2025-09-09 16:17:19
消息称阿里云首次出手具身智能,自变量机器人完成近 10 亿元新融资
2025-09-08 08:56:27
超详细!2025科技创变者大会最新议程公布!
2025-08-21 11:28:29
振臂一挥,大半个具身机器人圈都来了!智源研究院:别藏了,谁贡献数据多,谁的大脑就更好用
2025-11-21 16:27:55
阿里亲身入局具身智能!Qwen内部组团,通义千问技术负责人带队
2025-10-11 09:17:58
Meta人事巨震、AI教母站台 通往AGI之路遇上分岔路口
2025-11-15 10:46:28
2025云栖大会直击:云深处科技机器人矩阵亮相,多场景展示行业引领性!
2025-09-24 16:44:28
老黄刚投的具身智能公司:三个华人创办
2025-09-21 10:42:12
年薪破百万、涨薪60%,人形机器人企业疯狂“抢人”
2025-09-24 18:47:58
哈工大深圳孵化的具身智能公司“若愚科技”拿下亿元级融资,东方精工领投
2025-08-25 23:35:18
李飞飞发起机器人家务挑战赛!老黄第一时间批钱赞助
2025-10-11 10:49:18
世界模型和具身大脑最新突破:90%生成数据,VLA性能暴涨300%|开源
2025-12-02 14:17:17
智元机器人等成立境智具身智能科技公司
2025-08-29 10:39:49
24小时热文
更多
扫一扫体验小程序