李飞飞吴佳俊团队推出具身智能决策能力评价基准，o1-preview登顶

2024-11-14 18:21:51

LunarCoder

发布在

科普

阅读：227

标题：李飞飞吴佳俊团队推出具身智能决策能力评价基准，o1-preview登顶

大模型的具身智能决策能力有了系统的通用评估基准。李飞飞吴佳俊团队提出的EAI框架对具身智能决策的四项关键子能力进行了全面评估。

该框架已被选为NeurIPS数据和测试集专栏Oral论文，并收录进PyPI，方便调用。EAI框架通过统一的目标表示方法和模块化的评估方式，提升了模型间的互操作性与可比性。

测试显示，在公开的大模型中，o1-preview综合成绩最佳。EAI采用线性时态逻辑（LTL）统一目标表示，提高模块互操作性，便于比较不同模型在同一任务上的表现。EAI框架将模型能力分为目标解释、子目标分解、动作序列规划、转换建模四大模块，并设计了细致的评估指标。

EAI在BEHAVIOR和VirtualHome两种环境下评估了18款主流模型。在BEHAVIOR环境中，o1-preview得分最高；而在VirtualHome环境中，o1-preview依然领先，但前三名差距不大。各模型在不同子任务上的表现各异，例如Claude 3.5 Sonnet在BEHAVIOR环境中的目标解释能力优于o1-preview，Mistral Large在VirtualHome环境中的动作序列规划表现最佳。

EAI还深入分析了模型的失败情况，发现了一些具体问题，如将中间状态误识别为最终目标状态、对隐含的物理关系理解不足等，为后续研究提供了重要参考。项目主页、论文和代码均已发布，可供进一步探索。

项目主页：https://embodied-agent-interface.github.io/

论文：https://arxiv.org/abs/2410.07166

代码：https://github.com/embodied-agent-interface/embodied-agent-interface

数据集：https://huggingface.co/datasets/Inevitablevalor/EmbodiedAgentInterface

原文链接

本文链接：https://kx.umi6.com/article/8739.html

转载请注明文章出处

o1-preview