大模型首次拥有“脖子”！纽大团队实现360度类人视觉搜索

2025-11-27 16:44:41

数字墨迹

发布在

科普

阅读：2011

大模型首次拥有“脖子”！纽大团队实现360度类人视觉搜索

纽约大学研究团队在论文《Thinking in 360°: Humanoid Visual Search in the Wild》中，提出了一种全新的“类人视觉搜索”（Humanoid Visual Search, HVS）任务，让大模型能够像人类一样环顾四周，进行360度的主动视觉推理。他们还构建了全新基准测试H*Bench，涵盖交通枢纽、购物中心等复杂场景，突破了传统测试仅聚焦简单家庭环境的局限。

研究核心是赋予智能体“交互性”和“具身性”，通过模拟头部转动改变视角，结合物理动作完成视觉推理。具体任务包括两类：类人物体搜索（HOS），定位目标物体；类人路径搜索（HPS），识别可通行路径并调整朝向。这些任务被形式化为多模态推理问题，利用策略网络实现工具使用与头部旋转，无需依赖3D模拟器或硬件。

为支持研究，团队创建了H*数据集，包含约3000个标注任务实例，覆盖纽约、巴黎等全球大都市的真实场景，如零售环境、交通枢纽等。通过监督微调和多轮强化学习，团队将多模态大模型转化为高效视觉搜索智能体。实验基于Qwen2.5-VL-3B-Instruct模型展开，结果显示其在目标搜索和路径搜索任务中的准确率分别从14.83%提升至47.38%、6.44%提升至24.94%。

然而，研究也暴露了高级推理的瓶颈，例如物理常识和社会空间规则的理解不足。此外，模型尺寸并非性能的唯一决定因素，较小模型在某些任务中表现优于更大模型。

这项研究由纽约大学李一鸣团队完成，他目前在英伟达从事物理人工智能研究，并将于2026年入职清华大学人工智能学院担任助理教授。研究为视觉空间推理从“被动范式”向“主动范式”的转型奠定了基础，推动了具身智能的发展。

参考链接：
[1] https://yimingli-page.github.io/
[2] https://arxiv.org/pdf/2511.20351

原文链接

本文链接：https://kx.umi6.com/article/29275.html

转载请注明文章出处

360度全景