1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

大模型首次拥有“脖子”!纽大团队实现360度类人视觉搜索

纽约大学研究团队在论文《Thinking in 360°: Humanoid Visual Search in the Wild》中,提出了一种全新的“类人视觉搜索”(Humanoid Visual Search, HVS)任务,让大模型能够像人类一样环顾四周,进行360度的主动视觉推理。他们还构建了全新基准测试H*Bench,涵盖交通枢纽、购物中心等复杂场景,突破了传统测试仅聚焦简单家庭环境的局限。

研究核心是赋予智能体“交互性”和“具身性”,通过模拟头部转动改变视角,结合物理动作完成视觉推理。具体任务包括两类:类人物体搜索(HOS),定位目标物体;类人路径搜索(HPS),识别可通行路径并调整朝向。这些任务被形式化为多模态推理问题,利用策略网络实现工具使用与头部旋转,无需依赖3D模拟器或硬件。

为支持研究,团队创建了H*数据集,包含约3000个标注任务实例,覆盖纽约、巴黎等全球大都市的真实场景,如零售环境、交通枢纽等。通过监督微调和多轮强化学习,团队将多模态大模型转化为高效视觉搜索智能体。实验基于Qwen2.5-VL-3B-Instruct模型展开,结果显示其在目标搜索和路径搜索任务中的准确率分别从14.83%提升至47.38%、6.44%提升至24.94%。

然而,研究也暴露了高级推理的瓶颈,例如物理常识和社会空间规则的理解不足。此外,模型尺寸并非性能的唯一决定因素,较小模型在某些任务中表现优于更大模型。

这项研究由纽约大学李一鸣团队完成,他目前在英伟达从事物理人工智能研究,并将于2026年入职清华大学人工智能学院担任助理教授。研究为视觉空间推理从“被动范式”向“主动范式”的转型奠定了基础,推动了具身智能的发展。

参考链接:
[1] https://yimingli-page.github.io/
[2] https://arxiv.org/pdf/2511.20351

原文链接
本文链接:https://kx.umi6.com/article/29275.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
哈工深聂礼强:多模态大模型是具身智能发展的关键动力丨具身智能十人谈
2024-08-02 18:26:27
全华人团队推出多模态大模型新基准,GPT-4o准确率仅为65.5%
2024-06-12 13:18:49
多模态大模型的多语种文字理解能力还有很长的路要走,字节、华科联合发布MTVQA Bench
2024-06-21 17:23:05
字节视觉-语言多模态大模型Seed VLM技术报告首次公开
2025-05-13 14:57:31
字节迭代多模态大模型 媲美谷歌新品 智能体能力更强、推理成本更低
2025-05-13 15:57:01
多模态大模型不会画辅助线?最新评估得分:o3仅25.8%,远低于人类82.3% | 清华腾讯斯坦福联合
2025-05-28 16:33:14
GPT-4o能拼好乐高吗?首个多步空间推理评测基准:闭源模型领跑
2025-04-23 11:52:51
商汤绝影行业首发原生多模态大模型车端部署:80 亿参数、每秒 40 Tokens
2024-07-19 13:35:17
我国发布全球首个深海生境智能多模态大模型
2025-11-06 21:14:23
万亿赛道的具身智能,到底是什么?
2025-03-24 20:14:12
重构AI在数字和物理世界的生产力,生数科技完成超6亿元A+轮融资
2026-02-06 03:28:59
多模态大模型学会反思和复盘,上交&上海AI Lab破解多模态复杂推理
2025-10-19 15:52:40
国际首个,我国团队开发糖尿病诊疗多模态大模型 DeepDR-LLM
2024-07-25 18:37:14
24小时热文
更多
扫一扫体验小程序