1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:西湖大学王东林团队论文:机器人需要“通古今,知未来”丨CVPR 2026

试想一个场景:机器人拿起杯子又放下,随后重复动作,像是忘记了刚刚的行为。类似情况在现实中并不少见,比如反复按按钮或推已关好的抽屉。这些问题并非因为机器人“看不清”,而是缺乏对时间的理解能力。现有视觉语言行动模型虽能理解图像和指令,但在长步骤任务中表现不佳,根本原因在于无法模拟时空演化。

为解决这一瓶颈,西湖大学王东林团队提出了《HiF-VLA:Hindsight, Insight and Foresight for Vision-Language-Action Models》。研究中,HiF-VLA以“运动”为核心表达时间信息,建模过去、现在与未来,从而实现更稳定的连续决策。这种方法让机器人从“被动反应”走向“边思考边行动”,为具身智能迈向真实世界提供了关键突破。

实验显示,在长序列任务LIBERO-Long上,HiF-VLA单视角成功率达94.4%,多视角达96.4%,超越当前领先方法OpenVLA-OFT(单视角91.0%,多视角94.0%)。在CALVIN跨环境泛化任务中,HiF-VLA在多视角条件下取得最高分4.35,表现出更强的长期规划能力。此外,该方法计算效率高,延迟仅小幅增加,避免了传统方法因堆叠历史帧带来的高开销问题。

研究还发现,运动信息比图像更适合表示时间变化,因其剔除了静态冗余信息,保留了动态变化部分。这种设计不仅提升了性能,还增强了模型在复杂任务中的稳定性。例如,在真实机器人实验中,HiF-VLA在按顺序按按钮任务中成功率从17.4%提升至34.2%,在覆盖与堆叠任务中从33.3%提升至57.9%。

这项研究的意义在于提出了一种新范式:从“看到就做”到“边想边做”。通过引入时间建模能力,机器人能够记住过去、感知现在并预判未来,从而在复杂环境中稳定工作。这标志着具身智能正从“感知驱动的反应系统”向“时间驱动的推理系统”迈进。

论文通讯作者王东林是西湖大学人工智能系副主任,长期致力于机器人学习与智能决策研究。另一位通讯作者黄思腾现为阿里巴巴达摩院算法专家,专注于具身智能与多模态大模型。两人的合作推动了机器人在长序列任务中的能力提升,为未来智能系统的发展奠定了基础。

论文地址:https://arxiv.org/pdf/2512.09928
参考地址:https://milab.westlake.edu.cn/
黄思腾个人主页:https://kyonhuang.top/

原文链接
本文链接:https://kx.umi6.com/article/34079.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
优必选子公司优奇与字节跳动旗下火山引擎达成具身智能合作
2025-12-23 09:35:07
优理奇机器人完成两轮合计3亿元天使++++轮及天使+++++轮融资,“算法-硬件-场景”加速落地
2025-12-05 17:40:08
打造“真机数据引擎”,睿尔曼智能摘得“2025年度中国商业创新金鼎典范企业”
2025-12-31 17:32:30
具身智能迎来“统考卷”:上海交通大学发布大规模开源测评集GM-100,致力推动行业标准化
2026-01-26 15:13:02
打造具身机器人「通用AI大脑」,卓世科技完成数亿元Pre-IPO轮融资
2026-02-03 02:16:00
训具身模型遇到的很多问题,在数据采集时就已经注定了丨鹿明联席CTO丁琰分享
2026-01-08 21:31:59
蚂蚁具身智能明牌了:做大脑,和宇树们错位竞争
2026-01-28 19:33:56
银河通用把“机器人表演”变成“机器人上岗”,端到端大模型银河星脑有多强
2026-02-18 11:19:14
具身机器人抢着砸钱上春晚,投资人回应了
2026-02-02 14:37:54
GDPS 2025|宇树、智元首次同台,上海如何以「应用」领跑具身智能竞赛?
2025-12-18 16:56:55
全球首个负载100斤的真实持续干活机器人,来自银河通用
2026-01-19 10:48:07
王兴兴谈具身智能赛道:未来热度或是现在的1000倍 远超移动互联网
2026-02-13 09:11:35
具身智能开年最大融资,字节红杉领投10亿
2026-01-12 15:39:06
24小时热文
更多
扫一扫体验小程序