西湖大学王东林团队论文：机器人需要“通古今，知未来”丨CVPR 2026

2026-03-24 11:47:03

新智燎原

发布在

科普

阅读：384

标题：西湖大学王东林团队论文：机器人需要“通古今，知未来”丨CVPR 2026

试想一个场景：机器人拿起杯子又放下，随后重复动作，像是忘记了刚刚的行为。类似情况在现实中并不少见，比如反复按按钮或推已关好的抽屉。这些问题并非因为机器人“看不清”，而是缺乏对时间的理解能力。现有视觉语言行动模型虽能理解图像和指令，但在长步骤任务中表现不佳，根本原因在于无法模拟时空演化。

为解决这一瓶颈，西湖大学王东林团队提出了《HiF-VLA：Hindsight, Insight and Foresight for Vision-Language-Action Models》。研究中，HiF-VLA以“运动”为核心表达时间信息，建模过去、现在与未来，从而实现更稳定的连续决策。这种方法让机器人从“被动反应”走向“边思考边行动”，为具身智能迈向真实世界提供了关键突破。

实验显示，在长序列任务LIBERO-Long上，HiF-VLA单视角成功率达94.4%，多视角达96.4%，超越当前领先方法OpenVLA-OFT（单视角91.0%，多视角94.0%）。在CALVIN跨环境泛化任务中，HiF-VLA在多视角条件下取得最高分4.35，表现出更强的长期规划能力。此外，该方法计算效率高，延迟仅小幅增加，避免了传统方法因堆叠历史帧带来的高开销问题。

研究还发现，运动信息比图像更适合表示时间变化，因其剔除了静态冗余信息，保留了动态变化部分。这种设计不仅提升了性能，还增强了模型在复杂任务中的稳定性。例如，在真实机器人实验中，HiF-VLA在按顺序按按钮任务中成功率从17.4%提升至34.2%，在覆盖与堆叠任务中从33.3%提升至57.9%。

这项研究的意义在于提出了一种新范式：从“看到就做”到“边想边做”。通过引入时间建模能力，机器人能够记住过去、感知现在并预判未来，从而在复杂环境中稳定工作。这标志着具身智能正从“感知驱动的反应系统”向“时间驱动的推理系统”迈进。

论文通讯作者王东林是西湖大学人工智能系副主任，长期致力于机器人学习与智能决策研究。另一位通讯作者黄思腾现为阿里巴巴达摩院算法专家，专注于具身智能与多模态大模型。两人的合作推动了机器人在长序列任务中的能力提升，为未来智能系统的发展奠定了基础。

论文地址：https://arxiv.org/pdf/2512.09928
参考地址：https://milab.westlake.edu.cn/
黄思腾个人主页：https://kyonhuang.top/

原文链接

本文链接：https://kx.umi6.com/article/34079.html

转载请注明文章出处

具身智能