标题:西湖大学王东林团队论文:机器人需要“通古今,知未来”丨CVPR 2026
试想一个场景:机器人拿起杯子又放下,随后重复动作,像是忘记了刚刚的行为。类似情况在现实中并不少见,比如反复按按钮或推已关好的抽屉。这些问题并非因为机器人“看不清”,而是缺乏对时间的理解能力。现有视觉语言行动模型虽能理解图像和指令,但在长步骤任务中表现不佳,根本原因在于无法模拟时空演化。
为解决这一瓶颈,西湖大学王东林团队提出了《HiF-VLA:Hindsight, Insight and Foresight for Vision-Language-Action Models》。研究中,HiF-VLA以“运动”为核心表达时间信息,建模过去、现在与未来,从而实现更稳定的连续决策。这种方法让机器人从“被动反应”走向“边思考边行动”,为具身智能迈向真实世界提供了关键突破。
实验显示,在长序列任务LIBERO-Long上,HiF-VLA单视角成功率达94.4%,多视角达96.4%,超越当前领先方法OpenVLA-OFT(单视角91.0%,多视角94.0%)。在CALVIN跨环境泛化任务中,HiF-VLA在多视角条件下取得最高分4.35,表现出更强的长期规划能力。此外,该方法计算效率高,延迟仅小幅增加,避免了传统方法因堆叠历史帧带来的高开销问题。
研究还发现,运动信息比图像更适合表示时间变化,因其剔除了静态冗余信息,保留了动态变化部分。这种设计不仅提升了性能,还增强了模型在复杂任务中的稳定性。例如,在真实机器人实验中,HiF-VLA在按顺序按按钮任务中成功率从17.4%提升至34.2%,在覆盖与堆叠任务中从33.3%提升至57.9%。
这项研究的意义在于提出了一种新范式:从“看到就做”到“边想边做”。通过引入时间建模能力,机器人能够记住过去、感知现在并预判未来,从而在复杂环境中稳定工作。这标志着具身智能正从“感知驱动的反应系统”向“时间驱动的推理系统”迈进。
论文通讯作者王东林是西湖大学人工智能系副主任,长期致力于机器人学习与智能决策研究。另一位通讯作者黄思腾现为阿里巴巴达摩院算法专家,专注于具身智能与多模态大模型。两人的合作推动了机器人在长序列任务中的能力提升,为未来智能系统的发展奠定了基础。
论文地址:https://arxiv.org/pdf/2512.09928
参考地址:https://milab.westlake.edu.cn/
黄思腾个人主页:https://kyonhuang.top/
-
2026-03-24 12:51:29 -
2026-03-24 12:50:42 -
2026-03-24 12:50:21