万字实录：VLA 范式，具身智能的曙光与迷雾丨GAIR Live

2025-06-03 15:00:50

E-Poet

发布在

科普

阅读：2212

标题：VLA范式：具身智能的曙光与挑战

正文：
VLA（视觉-语言-动作模型）作为具身智能领域的关键新范式，整合视觉信息、语言指令与行动决策，显著提升机器人对复杂环境的理解和适应能力。2025年5月9日，雷峰网、AI科技评论GAIR Live品牌举办了一场主题为“具身智能之VLA的实践与突破”的线上圆桌沙龙，邀请北京大学、清华大学的多位专家探讨VLA的定义、技术路线、瓶颈及落地应用。

主持人仉尚航带领嘉宾高阳、赵行和杨耀东围绕VLA展开讨论。高阳认为推理与数据是VLA的核心挑战，推理路径尚不明朗，而数据量级和多样性不足，导致“数据不足限制模型能力、模型能力有限制约数据采集”的恶性循环。赵行指出，系统运行频率单一化带来经济成本与优化难题，设计类似人类高低频自适应闭环系统仍是未解课题。杨耀东强调，当前VLA训练存在割裂问题，缺乏端到端架构和类似人类大小脑的双向交互，需借鉴语言模型经验，采用端到端架构结合强化学习。

三位嘉宾还分享了VLA的技术路线和最新进展。高阳提到，从谷歌RT-1到π0.5，VLA发展依托于VLM的进步，同时数据质量决定模型上限。杨耀东区分了两种VLA架构：将动作视为连续空间的diffusion模型和抽象为离散token的Helix模型，但端到端训练和强化学习结合仍是关键。赵行则关注双系统设计，如π0、Hi Robot等，强调视觉、语言、动作三模态闭环的重要性。

关于强化学习与VLA结合，高阳认为需经历预训练、微调、后训练三个阶段。杨耀东指出，强化学习在连续动作空间的应用难度更大，需解决数据质量和多样性问题。赵行则提到仿真数据的价值，认为需通过“real to sim to real”技术缩小Sim2Real Gap。

泛化能力是另一热议话题。高阳主张利用互联网数据联合训练，杨耀东呼吁跳出“大脑+小脑”框架，赵行则认为未来机器人生态应丰富多样，针对具体场景优化后训练范式。

最后，嘉宾们探讨了VLA的长程任务潜力及落地场景。高阳认为短程任务的积累是基础，杨耀东强调长程任务对推理能力的需求，赵行则提议定义清晰的推理评价体系。落地场景方面，工业场景因需求迫切被认为是最优选择，但商业领域也被视为潜力市场。

本次圆桌讨论展示了VLA领域的前沿思考，为具身智能的未来发展提供了重要参考。

原文链接

本文链接：https://kx.umi6.com/article/19624.html

转载请注明文章出处

VLA