标题:VLA范式:具身智能的曙光与挑战
正文:
VLA(视觉-语言-动作模型)作为具身智能领域的关键新范式,整合视觉信息、语言指令与行动决策,显著提升机器人对复杂环境的理解和适应能力。2025年5月9日,雷峰网、AI科技评论GAIR Live品牌举办了一场主题为“具身智能之VLA的实践与突破”的线上圆桌沙龙,邀请北京大学、清华大学的多位专家探讨VLA的定义、技术路线、瓶颈及落地应用。
主持人仉尚航带领嘉宾高阳、赵行和杨耀东围绕VLA展开讨论。高阳认为推理与数据是VLA的核心挑战,推理路径尚不明朗,而数据量级和多样性不足,导致“数据不足限制模型能力、模型能力有限制约数据采集”的恶性循环。赵行指出,系统运行频率单一化带来经济成本与优化难题,设计类似人类高低频自适应闭环系统仍是未解课题。杨耀东强调,当前VLA训练存在割裂问题,缺乏端到端架构和类似人类大小脑的双向交互,需借鉴语言模型经验,采用端到端架构结合强化学习。
三位嘉宾还分享了VLA的技术路线和最新进展。高阳提到,从谷歌RT-1到π0.5,VLA发展依托于VLM的进步,同时数据质量决定模型上限。杨耀东区分了两种VLA架构:将动作视为连续空间的diffusion模型和抽象为离散token的Helix模型,但端到端训练和强化学习结合仍是关键。赵行则关注双系统设计,如π0、Hi Robot等,强调视觉、语言、动作三模态闭环的重要性。
关于强化学习与VLA结合,高阳认为需经历预训练、微调、后训练三个阶段。杨耀东指出,强化学习在连续动作空间的应用难度更大,需解决数据质量和多样性问题。赵行则提到仿真数据的价值,认为需通过“real to sim to real”技术缩小Sim2Real Gap。
泛化能力是另一热议话题。高阳主张利用互联网数据联合训练,杨耀东呼吁跳出“大脑+小脑”框架,赵行则认为未来机器人生态应丰富多样,针对具体场景优化后训练范式。
最后,嘉宾们探讨了VLA的长程任务潜力及落地场景。高阳认为短程任务的积累是基础,杨耀东强调长程任务对推理能力的需求,赵行则提议定义清晰的推理评价体系。落地场景方面,工业场景因需求迫切被认为是最优选择,但商业领域也被视为潜力市场。
本次圆桌讨论展示了VLA领域的前沿思考,为具身智能的未来发展提供了重要参考。
-
2026-04-21 17:20:04 -
2026-04-21 17:18:58 -
2026-04-21 17:17:53