1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:VLA范式:具身智能的曙光与挑战

正文:
VLA(视觉-语言-动作模型)作为具身智能领域的关键新范式,整合视觉信息、语言指令与行动决策,显著提升机器人对复杂环境的理解和适应能力。2025年5月9日,雷峰网、AI科技评论GAIR Live品牌举办了一场主题为“具身智能之VLA的实践与突破”的线上圆桌沙龙,邀请北京大学、清华大学的多位专家探讨VLA的定义、技术路线、瓶颈及落地应用。

主持人仉尚航带领嘉宾高阳、赵行和杨耀东围绕VLA展开讨论。高阳认为推理与数据是VLA的核心挑战,推理路径尚不明朗,而数据量级和多样性不足,导致“数据不足限制模型能力、模型能力有限制约数据采集”的恶性循环。赵行指出,系统运行频率单一化带来经济成本与优化难题,设计类似人类高低频自适应闭环系统仍是未解课题。杨耀东强调,当前VLA训练存在割裂问题,缺乏端到端架构和类似人类大小脑的双向交互,需借鉴语言模型经验,采用端到端架构结合强化学习。

三位嘉宾还分享了VLA的技术路线和最新进展。高阳提到,从谷歌RT-1到π0.5,VLA发展依托于VLM的进步,同时数据质量决定模型上限。杨耀东区分了两种VLA架构:将动作视为连续空间的diffusion模型和抽象为离散token的Helix模型,但端到端训练和强化学习结合仍是关键。赵行则关注双系统设计,如π0、Hi Robot等,强调视觉、语言、动作三模态闭环的重要性。

关于强化学习与VLA结合,高阳认为需经历预训练、微调、后训练三个阶段。杨耀东指出,强化学习在连续动作空间的应用难度更大,需解决数据质量和多样性问题。赵行则提到仿真数据的价值,认为需通过“real to sim to real”技术缩小Sim2Real Gap。

泛化能力是另一热议话题。高阳主张利用互联网数据联合训练,杨耀东呼吁跳出“大脑+小脑”框架,赵行则认为未来机器人生态应丰富多样,针对具体场景优化后训练范式。

最后,嘉宾们探讨了VLA的长程任务潜力及落地场景。高阳认为短程任务的积累是基础,杨耀东强调长程任务对推理能力的需求,赵行则提议定义清晰的推理评价体系。落地场景方面,工业场景因需求迫切被认为是最优选择,但商业领域也被视为潜力市场。

本次圆桌讨论展示了VLA领域的前沿思考,为具身智能的未来发展提供了重要参考。

原文链接
本文链接:https://kx.umi6.com/article/19624.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
全球首个机器人训练楼盘开盘:30万套中国住宅,机器人拎包入住
2026-06-05 15:01:09
智元:将于4月7日开启 “智元AI发布周” 密集展示具身智能领域AI自研成果
2026-04-03 11:17:24
击败PI!星动纪元登顶具身奥林匹克,狂揽三项全球冠军
2026-04-10 19:25:39
国产GPU开始造世界!国内首个全栈具身智能仿真平台来了
2026-05-19 15:37:58
卧安机器人成立具身智能产业发展公司 注册资本1亿
2026-02-13 10:12:46
具身龙虾,上车理想
2026-04-05 13:55:21
高德发布全球首个面向AGI的全栈具身技术体系“ABot”:15项SOTA,构建持续进化的具身智能闭环
2026-04-19 16:08:18
智元开源具身数据集AGIBOT WORLD 2026
2026-04-07 15:01:45
不仿真不VLA不遥操:它石智航重磅发布“能干活的通用具身大模型 ”AWE3.0 
2026-03-14 19:18:02
有余凯不投的地平线离职创业员工吗?
2026-06-07 21:50:41
具身智能领域首个行业标准正式发布
2026-03-26 22:25:30
国产世界模型登顶全球第一!断层领先谷歌英伟达,3D准确度近满分
2026-03-30 12:46:10
智元机器人联合隆鑫通用、卧龙电驱 新设两家具身智能公司
2026-03-10 15:27:19
24小时热文
更多
扫一扫体验小程序