物理优先+VLA闭环进化：高德ABot-World世界模型，破解具身智能零样本泛化难题

2026-04-21 17:14:35

灵感Phoenix

发布在

科普

阅读：1389

物理优先+VLA闭环进化：高德ABot-World破解具身智能泛化难题

高德发布的全球首款开放环境全自主具身机器人“途途”，其核心支撑——ABot-World世界模型引发广泛关注。该模型实现了从传统视觉渲染到可微分物理引擎的根本性迁移，为机器人从仿真走向真实物理世界提供了统一且可进化的操作系统。

核心突破：从视觉渲染到物理引擎

传统世界模型（如Sora、Veo）基于像素预测，缺乏对质量、摩擦、碰撞等物理规律的约束，导致生成的操作序列常出现物体穿透、反重力悬浮等问题。ABot-World通过“物理优先”原则，将物理定律深度嵌入建模、训练与评估全链路，解决了这些根本性失败。
- 优化目标：从视觉美学转向物理一致性（动力学合理、因果可推演）。
- 输出内容：不仅生成视频序列，还隐含质量分布、接触力场等物理状态演化。
- 控制方式：支持多模态条件输入（文本+动作指令）。
- 进化能力：支持VLA闭环（预测→执行→反馈→修正），实现自我进化。

双引擎驱动架构

ABot-World采用双引擎架构：
1. ABot-3DGS：数字孪生工厂，基于高德厘米级地图数据和3D Gaussian Splatting技术，生成亿级高保真仿真场景，覆盖长尾交互任务。
2. ABot-PhysWorld：物理引擎内核，基于14B参数Diffusion Transformer主干，通过动作条件化推演和可微分物理状态输出，精确预测未来时空动力学变化。

双引擎协同实现数据制造到物理推演的无缝衔接，并支持实时决策与规划。

数据与训练创新

ABot-PhysWorld整合五大开源数据集，构建300万条真实操作视频的数据基础，采用四层分层采样策略保证多样性。通过VLM+LLM双阶段标注，将视频转化为结构化物理语义描述。
训练方法上，引入解耦判别与Diffusion-DPO机制，优化目标从像素相似度转向物理一致性，确保生成结果在动力学上合理且可执行。