BEV 杀入具身智能：跨维把机器人数据带上 Scaling 快车道

2026-06-12 12:28:26

新智燎原

发布在

科普

阅读：96

现在的机器人（具身智能）正面临早期自动驾驶同样的难题：数据太多却“各自为政”。不同机器人、不同相机采集的数据格式各异，缺乏统一标准。盲目堆砌数据只会导致混乱，无法实现规模化训练。

当年，自动驾驶靠BEV（鸟瞰图）技术破局，将多视角数据统一到一个三维物理坐标系中。如今，跨维智能推出Dexterity-BEV，把这套方法用在机器人身上，为具身智能修筑了数据高速公路。

它的核心绝招有三点： 1. 空间对齐：给2D视觉模型装上“3D骨架”，把不同相机的画面统一转换到俯视三维空间，让机器人真正理解物理世界，而非死记画面。 2. 动作对齐：不同机器人关节构造各异。它让模型不再死记“关节转几度”，而是统一学习“机械手在三维空间该怎么动”，实现感知与动作对齐。 3. 时序对齐：抹平不同人操作时的快慢差异，让模型专注学习任务的核心步骤。

实测证明，即使在视角改变、场景变换等干扰下，Dexterity-BEV依然表现稳定，能完成折纸盒、叠衣服等复杂真实任务。

总之，Dexterity-BEV为机器人建立了一套统一的“数据普通话”。只有底层数据互通，具身智能才能真正踏上规模化爆发的快车道。

原文链接

本文链接：https://kx.umi6.com/article/36507.html

转载请注明文章出处

BEV