2700GB高质量数据，训出空间智能SOTA，背后秘诀全栈开源

2026-03-31 14:51:34

智能视野

发布在

科普

阅读：86

2700GB高质量数据，训出空间智能SOTA，背后秘诀全栈开源

空间智能的落地为何受限？从自动驾驶到具身智能，行业共识是：数据不足导致模型泛化能力弱，只能依赖昂贵硬件弥补。机器人感知空间主要靠RGB-D相机，它能同时捕捉RGB图像和深度信息，帮助理解三维世界。但面对镜子、玻璃门等透明或反光物体时，RGB-D相机常失效，导致感知异常。这类场景无法回避，却因缺乏高质量数据，行业过去多靠堆硬件解决。

如今，这一局面或将改变。蚂蚁灵波推出开源数据基座，基于此训练的模型已实现SOTA（当前最优性能）。其核心问题是：如何让AI具备空间理解能力？互联网上的海量RGB图像虽规模庞大，但仅提供二维信息，难以培养AI的三维感知能力。为此，行业尝试了多种方法，如RGB-D相机、激光雷达和3D重建，其中RGB-D因实时性和易用性备受青睐。然而，采集RGB-D数据困难重重，且其在透明、反光或低纹理表面表现不佳，进一步限制了高质量数据的获取。

为解决这一痛点，蚂蚁灵波开源了LingBot-Depth-Dataset数据集，规模达2.71TB，包含300万对标注RGB-D数据，涵盖真实场景与合成数据。真实数据包括住宅、医院、电梯等多种生活场景，合成数据则通过双相机渲染生成，覆盖边缘场景并降低成本。此外，数据集使用6款主流深度相机采集，覆盖不同传感器特性，增强模型泛化能力。

基于该数据集训练的LingBot-Depth模型，在多项权威基准测试中达到SOTA，并能在真实环境中驱动机器人稳健抓取透明和反光物体。随后开源的LingBot-VLA和LingBot-World，分别打通视觉、语言与动作决策，并提供仿真训练场。最终登场的LingBot-VA实现了“边推演，边执行”，引领具身智能研究趋势。

蚂蚁灵波的开源成果表明，物理AI的发展应优先考虑数据和算法，而非单纯依赖昂贵硬件。正如自动驾驶行业所证明，软件优化不仅能降低成本，还能推动商业化进程。对于具身智能而言，数据算法先行才是未来方向。

原文链接

本文链接：https://kx.umi6.com/article/34314.html

转载请注明文章出处

开源