2700GB高质量数据,训出空间智能SOTA,背后秘诀全栈开源
空间智能的落地为何受限?从自动驾驶到具身智能,行业共识是:数据不足导致模型泛化能力弱,只能依赖昂贵硬件弥补。机器人感知空间主要靠RGB-D相机,它能同时捕捉RGB图像和深度信息,帮助理解三维世界。但面对镜子、玻璃门等透明或反光物体时,RGB-D相机常失效,导致感知异常。这类场景无法回避,却因缺乏高质量数据,行业过去多靠堆硬件解决。
如今,这一局面或将改变。蚂蚁灵波推出开源数据基座,基于此训练的模型已实现SOTA(当前最优性能)。其核心问题是:如何让AI具备空间理解能力?互联网上的海量RGB图像虽规模庞大,但仅提供二维信息,难以培养AI的三维感知能力。为此,行业尝试了多种方法,如RGB-D相机、激光雷达和3D重建,其中RGB-D因实时性和易用性备受青睐。然而,采集RGB-D数据困难重重,且其在透明、反光或低纹理表面表现不佳,进一步限制了高质量数据的获取。
为解决这一痛点,蚂蚁灵波开源了LingBot-Depth-Dataset数据集,规模达2.71TB,包含300万对标注RGB-D数据,涵盖真实场景与合成数据。真实数据包括住宅、医院、电梯等多种生活场景,合成数据则通过双相机渲染生成,覆盖边缘场景并降低成本。此外,数据集使用6款主流深度相机采集,覆盖不同传感器特性,增强模型泛化能力。
基于该数据集训练的LingBot-Depth模型,在多项权威基准测试中达到SOTA,并能在真实环境中驱动机器人稳健抓取透明和反光物体。随后开源的LingBot-VLA和LingBot-World,分别打通视觉、语言与动作决策,并提供仿真训练场。最终登场的LingBot-VA实现了“边推演,边执行”,引领具身智能研究趋势。
蚂蚁灵波的开源成果表明,物理AI的发展应优先考虑数据和算法,而非单纯依赖昂贵硬件。正如自动驾驶行业所证明,软件优化不仅能降低成本,还能推动商业化进程。对于具身智能而言,数据算法先行才是未来方向。
-
2026-03-31 15:55:40 -
2026-03-31 15:54:49 -
2026-03-31 15:54:35