1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

2700GB高质量数据,训出空间智能SOTA,背后秘诀全栈开源

空间智能的落地为何受限?从自动驾驶到具身智能,行业共识是:数据不足导致模型泛化能力弱,只能依赖昂贵硬件弥补。机器人感知空间主要靠RGB-D相机,它能同时捕捉RGB图像和深度信息,帮助理解三维世界。但面对镜子、玻璃门等透明或反光物体时,RGB-D相机常失效,导致感知异常。这类场景无法回避,却因缺乏高质量数据,行业过去多靠堆硬件解决。

如今,这一局面或将改变。蚂蚁灵波推出开源数据基座,基于此训练的模型已实现SOTA(当前最优性能)。其核心问题是:如何让AI具备空间理解能力?互联网上的海量RGB图像虽规模庞大,但仅提供二维信息,难以培养AI的三维感知能力。为此,行业尝试了多种方法,如RGB-D相机、激光雷达和3D重建,其中RGB-D因实时性和易用性备受青睐。然而,采集RGB-D数据困难重重,且其在透明、反光或低纹理表面表现不佳,进一步限制了高质量数据的获取。

为解决这一痛点,蚂蚁灵波开源了LingBot-Depth-Dataset数据集,规模达2.71TB,包含300万对标注RGB-D数据,涵盖真实场景与合成数据。真实数据包括住宅、医院、电梯等多种生活场景,合成数据则通过双相机渲染生成,覆盖边缘场景并降低成本。此外,数据集使用6款主流深度相机采集,覆盖不同传感器特性,增强模型泛化能力。

基于该数据集训练的LingBot-Depth模型,在多项权威基准测试中达到SOTA,并能在真实环境中驱动机器人稳健抓取透明和反光物体。随后开源的LingBot-VLALingBot-World,分别打通视觉、语言与动作决策,并提供仿真训练场。最终登场的LingBot-VA实现了“边推演,边执行”,引领具身智能研究趋势。

蚂蚁灵波的开源成果表明,物理AI的发展应优先考虑数据和算法,而非单纯依赖昂贵硬件。正如自动驾驶行业所证明,软件优化不仅能降低成本,还能推动商业化进程。对于具身智能而言,数据算法先行才是未来方向。

原文链接
本文链接:https://kx.umi6.com/article/34314.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
AI 推理性能大提升:华为 UCM 技术开源,系统吞吐猛增 22 倍
2025-11-05 18:16:46
荣耀推出智能体基础模型MagicAgent 面向全球开源
2026-03-03 16:20:21
腾讯混元图像3.0图生图开源,LMArena跻身全球第一梯队,开源最强
2026-01-28 17:26:24
美团发布开源 LongCat-Video 视频生成模型,可稳定输出 5 分钟级内容
2025-10-27 11:55:56
腾讯混元开源翻译模型 1.5:手机 1GB 内存即可运行,效果超越商用 API
2025-12-30 16:27:33
罗福莉C位亮相小米,离职DeepSeek后首次官宣
2025-11-12 16:09:20
阶跃星辰全面开源 Step 3.5 Flash:预训练+训练框架全放出 冲上 OpenClaw Top2
2026-03-04 10:34:06
华为云CEO周跃峰:加速医疗AI落地,共建共享行业模型、高质量数据集等
2026-02-02 13:38:37
智谱GLM-4.7-Flash正式发布并开源
2026-01-20 08:45:53
智谱董事长刘德兵:完全支持开源,我们已开源 40 多款 AI 模型
2025-11-16 11:28:16
小米的首代机器人VLA大模型来了!丝滑赛德芙,推理延迟仅80ms丨全面开源
2026-02-12 21:45:01
「一脑多形」圆桌:世界模型、空间智能在具身智能出现了哪些具体进展?|GAIR 2025
2026-01-08 12:14:16
打破全球语言壁垒:Meta 推出支持 1600 种语言的语音识别系统并开源
2025-11-11 18:20:16
24小时热文
更多
扫一扫体验小程序