1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

2700GB高质量数据,训出空间智能SOTA,背后秘诀全栈开源

空间智能的落地为何受限?从自动驾驶到具身智能,行业共识是:数据不足导致模型泛化能力弱,只能依赖昂贵硬件弥补。机器人感知空间主要靠RGB-D相机,它能同时捕捉RGB图像和深度信息,帮助理解三维世界。但面对镜子、玻璃门等透明或反光物体时,RGB-D相机常失效,导致感知异常。这类场景无法回避,却因缺乏高质量数据,行业过去多靠堆硬件解决。

如今,这一局面或将改变。蚂蚁灵波推出开源数据基座,基于此训练的模型已实现SOTA(当前最优性能)。其核心问题是:如何让AI具备空间理解能力?互联网上的海量RGB图像虽规模庞大,但仅提供二维信息,难以培养AI的三维感知能力。为此,行业尝试了多种方法,如RGB-D相机、激光雷达和3D重建,其中RGB-D因实时性和易用性备受青睐。然而,采集RGB-D数据困难重重,且其在透明、反光或低纹理表面表现不佳,进一步限制了高质量数据的获取。

为解决这一痛点,蚂蚁灵波开源了LingBot-Depth-Dataset数据集,规模达2.71TB,包含300万对标注RGB-D数据,涵盖真实场景与合成数据。真实数据包括住宅、医院、电梯等多种生活场景,合成数据则通过双相机渲染生成,覆盖边缘场景并降低成本。此外,数据集使用6款主流深度相机采集,覆盖不同传感器特性,增强模型泛化能力。

基于该数据集训练的LingBot-Depth模型,在多项权威基准测试中达到SOTA,并能在真实环境中驱动机器人稳健抓取透明和反光物体。随后开源的LingBot-VLALingBot-World,分别打通视觉、语言与动作决策,并提供仿真训练场。最终登场的LingBot-VA实现了“边推演,边执行”,引领具身智能研究趋势。

蚂蚁灵波的开源成果表明,物理AI的发展应优先考虑数据和算法,而非单纯依赖昂贵硬件。正如自动驾驶行业所证明,软件优化不仅能降低成本,还能推动商业化进程。对于具身智能而言,数据算法先行才是未来方向。

原文链接
本文链接:https://kx.umi6.com/article/34314.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
李开复:如果十年后回顾 DeepSeek 如何让中国未落后美国,答案是开源
2025-09-27 12:40:23
钉钉CLI开源!首批开放10项核心产品能力,原生支持ClaudeCode等
2026-03-27 20:17:17
阶跃星辰全面开源 Step 3.5 Flash:预训练+训练框架全放出 冲上 OpenClaw Top2
2026-03-04 10:34:06
小米的首代机器人VLA大模型来了!丝滑赛德芙,推理延迟仅80ms丨全面开源
2026-02-12 21:45:01
企业级OpenClaw最强拍档来了!万亿参数的国产多模态大模型,刚刚开源发布
2026-03-05 19:45:14
马斯克罕见低头:开源????推荐算法,自嘲“很烂”不过未来月更
2026-01-21 13:07:44
抖音&LV-NUS开源多模态新模,以小博大刷新SOTA,8B推理比肩GPT-4o
2025-10-14 12:13:47
商汤日日新开源模型实现空间智能性能突破,多项评测领先 GPT-5
2025-11-11 13:09:44
美国《连线》杂志:再见,GPT5;你好,千问!
2025-12-29 15:27:00
大模型的进化方向:Words to Worlds | 对话商汤林达华
2025-12-18 00:09:16
千问语音识别模型Qwen3-ASR开源!饶舌RAP歌曲也能轻松识别
2026-01-30 11:21:16
英伟达一口气开源多项机器人技术,与迪士尼合作的物理引擎也开源
2025-10-02 12:10:18
上海市规划资源局与商汤大装置联合打造,“云宇星空大模型(专业版)”正式发布
2025-12-19 16:01:12
24小时热文
更多
扫一扫体验小程序