标题:北京人形WoW具身世界模型引领机器人新突破
近年来,机器人在运动能力上快速进步,如后空翻、跑酷等复杂动作已不在话下。然而,让机器人理解物理现象,比如水杯倒下后水为何洒出,依然是巨大挑战。近日,北京人形机器人创新中心开源了全新世界模型架构——WoW(World-Omniscient World Model),为机器人赋予“看见、理解并行动于世界”的能力。该模型受到学术界和产业界的广泛关注,斯坦福、清华等顶尖机构纷纷引用其技术报告,Huggingface也对其高度评价。
WoW不仅仅是一次视觉模型的升级,更是一个融合视觉、动作、物理感知与推理的统一框架,使AI能够通过交互学习物理规律,并在真实环境中自主操作。如果说GPT让机器“读懂语言”,Sora让机器“看世界”,那么WoW则让机器人“理解物理世界”,并具备执行任务的能力。相比Sora 2,WoW在模拟时空一致性和物理推理上表现更优。
WoW的技术架构包括四大核心组件:
1. DiT世界生成基座模型:基于扩散Transformer,通过800万条机器人交互数据训练,具备强大的物理推理与生成能力。
2. SOPHIA自反范式:业内首次提出“生成—批评—修正”闭环机制,让模型不断优化自身预测能力。
3. FM-IDM逆动力学模型:从视频中反推出机器人可执行的动作指令,实现从“想象”到“动手”的跨越。
4. WoWBench基准:全球首个针对具身世界模型的综合评估标准,涵盖感知、推理、规划等多维度指标。
实验表明,WoW在复杂物理任务中表现优异,尤其在柔性物体和流体模拟中领先显著。简单任务成功率高达94.5%,中等难度任务达75.2%,创下新纪录。此外,WoW的学习性能随数据量增加呈幂律增长,证明真实交互数据对提升模型理解力的重要性。
北京人形开源了WoW的部分模型权重、推理代码和WoWBench基准,大幅降低研究门槛,推动具身智能机器人技术发展。未来,WoW有望在学术研究、技术演进和产业应用中发挥重要作用,例如生成合成数据、提升机器人任务执行能力等。
此前,北京人形机器人创新中心已在多项国际赛事中展现卓越实力,如夺得全球首个人形机器人半程马拉松冠军。此次WoW的发布进一步巩固了其在“最能跑、最好用”机器人领域的领先地位,为具身智能的未来铺平道路。
论文地址: https://arxiv.org/pdf/2509.22642
项目地址: https://wow-world-model.github.io/#
开源代码地址: https://wow-world-model.github.io/
.png)

-
2025-10-19 21:54:09
-
2025-10-19 20:52:57
-
2025-10-19 19:52:44