Sora 2 之后，北京人形WoW具身世界模型带来aha时刻

2025-10-17 18:26:42

智慧轨迹

发布在

科普

阅读：2260

标题：北京人形WoW具身世界模型引领机器人新突破

近年来，机器人在运动能力上快速进步，如后空翻、跑酷等复杂动作已不在话下。然而，让机器人理解物理现象，比如水杯倒下后水为何洒出，依然是巨大挑战。近日，北京人形机器人创新中心开源了全新世界模型架构——WoW（World-Omniscient World Model），为机器人赋予“看见、理解并行动于世界”的能力。该模型受到学术界和产业界的广泛关注，斯坦福、清华等顶尖机构纷纷引用其技术报告，Huggingface也对其高度评价。

WoW不仅仅是一次视觉模型的升级，更是一个融合视觉、动作、物理感知与推理的统一框架，使AI能够通过交互学习物理规律，并在真实环境中自主操作。如果说GPT让机器“读懂语言”，Sora让机器“看世界”，那么WoW则让机器人“理解物理世界”，并具备执行任务的能力。相比Sora 2，WoW在模拟时空一致性和物理推理上表现更优。

WoW的技术架构包括四大核心组件：
1. DiT世界生成基座模型：基于扩散Transformer，通过800万条机器人交互数据训练，具备强大的物理推理与生成能力。
2. SOPHIA自反范式：业内首次提出“生成—批评—修正”闭环机制，让模型不断优化自身预测能力。
3. FM-IDM逆动力学模型：从视频中反推出机器人可执行的动作指令，实现从“想象”到“动手”的跨越。
4. WoWBench基准：全球首个针对具身世界模型的综合评估标准，涵盖感知、推理、规划等多维度指标。

实验表明，WoW在复杂物理任务中表现优异，尤其在柔性物体和流体模拟中领先显著。简单任务成功率高达94.5%，中等难度任务达75.2%，创下新纪录。此外，WoW的学习性能随数据量增加呈幂律增长，证明真实交互数据对提升模型理解力的重要性。

北京人形开源了WoW的部分模型权重、推理代码和WoWBench基准，大幅降低研究门槛，推动具身智能机器人技术发展。未来，WoW有望在学术研究、技术演进和产业应用中发挥重要作用，例如生成合成数据、提升机器人任务执行能力等。

此前，北京人形机器人创新中心已在多项国际赛事中展现卓越实力，如夺得全球首个人形机器人半程马拉松冠军。此次WoW的发布进一步巩固了其在“最能跑、最好用”机器人领域的领先地位，为具身智能的未来铺平道路。

论文地址: https://arxiv.org/pdf/2509.22642
项目地址: https://wow-world-model.github.io/#
开源代码地址: https://wow-world-model.github.io/

原文链接

本文链接：https://kx.umi6.com/article/26855.html

转载请注明文章出处

WoW具身世界模型